Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ruta de clase
TEMA: Análisis exploratorio de datos (AED)
I. Preguntas Generales
II. Introducción
La finalidad de Análisis Exploratorio de Datos (AED) es hacer un análisis preliminar de los datos previamente a
la aplicación de cualquier técnica estadística avanzada. Esto le permite al investigador un entendimiento básico
de sus datos y de las posibles relaciones existentes entre las variables evaluadas en su estudio.
El AED descriptiva proporciona métodos sencillos para organizar y preparar los datos, detectar fallas en el
diseño del estudio, fallas en la recolección de los datos, tratamiento y evaluación de datos ausentes,
identificación de casos atípicos y comprobación de los supuestos que serán necesarias en la aplicación de
técnicas inferenciales.
Es una medida estadística que resume o representa en un solo valor a todos los valores evaluados de una
característica o variable en un conjunto de individuos pertenecientes a una muestra o una población.
Las medidas de tendencia central más utilizadas son: media, mediana y moda.
Sea x1, x2, . . .,xn un conjunto de observaciones de una variable X cuantitativa, evaluada en los individuos de
una población o de una muestra, los cuales son utilizados para calcular la medias estadísticas
Es la media estadística más importante, dado que en su cálculo intervienen todos los valores evaluados. Si los
datos provienen de los individuos de una población, la media se denomina media poblacional () y si provienen
de una muestra se denomina media muestral ( X ).
∑ xi ∑ xi
μ= i=0 X = i=0
N n
Donde:
x i es el valor que toma la variable en cada uno de los individuos
N es el número de individuos o tamaño de la población
n es el número de individuos o tamaño de la muestra
Cuando los datos están agrupados en una tabla de distribución de frecuencias, la media se caula como:
∑ MC∗FA ∑ MC∗FA
Clases Clases
μ= X=
N n
Donde:
Propiedades de la media
- Si multiplicamos o dividimos todas las observaciones por un mismo número, la media queda multiplicada o
dividida por dicho número
- Si le sumamos a todas las observaciones un mismo número, la media aumentará en dicha cantidad.
La mediana
Es un valor que divide a todas las observaciones en dos grupos con el mismo número de individuos 50% por
debajo él y 50% por encima él.
4. La mediana es el valor que corresponde a la posición calculada o está entre las posiciones calculadas
La mediana para datos que se encuentra agrupados en una tabla de distribución de frecuencias se calcula
como:
Se ubica la clase donde se encuentra el 50% de FRA (frecuencia relativa acumulada) y sobre esa clase se
calcula
El principal problema de la mediana es que solo tiene en cuenta para el cálculo los valores centrales,
ignorando los demás datos evaluados.
La moda
Es una medida poco recomendable ya que no representa bien la serie de datos, porque no necesariamente se
encuentra en el centro de los datos y puede que solamente se repita una vez por encima de las demás datos
Cuando los datos no están agrupados en tabla de distribución de frecuencias, la moda es el valor que mas se
repite, por ejemplo:
Si los datos se encuentran agrupados en una tabla de distribución de frecuencias, la moda es el valor
alrededor del cual se encuentra la mayor concentración de información.
Si las clases tienen igual amplitud, se ubica la clase modal como la que tiene mayor frecuencia absoluta o
mayor frecuencia relativa, y sobre esa clase se calcula:
Cuando se calcula una medida de tendencia central, se debe acompañar con una medida de dispersión o
variabilidad. Las medidas de variabilidad indican cuanto se alejan los datos o que tan dispersos están con
respecto a una medida de tendencia central. Las medidas de variabilidad en los programas de computador o
calculadoras está programado con respecto a la media aritmética, si se desea hacer con respecto a otra
medida de tendencia central se debe hacer de forma manual. Algunas medidas de dispersión son: la varianza,
la desviación típica o estándar y el coeficiente de variación
La varianza
- Mide el promedio de las desviaciones ¿ al cuadrado de las observaciones con respecto a la media, sin
embargo, puede calcularse la varianza con respecto a otra medida de tendencia central
- Es sensible a valores extremos, alejados de la media
- Su único inconveniente es que para interpretarse se encuentra en unidades cuadradas
- Los valores alejados del promedio influyen bastante en el cálculo, porque las desviaciones de la media son
elevadas al cuadrado
Si los datos no están agrupados en una tabla de distribución de frecuencias, la varianza se calcula como:
∑ (x i−μ)2 ∑ (xi −X )2
σ 2= i=0 S2= i=0
N n−1
Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias, la varianza se calcula
como:
2
∑ ( MC−μ)2∗FA 2
∑ ( MC −X )2∗FA
σ = Clases S = Clases
N n−1
σ =√ σ S= √ S
2 2
Coeficiente de variación
Al calcular la desviación estándar no se puede determinar que tan grande es la variabilidad, para entender su
magnitud, se debe establecer la relación que existe entre la desviación estándar y la media, es decir, determina
que tan grande es la desviación estándar con respecto a la media.
El coeficiente de variación se denomina también variabilidad relativa, dado que se expresa como un
porcentaje, esto es, que porcentaje de la media es la desviación estándar. La variabilidad relativa puede ser
superior al 100%. Por ejemplo, si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan
más dispersión en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada
arbitrariamente, por ejemplo, en la temperatura 0ºC ≠ 0ºF.
Puede calcularse con respecto a cualquier otra medida de tendencia central, siempre la desviación estándar se
haya calculado con base en dicha medida.
σ S
CV = ∗100 CV = ∗100
μ X
V. Medidas de posición
Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de
individuos. Por ejemplo, los cuartiles dividen en grupos de 25%, los deciles en grupos de
10% y los percentiles en grupos del 1%.
Los cuartiles
Son tres valores (Q1, Q2 y Q3) que dividen la serie de datos en cuatro partes iguales del 25% de los datos cada
una, así:
El 25% de los datos está por debajo de Q1
El 50% de los datos está por debajo de Q2 = Mediana
El 75% de los datos está por debajo de Q3
Los percentiles
Son 99 valores (P1, P2, …, P99) que dividen la serie de datos en 100 partes iguales del 1% de los datos cada
una. Algunos ejemplos de los percentiles son:
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias
características importantes, al mismo tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un
rectángulo, alineado horizontal o verticalmente
Adicionalmente se deben calcular los cercos como límites para determinar la existencia de valores atípicos
Primer cuartil
Q1=LI clase +
( 25−FRA anterior
FR clase )∗amplitud
Tercer cuartil
Se ubica la clase que contiene el percentil deseado y sobre esa clase se calcula
La universidad ICESI preocupada por el constante retraso que presentan los estudiantes en la
llagada a la clase de las 7 am, realiza un estudio para determinar el tiempo en minutos que
demoran los buses en realizar el recorrido entre la estación universidades y la universidad ICESI.
Hace un seguimiento a una muestra de 30 buses de una determinada ruta y encuentra los
siguientes resultados.
18 19 20 22 23 23 24 24 25 25
26 26 26 26 26 27 27 27 28 28
29 29 29 29 30 30 31 31 32 32
Resultados para la variable tiempo de recorrido sin agrupar los datos
Promedio
El tiempo promedio del recorrido del bus del MIO en dicha ruta es de 26.4 minutos
La mediana
Los datos están ordenados en forma ascendente (de izquierda a derecha) y n=30,
Posición de la mediana
( 30+1 )∗50
L Me= =15.5
100
La mediana es el promedio de los valores que están en la posición 15 y 16, esto es:
26+27
Me= =26.5
2
El 50% de los buses tuvo un tiempo de recorrido por debajo de 26.5 minutos y el 50% tuvo un tiempo de
recorrido por encima de 26.5 minutos
La moda
La varianza
La desviación estándar
S=
√ (18−26.4)2 +(19−26.4)2 +. ..+(32−24.6)2
29
=√ 13.42=3.66
El coeficiente de variación
3.66
CV = ∗100=27.3 %
13.42
Cuartiles
Primer cuartil
( 30+1 )∗25
LQ 1 = =7.75
100
Segundo cuartil
Q2 = Me = 26.5
Tercer cuartil
( 30+1 )∗75
LQ 3 = =23.25
100
Q1=29+ 0.25(29−29)=29
Cercos
CI =24−1.5∗(29−24)=16.5
CS=29+1.5∗(29−24)=36.5
Frecuencia
Frecuencia
Marca Frecuencia Frecuencia Relativa
Clase Intervalo Absoluta
de clase absoluta relativa (%) acumulada
acumulada
(%)
1 (9-13] 11 8 16 8 16
2 (13-17] 15 13 26 21 42
3 (17-21] 19 10 20 31 62
4 (21-25] 23 9 18 40 80
5 (25-29] 27 6 12 46 92
6 (29-33] 31 4 8 50 100
Promedio
11∗8+15∗13+. . .+ 31∗4
X= =19.3
50
La edad promedio a la que comienza la actividad delictiva los jóvenes de dicha zona es de 19.3 años
La mediana
La clase que contiene 50% de frecuencia relativa acumulada es la clase 3, sobre esa clase se calcula:
Me=17+ ( 50−42
20 )
∗4=18.6
El 50% de los jóvenes comienza su actividad delictiva por debajo de los 18.6 años
La moda
La clase modal es la número 2, dado que tiene la mayor frecuencia absoluta, sobre esa clase se calcula:
Mo=13+ ( 2∗26−16−20
26−16
)∗4=15.5
La edad a la que con mayor frecuencia comienza la actividad delictiva los jóvenes de la zona es a los 15.5
años
La varianza
2 2
2 (11−19.3) ∗8+.. .+(31−19.3) ∗4
S= =37.12
49
La desviación estándar
S= √37.12=6.09
Coeficiente de variación
6.09
CV = ∗100=31.6 %
19.3
Cuartiles
Q1=13+ ( 25−16
26 )
∗4=14.4
El 25% de los jóvenes comenzó su actividad delictiva antes de las 14.4 años
Q3=2 1+ ( 75−62
18 )
∗4=23.9
El 75% de los jóvenes comenzó su actividad delictiva antes de las 23.9 años