Está en la página 1de 3

Existe una gran variedad de medidas numéricas de resúmen y métodos grá-

…cos que se emplean en un Análisis Exploratorio de Datos. En este documento


incluimos, a modo de resumen, las que utilizaremos en las actividades siguientes,
que son de hecho las las usadas.

1 Medidas numéricas de resumen


Para datos x1 ; x2 ; :::; xn se denomina

n = cantidad de datos

1.1 Medidas de localización


1 Xn
x= xi = media, es el promedio de los datos
n i=1

xmin = min(x1 ; :::; xn ) = mínimo


xmax = max(x1 ; :::; xn ) = máximo
x
~ = med(x1 ; :::; xn ) = mediana, número que divide la muestra ordenada
en dos parte iguales

q1 = primer cuartil, número que divide la muestra ordenada en propor-


ciones 1/4, 3/4
q3 = tercer cuartil, número que divide la muestra ordenada en propor-
ciones 3/4, 1/4

pk = 100k% decíl, divide la muestra ordenada en proporciones k y (1 k)

1.2 Medidas de variabilidad o dispersión


1 Xn
s2 = (xi x)2 = varianza
n 1 i=1

M AD = med(jx1 x
~j ; :::; jxn x
~j)
R = xmax xmin = rango

d = q3 q1 = rango intercuartil
s
cv = = coe…ciente de variación
x

1.3 Dos variables


Cuando se miden n veces dos magnitudes de un sujeto, se obtienen n pares
(x1 ; y1 ); (x2 ; y2 ); :::; (xn ; yn ); y se de…ne
1 Xn
cov(x; y) = (xi x)(yi y) = covarianza
n 1 i=1

cov(x;y)
rxy = sx sy = coe…ciente de correlación (sx = varianza de x, simil sy )

1
2 Métodos grá…cos
2.1 Histograma:
Se dividen los datos en clases y se gra…can contra (un múltiplo de) la frecuencia
relativa. Es importante que el área de cada rectángulo sea (proporcional a) la
frecuencia relativa. Este grá…co está relacionado con la Tabla de frecuencias
relativas, donde se contabilizan los datos agrupados en clases.

2.2 Grá…co de densidad puntos


Se dibujan puntos sobre una escala numerada, uno por cada dato.

2.3 Distribución empírica


Tal como su nombre lo indica, es el grá…co de la distribución acumulada de los
datos muestrales.

2
2.4 Gra…co de caja y bigote
También denominado Box-plot. Sobre una escala que remarca los datos entre
el primer y tercer cuartil. La mediana se indica con una barra en la caja y la
media con un punto. Los “bigotes” se extienden hasta el máximo o mínimo,
o 3/2 del tamaño de la caja, lo que ocurra primero. Por afuera de ese rango
aparecen los outliers (observaciones atípicas).

2.5 Diagrama de dispersión


Cuando se tiene una muestra bivariada, es decir, cuando se miden dos magni-
tudes de cada sujeto, se gra…ca una variable contra la otra.

También podría gustarte