Está en la página 1de 9

Lectura 2: Medidas de localizacion y dispersion

Estadistica Sept. 11, 2013

1.

Medidas centrales o de ubicacion


Notacion: Un conjunto de n datos se denotara por x1 , x2 , . . . , xn . Sin embargo, cuando

los datos se ordenan de menor a mayor seran representados por x[1] , x[2] , . . . , x[n] donde x[1] =
1in

m n (xi ) y x[n] = m ax (xi ).


1in

1.1.

La media

Es la medida mas conocida y util del centro de un conjunto de datos. Dado que los datos generalmente provienen de una muestra de una poblacion, la media tambien se conoce como la media muestral y se denota por x como sigue: 1 x1 + x2 + . . . + xn = n n
n

x =

xi
i=1

Asi como x es el valor promedio de una muestra, mas adelante estudiaremos el valor promedio (o valor esperado) de una poblacion denotado por . En los capitulos relacionados con estadistica inferencial se estudiara como estimar a partir de una muestra con diferentes niveles de conanza.

1.2.

La mediana

La mediana de una muestra es el dato localizado en la mitad de los datos cuando estan organizados por orden de magnitud. Se puede interpretar diciendo que la mitad de los datos de la muestra se encuentran por debajo de la mediana. En probabilidad se interpreta como el valor para el cual existe una probabilidad de 0.5 de ser superado (estos temas se estudiaran en el siguiente capitulo). La mediana de una muestra la denotaremos como x y se calcula como: x[(n+1)/2] ,

si n es impar

x =

1 x[n/2] + x[n/2+1] , si n es par 2 La media y la mediana son medidas que localizan la distribucion de los datos. Sin embargo, son valores diferentes en general. Pueden llegar a ser iguales cuando los datos son perfectamente simetricos. La mediana es una medida menos sensible a los datos que la media. Si por ejemplo, los datos mas pequenos y/o los mas grandes cambian, la mediana sigue intacta y la media si se ve afectada.

1.3.

La moda

Es la observacion (o dato) que mas se repite. En un histograma, puede calcularse como el valor representativo de la clase con mayor frecuencia. Este valor representativo se determina como el valor medio entre los limites del intervalo de la clase correspondiente.

2.
2.1.

Medidas de variabilidad o dispersion


Rango

El rango de una muestra es la diferencia entre el dato mayor y el menor, es decir, x[n] x[1] . A mayor rango se puede decir que hay mayor variabilidad en la muestra. Sin embargo, una 2

desventaja de este indicador es que solo depende de los valores extremos de la muestra. Por lo tanto, a pesar de que dos muestras de datos sean diferentes pero sus valores extremos son iguales tienen el mismo rango.

R (x) = x[n] x[1]

2.2.

Varianza y desviacion estandar muestrales

Entre las principales medidas de variabilidad se encuentran las desviaciones. Generalmente, estas se obtienen como la diferencia entre cada dato y la media xi x . El resultado de sumarlas es igual a cero (ver pagina 36 de [1]). Entonces, para tener una medida (diferente de cero) media de la variabilidad, se pueden sumar los valores absolutos de las diferencias |xi x | /n. Esta es una medida valida de variabilidad. Sin embargo, en la literatura se ha adoptado por sumar los cuadrados de las diferencias dividiendo entre n 1 (y no entre n1 ) dando lugar a la varianza muestral s2 como se muestra a continuacion:
n i=1

Varianza muestral = s =

(xi x )2 Sxx = n1 n1

La desviacion estandar muestral se dene como la raiz cuadrada (positiva) de la varianza: s2

Desviacion estandar muestral = s = De manera alternativa, se puede determinar que


n n

Sxx =
i=1
1

( xi x ) =
i=1

x2 2 i nx

Para obtener un estimador mas apropiado de la varianza de la poblacion

2.3.

Coeciente de variacion muestral

En una muestra, se dene como la razon entre la desviacion estandar y la media: s x

CV =

CV evalua el grado de variabilidad con respecto a la media. Es una medida util para comparar diferentes conjuntos de datos o muestras ya que es una cantidad adimensional y usualmente se presenta en porcentaje. Ejemplo. Suponga que se tienen 10 mediciones de corriente (en A) en una linea de distribucion: 20, 22, 30, 28, 18, 16, 15, 19, 23, 29. Determinar la media, mediana, rango, varianza, desviacion estandar y coeciente de variacion para los datos de la linea de distribucion. i 1 2 3 4 5 6 7 8 9 10 xi xi x |xi x | (xi x )2

xi =

(xi x ) =

|xi x | =

( xi x )2 =

Cuadro 1: Medidas de variabilidad R/ x = 22, x = 21, R(x) = 15, s2 = 29,333, s = 5,416, CV = 24,62 % Se pueden hacer los mismos calculos usando R mediante las funciones mean, median, var, sd. x <- c(20, 22, 30, 28, 18, 16, 15, 19, 23, 29) ; xbar = mean(x) xtilde = median(x) 4

rangex = max(x) - min(x) varx = var(x) sdx = sd(x) CV = 100*sdx/xbar

3.

Percentiles (y cuantiles)
Un percentile es una medida usada para indicar el valor por debajo del cual se encuentra

un porcentaje del grupo de datos. Por ejemplo, cuando decimos que un atleta llego en el puesto 10 de 200, podemos interpretar aproximadamente que esta ubicado en el percentil 10/200 100 = 5. Este es solo un calculo aproximado, se necesitan mejores datos para calcular mejor su posicion relativa en el grupo como por ejemplo una lista con todos los tiempos empleados por cada uno de los atletas. Matematicamente, se puede crear una lista que dene los percentiles pi = (i ,5) /n para i = 1, 2, . . . , n. Luego, decimos que el dato x[i] corresponde al i-esimo cuantil. Cuando se desea calcular el p-esimo cuantil Q(p), se pueden tener dos casos: x [i ] ,

Q(p) =

si p = pi

(1 f ) x[i] + f x[i+1] , si pi < p < pi+1 donde f =


ppi pi+1 pi

= n(p pi ). Cuando pi < p < pi+1 se realiza una interpolacion lineal

para determinar el valor de Q(p). A partir de los cuartiles, se pueden determinar cantidades como: Cuartil superior = percentil 75 = Q(0,75) = Q3 Mediana = percentil 50 = Q(,50) = Q2 Cuartil inferior = percentil 25 = Q(0,25) = Q1 Rango inter-cuartil = IQR = Q3 Q1 5

Ejemplo. Suponga que se tienen los tiempos (en minutos) tomados para correr 10k de 10 atletas: 55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2. Determine Q(0,25), Q(0,5), Q(0,75), y Q(0,33). Interprete los resultados. Por facilidad construimos una tabla con los percentiles pi como se muestra en la Tabla 2. i pi = (i ,5)/10 Q(pi ) 1 0.05 33.2 2 0.15 35.5 3 0.25 37.2 4 0.35 45.3 5 0.45 48.6 6 0.55 51.1 7 0.65 52.8 8 0.75 55.0 9 0.85 56.7 10 0.95 60.0 Cuadro 2: Percentiles

En R, los quantiles se pueden determinar con la funcion quantile. > tiempos <- c(55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2) > quantile(tiempos) 0% 25% 50% 75% 100%

33.200 39.225 49.850 54.450 60.000 Sin embargo, tambien se pueden especicar los percentiles respectivos usando un vector con los respectivos valores deseados en el segundo argumento de la funcion quantile. Tambien, se puede determinar el tipo de metodo de calculo de los percentiles. El metodo estudiado en clase es type 5: > quantile(tiempos, c(.25, 0.5, 0.75, 0.33),type = 5) 25% 50% 75% 33%

37.20 49.85 55.00 43.68

Figura 1: Estructura de un graco de caja

**

OV UAV Q3 Mediana (Q2)

Q1 LAV

3.1.

Boxplots

Una graca de caja es tambien una representacion graca de un conjunto de datos. Es util para estudiar la forma de la distribucion incluyendo su simetria o asimetria alrededor de una ubicacion central, basada en cantidades como: Limite superior (upper fence) = Q3 + 1,5IQR Limite inferior (lower fence) = Q1 1,5IQR Upper Adjacent Value (UAV) = la maxima observacion menor al limite superior Lower Adjacent Value (LAV) = la minima observacion mayor al limite inferior Valores extremos = observaciones que estan por fuera del intervalo de UAV y LAV La forma de un graco de caja es como se muestra en la Fig. 1. La caja encierra el 50 % de los datos del centro. Tambien, observando la linea de la mediana se pueden extraer conclusiones acerca de la simetria de la distribucion de la muestra. 7

Tiempos [min]

Figura 2: Graco de caja de tiempos de los atletas Ejemplo. Hacer el graco de caja usando los tiempos de la carrera de 10k. Del ejemplo anterior teniamos que Q1 = 37,2, Q2 = 49,85, y Q3 = 55,0. Luego: IQR = Q3 Q1 = 17,8 Limite superior = 81.7 Limite inferior = 10.5 UAV = 60 LAV = 33.2 Valores extremos = ninguno Usando R se obtiene el graco de la Fig. 2. El codigo empleado seria: Times <- c(55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2) ; boxplot(Times, ylab = "Tiempos [min]") 8

35

40

45

50

55

60

Referencias
[1] Jay L. Devore. Probabilidad y estadistica para ingenieria y ciencias, Octava edicion. Cengage Learning, Julio 2011.

También podría gustarte