Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1.
los datos se ordenan de menor a mayor seran representados por x[1] , x[2] , . . . , x[n] donde x[1] =
1in
1.1.
La media
Es la medida mas conocida y util del centro de un conjunto de datos. Dado que los datos generalmente provienen de una muestra de una poblacion, la media tambien se conoce como la media muestral y se denota por x como sigue: 1 x1 + x2 + . . . + xn = n n
n
x =
xi
i=1
Asi como x es el valor promedio de una muestra, mas adelante estudiaremos el valor promedio (o valor esperado) de una poblacion denotado por . En los capitulos relacionados con estadistica inferencial se estudiara como estimar a partir de una muestra con diferentes niveles de conanza.
1.2.
La mediana
La mediana de una muestra es el dato localizado en la mitad de los datos cuando estan organizados por orden de magnitud. Se puede interpretar diciendo que la mitad de los datos de la muestra se encuentran por debajo de la mediana. En probabilidad se interpreta como el valor para el cual existe una probabilidad de 0.5 de ser superado (estos temas se estudiaran en el siguiente capitulo). La mediana de una muestra la denotaremos como x y se calcula como: x[(n+1)/2] ,
si n es impar
x =
1 x[n/2] + x[n/2+1] , si n es par 2 La media y la mediana son medidas que localizan la distribucion de los datos. Sin embargo, son valores diferentes en general. Pueden llegar a ser iguales cuando los datos son perfectamente simetricos. La mediana es una medida menos sensible a los datos que la media. Si por ejemplo, los datos mas pequenos y/o los mas grandes cambian, la mediana sigue intacta y la media si se ve afectada.
1.3.
La moda
Es la observacion (o dato) que mas se repite. En un histograma, puede calcularse como el valor representativo de la clase con mayor frecuencia. Este valor representativo se determina como el valor medio entre los limites del intervalo de la clase correspondiente.
2.
2.1.
El rango de una muestra es la diferencia entre el dato mayor y el menor, es decir, x[n] x[1] . A mayor rango se puede decir que hay mayor variabilidad en la muestra. Sin embargo, una 2
desventaja de este indicador es que solo depende de los valores extremos de la muestra. Por lo tanto, a pesar de que dos muestras de datos sean diferentes pero sus valores extremos son iguales tienen el mismo rango.
2.2.
Entre las principales medidas de variabilidad se encuentran las desviaciones. Generalmente, estas se obtienen como la diferencia entre cada dato y la media xi x . El resultado de sumarlas es igual a cero (ver pagina 36 de [1]). Entonces, para tener una medida (diferente de cero) media de la variabilidad, se pueden sumar los valores absolutos de las diferencias |xi x | /n. Esta es una medida valida de variabilidad. Sin embargo, en la literatura se ha adoptado por sumar los cuadrados de las diferencias dividiendo entre n 1 (y no entre n1 ) dando lugar a la varianza muestral s2 como se muestra a continuacion:
n i=1
Varianza muestral = s =
(xi x )2 Sxx = n1 n1
Sxx =
i=1
1
( xi x ) =
i=1
x2 2 i nx
2.3.
CV =
CV evalua el grado de variabilidad con respecto a la media. Es una medida util para comparar diferentes conjuntos de datos o muestras ya que es una cantidad adimensional y usualmente se presenta en porcentaje. Ejemplo. Suponga que se tienen 10 mediciones de corriente (en A) en una linea de distribucion: 20, 22, 30, 28, 18, 16, 15, 19, 23, 29. Determinar la media, mediana, rango, varianza, desviacion estandar y coeciente de variacion para los datos de la linea de distribucion. i 1 2 3 4 5 6 7 8 9 10 xi xi x |xi x | (xi x )2
xi =
(xi x ) =
|xi x | =
( xi x )2 =
Cuadro 1: Medidas de variabilidad R/ x = 22, x = 21, R(x) = 15, s2 = 29,333, s = 5,416, CV = 24,62 % Se pueden hacer los mismos calculos usando R mediante las funciones mean, median, var, sd. x <- c(20, 22, 30, 28, 18, 16, 15, 19, 23, 29) ; xbar = mean(x) xtilde = median(x) 4
3.
Percentiles (y cuantiles)
Un percentile es una medida usada para indicar el valor por debajo del cual se encuentra
un porcentaje del grupo de datos. Por ejemplo, cuando decimos que un atleta llego en el puesto 10 de 200, podemos interpretar aproximadamente que esta ubicado en el percentil 10/200 100 = 5. Este es solo un calculo aproximado, se necesitan mejores datos para calcular mejor su posicion relativa en el grupo como por ejemplo una lista con todos los tiempos empleados por cada uno de los atletas. Matematicamente, se puede crear una lista que dene los percentiles pi = (i ,5) /n para i = 1, 2, . . . , n. Luego, decimos que el dato x[i] corresponde al i-esimo cuantil. Cuando se desea calcular el p-esimo cuantil Q(p), se pueden tener dos casos: x [i ] ,
Q(p) =
si p = pi
para determinar el valor de Q(p). A partir de los cuartiles, se pueden determinar cantidades como: Cuartil superior = percentil 75 = Q(0,75) = Q3 Mediana = percentil 50 = Q(,50) = Q2 Cuartil inferior = percentil 25 = Q(0,25) = Q1 Rango inter-cuartil = IQR = Q3 Q1 5
Ejemplo. Suponga que se tienen los tiempos (en minutos) tomados para correr 10k de 10 atletas: 55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2. Determine Q(0,25), Q(0,5), Q(0,75), y Q(0,33). Interprete los resultados. Por facilidad construimos una tabla con los percentiles pi como se muestra en la Tabla 2. i pi = (i ,5)/10 Q(pi ) 1 0.05 33.2 2 0.15 35.5 3 0.25 37.2 4 0.35 45.3 5 0.45 48.6 6 0.55 51.1 7 0.65 52.8 8 0.75 55.0 9 0.85 56.7 10 0.95 60.0 Cuadro 2: Percentiles
En R, los quantiles se pueden determinar con la funcion quantile. > tiempos <- c(55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2) > quantile(tiempos) 0% 25% 50% 75% 100%
33.200 39.225 49.850 54.450 60.000 Sin embargo, tambien se pueden especicar los percentiles respectivos usando un vector con los respectivos valores deseados en el segundo argumento de la funcion quantile. Tambien, se puede determinar el tipo de metodo de calculo de los percentiles. El metodo estudiado en clase es type 5: > quantile(tiempos, c(.25, 0.5, 0.75, 0.33),type = 5) 25% 50% 75% 33%
**
Q1 LAV
3.1.
Boxplots
Una graca de caja es tambien una representacion graca de un conjunto de datos. Es util para estudiar la forma de la distribucion incluyendo su simetria o asimetria alrededor de una ubicacion central, basada en cantidades como: Limite superior (upper fence) = Q3 + 1,5IQR Limite inferior (lower fence) = Q1 1,5IQR Upper Adjacent Value (UAV) = la maxima observacion menor al limite superior Lower Adjacent Value (LAV) = la minima observacion mayor al limite inferior Valores extremos = observaciones que estan por fuera del intervalo de UAV y LAV La forma de un graco de caja es como se muestra en la Fig. 1. La caja encierra el 50 % de los datos del centro. Tambien, observando la linea de la mediana se pueden extraer conclusiones acerca de la simetria de la distribucion de la muestra. 7
Tiempos [min]
Figura 2: Graco de caja de tiempos de los atletas Ejemplo. Hacer el graco de caja usando los tiempos de la carrera de 10k. Del ejemplo anterior teniamos que Q1 = 37,2, Q2 = 49,85, y Q3 = 55,0. Luego: IQR = Q3 Q1 = 17,8 Limite superior = 81.7 Limite inferior = 10.5 UAV = 60 LAV = 33.2 Valores extremos = ninguno Usando R se obtiene el graco de la Fig. 2. El codigo empleado seria: Times <- c(55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2) ; boxplot(Times, ylab = "Tiempos [min]") 8
35
40
45
50
55
60
Referencias
[1] Jay L. Devore. Probabilidad y estadistica para ingenieria y ciencias, Octava edicion. Cengage Learning, Julio 2011.