Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Area de Estad stica e Investigaci on Operativa Licesio J. Rodr guez-Arag on Enero 2010
Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Medidas de Posici on Introducci on . . . . . . . . . . . . . . . . . Media Aritm etica, Arithmetic Mean Media Aritm etica con R . . . . . . . . . Media Ponderada, Weighted Mean . Media Geom etrica, Geometric Mean Media Arm onica, Harmonic Mean . . Mediana, Median . . . . . . . . . . . . . . Moda, Mode . . . . . . . . . . . . . . . . . Cuartiles, Quartile . . . . . . . . . . . . . Percentiles, Percentile . . . . . . . . . . Observaciones . . . . . . . . . . . . . . . . Medidas de Posici on con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Medidas de Dispersi on Introducci on . . . . . . . . . . . . . . . . . . . . . . . . Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . Momentos con R . . . . . . . . . . . . . . . . . . . . . Varianza y Desviaci on T pica . . . . . . . . . . . . Varianza con R . . . . . . . . . . . . . . . . . . . . . . Coeciente de Variaci on, Variation Coecient Medidas de Forma Asimetr a, Skewness . . . . . . Curtosis, Kurtosis . . . . . . . Asimetr a y Curtosis con R. Histograma de Ingresos . . . Histograma de Ingresos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contenidos
Medidas de Posici on
Medias, Mediana, Moda, Cuartiles y Percentiles. Mean, Median, Mode, Quartile and Percentile.
Las Medidas Estad sticas tienen como objetivo sustituir toda la informaci on, por unos pocos valores que la caractericen. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 2 / 29
Medidas de Posici on
Introducci on
Las Medidas de Posici on tienen por objetivo proporcionar valores en torno al los cuales se encuentran las observaciones.
3 / 29
Algunas de ellas se denominan Medidas de Tendencia Central, porque suelen situarse en torno al centro de los datos. Media: Aritm etica (Arithmetic), Ponderada (Weighted), Geom etrica (Geometric), Arm onica (Harmonic). Mediana (Median). Moda (Mode). Cuartiles y Percentiles (Quartile and Percentile). Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 4 / 29
1 n
ni xi =
fi xi
La media es muy sensible a los valores extremos. Es la medida m as utilizada, muchos procedimientos estad sticos se basan en ella. La Media Aritm etica representa el centro de gravedad del histograma. Arithmetic Mean: The quantity commonly referred to as the mean of a set of values is the arithmetic mean, also called the average. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 5 / 29
2e+04
4e+04
6e+04
8e+04
1e+05
ingresos
Tema 3, M.E.I. 6 / 29
xw =
The Weighted Mean is similar to an Arithmetic Mean (the most common type of average), where instead of each of the data points contributing equally to the nal average, some data points contribute more than others. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 7 / 29
xG =
xi
i
Tiene una aplicaci on menos frecuente que la Media Aritm etica, pero importante: A no 1 2 3 Capital Inicial 10000 10500 12600 Tasa de Crecimiento 0.05 0.20 0.50 Factor de Expansi on 1.05 1.20 1.50 Capital Final 10500 12600 18900
1
m ni i xi
Se toman los inversos de los datos, se promedian y por u ltimo se toma el inverso de ese promedio. Si un coche recorre una distancia d a 100km/h y deshace el camino a una velocidad de 120km/h, la velocidad media a la que ha realizado el viaje es: velocidadA =
1 1 2 ( 100
1 +
1 120 )
velocidad media =
d 100
Mediana, Median
Es el valor de la variable estad stica que deja igual n umero de observaciones a su derecha que a su izquierda. Ordenando los datos de menor a mayor, la mediana ser a el dato central o el promedio de los centrales (tama no par). The statistical median is an order statistic that gives the middle value of a sample. More specically, it is the value such that an equal number of samples are less than and greater than the value (for an odd sample size), or the average of the two central values (for an even sample size). 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
1.0 Frecuencia Acumulada 0.6 0.8
1/2
0.0 0
0.2
0.4
1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
1.0 Frecuencia Acumulada 0.6 0.8
1/2
0.0 0
0.2
0.4
En el caso de datos agrupados, lo m as adecuado es hablar del intervalo mediano. Gr acamente la mediana se obtendr a:
1.0 0.8
Frecuencia Acumulada
0.4
Fi
0.0
0.2
bi 0 2 4
Me 6
bi+1 8 10
Moda, Mode
Es el valor de la variable estad stica que se presenta con mayor frecuencia. No tiene por qu e ser u nica y puede no poderse calcular. The most common value obtained in a set of observations. Ejemplo: 1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 Moda = 2 Ejemplo: 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 Moda = 2 y 6 En el caso de datos agrupados, se suele hablar de intervalo modal, aqu el de mayor frecuencia.
Histograma de Ingresos
Densidad de Frecuencia
5.0e06
1.0e05
1.5e05
0.0e+00
Md
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
Ingresos
Tema 3, M.E.I. 11 / 29
Cuartiles, Quartile
Qk para k = 1, 2, 3, se dene Cuartil k esimo como el valor de la variable que deja inferiores o iguales a el las k/4 partes de las observaciones. Q2 = Me Ejemplo: 1, 1, 2, 2, 2, 3, 3, 4,4 , 5, 5, 5, 6, 6, 6, 8 n = 16 Q1 deja inferiores o iguales a el, 1/4 de las observaciones, 4. Q2 deja inferiores o iguales a el, 1/2 de las observaciones, 8. Q3 deja inferiores o iguales a el, 3/4 de las observaciones,12. One of the four divisions of observations which have been grouped into four equal-sized sets based on their statistical rank. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 12 / 29
Percentiles, Percentile
El k esimo Percentil Pk , se dene como el valor de la variable estad stica que deja inferiores o iguales a el las k/100 observaciones. P25 = Q1 , P50 = Q2 = Me, P75 = Q3 .
Siendo (bi , bi+1 ) el intervalo de clase que contiene Pk . The kth percentile is that value of X , say xk , which corresponds to a cumulative frequency of where n is the sample size. Licesio J. Rodr guez-Arag on
nk 100 ,
Tema 3, M.E.I. 13 / 29
Observaciones
La Mediana es un estad stico basado en propiedades ordinales. Valor de la variable que ocupa el orden (n + 1)/2. La Mediana divide al histograma en dos partes de areas iguales. La Moda es el valor con mayor frecuencia de aparici on. La Moda corresponde a la mayor altura del histograma. Cuando trabajemos con distribuciones con valores at picos o asim etricas, trabajaremos con la Mediana en lugar de con la Media. Los valores extremos inuyen gravemente en la Media. Si la distribuci on es sim etrica y unimodal, los tres puntos coinciden, Media, Mediana y Moda. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 14 / 29
> quantile(ingresos,c(0.1,0.25,0.5,0.6,0.75,0.90)) 10% 25% 50% 60% 75% 90% 10854.74 14904.70 35976.87 37210.37 47797.85 64758.37 > X<-c(1,1,2,2,2,3,3,4,5,5,6,6,6,8) > summary(X) Min. 1st Qu. 1.000 2.000 Median 3.500 Mean 3rd Qu. 3.857 5.750 Max. 8.000 Tema 3, M.E.I. 15 / 29
Medidas de Dispersi on
Introducci on
Las Medidas de Dispersi on tienen como objetivo cuanticar la variabilidad de los datos. Recorrido, Recorrido Intercuart lico, Recorrido Semiintercuartilico. Range, Interquartile Range, Quartile Deviation. Varianza, Desviaci on T pica, Cuasivarianza. Variance, Standar Deviation, Quasivariance. Coeciente de Variaci on. Variation Coecient. Licesio J. Rodr guez-Arag on
16 / 29
Tema 3, M.E.I. 17 / 29
10
Recorrido
Recorrido: es la diferencia entre el m aximo y el m nimo de los valores de la variable aleatoria. R = m ax(X ) m n(X ). Recorrido Intercuart lico: Longitud de un intervalo central que contiene el 50% de las observaciones. Anchura de la caja en un diagrama Box Plot. RI = Q3 Q1 . Recorrido Semiintercuart lico: Corresponde con la mitad del anterior. RSI = RI /2.
Tema 3, M.E.I. 18 / 29
Momentos
Deniremos la expresi on general de un Momento respecto del punto v y de orden r : Mr (v ) = 1 n
m
ni (xi v )r
ni xr i
1 n
ni xi = x
Media Muestral.
a2 =
ni (xi x)r
1 n
ni (xi x) = 0 Varianza.
m2 =
ni (xi x)2 = s2
Tema 3, M.E.I. 19 / 29
Momentos con R
> library(UsingR) > ingresos<-cfb$INCOME[1:15] > sum(ingresos)/length(ingresos) [1] 35127.13 > mean(ingresos) [1] 35127.13 > library(e1071) > moment(ingresos,order=1,center=FALSE) [1] 35127.13 > moment(ingresos,order=1,center=TRUE) [1] 3.395447e-12 Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 20 / 29
ni (xi x)2 = x2 x2 = a2 a2 1.
El problema es que sus unidades son el cuadrado de las unidades de los datos. Por eso habitualmente se trabaja con su ra z cuadrada, la Desviaci on T pica, Standar Deviation: s = s2 . En estad stica se usa con frecuencia la Cuasivarianza muestral, Quasivariance : s2 c 1 = n1
m
ni (xi x)2 =
n 2 s . n1 Tema 3, M.E.I. 21 / 29
12
Varianza con R
> library(UsingR,e1071) > ingresos<-cfb$INCOME[1:15] > sum((ingresos-mean(ingresos))^2)/length(ingresos) [1] 456585857 > moment(ingresos,order=2,center=TRUE) [1] 456585857 > var(ingresos) [1] 489199132 > var(ingresos)*(length(ingresos)-1)/length(ingresos) [1] 456585857 Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 22 / 29
Es una cantidad adimensional que mide la dispersi on respecto a la media. Tambi en se denomina Variabilidad Relativa y puede expresarse en porcentaje. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 23 / 29
13
Medidas de Forma
Asimetr a, Skewness
Deniremos Asimetr a Positiva cuando MdMe x.
24 / 29
Esto queda reejado en el diagrama de barras o en un histograma presentando la distribuci on de los datos una cola a la derecha. Deniremos Asimetr a Negativa cuando x MeMd. Esto queda reejado en el diagrama de barras o en un histograma presentando la distribuci on de los datos una cola a la izquierda. El coeciente de Asimetr a (de Fisher) se dene: g1 =
Asimetra Positiva
g1 =1.85
m3 = s3
1 n
m i ni (xi s3
x)3
Asimetra Negativa
g1 =1.66
Simtrica
g1 = 0.028
Tema 3, M.E.I. 25 / 29
14
Curtosis, Kurtosis
Tomando como origen de coordenadas la media x, y como unidad de medida la desviaci on t pica, aparecen diferentes tipos de distribuciones de frecuencias de los datos. Deniendo el coeciente muestral de exceso: g2 = Platic urtica g2 < 0. Mesoc urtica g2 = 0. Leptoc urtica g2 > 0.
Platicurtica
0.25 g2 =1.06 0.25
m4 3 = s4
1 n
m i ni (xi s4
x)4
3.
Leptocurtica
g2 =2.32
0.20
0.15
0.10
0.05
0.00
10
10
0.00 10
0.05
0.10
0.15
0.20
10
Mesocurtica
0.25 g2 =0.056
0.00 10
0.05
0.10
0.15
0.20
10
Tema 3, M.E.I. 26 / 29
15
[1] 8.083549 > skewness(ingresos,type=1) [1] 8.083549 > help(skewness) > kurtosis(ingresos,type=1) [1] 82.83009 Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 27 / 29
Histograma de Ingresos
Histograma de Ingresos
1.2e05 0.0e+00 0 4.0e06 8.0e06
Densidad de Frecuencia
500000
1000000 ingresos
1500000
Tema 3, M.E.I. 28 / 29
16
Histograma de Ingresos
> library(UsingR) > edad<-cfb$AGE > skewness(edad) [1] 0.3639585 > kurtosis(edad) [1] -0.6366239
Histograma de Edades
0.000 0.005 0.010 0.015 0.020 0.025 0
Densidad de Frecuencia
20
40 edad
60
80
100
Tema 3, M.E.I. 29 / 29
17