Está en la página 1de 17

M etodos Estad sticos de la Ingenier a Tema 3: Medidas Estad sticas Grupo B

Area de Estad stica e Investigaci on Operativa Licesio J. Rodr guez-Arag on Enero 2010

Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Medidas de Posici on Introducci on . . . . . . . . . . . . . . . . . Media Aritm etica, Arithmetic Mean Media Aritm etica con R . . . . . . . . . Media Ponderada, Weighted Mean . Media Geom etrica, Geometric Mean Media Arm onica, Harmonic Mean . . Mediana, Median . . . . . . . . . . . . . . Moda, Mode . . . . . . . . . . . . . . . . . Cuartiles, Quartile . . . . . . . . . . . . . Percentiles, Percentile . . . . . . . . . . Observaciones . . . . . . . . . . . . . . . . Medidas de Posici on con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Medidas de Dispersi on Introducci on . . . . . . . . . . . . . . . . . . . . . . . . Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . Momentos con R . . . . . . . . . . . . . . . . . . . . . Varianza y Desviaci on T pica . . . . . . . . . . . . Varianza con R . . . . . . . . . . . . . . . . . . . . . . Coeciente de Variaci on, Variation Coecient Medidas de Forma Asimetr a, Skewness . . . . . . Curtosis, Kurtosis . . . . . . . Asimetr a y Curtosis con R. Histograma de Ingresos . . . Histograma de Ingresos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Contenidos
Medidas de Posici on
Medias, Mediana, Moda, Cuartiles y Percentiles. Mean, Median, Mode, Quartile and Percentile.

Medidas de Dispersi on, Deviation.


Absoluta y Relativa.

Medidas de Forma, Shape.


Asimetr a y Curtosis. Skewness and Kurtosis.

Las Medidas Estad sticas tienen como objetivo sustituir toda la informaci on, por unos pocos valores que la caractericen. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 2 / 29

Medidas de Posici on
Introducci on
Las Medidas de Posici on tienen por objetivo proporcionar valores en torno al los cuales se encuentran las observaciones.

3 / 29

Algunas de ellas se denominan Medidas de Tendencia Central, porque suelen situarse en torno al centro de los datos. Media: Aritm etica (Arithmetic), Ponderada (Weighted), Geom etrica (Geometric), Arm onica (Harmonic). Mediana (Median). Moda (Mode). Cuartiles y Percentiles (Quartile and Percentile). Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 4 / 29

Media Aritm etica, Arithmetic Mean


Se dene como la suma de los datos dividida por el n umero de ellos. x=
n i xi

1 n

ni xi =

fi xi

La media es muy sensible a los valores extremos. Es la medida m as utilizada, muchos procedimientos estad sticos se basan en ella. La Media Aritm etica representa el centro de gravedad del histograma. Arithmetic Mean: The quantity commonly referred to as the mean of a set of values is the arithmetic mean, also called the average. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 5 / 29

Media Aritm etica con R


> > > > + > library(UsingR) ingresos<-cfb$INCOME[1:15] mean(ingresos) hist(ingresos,breaks=seq(0,100000,by=10000),freq=FALSE, main="Histograma de Ingresos",ylab="Densidad de Frecuencia") points(mean(ingresos),-0.0000005,pch=24,cex=2.8)
Histograma de Ingresos
2.0e05 Densidad de Frecuencia 0.0e+00 0e+00 1.0e05

2e+04

4e+04

6e+04

8e+04

1e+05

ingresos

Licesio J. Rodr guez-Arag on

Tema 3, M.E.I. 6 / 29

Media Ponderada, Weighted Mean


La media ponderada se utiliza en los casos en los que no todas las observaciones tienen la misma importancia. Para tener en cuenta la importancia se asigna a cada observaci on un peso, wi .
n i wi xi n i wi

xw =

The Weighted Mean is similar to an Arithmetic Mean (the most common type of average), where instead of each of the data points contributing equally to the nal average, some data points contribute more than others. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 7 / 29

Media Geom etrica, Geometric Mean


Cuando trabajamos con valores observados positivos:
n

xG =

xi
i

Tiene una aplicaci on menos frecuente que la Media Aritm etica, pero importante: A no 1 2 3 Capital Inicial 10000 10500 12600 Tasa de Crecimiento 0.05 0.20 0.50 Factor de Expansi on 1.05 1.20 1.50 Capital Final 10500 12600 18900

Factor de Expansi on = 1, 25 Licesio J. Rodr guez-Arag on

Factor de Expansi onG = 1, 2364 Tema 3, M.E.I. 8 / 29

Media Arm onica, Harmonic Mean


Se dene: xA =
1 n

1
m ni i xi

Se toman los inversos de los datos, se promedian y por u ltimo se toma el inverso de ese promedio. Si un coche recorre una distancia d a 100km/h y deshace el camino a una velocidad de 120km/h, la velocidad media a la que ha realizado el viaje es: velocidadA =
1 1 2 ( 100

1 +

1 120 )

= 109.1km/h 2d d + 120 Tema 3, M.E.I. 9 / 29

velocidad media =

Distancia Recorrida = Tiempo Empleado

d 100

Licesio J. Rodr guez-Arag on

Mediana, Median
Es el valor de la variable estad stica que deja igual n umero de observaciones a su derecha que a su izquierda. Ordenando los datos de menor a mayor, la mediana ser a el dato central o el promedio de los centrales (tama no par). The statistical median is an order statistic that gives the middle value of a sample. More specically, it is the value such that an equal number of samples are less than and greater than the value (for an odd sample size), or the average of the two central values (for an even sample size). 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
1.0 Frecuencia Acumulada 0.6 0.8

1/2

0.0 0

0.2

0.4

1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
1.0 Frecuencia Acumulada 0.6 0.8

1/2

0.0 0

0.2

0.4

En el caso de datos agrupados, lo m as adecuado es hablar del intervalo mediano. Gr acamente la mediana se obtendr a:
1.0 0.8

Frecuencia Acumulada

Fi+1 0.6 1/2

0.4

Fi

0.0

0.2

bi 0 2 4

Me 6

bi+1 8 10

Mediante semejanza de tri angulos: Me = bi + 1/2 Fi (bi+1 bi ). Fi+1 Fi Tema 3, M.E.I. 10 / 29

Licesio J. Rodr guez-Arag on

Moda, Mode
Es el valor de la variable estad stica que se presenta con mayor frecuencia. No tiene por qu e ser u nica y puede no poderse calcular. The most common value obtained in a set of observations. Ejemplo: 1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 Moda = 2 Ejemplo: 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 Moda = 2 y 6 En el caso de datos agrupados, se suele hablar de intervalo modal, aqu el de mayor frecuencia.
Histograma de Ingresos

Densidad de Frecuencia

5.0e06

1.0e05

1.5e05

0.0e+00

Md

0e+00

2e+04

4e+04

6e+04

8e+04

1e+05

Ingresos

Licesio J. Rodr guez-Arag on

Tema 3, M.E.I. 11 / 29

Cuartiles, Quartile
Qk para k = 1, 2, 3, se dene Cuartil k esimo como el valor de la variable que deja inferiores o iguales a el las k/4 partes de las observaciones. Q2 = Me Ejemplo: 1, 1, 2, 2, 2, 3, 3, 4,4 , 5, 5, 5, 6, 6, 6, 8 n = 16 Q1 deja inferiores o iguales a el, 1/4 de las observaciones, 4. Q2 deja inferiores o iguales a el, 1/2 de las observaciones, 8. Q3 deja inferiores o iguales a el, 3/4 de las observaciones,12. One of the four divisions of observations which have been grouped into four equal-sized sets based on their statistical rank. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 12 / 29

Percentiles, Percentile
El k esimo Percentil Pk , se dene como el valor de la variable estad stica que deja inferiores o iguales a el las k/100 observaciones. P25 = Q1 , P50 = Q2 = Me, P75 = Q3 .

Para datos agrupados el c alculo es an alogo al de la mediana: Pk = bi +


nk Ni k/100 Fi (bi+1 bi ) = bi + 100 (bi+1 bi ). Fi+1 Fi Ni+1 Ni

Siendo (bi , bi+1 ) el intervalo de clase que contiene Pk . The kth percentile is that value of X , say xk , which corresponds to a cumulative frequency of where n is the sample size. Licesio J. Rodr guez-Arag on
nk 100 ,

Tema 3, M.E.I. 13 / 29

Observaciones
La Mediana es un estad stico basado en propiedades ordinales. Valor de la variable que ocupa el orden (n + 1)/2. La Mediana divide al histograma en dos partes de areas iguales. La Moda es el valor con mayor frecuencia de aparici on. La Moda corresponde a la mayor altura del histograma. Cuando trabajemos con distribuciones con valores at picos o asim etricas, trabajaremos con la Mediana en lugar de con la Media. Los valores extremos inuyen gravemente en la Media. Si la distribuci on es sim etrica y unimodal, los tres puntos coinciden, Media, Mediana y Moda. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 14 / 29

Medidas de Posici on con R


> library(UsingR) > ingresos<-cfb$INCOME[1:15] > summary(ingresos) Min. 1st Qu. 7195 14900 Median 35980 Mean 3rd Qu. 35130 47800 Max. 78120

> quantile(ingresos,c(0.1,0.25,0.5,0.6,0.75,0.90)) 10% 25% 50% 60% 75% 90% 10854.74 14904.70 35976.87 37210.37 47797.85 64758.37 > X<-c(1,1,2,2,2,3,3,4,5,5,6,6,6,8) > summary(X) Min. 1st Qu. 1.000 2.000 Median 3.500 Mean 3rd Qu. 3.857 5.750 Max. 8.000 Tema 3, M.E.I. 15 / 29

Licesio J. Rodr guez-Arag on

Medidas de Dispersi on
Introducci on
Las Medidas de Dispersi on tienen como objetivo cuanticar la variabilidad de los datos. Recorrido, Recorrido Intercuart lico, Recorrido Semiintercuartilico. Range, Interquartile Range, Quartile Deviation. Varianza, Desviaci on T pica, Cuasivarianza. Variance, Standar Deviation, Quasivariance. Coeciente de Variaci on. Variation Coecient. Licesio J. Rodr guez-Arag on

16 / 29

Tema 3, M.E.I. 17 / 29

10

Recorrido
Recorrido: es la diferencia entre el m aximo y el m nimo de los valores de la variable aleatoria. R = m ax(X ) m n(X ). Recorrido Intercuart lico: Longitud de un intervalo central que contiene el 50% de las observaciones. Anchura de la caja en un diagrama Box Plot. RI = Q3 Q1 . Recorrido Semiintercuart lico: Corresponde con la mitad del anterior. RSI = RI /2.

Licesio J. Rodr guez-Arag on

Tema 3, M.E.I. 18 / 29

Momentos
Deniremos la expresi on general de un Momento respecto del punto v y de orden r : Mr (v ) = 1 n
m

ni (xi v )r

Momentos Respecto al Origen, Raw Moment, v = 0: 1 ar = n Casos particulares: a1 = 1 n


m 2 ni x2 i =x m m

ni xr i

1 n

ni xi = x

Media Muestral.

a2 =

Media Muestral de Cuadrados.

Momentos Centrales, Central Moment,v = x: 1 mr = n Casos particulares: m1 = 1 n


m m m

ni (xi x)r

1 n

ni (xi x) = 0 Varianza.

m2 =

ni (xi x)2 = s2

Licesio J. Rodr guez-Arag on 11

Tema 3, M.E.I. 19 / 29

Momentos con R
> library(UsingR) > ingresos<-cfb$INCOME[1:15] > sum(ingresos)/length(ingresos) [1] 35127.13 > mean(ingresos) [1] 35127.13 > library(e1071) > moment(ingresos,order=1,center=FALSE) [1] 35127.13 > moment(ingresos,order=1,center=TRUE) [1] 3.395447e-12 Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 20 / 29

Varianza y Desviaci on T pica


La Varianza, Variance, es una de las medidas de dispersi on m as usadas. 1 s = n
2 m

ni (xi x)2 = x2 x2 = a2 a2 1.

El problema es que sus unidades son el cuadrado de las unidades de los datos. Por eso habitualmente se trabaja con su ra z cuadrada, la Desviaci on T pica, Standar Deviation: s = s2 . En estad stica se usa con frecuencia la Cuasivarianza muestral, Quasivariance : s2 c 1 = n1
m

ni (xi x)2 =

n 2 s . n1 Tema 3, M.E.I. 21 / 29

Licesio J. Rodr guez-Arag on

12

Varianza con R
> library(UsingR,e1071) > ingresos<-cfb$INCOME[1:15] > sum((ingresos-mean(ingresos))^2)/length(ingresos) [1] 456585857 > moment(ingresos,order=2,center=TRUE) [1] 456585857 > var(ingresos) [1] 489199132 > var(ingresos)*(length(ingresos)-1)/length(ingresos) [1] 456585857 Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 22 / 29

Coeciente de Variaci on, Variation Coecient


Las medidas de dispersi on que hemos visto hasta ahora dependen de las unidades de medida de la variable. Para comparar la variabilidad de grupos o de valores de una misma variable en conjuntos diferentes se utilizan medidas de dispersi on relativas. Coeciente de Variaci on: CV = s . |x|

Es una cantidad adimensional que mide la dispersi on respecto a la media. Tambi en se denomina Variabilidad Relativa y puede expresarse en porcentaje. Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 23 / 29

13

Medidas de Forma
Asimetr a, Skewness
Deniremos Asimetr a Positiva cuando MdMe x.

24 / 29

Esto queda reejado en el diagrama de barras o en un histograma presentando la distribuci on de los datos una cola a la derecha. Deniremos Asimetr a Negativa cuando x MeMd. Esto queda reejado en el diagrama de barras o en un histograma presentando la distribuci on de los datos una cola a la izquierda. El coeciente de Asimetr a (de Fisher) se dene: g1 =
Asimetra Positiva
g1 =1.85

m3 = s3

1 n

m i ni (xi s3

x)3

Asimetra Negativa
g1 =1.66

Simtrica

g1 = 0.028

Licesio J. Rodr guez-Arag on

Tema 3, M.E.I. 25 / 29

14

Curtosis, Kurtosis
Tomando como origen de coordenadas la media x, y como unidad de medida la desviaci on t pica, aparecen diferentes tipos de distribuciones de frecuencias de los datos. Deniendo el coeciente muestral de exceso: g2 = Platic urtica g2 < 0. Mesoc urtica g2 = 0. Leptoc urtica g2 > 0.
Platicurtica
0.25 g2 =1.06 0.25

m4 3 = s4

1 n

m i ni (xi s4

x)4

3.

Leptocurtica
g2 =2.32

0.20

0.15

0.10

0.05

0.00

10

10

0.00 10

0.05

0.10

0.15

0.20

10

Mesocurtica
0.25 g2 =0.056

0.00 10

0.05

0.10

0.15

0.20

10

Licesio J. Rodr guez-Arag on

Tema 3, M.E.I. 26 / 29

15

Asimetr a y Curtosis con R


> > > + library(UsingR,e1071) ingresos<-cfb$INCOME moment(ingresos,order=3,center=TRUE)/moment(ingresos, order=2,center=TRUE)^(3/2)

[1] 8.083549 > skewness(ingresos,type=1) [1] 8.083549 > help(skewness) > kurtosis(ingresos,type=1) [1] 82.83009 Licesio J. Rodr guez-Arag on Tema 3, M.E.I. 27 / 29

Histograma de Ingresos
Histograma de Ingresos
1.2e05 0.0e+00 0 4.0e06 8.0e06

Densidad de Frecuencia

500000

1000000 ingresos

1500000

Licesio J. Rodr guez-Arag on

Tema 3, M.E.I. 28 / 29

16

Histograma de Ingresos
> library(UsingR) > edad<-cfb$AGE > skewness(edad) [1] 0.3639585 > kurtosis(edad) [1] -0.6366239
Histograma de Edades
0.000 0.005 0.010 0.015 0.020 0.025 0

Densidad de Frecuencia

20

40 edad

60

80

100

Licesio J. Rodr guez-Arag on

Tema 3, M.E.I. 29 / 29

17

También podría gustarte