Tema 1. Estadística Descriptiva

Tema 1 Estad stica Descriptiva
Indice
1. Introducci on 2. Datos agrupados y sin agrupar 3. Distribuciones de frecuencias 4. Representaciones gr acas 4.1. Pol gonos de frecuencias 4.2. Histogramas . . . . . . . 4.3. Diagrama de Pareto . . 4.4. Diagrama de sectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 4 5 6 6 7 8 9 9 10 11 12 12 13 14 17 17
5. Medidas de centralizaci on 5.1. Media aritm etica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Medidas de dispersi on 6.1. Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Varianza, cuasivarianza, desviaci on t pica y cuasidesviaci on t pica 6.3. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4. Coeciente de variaci on . . . . . . . . . . . . . . . . . . . . . . . 7. Bibliograf a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.
Introducci on
El conjunto de individuos (objetos, personas, valores de magnitudes f sicas...) en cuyo estudio nos interesamos, se llama poblaci on. Usualmente la poblaci on es tan grande, que para ese estudio debemos conformarnos, por razones materiales o econ omicas, con considerar s olo una parte de la misma a la que llamamos muestra. El aspecto de los individuos de la poblaci on que queremos investigar, se llama car acter. Por ejemplo la estatura, el di ametro, el color..., y para efectuar el estudio, hacemos observaciones de ese car acter sobre los individuos de la muestra. Un car acter puede ser cualitativo o cuantitativo, la diferencia es, que en el primer caso, el resultado de la observaci on no es cuanticable num ericamente, por ejemplo el color, el sexo..., y en el segundo, por el contrario, la observaci on es una medida cuyo resultado es num erico, como la estatura o la resistencia el ectrica. En todo caso, llamaremos dato a cualquiera de los resultados individuales obtenido. Un estudio estad stico comienza con una primera fase de recogida de datos de la muestra elegida. La elecci on de esa muestra debe hacerse de tal forma, que el estudio hecho sobre ella pueda extenderse con 1
Tema 1. Estad stica descriptiva
un amplio margen de conanza a toda la poblaci on. Ello obliga a que la elecci on de la muestra se haga de acuerdo con ciertas reglas que son el objeto de estudio de la teor a del muestreo. Despu es de la recogida de los datos, se inicia un proceso de elaboraci on de estos, orden andolos, clasic andolos, haciendo gr acos y calculando promedios, porcentajes y otras cantidades u tiles. Esta fase es conocida como estad stica descriptiva. Por u ltimo, y esta es quiz a la etapa m as interesante, se pretende, a partir de los datos recogidos en la muestra, extrapolar conclusiones para toda la poblaci on, lo que permitir a entre otras cosas, una posterior toma de decisiones. Esta u ltima fase se conoce como estad stica inferencial.
2.
Datos agrupados y sin agrupar
Sean n individuos de la poblaci on a los que se les mide el car acter X (variable o atributo). X est a constituida por n valores, resultantes de la observaci on de dicho car acter sobre los n individuos: X1 , X2 , X3 , . . . , Xn Usualmente, los caracteres cualitativos toman pocos valores distintos. Por ejemplo el car acter ((sexo)) solo toma dos valores. Lo mismo ocurre con algunos caracteres cuantitativos como el ((n umero de ni nos nacidos en un mismo parto)), que puede variar entre 1 y 5, (no consideraremos por lo ins olito del caso, n umeros mayores) siendo los valores 3, 4 y 5, muy poco frecuentes. Por el contrario, hay caracteres cuantitativos que pueden tomar muchos valores distintos. Ejemplo de ello es el car acter ((estatura)) en una poblaci on de personas, en el que si se aprecia, como es usual, hasta el cent metro, pueden darse hasta 41 valores distintos entre, digamos un m nimo de 1,50 m. y un m aximo de 1,90 m. Llamemos x1 , x2 , x3 , . . . , xk (k n) a los datos distintos obtenidos de la muestra (modalidades). Si k es peque no, para describir el conjunto de datos, basta con anotar junto a los x1 , x2 , x3 , . . . , xk , el n umero de veces que aparece cada uno. Pero si k es grande, la manipulaci on de muchos datos distintos es inc omoda, procedi endose (siempre y cuando el car acter a estudiar sea cuantitativo) a agruparlos. En l neas generales, el procedimiento para ello, consiste en tomar el intervalo cuyos extremos son los datos m as peque no y m as grande respectivamente, y dividirlo en subintervalos contiguos de igual longitud, llamados clases. Los datos x1 , x2 , x3 , . . . , xk estar an distribuidos dentro de estas clases. Pero la subdivisi on debe hacerse, para no incurrir en ambig uedades, de tal modo que cada dato distinto, pertenezca a una y s olo una de las clases, es decir, hay que evitar que alguno de los puntos de subdivisi on coincida con un dato, ya que ello inducir a a confusi on con respecto en cu al de las dos clases contiguas debe incluirse. En la pr actica, los extremos del intervalo que contiene todos los datos, no tiene por qu e coincidir con el menor y el mayor de estos. Por ejemplo, si al medir estaturas, el dato m as peque no recogido en la muestra es 1,51 m., y el m as grande 1,87 m., es preferible tomar como intervalo a subdividir, el que tiene por extremos 1,50 y 1,90, ya que resultan m as c omodos de manejar los n umeros cuya u ltima cifra es 0 o 5. Pero en todo caso, este aumento en la longitud del intervalo, no debe ser excesivo, pues introducir a ((espacios muertos)) que har a enga noso el agrupamiento en clases. Procedamos ahora a la subdivisi on, para lo cual comenzamos completando la parte decimal de los datos con ceros (si ello fuere necesario), con objeto de que todos tengan la misma longitud. Sea d el n umero de cifras decimales una vez completadas. Sean tambi en a y b, los extremos del intervalo, y p el n umero de clases en que se desea agrupar los datos. La longitud de cada clase ser a: h= ba p
El n umero h debe redondearse hasta la d esima cifra decimal. Con ello se logra que los puntos de subdivisi on a = a + 0h, a + 1h, a + 2h, . . . , a + (p 1)h, a + ph = b
tengan el mismo n umero d de cifras decimales que los datos, pero entonces puede darse el caso de que alguno de estos puntos coincida con un dato. Para evitar este inconveniente, disminuimos el extremo derecho de cada clase en una unidad de la u ltima cifra decimal (ser a equivalente a tomar el intervalo cerrado por la izquierda y abierto por la derecha). Una vez que se han agrupado los datos en clases, estos pierden su individualidad. La u nica informaci on que tenemos despu es del agrupamiento es el n umero de clases, los extremos de las mismas y el n umero de datos en cada una. Esta p erdida de informaci on es el tributo a pagar por la comodidad de manejar unas pocas clases en lugar de un volumen, quiz a elevado de datos individuales. Es conveniente, para determinados c alculos que se considerar an m as tarde, tener un n umero que de alguna forma caracterice a cada clase. Para ello, se calcula su punto central (es decir, la media aritm etica de los extremos), que se llama representante o marca de esa clase. Es de observar que el representante de una clase no tiene por qu e coincidir con un dato de la muestra. Adem as, el hecho de tomar a este n umero como una representaci on de los ocupantes de la clase lleva impl cita la hip otesis (s olo aproximadamente correcta) de que los datos se encuentran uniformemente repartidos dentro de la clase. A un no siendo cierta, la hip otesis es plausible si los datos de la muestra presentan (como suele ocurrir) una relativa uniformidad en su distribuci on. Ejemplo: Vamos a agrupar los datos de la siguiente tabla (ya ordenados de menor a mayor) en clases. 3, 07 3, 35 3, 48 3, 54 3, 62 3, 69 3, 74 3, 83 3, 94 4, 05 3, 09 3, 35 3, 49 3, 55 3, 62 3, 69 3, 75 3, 83 3, 96 4, 06 3, 20 3, 40 3, 49 3, 55 3, 63 3, 70 3, 76 3, 85 3, 98 4, 07 3, 23 3, 41 3, 50 3, 55 3, 64 3, 70 3, 77 3, 87 3, 98 4, 13 3, 24 3, 41 3, 50 3, 56 3, 64 3, 70 3, 78 3, 88 3, 99 4, 18 3, 27 3, 42 3, 51 3, 57 3, 65 3, 70 3, 78 3, 90 4, 00 4, 22 3, 30 3, 43 3, 52 3, 60 3, 66 3, 70 3, 79 3, 90 4, 00 4, 27 3, 31 3, 46 3, 52 3, 60 3, 67 3, 71 3, 80 3, 90 4, 01 4, 29 3, 32 3, 46 3, 53 3, 60 3, 68 3, 71 3, 82 3, 91 4, 03 4, 35 3, 32 3, 46 3, 54 3, 61 3, 68 3, 71 3, 82 3, 93 4, 04 4, 47
Para ello, comenzamos ampliando ligeramente el intervalo cuyos extremos son el m as peque no y el mayor de los datos hasta que esos extremos sean 3,00 y 4,50, as trabajaremos con n umeros cuya u ltima cifra es cero. La longitud de este intervalo es 1,50 que es divisible por 2, 3, 5, 6, 10 y 15 con un cociente que tiene dos cifras decimales exactas. Como el n umero de cifras decimales de los datos es tambi en d = 2, si tomamos como n umero de clases p a uno de estos valores, no ser a necesario redondear la longitud h de cada clase para que tenga dos cifras decimales, lo cual siempre es m as c omodo. Ahora elegimos p descartando los valores 2, 3, 5 y 6 porque parecen pocas clases para el volumen de datos (100) que tenemos. Tambi en desechamos 15 porque sin ser demasiado elevado, tampoco es muy peque no, as que tomaremos p = 10. Usando las notaciones anteriores, tenemos a = 3, 00 y efectuando los c alculos resulta: Clase [3, 00, [3, 15, [3, 30, [3, 45, [3, 60, [3, 75, [3, 90, [4, 05, [4, 20, [4, 35, 3, 15) 3, 30) 3, 45) 3, 60) 3, 75) 3, 90) 4, 05) 4, 20) 4, 35) 4, 50) Marca 3,075 3,225 3,375 3,525 3,675 3,825 3,975 4,125 4,275 4,425 b = 4, 50 p = 10 h = 0, 15 d=2
No hay un criterio objetivo para decidir en cu antas clases se deben agrupar los datos. Una regla emp rica que puede usarse es hallar las dos potencias sucesivas de 2 entre las que se encuentra n, y tomar como valor de p el mayor de los dos exponentes. Otra regla emp rica sugiere que se tome para p el valor n convenientemente redondeado a un entero. Tambi en puede usarse la siguiente tabla basada en la experiencia: no de datos menos de 50 entre 50 y 99 entre 100 y 249 m as de 249 no de clases de 5 a 7 de 6 a 10 de 7 a 12 de 10 a 20
Sobre la clasicaci on de datos, puede consultarse el segundo cap tulo del libro de Huntsberger citado en la bibliograf a.
3.
Distribuciones de frecuencias
Supongamos que al recoger datos relativos a un determinado car acter en una muestra de tama no n, hemos obtenido los valores distintos x1 , x2 , x3 , . . . , xk (k n) Admitamos que por ser k peque no, no se ha juzgado oportuno agrupar los datos en clases. Denici on 3.1 Para cada dato xi (i = 1, 2, . . . , k ), se llama: umero de veces que aparece el dato xi a) frecuencia absoluta ni al n b) frecuencia relativa fi = ni = n ni
k
nj
j =1 i
c) frecuencia absoluta acumulada Ni =

j =1
nj
i
d) frecuencia relativa acumulada Fi =
Ni = n
fj .
j =1
Caso de que por ser k grande (y naturalmente tratarse de un car acter cuantitativo), se haya optado por agrupar los datos en p clases, podemos denir para la i esima clase Denici on 3.2 Para cada clase, se llama: a) frecuencia absoluta ni al n umero de datos de la i esima clase b) frecuencia relativa fi = ni = n ni
p
nj
j =1 i
c) frecuencia absoluta acumulada Ni =

j =1
nj
i
d) frecuencia relativa acumulada Fi =
Ni = n
fj .
j =1
De ambas deniciones se deducen las desigualdades a) 0 d) 0 ni fi n 1 b) 0 Ni n e) Ni Ni+1 c) 0 Fi 1
A la frecuencia relativa se le llama algunas veces proporci on, y suele expresarse como un porcentaje multiplic andola previamente por 100. Tambi en es corriente llamar a la frecuencia absoluta simplemente frecuencia. Denici on 3.3 Se llama distribuci on de frecuencias correspondiente al car acter bajo estudio, a una descripci on, usualmente en forma de tabla, aunque tambi en puede expresarse gr acamente, de los datos distintos, o de las clases si se han agrupado, acompa nados de sus respectivas frecuencias (absolutas, relativas y/o acumuladas). Ejemplos: 1. En la muestra formada por los nacimientos habidos en una maternidad durante diez a nos, se ha observado el car acter sexo de los reci en nacidos, obteni endose la siguiente distribuci on de frecuencias: Sexo Hembra Var on Frecuencia 2055 2180
2. En una muestra de 110 personas que han comprado una casa en determinada ciudad, se ha analizado la variable edad agrupando los datos obtenidos en ocho clases. La correspondiente distribuci on de frecuencias es Edad 18 33 38 43 48 53 58 62 32 37 42 47 52 57 62 67 Frecuencia 5 10 10 30 35 10 8 2
4.
Representaciones gr acas
Una forma muy com un de exponer una distribuci on de frecuencias es mediante una representaci on gr aca. Existen muchas formas distintas de hacerlo, y en este aspecto entre cient co y art stico, los trabajos publicados de estad stica descriptiva exhiben multitud de variantes. Un buen ejemplo de ello son los sondeos de opini on acerca de cualquier tema de inter es general, y las encuestas de intenci on de voto que casi siempre en epocas preelectorales publican los peri odicos. Un gr aco, sobre todo si est a bien elegido y dise nado, proporciona una visi on r apida y precisa de la situaci on. Su utilidad no s olo se maniesta en la exposici on de los resultados nales, sino que cada vez se emplean m as para obtener una visi on preliminar del comportamiento de los datos de nuestro problema, su distribuci on aproximada, su tendencia, sus valores extremos etc., detalles que nos indican hacia d onde podemos orientar el estudio. Este an alisis exploratorio de datos que es como se conoce en la literatura estad stica a esta y a otras t ecnicas que nos aproximan al problema, se ha generalizado por la gran facilidad de los paquetes estad sticos comerciales para trazar de manera r apida y sencilla una gran variedad de gr acos. En esta lecci on s olo consideraremos algunos tipos de gr acos que suelen ser los m as empleados. Para una exposici on m as detallada puede consultarse el cap tulo primero del libro de Mendenhall referenciado en la bibliograf a.
4.1.
Pol gonos de frecuencias
El primero de ellos es el usual diagrama cartesiano. Se emplea cuando la variable es cualitativa o cuando es cuantitativa pero no toma demasiados valores distintos. En el eje horizontal se representan los valores de la variable, y en el vertical las respectivas frecuencias. Ello da origen a una representaci on gr aca formada por puntos aislados, que para mejorar su aspecto, se unen mediante segmentos rectil neos. El resultado es una l nea quebrada, y de ah el nombre pol gono de frecuencias.
Figura 1: Ejemplo de pol gono de frecuencias. Ejemplo: Durante dos meses se ha contabilizado el n umero de d as de baja por enfermedad de una muestra de 100 trabajadores de una empresa. Los resultados est an en la tabla que sigue D as de baja 0 1 2 3 4 5 m as de 5 no de trabajadores 35 20 16 9 10 8 2
En la Figura 1 se muestra un pol gono de frecuencias para estos datos.
4.2.
Histogramas
Cuando los datos est an agrupados en clases es preferible el empleo de una representaci on llamada histograma constituida por rect angulos cuyas bases corresponden a la anchura de cada clase, y las alturas a las respectivas frecuencias. Ejemplo: Los datos de la tabla que sigue son los tiempos en segundos de CPU (unidad central de procesos) de 25 trabajos realizados por un ordenador. 0, 02 1, 40 0, 15 1, 59 0, 19 0, 47 1, 61 1, 94 0, 71 0, 75 0, 82 2, 01 2, 16 2, 41 0, 92 0, 96 2, 59 3, 07 1, 16 3, 53 1, 17 1, 23 3, 76 4, 75 1, 38
La correspondiente distribuci on de frecuencias con los datos agrupados en 7 clases es
Clases 0,015 0,715 1,415 2,115 2,815 3,515 4,215 0,715 1,415 2,115 2,815 3,515 4,215 4,915
Frecuencias 5 9 4 3 1 2 1
En la Figura 2 se ha trazado el histograma correspondiente a esta distribuci on de frecuencias.
Figura 2: Ejemplo de histograma. En el eje horizontal se han colocado los extremos de las clases.
4.3.
Diagrama de Pareto
En problemas de control de calidad y de an alisis de fallos en procesos, es frecuente el uso de diagramas que reunen un histograma y un pol gono de frecuencias, llamado diagrama de Pareto1 . En el los rect angulos correspondientes a cada una de las clases est an colocados de izquierda a derecha en orden de frecuencias decrecientes, y superpuesto se coloca un pol gono de frecuencias relativas acumuladas. A derecha e izquierda se situan ejes en los que se marcan las frecuencias absolutas y las frecuencias relativas acumuladas respectivamente. Aunque este tipo de diagrama puede usarse indistintamente para datos cuantitativos y cualitativos , se preere su uso para estos u ltimos. Ejemplo: En un proceso de fabricaci on de circu tos integrados, las causas m as frecuentes de fallos son las que se indican en la siguiente tabla junto con la frecuencia de cada una de ellas en una muestra de 31 circu tos examinados
1 Vilfredo
Frederigo Samaso, Marqu es de Pareto 18481923, soci ologo y economista italiano.
Causa de fallo corrosi on oxido contaminaci on metalizaci on silicio doping varios
Frecuencia 2 8 14 2 1 1 3
En la Figura 3 se ha trazado un diagrama de Pareto para estos datos. Observando el diagrama podemos
Figura 3: Ejemplo de diagrama de Pareto. deducir que la contaminaci on afecta a m as del 40 % de los circu tos seguido del oxido que afecta a casi el 30 %. No se olvide que las alturas de los rect angulos (las frecuencias absolutas) se miden en el eje de la izquierda, y la posici on de los puntos del pol gono de frecuencias (las frecuencias relativas acumuladas), se miden en el eje de la derecha.
4.4.
Diagrama de sectores
Si el car acter estudiado tiene pocos valores distintos (como suele ocurrir con los caracteres cualitativos) se puede usar un diagrama en forma de c rculo dividido en tantos sectores como datos distintos haya, en el que el angulo de cada sector es proporcional a la frecuencia relativa del correspondiente dato. Esta representaci on gr aca se denomina diagrama de sectores o diagrama de tarta. Tambi en pueden emplearse para datos cuantitativos agrupados en clases, y en tales casos, cada sector corresponde a una clase. Dada la ndole de esta representaci on, s olo se utiliza para distribuciones de frecuencias relativas usualmente expresadas en porcentajes. Ejemplo: La encuesta de poblaci on activa elaborada por el Instituto Nacional de Estad stica referente al cuarto trimestre de 1970 presenta para el n umero de empleados por rama de actividad los siguientes datos
Rama de actividad Agricultura, caza y pesca Fabriles Construcci on Comercio Transporte Otros servicios
Miles de empleados 3706,3 3437,8 1096,3 1388,3 648,7 2454,8
En la Figura 4 se muestra un diagrama de sectores para esta distribuci on de frecuencias.
Figura 4: Ejemplo de diagrama de sectores.
5.
Medidas de centralizaci on
Con el nombre de medidas de centralizaci on se denominan a determinados valores que, bien porque ocupan posiciones centrales, o bien porque cerca de ellos se sit uan un n umero apreciable de datos, ((destacan)) en una distribuci on de frecuencias. Estos valores son de alguna manera representativos de toda la muestra y en ello estriba su inter es. Pi ensese por ejemplo en las calicaciones obtenidas por una persona en los distintos ejercicios que componen un examen. Para asignar una calicaci on global a ese examen, se toma la media aritm etica como una medida que en cierta forma representa y re une en un solo dato, las calicaciones parciales. A continuaci on pasamos a denir tres de esas medidas que son con mucho las m as importantes.
5.1.
Media aritm etica
Denici on 5.1 Si al medir un car acter cuantitativo sobre los elementos de una muestra, obtenemos los valores X1 , X2 , . . . , Xn , se llama media aritm etica de la correspondiente distribuci on de frecuencias a x = 1 n
n
Xi
i=1
Si consideramos los datos distintos x1 , x2 , . . . , xk (k podemos escribir 1 x = n

n
n) y sus respectivas frecuencias n1 , n2 , . . . , nk ,

k
ni xi Xi =
i=1 k
. ni
i=1
i=1
10
Si los datos est an agrupados en p clases, y llamamos xi al representante de la i- esima clase, la media aritm etica se dene as p 1 x = ni xi n i=1 Al hacer uso de xi estamos en la hip otesis de espaciado uniforme de los datos dentro de cada clase, lo que no es en general cierto. Debido a ello, si en una muestra no agrupamos los datos y calculamos la media aritm etica, el valor obtenido diferir a ligeramente del que resultar a con los mismos datos pero agrupados en clases.
5.2.
Moda
Denici on 5.2 Si los datos obtenidos de una muestra no est an agrupados, se llama moda de la correspondiente distribuci on de frecuencias al dato (o datos) de mayor frecuencia. Suele representarse con el s mbolo x . Se deduce de esta denici on que una distribuci on de frecuencias puede tener m as de una moda, incluso puede no tener ninguna, lo que ocurrir a en el caso poco com un de que todos los datos tuvieran igual frecuencia. Cuando los datos est an agrupados en clases, se dene la clase modal exactamente de la misma forma, y en algunas ocasiones, se llama moda al representante de la clase modal. No obstante, si las clases contiguas
ni ni+1 ni ni1
i1
Xi1
i
Xi
i+1
Xi+1
i+2
Figura 5: C alculo aproximado de la moda. a la clase modal no tienen igual frecuencia, parece conveniente tener en cuenta esta ((asimetr a)), y tomar como moda a un punto de la clase modal que est e m as pr oximo a la clase contigua de m as frecuencia. Para ello observemos la Figura 5 de la que se deduce li+1 x x li = ni ni1 ni ni+1 y por lo tanto x li (ni ni+1 ) + li+1 (ni ni1 ) 2ni ni1 ni+1
Ejemplos: a) En la siguiente distribuci on de frecuencias
11
dato frecuencia
1 3
2 4
3 3
4 2
5 1
7 1
9 4
se observa que hay dos modas, que son los datos 2 y 9. b) La duraci on en horas, agrupadas en clases, de una muestra de focos se expone en la siguiente tabla duraci on 9501050 10501150 11501250 12501350 13501450 14501550 frecuencias 4 9 19 36 51 58 duraci on 15501650 16501750 17501850 18501950 19502050 20502150 frecuencias 53 37 20 9 3 1
De la observaci on de la tabla se deduce que la clase modal, que en este caso es u nica, es la sexta, ya que su frecuencia f6 = 58 es la mayor de todas. Para calcular aproximadamente la moda de la distribuci on, con la formula anterior, observemos que l6 = 1450 luego l7 = 1550 n5 = 51 n6 = 58 n7 = 53
1450(58 53) + 1550(58 51) = 1508, 33 2 58 51 53 Si hubiera m as clases modales, el c alculo aproximado de las modas se har a aplicando este procedimiento a cada una de dichas clases modales. x
5.3.
Mediana
Denici on 5.3 Si al medir un car acter cuantitativo sobre los elementos de una muestra, obtenemos un n umero impar de datos n, y los ordenamos de menor a mayor, se llama mediana al dato que ocupa el lugar central, es decir al (n + 1)/2 esimo. Si el n umero de datos es par, se llama mediana a la media arim etica de los dos datos que ocupan los lugares centrales. As si llamamos x a la mediana, tenemos X si n es impar (n+1)/2 x = Xn/2 + X(n+2)/2 si n es par 2 Si los datos no est an agrupados en clases, el c alculo de la mediana se lleva a cabo mediante una simple inspecci on de los datos ordenados, pero cuando los datos est an agrupados, para el c alculo de la mediana es preciso localizar aquella clase (digamos la i esima) que cumple las desigualdades Ni1 < n 2 Ni > n 2
Como la mediana es un n umero menor (o igual) que la mitad de los datos y mayor (o igual) que la otra mitad, debe encontrarse en esta i esima clase. Aceptando, como es habitual, la hip otesis de espaciado uniforme de los datos dentro de cada clase, podemos plantear de acuerdo con la Figura 6 la siguiente proporcionalidad ni li+1 li = n x li Ni1 2 de la que resulta n Ni1 x = li + 2 (li+1 li ) ni
12
n/2 datos 1 2 3
i+1
Ni1 datos
fi datos
Figura 6: C alculo aproximado de la mediana.
Dado que una vez m as hemos hecho la suposici on de que los datos se encuentran dentro de cada clase, igualmente distribu dos, el c alculo de la mediana mediante este u ltimo procedimiento diferir a ligeramente del que se obtendr a sin proceder a la agrupaci on de los datos. Ejemplos: a) Los n umeros que siguen son valores de resistencias (en ohmios) de una muestra de veinte. 96 102 96 97 103 103 98 103 99 104 99 106 100 106 100 108 101 110 101 110
Dado que el n umero de datos es par, la mediana es la media aritm etica de los dos centrales, es decir del d ecimo y el und ecimo: 101 + 102 x = = 101,5 2 b) En la siguiente tabla se encuentran agrupados en clases, los valores de la resistencia a la compresi on (en kg/cm3 ) de bloques de hormig on: marcas de clase frecuencias 200 1 225 4 250 6 275 9 300 10 325 19 350 17 375 11 400 7 425 2 450 3 475 0 500 1
Observemos que la frecuencia acumulada de la quinta clase es N5 = 30, y la de la sexta N6 = 49, luego en esta u ltima ha de estar la mediana, ya que la mitad del n umero de datos es n/2 = 90/2 = 45. Los l mites de la sexta clase son l6 = 312,5 y l7 = 337,5, y su frecuencia n6 = 19. Con toda esta informaci on podemos calcular la mediana por el procedimiento aproximado explicado m as arriba x 312,5 + 45 30 (337,5 312,5) = 332,24 19
6.
Medidas de dispersi on
Contrariamente a las medidas de centralizaci on que informan de la concentraci on de los datos alrededor de ciertos valores notables, las medidas de dispersi on dan cuenta del esparcimiento que presentan tales datos. La m as elemental de todas es la que denimos a continuaci on
6.1.
Recorrido
Denici on 6.1 Si son X1 , X2 , . . . , Xn los datos cuantitativos y sin agrupar obtenidos de la muestra, y llamamos Xm as peque no y al m as grande de ellos, se llama recorrido a n e Xm ax al m R = Xm ax Xm n El recorrido es una medida muy f acil de calcular, pero la informaci on que da es de una utilidad relativa, ya que es muy sensible a la presencia de un dato muy peque no o muy grande. En efecto, en una situaci on en la que los datos estuvieran muy concentrados (es decir, hubiera poco esparcimiento) pero uno s olo de
13
ellos estuviera muy alejado de los dem as, tendr amos un valor grande del recorrido estando sin embargo los datos muy concentrados. No obstante, si el n umero de datos es peque no, es poco probable que haya alguno muy distinto de los dem as, por lo que en aquellas aplicaciones en las que se utilicen muestras peque nas, y sobre todo si son muchas, como en las cartas de control usadas en el Control Estad stico de la Calidad, el recorrido constituye una medida de dispersi on u til y c omoda de calcular.
6.2.
Varianza, cuasivarianza, desviaci on t pica y cuasidesviaci on t pica
De uso m as com un son las medidas de dispersi on que involucran las desviaciones de los datos en torno a ciertos valores ((centrales)) como la media aritm etica. Consideremos de nuevo los datos cuantitativos distintos x1 , x2 , . . . , xk obtenidos de la muestra, y sea x la media aritm etica. Se llama desviaci on del i esimo dato a di = xi x i = 1, 2, . . . , k
Ahora bien, en cada muestra hay tantas desviaciones como datos distintos, lo que no es muy pr actico. As que reuniendo la informaci on proporcionada por las desviaciones en un s olo n umero para que resulte m as manejable, denimos la desviaci on media como la media aritm etica de las desviaciones: 1 n
k
ni (xi x )
i=1
Pero la desviaci on media siempre es cero como es f acil comprobar: 1 n

k
ni (xi x ) =
i=1
1 n
ni xi
i=1
1 n
ni x =x
i=1
x n
ni = x
i=1
x n = 0. n
Esta propiedad, debida a que las desviaciones positivas y negativas se compensan, la hace completamente in util. Podemos no obstante evitar esta dicultad si tomamos los valores absolutos de las desviaciones: 1 n
k
ni |xi x |
i=1
Esta medida de dispersi on informa del esparcimiento de los datos de la muestra promediando las dispersiones, y en ese sentido tiene inter es. Adem as, a diferencia del recorrido, tiene en cuenta a todos los datos, y no s olo a los m as extremos, pero presenta el inconveniente de lo inc omodo que resulta bajo el punto de vista del c alculo, el empleo de los valores absolutos. Para superar esta u ltima dicultad, reeemplazamos los valores absolutos por los cuadrados de las dispersiones resultando la siguiente Denici on 6.2 Se llama varianza de la muestra a s2 = Se llama desviaci on t pica de la muestra a: s= 1 n
k
1 n
ni (xi x )2
i=1
ni (xi x )2
i=1
La raz on de considerar la desviaci on t pica como medida de dispersi on adem as de la varianza es que aquella se mide en las mismas unidades que los datos de la muestra en tanto que la varianza se mide en
14
el cuadrado de esas unidades. Por eso, en ocasiones resulta m as descriptivo el empleo de la desviaci on t pica. La varianza y la desviaci on t pica son poco u tiles para la inferencia estad stica. Ello es debido a que como estimadores de la varianza y de la desviaci on t pica de la poblaci on, son sesgados. El signicado de esta u ltima frase quedar a claro al estudiar la Estad stica Inferencial. Cuando abordemos su estudio, necesitaremos unos conceptos muy similares a la varianza y a la desviaci on t pica pero que como estimadores sean insesgados, es por ello que denimos Denici on 6.3 Se llama cuasi varianza de la muestra a s2 c = 1 n1
k
ni (xi x )2
i=1
Se llama cuasi desviaci on t pica de la muestra a: sc = 1 n1

k
ni (xi x )2
i=1
El denominador n de la varianza se explica porque la varianza es la media aritm etica de los cuadrados de las desviaciones, pero no as la cuasi varianza que resulta por lo tanto menos intuitiva. La raz on de emplear el denominador n 1 en la cuasi varianza se pondr a de maniesto al estudiar la estad stica inferencial. La relaci on entre ambas est a dada por la igualdad s2 c = n s2 n1
6.3.
Cuantiles
Otras medidas de dispersi on que vamos a considerar est an basadas en la misma idea que sirvi o para denir la mediana. Recordemos que esta es un n umero por debajo del cual se encuentra la mitad de los datos de la muestra. Se presentaba una disyuntiva entre si el n umero de datos era par o impar, lo que obligaba a considerar dos deniciones distintas. Pero nada de eso ocurr a si los datos estaban agrupados en clases, procedi endose en tal caso al empleo de una f ormula aproximada. Para las medidas que deniremos a continuaci on, se presentan tambi en diferentes posibilidades seg un que el n umero de datos sea o no divisible por 4, pero el considerar las alternativas posibles complicar a mucho la exposici on y har a poco pr acticos los conceptos que se van a denir, de modo que de entrada partiremos de que los datos est an agrupados en clases. Busquemos aquel valor por debajo del cual se encuentra la cuarta parte de los datos. Para ello debemos localizar el valor de i que cumple n n Ni1 < y Ni > 4 4 el n umero buscado tiene que encontrarse en la i esima clase. Si lo llamamos q1 tenemos el esquema de la Figura 7. Con respecto a tal gura, y en la hip otesis de espaciado uniforme de los datos dentro de cada clase, podemos plantear la siguiente proporcionalidad li+1 li ni = n q1 li Ni1 4 n Ni1 q1 = li + 4 (li+1 li ) ni De modo completamente an alogo considerar amos el valor q3 por debajo del cual se encuentran las tres cuartas partes de los datos y denir de la que resulta
15
n/4 datos 1 2 3
q1
i+1
Ni1 datos
ni datos
Figura 7: C alculo del primer cuartil.
Denici on 6.4 En una muestra de n datos, se llama: a) primer cuartil n Ni1 q1 = li + 4 (li+1 li ) ni n n donde i es el n umero que verica Ni1 < y Ni > 4 4
3n Ni1 q3 = li + 4 (li+1 li ) ni 3n 3n donde i es el n umero que verica Ni1 < y Ni > 4 4 En esta denici on, li y li+1 son los l mites de la i esima clase, y ni y Ni las frecuencias absoluta y absoluta acumulada de la misma clase. Es evidente que el segundo cuartil es la mediana Ejemplo: Se elige una muestra de dispositivos electr onicos de entre los producidos en una l nea de fabricaci on, y se mide para cada uno de ellos el tiempo transcurrido (en horas), entre dos fallos sucesivos. Los resultados, agrupados en clases, se encuentran en la siguiente tabla Tiempo entre fallos [0, 50) [50, 100) [100, 150) [150, 200) [200, 250) [250, 300) [300, 350) [350, 400) [400, 450) N umero de fallos 3 7 13 18 22 21 12 8 1 N umero de fallos acumulados 3 10 23 41 63 84 96 104 105
b) tercer cuartil
n que el primer cuartil se encuentra en la cuarta clase, ya que Puesto que n = 105, tenemos = 26, 25, as 4 N3 = 23 < 26, 25 < 41 = N4 . Los l mites y la frecuencia de esa clase son l4 = 150, l5 = 200 y n4 = 18, as que el primer cuartil es q1 = 150 + An alogamente, el tercer cuartil es 78, 75 63 (300 250) = 287, 5 21 Esta denici on es susceptible de generalizaci on de esta manera: q3 = 250 + 26, 25 23 (200 150) = 159, 03 18
16
Denici on 6.5 En una muestra de n datos, se llama j esimo decil (j = 1, 2, . . . , 9) a jn Ni1 dj = li + 10 (li+1 li ) ni donde i es el n umero que verica Ni1 < y tambi en de esta otra Denici on 6.6 En una muestra de n datos, se llama j esimo percentil (j = 1, 2, . . . 99) a jn Ni1 (li+1 li ) pj = li + 100 ni donde i es el n umero que verica Ni1 < jn jn y Ni > . 100 100 jn jn y Ni > 10 10
Ejemplos: a) Calcular el s eptimo decil de la distribuci on de frecuencias dada en la siguiente tabla clases [10, 25) [25, 40) [40, 55) [55, 70) [70, 85) [85, 100) El n umero de datos es n = 200, de modo que frecuencias 15 25 42 50 38 30
jn 7 200 = = 140. Observando la tabla podemos ver que 10 10 N4 = 132 < 140 < 170 = N5 , luego k = 5. Los l mites y la frecuencia absoluta de la quinta clase son l5 = 70, l6 = 85, n5 = 38, con lo cual estamos en condiciones de calcular el decil pedido: 7 200 132 d7 = 70 + 10 (85 70) = 73, 16. 38
jn 32 200 = = 64. 100 100 De la tabla se deduce que N2 = 40 < 64 < 82 = N3 , luego i = 3. Los l mites y la frecuencia absoluta de la tercera clase son l3 = 40, l4 = 55, n3 = 42, as que podemos calcular el percentil pedido: b) Vamos ahora a calcular el 32 percentil de la misma distribuci on. Tenemos que 32 200 40 (55 40) = 48,57. = 40 + 100 42
p32
Todas estas medidas (cuartiles, deciles y percentiles) reciben el nombre gen erico de cuantiles. De un modo expresivo, pero sin mucha precisi on si el n umero de datos es peque no, podemos decir que el primer cuartil es un n umero por debajo del cual se halla el 25 % de los datos y por encima el 75 % restante. Asimismo, el sexto decil es un n umero por debajo del cual se encuentra el 60 % de los datos y por encima el 40 % restante, y el 89 percentil, el n umero por debajo del cual est a el 89 % de los datos y por encima el restante 11 %.
17
6.4.
Coeciente de variaci on
Cuando se estudian los errores en las medidas, se emplea el error relativo para tener en cuenta no s olo el tama nodel error (error absoluto) sino tambi en el tama node la medida, ya que un error de 10 en una medida de 1000, supone un 1 % mientras que en una medida de 100 es un 10 %. De modo an alogo, una desviaci on t pica de 10 en una muestra de media 1000 puede ser menos importante que en una muestra de media 100. Por ello se dene un concepto an alogo al error relativo, y como el suele expresarse en porcentajes despu es de multiplicarlo por 100. Denici on 6.7 Se llama coeciente de variaci on (o de dispersi on) de una muestra de media x y s desviaci on t pica s al cociente CV = . x El coeciente de variaci on es independiente de las unidades en que se hayan expresado los datos, por ello puede usarse para comparar distribuciones de frecuencias cuyos datos est en en diferentes unidades. Un inconveniente del coeciente de variaci on es que pierde su utilidad en distribuciones con media cercana a cero.
7.
Bibliograf a
Calot G. Curso de Estad stica Descriptiva. Paraninfo Huntsberger D.V. y Billingsley P. Elementos de Estad stica Inferencial. Compa nia Editorial Continental 1983. Mendenhall W. y Sincich T. Probabilidad y Estad stica para Ingenier a y Ciencias (4a edici on). Pearson Educaci on 1995. Spiegel M.R. Estad stica. McGraw-Hill. (Colecci on Schaum) Walpole R.E., Myers R.H. y Myers, S. L. Probabilidad y Estad stica para Ingenieros (6a edici on). Pearson Educaci on 1998.

Tema 1. Estadística Descriptiva

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 1. Estadística Descriptiva

Cargado por

Copyright:

Formatos disponibles

Tema 1 Estad stica Descriptiva

Tema 1. Estad stica descriptiva

Datos agrupados y sin agrupar

Tema 1. Estad stica descriptiva

Tema 1. Estad stica descriptiva

c) frecuencia absoluta acumulada Ni =

d) frecuencia relativa acumulada Fi =

c) frecuencia absoluta acumulada Ni =

d) frecuencia relativa acumulada Fi =

Tema 1. Estad stica descriptiva

De ambas deniciones se deducen las desigualdades a) 0 d) 0 ni fi n 1 b) 0 Ni n e) Ni Ni+1 c) 0 Fi 1

Tema 1. Estad stica descriptiva

Pol gonos de frecuencias

En la Figura 1 se muestra un pol gono de frecuencias para estos datos.

La correspondiente distribuci on de frecuencias con los datos agrupados en 7 clases es

Tema 1. Estad stica descriptiva

En la Figura 2 se ha trazado el histograma correspondiente a esta distribuci on de frecuencias.

Frederigo Samaso, Marqu es de Pareto 18481923, soci ologo y economista italiano.

Tema 1. Estad stica descriptiva

Causa de fallo corrosi on oxido contaminaci on metalizaci on silicio doping varios

Tema 1. Estad stica descriptiva

Miles de empleados 3706,3 3437,8 1096,3 1388,3 648,7 2454,8

En la Figura 4 se muestra un diagrama de sectores para esta distribuci on de frecuencias.

Figura 4: Ejemplo de diagrama de sectores.

Media aritm etica

Si consideramos los datos distintos x1 , x2 , . . . , xk (k podemos escribir 1 x = n

n) y sus respectivas frecuencias n1 , n2 , . . . , nk ,

Tema 1. Estad stica descriptiva

Ejemplos: a) En la siguiente distribuci on de frecuencias

Tema 1. Estad stica descriptiva

Tema 1. Estad stica descriptiva

Figura 6: C alculo aproximado de la mediana.

Tema 1. Estad stica descriptiva

Varianza, cuasivarianza, desviaci on t pica y cuasidesviaci on t pica

Pero la desviaci on media siempre es cero como es f acil comprobar: 1 n

Tema 1. Estad stica descriptiva

Se llama cuasi desviaci on t pica de la muestra a: sc = 1 n1

Tema 1. Estad stica descriptiva

Figura 7: C alculo del primer cuartil.

Tema 1. Estad stica descriptiva

Tema 1. Estad stica descriptiva

También podría gustarte