Está en la página 1de 11

CAPITULO I ESTADISTICA DESCRIPTIVA Por qu estudiar Estadstica?

El estudio de la Estadstica permite, entre otras cosas Aprender las reglas y mtodos usados en el tratamiento de informacin Evaluar y cuantificar la importancia de los resultados estadsticos obtenidos Entender mejor algunos fenmenos de inters (Sociales, Econmicos, Biolgicos, Educacionales, etc.) Dar una visin ms clara acerca de la informacin proveniente de diversas fuentes. Algunos aspectos estadsticos manejados en la informacin obtenida de la radio, la televisin u otro medio, influencian fuertemente a gran cantidad de personas pero a veces no proporcionan una descripcin cabal de los que pretenden mostrar. Como una de las tareas de la Estadstica es el estudio de fenmenos aleatorios, esto hace muy pertinente el tratar de explicar la manera como se comportan (Variabilidad). Entre otras cosas la Estadstica se ocupa del manejo de la informacin que pueda ser cuantificada. Implica esto la descripcin de conjuntos de datos y la inferencia a partir de la informacin recolectada de un fenmeno de inters. La funcin principal de la estadstica abarca: Resumir, Simplificar, Comparar, Relacionar, Proyectar. Entre las tareas que debe enfrentar un estudio estadstico estn: Delimitar con precisin la poblacin de referencia o el conjunto de datos en estudio, las unidades que deben ser observadas, las caractersticas o variables que sern medidas u observadas. Estrategias de Observacin: Censo, Muestreo, Diseo de Experimental. Recoleccin y Registro de la informacin. Depuracin de la informacin. Construccin de Tablas. Anlisis Estadstico: Produccin de resmenes grficos y numricos. Interpretacin de resultados. Cuando los datos comprenden toda la poblacin de referencia, hablamos de un Censo y cuando solo comprometen una parte de ella, hablamos de una muestra. En ambos casos es pertinente un anlisis Descriptivo. En el segundo caso un anlisis Inferencial. A grandes rasgos podemos decir que una Poblacin es el conjunto de toda posible informacin, o de los objetos, que permite estudiar un fenmeno de inters. Ejemplo. En el caso de medir la calificacin promedio obtenida por los estudiantes de Estadstica I de la Universidad Nacional de Colombia Sede Medelln, en el semestre 02_2003. La poblacin puede ser el conjunto de todas las notas posibles obtenidas por los

estudiantes o el conjunto de todos los estudiantes registrados en el curso en dicho semestre. La caracterstica de inters que debe ser estimada es la Nota Promedio del curso en dicho semestre. Una muestra es un subconjunto de informacin representativa de una poblacin. Ejemplo. En el caso de determinar la nota promedio, podramos optar por seleccionar de manera aleatoria un grupo de estudiantes de la poblacin y observar de ellos la nota promedio obtenida al final del semestre. Con estos datos podemos estimar la nota promedio global de todos los estudiantes en dicha poblacin (Todos los estudiantes de estadstica I). El grupo de estudiantes seleccionados constituye una Muestra. Las Variables resultan ser aquellas caractersticas de inters que desean ser medidas sobre los objetos o individuos seleccionados. En la mayora de los casos lo que se pretende es estimar, a partir de la informacin recolectada de una muestra, caractersticas desconocidas de los objetos en dicha poblacin de inters. Por ejemplo, estimar el costo de vida promedio en cierta comunidad, requiere de un despliegue muy grande de recursos, personal capacitado, diseo de encuestas o cuestionarios, ejecucin de la misma, tiempo empleado, etc. Sin embargo una muestra representativa de los objetos de inters en dicha comunidad (posiblemente hogares), permite registrar las caractersticas de los objetos seleccionados que permitirn dar una aproximacin del costo de vida real en la comunidad. El costo promedio de vida en esta comunidad (costo real) constituye un Parmetro fijo que atae a la poblacin y el costo de vida obtenido a partir de la muestra constituye una Estadstica o aproximacin al valor real del parmetro. Los parmetros son fijos, pues no dependen de ninguna muestra; los estadsticos dependen siempre de la muestra seleccionada. Las caractersticas desconocidas de una poblacin sern llamadas parmetros. Las caractersticas calculadas a partir de una muestra son llamadas estadsticas. Una Inferencia es una generalizacin obtenida a partir de una muestra aleatoria. La Estadstica puede dividirse en dos grandes ramas: Estadstica Descriptiva y Estadstica Inferencial. Estadstica Descriptiva Es el conjunto de mtodos usados para la organizacin y presentacin (descripcin) de la informacin recolectada. La informacin recolectada puede ser catalogada de dos maneras: Datos Cualitativos y Cuantitativos. Los primeros se refieren a categoras o atributos que pueden clasificarse segn un criterio o cualidad. Ejemplo: Sexo, Color de Auto, Tipo de Sangre, Estado civil, categora de un profesor, etc. Los segundos se refieren a informacin numrica, como cuanto o cuantos. Ejemplo: Masa, estatura, Presin Sangunea, duracin de un espcimen, etc. Algunos datos numricos pueden ser clasificados como cuantitativos o cualitativos segn su uso. Por ejemplo, la estatura de una persona se mide en centmetros, pies, metros y es

entonces una medida cuantitativa. Pero si se mide como Bajo, Medio y Alto, se convierte en una medida cualitativa. Los datos cuantitativos pueden ser clasificados como Discretos y Continuos. Los datos Discretos estn relacionados principalmente con conteos, Los datos Continuos se obtienen principalmente de mediciones. En el primer caso los resultados conforman un conjunto discreto (finito o numerable), en el segundo caso el conjunto de posibles resultados est conformado por un intervalo real. Ejemplo: El nmero de nios en una familia, nmero de accidentes por hora en un cruce, nmero de horas dedicadas a estudiar semanalmente, pulsaciones por minuto, nmero de tiendas por manzana, son datos de tipo discreto. La velocidad de un automvil en km/h, la masa de una persona en kgr, la estatura de cierto tipo de rboles en pulgadas, tiempo de duracin de una batera en das, distancia de frenado en metros, edad de un individuo, son datos de tipo continuo. Los datos cualitativos a su vez pueden ser clasificados como Nominales y Ordinales. Los primeros son obtenidos por medio de agrupamientos no ordenados de datos en categoras discretas, usados principalmente en clasificacin o identificacin. Los segundos son obtenidos o medidos en una escala nominal ordenados de alguna manera. Una escala ordinal coloca las medidas en categoras, cada una de las cuales indica un nivel distinto respecto a un atributo que se est midiendo. Ejemplo: La raza, Estado civil, Sexo (M o F), Religin, Tipo de sangre, constituyen datos nominales. Las categoras A, B, C, D, E como calificacin o niveles de perfeccionamiento, categora de un profesor (Instructor asistente, Instructor asociado, Profesor asistente, Profesor asociado y Profesor titular), son datos ordinales. Organizacin de datos por medio de tablas de Frecuencia. La idea primordial de este proceso es simplificar la forma como se representa la informacin. La informacin puede mostrarse de dos maneras: No-agrupada y Agrupada. En aquellos casos donde la cantidad de valores de una o varias variables es muy grande, se hace necesario resumirlos para una presentacin ms adecuada y en algunos casos agruparlos en clases, rangos o intervalos para facilitar su interpretacin. La frecuencia de una medida o de una categora es el nmero de veces que esta aparece en una coleccin de datos. Usualmente denotada f. La informacin que contiene los valores de dichas medidas y sus respectivas frecuencias se llamar Tabla de Frecuencias. Ejemplo: Se tienen los datos respecto al nmero de faltas a clase durante cierto perodo para los estudiantes de un curso de Estadstica: 9 8 7 8 4 3 2 1 0 5 3 2 1 1 7 3 2 8 7 6 6 4 3 2 2 0 9 4 6 9 6 9 43 5 7 3 2 1 4 4 2. Construya una tabla de frecuencias adecuada para estos datos. # Faltas 0 1 2 3 4 5 6 7 Frecuencia 2 4 7 6 6 2 4 4 Una agrupacin de estos datos puede reducir ms la presentacin: 8 3 9 4

# Faltas Frecuencia

0 2

1-2 11

3-4 12

5-6 6

7-8 7

>9 4

Ejemplo: En cierto hospital se tiene informacin acerca del nmero de personas que ocupan la sala de emergencias cada da en un perodo de 12 das. Los resultados observados son: Da # Pacientes 1 7 2 43 3 8 4 22 5 13 6 28 7 36 8 18 9 23 10 21 11 15 12 52

Una agrupacin de esta informacin puede ser: Clase Frecuencia 1 10 2 11 20 3 21 30 4 31 - 40 1 41 - 50 1 > 50 1

La manera como se agrupa la informacin debe corresponder a algn propsito particular de quien analiza la informacin o requerimiento del investigador conocedor de la informacin.

Medidas de Localizacin o de Tendencia Central.


X , X , , X n , donde Suponga que se tiene un conjunto de datos numricos de la forma 1 2 X cada i corresponde al i-simo valor de la variable de inters. Las medidas de localizacin permiten tener un panorama general de aquella o aquellas caractersticas de inters en una poblacin y al mismo tiempo sirven como representacin del conjunto de datos.

Media Muestral. La media de un conjunto de observaciones X1 + X 2 + + X n 1 n X = Xi = n i=1 n est dada por: .

X1 , X 2 , , X n

, se denotar X y

En trminos fsicos la media representa el Centro de gravedad de un conjunto de datos. Ejemplo: Se registra el nmero de tazas de caf consumidas por un empleado de oficina en un perodo de 20 das. Los datos son: 4 5 3 6 7 1 2 3 0 5 6 5 8 4 0 2 3 7 5 6. De aqu tenemos que: 1 20 82 X= Xi = = 4.1 20 i =1 20 . En promedio este empleado consume 4.1 tazas de caf diarias. El siguiente grfico de puntos ilustra esta afirmacin.

Ejemplo: Se registran las edades (en aos) de 15 personas en un grupo. Los datos son: 18 20 19 19 21 22 20 23 21 24 19 20 22 21 24. La edad promedio de este grupo es: 313 X= = 20. 86 20. 9 15 . Si resumimos esta informacin en una tabla de frecuencias de la forma:
Edad 18 Frecuencia 1 19 3 20 3 21 3 22 2 23 1 24 2

X=

Podemos calcular la media muestral como: . La media muestral es sensible a datos extremos. Para los datos de edades, suponga que 313 + 35 X= = 21. 75 21. 8 16 otrta persona ingresa al grupo y su edad es 35 aos. As, . Si la 313 + 45 X= = 22. 375 22. 4 16 edad fuera 45 aos, entonces, . Si la edad es 60 aos, 313 + 60 X= = 23. 31 23. 3 16 .
X1 X 2 X n Mediana. Si las observaciones se ordenan de menor a mayor, .la mediana representa aquel valor que divide los datos en dos partes porcentual mente iguales. De esta manera al menos el 50% de los datos son inferiores o iguales a la mediana. Si
~

X i f i X i f i = 15 f i

20. 9

denotamos por X o por que:

Me, la mediana, tenemos

Ejemplo. Considerando las edades del ejemplo anterior, ordenamos la informacin en forma ascendente: 18 19 19 19 20 20 20 21 21 21 22 22 23 24 24. En este caso, como n=15, Me = X 15 +1 = X 8 = 21
2 entonces . Al menos el 50% de las personas en el grupo en cuestin tienen 21 aos o menos. La mediana a diferencia de la media muestral no es tan sensible a datos extremos. Por ejemplo si otra persona de 10 aos hace parte del grupo, tenemos n=16. X 8 + X 9 20 + 21 Me = = = 20. 5 2 2 As: . La interpretacin es igual. Si La persona tiene 35 aos, X 8 + X 9 21 + 21 Me = = = 21 2 2 entonces . Si la edad es 55 aos, Me = 21 . Como se podr observar, la mediana divide la informacin en dos partes porcentualmente iguales. Si queremos dividir la informacin en cuatro partes porcentualmente iguales, cada parte representar el 25% de la informacin. Los valores reales que dividen la informacin en cuartos son llamadas Cuartiles y se denotan Q1, Q2 y Q3.

De esta manera Q1 deja al menos el 25% de la informacin inferior o igual e el, Q2 deja al menos el 50% de la informacin menor o igual a el (esta es la Mediana) y finalmente Q3 deja al menos el 75% de la informacin inferior o igual a el. Si la divisin se hace en 100 partes porcentualmente iguales, los valores reales que permiten esta divisin son llamados Percentiles. Usualmente denotados con la letra P y el respectivo percentil. Por ejemplo P10, P25, P70, etc. Ejemplo. Retomando las edades de las 15 personas, calcule Q1, P60 y P90. Q1 corresponde al percentil 25, es decir, P25. El 25% de 15 datos es: 0. 25 15 = 3. 75 . En Q1 = X 4 = 19 este caso escogemos . Para el percentil 60, tenemos que 0. 60 15 = 9 . As hay

dos valores que cumple la condicin de dejar al menos 9 valores iguales o inferiores a ellos: X 9 + X 10 P60 = = 21 X 9 y X 10 2 . Para P90, tenemos: 0. 90 15 = 13. 5 . As, . As, P90 = X 14 = 24 . Al menos el 90% de las personas tienen edades inferiores o iguales a 24 aos. Otras medidas de Localizacin son la Moda, la Media Recortada, la Media Geomtrica, entre otras. Medidas de Variabilidad o de Dispersin. Las medidas de variabilidad permiten establecer que tan dispersos estn entre si un conjunto de datos observados. Algunas de estas medidas se refieren a la Dispersin respecto a una medida particular de tendencia central. El Rango es la diferencia entre el mximo valor observado y el mnimo: R=Max-Min. El Rango Intercuartil, el cual denotaremos IQR, es la diferencia entre Q3 y Q1: IQR = Q3 - Q1 . El Rango Intercuartil permite determinar que tan disperso est el 50% de la informacin mas central. X , X , , X n Varianza Muestral. Si 1 2 es un conjunto de observaciones, la Varianza Muestral, Xi -X 2 2 S = n -1 denotada S, est dada por: . La Desviacin Estndar ser la raz cuadrada de la Varianza.

S2 = = 3. 41 15 - 1 Ejemplo: Usando los datos de las edades, tenemos que: y S = 1. 85 . Para estos la desviacin es casi 2 aos, lo que indica una dispersin alta. Otras medidas de variabilidad son: Desviacin Mediana, Desviacin absoluta, etc.

( X 1 - X )2

Diagramas de Barras e Histogramas. La informacin es presentada de manera grfica dependiendo del tipo de datos que esta contenga. Si la variable representa categoras o clasificaciones es usual usar una tabla de frecuencias para resumir la informacin y luego un diagrama de barras para visualizarla; en

este caso el eje X estar compuesto por las categoras o niveles discretos de la variable y en el eje Y la frecuencia o porcentajes que le corresponden a cata categora o nivel discreto. Ejemplo: se tiene informacin resumida acerca del monto anual obtenido por donaciones en diferentes reas. Area Religin Artes y Humanidades Servicios Sociales Educacin Salud Otros Monto Porcentaje 31.0 47.8 4.1 6.3 6.9 9.0 9.2 4.7 1.06 13.9 14.2 7.2

O si lo que se quiere una representacin usando los porcentajes obtenemos un diagrama de este estilo: El programa en SAS usado es: data monto; input area$ 1-19 total porc; cards; Religion 31.0 47.8 Artes y Humanidades 4.1 6.3 Servicios Sociales 6.9 10.6 Educacin 9.0 13.9 Salud 9.2 14.2 Otros 4.7 7.2 ; run; Proc gchart data=monto; vbar rea/freq=total space=10; vbar rea/freq=porc space=10; run; Ejemplo. Retomando los datos acerca del nmero de faltas de un grupo de estudiantes en un curso de Estadstica, la tabla de frecuencias elaborada al respecto muestra 10 categoras diferentes. Si el rango del nmero de faltas fuera mucho mayor, el diagrama de barras resultante no sera operativo, en el sentido en que muchas barras quedaran sin frecuencia. Se recomienda agrupar para lograr captar mejor la informacin. La tabla de frecuencias y el respectivo diagrama de barras se muestra a continuacin:

Rango o Clase Frecuencia 01 6 23 13 45 8 67 8 89 7 Cuando los datos son de tipo continuo se hace necesario agruparlos en intervalos disjuntos para tener una mejor comprensin grfica de su comportamiento. Ejemplo. Las estaturas en centmetros de 50 estudiantes mujeres un grupo se registraron. Los datos son: 157 155 171 150 163 150 172 161 154 174 163 148 152 163 149 158 176 164 157 153 169 161 160 164 155 162 151 167 167 167 170 158 163 175 169 169 158 150 156 157 174 162 150 151 165 170 156 170 153 154. Agrupe adecuadamente los datos y elabore la respectiva tabla de frecuencias y el histograma de frecuencias relativas. El problema ms importante a resolver aqu es En cuntas clases o intervalos debo agrupar la informacin? Es decir, cul es el nmero ms adecuado de intervalos de agrupacin?. Existen diversas reglas empricas acerca de cual debe ser un nmero de intervalos o grupos adecuados. Sea n: nmero de observaciones, K: nmero de intervalos o grupos, R: Rango, A: Amplitud del intervalo. Entre las reglas ms conocidas se tienen:

K= n - 5 K 25 K = 1 + 3.33 log 10 n (Regla de Sturges) Si usamos la primera regla, corremos el riesgo de incrementar drsticamente el nmero de intervalos a medida que aumenta el nmero de datos. Por ejemplo con n=100, K = 100 = 10 . Si n=1000, K = 1000 = 10 10 31.62 . Se recomienda usar la ltima regla pues esta permite corregir el valor de K aunque se incremente dramticamente el nmero de K = 1 + 3.33 log 10 50 = 6.66 datos. Usando la regla de Sturges, un nmero de clases inicial es . K 7 As aproximamos . La estatura mnima es 148 cms y la mxima estatura es 176. As el R 28 A= = =4 K 7 rango ser R = 176 148 = 28 . La amplitud de estos ser: .

Los intervalos que se generen deben ser disjuntos, de esta manera se proponen intervalos [148, 152 ) , [152, 156 ) , semi-abiertos a derecha. As los intervalos de clases sern: [156, 160 ) , [160, 164 ) ,. [164, 168) , [168, 172 ) , [172, 176 ) . Es implicara que el mximo valor no est incluido en el ltimo intervalo. Es usual incrementar levemente la amplitud de los intervalos para garantizar que ningn valor quede por fuera de la clasificacin. En otros

casos Haciendo A = 4.2 , entonces el nuevo rango es: R = 4.2 7 = 29.4 . As, el rango se ampla en 1.4 unidades que pueden ser repartidas 0.7 a izquierda y a derecha. En el siguiente grfico ilustra lo antes dicho.

[147.3, 151.5) , Los intervalos de clase respectivos son: [159.9, 164.1) , [164.1, 168.3) , [168.3, 172.5) [172.5, 176.7 ) .

[151.5, 155.7 ) , [155.7 , 159.9 ) ,

La tabla de frecuencias para estos intervalos y el respectivo histograma son:

Este grfico es llamado Histograma de Frecuencias. Se puede observar que las estaturas no estn muy agrupadas alrededor de un rango de valores especficos, de hecho, las personas con estaturas entre 148 y 160 cms. presentan frecuencias muy similares. Es muy frecuente encontrar personas con estaturas que oscilan entre los 160 y 164 cms. Aproximadamente. Es usual graficar las clases contra las frecuencias de manera que el rea de cada rectngulo sea igual a la frecuencia. El histograma resultante se llama Histograma de Densidad. Diagrama de Cajas y Bigotes: Box-PLot Los diagramas de caja y bigotes son herramientas grficas muy tiles para describir caractersticas importantes en un conjunto de datos, como son centro, simetra o asimetra, valores atpicos (raros), etc. La construccin de este diagrama emplea medidas descriptivas que son poco sensibles a datos extremos y por lo tanto presentan una descripcin ms clara

de la informacin. Bsicamente empleamos para su construccin los tres cuarteles, los valores mnimos y mximos y la media Muestral solo como medida de localizacin en el grfico. Una observacin se dice Atpica o Inusual si est a ms de 1.5 veces el rango intercualtil de alguno de los cuarteles Q1 o Q3. Una observacin se dice Atpica Extrema si est a ms de 3 veces el rango Intercuartil de alguno de los cuarteles Q1 o Q3. El diagrama est conformado por una caja la cual se construye con ayuda del primer y tercer cuartil. La mediana es dibujada en el interior de la caja al igual que la media muestral. Los bigotes se extienden desde los cuartiles a la derecha y a la izquierda. Su longitud depende de si hay o no datos atpicos. Sin valores Atpicos ni Extremos:

Con valores Atpicos y/o Extremos:

En algunos paquetes computacionales, los bigotes van siempre hasta los valores mnimo y mximo, sin hacer distincin en los valores atpicos. Ejemplo. Para los datos de las estaturas X = 160. 86 Q 1 = 154 , Q 2 = 161 , Q 3 = 167 . tenemos: Min = 148 , Max = 176 ,

Ejemplo. En un estudio epidemiolgico, el Organochlorine y PCBs totales fueron registrados en 40 voluntarios en Colorado. Los datos son: 27 43 52 53 53 53 61 63 63 65 68 70 72 75 83 95 96 97 101 105 110 115 115 115 115 126 127 134 145 152 153 182 190 197 197 282 322 322 342 521. Q = 66. 5 Algunas medidas descriptivas bsicas son: Min = 27 , Max = 521 , X = 133. 925 , 1 , Q 2 = 107. 5 Q 3 = 152. 5 , . El respectivo Diagrama de cajas y bigotes se muestra a continuacin:

En este caso existen datos inusuales de los dos tipos: atpicos y atpicos extremos. Lo que nos muestra una gran dispersin de los datos debido a observaciones muy inusuales 282, 322,342 y 521. El Histograma de frecuencias evidencia dicho sesgo a la derecha. Esto indica que es muy inusual encontrar niveles totales superiores a 280.