Está en la página 1de 11

CAPITULO I

ESTADISTICA DESCRIPTIVA

Por qu estudiar Estadstica?

El estudio de la Estadstica permite, entre otras cosas

Aprender las reglas y mtodos usados en el tratamiento de informacin


Evaluar y cuantificar la importancia de los resultados estadsticos obtenidos
Entender mejor algunos fenmenos de inters (Sociales, Econmicos, Biolgicos,
Educacionales, etc.)
Dar una visin ms clara acerca de la informacin proveniente de diversas fuentes.

Algunos aspectos estadsticos manejados en la informacin obtenida de la radio, la televisin


u otro medio, influencian fuertemente a gran cantidad de personas pero a veces no
proporcionan una descripcin cabal de los que pretenden mostrar.

Como una de las tareas de la Estadstica es el estudio de fenmenos aleatorios, esto hace
muy pertinente el tratar de explicar la manera como se comportan (Variabilidad).

Entre otras cosas la Estadstica se ocupa del manejo de la informacin que pueda ser
cuantificada. Implica esto la descripcin de conjuntos de datos y la inferencia a partir de la
informacin recolectada de un fenmeno de inters. La funcin principal de la estadstica
abarca:
Resumir, Simplificar, Comparar, Relacionar, Proyectar.

Entre las tareas que debe enfrentar un estudio estadstico estn:

Delimitar con precisin la poblacin de referencia o el conjunto de datos en estudio, las


unidades que deben ser observadas, las caractersticas o variables que sern medidas u
observadas.
Estrategias de Observacin: Censo, Muestreo, Diseo de Experimental.
Recoleccin y Registro de la informacin.
Depuracin de la informacin.
Construccin de Tablas.
Anlisis Estadstico:
Produccin de resmenes grficos y numricos.
Interpretacin de resultados.

Cuando los datos comprenden toda la poblacin de referencia, hablamos de un Censo y


cuando solo comprometen una parte de ella, hablamos de una muestra. En ambos casos es
pertinente un anlisis Descriptivo. En el segundo caso un anlisis Inferencial.

A grandes rasgos podemos decir que una Poblacin es el conjunto de toda posible
informacin, o de los objetos, que permite estudiar un fenmeno de inters.

Ejemplo. En el caso de medir la calificacin promedio obtenida por los estudiantes de


Estadstica I de la Universidad Nacional de Colombia Sede Medelln, en el semestre
02_2003. La poblacin puede ser el conjunto de todas las notas posibles obtenidas por los
estudiantes o el conjunto de todos los estudiantes registrados en el curso en dicho semestre.
La caracterstica de inters que debe ser estimada es la Nota Promedio del curso en dicho
semestre.

Una muestra es un subconjunto de informacin representativa de una poblacin.

Ejemplo. En el caso de determinar la nota promedio, podramos optar por seleccionar de


manera aleatoria un grupo de estudiantes de la poblacin y observar de ellos la nota
promedio obtenida al final del semestre. Con estos datos podemos estimar la nota promedio
global de todos los estudiantes en dicha poblacin (Todos los estudiantes de estadstica I). El
grupo de estudiantes seleccionados constituye una Muestra.

Las Variables resultan ser aquellas caractersticas de inters que desean ser medidas sobre
los objetos o individuos seleccionados.
En la mayora de los casos lo que se pretende es estimar, a partir de la informacin
recolectada de una muestra, caractersticas desconocidas de los objetos en dicha poblacin
de inters.

Por ejemplo, estimar el costo de vida promedio en cierta comunidad, requiere de un


despliegue muy grande de recursos, personal capacitado, diseo de encuestas o
cuestionarios, ejecucin de la misma, tiempo empleado, etc. Sin embargo una muestra
representativa de los objetos de inters en dicha comunidad (posiblemente hogares), permite
registrar las caractersticas de los objetos seleccionados que permitirn dar una
aproximacin del costo de vida real en la comunidad. El costo promedio de vida en esta
comunidad (costo real) constituye un Parmetro fijo que atae a la poblacin y el costo de
vida obtenido a partir de la muestra constituye una Estadstica o aproximacin al valor real
del parmetro.
Los parmetros son fijos, pues no dependen de ninguna muestra; los estadsticos dependen
siempre de la muestra seleccionada.

Las caractersticas desconocidas de una poblacin sern llamadas parmetros. Las


caractersticas calculadas a partir de una muestra son llamadas estadsticas. Una Inferencia
es una generalizacin obtenida a partir de una muestra aleatoria.

La Estadstica puede dividirse en dos grandes ramas: Estadstica Descriptiva y Estadstica


Inferencial.

Estadstica Descriptiva

Es el conjunto de mtodos usados para la organizacin y presentacin (descripcin) de la


informacin recolectada. La informacin recolectada puede ser catalogada de dos maneras:
Datos Cualitativos y Cuantitativos. Los primeros se refieren a categoras o atributos que
pueden clasificarse segn un criterio o cualidad. Ejemplo: Sexo, Color de Auto, Tipo de
Sangre, Estado civil, categora de un profesor, etc. Los segundos se refieren a informacin
numrica, como cuanto o cuantos. Ejemplo: Masa, estatura, Presin Sangunea, duracin de
un espcimen, etc.

Algunos datos numricos pueden ser clasificados como cuantitativos o cualitativos segn su
uso. Por ejemplo, la estatura de una persona se mide en centmetros, pies, metros y es
entonces una medida cuantitativa. Pero si se mide como Bajo, Medio y Alto, se convierte en
una medida cualitativa.

Los datos cuantitativos pueden ser clasificados como Discretos y Continuos.


Los datos Discretos estn relacionados principalmente con conteos, Los datos Continuos se
obtienen principalmente de mediciones. En el primer caso los resultados conforman un
conjunto discreto (finito o numerable), en el segundo caso el conjunto de posibles resultados
est conformado por un intervalo real.

Ejemplo: El nmero de nios en una familia, nmero de accidentes por hora en un cruce,
nmero de horas dedicadas a estudiar semanalmente, pulsaciones por minuto, nmero de
tiendas por manzana, son datos de tipo discreto. La velocidad de un automvil en km/h, la
masa de una persona en kgr, la estatura de cierto tipo de rboles en pulgadas, tiempo de
duracin de una batera en das, distancia de frenado en metros, edad de un individuo, son
datos de tipo continuo.

Los datos cualitativos a su vez pueden ser clasificados como Nominales y Ordinales.
Los primeros son obtenidos por medio de agrupamientos no ordenados de datos en
categoras discretas, usados principalmente en clasificacin o identificacin. Los segundos
son obtenidos o medidos en una escala nominal ordenados de alguna manera. Una escala
ordinal coloca las medidas en categoras, cada una de las cuales indica un nivel distinto
respecto a un atributo que se est midiendo.

Ejemplo: La raza, Estado civil, Sexo (M o F), Religin, Tipo de sangre, constituyen datos
nominales. Las categoras A, B, C, D, E como calificacin o niveles de perfeccionamiento,
categora de un profesor (Instructor asistente, Instructor asociado, Profesor asistente,
Profesor asociado y Profesor titular), son datos ordinales.

Organizacin de datos por medio de tablas de Frecuencia.

La idea primordial de este proceso es simplificar la forma como se representa la informacin.


La informacin puede mostrarse de dos maneras: No-agrupada y Agrupada.

En aquellos casos donde la cantidad de valores de una o varias variables es muy grande, se
hace necesario resumirlos para una presentacin ms adecuada y en algunos casos
agruparlos en clases, rangos o intervalos para facilitar su interpretacin.

La frecuencia de una medida o de una categora es el nmero de veces que esta aparece en
una coleccin de datos. Usualmente denotada f. La informacin que contiene los valores de
dichas medidas y sus respectivas frecuencias se llamar Tabla de Frecuencias.

Ejemplo: Se tienen los datos respecto al nmero de faltas a clase durante cierto perodo para
los estudiantes de un curso de Estadstica: 9 8 7 8 4 3 2 1 0 5 3 2 1 1 7 3 2 8 7 6 6 4 3 2 2 0 9
4 6 9 6 9 43 5 7 3 2 1 4 4 2. Construya una tabla de frecuencias adecuada para estos datos.

# Faltas 0 1 2 3 4 5 6 7 8 9
Frecuencia 2 4 7 6 6 2 4 4 3 4
Una agrupacin de estos datos puede reducir ms la presentacin:
# Faltas 0 1-2 3-4 5-6 7-8 >9
Frecuencia 2 11 12 6 7 4

Ejemplo: En cierto hospital se tiene informacin acerca del nmero de personas que ocupan
la sala de emergencias cada da en un perodo de 12 das. Los resultados observados son:

Da 1 2 3 4 5 6 7 8 9 10 11 12
# Pacientes 7 43 8 22 13 28 36 18 23 21 15 52

Una agrupacin de esta informacin puede ser:

Clase 1 10 11 20 21 30 31 - 40 41 - 50 > 50
Frecuencia 2 3 4 1 1 1

La manera como se agrupa la informacin debe corresponder a algn propsito particular de


quien analiza la informacin o requerimiento del investigador conocedor de la informacin.

Medidas de Localizacin o de Tendencia Central.

X , X , , X n
Suponga que se tiene un conjunto de datos numricos de la forma 1 2 , donde
X
cada i corresponde al i-simo valor de la variable de inters. Las medidas de localizacin
permiten tener un panorama general de aquella o aquellas caractersticas de inters en una
poblacin y al mismo tiempo sirven como representacin del conjunto de datos.

X1 , X 2 , , X n
Media Muestral. La media de un conjunto de observaciones , se denotar X y
1 n X1 + X 2 + + X n
X = Xi =
est dada por: n i=1 n .
En trminos fsicos la media representa el Centro de gravedad de un conjunto de datos.

Ejemplo: Se registra el nmero de tazas de caf consumidas por un empleado de oficina en


un perodo de 20 das. Los datos son: 4 5 3 6 7 1 2 3 0 5 6 5 8 4 0 2 3 7 5 6. De aqu
tenemos que:
1 20 82
X= Xi = = 4.1
20 i =1 20 . En promedio este empleado consume 4.1 tazas de caf diarias. El
siguiente grfico de puntos ilustra esta afirmacin.
Ejemplo: Se registran las edades (en aos) de 15 personas en un grupo. Los datos son: 18
20 19 19 21 22 20 23 21 24 19 20 22 21 24. La edad promedio de este grupo es:
313
X= = 20. 86 20. 9
15 .
Si resumimos esta informacin en una tabla de frecuencias de la forma:

Edad 18 19 20 21 22 23 24
Frecuencia 1 3 3 3 2 1 2
X i f i X i f i
X= = 20. 9
Podemos calcular la media muestral como:
15 f i .
La media muestral es sensible a datos extremos. Para los datos de edades, suponga que
313 + 35
X= = 21. 75 21. 8
otrta persona ingresa al grupo y su edad es 35 aos. As, 16 . Si la
313 + 45
X= = 22. 375 22. 4
edad fuera 45 aos, entonces, 16 . Si la edad es 60 aos,
313 + 60
X= = 23. 31 23. 3
16 .

X1 X 2 X n
Mediana. Si las observaciones se ordenan de menor a mayor, .la
mediana representa aquel valor que divide los datos en dos partes porcentual mente iguales.
De esta manera al menos el 50% de los datos son inferiores o iguales a la mediana. Si
~
denotamos por X o por Me, la mediana, tenemos
que:

Ejemplo. Considerando las edades del ejemplo anterior, ordenamos la informacin en forma
ascendente: 18 19 19 19 20 20 20 21 21 21 22 22 23 24 24. En este caso, como n=15,
Me = X 15 +1 = X 8 = 21
entonces 2 . Al menos el 50% de las personas en el grupo en cuestin
tienen 21 aos o menos. La mediana a diferencia de la media muestral no es tan sensible a
datos extremos. Por ejemplo si otra persona de 10 aos hace parte del grupo, tenemos n=16.
X 8 + X 9 20 + 21
Me = = = 20. 5
As: 2 2 . La interpretacin es igual. Si La persona tiene 35 aos,
X 8 + X 9 21 + 21
Me = = = 21
entonces 2 2 . Si la edad es 55 aos, Me = 21 . Como se podr
observar, la mediana divide la informacin en dos partes porcentualmente iguales. Si
queremos dividir la informacin en cuatro partes porcentualmente iguales, cada parte
representar el 25% de la informacin. Los valores reales que dividen la informacin en
cuartos son llamadas Cuartiles y se denotan Q1, Q2 y Q3.
De esta manera Q1 deja al menos el 25% de la informacin inferior o igual e el, Q2 deja al
menos el 50% de la informacin menor o igual a el (esta es la Mediana) y finalmente Q3 deja
al menos el 75% de la informacin inferior o igual a el.
Si la divisin se hace en 100 partes porcentualmente iguales, los valores reales que permiten
esta divisin son llamados Percentiles. Usualmente denotados con la letra P y el respectivo
percentil. Por ejemplo P10, P25, P70, etc.

Ejemplo. Retomando las edades de las 15 personas, calcule Q1, P60 y P90.
Q1 corresponde al percentil 25, es decir, P25. El 25% de 15 datos es: 0. 25 15 = 3. 75 . En
Q1 = X 4 = 19
este caso escogemos . Para el percentil 60, tenemos que 0. 60 15 = 9 . As hay
dos valores que cumple la condicin de dejar al menos 9 valores iguales o inferiores a ellos:
X 9 + X 10
X 9 y X 10 P60 = = 21
. As, 2 . Para P90, tenemos: 0. 90 15 = 13. 5 . As,
P90 = X 14 = 24
. Al menos el 90% de las personas tienen edades inferiores o iguales a 24
aos.

Otras medidas de Localizacin son la Moda, la Media Recortada, la Media Geomtrica, entre
otras.

Medidas de Variabilidad o de Dispersin.

Las medidas de variabilidad permiten establecer que tan dispersos estn entre si un conjunto
de datos observados. Algunas de estas medidas se refieren a la Dispersin respecto a una
medida particular de tendencia central.
El Rango es la diferencia entre el mximo valor observado y el mnimo: R=Max-Min.
El Rango Intercuartil, el cual denotaremos IQR, es la diferencia entre Q3 y Q1: -
IQR = Q3 - Q1 . El Rango Intercuartil permite determinar que tan disperso est el 50% de la
informacin mas central.
X , X , , X n
Varianza Muestral. Si 1 2 es un conjunto de observaciones, la Varianza Muestral,
2
(
Xi -X 2 )
S =
denotada S, est dada por: n -1 . La Desviacin Estndar ser la raz cuadrada
de la Varianza.

( X 1 - X )2
S2 = = 3. 41
Ejemplo: Usando los datos de las edades, tenemos que: 15 - 1 y S = 1. 85 .
Para estos la desviacin es casi 2 aos, lo que indica una dispersin alta. Otras medidas de
variabilidad son: Desviacin Mediana, Desviacin absoluta, etc.

Diagramas de Barras e Histogramas.

La informacin es presentada de manera grfica dependiendo del tipo de datos que esta
contenga. Si la variable representa categoras o clasificaciones es usual usar una tabla de
frecuencias para resumir la informacin y luego un diagrama de barras para visualizarla; en
este caso el eje X estar compuesto por las categoras o niveles discretos de la variable y en
el eje Y la frecuencia o porcentajes que le corresponden a cata categora o nivel discreto.

Ejemplo: se tiene informacin resumida acerca del monto anual obtenido por donaciones en
diferentes reas.

Area Monto Porcentaje


Religin 31.0 47.8
Artes y 4.1 6.3
Humanidades
Servicios Sociales 6.9 1.06
Educacin 9.0 13.9
Salud 9.2 14.2
Otros 4.7 7.2

O si lo que se quiere una representacin


usando los porcentajes obtenemos un
diagrama de este estilo:

El programa en SAS usado es:

data monto;
input area$ 1-19 total porc;
cards;
Religion 31.0 47.8
Artes y Humanidades 4.1 6.3
Servicios Sociales 6.9 10.6
Educacin 9.0 13.9
Salud 9.2 14.2
Otros 4.7 7.2
;
run;

Proc gchart data=monto;


vbar rea/freq=total space=10;
vbar rea/freq=porc space=10;
run;

Ejemplo. Retomando los datos acerca del nmero de faltas de un grupo de estudiantes en un
curso de Estadstica, la tabla de frecuencias elaborada al respecto muestra 10 categoras
diferentes. Si el rango del nmero de faltas fuera mucho mayor, el diagrama de barras
resultante no sera operativo, en el sentido
en que muchas barras quedaran sin
frecuencia. Se recomienda agrupar para
lograr captar mejor la informacin. La tabla
de frecuencias y el respectivo diagrama de
barras se muestra a continuacin:
Rango o Clase Frecuencia
01 6
23 13
45 8
67 8
89 7
Cuando los datos son de tipo continuo se hace necesario agruparlos en intervalos disjuntos
para tener una mejor comprensin grfica de su comportamiento.

Ejemplo. Las estaturas en centmetros de 50 estudiantes mujeres un grupo se registraron.


Los datos son:
157 155 171 150 163 150 172 161 154 174 163 148 152 163 149 158 176 164 157 153 169
161 160 164 155 162 151 167 167 167 170 158 163 175 169 169 158 150 156 157 174 162
150 151 165 170 156 170 153 154.
Agrupe adecuadamente los datos y elabore la respectiva tabla de frecuencias y el histograma
de frecuencias relativas.
El problema ms importante a resolver aqu es En cuntas clases o intervalos debo agrupar
la informacin? Es decir, cul es el nmero ms adecuado de intervalos de agrupacin?.
Existen diversas reglas empricas acerca de cual debe ser un nmero de intervalos o grupos
adecuados. Sea n: nmero de observaciones, K: nmero de intervalos o grupos, R: Rango,
A: Amplitud del intervalo. Entre las reglas ms conocidas se tienen:

-
K= n
- 5 K 25
K = 1 + 3.33 log 10 n
- (Regla de Sturges)

Si usamos la primera regla, corremos el riesgo de incrementar drsticamente el nmero de


intervalos a medida que aumenta el nmero de datos. Por ejemplo con n=100,
K = 100 = 10 . Si n=1000, K = 1000 = 10 10 31.62 . Se recomienda usar la ltima regla
pues esta permite corregir el valor de K aunque se incremente dramticamente el nmero de
K = 1 + 3.33 log 10 50 = 6.66
datos. Usando la regla de Sturges, un nmero de clases inicial es .
As aproximamos K 7 . La estatura mnima es 148 cms y la mxima estatura es 176. As el
R 28
A= = =4
rango ser R = 176 148 = 28 . La amplitud de estos ser: K 7 .

Los intervalos que se generen deben ser disjuntos, de esta manera se proponen intervalos
semi-abiertos a derecha. As los intervalos de clases sern:
[148, 152 ) , [152, 156 ) ,
[156, 160 ) , [160, 164 ) ,. [164, 168) , [168, 172 ) , [172, 176 ) . Es implicara que el mximo valor
no est incluido en el ltimo intervalo. Es usual incrementar levemente la amplitud de los
intervalos para garantizar que ningn valor quede por fuera de la clasificacin. En otros
casos Haciendo A = 4.2 , entonces el nuevo rango es: R = 4.2 7 = 29.4 . As, el rango se
ampla en 1.4 unidades que pueden ser repartidas 0.7 a izquierda y a derecha. En el
siguiente grfico ilustra lo antes dicho.

Los intervalos de clase respectivos son:


[147.3, 151.5) , [151.5, 155.7 ) , [155.7 , 159.9 ) ,
[159.9, 164.1) , [164.1, 168.3) , [168.3, 172.5) [172.5, 176.7 ) .

La tabla de frecuencias para estos intervalos y el respectivo histograma son:

Este grfico es llamado Histograma de Frecuencias. Se puede observar que las estaturas no
estn muy agrupadas alrededor de un rango de valores especficos, de hecho, las personas
con estaturas entre 148 y 160 cms. presentan frecuencias muy similares. Es muy frecuente
encontrar personas con estaturas que oscilan entre los 160 y 164 cms. Aproximadamente.

Es usual graficar las clases contra las frecuencias de manera que el rea de cada rectngulo
sea igual a la frecuencia. El histograma resultante se llama Histograma de Densidad.

Diagrama de Cajas y Bigotes: Box-PLot

Los diagramas de caja y bigotes son herramientas grficas muy tiles para describir
caractersticas importantes en un conjunto de datos, como son centro, simetra o asimetra,
valores atpicos (raros), etc. La construccin de este diagrama emplea medidas descriptivas
que son poco sensibles a datos extremos y por lo tanto presentan una descripcin ms clara
de la informacin. Bsicamente empleamos para su construccin los tres cuarteles, los
valores mnimos y mximos y la media Muestral solo como medida de localizacin en el
grfico.
Una observacin se dice Atpica o Inusual si est a ms de 1.5 veces el rango intercualtil de
alguno de los cuarteles Q1 o Q3. Una observacin se dice Atpica Extrema si est a ms de
3 veces el rango Intercuartil de alguno de los cuarteles Q1 o Q3.

El diagrama est conformado por una caja la cual se construye con ayuda del primer y tercer
cuartil. La mediana es dibujada en el interior de la caja al igual que la media muestral. Los
bigotes se extienden desde los cuartiles a la derecha y a la izquierda. Su longitud depende
de si hay o no datos atpicos.

Sin valores Atpicos ni Extremos:

Con valores Atpicos y/o Extremos:

En algunos paquetes computacionales, los bigotes van siempre hasta los valores mnimo y
mximo, sin hacer distincin en los valores atpicos.

Ejemplo. Para los datos de las estaturas tenemos: Min = 148 , Max = 176 ,
X = 160. 86 Q 1 = 154 , Q 2 = 161 , Q 3 = 167 .
Ejemplo. En un estudio epidemiolgico, el Organochlorine y PCBs totales fueron registrados
en 40 voluntarios en Colorado. Los datos son: 27 43 52 53 53 53 61 63 63 65 68 70 72 75 83
95 96 97 101 105 110 115 115 115 115 126 127 134 145 152 153 182 190 197 197 282 322
322 342 521.
Q = 66. 5
Algunas medidas descriptivas bsicas son: Min = 27 , Max = 521 , X = 133. 925 , 1 ,
Q 2 = 107. 5 Q 3 = 152. 5
, .

El respectivo Diagrama de cajas y bigotes se muestra a continuacin:

En este caso existen datos inusuales de los dos tipos: atpicos y atpicos extremos. Lo que
nos muestra una gran dispersin de los datos debido a observaciones muy inusuales 282,
322,342 y 521. El Histograma de frecuencias evidencia dicho sesgo a la derecha. Esto indica
que es muy inusual encontrar niveles totales superiores a 280.

También podría gustarte