Está en la página 1de 11

CAPITULO I

ESTADISTICA DESCRIPTIVA

¿Por qué estudiar Estadística?

El estudio de la Estadística permite, entre otras cosas

Aprender las reglas y métodos usados en el tratamiento de información


Evaluar y cuantificar la importancia de los resultados estadísticos obtenidos
Entender mejor algunos fenómenos de interés (Sociales, Económicos, Biológicos,
Educacionales, etc.)
Dar una visión más clara acerca de la información proveniente de diversas fuentes.

Algunos aspectos estadísticos manejados en la información obtenida de la radio, la televisión


u otro medio, influencian fuertemente a gran cantidad de personas pero a veces no
proporcionan una descripción cabal de los que pretenden mostrar.

Como una de las tareas de la Estadística es el estudio de fenómenos aleatorios, esto hace
muy pertinente el tratar de explicar la manera como se comportan (Variabilidad).

Entre otras cosas la Estadística se ocupa del manejo de la información que pueda ser
cuantificada. Implica esto la descripción de conjuntos de datos y la inferencia a partir de la
información recolectada de un fenómeno de interés. La función principal de la estadística
abarca:
Resumir, Simplificar, Comparar, Relacionar, Proyectar.

Entre las tareas que debe enfrentar un estudio estadístico están:

Delimitar con precisión la población de referencia o el conjunto de datos en estudio, las


unidades que deben ser observadas, las características o variables que serán medidas u
observadas.
Estrategias de Observación: Censo, Muestreo, Diseño de Experimental.
Recolección y Registro de la información.
Depuración de la información.
Construcción de Tablas.
Análisis Estadístico:
Producción de resúmenes gráficos y numéricos.
Interpretación de resultados.

Cuando los datos comprenden toda la población de referencia, hablamos de un Censo y


cuando solo comprometen una parte de ella, hablamos de una muestra. En ambos casos es
pertinente un análisis Descriptivo. En el segundo caso un análisis Inferencial.

A grandes rasgos podemos decir que una Población es el conjunto de toda posible
información, o de los objetos, que permite estudiar un fenómeno de interés.

Ejemplo. En el caso de medir la calificación promedio obtenida por los estudiantes de


Estadística I de la Universidad Nacional de Colombia Sede Medellín, en el semestre
02_2003. La población puede ser el conjunto de todas las notas posibles obtenidas por los
estudiantes o el conjunto de todos los estudiantes registrados en el curso en dicho semestre.
La característica de interés que debe ser estimada es la Nota Promedio del curso en dicho
semestre.

Una muestra es un subconjunto de información representativa de una población.

Ejemplo. En el caso de determinar la nota promedio, podríamos optar por seleccionar de


manera aleatoria un grupo de estudiantes de la población y observar de ellos la nota
promedio obtenida al final del semestre. Con estos datos podemos estimar la nota promedio
global de todos los estudiantes en dicha población (Todos los estudiantes de estadística I). El
grupo de estudiantes seleccionados constituye una Muestra.

Las Variables resultan ser aquellas características de interés que desean ser medidas sobre
los objetos o individuos seleccionados.
En la mayoría de los casos lo que se pretende es estimar, a partir de la información
recolectada de una muestra, características desconocidas de los objetos en dicha población
de interés.

Por ejemplo, estimar el costo de vida promedio en cierta comunidad, requiere de un


despliegue muy grande de recursos, personal capacitado, diseño de encuestas o
cuestionarios, ejecución de la misma, tiempo empleado, etc. Sin embargo una muestra
representativa de los objetos de interés en dicha comunidad (posiblemente hogares), permite
registrar las características de los objetos seleccionados que permitirán dar una
aproximación del costo de vida real en la comunidad. El costo promedio de vida en esta
comunidad (costo real) constituye un Parámetro fijo que atañe a la población y el costo de
vida obtenido a partir de la muestra constituye una Estadística o aproximación al valor real
del parámetro.
Los parámetros son fijos, pues no dependen de ninguna muestra; los estadísticos dependen
siempre de la muestra seleccionada.

Las características desconocidas de una población serán llamadas parámetros. Las


características calculadas a partir de una muestra son llamadas estadísticas. Una Inferencia
es una generalización obtenida a partir de una muestra aleatoria.

La Estadística puede dividirse en dos grandes ramas: Estadística Descriptiva y Estadística


Inferencial.

Estadística Descriptiva

Es el conjunto de métodos usados para la organización y presentación (descripción) de la


información recolectada. La información recolectada puede ser catalogada de dos maneras:
Datos Cualitativos y Cuantitativos. Los primeros se refieren a categorías o atributos que
pueden clasificarse según un criterio o cualidad. Ejemplo: Sexo, Color de Auto, Tipo de
Sangre, Estado civil, categoría de un profesor, etc. Los segundos se refieren a información
numérica, como cuanto o cuantos. Ejemplo: Masa, estatura, Presión Sanguínea, duración de
un espécimen, etc.

Algunos datos numéricos pueden ser clasificados como cuantitativos o cualitativos según su
uso. Por ejemplo, la estatura de una persona se mide en centímetros, pies, metros y es
entonces una medida cuantitativa. Pero si se mide como Bajo, Medio y Alto, se convierte en
una medida cualitativa.

Los datos cuantitativos pueden ser clasificados como Discretos y Continuos.


Los datos Discretos están relacionados principalmente con conteos, Los datos Continuos se
obtienen principalmente de mediciones. En el primer caso los resultados conforman un
conjunto discreto (finito o numerable), en el segundo caso el conjunto de posibles resultados
está conformado por un intervalo real.

Ejemplo: El número de niños en una familia, número de accidentes por hora en un cruce,
número de horas dedicadas a estudiar semanalmente, pulsaciones por minuto, número de
tiendas por manzana, son datos de tipo discreto. La velocidad de un automóvil en km/h, la
masa de una persona en kgr, la estatura de cierto tipo de árboles en pulgadas, tiempo de
duración de una batería en días, distancia de frenado en metros, edad de un individuo, son
datos de tipo continuo.

Los datos cualitativos a su vez pueden ser clasificados como Nominales y Ordinales.
Los primeros son obtenidos por medio de agrupamientos no ordenados de datos en
categorías discretas, usados principalmente en clasificación o identificación. Los segundos
son obtenidos o medidos en una escala nominal ordenados de alguna manera. Una escala
ordinal coloca las medidas en categorías, cada una de las cuales indica un nivel distinto
respecto a un atributo que se está midiendo.

Ejemplo: La raza, Estado civil, Sexo (M o F), Religión, Tipo de sangre, constituyen datos
nominales. Las categorías A, B, C, D, E como calificación o niveles de perfeccionamiento,
categoría de un profesor (Instructor asistente, Instructor asociado, Profesor asistente,
Profesor asociado y Profesor titular), son datos ordinales.

Organización de datos por medio de tablas de Frecuencia.

La idea primordial de este proceso es simplificar la forma como se representa la información.


La información puede mostrarse de dos maneras: No-agrupada y Agrupada.

En aquellos casos donde la cantidad de valores de una o varias variables es muy grande, se
hace necesario resumirlos para una presentación más adecuada y en algunos casos
agruparlos en clases, rangos o intervalos para facilitar su interpretación.

La frecuencia de una medida o de una categoría es el número de veces que esta aparece en
una colección de datos. Usualmente denotada f. La información que contiene los valores de
dichas medidas y sus respectivas frecuencias se llamará Tabla de Frecuencias.

Ejemplo: Se tienen los datos respecto al número de faltas a clase durante cierto período para
los estudiantes de un curso de Estadística: 9 8 7 8 4 3 2 1 0 5 3 2 1 1 7 3 2 8 7 6 6 4 3 2 2 0 9
4 6 9 6 9 43 5 7 3 2 1 4 4 2. Construya una tabla de frecuencias adecuada para estos datos.

# Faltas 0 1 2 3 4 5 6 7 8 9
Frecuencia 2 4 7 6 6 2 4 4 3 4
Una agrupación de estos datos puede reducir más la presentación:
# Faltas 0 1-2 3-4 5-6 7-8 >9
Frecuencia 2 11 12 6 7 4

Ejemplo: En cierto hospital se tiene información acerca del número de personas que ocupan
la sala de emergencias cada día en un período de 12 días. Los resultados observados son:

Día 1 2 3 4 5 6 7 8 9 10 11 12
# Pacientes 7 43 8 22 13 28 36 18 23 21 15 52

Una agrupación de esta información puede ser:

Clase 1 – 10 11 – 20 21 – 30 31 - 40 41 - 50 > 50
Frecuencia 2 3 4 1 1 1

La manera como se agrupa la información debe corresponder a algún propósito particular de


quien analiza la información o requerimiento del investigador conocedor de la información.

Medidas de Localización o de Tendencia Central.

X , X ,⋯ , X n
Suponga que se tiene un conjunto de datos numéricos de la forma 1 2 , donde
X
cada i corresponde al i-ésimo valor de la variable de interés. Las medidas de localización
permiten tener un panorama general de aquella o aquellas características de interés en una
población y al mismo tiempo sirven como representación del conjunto de datos.

X1 , X 2 ,⋯ , X n
Media Muestral. La media de un conjunto de observaciones , se denotará X y
1 n X1 + X 2 +⋯ + X n
X = ∑ Xi =
está dada por: n i=1 n .
En términos físicos la media representa el Centro de gravedad de un conjunto de datos.

Ejemplo: Se registra el número de tazas de café consumidas por un empleado de oficina en


un período de 20 días. Los datos son: 4 5 3 6 7 1 2 3 0 5 6 5 8 4 0 2 3 7 5 6. De aquí
tenemos que:
1 20 82
X= ∑ Xi = = 4.1
20 i =1 20 . En promedio este empleado consume 4.1 tazas de café diarias. El
siguiente gráfico de puntos ilustra esta afirmación.
Ejemplo: Se registran las edades (en años) de 15 personas en un grupo. Los datos son: 18
20 19 19 21 22 20 23 21 24 19 20 22 21 24. La edad promedio de este grupo es:
313
X= = 20. 86 ≈ 20. 9
15 .
Si resumimos esta información en una tabla de frecuencias de la forma:

Edad 18 19 20 21 22 23 24
Frecuencia 1 3 3 3 2 1 2
∑X i f i ∑X i f i
X= = ≈ 20. 9
Podemos calcular la media muestral como:
15 ∑f i .
La media muestral es sensible a datos extremos. Para los datos de edades, suponga que
313 + 35
X= = 21. 75 ≈ 21. 8
otrta persona ingresa al grupo y su edad es 35 años. Así, 16 . Si la
313 + 45
X= = 22. 375 ≈ 22. 4
edad fuera 45 años, entonces, 16 . Si la edad es 60 años,
313 + 60
X= = 23. 31 ≈ 23. 3
16 .

X1 ≤ X 2 ≤ ⋯ ≤ X n
Mediana. Si las observaciones se ordenan de menor a mayor, .la
mediana representa aquel valor que divide los datos en dos partes porcentual mente iguales.
De esta manera al menos el 50% de los datos son inferiores o iguales a la mediana. Si
~
denotamos por X o por Me, la mediana, tenemos
que:

Ejemplo. Considerando las edades del ejemplo anterior, ordenamos la información en forma
ascendente: 18 19 19 19 20 20 20 21 21 21 22 22 23 24 24. En este caso, como n=15,
Me = X 15 +1 = X 8 = 21
entonces 2 . Al menos el 50% de las personas en el grupo en cuestión
tienen 21 años o menos. La mediana a diferencia de la media muestral no es tan sensible a
datos extremos. Por ejemplo si otra persona de 10 años hace parte del grupo, tenemos n=16.
X 8 + X 9 20 + 21
Me = = = 20. 5
Así: 2 2 . La interpretación es igual. Si La persona tiene 35 años,
X 8 + X 9 21 + 21
Me = = = 21
entonces 2 2 . Si la edad es 55 años, Me = 21 . Como se podrá
observar, la mediana divide la información en dos partes porcentualmente iguales. Si
queremos dividir la información en cuatro partes porcentualmente iguales, cada parte
representará el 25% de la información. Los valores reales que dividen la información en
cuartos son llamadas Cuartiles y se denotan Q1, Q2 y Q3.
De esta manera Q1 deja al menos el 25% de la información inferior o igual e el, Q2 deja al
menos el 50% de la información menor o igual a el (esta es la Mediana) y finalmente Q3 deja
al menos el 75% de la información inferior o igual a el.
Si la división se hace en 100 partes porcentualmente iguales, los valores reales que permiten
esta división son llamados Percentiles. Usualmente denotados con la letra P y el respectivo
percentil. Por ejemplo P10, P25, P70, etc.

Ejemplo. Retomando las edades de las 15 personas, calcule Q1, P60 y P90.
Q1 corresponde al percentil 25, es decir, P25. El 25% de 15 datos es: 0. 25 × 15 = 3. 75 . En
Q1 = X 4 = 19
este caso escogemos . Para el percentil 60, tenemos que 0. 60 × 15 = 9 . Así hay
dos valores que cumple la condición de dejar al menos 9 valores iguales o inferiores a ellos:
X 9 + X 10
X 9 y X 10 P60 = = 21
. Así, 2 . Para P90, tenemos: 0. 90 × 15 = 13. 5 . Así,
P90 = X 14 = 24
. Al menos el 90% de las personas tienen edades inferiores o iguales a 24
años.

Otras medidas de Localización son la Moda, la Media Recortada, la Media Geométrica, entre
otras.

Medidas de Variabilidad o de Dispersión.

Las medidas de variabilidad permiten establecer que tan dispersos están entre si un conjunto
de datos observados. Algunas de estas medidas se refieren a la Dispersión respecto a una
medida particular de tendencia central.
El Rango es la diferencia entre el máximo valor observado y el mínimo: R=Max-Min.
El Rango Intercuartil, el cual denotaremos IQR, es la diferencia entre Q3 y Q1: -
IQR = Q3 - Q1 . El Rango Intercuartil permite determinar que tan disperso está el 50% de la
información mas central.
X , X ,⋯ , X n
Varianza Muestral. Si 1 2 es un conjunto de observaciones, la Varianza Muestral,
2
(
∑ Xi -X 2 )
S =
denotada S, está dada por: n -1 . La Desviación Estándar será la raíz cuadrada
de la Varianza.

∑ ( X 1 - X )2
S2 = = 3. 41
Ejemplo: Usando los datos de las edades, tenemos que: 15 - 1 y S = 1. 85 .
Para estos la desviación es casi 2 años, lo que indica una dispersión alta. Otras medidas de
variabilidad son: Desviación Mediana, Desviación absoluta, etc.

Diagramas de Barras e Histogramas.

La información es presentada de manera gráfica dependiendo del tipo de datos que esta
contenga. Si la variable representa categorías o clasificaciones es usual usar una tabla de
frecuencias para resumir la información y luego un diagrama de barras para visualizarla; en
este caso el eje X estará compuesto por las categorías o niveles discretos de la variable y en
el eje Y la frecuencia o porcentajes que le corresponden a cata categoría o nivel discreto.

Ejemplo: se tiene información resumida acerca del monto anual obtenido por donaciones en
diferentes áreas.

Area Monto Porcentaje


Religión 31.0 47.8
Artes y 4.1 6.3
Humanidades
Servicios Sociales 6.9 1.06
Educación 9.0 13.9
Salud 9.2 14.2
Otros 4.7 7.2

O si lo que se quiere una representación


usando los porcentajes obtenemos un
diagrama de este estilo:

El programa en SAS usado es:

data monto;
input area$ 1-19 total porc;
cards;
Religion 31.0 47.8
Artes y Humanidades 4.1 6.3
Servicios Sociales 6.9 10.6
Educación 9.0 13.9
Salud 9.2 14.2
Otros 4.7 7.2
;
run;

Proc gchart data=monto;


vbar área/freq=total space=10;
vbar área/freq=porc space=10;
run;

Ejemplo. Retomando los datos acerca del número de faltas de un grupo de estudiantes en un
curso de Estadística, la tabla de frecuencias elaborada al respecto muestra 10 categorías
diferentes. Si el rango del número de faltas fuera mucho mayor, el diagrama de barras
resultante no sería operativo, en el sentido
en que muchas barras quedarían sin
frecuencia. Se recomienda agrupar para
lograr captar mejor la información. La tabla
de frecuencias y el respectivo diagrama de
barras se muestra a continuación:
Rango o Clase Frecuencia
0–1 6
2–3 13
4–5 8
6–7 8
8–9 7
Cuando los datos son de tipo continuo se hace necesario agruparlos en intervalos disjuntos
para tener una mejor comprensión gráfica de su comportamiento.

Ejemplo. Las estaturas en centímetros de 50 estudiantes mujeres un grupo se registraron.


Los datos son:
157 155 171 150 163 150 172 161 154 174 163 148 152 163 149 158 176 164 157 153 169
161 160 164 155 162 151 167 167 167 170 158 163 175 169 169 158 150 156 157 174 162
150 151 165 170 156 170 153 154.
Agrupe adecuadamente los datos y elabore la respectiva tabla de frecuencias y el histograma
de frecuencias relativas.
El problema más importante a resolver aquí es ¿En cuántas clases o intervalos debo agrupar
la información? Es decir, ¿cuál es el número más adecuado de intervalos de agrupación?.
Existen diversas reglas empíricas acerca de cual debe ser un número de intervalos o grupos
adecuados. Sea n: número de observaciones, K: número de intervalos o grupos, R: Rango,
A: Amplitud del intervalo. Entre las reglas más conocidas se tienen:

-
K= n
- 5 ≤ K ≤ 25
K = 1 + 3.33 log 10 n
- (Regla de Sturges)

Si usamos la primera regla, corremos el riesgo de incrementar drásticamente el número de


intervalos a medida que aumenta el número de datos. Por ejemplo con n=100,
K = 100 = 10 . Si n=1000, K = 1000 = 10 10 ≈ 31.62 . Se recomienda usar la última regla
pues esta permite corregir el valor de K aunque se incremente dramáticamente el número de
K = 1 + 3.33 log 10 50 = 6.66
datos. Usando la regla de Sturges, un número de clases inicial es .
Así aproximamos K ≈ 7 . La estatura mínima es 148 cms y la máxima estatura es 176. Así el
R 28
A= = =4
rango será R = 176 − 148 = 28 . La amplitud de estos será: K 7 .

Los intervalos que se generen deben ser disjuntos, de esta manera se proponen intervalos
semi-abiertos a derecha. Así los intervalos de clases serán:
[148, 152 ) , [152, 156 ) ,
[156, 160 ) , [160, 164 ) ,. [164, 168) , [168, 172 ) , [172, 176 ) . Es implicaría que el máximo valor
no esté incluido en el último intervalo. Es usual incrementar levemente la amplitud de los
intervalos para garantizar que ningún valor quede por fuera de la clasificación. En otros
casos Haciendo A = 4.2 , entonces el nuevo rango es: R = 4.2 × 7 = 29.4 . Así, el rango se
amplía en 1.4 unidades que pueden ser repartidas 0.7 a izquierda y a derecha. En el
siguiente gráfico ilustra lo antes dicho.

Los intervalos de clase respectivos son:


[147.3, 151.5) , [151.5, 155.7 ) , [155.7 , 159.9 ) ,
[159.9, 164.1) , [164.1, 168.3) , [168.3, 172.5) [172.5, 176.7 ) .

La tabla de frecuencias para estos intervalos y el respectivo histograma son:

Este gráfico es llamado Histograma de Frecuencias. Se puede observar que las estaturas no
están muy agrupadas alrededor de un rango de valores específicos, de hecho, las personas
con estaturas entre 148 y 160 cms. presentan frecuencias muy similares. Es muy frecuente
encontrar personas con estaturas que oscilan entre los 160 y 164 cms. Aproximadamente.

Es usual graficar las clases contra las frecuencias de manera que el área de cada rectángulo
sea igual a la frecuencia. El histograma resultante se llama Histograma de Densidad.

Diagrama de Cajas y Bigotes: Box-PLot

Los diagramas de caja y bigotes son herramientas gráficas muy útiles para describir
características importantes en un conjunto de datos, como son centro, simetría o asimetría,
valores atípicos (raros), etc. La construcción de este diagrama emplea medidas descriptivas
que son poco sensibles a datos extremos y por lo tanto presentan una descripción más clara
de la información. Básicamente empleamos para su construcción los tres cuarteles, los
valores mínimos y máximos y la media Muestral solo como medida de localización en el
gráfico.
Una observación se dice Atípica o Inusual si está a más de 1.5 veces el rango intercualtil de
alguno de los cuarteles Q1 o Q3. Una observación se dice Atípica Extrema si está a más de
3 veces el rango Intercuartil de alguno de los cuarteles Q1 o Q3.

El diagrama está conformado por una caja la cual se construye con ayuda del primer y tercer
cuartil. La mediana es dibujada en el interior de la caja al igual que la media muestral. Los
bigotes se extienden desde los cuartiles a la derecha y a la izquierda. Su longitud depende
de si hay o no datos atípicos.

Sin valores Atípicos ni Extremos:

Con valores Atípicos y/o Extremos:

En algunos paquetes computacionales, los bigotes van siempre hasta los valores mínimo y
máximo, sin hacer distinción en los valores atípicos.

Ejemplo. Para los datos de las estaturas tenemos: Min = 148 , Max = 176 ,
X = 160. 86 Q 1 = 154 , Q 2 = 161 , Q 3 = 167 .
Ejemplo. En un estudio epidemiológico, el Organochlorine y PCB´s totales fueron registrados
en 40 voluntarios en Colorado. Los datos son: 27 43 52 53 53 53 61 63 63 65 68 70 72 75 83
95 96 97 101 105 110 115 115 115 115 126 127 134 145 152 153 182 190 197 197 282 322
322 342 521.
Q = 66. 5
Algunas medidas descriptivas básicas son: Min = 27 , Max = 521 , X = 133. 925 , 1 ,
Q 2 = 107. 5 Q 3 = 152. 5
, .

El respectivo Diagrama de cajas y bigotes se muestra a continuación:

En este caso existen datos inusuales de los dos tipos: atípicos y atípicos extremos. Lo que
nos muestra una gran dispersión de los datos debido a observaciones muy inusuales 282,
322,342 y 521. El Histograma de frecuencias evidencia dicho sesgo a la derecha. Esto indica
que es muy inusual encontrar niveles totales superiores a 280.

También podría gustarte