Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Descriptiva PDF
Estadistica Descriptiva PDF
ESTADISTICA DESCRIPTIVA
Como una de las tareas de la Estadística es el estudio de fenómenos aleatorios, esto hace
muy pertinente el tratar de explicar la manera como se comportan (Variabilidad).
Entre otras cosas la Estadística se ocupa del manejo de la información que pueda ser
cuantificada. Implica esto la descripción de conjuntos de datos y la inferencia a partir de la
información recolectada de un fenómeno de interés. La función principal de la estadística
abarca:
Resumir, Simplificar, Comparar, Relacionar, Proyectar.
A grandes rasgos podemos decir que una Población es el conjunto de toda posible
información, o de los objetos, que permite estudiar un fenómeno de interés.
Las Variables resultan ser aquellas características de interés que desean ser medidas sobre
los objetos o individuos seleccionados.
En la mayoría de los casos lo que se pretende es estimar, a partir de la información
recolectada de una muestra, características desconocidas de los objetos en dicha población
de interés.
Estadística Descriptiva
Algunos datos numéricos pueden ser clasificados como cuantitativos o cualitativos según su
uso. Por ejemplo, la estatura de una persona se mide en centímetros, pies, metros y es
entonces una medida cuantitativa. Pero si se mide como Bajo, Medio y Alto, se convierte en
una medida cualitativa.
Ejemplo: El número de niños en una familia, número de accidentes por hora en un cruce,
número de horas dedicadas a estudiar semanalmente, pulsaciones por minuto, número de
tiendas por manzana, son datos de tipo discreto. La velocidad de un automóvil en km/h, la
masa de una persona en kgr, la estatura de cierto tipo de árboles en pulgadas, tiempo de
duración de una batería en días, distancia de frenado en metros, edad de un individuo, son
datos de tipo continuo.
Los datos cualitativos a su vez pueden ser clasificados como Nominales y Ordinales.
Los primeros son obtenidos por medio de agrupamientos no ordenados de datos en
categorías discretas, usados principalmente en clasificación o identificación. Los segundos
son obtenidos o medidos en una escala nominal ordenados de alguna manera. Una escala
ordinal coloca las medidas en categorías, cada una de las cuales indica un nivel distinto
respecto a un atributo que se está midiendo.
Ejemplo: La raza, Estado civil, Sexo (M o F), Religión, Tipo de sangre, constituyen datos
nominales. Las categorías A, B, C, D, E como calificación o niveles de perfeccionamiento,
categoría de un profesor (Instructor asistente, Instructor asociado, Profesor asistente,
Profesor asociado y Profesor titular), son datos ordinales.
En aquellos casos donde la cantidad de valores de una o varias variables es muy grande, se
hace necesario resumirlos para una presentación más adecuada y en algunos casos
agruparlos en clases, rangos o intervalos para facilitar su interpretación.
La frecuencia de una medida o de una categoría es el número de veces que esta aparece en
una colección de datos. Usualmente denotada f. La información que contiene los valores de
dichas medidas y sus respectivas frecuencias se llamará Tabla de Frecuencias.
Ejemplo: Se tienen los datos respecto al número de faltas a clase durante cierto período para
los estudiantes de un curso de Estadística: 9 8 7 8 4 3 2 1 0 5 3 2 1 1 7 3 2 8 7 6 6 4 3 2 2 0 9
4 6 9 6 9 43 5 7 3 2 1 4 4 2. Construya una tabla de frecuencias adecuada para estos datos.
# Faltas 0 1 2 3 4 5 6 7 8 9
Frecuencia 2 4 7 6 6 2 4 4 3 4
Una agrupación de estos datos puede reducir más la presentación:
# Faltas 0 1-2 3-4 5-6 7-8 >9
Frecuencia 2 11 12 6 7 4
Ejemplo: En cierto hospital se tiene información acerca del número de personas que ocupan
la sala de emergencias cada día en un período de 12 días. Los resultados observados son:
Día 1 2 3 4 5 6 7 8 9 10 11 12
# Pacientes 7 43 8 22 13 28 36 18 23 21 15 52
Clase 1 – 10 11 – 20 21 – 30 31 - 40 41 - 50 > 50
Frecuencia 2 3 4 1 1 1
X , X ,⋯ , X n
Suponga que se tiene un conjunto de datos numéricos de la forma 1 2 , donde
X
cada i corresponde al i-ésimo valor de la variable de interés. Las medidas de localización
permiten tener un panorama general de aquella o aquellas características de interés en una
población y al mismo tiempo sirven como representación del conjunto de datos.
X1 , X 2 ,⋯ , X n
Media Muestral. La media de un conjunto de observaciones , se denotará X y
1 n X1 + X 2 +⋯ + X n
X = ∑ Xi =
está dada por: n i=1 n .
En términos físicos la media representa el Centro de gravedad de un conjunto de datos.
Edad 18 19 20 21 22 23 24
Frecuencia 1 3 3 3 2 1 2
∑X i f i ∑X i f i
X= = ≈ 20. 9
Podemos calcular la media muestral como:
15 ∑f i .
La media muestral es sensible a datos extremos. Para los datos de edades, suponga que
313 + 35
X= = 21. 75 ≈ 21. 8
otrta persona ingresa al grupo y su edad es 35 años. Así, 16 . Si la
313 + 45
X= = 22. 375 ≈ 22. 4
edad fuera 45 años, entonces, 16 . Si la edad es 60 años,
313 + 60
X= = 23. 31 ≈ 23. 3
16 .
X1 ≤ X 2 ≤ ⋯ ≤ X n
Mediana. Si las observaciones se ordenan de menor a mayor, .la
mediana representa aquel valor que divide los datos en dos partes porcentual mente iguales.
De esta manera al menos el 50% de los datos son inferiores o iguales a la mediana. Si
~
denotamos por X o por Me, la mediana, tenemos
que:
Ejemplo. Considerando las edades del ejemplo anterior, ordenamos la información en forma
ascendente: 18 19 19 19 20 20 20 21 21 21 22 22 23 24 24. En este caso, como n=15,
Me = X 15 +1 = X 8 = 21
entonces 2 . Al menos el 50% de las personas en el grupo en cuestión
tienen 21 años o menos. La mediana a diferencia de la media muestral no es tan sensible a
datos extremos. Por ejemplo si otra persona de 10 años hace parte del grupo, tenemos n=16.
X 8 + X 9 20 + 21
Me = = = 20. 5
Así: 2 2 . La interpretación es igual. Si La persona tiene 35 años,
X 8 + X 9 21 + 21
Me = = = 21
entonces 2 2 . Si la edad es 55 años, Me = 21 . Como se podrá
observar, la mediana divide la información en dos partes porcentualmente iguales. Si
queremos dividir la información en cuatro partes porcentualmente iguales, cada parte
representará el 25% de la información. Los valores reales que dividen la información en
cuartos son llamadas Cuartiles y se denotan Q1, Q2 y Q3.
De esta manera Q1 deja al menos el 25% de la información inferior o igual e el, Q2 deja al
menos el 50% de la información menor o igual a el (esta es la Mediana) y finalmente Q3 deja
al menos el 75% de la información inferior o igual a el.
Si la división se hace en 100 partes porcentualmente iguales, los valores reales que permiten
esta división son llamados Percentiles. Usualmente denotados con la letra P y el respectivo
percentil. Por ejemplo P10, P25, P70, etc.
Ejemplo. Retomando las edades de las 15 personas, calcule Q1, P60 y P90.
Q1 corresponde al percentil 25, es decir, P25. El 25% de 15 datos es: 0. 25 × 15 = 3. 75 . En
Q1 = X 4 = 19
este caso escogemos . Para el percentil 60, tenemos que 0. 60 × 15 = 9 . Así hay
dos valores que cumple la condición de dejar al menos 9 valores iguales o inferiores a ellos:
X 9 + X 10
X 9 y X 10 P60 = = 21
. Así, 2 . Para P90, tenemos: 0. 90 × 15 = 13. 5 . Así,
P90 = X 14 = 24
. Al menos el 90% de las personas tienen edades inferiores o iguales a 24
años.
Otras medidas de Localización son la Moda, la Media Recortada, la Media Geométrica, entre
otras.
Las medidas de variabilidad permiten establecer que tan dispersos están entre si un conjunto
de datos observados. Algunas de estas medidas se refieren a la Dispersión respecto a una
medida particular de tendencia central.
El Rango es la diferencia entre el máximo valor observado y el mínimo: R=Max-Min.
El Rango Intercuartil, el cual denotaremos IQR, es la diferencia entre Q3 y Q1: -
IQR = Q3 - Q1 . El Rango Intercuartil permite determinar que tan disperso está el 50% de la
información mas central.
X , X ,⋯ , X n
Varianza Muestral. Si 1 2 es un conjunto de observaciones, la Varianza Muestral,
2
(
∑ Xi -X 2 )
S =
denotada S, está dada por: n -1 . La Desviación Estándar será la raíz cuadrada
de la Varianza.
∑ ( X 1 - X )2
S2 = = 3. 41
Ejemplo: Usando los datos de las edades, tenemos que: 15 - 1 y S = 1. 85 .
Para estos la desviación es casi 2 años, lo que indica una dispersión alta. Otras medidas de
variabilidad son: Desviación Mediana, Desviación absoluta, etc.
La información es presentada de manera gráfica dependiendo del tipo de datos que esta
contenga. Si la variable representa categorías o clasificaciones es usual usar una tabla de
frecuencias para resumir la información y luego un diagrama de barras para visualizarla; en
este caso el eje X estará compuesto por las categorías o niveles discretos de la variable y en
el eje Y la frecuencia o porcentajes que le corresponden a cata categoría o nivel discreto.
Ejemplo: se tiene información resumida acerca del monto anual obtenido por donaciones en
diferentes áreas.
data monto;
input area$ 1-19 total porc;
cards;
Religion 31.0 47.8
Artes y Humanidades 4.1 6.3
Servicios Sociales 6.9 10.6
Educación 9.0 13.9
Salud 9.2 14.2
Otros 4.7 7.2
;
run;
Ejemplo. Retomando los datos acerca del número de faltas de un grupo de estudiantes en un
curso de Estadística, la tabla de frecuencias elaborada al respecto muestra 10 categorías
diferentes. Si el rango del número de faltas fuera mucho mayor, el diagrama de barras
resultante no sería operativo, en el sentido
en que muchas barras quedarían sin
frecuencia. Se recomienda agrupar para
lograr captar mejor la información. La tabla
de frecuencias y el respectivo diagrama de
barras se muestra a continuación:
Rango o Clase Frecuencia
0–1 6
2–3 13
4–5 8
6–7 8
8–9 7
Cuando los datos son de tipo continuo se hace necesario agruparlos en intervalos disjuntos
para tener una mejor comprensión gráfica de su comportamiento.
-
K= n
- 5 ≤ K ≤ 25
K = 1 + 3.33 log 10 n
- (Regla de Sturges)
Los intervalos que se generen deben ser disjuntos, de esta manera se proponen intervalos
semi-abiertos a derecha. Así los intervalos de clases serán:
[148, 152 ) , [152, 156 ) ,
[156, 160 ) , [160, 164 ) ,. [164, 168) , [168, 172 ) , [172, 176 ) . Es implicaría que el máximo valor
no esté incluido en el último intervalo. Es usual incrementar levemente la amplitud de los
intervalos para garantizar que ningún valor quede por fuera de la clasificación. En otros
casos Haciendo A = 4.2 , entonces el nuevo rango es: R = 4.2 × 7 = 29.4 . Así, el rango se
amplía en 1.4 unidades que pueden ser repartidas 0.7 a izquierda y a derecha. En el
siguiente gráfico ilustra lo antes dicho.
Este gráfico es llamado Histograma de Frecuencias. Se puede observar que las estaturas no
están muy agrupadas alrededor de un rango de valores específicos, de hecho, las personas
con estaturas entre 148 y 160 cms. presentan frecuencias muy similares. Es muy frecuente
encontrar personas con estaturas que oscilan entre los 160 y 164 cms. Aproximadamente.
Es usual graficar las clases contra las frecuencias de manera que el área de cada rectángulo
sea igual a la frecuencia. El histograma resultante se llama Histograma de Densidad.
Los diagramas de caja y bigotes son herramientas gráficas muy útiles para describir
características importantes en un conjunto de datos, como son centro, simetría o asimetría,
valores atípicos (raros), etc. La construcción de este diagrama emplea medidas descriptivas
que son poco sensibles a datos extremos y por lo tanto presentan una descripción más clara
de la información. Básicamente empleamos para su construcción los tres cuarteles, los
valores mínimos y máximos y la media Muestral solo como medida de localización en el
gráfico.
Una observación se dice Atípica o Inusual si está a más de 1.5 veces el rango intercualtil de
alguno de los cuarteles Q1 o Q3. Una observación se dice Atípica Extrema si está a más de
3 veces el rango Intercuartil de alguno de los cuarteles Q1 o Q3.
El diagrama está conformado por una caja la cual se construye con ayuda del primer y tercer
cuartil. La mediana es dibujada en el interior de la caja al igual que la media muestral. Los
bigotes se extienden desde los cuartiles a la derecha y a la izquierda. Su longitud depende
de si hay o no datos atípicos.
En algunos paquetes computacionales, los bigotes van siempre hasta los valores mínimo y
máximo, sin hacer distinción en los valores atípicos.
Ejemplo. Para los datos de las estaturas tenemos: Min = 148 , Max = 176 ,
X = 160. 86 Q 1 = 154 , Q 2 = 161 , Q 3 = 167 .
Ejemplo. En un estudio epidemiológico, el Organochlorine y PCB´s totales fueron registrados
en 40 voluntarios en Colorado. Los datos son: 27 43 52 53 53 53 61 63 63 65 68 70 72 75 83
95 96 97 101 105 110 115 115 115 115 126 127 134 145 152 153 182 190 197 197 282 322
322 342 521.
Q = 66. 5
Algunas medidas descriptivas básicas son: Min = 27 , Max = 521 , X = 133. 925 , 1 ,
Q 2 = 107. 5 Q 3 = 152. 5
, .
En este caso existen datos inusuales de los dos tipos: atípicos y atípicos extremos. Lo que
nos muestra una gran dispersión de los datos debido a observaciones muy inusuales 282,
322,342 y 521. El Histograma de frecuencias evidencia dicho sesgo a la derecha. Esto indica
que es muy inusual encontrar niveles totales superiores a 280.