Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema2 Estadistica Descriptiva PDF
Tema2 Estadistica Descriptiva PDF
Estadstica Descriptiva
Tema 2 1
Tipo de Variables
Tema 2 2
Tipo de variables
La base de datos anterior contiene la informacin de 2700 individuos con 8 variables.
Los datos provienen de una encuesta nacional realizada en abril y mayo de 1988 por
FLACSO-Chile. Hay algunos datos que faltan (que se denotan por NA). En R, estos datos
se encuentran en el paquete car y la base de datos se denomina Chile. En men Datos->
Conjunto de datos en paquetes->Leer conjunto de datos desde paquete adjunto.
Tema 2 3
Tipo de variables cont.
Ejemplo:
Determinar el tipo de variable. Si son variables cualitativas (nominal u ordinal) o
cuantitativas (discretas o continuas).
a) Marca de automvil.
b) Duracin de un disco compacto (segundos).
c) Nmero de temas de un disco compacto.
d) Nivel educacional (bsica, media, universitaria).
e) Temperatura al medioda en Copiap (grados Celsius).
f) Estado civil (soltero, casado, divorciado, viudo).
g) Cantidad de lluvia en un ao en Copiap (mm3).
Tema 2 4
Mtodos grficos y numricos para describir variables cualitativas
Tema 2 5
Grficos para variables cualitativas
Una vez que conocemos la distribucin de la variable, nos interesa presentarla de alguna
manera grfica, uno de los grficos o diagramas ms usados en variables cualitativas son
los diagramas sectoriales o de torta y los grficos de barra.
Masculino Femenino
48,93 51,07
Tema 2 6
Mtodos grficos para describir variables cuantitativas
Tema 2 7
1. Grfico de barras
Los trminos usados para describir la forma de una distribucin son:
Simtrica: La distribucin puede ser dividida en dos partes alrededor de un valor
central y cada parte es el reflejo de la otra.
Sesgada: Un lado de la distribucin se alarga ms que el otro. La direccin del sesgo
es la direccin del lado ms largo.
Unimodal: La distribucin tiene un nico mximo que muestra el o los valores ms
comunes en los datos.
Bimodal: La distribucin tiene dos mximos. Esto resulta a menudo cuando la
muestra proviene de dos poblaciones.
Uniforme: Los valores posibles tienen la misma frecuencia.
Ejemplo:
Cuntas llaves tiene en su bolsillo?
Hacer un grfico de frecuencias (de puntos) con el nmero de llaves que tienen los
estudiantes que asisten hoy a clases. Describir la forma del grfico.
Tema 2 8
2. Grfica de Tallo y Hojas
Ejemplo: En R, hacer una grfica de tallos y hojas de la variable edad (age) de la base de
datos Chile usando dgitos repetidos de los tallos. Lo dems dejarlo por defecto.
Tema 2 9
2. Diagrama de Tallo y Hojas cont.
Tema 2 10
3. Histograma
Histograma de Edad
Realizar a mano un histograma de la base de un estudio mdico:
45 41 51 46 47 42 43 50 39 32 41 44 47 49 45 42 41 40 45 37
El rango va de 32 a 51, entonces podemos crear clases que comiencen en 30 con
incrementos de 5 hasta 55. Puede intentar diferentes clases con distinto ancho hasta
obtener una buena representacin.
Tema 2 11
Histograma cont.
Tema 2 12
Histograma cont.
En R, hacer un histograma de la variable edad (age) de la base de datos de
nuestro ejemplo. En men, Grficas->Histograma. Seleccionar age en
Variable (elegir una) y Porcentajes en Escala de los ejes.
Tema 2 13
Mtodos numricos para describir variables cuantitativas
Especficamente estudiaremos medidas de resumen o medidas descriptivas numricas
que son de tres tipos:
Las que ayudan a encontrar el centro de la distribucin, llamadas medidas de
tendencia central.
Las que miden la dispersin, llamadas medidas de dispersin.
Las que describen la posicin relativa de una observacin dentro del conjunto de
datos, llamadas medidas de posicin relativa.
1. Medidas de Tendencia Central
Las medidas de tendencia central son valores numricos que quieren mostrar el
centro de un conjunto de datos, nos interesan especialmente: la media (o promedio)
y la mediana. Si los datos son una muestra, la media (o promedio) y la mediana se
llamarn estadsticas. Si los datos son una poblacin entonces estas medidas de
tendencia central se llamarn parmetros.
Tema 2 14
Medidas de Tendencia Central
Tema 2 15
Medidas de Tendencia Central cont.
Si la distribucin es sesgada, vamos a querer usar una medida que sea ms resistente para
mostrar el centro. La medida de tendencia central que es ms resistente a los valores
extremos es la mediana.
Tema 2 16
Medidas de Tendencia Central cont.
Ejemplo:
Encuentre la mediana del nmero de nios por hogar en la muestra de 10 hogares.
Nmero de Nios: 2, 3, 0, 1, 4, 0, 3, 0, 1, 2.
a) Ordenar las observaciones de menor a mayor:
b) Calcular (n+1)/2 =
c) Mediana =
d) Qu le pasa a la mediana si la quinta observacin en la lista se anota incorrectamente
como 40 en vez de 4?
e) Qu le pasa a la mediana si la tercera observacin en la lista se anota incorrectamente
como 20 en vez de 0?
La mediana es resistente (robusta), es decir, no cambia o cambia muy poco con
observaciones extremas. Tema 2 17
Medidas de Tendencia Central cont.
Tema 2 18
Medidas de Tendencia Central cont.
Diferentes medidas pueden dar diferentes impresiones
Tema 2 19
Qu medida de tendencia utilizar?
Responder:
1. Supongamos que calculamos la media, mediana y moda de una lista de nmeros, Qu
medida es siempre un nmero en la lista?
2. Si la distribucin es simtrica, Qu medida de tendencia central calcularas: la media o
la mediana?, Por qu?
Tema 2 20
Medidas de Dispersin
Las medidas de tendencia central son tiles pero nos dan una interpretacin parcial de
los datos. Consideremos los dos siguientes conjuntos de datos:
Rango:
Es la medida de variabilidad o dispersin ms simple. Se calcula tomando la diferencia entre
el valor mximo y el mnimo observado.
Rango = Mximo Mnimo.
Tema 2 21
Medidas de Dispersin cont.
Analizar cules podran ser las ventajas y desventajas del rango como medida de
variabilidad.
Desviacin estndar
Es una medida de la dispersin de las observaciones a la media. Es un promedio de la
distancia de las observaciones a la media.
Tema 2 22
Medidas de Dispersin cont.
Tema 2 23
Medidas de Dispersin cont.
NOTAS:
- Cuando el nmero de observaciones es impar, la observacin del medio es la mediana.
Esta observacin no se incluye luego en los clculos de Q1 y Q3.
- Pueden encontrar diferentes frmulas en libros, calculadoras o computadores, pero todas
estas frmulas se basan en el mismo concepto.
-Si la distribucin es simtrica, los cuartiles deben estar a la misma distancia de la
mediana.
En R, para calcular los cuartiles se utiliza el comando quantile(var1,0.25) para Q1,
quantile(var1,0.5) para Q2 y quantile(var1,0.75) para Q3.
Tema 2 26
Medidas de Dispersin cont.
Tema 2 27
Medidas de Dispersin cont.
Algunas personas asocian variabilidad con rango mientras que otras asocian variabilidad
con cmo difieren los valores de la media. Hay muchas medidas de variabilidad, y la
desviacin estndar es la ms usada. Pero recuerden que una distribucin con la menor
desviacin estndar no es necesariamente la distribucin que es menos variable con
respecto a otras definiciones de variabilidad.
RESUMEN:
Cuando queremos describir una variable usamos alguna medida de posicin central y
una medida de dispersin. El par de medidas ms comnmente usado es el promedio y
la desviacin estndar. Pero vimos que cuando la distribucin de las observaciones es
sesgada, el promedio no es una buena medida de posicin central y preferimos la
mediana. La mediana en general va acompaada del rango como medida de dispersin.
Pero cuando observamos valores extraos (extremos) el rango se ve muy afectado, por lo
que preferimos usar el rango entre cuartiles.
Tema 2 28
Medidas de Dispersin cont.
Medidas de posicin relativa.
Los cuartiles dividen un conjunto ordenado de datos, en cuatro partes iguales:
Tambin podemos dividir conjuntos de datos en 100 partes iguales y los puntos de
divisin se conocen como percentiles.
Es as como los cuartiles son en realidad los percentiles 25, 50 y 75, respectivamente.
En general, el k-simo percentil es un valor tal que el k% de los datos son menores o
iguales que l, y el (100-k)% restante son mayores o iguales que l.
Tema 2 29
Medidas de Dispersin cont.
Por ejemplo, el 25-simo percentil o percentil 25 (P25) es un valor tal que el 25% de los
datos son menores o iguales que l, y el (100-25) = 75% restante son mayores o iguales
que l.
Tema 2 30
Medidas de Dispersin cont.
Los valores extremos por lo general son atribuibles a una de las siguientes
causas:
La observacin se registra incorrectamente.
La observacin proviene de una poblacin distinta.
La observacin es correcta pero representa un suceso poco comn (fortuito).
Analizar si los siguientes datos poseen valores extremos:
32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51
En R, calcular Q1, Q2 y Q3 usando el comando quantile(). De aqu se obtienen:
Q1=41, Q2=43.5 y Q3=46.25. Los lmites son: 41-1.5*(46.25-41)= 33.125 y
46.25+1.5*(46.25-41)= 54.125. Por lo tanto que una observacin fuera del lmite
inferior: 32 (la dcima observacin de la base de datos original).
Tema 2 31
Diagrama de Cajas (Blox-plot)
Tema 2 32
Diagrama de Cajas (Blox-plot) cont.
Tema 2 33
Medidas de Dispersin cont.
La distancia entre la mediana y los cuartiles es aproximadamente la misma, lo
que nos hace pensar que la distribucin de los datos es ms o menos simtrica
como vimos antes en el histograma. Los grficos de caja son muy tiles para
comparar distribuciones de dos o ms grupos.
Tema 2 34
Coeficiente de Variacin
Es una medida de variacin relativa. Se simboliza c.v. y es igual a:
Tema 2 37
Transformaciones Lineales y Estandarizacin
UNA TRANSFORMACIN:
Se tiene datos del nmero de nios por hogar de 10 viviendas de un barrio:
2, 3, 2, 2, 1, 0, 3, 2, 1, 4
El promedio es 2,0 y desviacin estndar es 1,1547 nios
a) Queremos describir el nmero de personas en cada vivienda y supongamos que en
cada vivienda hay 2 adultos, entonces: 4, 5, 4, 4, 3, 2, 5, 4, 3, 6
Encontrar el promedio y la desviacin estndar de esta nueva variable y comparar con
las observaciones originales.
Cmo cambia el promedio? Cmo cambia la desviacin estndar?
Describir cmo afecta al promedio y la desviacin estndar el sumar una constante
a cada observacin.
b) Supongamos que cada nio recibe una mesada semanal de $500. Describir ahora el
gasto en mesadas de cada vivienda.
Encontrar el promedio y la desviacin estndar y comparar con los obtenidos de las
observaciones originales.
Cmo cambia el promedio?, Cmo cambia la desviacin estndar?
Describir cmo afecta al promedio y la desviacin estndar el multiplicar una
constante a cada observacin.
Tema 2 38
Transformaciones Lineales y Estandarizacin cont.
Tema 2 39