Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumiendo
Investigación científica
Estadística en la Investigación
• Estructura de la investigación:
– Diseño.
– Análisis.
– Interpretación de los resultados.
Introducción
• Segunda etapa
– Predicción
– A través de modelos probabilísticos
– Contrastación de hipótesis para probar
predicciones
– Concordancia entre lo observado y lo esperado
Modelación
27 9
3 5
0 6
Inferir
Población ... -1 0 1 ...
Observar Probabilidad
Estadística descriptiva
x2
x1 x x4 Datos
3 ___ ___ ___
. . . xi Estadística ___ ___ ___
___ ___ ___
Muestra
...
...
...
___ ___ ___
Introducción
• Población (‘population’) es el conjunto sobre el
que estamos interesados en obtener conclusiones
(hacer inferencia).
– Normalmente es demasiado grande para poder
abarcarlo.
Normalmente
. nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a
*TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean
próximos. Más adelante veremos como elegir muestras para que el error sea “confiablemente”
pequeño.
VALOR
VARIABLE
Promedio = 3.81
x-barra
ESTADÍSTICO
Muestra
Promedio=3.7
PARÁMETRO
Población
Variables y Escalas de Medición
• Una variable es una característica observable que varía entre los
diferentes individuos de una población. La información que
disponemos de cada individuo es resumida en variables.
• En los individuos de la población mexicana, de uno a otro es variable:
– El grupo sanguíneo
• {A, B, AB, O} Var. Cualitativa
– Su nivel de felicidad “declarado”
• {Deprimido, Indiferente, Feliz} Var. Ordinal
– El número de hijos
• {0,1,2,3,...} Var. Numérica discreta
– La altura
• {1’62 ; 1’74; ...} Var. Numérica continua
Tipos de Variables
• Cualitativas: Si sus valores (modalidades) no se pueden asociar
naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos).
DATOS
(escalas)
Discretas
CATEGÓRICAS
NUMÉRICAS
Métricos
No Métricos
Continuas
CUALITATIVAS CUANTITATIVAS
Nominales Ordinales
Intervalo
Razón
Estadística Descriptiva
• Entrevistas
• Observación directa
• Observacional
• Experimental
• Revisión documental
Codificación de Datos
•·Frecuencias relativas.
• Frecuencias acumuladas y distribuciones porcentuales
acumulativas.
• Tablas ‘cruzadas’.
Presentación ordenada de Datos
7
Género Frec. 6
5
Hombre 4 4
3
2
Mujer 6 1
0
Hombre Mujer
Mujer 6 6/10=0,6=60%
• Muestra: 10=tamaño
muestral
MHHMMHMMMH
• equivale a
HHHH MMMMMM
Ejemplos
Número de hijos
• ¿Cuántos individuos tienen
menos de 2 hijos? Porcent. Porcent.
Frec. (válido) acum.
0 419 27,8 27,8
• Frec. indiv. sin hijos 1 255 16,9 44,7
+ Frec. indiv. con 1 hijo
= 419 + 255= 674 individuos 2 375 24,9 69,5 ≥50%
3 215 14,2 83,8
4 127 8,4 92,2
• ¿Qué porcentaje de individuos 5 54 3,6 95,8
tiene 6 hijos o menos? 6 24 1,6 97,3
• 97,3% 7 23 1,5 98,9
Ocho+ 17 1,1 100,0
Total
• ¿Qué número de hijos tiene a lo 1509 100,0
más el 50% de la población?
• 2 hijos
Gráficos para variables cualitativas
• Diagramas de barras
• Alturas proporcionales a las
frecuencias (abs. o rel.).
• Se pueden aplicar también a
variables discretas.
• Pictogramas
• Fáciles de entender.
• El área de cada modalidad debe
ser proporcional a la frecuencia.
Gráficos para variables numéricas
419
400 375
300
255
Son diferentes en función de que las variables sean
Recuento
200
215 discretas o continuas. Valen con frec. absolutas o
127
relativas.
100
54
24 23 17
0 1 2 3 4 5 6 7 Ocho o más
• Diagramas barras para variables discretas
Número de hijos
• Se deja un hueco entre barras para indicar los valores
que no son posibles
250
200
• Histogramas para variables continuas
• El área que hay bajo el histograma entre dos puntos
Recuento
150
20 40 60 80
• Centralización
• Indican valores con respecto a los que los datos parecen agruparse.
• Media, mediana y moda
• Dispersión
• Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
• Asimetría
• Apuntamiento o curtosis
Estadísticos de posición
• Se define el cuantil de orden a como un valor de la variable por
debajo del cual se encuentra una frecuencia acumulada a.
El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera
“demasiado bajo”?
• Percentil 5 o cuantil 0,05
• ¿Qué peso es superado sólo por el 25% de los individuos?
• Percentil 75
• El colesterol se distribuye simétricamente en la población. Se considera
patológico los valores extremos. El 90% de los individuos son normales
¿Entre qué valores se encuentran los individuos normales?
• Entre el percentil 5 y el 95
• ¿Entre qué valores se encuentran la mitad de los individuos “más normales”
de una población?
• Entre el cuartil 1º y 3º
• ¿Qué peso no llega a alcanzar el 25% de los individuos?
• Primer cuartil = percentil 25 = 60 Kg.
50%
• ¿Qué peso es superado por el 25% de los individuos?
• Tercer cuartil= percentil 75= 80 kg.
• Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por
el tamaño muestral.
• Media de 2,2,3,7 es (2+2+3+7)/4=3,5
• Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a
valores extremos.
• Centro de gravedad de los datos.
• Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos
(percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales.
• Mediana de 1,2,4,5,6,6,8 es 5.
• Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5.
• Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos.
• Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
Si los valores que toma x en una serie de datos, no todos tienen la misma importancia, es
valido asignar "pesos" o "ponderaciones" de acuerdo a la importancia de cada dato.
Si en una serie de datos aparecen los números; pero cada uno con diferente frecuencia. Si
cada uno de estos datos se multiplica por su respectiva frecuencia o ponderación y se
suman estos productos, se obtendrá la misma suma que si se hubieran sumado uno por
uno.
• Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas
serían las mismas en todos? Seguramente No.
• En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala
• Variabilidad por azar, aleatoriedad.
Medidas de dispersión
Varianza S2 (‘Variance’):
1
S ( xi x ) 2
2
n i
S S2
Medidas de dispersión
• No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad
fijada arbitrariamente
• Por ejemplo 0ºC ≠ 0ºF
Medidas de forma
Asimetría o sesgo
140 300
200
120
200
100
100
80
100
Frecuencia
Frecuencia
Frecuencia
60
0
40 0
27 37 45 53 61 69 77 85 93
45 48 51 54 57 60 63 66 69 72 75 78 81 84 3 27 37 47 57 67 77 87 97 108
32 41 49 57 65 73 81 89 99
16 32 42 52 62 72 82 92 102 138
Platicúrtica
Mesocúrtica
Leptocúrtica
Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Leptocúrtica: curtosis > 0
Estos gráficos poseen la misma media y desviación típica, pero con diferente grado de
apuntamiento. En el curso serán de especial interés las mesocúrticas y simétricas (parecidas
a la normal).
Medidas Descriptivas
Medidas descriptivas, dependiendo de la escala de medición
Medidas de Medidas de la
centro de una variabilidad de
Clasificación Medidas Gráficas distribución una distribución
Gráfica de barras o Varianza Binomial o
La Moda
Gráficas de pastel Multinomial
Nominal
Las de arriba más
Las de arriba más Las de arriba más
Rango y
Histogramás Mediana
Ordinal Porcentiles
Las de arriba más Las de arriba más
Las de arriba más
Histogramas con Desviación
Media
Intervalo áreas medibles estándar
Las de arriba más Las de arriba más Las de arriba más
Histogramas con Media Geométrica Coeficiente de
Razón áreas medibles y Media Armónica Variación
Exploración de Datos
Escala Centralidad Dispersión Gráfico