Documentos de Académico
Documentos de Profesional
Documentos de Cultura
para Investigaciones
Sociales
Pruebas de Hipótesis
Conceptos Básicos
Prueba de Hipótesis de una Muestra
Prueba de Hipótesis de dos Muestras
Conceptos Básicos
Conceptos Básicos
Conceptos
Hipótesis
Es una afirmación o declaración sobre una propiedad de una población.
Prueba de hipótesis
Es un procedimiento para probar una hipótesis sobre una propiedad de una
población.
Ejemplos de hipótesis:
El gasto per cápita promedio de los hogares en Lima Metropolitana es menor
de 725 soles.
La proporción de consumidores que realizan compras por internet es mayor
que 0.3.
Conceptos Básicos
Prueba de Hipótesis
En cualquier problema de prueba de hipótesis hay dos hipótesis contradictorias en
consideración.
Ejemplo 2
Hipótesis nula
H0: p <= 0.3
La proporción de consumidores que realizan compras por internet es menor o igual a 0.3.
Hipótesis alternativa
Ha: p > 0.3
La proporción de consumidores que realizan compras por internet es mayor que 0.3.
Conceptos Básicos
Objetivo de la Prueba de Hipótesis
Decidir, con base en información muestral, si la hipótesis nula debe ser
rechazada.
Ejemplo 1
Se rechaza H0: µ >= 725
Hay evidencia suficiente para justificar el rechazo de la afirmación de que el gasto per
cápita promedio de los hogares en Lima Metropolitana es de 725 soles o más.
Ejemplo 2
No se rechaza H0: p <= 0.3
No hay evidencia suficiente para justificar el rechazo de la afirmación de que la
proporción de consumidores que realizan compras por internet es menor o igual a 0.3.
Conceptos Básicos
Nivel de significancia α
El nivel de significancia α para una prueba de hipótesis es el valor de
probabilidad utilizado como punto de corte para determinar cuándo la evidencia
muestral es suficientemente significativa contra la hipótesis nula.
Por su naturaleza, el nivel de significancia α es la probabilidad de rechazar
erróneamente la hipótesis nula cuando es verdadera:
Error tipo I
El error de rechazar la hipótesis nula cuando en realidad es verdadera.
El símbolo α (alfa) se usa para representar la probabilidad de un error tipo I.
α = P(error tipo I) = P(rechazar H0 cuando H0 es verdadera)
Error tipo II
El error de no rechazar la hipótesis nula cuando en realidad es falsa.
El símbolo β (beta) se usa para representar la probabilidad de un error tipo II.
β = P(error tipo II) = P(no rechazar H0 cuando H0 es falsa)
Conceptos Básicos
Errores Tipo I y Tipo II
La dificultad con la utilización de un procedimiento basado en datos muestrales
es que, debido a la variabilidad del muestreo, el resultado podría ser una
muestra no representativa.
Un buen procedimiento es aquel en que la probabilidad de cometer un error
tipo I es pequeña y la probabilidad de cometer un error tipo II es pequeña.
Entonces:
El valor P es una probabilidad.
Esta probabilidad se calcula suponiendo que la hipótesis nula es verdadera.
Para determinar el valor P primero se debe decidir qué valores del estadístico de
prueba son al menos tan contradictorios a H0 como el valor obtenido de nuestra
muestra.
Mientras más pequeño sea el valor P, más fuerte es la evidencia contra H0 y a favor
de Ha.
Se dice que una variable aleatoria continua X tiene una distribución normal con parámetros µ
y σ, si la función de densidad de probabilidad de X es:
Propiedades
Es simétrica respecto a µ y acampanada, de
modo que el centro de la campana es tanto
la media de la distribución como la mediana.
La media µ es un parámetro de ubicación, ya
que al cambiar su valor desplaza la curva de
densidad hacia uno u otro lado.
σ es un parámetro de escala porque al
cambiar su valor estira o comprime la curva
horizontal sin cambiar la forma básica.
Conceptos Básicos
Distribución Normal Estándar z
La distribución normal estándar es una distribución normal específica.
Propiedades
La gráfica de la distribución normal estándar tiene forma de campana.
µ = 0: La distribución normal estándar tiene una media igual a 0.
σ = 1: La distribución normal estándar tiene una desviación estándar igual a 1.
Conceptos Básicos
Distribución t de Student
Si una población tiene una distribución normal, entonces la distribución de
𝑥−µ
𝑡= 𝑠
𝑛
es una distribución t de Student para todas las muestras de tamaño n.
Propiedades
La distribución t de Student es diferente para distintos tamaños de muestra.
La distribución t de Student tiene la misma forma general de campana que la
distribución normal estándar; su forma más amplia refleja la mayor variabilidad que
se espera cuando se usa s para estimar σ.
La distribución t de Student tiene una media de t = 0.
La desviación estándar de la distribución t de Student varía con el tamaño de la
muestra y es mayor que 1.
A medida que el tamaño de muestra n aumenta, la distribución t de Student se
acerca más a la distribución normal estándar.
Procedimiento para las
Pruebas de Hipótesis
Procedimiento para las Pruebas de
Hipótesis
Procedimiento para las Pruebas de Hipótesis
Paso 1. Identifique la afirmación (hipótesis)
Identifique la afirmación que será probada y exprésela en forma simbólica.
Notas
Se recomienda decir que “no se rechaza la hipótesis nula” en vez de decir que
“se acepta la hipótesis nula”.
El término aceptar es engañoso, porque implica incorrectamente que la
hipótesis nula ha sido probada, pero nunca podemos probar una hipótesis nula.
La frase “no se rechaza” dice más correctamente que la evidencia disponible
no es suficientemente fuerte como para justificar el rechazo de la hipótesis
nula.
Pruebas de Hipótesis de una
Muestra
Pruebas de Hipótesis de una Muestra
Prueba sobre la Proporción Poblacional
Notación
• n tamaño de muestra o número de ensayos
• x número de éxitos
• 𝑝 𝑥 𝑛 (proporción muestral)
• p proporción poblacional (p es el valor usado en el enunciado de la
hipótesis nula)
• q 1-p
Pruebas de Hipótesis de una Muestra
Prueba sobre la Proporción Poblacional
Requisitos
1. Las observaciones muestrales son una muestra aleatoria simple.
2. Se satisfacen las condiciones para una distribución binomial:
a) Hay un número fijo de ensayos.
b) Los ensayos son independientes.
c) Cada ensayo tiene dos categorías: “éxito” y “fracaso”.
d) La probabilidad de éxito es la misma en todos los ensayos.
3. Se satisfacen las condiciones np ≥ 5 y nq ≥ 5. Note que p se usa aquí como la
proporción supuesta utilizada en la afirmación, no como la proporción muestral
𝑝.
Pruebas de Hipótesis de una Muestra
Prueba sobre la Proporción Poblacional
Estadístico de prueba
𝑝−𝑝
𝑧=
𝑝𝑞
𝑛
Pruebas de Hipótesis de una Muestra
Prueba sobre la Proporción Poblacional (EJEMPLO)
Afirmación
La mayoría de la población de 6 a 17 años de edad hace uso de internet.
Base de datos
Encuesta ENAHO, segundo trimestre 2020, módulo 300 Educación.
Pregunta 314a: En el mes anterior, ¿Ud. hizo uso del servicio de internet?
tabulate usoint
Pruebas de Hipótesis de una Muestra
Prueba sobre la Proporción Poblacional (EJEMPLO)
Verificación de requisitos
1. Las 7038 personas de 6 a 17 años se seleccionan al azar.
2. Hay un número fijo (7038) de casos independientes con dos categorías (la persona usa el
servicio de internet o no usa el servicio de internet).
Paso 1
p > 0.5
Paso 2
p ≤ 0.5
Paso 3
H0: p = 0.5
Ha: p > 0.5
Paso 4
α = 0.05
Pruebas de Hipótesis de una Muestra
Prueba sobre la Proporción Poblacional (EJEMPLO)
Procedimiento
Paso 5
* prueba de hipótesis de una proporción
prtest usoint = 0.5, level(95)
Valor P
Pruebas de Hipótesis de una Muestra
Prueba sobre la Proporción Poblacional (EJEMPLO)
Procedimiento
Paso 6
Debido a que el valor P de 0.0000 es menor o igual que el nivel de significancia α = 0.05,
rechazamos la hipótesis nula.
Paso 7
Concluimos que hay suficiente evidencia muestral para respaldar el argumento de que la mayoría de
la población de 6 a 17 años de edad hace uso de internet.
Pruebas de Hipótesis de una Muestra
Prueba sobre la Media Poblacional (varianza desconocida)
Cuando σ no se conoce, lo estimamos con la desviación estándar muestral s.
Notación
• n tamaño de muestra
• 𝑥 media muestral
• s desviación estándar muestral
• µ media poblacional (este valor se toma de la afirmación y se usa en el
enunciado de la hipótesis nula H0)
Pruebas de Hipótesis de una Muestra
Prueba sobre la Media Poblacional (varianza desconocida)
Requisitos
1. La muestra es una muestra aleatoria simple.
2. Se cumple al menos una de las siguientes condiciones: la población se
distribuye normalmente o n > 30.
Estadístico de prueba
𝑥 − µ𝑥
𝑡= 𝑠
𝑛
Pruebas de Hipótesis de una Muestra
Prueba sobre la Media Poblacional (EJEMPLO)
Afirmación
La población de 14 a más años de edad trabajan menos de 30 horas a la semana en promedio, en
su ocupación principal.
Base de datos
Encuesta ENAHO, segundo trimestre 2020, módulo 500 Empleo.
Pregunta p513t: ¿Cuántas horas trabajó la semana pasada, en su ocupación principal, total?
1.00
Gráfico de probabilidad normal
El gráfico de probabilidad normal compara la distribución
0.75
empírica de la muestra de datos, con la teórica distribución
Normal F[(p513t-m)/s]
normal.
0.50
Si la distribución de la variable es normal, los puntos quedarán
cerca de una línea recta.
0.25
* determinación si la muestra proviene de una
distribución normal 0.00
pnorm p513t
0.00 0.25 0.50 0.75 1.00
Empirical P[i] = i/(N+1)
Pruebas de Hipótesis de una Muestra
Prueba sobre la Media Poblacional (EJEMPLO)
Procedimiento
Paso 1
µ < 30
Paso 2
µ >= 30
Paso 3
H0: µ = 30
Ha: µ < 30
Paso 4
α = 0.05
Pruebas de Hipótesis de una Muestra
Prueba sobre la Media Poblacional (EJEMPLO)
Procedimiento
Paso 5
* prueba de hipótesis de una media
ttest p513t = 30, level(95)
Valor P
Pruebas de Hipótesis de una Muestra
Prueba sobre la Media Poblacional (EJEMPLO)
Procedimiento
Paso 6
Debido a que el valor P de 0.0953 es mayor que el nivel de significancia α = 0.05, no rechazamos la
hipótesis nula.
Paso 7
Concluimos que no hay evidencia suficiente para respaldar la afirmación de que la población de 14 a
más años de edad trabajan menos de 30 horas a la semana en promedio, en su ocupación principal.
Pruebas de Hipótesis de dos
Muestras
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Proporciones
Notación
• pi proporción de la población i (i=1,2)
• ni tamaño de la muestra i
• xi número de éxitos en la muestra i
𝑥𝑖
• 𝑝𝑖 = proporción de la muestra i
𝑛𝑖
• 𝑞𝑖 = 1 - 𝑝𝑖 complemento de 𝑝𝑖
𝑥1 + 𝑥2
𝑝= 𝑞 =1− 𝑝
𝑛1 + 𝑛2
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Proporciones
Requisitos
• Las proporciones muestrales son de dos muestras aleatorias simples.
• Las dos muestras son independientes. (Las muestras serán independientes si
los valores muestrales seleccionados de una población no están relacionados o
de alguna forma naturalmente pareados con los valores muestrales de la otra
población).
• Para cada una de las dos muestras, hay al menos 5 éxitos y al menos 5
fracasos. (Es decir, n𝑝 ≥ 5 y n𝑞 ≥ 5 para cada una de las dos muestras).
Estadístico de prueba
Base de datos
Encuesta ENAHO, segundo trimestre 2020, módulo 300 Educación.
Pregunta 314a: En el mes anterior, ¿Ud. hizo uso del servicio de internet?
tabulate usoint
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Proporciones (EJEMPLO)
Base de datos
2. Las dos muestras son independientes porque las personas en las muestras no están
relacionados o emparejados de ninguna manera.
Paso 1
p1 = p2
El subíndice 1 corresponde al grupo de edad de 6 a 11 años; y el subíndice 2 corresponde al grupo
de edad de 12 a 17 años.
Paso 2
p1 ≠ p2
Paso 3
H0: p1 = p2
Ha: p1 ≠ p2
Paso 4
α = 0.05
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Proporciones (EJEMPLO)
Procedimiento
Paso 5
* prueba de hipótesis sobre dos proporciones
prtest usoint, by(gedad) level(95)
Valor P
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Proporciones (EJEMPLO)
Procedimiento
Paso 6
Debido a que el valor P de 0.0000 es menor o igual que el nivel de significancia α = 0.05,
rechazamos la hipótesis nula.
Paso 7
Concluimos que hay evidencia suficiente para justificar el rechazo de la afirmación de que el uso de
internet es igual en los grupos de edad de 6 a 11 años y de 12 a 17 años.
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Medias (muestras independientes)
Notación
• µi media de la población i (i=1,2)
• σi desviación estándar de la población i
• ni tamaño de la muestra i
• 𝑥𝑖 media de la muestra i
• si desviación estándar de la muestra i
Notas
Si las dos muestras tienen diferentes tamaños de muestra sin datos faltantes,
deben ser independientes.
Si las dos muestras tienen el mismo tamaño de muestra, las muestras pueden
ser independientes o no.
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Medias (muestras independientes)
Requisitos
1. Los valores de σ1 y σ2 son desconocidos y no suponemos que sean iguales.
2. Las dos muestras son independientes.
3. Ambas muestras son muestras aleatorias simples.
4. Se cumple al menos una de las siguientes condiciones:
a) Los dos tamaños de muestra son grandes (con n1 > 30 y n2 > 30) o
b) Ambas muestras provienen de poblaciones que tienen distribuciones normales.
Notas
Los métodos utilizados son robustos contra las desviaciones de la normalidad,
por lo que para muestras pequeñas el requisito de normalidad es flexible en el
sentido de que los procedimientos funcionan bien siempre que no haya valores
atípicos y las desviaciones de la normalidad no sean demasiado extremas.
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Medias (muestras independientes)
Estadístico de prueba
(𝑥1 − 𝑥2 ) − (µ1 − µ2 )
𝑡=
𝑠12 𝑠22
+
𝑛1 𝑛2
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Medias (EJEMPLO)
Afirmación
Las personas de 14 a 24 años y de 25 a 44 años de edad trabajan las mismas horas a la semana en
promedio, en su ocupación principal.
Base de datos
Encuesta ENAHO, segundo trimestre 2020, módulo 500 Empleo.
Pregunta p513t: ¿Cuántas horas trabajó la semana pasada, en su ocupación principal, total?
Paso 1
µ1 = µ2
Paso 2
µ1 ≠ µ2
Paso 3
H0: µ1 = µ2
Ha: µ1 ≠ µ2
Paso 4
α = 0.05
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Medias (EJEMPLO)
Procedimiento
Paso 5
* prueba de hipótesis sobre dos medias
ttest p513t, by(gedad) unequal level(95)
Valor P
Pruebas de Hipótesis de dos Muestras
Prueba sobre dos Medias (EJEMPLO)
Procedimiento
Paso 6
Debido a que el valor P de 0.0000 es menor que el nivel de significancia α = 0.05, rechazamos la
hipótesis nula.
Paso 7
Concluimos que hay evidencia suficiente para justificar el rechazo de la afirmación de que las
personas de 14 a 24 años y de 25 a 44 años de edad trabajan las mismas horas a la semana en
promedio, en su ocupación principal.
COMUNICACIÓN PERMANENTE CON LA ESCUELA