Está en la página 1de 44

STATA BÁSICO

NUESTRAS MODALIDADES
PRUEBA DE HIPOTESIS
EN STATA
Objetivos

• Prueba de hipótesis y elementos necesarios.


• Pruebas de hipótesis más comunes y
criterios de elección.
• Pasos para una prueba de hipótesis.
• Algunos supuestos a considerar.

7
1. PRUEBA DE HIPÓTESIS Y
ELEMENTOS NECESARIOS
• PRUEBA DE HIPOTESIS: busca responder a una pregunta
sobre el valor de un parámetro en la población (siempre
utilizando los resultados de la muestra)

• Esta pregunta sobre el valor del parámetro en la población se


plantea utilizando hipótesis.

• El procedimiento cuantifica en que medida los datos de la


muestra apoyan la hipótesis planteada.
1. PRUEBA DE HIPÓTESIS Y
ELEMENTOS NECESARIOS
Elementos necesarios:

• Las hipótesis

• Un procedimiento para responder a la pregunta o


hipótesis utilizando los datos de la muestra

• Criterios para interpretar los resultados


1. PRUEBA DE HIPÓTESIS Y
ELEMENTOS NECESARIOS
La hipótesis

• La pregunta de investigación debe tratar de expresarse en


forma de hipótesis
• El método científico no permite determinar que una hipótesis
es verdadera, solamente puede determinar si es falsa
• Por lo tanto debe plantearse una hipótesis que al ser
rechazada dé respuesta a la pregunta de investigación
1. PRUEBA DE HIPÓTESIS Y
ELEMENTOS NECESARIOS
La hipótesis

• Hipótesis nula, H0: Hipótesis de no diferencia o no


asociación, es planteada en forma opuesta a la pregunta de
investigación de interés, definida para ser rechazada:

• Hipótesis alternativa o alterna, Ha: Es la pregunta


científica de interés. Aceptaremos que Ha es verdadera si los
datos sugieren que H0 es falsa:
1. PRUEBA DE HIPÓTESIS Y
ELEMENTOS NECESARIOS
La hipótesis

• Hipótesis Nula (Ho): Enunciado formal para el contraste de


hipótesis con métodos estadísticos: No hay asociación, No
hay diferencia, No hay efecto.

• Hipótesis alternativa (H1): Hipótesis complementaria a Ho: Si


hay asociación, Si hay diferencia, Si hay efecto.
1. PRUEBA DE HIPÓTESIS Y
ELEMENTOS NECESARIOS
Procedimiento para responder la hipótesis

• Con los datos de la muestra se calcula un valor (llamado


estadístico de prueba) que sirve para decidir si Ho es falsa y en
consecuencia ser rechazada (única y exclusivamente para eso)
• Si los resultados sugieren que se debe rechazar Ho, entonces
automáticamente se acepta que Ha es verdadera
• Si los resultados no indican que se rechaze Ho tampoco se
puede concluir nada sobre Ha.
1. PRUEBA DE HIPÓTESIS Y
ELEMENTOS NECESARIOS
Procedimiento para responder la hipótesis

• Con el estadístico de prueba y una fórmula matemática


(distribución de probabilidades, que varía según el tipo de
hipótesis evaluada), se calcula una probabilidad, el famoso valor
p
• El valor p, “p”, o p-value puede interpretarse como la probabilidad
de que Ho sea verdadera
• Por convención se acepta que si p < 0.05 (5%), entonces es muy
probable que Ho sea falsa y por lo tanto debe ser rechazada
1. PRUEBA DE HIPÓTESIS Y
ELEMENTOS NECESARIOS
Regla de decisión

• Para tomar una decisión sobre rechazar o no rechazar la


hipótesis nula hay que especificar una Regla de decisión.
• Hay que especificar un punto de corte ó punto crítico:
- Si P es menor que Alfa (α), se rechaza Ho
- Si P es mayor que Alfa (α), no se rechaza Ho
2. PRUEBAS DE HIPÓTESIS MÁS
COMUNES Y CRITERIOS DE ELECCIÓN.
PRUEBA DE HIPOTESIS MÁS COMUNES:

• Test de proporción
• Diferencia de proporciones.
• Test de una media
• Diferencia de dos medias (muestras independientes)
• Diferencia de dos medias (muestras relacionadas)
• Prueba de Chi cuadrado para independencia
• Análisis de regresión
2. PRUEBAS DE HIPÓTESIS MÁS
COMUNES Y CRITERIOS DE ELECCIÓN.

Criterios de decisión del test:

• Data: medida de la variable o variables. ¿Nominal o


Razón/Intervalo?
• Muestra: ¿Un solo grupo, dos grupos, más grupos?¿Diferente
mediciones (variables) para una unidad de analisis?
• Propósito: ¿Se compara contra un valor?¿Se compara dos
estadísticos?¿Se busca alguna relación?
2. PRUEBAS DE HIPÓTESIS MÁS
COMUNES Y CRITERIOS DE ELECCIÓN.

Data
Criterios
Variable categórica Variable cuantitativa
Una muestra Test de proporcion Test para una media
Diferencia de dos medias
Dos muestras Diferencia de dos proporciones
Muestra (muestras independientes)
una muestra, Diferencia de dos medias
Test de chi-cuadrado
varias mediciones Analisis de regresión (muestras relacionadas)
2. PRUEBAS DE HIPÓTESIS MÁS
COMUNES Y CRITERIOS DE ELECCIÓN.
Ejemplos

• Ejemplo 1: Se quiere evaluar si el 30% de los hogares peruanos son


pobres
• Ejemplo 2: Se quiere evaluar si el porcentaje de hogares con acceso a
agua por red publica calculado por ENAHO es el mismo para ENAPRES.
• Ejemplo 3: Se quiere evaluar si el promedio de años de estudios de los
pobladores peruanos es de 8 años.
• Ejemplo 4: Se quiere evaluar si el promedio de años de estudios del
hombre es el mismo que el de la mujer.
• Ejemplo 5: Se quiere evaluar si el promedio del gasto del hogar para el
año 2010 es igual que el gasto promedio para el año 2011.
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Pasos:

• Paso 1: Planteo de Hipótesis


• Paso 2: Nivel de significación
• Paso 3: Criterio de decisión
• Paso 4: Prueba Estadística
• Paso 5: Desarrollo de la prueba
• Paso 6: Conclusión
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 1

- Paso 1: Planteo de Hipótesis

H0: la proporción de hogares pobres es 0.3


H1: la proporción de hogares pobres no es 0.3

- Paso 2: Nivel de significación

Alpha=5%=0.05

- Paso 3: Criterio de selcción:


• Si el P-value (Sig. (Bilateral)) < entonces se rechaza la H0.
• Si el P-value (Sig. (Bilateral)) > entonces no se rechaza la H0.
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 1

- Paso 4: Prueba estadística

Variable cualitativa de una muestra en la que se busca comparar con un valor. Se usa la
prueba z. Prueba de proporciones

- Paso 5: Desarrollo

En STATA se colocará el comando prtest la variable y la proporción.


3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 1

- Paso 6: Conclusión

• Como el P-value es menor a 0,05; entonces se rechaza la H0. Por lo


tanto, podemos afirmar que existe suficiente evidencia estadística
para decir que la proporción de hogares pobres no es igual a 0.300.
• La proporción de hogares pobres se estima en 0.208. Con un
intervalo de confianza al 95% de (0.204 ; 0213)
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 2

- Paso 1: Planteo de Hipótesis

H0: la proporción de hogares con acceso a agua por red publica en la encuesta
nacional de hogares es igual

H1: la proporción de hogares con acceso a agua por red publica en la encuesta nacional de
hogares no es igual

- Paso 2: Nivel de significación

Alpha=5%=0.05

- Paso 3: Criterio de selcción:


• Si el P-value (Sig. (Bilateral)) < entonces se rechaza la H0.
• Si el P-value (Sig. (Bilateral)) > entonces no se rechaza la H0.
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 2
- Paso 4: Prueba estadística

Variable cualitativa de dos muestras en la que se busca comparar dos estadísticos. Se usa
la prueba z. Prueba de diferencia de proporciones

- Paso 5: Desarrollo

En STATA se colocará el comando prtest la variable y la proporción.


3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 2

- Paso 6: Conclusión

• Como el P-value es menor a 0,05; entonces se rechaza la H0. Por lo


tanto, podemos afirmar que existe suficiente evidencia estadística para
decir que la proporción de hogares con agua por red publica entrevistada
por la enaho no es igual a la proporción de hogares con agua por red
pública entrevista por la enapres.
• La proporción para el primer grupo es de 0.83 y del segundo grupo de
0.81. Con un intervalo de confianza al 95% de (0.828 ; 0835) y de
(0.810;0.818) en enaho y enapres respectivamente.
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 3

- Paso 1: Planteo de Hipótesis

H0: el promedio de años de estudio es igual a 8 años

H1: el promedio de años de estudio NO es igual a 8 años

- Paso 2: Nivel de significación

Alpha=5%=0.05

- Paso 3: Criterio de selección:


• Si el P-value (Sig. (Bilateral)) < entonces se rechaza la H0.
• Si el P-value (Sig. (Bilateral)) > entonces no se rechaza la H0.
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 3

- Paso 4: Prueba estadística


Variable cuantitativa de una muestra en la que se busca comparar contra un valor. Se usa
la prueba t. Test de una media

- Paso 5: Desarrollo
En STATA se colocará el comando ttest la variable y el valor.
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 3

- Paso 6: Conclusión

• Como el P-value es menor a 0,05; entonces se rechaza la H0. Por lo tanto,


podemos afirmar que existe suficiente evidencia estadística para decir que el
promedio de años de estudio no es igual a 8 años.

• El promedio de años de estudio es igual a 7.43 años. Con un intervalo de


confianza al 95% de (7.39;7.44).
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 4

- Paso 1: Planteo de Hipótesis

H0: el promedio de años de estudio de los hombres es igual al de las mujeres.

H1: el promedio de años de estudio de los hombres no es igual al de las mujeres.

- Paso 2: Nivel de significación

Alpha=5%=0.05

- Paso 3: Criterio de selcción:


• Si el P-value (Sig. (Bilateral)) < entonces se rechaza la H0.
• Si el P-value (Sig. (Bilateral)) > entonces no se rechaza la H0.
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 4

- Paso 4: Prueba estadística


Variable cuantitativa de dos muestra en la que se busca comparar contra un valor. Se usa
la prueba t. Test de dos media (muestras independientes).

- Paso 5: Desarrollo
En STATA se colocará el comando ttest la variable y el valor.
3. PASOS PARA UNA PRUEBA DE
HIPÓTESIS
Ejemplo 4

- Paso 6: Conclusión

• Como el P-value es menor a 0,05; entonces se rechaza la H0. Por lo tanto,


podemos afirmar que existe suficiente evidencia estadística para decir que el
promedio de años de estudio del hombres no es igual al promedio de años de
estudio de la mujer.
• El promedio de años de estudio de los hombres es igual a 7.794 años. Con un
intervalo de confianza al 95% de (7.75;7.83).
• El promedio de años de estudio de las mujeres es igual a 7.058 años. Con un
intervalo de confianza al 95% de (7.017;7.099).
PRUEBAS DE HIPÓTESIS
INTRODUCCIÓN AL
TRATAMIENTO DE ENCUESTAS
PREPARANDO LA SESIÓN
DE TRABAJO
• Dado el tamaño de las bases de datos con las que trabajaremos, asignamos 799 para el
tamaño de la matriz. El segundo renglón le comunica a Stata que la opción more debe
ser apagada para que los resultados se muestren libremente.

set matsize 799


set more off

• Para guardar los resultados mostrados en la ventana Results, ejecutar el siguiente


comando

log using "path\resultados5.smcl", replace

Nota.- path = indica la ruta donde se quiere quede grabado el archive de resultados

Si desea añadir los resultados de la presente clase, al archivo de resultados creado en la


clase anterior, deberá utilizar la opción append, en lugar de replace en la sentencia log
using.

log using "path\<nombre archivo>.smcl", append

Nota.- “path” indica la ruta donde se quiere quede grabado el archivo de resultados

• Cargamos el archivo Sumaria.dta

use "path\Sumaria.dta", clear


ALGUNAS ESTIMACIONES
Necesitamos estimar, a partir de los datos de la Encuesta Nacional de Hogares 2002, la media del gasto total
mensual de los hogares. Supongamos además (esto es incorrecto), que la muestra es aleatoria simple (M.A.S.) y
por lo tanto no consideramos los efectos de conglomeración, estratificación y ponderación en los resultados.

g gtm=gashog2d/3 \\crea la variable gtm “gasto total mensual del hogar”


sum gtm \\calcula la media de gtm y otros estadísticos más
tabstat gtm, s(mean) by(p207) \\calcula la media de gtm desagregado por el sexo del Jefe de Hogar

tabstat gtm, s(mean sd n semean) by(p207)

Ahora necesitamos saber la media del gasto total mensual de los hogares por estado civil o
conyugal del Jefe de Hogar.

tabstat gtm, s(mean) by(p209)

Summary for variables: gtm


by categories of: p209 (¿cual es su estado civil o conyugal? )

p209 | mean
------------+----------
conviviente | 874.9135
casado | 1258.664
viudo | 838.9352
divorciado | 1538.446
separado | 927.1096
soltero | 845.4118
------------+----------
Total | 1063.094
-----------------------
tabstat gtm, s(mean sd n semean) by(p209)

Summary for variables: gtm


by categories of: p209 (¿cual es su estado civil o conyugal? )

p209 | mean sd N se(mean)


------------+----------------------------------------
conviviente | 874.9135 686.093 4673 10.03656
casado | 1258.664 1199.84 8976 12.66432
viudo | 838.9352 900.6821 1954 20.37555
divorciado | 1538.446 1464.743 121 133.1584
separado | 927.1096 753.0889 1557 19.08543
soltero | 845.4118 911.1342 1304 25.23153
------------+----------------------------------------
Total | 1063.094 1028.297 18585 7.542885
-----------------------------------------------------

Observe que la media de los gastos totales mensuales de los hogares jefaturados personas que son solteros(as), es
mayor al de los hogares jefaturados por personas viudos(as). ¿En realidad es esto cierto? ¿Cuáles son las posibles causas
de esta diferencia, suponiendo que no existen errores ajenos al muestreo?. ¿Cómo podría probar la hipótesis de que las
medias son iguales?.

¿Cómo se muestran las medias aritméticas del gasto total mensual de los hogares por dominio de estudio?

tabstat gtm, s(mean sd n semean) by(dominio)

Summary for variables: gtm


by categories of: dominio (dominio)

dominio | mean sd N se(mean)


-----------------+----------------------------------------
costa norte | 1142.426 957.28 2656 18.57483
costa centro | 1220.222 862.4516 1345 23.51655
costa sur | 1185.372 773.778 1099 23.3409
sierra norte | 697.3982 668.8202 1146 19.75682
sierra centro | 815.9699 824.8079 3638 13.67481
sierra sur | 885.1128 906.3905 3004 16.53733
selva | 924.0784 798.6372 3576 13.35521
lima metropolita | 1902.601 1638.075 2134 35.45982
-----------------+----------------------------------------
Total | 1062.988 1028.114 18598 7.538903
Veamos sus intervalos de confianza:
Por sexo del Jefe de Hogar:

sort p207
by p207: means gtm

------------------------------------------------------------------------
-> p207 = hombre

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 14927 1084.874 1067.957 1101.79
| Geometric 14927 798.4062 788.5615 808.3738
| Harmonic 14927 594.7218 586.3596 603.3259
------------------------------------------------------------------------

------------------------------------------------------------------------
-> p207 = mujer

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 3671 973.9988 944.6098 1003.388
| Geometric 3671 685.313 666.2768 704.8932
| Harmonic 3671 458.4399 442.3934 475.6942
-------------+----------------------------------------------------------
sort p209
Por estado civil o conyugal del Jefe de Hogar: by p209: means gtm

-> p209 = convivien

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 4673 874.9135 855.2371 894.5899
------------------------------------------------------------------------
-> p209 = casado

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 8976 1258.664 1233.839 1283.489
------------------------------------------------------------------------
-> p209 = viudo

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 1954 838.9352 798.9751 878.8953
------------------------------------------------------------------------
-> p209 = divorciad

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 121 1538.446 1274.802 1802.091
------------------------------------------------------------------------
-> p209 = separado

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 1557 927.1096 889.6737 964.5455
------------------------------------------------------------------------
-> p209 = soltero

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 1304 845.4118 795.9129 894.9107
------------------------------------------------------------------------
-> p209 = .

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 13 912.4102 469.9311 1354.889
------------------------------------------------------------------------
------------------------------------------------------------------------
-> dominio = costa nor

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 2656 1142.426 1106.004 1178.849
------------------------------------------------------------------------
-> dominio = costa cen
Por dominio de
Variable | Type Obs Mean [95% Conf. Interval]
estudio: -------------+----------------------------------------------------------
gtm | Arithmetic 1345 1220.222 1174.089 1266.355
------------------------------------------------------------------------
-> dominio = costa sur

Variable | Type Obs Mean [95% Conf. Interval]


sort dominio -------------+----------------------------------------------------------
by dominio: gtm | Arithmetic 1099 1185.372 1139.574 1231.169
------------------------------------------------------------------------
means gtm -> dominio = sierra no

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 1146 697.3982 658.6346 736.1618
------------------------------------------------------------------------
-> dominio = sierra ce

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 3638 815.9699 789.1588 842.7809
------------------------------------------------------------------------
-> dominio = sierra su

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 3004 885.1128 852.6872 917.5385
------------------------------------------------------------------------
-> dominio = selva

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 3576 924.0784 897.8938 950.263
------------------------------------------------------------------------
-> dominio = lima metr

Variable | Type Obs Mean [95% Conf. Interval]


-------------+----------------------------------------------------------
gtm | Arithmetic 2134 1902.601 1833.062 1972.141
------------------------------------------------------------------------
PRUEBAS DE HIPÓTESIS: Diferencia
de Medias Aritméticas
Como se ha observado anteriormente, se notan diferencias entre las estimaciones puntuales de la media del gasto total
mensual de los hogares, por sexo y estado civil o conyugal del Jefe de Hogar, así como, por dominio de estudio. Sin
embargo estas diferencias puntuales pueden aparecer por efecto de que no se tomó la información de todos los hogares del
país, sino de una parte de ella (muestra). Por lo tanto, para averiguar, si la diferencia mostrada es significativa, bajo un criterio
probabilístico, el cual nos permite medir la confianza de nuestra decisión, realizaremos pruebas de hipótesis de diferencia de
medias aritméticas.
¿Serán diferentes las medias aritméticas del gasto total mensual de los hogares jefaturados
por personas convivientes y los hogares jefaturados por personas viudas? Probar con un
nivel de significancia de 10 %.
ttest gtm if p209==1 | p209==3, by(p209)

Two-sample t test with equal variances

------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
convivie | 4673 874.9135 10.03656 686.093 855.2371 894.5899
viudo | 1954 838.9352 20.37555 900.6821 798.9751 878.8953
---------+--------------------------------------------------------------------
combined | 6627 864.3051 9.284699 755.8338 846.1041 882.5061
---------+--------------------------------------------------------------------
diff | 35.9783 20.35894 -3.931772 75.88837
------------------------------------------------------------------------------
Degrees of freedom: 6625

Ho: mean(convivie) - mean(viudo) = diff = 0

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0


t = 1.7672 t = 1.7672 t = 1.7672
P < t = 0.9614 P > |t| = 0.0772 P > t = 0.0386

Nota. Esta prueba considera que las muestras son independientes con varianzas iguales.
Variance ratio test

------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
convivie | 4673 874.9135 10.03656 686.093 855.2371 894.5899
viudo | 1954 838.9352 20.37555 900.6821 798.9751 878.8953
---------+--------------------------------------------------------------------
combined | 6627 864.3051 9.284699 755.8338 846.1041 882.5061
------------------------------------------------------------------------------

Ho: sd(convivie) = sd(viudo)

F(4672,1953) observed = F_obs = 0.580


F(4672,1953) lower tail = F_L = F_obs = 0.580
F(4672,1953) upper tail = F_U = 1/F_obs = 1.723

Ha: sd(1) < sd(2) Ha: sd(1) != sd(2) Ha: sd(1) > sd(2)
P < F_obs = 0.0000 P < F_L + P > F_U = 0.0000 P > F_obs = 1.0000

¿Qué decisión tomaría con los resultados obtenidos?


Descarga el certificado Digital del curso

Al terminar todo curso en la


Escuela del INEI recibirás
un correo con los datos de
acceso para poder
descargar tu certificado
Digital a nombre del INEI.

https://sistemas.inei.gob.pe/WebCerEnei/

También podría gustarte