Está en la página 1de 6

Clase_5_infer02

March 18, 2022

0.0.1 Pruebas de Hipótesis (Sobre la media)


Vamos a construir un ejemplo que nos ayudará a entender y realizar una prueba de hipótesis de
la media, utilizando de nuevo la base de datos wage2 contenida en la librería wooldridge. Primero
debemos cargar las librerías a utilizar:
[ ]: library(wooldridge)
library(stargazer)

A partir del dataframe wage2 vamos a concentrarnos en la variable wage. Los registros de esta
base de datos pertenecen a individuos en el mercado laboral de Estados Unidos en el año 1975.
Miremos primero un resumen del comportamiento de la variable:
[3]: stargazer(subset(wage2, select = c(wage)), digits = 0, type = 'text')

=======================================================
Statistic N Mean St. Dev. Min Pctl(25) Pctl(75) Max
-------------------------------------------------------
wage 935 958 404 115 669 1,160 3,078
-------------------------------------------------------
El tamaño de la muestra es N = 935, que en principio puede ser suficiente para considerarla
una muestra lo suficientemente grande. El promedio muestral del salario muestral en dólares es
W̄muestra ≈ $958 y el estimador de la desviación estándar del salario es σ̂W ≈ $404. Sabemos que
gran parte de las observaciones del salario demtro de esta muestra se encuentran a una desviación
estándar arriba o abajo del promedio muestral, es decir, entre $531 y $1339. En 1975 el salario
mínimo legal por hora igual a $3.10. Asumiendo que las horas promedio trabajadas eran 8 y que la
ocupación correspondía a un trabajo de tiempo completo de 48 horas por semana, una aproximación
al salario mínimo legal mensual en aquel tiempo es $595.
No conocemos la distribución verdadera del salario mensual W
∑.NSin embargo, sabemos que bajo el
supuesto de muestra grande el promedio mensual W̄ = 1/N i=1 es el “Mejor Estimador Lineal
Insesgado” y consistente (LGN) del verdadero valor medio del salario mensual µW . Conociendo
adicionalmente que bajo el mismo supuesto de muestra grande (TLC)

W̄ − µW
Z≡ 2
σW
∼ N (0, 1)
N

podríamos plantear la hipótesis razonable que el verdadero valor medio del salario mensual en 1975
era equivalente al salario mínimo legal mensual vigente en aquel año. Es decir, podríamos plantear

1
la siguiente prueba de hipótesis sobre el valor verdadero del promedio del salario mensual:

H0 : µW = µW,0 = $595

H1 : µW ̸= $595

Alternativa 1:
1. Elegimos el nivel de significancia de la prueba : α = 0.05
[4]: nivel_significancia <- 0.05

W̄muestra −µW,0 σ̂W


2. Calculamos el estadístico de prueba t = , donde SE(W̄ ) = √ .
SE(W̄ ) N

[5]: # Asignamos los valores de cada uno de los parametros para calcular "t":
# 1. N es igual al total de filas en el dataframe wage2
N <- nrow(wage2)
# 2. Asignamos el valor de hipótesis del promedio verdadero del salario mensual
mu_W0 <- 595
# 3. Calculamos el promedio muestral del salario mensual
Wbar_muestra <- mean(wage2$wage)
# 4. Calculamos el valor estimado del error estándar del promedio mensual
SE_W <- sd(wage2$wage)/sqrt(N)

# Finalmente calculamos el valor del estadístico de prueba "t"


t_stat <- (Wbar_muestra - mu_W0)/SE_W
t_stat

27.4459391389215
3. Determinamos el Valor-p del estadístico de prueba
[6]: Valor_p <- 2*(1-pnorm(abs(t_stat)))
Valor_p

0
4. Comparamos el Valor-p y el nivel de significancia de la prueba de hipótesis α
[7]: if (Valor_p <= nivel_significancia) {
sprintf("Existe evidencia estadística para rechazar H0")
} else {
sprintf("Existe evidencia estadística para no rechazar H0")
}

’Existe evidencia estadística para rechazar H0’

Alternativa 2: Podemos pasar al paso 2, dado que el nivel de significancia de la prueba ya fue
elegido en la Alternativa 1…
2. Determinamos el valor crítico tα/2 = t0.025

2
[8]: t_crit <- qnorm(nivel_significancia/2)
t_crit

-1.95996398454005
El cálculo del estadístico de prueba se realizo en el paso 2 de la Alternativa 2, así que podemos
ir al paso 4…
4. Comparamos los valores absolutos del estadístico de prueba t y del valor crítico t0.025 :
[9]: if (abs(t_stat) > abs(t_crit)) {
sprintf("Existe evidencia estadística para rechazar H0")
} else {
sprintf("Existe evidencia estadística para no rechazar H0")
}

’Existe evidencia estadística para rechazar H0’


5. O calculamos el intervalo de confianza (1 − α)% de µW :

[10]: IC_mu_W <- c(Wbar_muestra - abs(t_crit)*SE_W, Wbar_muestra + abs(t_crit)*SE_W)


IC_mu_W

if (mu_W0 < IC_mu_W[1]) {


sprintf("%d no hace parte del intervalo de confianza de mu_W. Existe␣
,→evidencia estadística para rechazar H0", mu_W0)

} else if (mu_W0 > IC_mu_W[2]) {


sprintf("%d no hace parte del intervalo de confianza de mu_W. Existe␣
,→evidencia estadística para rechazar H0", mu_W0)

} else {
sprintf("%d hace parte del intervalo de confianza de mu_W. Existe evidencia␣
,→estadística para no rechazar H0", mu_W0)

1. 932.026865436116 2. 983.864043654793
’595 no hace parte del intervalo de confianza de mu_W. Existe evidencia estadística para rechazar
H0’

Una forma más corta Una vez entendida la forma de realizar la prueba de hipótesis de dos
colas. Es posible utilizar una función de R que nos provee toda la información necesaria para
realizarla:
[11]: t.test(wage2$wage, mu = mu_W0)

One Sample t-test

data: wage2$wage
t = 27.446, df = 934, p-value < 2.2e-16

3
alternative hypothesis: true mean is not equal to 595
95 percent confidence interval:
931.9932 983.8977
sample estimates:
mean of x
957.9455

0.0.2 Prueba de hipótesis sobre la diferencia de medias


Otro tipo de hipótesis interesante son aquellas que se refieren a la comparación de el valor medio de
dos grupos poblacionales. Volvamos al ejemplo del salario mensual. En este caso podriamos plantar
la siguiente hipótesis: “El salario promedio mensual de las mujeres es igual al de los hombres”. El
test (o prueba) de hipótesis se basaría en:

H0 : µmujeres
W − µhombres
W =0
H1 : µmujeres
W − µhombres
W ̸= 0

A partir de los datos, nuestra prueba de hipótesis se tendría que basar en el mejor estimador lineal
insesgado de la diferencia de medias poblacionales, que por supuesto es la diferencia de promedios
muestrales

1 ∑ 1 ∑
W̄ mujeres − W̄ hombres = Wi − Wi
Nmujeres Nhombres
i∈mujeres i∈hombres

Pero cuál es la distribución de la variable aleatoria W̄ mujeres


( − W̄
hombres ? Sabemos
) que por
2,mujeres
aparte (bajo el supuesto de muestra grande) W̄ mujeres ∼ N µmujeres
σW
W , Nmujeres y W̄ hombres ∼
( 2,hombres
)
σW
N µhombres
W , Nhombres . Como nuestra nueva variable aleatoria es una combinación lineal de vari-
ables aleatorias i.i.d. entonces:
• W̄ mujeres − W̄ hombres también tiene una distribución normal
• µW̄ mujeres −W̄ hombres = µmujeres
W − µhombres
W
2,mujeres 2,hombres
σW σW
• σ 2 mujeres = +
µW −µhombres
W
Nmujeres Nhombres

En conclusión:
( )
2,mujeres
σW σ 2,hombres
W̄ mujeres
− W̄ hombres
∼N µmujeres
W − µhombres
W , + W
Nmujeres Nhombres

La prueba de hipótesis sería entonces una prueba de “dos colas” basada en el estadístico de prueba:

4
mujeres hombres − 0
W̄muestra − W̄muestra
t= √ ∼ N (0, 1)
2,mujeres 2,hombres
σ̂W σ̂W
Nmujeres + Nhombres

y puede seguirse cualquiera de las alternativas que seguimos anteriormente. Para llevar a cabo un
ejemplo en R, vamos esta vez a utilizar la base de datos wage1 de la librería wooldridge:
[12]: head(wage1)

wage educ exper tenure nonwhite female married numdep smsa northcen ... trcommpu trad
3.10 11 2 0 0 1 0 2 1 0 ... 0 0
3.24 12 22 2 0 1 1 3 1 0 ... 0 0
3.00 11 2 0 0 0 0 2 0 0 ... 0 1
6.00 8 44 28 0 0 1 0 1 0 ... 0 0
5.30 12 7 2 0 0 1 1 0 0 ... 0 0
8.75 16 9 8 0 0 1 0 1 0 ... 0 0
En este caso, la medida de salario no es “salario mensual” sino salario por hora (en dólares de
1975), así que haremos una prueba de hipótesis sobre la diferencia de medias del salario por hora
de mujeres y hombres. Calculemos primero los promedios muestrales del salario por hora de mujeres
mujeres hombres :
y hombres W̄muestra y W̄muestra

[16]: # Primero calculamos el promedio muestral del salario por hora de las mujeres.
# Utilizamos como variable referencia la variable indicadora female la cual
# toma valor 1 si el individuo es mujer y 0 en caso contrario.

Wbar_m_mujeres <- mean(wage1[wage1$female == 1, 'wage'])


Wbar_m_mujeres

# Algo similar podemos hacer para calcular el promedio muestral del salario
# por hora de los hombres

Wbar_m_hombres <- mean(wage1[wage1$female == 0, 'wage'])


Wbar_m_hombres

4.58765874022529
7.09948906715769
Es la diferencia de aproximadamente US$2 por hora en contra de las mujeres explicada únicamente
por la incertidumbre muestral? Para poder utilizar la función de R para hacer el test de hipótesis
vamos a crear dos variables nuevas dentro de nuestra base de datos llamadas: wfemale y wmale:
[22]: # Vanos a utilizar la función ifelse para condicionar sobre nuestra variable
# referencia 'fermale':
wage1$wfemale <- ifelse(wage1$female == 1, wage1$wage, 0)
wage1$wmale <- ifelse(wage1$female == 0, wage1$wage, 0)
head(wage1)

5
wage educ exper tenure nonwhite female married numdep smsa northcen ... services profser
3.10 11 2 0 0 1 0 2 1 0 ... 0 0
3.24 12 22 2 0 1 1 3 1 0 ... 1 0
3.00 11 2 0 0 0 0 2 0 0 ... 0 0
6.00 8 44 28 0 0 1 0 1 0 ... 0 0
5.30 12 7 2 0 0 1 1 0 0 ... 0 0
8.75 16 9 8 0 0 1 0 1 0 ... 0 1
Ahora realizamos nuestra prueba de hipótesis, asumiendo un nivel de significancia α = 0.05:
[23]: t.test(wage1$wfemale - wage1$wmale, mu = 0)

One Sample t-test

data: wage1$wfemale - wage1$wmale


t = -5.0616, df = 525, p-value = 5.76e-07
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-2.0826191 -0.9180273
sample estimates:
mean of x
-1.500323

Como pueden ver V alor − p < α. Existe entonces evidencia estadística para rechazar la hipótesis
nula de igualdad del promedio del salario por hora entre hombres y mujeres.

También podría gustarte