Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase 9
Chan-Stein-Howlin-Casparian-Arceo
Contraste de Hipotesis
El se propone investigar si una propiedad, que se supone es valida en una
cierta poblacion, es compatible con lo observado en una muestra de
dicha poblacion.
Se trata de un procedimiento que permite decidir entre dos posibles
hipotesis antagonicas o simplemente excluyentes.
Parametros o Estadsticos
Parametro: es una constante que caracteriza a la distribucion, por
ejemplo la distribucion normal tiene dos parametros y .
Estadstico(a): son funciones de la muestra que se utilizan para
aproximar el valor de los parametros. Por ejemplo la media o la
varianza muestrales. SON VARIABLES ALEATORIAS!!
f Regi
on crtica o region de rechazo es el area del soporte de
distribucion muestral que corresponde a los valores del estadstico de
contraste que se encuentran muy alejados de la armacion
establecida.
f Siendo cierta H0 es muy poco probable que el estadstico de
contraste caiga en esta region.
f Regi
on de no rechazo es el area que tiene a los valores del
estadstico de contraste proximos a la armacion establecida en H0 .
f Es decir, tiene a los valores del estadstico de contraste que tienen
una probabilidad alta de ocurrir siendo H0 cierta.
f Los valores que dividen aceptaci
on de rechazo son los los valores
crticos.
June 25, 2020 8 / 46
Regla de Decicion
Una vez denidas estas dos zonas, la regla de decision consiste en:
Rechazar H0
Si el estadstico de contraste toma un valor perteneciente a la zona de
rechazo.
No rechazar H0
Si el estadstico de contraste toma un valor perteneciente a la zona de
no rechazo.
Zona Rechazo
el tama~no de la zona crtica, se Zona de No Rechazo
determina jando el valor de Debe contener los valores
signicacion . compatibles con H0 . Su area es
Habitualmente se usan 0:10, 1 .
0:05 o 0:01.
El Problema
Es que el procedimiento se basa en datos muestrales y, debido a la
variabilidad del muestreo, la muestra obtenida puede resultar no
representativa, y por ende, conducir a un error.
Error de tipo II
Se comete cuando se decide no rechazar la hipotesis nula H0 siendo en
realidad falsa. La probabilidad de cometer este error resulta
No se rechaza H0 Se rechaza H0
H0 es verdadera Decision correcta Error de tipo I (p = )
H0 es falsa Error de tipo II (p = ) Decision correcta
Potencia de la prueba ( )
es la probabilidad de decidir por H1 cuando esta es cierta, es decir:
Objetivo
Escoger entre todos los contrastes disponibles, con un valor de
establecido, aquel que tenga mayor potencia; es decir, menor
probabilidad de incurrir en el error de tipo II ( ).
A menor p-valor
mayor seguridad con la que rechazamos H0 . El p-valor resulta de esta
forma, una manera de cuanticar la seguridad del rechazo de H0 .
Modelo
X1 ; X2 ; :::; Xn es una m.a. tal que Xi N (; 2 ) y conocemos el valor de
2 Sabemos entonces que el estadstico de contraste tiene distribucion
normal standard
X
Zobs = p N (0; 1)
= n
: km=lts
13 5 . Se sabe que la distribuci
on de la cantidad de kil
ometros recorridos
Estadstico de Contraste
Zobs = p N (0; 1)
X
= n
13:5 13
Zobs = p = 1:19
1:26= 9 June 25, 2020 18 / 46
Ejemplo Nafta
La Region Crtica y la Regla de Decision
Rechazamos H0 cuando Zobs > 1:65 o bien x > 13:693
Decision y Conclusion
Zobs 1:65 no hay evidencia para rechazar H0 , no hay evidencia para
rechazar la armacion de la normativa.
June 25, 2020 19 / 46
Test para la Media de una Poblacion Normal con
Varianza Desconocida
Modelo
X1 ; X2 ; :::; Xn es una m.a. tal que Xi N (; 2 ) y desconocemos el valor
de 2 Sabemos entonces que el estadstico de contraste tiene
distribucion t de Student
X
Tobs = p
s= n
tn 1
Ejemplo Germinacion
Se han seleccionado 16 plantas de una determinada especie y se registro
su perodo de germinacion(que se supone normalmente distribuido), la
muestra arrojo un promedio de 4:32 das y con un desvo estandar de 0:4
das. Se desea probar si el periodo medio de germinacion es superior a 4
das con un nivel de signicacion de 0.01.
June 25, 2020 20 / 46
Ejemplo Germinacion
Los Datos
1
distribucion normal, n = 16
2
x = 4:32 dias
3
s = 0:4 d ı́as ; = 0:01
Estadstico de Contraste
X
Tobs = p tn 1
s= n
4:32 4
Tobs = p = 3:2
0:4= 16
June 25, 2020 21 / 46
La region crtica o de Rechazo
Decision y Conclusion
Tobs > t15;0:01 = 2:602 hay evidencia para rechazar H0 , el tiempo de
germinacion no es de a lo sumo 4 das.
El Modelo
X1 ; X2 ; :::; Xn es una m.a. tal que Xi Bi (1; p) yn > 30 entonces:
p̂ p
Zobs = r N (0; 1)
p (1 p )
n
Ejemplo: Elecciones
El candidato A desea saber si tiene chances de obtener la mayora de los
votos de cierto distrito. Para ello realiza un sondeo de opinion y entre los
650 consultados, 345 estan a su favor. Realice una prueba con un nivel
de signicacion del 10% para responder al candidato.
Estadstico de Contraste
p̂ p
Zobs = r N (0; 1)
p (1 p )
n
0:53 0:5
Zobs = p = 1:53
0:5 0:5=650
June 25, 2020 24 / 46
Ejemplo Elecciones
La region crtica o de Rechazo
Decision y Conclusion
Zobs = 1:53 < zcrit = 1:29 no hay evidencia para rechazar H0 al 10% de
signicacion el candidato no debera quedarse tranquilo!
Variedad A Variedad B
X = 18:3 horas Y = 17:2 horas
sX = 0:7 horas sY = 0:8 horas
June 25, 2020 31 / 46
Diferencia de Medias Poblaciones Normales Varianzas
Desconocidas
Objetivo
Interesa decidir si la calidad de la variedad B (variable Y ) es inferior a la
calidad de la variedad A (variable X ), utilizando para probar estas
hipotesis un nivel de signicacion de 0:01.
Si ambas muestras provienen de distribuciones normales con la misma
varianza, entonces el modelo es:
X1; X2; ; XnX donde Xi N (X ; 2),
Y1; Y2; ; YnY donde Yi N (Y ; 2), con 2 desconocida.
Las hipotesis de interes para este caso son
X Y 0;
(
H0 :
H1 : X Y > 0;
June 25, 2020 32 / 46
Diferencia de Medias Pob. Normales Varianzas
Desconocidas
Otra Forma de Plantear las hipotesis
X Y = 0;
(
H0 :
H1 : X Y > 0:
Es una prueba unilateral a derecha, se rechaza H0 cuando el estadstico
de contraste toma valores bajos. Sabemos que
2 2
N X ; n N Y ; n
X y Y
X Y
2
1
2nX +nY 2 :
Al ser Z U
y independientes, se tiene que
Z
q
U
tnX +nY 2 ;
nX +nY 2
donde la distribuci
on es la t de Student con nX + nY 2 grados June
de 25, 2020
libertad. 35
Un / 46
Ejemplo habichuelas
Como 4:008 > 2:467, se rechaza H0 con nivel de signicancia del 1%,
hay evidencia en contra de la hipotesis nula que sostiene que el valor
medio poblacional del tiempo que tarda la variedad A de habichuelas en
duplicar su tama~no es igual o menor que el tiempo medio poblacional que
tarda la variedad B.
Datos no normales
Si las muestras son sucientemente grandes, es posible aplicar la
distribucion Normal, basandonos en el Teorema del Lmite Central que
tiene un nivel aproximado o asintotico. Este es el caso mas usual para
data mining donde se dispone de mucha informacion y, en general, la
informacion no satisface el supuesto de normalidad.
Alternativa
Si se desea aplicar una prueba basada en el supuesto de normalidad y los
datos disponibles no la satisfacen, una alternativa viable es aplicar
transformaciones de Box & Cox o transformaciones de Jhonson para
normalizar los datos y que dichos test sean validos.
X Y = 0;
(
H0 :
H1 : X 6 0:
Y =
Para este ejemplo, X es la media del tiempo semanal dedicado a la
gimnasia por los hombres y Y la media del tiempo semanal dedicado a
la gimnasia por las mujeres.
El modelo consiste de dos muestras aleatorias independientes grandes (se
considera grande cuando cada una de ellas es mayor a 30) cuya
distribucion no puede suponerse Normal.
June 25, 2020 39 / 46
Diferencia de Medias Poblaciones Cualesquiera
Se tienen las siguientes muestras
X1 ; X2 ; ; XnX con E (Xi ) = X y V (Xi ) = X2 ,
para i = 1; ; nX (con nX > 30);
Y1 ; Y2 ; YnY con E (Yi ) = Y y V (Yi ) = Y2 , para
i = 1; ; nY (con nY > 30).
Se rechaza H0 para valores muy altos o para valores muy bajos del
estadstico de contraste (bilateral). Denotando z al percentil derecho
de la normal estandar; es decir, P (Z > z ) = , entonces la region de
rechazo del test para un nivel de signicacion del % es
124 110
Por lo tanto, la decision es no rechazar H0 . Vale decir que no
encontramos evidencia a favor de que los tiempos destinados
semanalmente a la actividad deportiva sean diferentes de acuerdo al
sexo. Concluimos que la media del tiempo semanal que dedican a
actividades fsicas los varones no es signicativamente diferente de
la media del tiempo que le dedican las mujeres.
June 25, 2020 42 / 46
Test para la varianza de una poblacion normal
Modelo
Sea X1 ; X2 ; :::; Xn una m.a. tal que Xi N (; 2 ) 8i . Queremos hacer
un test de hipotesis para la varianza. Sabemos que el estadstico de
contraste tiene distribucion chi cuadrado con (n 1) grados de libertad.
(n 1) S 2
2 2n 1
Los Datos
1
n = 16
2
s 2 = 2:532
3
= 0:05
Estadstico de Contraste
15 S 2
2obs = 2 215
15 2:532
2obs = 22 = 9:495