Está en la página 1de 46

Pruebas de Hipotesis

Clase 9
Chan-Stein-Howlin-Casparian-Arceo

June 25, 2020 1 / 46


Pruebas de Hipotesis, para que?

Independencia entre Variables


Para veri car el cumplimiento de este supuesto, para variables contenidas
en grandes bases de datos, necesitamos introducirnos en el concepto de
Prueba de Hipotesis

Contraste de Hipotesis
El se propone investigar si una propiedad, que se supone es valida en una
cierta poblacion, es compatible con lo observado en una muestra de
dicha poblacion.
Se trata de un procedimiento que permite decidir entre dos posibles
hipotesis antagonicas o simplemente excluyentes.

June 25, 2020 2 / 46


Las Hipotesis

Todo contraste de hipotesis estadsticas


Se basa en la formulacion de dos hipotesis mutuamente excluyentes:
 Hipotesis nula, ! H0
 Hipotesis alternativa, ! H1
>Que se debe asignar a H0 ? >Y a H1 ?

La hipotesis H0 es la que se contrasta!!


Puede resultar rechazada o no segun la evidencia emprica.
El nombre de nula se re ere a `sin valor, efecto o consecuencia', lo cual
sugiere que H0 debe identi carse con la hipotesis statu quo ; es decir, no
habra cambio, diferencia o mejora a partir de la situacion actual. La
Hipotesis alternativa H1 tambien suele llamarse hipotesis del investigador.

June 25, 2020 3 / 46


IMPORTANTE

La hipotesis de que dos poblaciones tienen la misma media


Puede ser rechazada facilmente cuando las mismas di eren notablemente
al analizar muestras su cientemente grandes de ambas poblaciones. Sin
embargo, no puede ser `demostrada' mediante muestreo!!

La logica del contraste se resume en:


| Se encuentra, o no, evidencia en contra de la hipotesis nula.
| En caso de no haberse encontrado evidencia, por el momento, no
hay motivos para dejar de sostenerla.
| Si se encuentra evidencia; ya tenemos motivos necesarios para
rechazarla.

June 25, 2020 4 / 46


Tipos de Hipotesis

Existen dos grandes grupos de hipotesis


 Hipotesis parametricas: referidas a los valores de uno o de varios
parametros.
 Hipotesis no parametricas o de libre distribucion: referidas a la
forma de la distribucion o la relacion entre variables.

Parametros o Estadsticos
 Parametro: es una constante que caracteriza a la distribucion, por
ejemplo la distribucion normal tiene dos parametros  y  .
 Estadstico(a): son funciones de la muestra que se utilizan para
aproximar el valor de los parametros. Por ejemplo la media o la
varianza muestrales. SON VARIABLES ALEATORIAS!!

June 25, 2020 5 / 46


En que se basa la decision?
En un estadstico de contraste, cuyo comportamiento (distribucion)
debemos conocer.
El estadstico de contraste debe proporcionar informacion
relevante sobre la a rmacion propuesta en H0 ,
Para de nir un criterio que permita decidir si se rechaza o no la
hipotesis nula H0 se divide el soporte del estadstico en dos regiones
mutuamente excluyentes, que se llaman region crtica o de rechazo y
region de aceptacion.

June 25, 2020 6 / 46


Region Crtica- Valores Crticos
De nicion

El o los valores crticos son valores del estadstico de contraste que


delimitan la region de rechazo.
La probabilidad de la region crtica o de rechazo se denomina nivel de
signi cacion o nivel de riesgo y se representa con la letra . De esta
manera, la probabilidad asignada a la region de no rechazo es 1 .

June 25, 2020 7 / 46


Region Crtica- Valores Crticos
Caracterizacion

f Regi
on crtica o region de rechazo es el area del soporte de
distribucion muestral que corresponde a los valores del estadstico de
contraste que se encuentran muy alejados de la a rmacion
establecida.
f Siendo cierta H0 es muy poco probable que el estadstico de
contraste caiga en esta region.
f Regi
on de no rechazo es el area que tiene a los valores del
estadstico de contraste proximos a la a rmacion establecida en H0 .
f Es decir, tiene a los valores del estadstico de contraste que tienen
una probabilidad alta de ocurrir siendo H0 cierta.
f Los valores que dividen aceptaci
on de rechazo son los los valores
crticos.
June 25, 2020 8 / 46
Regla de Decicion
Una vez de nidas estas dos zonas, la regla de decision consiste en:
Rechazar H0
Si el estadstico de contraste toma un valor perteneciente a la zona de
rechazo.
No rechazar H0
Si el estadstico de contraste toma un valor perteneciente a la zona de
no rechazo.

June 25, 2020 9 / 46


Nivel de Signi cacion

Zona Rechazo
el tama~no de la zona crtica, se Zona de No Rechazo
determina jando el valor de Debe contener los valores
signi cacion . compatibles con H0 . Su area es
Habitualmente se usan 0:10, 1 .
0:05 o 0:01.

June 25, 2020 10 / 46


El origen de todos los Problemas

El Problema
Es que el procedimiento se basa en datos muestrales y, debido a la
variabilidad del muestreo, la muestra obtenida puede resultar no
representativa, y por ende, conducir a un error.

June 25, 2020 11 / 46


Errores de la Prueba
De nicion

La toma de decision puede implicar dos tipos de error:


Error de tipo I (nivel de signi cacion)
Se comete cuando se rechaza la hipotesis nula H0 siendo en realidad
verdadera. La probabilidad de cometer este error resulta

P (Rechazar H0 =H0 es verdadera) =

Error de tipo II
Se comete cuando se decide no rechazar la hipotesis nula H0 siendo en
realidad falsa. La probabilidad de cometer este error resulta

P (No rechazar H0 =H0 es falsa) =

June 25, 2020 12 / 46


Errores de la Prueba
Esquema

No se rechaza H0 Se rechaza H0
H0 es verdadera Decision correcta Error de tipo I (p = )
H0 es falsa Error de tipo II (p = ) Decision correcta

A El nivel de signi caci


on es la maxima probabilidad de rechazar la
hipotesis nula H0 siendo esta es cierta. Es el maximo riesgo
admisible para rechazar H0 siendo ella cierta. Se establece previo a
hacer el contraste.
A La probabilidad de cometer un error de tipo II, que depende de los
siguientes factores: la hipotesis H1 , el valor de y el tama~no de la
muestra.
June 25, 2020 13 / 46
Potencia de la Prueba
Metas

Potencia de la prueba ( )
es la probabilidad de decidir por H1 cuando esta es cierta, es decir:

 = P (Rechazar H0 dado que H0 es falsa) = 1


e indica de alguna forma la capacidad de la prueba de detectar la
falsedad de H0 . La potencia aumenta cuando la realidad se aleja de la H0 .

Objetivo
Escoger entre todos los contrastes disponibles, con un valor de
establecido, aquel que tenga mayor potencia; es decir, menor
probabilidad de incurrir en el error de tipo II ( ).

June 25, 2020 14 / 46


p-valor
p-valor
es la probabilidad, de que siendo cierta H0 , se obtenga una muestra
como la obtenida o mas alejada aun que la hipotesis de nula en el sentido
de la alternativa.

A menor p-valor
mayor seguridad con la que rechazamos H0 . El p-valor resulta de esta
forma, una manera de cuanti car la seguridad del rechazo de H0 .

June 25, 2020 15 / 46


Test para la media de una poblacion normal con varianza
conocida

Modelo
X1 ; X2 ; :::; Xn es una m.a. tal que Xi  N (;  2 ) y conocemos el valor de
2 Sabemos entonces que el estadstico de contraste tiene distribucion
normal standard
X 
Zobs = p  N (0; 1)
= n

June 25, 2020 16 / 46


Ejemplo nafta
La norma de fabricaci
on establece que el modelo de autos A, tiene un

rendimiento promedio menor o igual a 13 kil


ometros por litro de nafta. Se

selecciona una muestra de 9 de estos veh


culos, y cada uno es conducido con un

litro de nafta en las mismas condiciones. La muestra proporciona una media de

: km=lts
13 5 . Se sabe que la distribuci
on de la cantidad de kil
ometros recorridos

por litro de nafta es normal con un desv


o est :
andar de 1 26 km=lts . Nos

interesa probar al 5% la veracidad de la norma.

June 25, 2020 17 / 46


Ejemplo nafta
Los datos
1
distribucion normal, n = 9
2
x = 13:5km
3
 = 1:26km
4
= 0:05
Las Hipotesis a testear
H0 :   13 versus H1 :  > 13

Estadstico de Contraste

Zobs = p  N (0; 1)
X
= n
13:5 13
Zobs = p = 1:19
1:26= 9 June 25, 2020 18 / 46
Ejemplo Nafta
La Region Crtica y la Regla de Decision
Rechazamos H0 cuando Zobs > 1:65 o bien x > 13:693

Decision y Conclusion
Zobs  1:65 no hay evidencia para rechazar H0 , no hay evidencia para
rechazar la a rmacion de la normativa.
June 25, 2020 19 / 46
Test para la Media de una Poblacion Normal con
Varianza Desconocida
Modelo
X1 ; X2 ; :::; Xn es una m.a. tal que Xi  N (;  2 ) y desconocemos el valor
de  2 Sabemos entonces que el estadstico de contraste tiene
distribucion t de Student
X 
Tobs = p
s= n
 tn 1

Ejemplo Germinacion
Se han seleccionado 16 plantas de una determinada especie y se registro
su perodo de germinacion(que se supone normalmente distribuido), la
muestra arrojo un promedio de 4:32 das y con un desvo estandar de 0:4
das. Se desea probar si el periodo medio de germinacion es superior a 4
das con un nivel de signi cacion de 0.01.
June 25, 2020 20 / 46
Ejemplo Germinacion
Los Datos
1
distribucion normal, n = 16
2
x = 4:32 dias
3
s = 0:4 d ı́as ; = 0:01

Las Hipotesis a testear


H0 :   4 versus H1 :  > 4

Estadstico de Contraste
X 
Tobs = p  tn 1
s= n
4:32 4
Tobs = p = 3:2
0:4= 16
June 25, 2020 21 / 46
La region crtica o de Rechazo

Decision y Conclusion
Tobs > t15;0:01 = 2:602 hay evidencia para rechazar H0 , el tiempo de
germinacion no es de a lo sumo 4 das.

June 25, 2020 22 / 46


Test de Hipotesis para el parametro p de la Binomial

El Modelo
X1 ; X2 ; :::; Xn es una m.a. tal que Xi  Bi (1; p) yn > 30 entonces:
p̂ p
Zobs = r  N (0; 1)
p (1 p )
n

Ejemplo: Elecciones
El candidato A desea saber si tiene chances de obtener la mayora de los
votos de cierto distrito. Para ello realiza un sondeo de opinion y entre los
650 consultados, 345 estan a su favor. Realice una prueba con un nivel
de signi cacion del 10% para responder al candidato.

June 25, 2020 23 / 46


Ejemplo Elecciones
Los Datos
1
n = 650; X = 345
2
p̂ = 345=650 = 0:53
3
= 0:1
Las Hipotesis a testear
H0 : p  0:5 versus H1 : p > 0:5

Estadstico de Contraste
p̂ p
Zobs = r  N (0; 1)
p (1 p )
n
0:53 0:5
Zobs = p = 1:53
0:5  0:5=650
June 25, 2020 24 / 46
Ejemplo Elecciones
La region crtica o de Rechazo

Decision y Conclusion
Zobs = 1:53 < zcrit = 1:29 no hay evidencia para rechazar H0 al 10% de
signi cacion el candidato no debera quedarse tranquilo!

June 25, 2020 25 / 46


Diferencia de Medias de Poblaciones Normales con
Varianzas Conocidas
Se quiere testear si di eren las medias de PH de los suelos de las
regiones A y B. Se sabe que el PH se distribuye de manera Normal en
ambas regiones y que el desvo en la region A es 0:85 y que en la region
B es 1:22. Se toma una muestra de 20 elementos en cada region
obteniendose los siguientes resultados:
Datos Muestrales
Region A Region B
Media 6.58 5.74
Tabla: Observaciones del experimento del pH

June 25, 2020 26 / 46


Diferencia de Medias de Poblaciones Normales con
Varianzas Conocidas
Las hipotesis para testear en nuestro ejemplo seran entonces:
X Y = 0;
(
H0 :
H1 : X 6 0:
Y =
Modelo
 X1; X2;    ; XnX donde Xi  N (X ; X2 ) (region A),
 Y1; Y2;    ; YnY donde Yi  N (Y ; Y2 ) (region B).
El parametro de interes es: X Y .
Un estimador puntual insesgado para este parametro es X Y . Como
ambas poblaciones son normales con varianzas conocidas, se sabe que
X2 Y2
 N X ; n  N Y ; n
   
X y Y
X Y
June 25, 2020 27 / 46
Diferencia de medias de poblaciones normales varianzas
conocidas
Como estas variables son independientes.
X2 Y2
 N X Y ; n
 
X Y +
nY
:
X
Estandarizando el pivote
X Y (X Y )
Z= q
X Y
2 2
 N (0; 1):
nX + nY

Como es una hipotesis alternativa bilateral, valores muy grandes o muy


peque~nos del estadstico de contraste conduciran a rechazar la hipotesis
de nulidad. Con un nivel de signi cacion = 0:05; la region de rechazo
sera:
RC = fzobs =zobs  1:96 o zobs  1:96g:
June 25, 2020 28 / 46
Calculamos el valor del estadstico de Contraste
6:58 5:74 0
zobs = q = 2:61:
0:85
20 + 1:22
20
Como 2:61 > 1:96, zobs 2 RC y entonces la decision es rechazar H0 . La
conclusion es que existe evidencia emprica en contra de H0 las medias
poblacionales de los pH de los suelos de las dos regiones son iguales.

June 25, 2020 29 / 46


Cuanti camos la fuerza del rechazo p- valor
Es la probabilidad de encontrar un valor tan extremo o mas que el
hallado en esta muestra siendo cierta H0 . En este ejemplo es:

p -valor = P (jZ j > 2:61) = 2P (Z > 2:61) = 2  0:0045 = 0:009:


Un p-valor muy peque~no, indica que existe bastante seguridad en la
decision, ya que es muy poco probable que, siendo cierta H0 , nos
encontremos con una diferencia de medias como esta.

June 25, 2020 30 / 46


Diferencia de Medias Poblaciones Normales Varianzas
Desconocidas
Ejemplo Habichuelas
El tiempo que le toma a la habichuela en duplicar su peso es una medida
de su calidad para enlatar. Un experimento con 15 repeticiones
independientes de cada una de dos variedades produjo los resultados que
se muestran en la Tabla.

Variedad A Variedad B
X = 18:3 horas Y = 17:2 horas
sX = 0:7 horas sY = 0:8 horas
June 25, 2020 31 / 46
Diferencia de Medias Poblaciones Normales Varianzas
Desconocidas
Objetivo
Interesa decidir si la calidad de la variedad B (variable Y ) es inferior a la
calidad de la variedad A (variable X ), utilizando para probar estas
hipotesis un nivel de signi cacion de 0:01.
Si ambas muestras provienen de distribuciones normales con la misma
varianza, entonces el modelo es:
X1; X2;    ; XnX donde Xi  N (X ; 2),
Y1; Y2;    ; YnY donde Yi  N (Y ; 2), con 2 desconocida.
Las hipotesis de interes para este caso son
X Y  0;
(
H0 :
H1 : X Y > 0;
June 25, 2020 32 / 46
Diferencia de Medias Pob. Normales Varianzas
Desconocidas
Otra Forma de Plantear las hipotesis
X Y = 0;
(
H0 :
H1 : X Y > 0:
Es una prueba unilateral a derecha, se rechaza H0 cuando el estadstico
de contraste toma valores bajos. Sabemos que
2 2
 N X ; n  N Y ; n
   
X y Y
X Y

y que estas variables son independientes. Luego,


2 2 1 1
 N X Y ; n
     
X Y +
nY
=N X Y ; nX
+
nY
 2
:
X
June 25, 2020 33 / 46
Variable Pivotal
Estandarizando el estimador puntual propuesto
Obtenemos la expresion de la variable pivotal
X Y (X Y )
Z=  N (0; 1):
 n1X + n1Y
q

Estimacion Conjunta de la Varianza


Como la varianza es comun a las dos poblaciones, se construye un
estimador insesgado de la varianza comun, basado en ambas muestras.
Este estimador se conoce como varianza amalgamada o pooleada y su
formula es
(nX 1)SX2 + (nY 1)SY2
Sp2 =
nX + nY 2
:

June 25, 2020 34 / 46


La suma de variables aleatorias independientes con
distribucion 2

Las siguientes variables son independientes y tienen distribucion


Chi-cuadrado
(nX 1)SX2 (nY 1)SY2

2  2
nX 1 y 2  2nY 1: 
La suma de variables aleatorias Chi-cuadrado independientes es otra variable

aleatoria Chi-cuadrado cuyos grados de libertad son la suma de los grados de

libertad de las variables sumadas. Entonces

(nX )S12 + (nY )S22


U=
1

2
1
 2nX +nY 2 :
Al ser Z U
y independientes, se tiene que

Z
q
U
 tnX +nY 2 ;
nX +nY 2

donde la distribuci
on es la t de Student con nX + nY 2 grados June
de 25, 2020
libertad. 35
Un / 46
Ejemplo habichuelas

El valor observado del estadstico de contraste es


18:3 17:2
tobs = q = 4:008:
140:82 +140:72 1 1

28 15 + 15

Como 4:008 > 2:467, se rechaza H0 con nivel de signi cancia del 1%,
hay evidencia en contra de la hipotesis nula que sostiene que el valor
medio poblacional del tiempo que tarda la variedad A de habichuelas en
duplicar su tama~no es igual o menor que el tiempo medio poblacional que
tarda la variedad B.

June 25, 2020 36 / 46


Muestras independientes de poblaciones cualesquiera

Datos no normales
Si las muestras son su cientemente grandes, es posible aplicar la
distribucion Normal, basandonos en el Teorema del Lmite Central que
tiene un nivel aproximado o asintotico. Este es el caso mas usual para
data mining donde se dispone de mucha informacion y, en general, la
informacion no satisface el supuesto de normalidad.

Alternativa
Si se desea aplicar una prueba basada en el supuesto de normalidad y los
datos disponibles no la satisfacen, una alternativa viable es aplicar
transformaciones de Box & Cox o transformaciones de Jhonson para
normalizar los datos y que dichos test sean validos.

June 25, 2020 37 / 46


Diferencia de medias de poblaciones cualesquiera
Datos
Se consideran dos muestras aleatorias, una de varones y otra de mujeres,
estudiantes cuyas edades oscilan entre los 20 y 30 a~nos, que realizan
actividad fsica y a los cuales se les pregunto sobre la cantidad promedio
de horas semanales dedicadas a este tipo de actividades.

Varones (X) Mujeres (Y)


Numero de observaciones 124 110
Media muestral 6.6 5.4
Desvo estandar muestral 4.3 3.6
June 25, 2020 38 / 46
Diferencia de Medias Poblaciones Cualesquiera

Ambos sexos dedican semanalmente igual cantidad de horas al deporte?


Queremos contrastar las hipotesis con un nivel de signi cacion del 1%.
En este experimento, las hipotesis de interes son:

X Y = 0;
(
H0 :
H1 : X 6 0:
Y =
Para este ejemplo, X es la media del tiempo semanal dedicado a la
gimnasia por los hombres y Y la media del tiempo semanal dedicado a
la gimnasia por las mujeres.
El modelo consiste de dos muestras aleatorias independientes grandes (se
considera grande cuando cada una de ellas es mayor a 30) cuya
distribucion no puede suponerse Normal.
June 25, 2020 39 / 46
Diferencia de Medias Poblaciones Cualesquiera
Se tienen las siguientes muestras
X1 ; X2 ;    ; XnX con E (Xi ) = X y V (Xi ) = X2 ,
para i = 1;    ; nX (con nX > 30);
Y1 ; Y2 ;    YnY con E (Yi ) = Y y V (Yi ) = Y2 , para
i = 1;    ; nY (con nY > 30).

Aplicando el Teorema Central del Lmite, tenemos que la distribucion


aproximada o asintotica para los promedios muestrales es
X̄ X Ȳ Y
pX  N (0; 1) y pY  N (0; 1):
nX nY
Al desconocer los valores que toman las varianzas poblacionales,
 
podemos utilizar la propiedad que asegura que X y Y convergen a 1
SX SY
conforme el tama~no muestral tiende a in nito.
June 25, 2020 40 / 46
Diferencia de Medias Poblaciones Cualesquiera
De lo que se deduce
X̄ X Ȳ Y
pSnXX
 N (0; 1) y
pSnYY
 N (0; 1):
y luego,
X̄ Ȳ (X Y )
Z= q
SX2
SY 2
 N (0; 1):
nX + nY

Se rechaza H0 para valores muy altos o para valores muy bajos del
estadstico de contraste (bilateral). Denotando z al percentil derecho
de la normal estandar; es decir, P (Z > z ) = , entonces la region de
rechazo del test para un nivel de signi cacion del % es

RC = fzobs =zobs > z o zobs <


2
z g:
2

June 25, 2020 41 / 46


Ejemplo Practica Deportiva por Sexo
Decision y Conclusion
Re riendonos al ejemplo, si tomamos = 0:01 rechazaremos H0 cuando
los valores del estadstico de contraste resulten superiores a 2:58 o
inferiores a 2:58. El valor del estadstico del test observado para estos
datos es
6:6 5:4 0
zobs = q = 2:32:
4:3
+ 3:6
2 2

124 110
Por lo tanto, la decision es no rechazar H0 . Vale decir que no
encontramos evidencia a favor de que los tiempos destinados
semanalmente a la actividad deportiva sean diferentes de acuerdo al
sexo. Concluimos que la media del tiempo semanal que dedican a
actividades fsicas los varones no es signi cativamente diferente de
la media del tiempo que le dedican las mujeres.
June 25, 2020 42 / 46
Test para la varianza de una poblacion normal

Modelo
Sea X1 ; X2 ; :::; Xn una m.a. tal que Xi  N (;  2 ) 8i . Queremos hacer
un test de hipotesis para la varianza. Sabemos que el estadstico de
contraste tiene distribucion chi cuadrado con (n 1) grados de libertad.
(n 1)  S 2
2  2n 1

June 25, 2020 43 / 46


Test para varianza de una poblacion normal
Ejemplo Toxicidad
Los resultados de una prueba de toxicidad realizada en 16 muestras de
agua del ro de La Plata son los siguientes:
26.7 25.8 24.0 24.9 26.4 25.9 24.4 21.7
24.1 25.9 27.3 24.8 23.6 26.9 27.3 23.5
Se sabe que el grado de toxicidad en 1 litro de agua tiene distribucion
normal. Se quiere testear con un nivel de signi cancia del 5% si el desvo
es menor a 2 que es lo que se obtuvo en el ro Parana.

Las Hipotesis a testear


  2;
(
H0 :
H1 :  < 2:
June 25, 2020 44 / 46
Ejemplo de test para varianza de una poblacion normal

Los Datos
1
n = 16
2
s 2 = 2:532
3
= 0:05
Estadstico de Contraste
15  S 2
2obs = 2  215
15  2:532
2obs = 22 = 9:495

June 25, 2020 45 / 46


Resultado ejemplo test varianza

La zona de rechazo en este ejemplo es:


RC = f2obs =2obs < 7:26g:
Se tiene que 9:495 > 7:26 por lo que se concluye que no se rechaza la
hipotesis nula, es decir que no hay evidencia emprica a favor de que el
desvo de la toxicidad del ro de La Plata sea menor que la del ro Parana.

June 25, 2020 46 / 46

También podría gustarte