Está en la página 1de 71

EAA1520 - Inferencia Estadı́stica

M. Ignacia Vicuña - Felipe Ossa - Ricardo Olea

2do Semestre 2023

Capı́tulo 4

: , 1
Contenidos
c

1. Test de Hipótesis
Introducción
Definiciones
Error Tipo I y Tipo II
Potencia del Test
2. Construcción de Test de hipótesis
Test de Hipótesis para µ población Normal
Test de Hipótesis para µ población cualquiera
Test de Hipótesis asintóticos para θ
Test de Hipótesis para µX − µY de poblaciones Normales
valor-p
3. Test de Bondad de Ajuste
Introducción
Test χ2 de Pearson

: , 2
Test de Hipótesis

Test de Hipótesis
Introducción

Las pruebas de hipótesis son métodos estadı́sticos para la toma de deci-


siones sobre una población que se fundamenta en suposiciones o conje-
turas sobre los parámetros de la población, y que por medio de pruebas
estadı́sticas se verifica su validez o invalidez.

: , 3
Test de Hipótesis

Test de Hipótesis
Introducción

Hay que tener presente, que en las pruebas de hipótesis en primer lugar se
establecen las hipótesis o conjeturas acerca de los parámetros, y luego se
selecciona una m.a y a partir de ella ver si se verifican o no las hipótesis
establecidas previamente.

Las hipótesis se levantan desde la “Ciencia básica” NO de la m.a

: , 4
Test de Hipótesis

Test de Hipótesis
Definiciones

I Se llama Hipótesis Estadı́stica (H) a toda afirmación o conjetura es-


tablecida respecto del parámetro θ de una población f (y , θ)
I La Hipótesis Alternativa (H1 ): es propuesta por el investigador y por
lo tanto es su hipótesis de trabajo. Es su creencia apriori, y tratará
de buscar evidencias muestrales que sean suficientes para apoyar esta
hipótesis
I La Hipótesis Nula (H0 ): Se asume vigente, el investigador tratará de
buscar evidencia muestral suficiente para rechazarla, con el objetivo
que H1 la reemplace

: , 5
Test de Hipótesis

Test de Hipótesis
Definiciones

I Las hipótesis pueden ser puntual o compuesta


I Hipótesis Puntual: Consiera una única situación posible, por ejemplo
θ = θ0
I Hipótesis Compuesta: Permite más de una situación posible, θ 6=
θ0 , θ > θ0 , θ ≥ θ0 , θ < θ0 , θ ≤ θ0

: , 6
Test de Hipótesis

Test de Hipótesis
Definiciones

Hipótesis usuales:
I Caso Bilateral: H0 : θ = θ0 v.s H1 : θ 6= θ0

I Caso Unilateral: H0 : θ ≤ θ0 v.s H1 : θ > θ0


(Equivalente,H0 : θ = θ0 v.s H1 : θ > θ0 )
I Caso Unilateral: H0 : θ ≥ θ0 v.s H1 : θ < θ0
(Equivalente,H0 : θ = θ0 v.s H1 : θ < θ0 )

Las hipótesis particionan el Espacio Paramétrico


H0 : θ ∈ Θ0 v.s H1 : θ ∈ Θ1 , Θ = Θ0 ∪ Θ1 = Espacio Paramétrico

: , 7
Test de Hipótesis

Test de Hipótesis
Definiciones

Una vez planteadas las hipótesis estadı́sticas, el objetivo será encontrar una
Región Crı́tica que corresponde a la región donde se rechazará H0 . Luego
a partir de una muestra aleatoria se tomará una decisión del test.

: , 8
Test de Hipótesis

Test de Hipótesis
Tipos de Errores

Por las caracterı́sticas de las dócimas de hipótesis sólo será posible cometer
dos tipos de errores:

Un Error de Tipo I consiste en rechazar la hipótesis nula H0 cuando es


verdadera.
Un Error de Tipo II consiste en no rechazar H0 cuando H0 es falsa.
XX
XXX Población
XXX H0 Verdadero H0 Falso
Muestra XX
Rechazar H0 Error I Acierto
No rechazar H0 Acierto Error II

: , 9
Test de Hipótesis

Test de Hipótesis
Ejemplo

H0 : El tratamiento no es efectivo
H1 : El tratamiento es efectivo

I Error Tipo I = El tratamiento es efectivo (rechazar H0 ) cuando no en


realidad no lo es (H0 es verdadera)
I Error Tipo II = El tratamiento no es efectivo (aceptar H0 ) cuando en
realidad si lo es (H0 es falsa).

Obsérvese que una persona “conservadora” es aquella que, en este caso,


le parece más grave cometer un Error Tipo I que un Error Tipo II.

: , 10
Test de Hipótesis

Test de Hipótesis
Probabilidad Errores

Quisiéramos desarrollar procedimientos de prueba en los cuales no exista


ningún tipo de error. Sin embargo, este ideal sólo puede alcanzarse si
la decisión se basa en toda la población. Por lo tanto, debemos buscar
procedimientos que minimicen la probabilidad de cometer algún tipo de
error.
Denote por:

α(θ) = P(Error tipo I) = P(RechazarH0 |H0 )


β(θ) = P(Error tipo II) = P(No rechazarH0 |H1 )

: , 11
Test de Hipótesis

Test de Hipótesis
Probabilidad Errores

Note que
I α(θ) y β(θ) son funciones del parámetro θ

I α(θ) está definida solo para valores en Θ0

I β(θ) está definida solo para valores en Θ1

: , 12
Test de Hipótesis

Test de Hipótesis
Ejemplo

Se sabe que cierto tipo de automóvil el 25% no presenta daños visibles en


pruebas de choques. Se ha propuesto un diseño modificado de parachoques
con el fin de aumentar este porcentaje. Sea π la proporción de choques
que resultan sin daños visibles con este nuevo tipo de parachoques. Las
hipótesis a testear son H0 : π = 0.25 (no hay mejorı́a) contra H1 : π >
0.25. Considere una ma de 20 choques independientes con el nuevo tipo
de parachoques.

: , 13
Test de Hipótesis

Test de Hipótesis
Ejemplo

Definamos el Estadı́stico X como el número de choques sin daño visible


de un total de 20 choques.
Resulta razonable rechazar H0 para valores grandes de X , digamos X > c.
Consideremos c = 7, luego a partir de una muestra, el test rechaza H0 si
x se encuentra en R = {8, 9, 10, ..., 20}.
Note que si H0 es verdadera, entonces X tiene distribución Bin(20,0.25).
Por lo tanto,

α = P(Error Tipo I) = P(Rechazar H0 |H0 )


= P(X > 7|π = 0.25) = 1 − P(X ≤ 7|π = 0.25) = 0.1018
β = P(Error Tipo II) = P(No rechazarH0 |H1 )
= P(X ≤ 7|π > 0.25)

: , 14
Test de Hipótesis

Test de Hipótesis
Ejemplo

Note que hay un β diferente para cada π > 0.25. Por ejemplo, si π = 0, 3,

β(0.3) = P(Error tipo II) = P(No rechazar H0 |H1 )


= P(X ≤ 7|π = 0.3) = 0.772

La siguiente tabla muestra el valor de β para diferentes valores de π.


π 0.3 0.4 0.5 0.6 0.7 0.8
β(π) 0.772 0.416 0.132 0.021 0.001 0.000

: , 15
Test de Hipótesis

Test de Hipótesis
Ejemplo

Consideremos ahora c = 8, entonces el test rechaza H0 si X > 8. En este


caso, se tiene que,

α = 0.04
β(0.3) = 0.887
β(0.5) = 0.252

Compare los resultados obtenidos

: , 16
Test de Hipótesis

Test de Hipótesis
Ejemplo

A partir del ejemplo anterior, podemos ver que las probabilidades de los
tipos de errores son inversamente proporcionales. Es decir, al hacer más
pequeña la región de rechazo, por ende, reducir α, se tiene como conse-
cuencia el aumento del β.

Surge la pregunta, ¿Como escogemos c?

: , 17
Test de Hipótesis

Test de Hipótesis
Nivel de Significancia

Para obtener una región de rechazo del test (Región Crı́tica), se debe pre-
viamente especificar el máximo valor de α(θ) tolerable, es decir la máxima
probabilidad tolerable para el Error de Tipo I. Este valor se conoce como
el nivel de significancia o riesgo del test.
Se denotará por α y se calcula como

α = max α(θ)
θ∈Θ0

: , 18
Test de Hipótesis

Test de Hipótesis
Nivel de Significancia

I Luego fijando α se encuentra la región de rechazo del Test.


I Fijando un nivel de significancia pequeño se está exigiendo que
“Para rechazar H0 debe existir una evidencia muestral suficientemente
alta como para que ello ocurra”
I Los niveles tradicionales de significancia son: 0.05,0.01, 0.1

: , 19
Test de Hipótesis

Test de Hipótesis
Ejemplo

Volviendo al Ejemplo, fijemos el nivel de significancia del test por α = 0.05


y a partir de él encontremos la Región de Rechazo de H0 .

P(X > c|π = 0.25) = 0.05


1 − P(X ≤ c|π = 0.25) = 0.05

Buscando en una Tabla Binomial(20,0.25), se obtiene que


P(X ≤ 7|π = 0.25) = 0.8982 y P(X ≤ 8|π = 0.25) = 0.9591 luego se
tiene que c = 8. Por lo tanto, el Test Rechaza H0 para valores X > 8 con
un nivel de significancia del test de α = 0.05.

: , 20
Test de Hipótesis

Test de Hipótesis
Potencia del Test

La Potencia del test se define por

π(θ) = P(Rechazar H0 |θ)

La idea de en test es maximizar esta potencia una vez que α es fijado. Ası́
para un α fijo uno debiera escoger la región de rechazo con mayor potencia
del test.

: , 21
Test de Hipótesis

Test de Hipótesis
Potencia del Test

En el Ejemplo,

π(π) = P( Rechazar H0 |θ ∈ H1 )
= P(X > 7|π > 0.25)
= 1 − P(X ≤ 7|π > 0.25)

: , 22
Test de Hipótesis

Test de Hipótesis
En el Ejemplo,

Función Potencia

1.0

0.8

0.6

0.4

0.2
α

0.0

0.0 0.2 π0 0.4 0.6 0.8 1.0

: , 23
Test de Hipótesis

Test de Hipótesis
En el Ejemplo,

Función β

1.0

1−α

0.8

0.6

0.4

0.2

0.0

0.0 0.2 π0 0.4 0.6 0.8 1.0

: , 24
Construcción de Test de hipótesis

Test de Hipótesis
Construcción de TH Usuales

A partir de funciones pivotes se pueden construir test de hipótesis, con-


siderando las mimas funciones pivotes usadas en la construcción de in-
tervalos de confianza y evaluarlas bajo la hipótesis nula, ya que de esta
manera conocemos la distribución bajo H0 y con ello se puede construir
una región de rechazo.

: , 25
Construcción de Test de hipótesis

Test de Hipótesis
Construcción de TH Usuales

El método de la Región Crı́tica o de Rechazo (RC) se basa en 5 pasos:

Paso 1: Determinación de las hipótesis


Paso 2: Fijación del nivel de significación α valor pequeño
Paso 3: Encontrar un estadı́stico del test cuya distribución bajo H0
sea conocida
Paso 4: Encontrar la región crı́tica del test
Paso 5: Regla de decisión estadı́stica del test

: , 26
Construcción de Test de hipótesis

Test de Hipótesis
Prueba de Hipótesis para µ, σ 2 conocido

SeaY1 , Y2 , ..., Yn una m.a. de una población Y ∼ N(µ, σ 2 ), con σ 2 cono-


cida

1. Hipótesis a testear: H0 : µ = µ0 , versus H1 : µ 6= µ0

2. Se fija el nivel de significación del test a α.


Ȳ −µ
3. Consideremos el Estadı́stico del Test σ/ n
√0 cuya distribución bajo H0
es N(0,1)

: , 27
Construcción de Test de hipótesis

Test de Hipótesis
Prueba de Hipótesis para µ, σ 2 conocido

4. Determinación Región Crı́tica:


Se rechaza H0 para valores pequeños y grande del estadı́stico, es decir,
Ȳ −µ
√ 0 > c o Ȳ −µ
√ 0 < −c equivalente a decir | Ȳ −µ
√0 | > c
σ/ n σ/ n σ/ n
donde c es el punto a determinar a partir de elegir α
 
Ȳ − µ0
P √ > c|H0 = µ0 = α
σ/ n

: , 28
Construcción de Test de hipótesis

Test de Hipótesis
Prueba de Hipótesis para µ, σ 2 conocido

Bajo H0 , Ȳσ/−µ
√ 0 tiene distribución N(0,1), luego
n

P(|Z | > c) = α
1 − P(−c ≤ Z ≤ c) = α
1 − (Φ(c) − Φ(−c)) = α
2 − 2Φ(c) = α
Φ(c) = 1 − α/2 ⇒ c = z1−α/2

donde z1−α/2 corresponde al cuantil 1 − α/2 de N(0,1)

: , 29
Construcción de Test de hipótesis

Test de Hipótesis
Prueba de Hipótesis para µ, σ 2 conocido

3. Por lo tanto, la región crı́tica del test está dada por

Ȳ − µ0
√ > z1−α/2
σ/ n

5. Regla de desición:
• Si Ȳσ/−µ
√0
n
> z1−α/2 entonces con un riesgo α SI existe evidencia
suficiente para rechazar H0
• Si Ȳσ/−µ
√0
n
≤ z1−α/2 entonces con un riesgo α NO existe evidencia
suficiente para rechazar H0

: , 30
Construcción de Test de hipótesis

Test de Hipótesis
Prueba de Hipótesis para µ, σ 2 conocido

Cuadro Resumen
Ȳ −µ
Estadı́stico de prueba: Z = σ/ n
√0

Hipótesis nula Hipótesis Alternativa Región de rechazo


H1 : µ > µ 0 z > z1−α
H0 : µ = µ0 H1 : µ < µ 0 z < −z1−α
z < −z1−α/2 o
H1 : µ 6= µ0
z > z1−α/2

: , 31
Construcción de Test de hipótesis

Test de Hipótesis
Prueba de hipótesis para µ, σ 2 desconocido

Cuadro Resumen
X̄ −µ
Estadı́stico de prueba: T = S/ n
√0

Hipótesis nula Hipótesis Alternativa Región de rechazo


H1 : µ > µ 0 t > t1−α,n−1
H0 : µ = µ0 H1 : µ < µ 0 t < −t1−α,n−1
t < −t1−α/2,n−1 o
H1 : µ 6= µ0
t > t1−α/2,n−1

: , 32
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas de hipótesis aproximadas

Pruebas de hipótesis aproximadas para µ


Sean Y1 , ...Yn ma con distribución F . Si n es grande, entonces

Ȳ − µ ·
Z= √ ∼ N(0, 1)
S/ n

Si se desea testear H0 : µ = µ0 versus H1 : µ > µ0 , el estadı́stico del test


está dado por
Ȳ − µ0
Z= √
S/ n
el cual tiene distribución aproximadamente normal estándar cuando H0 es
verdadera. Por lo tanto la región de rechazo es z > z1−α cuyo nivel de
significancia es aproximadamente α.

: , 33
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas de hipótesis aproximadas

Pruebas aproximadas para θ


Sean Y1 , ..., Yn provenientes de una distribución que depende
 del
1
parámetro θ. El EMV de θ distribuye asintóticamente N θ, In (θ) . Se
desea contrastar las hipótesis: H0 : θ = θ0 versus H1 : θ > θ0 .
Un estadı́stico de prueba es

θ̂ − θ0
Z=
σθ̂

: , 34
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas de hipótesis aproximadas

Ejemplo: Prueba de hipótesis para π


Sea X el número de individuos de la muestra que poseen cierta carac-
terı́stica. Si n es pequeño, entonces X tiene distribución aproximadamente
binomial. Si n es grande, entonces X tiene distribución aproximadamente
normal.

: , 35
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas de hipótesis aproximadas

Caso I: n grande
La prueba de hipótesis para π considera θ = π.
El estadı́stico de prueba corresponde a
p − π0
Z=p
π0 (1 − π0 )/n

el cual bajo H0 tiene una distribución aproximadamente normal estándar.


Región de Rechazo:

: , 36
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas de hipótesis aproximadas

Prueba Hipótesis para π con n grande


Cuadros Resumen
p−π0
Estadı́stico de prueba: Z = √
π0 (1−π0 )/n

Hipótesis nula Hipótesis Alternativa Región de rechazo


H1 : π > π 0 z > z1−α
H 0 : π = π0 H1 : π < π 0 z < −z1−α
z < −z1−α/2 o
H1 : π 6= π0
z > z1−α/2

: , 37
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas de hipótesis aproximadas

Caso II: n pequeño


X tiene distribución aproximadamente Binomial.
Consideremos la hipótesis alternativa: H1 : π > π0 y sea X el número de
éxitos de la muestra. Entonces X es el estadı́stico de prueba, y la región
de rechazo es de la forma X > c.
Determinemos c:

α = P(X > c|π = π0 )


= 1 − P(X ≤ c|π = π0 )
= 1 − Bin(c, n, π0 )

: , 38
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas de hipótesis aproximadas

Nota:
I Debido que X es discreta, por lo general no es posible encontrar un
valor de c para el cual P(error tipo I) sea exactamente el nivel de
significancia deseado α.
I Solución: Elegir c de modo que 1-Bin(c, n, π0 ) ≤ α.

: , 39
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas para diferencia de medias

Sea X1 , ..., Xn una muestra aleatoria con distribución N(µX , σ 2 ). Sea


Y1 , ..., Ym una muestra aleatoria con distribución N(µY , σ 2 ) independiente
a la anterior. Consideremos las siguientes hipótesis, H0 : µX − µy = δ0
versus

H1 : µX − µy > δ0
H1 : µX − µy < δ0
H1 : µX − µy 6= δ0

: , 40
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas para diferencia de medias, σ 2 conocido

σ 2 conocida
El estadı́stico del test:
(X̄ − Ȳ ) − δ0
Z= q
σ n1 + m1

Cuya distribución bajo H0 es N(0,1).


Región de Rechazo:

: , 41
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas para diferencia de medias, σ 2 conocido

Cuadro Resumen
(X̄ −Ȳ )−δ0
Estadı́stico de prueba: Z = √1 1
σ n+m

Hipótesis nula Hipótesis Alternativa Región de rechazo


H1 : µX − µY > δ0 z > z1−α
H0 : µX − µY = δ0 H1 : µX − µY < δ0 z < −z1−α
H1 : µX − µY 6= δ0 |z| > z1−α/2

: , 42
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas para diferencia de medias, σ 2 desconocido

σ 2 desconocido
El estadı́stico del test:
(X̄ − Ȳ ) − δ0
T = q
Sp n1 + m1
(n−1)S 2 +(m−1)S 2
donde Sp2 = X
m+n−2
Y

Cuya distribución bajo H0 es t-student con ν = m + n − 2 grados de


libertad.
Región de Rechazo:

: , 43
Construcción de Test de hipótesis

Test de Hipótesis
Pruebas para diferencia de medias, σ 2 desconocido

Cuadro Resumen
(X̄ −Ȳ )−δ0
Estadı́stico de prueba: T = √1 1
Sp n+m

Hipótesis nula Hipótesis Alternativa Región de rechazo


H1 : µX − µY > δ0 t > t1−α,ν
H0 : µX − µY = δ0 H1 : µX − µY < δ0 t < −t1−α,ν
H1 : µX − µY 6= δ0 |t| > t1−α/2,ν

: , 44
Construcción de Test de hipótesis

Test de Hipótesis
Valor-p

I La decisión rechazo/aceptación no toma en cuenta el peso de la evi-


dencia en contra de H0 .
I El valor-p se usa como medida de la evidencia en contra de H0 .
I Los valores pequeños indican que es muy infrecuente obtener una
muestra como la actual, en cambio, los valores altos indica que es
frecuente.

: , 45
Construcción de Test de hipótesis

Test de Hipótesis
Valor-p

I El valor-p está definido como la probabilidad de obtener un resul-


tado al menos tan extremo como el que realmente se ha obtenido,
suponiendo que la hipótesis nula es cierta.
Suponga que las hipótesis a testear son:

H0 : µ = µ0 vs H1 : µ > µ0

La región de rechazo es de la forma {T > t} y sea t0 valor observado


del estadı́stico (posterior al experimento). Entonces:

valor-p = P(T > t0 |H0 )

: , 46
Construcción de Test de hipótesis

Test de Hipótesis
Valor-p

Interpretación
I Recuerde que valores grandes de |t0 | proveen evidencia creciente en
contra de H0 .
I A medida que |t0 | crece, el valor-p decrece.
I Luego, valores decrecientes del valor-p proveen evidencia creciente en
contra de H0 .

: , 47
Construcción de Test de hipótesis

Test de Hipótesis
Valor-p

Uso del valor-p


Generalmente el valor-p se usa como umbral para rechazar H0 . Es decir,

valor-p < α rechaza H0


valor-p ≥ α No rechaza H0

: , 48
Construcción de Test de hipótesis

Test de Hipótesis
Valor-p

Ejemplo
Sea µ el verdadero promedio de contenido de nicotina de una marca de
cigarrillos. Se quiere probar H0 : µ = 1.5 mg contra H1 : µ > 1.5 mg.
Una región de rechazo corresponde a z > z1−α . Suponga que z = 2.10.
La tabla siguiente representa la región de rechazo para α0 s diferentes, con
la conclusión resultante.
α Región de rechazo Conclusión
0.05 z > 1.645 Rechazar H0
0.025 z > 1.96 Rechazar H0
0.01 z > 2.33 No Rechazar H0
0.005 z > 2.58 No Rechazar H0

: , 49
Construcción de Test de hipótesis

Test de Hipótesis
Valor-p

Valor-p = P(Z > 2.10|H0 verdadera) = 1 − Φ(2.10) = 0.0179, con el cual


se puede sacar una conclusión directamente sin referencia a una tabla de
valores crı́ticos.

: , 50
Construcción de Test de hipótesis

Test de Hipótesis
Dualidad entre intervalo de confianza y test de hipótesis

Esta sección presenta un resultado de mucha utilidad práctica: Se puede


construir intervalos de confianza “invirtiendo” un test de hipótesis, y
viceversa.
Ejemplo 1
Sean X1 , ..., Xn m.a iid Normal(µ, σ 2 ), σ 2 conocida.
Considere las hipótesis:

H0 : µ = µ0
H1 : µ 6= µ0

: , 51
Construcción de Test de hipótesis

Test de Hipótesis
Dualidad entre intervalo de confianza y test de hipótesis

Un test que para un valor dado α, rechaza para |x̄ − µ0 | > x0 , donde x0
se determina de modo que P(|x̄ − µ0 | > x0 |H0 ) = α.
Aquı́,
σ
x0 = √ z1−α/2
n
El test no rechaza para:
σ σ
x̄ − √ z1−α/2 < µ0 < x̄ + √ z1−α/2
n n

: , 52
Construcción de Test de hipótesis

Test de Hipótesis
Dualidad entre intervalo de confianza y test de hipótesis

Recordemos que un IC (1 − α)100% para µ está dada por:


 
σ σ
x̄ − √ z1−α/2 , x̄ + √ z1−α/2
n n

Que coincide con la región de no rechazo del test.

Luego, a partir de un intervalo de confianza podemos tomar decisiones


sobre el test. Si el intervalo de confianza para µ contiene a µ0 , entonces
se acepta la hipótesis nula. En otras palabras, el intervalo de confianza
consiste precisamente en aquellos valores µ tal que la hipótesis nula µ = µ0
es aceptada.

: , 53
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Introducción

Hasta ahora, la inferencia estadı́stica se centró en la estimación de parámetros


de alguna distribución que se asumı́a conocida. Sin embargo, si la dis-
tribución de probabilidades no se conoce, debiésemos también estimarla.
En general, cualquier procedimiento que busca determinar si un set de
datos proviene de cierta distribución de probabilidad se llama Test de bon-
dad de ajuste.

: , 54
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Introducción

I Los test de bondad de ajuste tienen por objetivo determinar si los


datos observados (Oi ) en una muestra aleatoria se ajustan a los datos
esperados (Ei ) bajo cierto modelo de probabilidad.
I Para ello agrupa los datos en k grupos, y para cada uno de los grupos
calcula su valor esperado bajo el modelo supuesto.
I Si las frecuencias observadas en cada categorı́a difieren de los valores
esperados bajo un cierto modelo, tenderı́a a concluir que el modelo
supuesto para los datos es incorrecto.

: , 55
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

La versión más simple de un test de bondad de ajuste es aquel en que se


es capaz de especificar completamente el modelo de probabilidad, es decir,
se conocen los parámetros y no hay necesidad de estimarlos.
Suponga que se quiere determinar si un set de datos yi es generado por un
modelo exponencial de parámetro 6.3. Como es el caso de una distribución
continua, las hipótesis a testear se escriben como:

H0 : fY (y ) = f0 (y )
vs (1)
H1 : fY (y ) 6= f0 (y )

donde fY (y ) es el verdadero modelo y f0 (y ) es el modelo que se supone


para los datos.

: , 56
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

En el caso que el modelo fuera discreto, las hipótesis a testear son:

H0 : H0 : π1 = π01 , π2 = π02 , ..., πk = π0k


vs (2)
H1 : πi 6= π0i al menos un i

: , 57
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

Un procedimiento de prueba de bondad de ajuste muy utilizado es el prop-


uesto por Karl Pearson en 1990.

Test χ2 de Pearson
Sean r1 , r2 , ..., rk el conjunto de las k categorı́as, o rango de resultados en
que se ha agrupado la muestra aleatoria de las “n observaciones” , donde
P(ri ) = πi , i = 1, ..., k. Sea Oi el número de individuos en la muestra que
pertenece a ri . Entonces
2
I La variable aleatoria D = ki=1 (Oi −nπ i)
P
nπi distribuye asintóticamente
χ2 con k − 1 grados de libertad.
Para que la aproximación sea adecuada se requiere que se cumpla que
nπi ≥ 5 ∀i.

: , 58
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

I A un nivel se significancia α, las hipótesis a testear (1) o (2) se rechaza


H0 si
k
X (oi − nπ0i )2
d= > χ21−α,k−1
nπi0
i=1
Pk Pk
Note que i=1 oi = n y i=1 π0i = 1

: , 59
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

Ejemplo 1
Una empresa bancaria quiere ofrecerles a sus clientes un depósito a plazo.
Para ello, realiza una campaña de marketing basado en llamadas
telefónicas. Los datos son recolectados entre los años 2008 a 2013, y
consta de n = 20.000 clientes. El objetivo es poder predecir si el cliente
se suscribirá a un depósito a plazo a partir de diferentes variables (Edad,
trabajo, Estado Civil, Educación, duración de la última llamada, número
de llamadas realizadas antes de la campaña de marketing, entre otras)

: , 60
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

Consideremos el tiempo de duración de la última llamada (en minutos),


0.12
0.10
0.08
0.06
0.04
0.02
0.00

0 5 10 15 20 25 30
Tiempo duración de la última llamada (minutos)

Los datos muestran un comportamiento del tipo exponencial.

: , 61
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

Se sabe que el tiempo medio de la duración de la llamada en una campaña


de marketing es de 5.5 minutos.
0.12
0.10

exp(0.18)
0.08
0.06
0.04
0.02
0.00

0 5 10 15 20 25 30
Tiempo duración de la última llamada (minutos)

: , 62
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

Realice un Test de Bondad de Ajuste para testear a un nivel de significancia


α = 0.05 que los datos provienen de un modelo exponencial de parámetro
0.18.

: , 63
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

Los datos se agruparon en 6 categorı́as obteniéndose,


Categorı́a Oi πi0 Ei
0≤T <5 11915
5 ≤ T < 10 4856
10 ≤ T < 15 1970
15 ≤ T < 20 757
25 ≤ T < 25 303
25 ≤ T 199

R5
donde por ejemplo, π10 = 0
0.18 e −0.18t dt y E1 = n π10

: , 64
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

Ejemplo 2 (Tarea)
Como Ud. ha visto en clases, el software R es capaz de generar muestras
aleatorias provenientes de cualquier distribución usual ya sea discreta o
continua utlizando el comando r + nombre distribución. Por ejemplo
rnorm genera nuestras provenientes de una distribución normal. La Tabla
1 contiene una muestra de 40 observaciones, y se quiere testear con un
nivel de significancia α = 0.05 si la muestra proviene de un modelo
Beta(2,2): fY (y ) = 6y (1 − y ) 0 ≤ y ≤ 1.

: , 65
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

Datos muestrales

0.18 0.06 0.27 0.58 0.98 0.55 0.24 0.58 0.97 0.36
0.48 0.11 0.59 0.15 0.53 0.29 0.46 0.21 0.39 0.89
0.34 0.09 0.64 0.53 0.64 0.71 0.56 0.48 0.44 0.40
0.80 0.83 0.02 0.10 0.51 0.43 0.14 0.74 0.75 0.22

: , 66
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ conocido

Agrupe los catos a partir de las siguientes categorı́as


Categoria Oi πi0 Ei
0 ≤ y < 0.20
0.20 ≤ y < 0.40
0.40 ≤ y < 0.60
0.60 ≤ y < 0.80
0.80 ≤ y < 1.00

Cumple Ei = nπi0 ≥ 5 para todo i? Sino se cumple, colapse algunas


categorias.

: , 67
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ desconocido

El Estadı́stico de Pearson visto recientemente usa el hecho de que se cono-


cen los parámetros de la distribución, pero en la práctica esto casi nunca
ocurre. Es por esto, que debemos estimar los parámetros, cuya estimación
más preferible es por máxima verosimilitud. En este caso, el estadı́stico
apropiado para el test está dado por:
k
X (Oi − nπ̂0i )2
D=
nπ̂0i
i=1

donde π̂i0 son las probabilidades estimadas de cada categorı́a, entonces


D tiene distribución asintótica χ2k−1−s donde s es el número de parámetros
a estimar en el modelo.

: , 68
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ desconocido

Por lo tanto, se rechaza H0 si


k
X (oi − nπ̂0i )2
d= > χ21−α,k−1−s
nπ̂0i
i=1

: , 69
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ desconocido

Ejemplo 3
Volviendo al Ejemplo 1, si no se conoce el tiempo medio de cada llamada
debemos estimarlo. Como vimos en el capı́tulo de estimación, el EMV de
λ en un modelo exponencial es λ̂ = T̄1 , luego, se tiene que
λ̂ = 0.1823309. Luego,
Categorı́a Oi π̂i0 Ei
0≤T <5 11915
5 ≤ T < 10 4856
10 ≤ T < 15 1970
15 ≤ T < 20 757
25 ≤ T < 25 303
25 ≤ T 199

R5
En este caso se tiene que por ejemplo, π̂10 = 0
λ̂ e −λ̂t dt y E1 = n π̂10

: , 70
Test de Bondad de Ajuste

Test de Bondad de Ajuste


Test χ2 de Pearson, θ desconocido

Ejemplo 4 (Tarea)
La siguiente tabla contiene el número diario de avisos de defunción para
mujeres de más de ochenta años durante un perı́odo de tres años. Se
puede asumir que ocurren según un proceso Poisson?
Nº de muertes 0 1 2 3 4 5 6 7 8 9 +10
Frec observada 162 267 271 185 111 61 27 8 3 1 0

: , 71

También podría gustarte