10.elementos de Pruebas de Hipótesis

Notas de Clase elaboradas por L. M.
González
Elementos de pruebas de hipótesis

Definición 61 . Casella & Berger (2002)[p.373] Una hipótesis es una aseveración
o conjetura acerca de un parámetro poblacional.
Definición 62. Casella & Berger (2002)[p.373] Las dos hipótesis complementarias
de un problema de prueba de hipótesis son llamadas la hipótesis nula y la hipótesis
alterna. Se denotan por H0 y H1 (o Ha), respectivamente. Si θ denota un parámetro
poblacional sobre el cual se desea plantear una hipótesis, se tiene que H0 y H1 (o
Ha ) son dadas por
H0 : θ ∈ Θ0 versus H1 : θ ∈ Θc0
en que Θ0 un subconjunto del espacio de parámetros Θ.
Definición 63 . Casella & Berger (2002)[p.374] Un procedimiento de prueba de
hipótesis o una prueba de hipótesis es una regla que específica:
1. Para cuáles valores muestrales la desición es aceptar (no rechazar) H0 como
verdadera.
2. Para cuáles valores muestrales H0 es rechazada y H1 es aceptada (no rechazada)
como verdadera.
El subconjunto del espacio muestral para el cual H0 será rechazada se llama región
de rechazo o región crítica. El complemento de la región de rechazo se llama
región de aceptación (no rechazo).
Nota 67. Hay dos estructuras posibles para Θ0: Si Θ0 consiste de solo un punto, se
dice que la hipótesis nula es simple. Cuando Θ0 contiene más de un punto, se dice
que la hipótesis nula es compuesta. Ver Bickel & Doksum (2001)[p.215].
Test de razón de verosimilitud
Definición 64 . Casella & Berger (2002)[p.375] El estadístico llamado test de
razón de verosimilitud para probar
H0 : θ ∈ Θ0 versus H1 : θ ∈ Θc0
es dado por
sup L(θ; x)
Θ0
λ(x) = .
sup L(θ; x)
Θ
Un test de razón de verosimilitud (LRT) es cualquier test que tenga una región de
rechazo de la forma {x : λ(x) ≤ c}, en que c es cualquier número tal que 0 ≤ c ≤ 1.
1
Notas de Clase elaboradas por L. M. González
Sean dos estimadores vía máxima verosimilitud de θ, digamos θ̂(< ∞) y θ̂0(<

∞), en que θ̂ se obtiene sin ninguna restricción sobre el espacio de parámetros y
θ̂0 se obtiene haciendo una maximización restringida, asumiendo que el espacio de
parámetros es Θ0, esto es, θ̂0 es el valor de θ ∈ Θ0 que maximiza L(θ; x). Entonces
el estadístico LRT es
L(θ̂0 ; x)
λ(x) = .
L(θ̂; x)
Por tanto, para establecer el test de razón de verosimilitud es necesario encontrar
L(θ̂0 ; x) y L(θ̂; x).
Ejemplo 169. Casella & Berger (2002)[p.374] Sean X1 , X2 , X3 . . . , Xn variables

aleatorias independientes e idénticamente distribuidas tal que X1 ∼ N (θ, 1). Se con-
sideran las hipótesis
H0 : θ = θ0 versus H1 : θ 6= θ0
en que θ0 es una constante previamente establecida. Entonces Θ0 = {θ0 } y
n n
Y Y 1 −(xi −θ0 )2
sup L(θ; x) = L(θ0 ; x) = f (xi ; θ0 ) = √ e 2
Θ0 i=1 i=1
2π
( n
)
−n −1 X
= (2π) 2 exp (xi − θ0 )2
2
i=1
Por otro lado sup L(θ; x) se tiene cuando θ = x̄, ver ejemplo 80. Luego el LRT es
Θ
dado por

n
2 exp
−n
−1 P
sup L(θ; x) (2π)
2 (xi − θ0 )2
Θ0 i=1
λ(x) = =
n
2 exp
sup L(θ; x) −n
−1 P
Θ (2π)
2 (xi − x̄)2
i=1
( n n
!)
−1 X X
= exp (xi − θ0 )2 − (xi − x̄)2
2
i=1 i=1
( n n
!)
−1 X X
= exp x2i − 2θ0 nx̄ + θ0 2 n − x2i + 2nx̄2 − nx̄2
2
i=1 i=1

−n 2
= exp θ0 − 2θ0 x̄ + x̄2
2

−n 2
λ(x) = exp (x̄ − θ0 )
2
2
Por tanto, para 0 ≤ c ≤ 1, la región de rechazo de la forma

−n 2
{x : λ(x) ≤ c} = x : exp (x̄ − θ0 ) ≤ c
2

−n 2 2 −2
= x: (x̄ − θ0 ) ≤ ln(c) = x : (x̄ − θ0 ) ≥ ln(c)
2 n
( r )
−2 ln(c)
= x : |x̄ − θ0 | ≥
n
corresponde a un test LRT para probar la hipótesis H0 : θ = θ0 .
Ejemplo 170. Casella & Berger (2002)[p.376] Sean X1 , X2 , X3 , . . . , Xn variables
aleatorias independientes e idénticamente distribuidas
fX1 (x1 ; θ) = e−(x1 −θ) I[θ,+∞)(x1 ).
en que −∞ < θ < ∞. La función de verosimilitud es dada por, ver figura 65,
n
Y n
Y
L(θ; x) = f (xi ; θ) = e−(xi −θ) I[θ,+∞)(xi )
i=1 i=1
( n
) n
X Y
= exp − (xi − θ) I[θ,+∞) (xi )
i=1
|i=1
n
{z }
T
I {xi ∈[θ,+∞)}
i=1
| {z }
I[θ,+∞) (x(1) )
( n
)
X
= exp −
|{z} (xi − θ) I[θ,+∞) x(1)
a i=1

= exp {n(θ − x̄)} I[θ,+∞) x(1) = exp {n(θ − x̄)} I θ ≤ x(1) < ∞
= exp {n(θ − x̄)} I(−∞,x(1) ] (θ) .
El interés es sobre las hipótesis H0 : θ ≤ θ0 versus H1 : θ > θ0 , con θ0 una constante

previamente establecida. Para encontrar el sup L(θ; x) se tiene que
Θ
n
! n
!
Y Y
sup L(θ; x) = sup f (xi ; θ) = sup e−(xi −θ) I[θ,+∞](xi )
Θ Θ i=1 Θ i=1

= sup exp {n(θ − x̄)} I[θ,+∞] x(1)
Θ
h i
= sup exp {n(θ − x̄)} I(−∞,x(1) ] (θ) .
Θ
a
Ver nota al pie de página d en las notas de clase sobre Suficiencia y familia exponencial.
3
L(θ; x)
1 θ
θ = x(1) = 1
Figura 65: θ versus L(θ; x) cuando x(1) = 1, x̄ = 1.02 y n = 10. Ejemplo 170.
Notando que L(θ; x) toma su valor máximo cuando θ = x(1) , ver figura 65, se tiene
que

sup L(θ; x) = exp n(x(1) − x̄) .
Θ
Por otro lado, Θ0 = (−∞, θ0 ] y

h i
sup L(θ; x) = sup exp {n(θ − x̄)} I(−∞,x(1) ] (θ) .
Θ0 Θ0
Si θ0 ≤ x(1) entonces, ver figura 66,

sup L(θ; x) = L(θ0 ; x) = exp {n(θ0 − x̄)} .
Θ0
Si θ0 > x(1) entonces, ver figura 67,

sup L(θ; x) = L(x(1) ; x) = exp n(x(1) − x̄) .
Θ0
Luego el LRT es dado por

si
 exp{n(θ0 −x̄)}
sup L(θ; x)  exp n(x −x̄) θ0 ≤ x(1)
Θ { (1) }
λ(x) = 0 = exp{n(x(1) −x̄)}
sup L(θ; x) 
Θ exp{n(x(1) −x̄)}
si θ0 > x(1)
(
en(θ0 −x(1) )
si θ0 ≤ x(1)
=
1 si θ0 > x(1) .
4
L(θ|x) θ0 = 0.9 1 θ
θ = x(1) = 1
Figura 66: θ versus L(θ; x) cuando x(1) = 1, x̄ = 1.02 y n = 10. θ0 = 0.9. Ejemplo
170.
1
L(θ|x)
θ0 = 1.2
θ = x(1) = 1 1 θ
Figura 67: θ versus L(θ; x) cuando x(1) = 1, x̄ = 1.02 y n = 10. θ0 = 1.2. Ejemplo
170.
Para 0 ≤ c ≤ 1, la región de rechazo de la forma

n o
{x : λ(x) ≤ c} = x : en(θ0 −x(1) ) ≤ c si θ0 ≤ x(1)
= x : nθ0 − nx(1) ≤ ln(c) si θ0 ≤ x(1)

= x : nθ0 − ln(c) ≤ nx(1) si θ0 ≤ x(1)

ln(c)
= x : x(1) ≥ θ0 − si θ0 ≤ x(1) .
n
corresponde a un test LRT para probar la hipótesis H0 : θ ≤ θ0 .
Teorema 45. Casella & Berger (2002)[p.377] Si T (X) es una estadística suficiente
para θ y λ∗ (t) y λ(x) son LRT basados en T y x, respectivamente, entonces
λ∗ (T (x)) = λ(x)
5
para cada x en el espacio muestral.

Veamos: Casella & Berger (2002)[p.377]
sup L(θ; x) sup f (x|θ) sup g(T (x); θ)h(x)
Θ0 Θ0 0 Θ
λ(x) = = =
sup L(θ; x) sup f (x|θ) |{z} sup g(T (x); θ)h(x)
Θ Θ b Θ
sup g(T (x); θ)

h(x) sup g(T (x); θ)

Θ0 Θ0
= sup g(T (x); θ) =
|{z}

h(x) sup g(T (x); θ)
h no depende de θ Θ Θ
sup Pθ (T (X) = ti ) sup L∗ (θ; T (X))
Θ0 Θ0
= = = λ∗ (T (x))
|{z} sup Pθ (T (X) = ti ) sup L∗ (θ; T (X))
g(T (x);θ)=Pθ (T (X)=ti ) Θ Θ
Evaluación de Tests
El desempeño de un test es medido por la frecuencia con que se hacen juzga-
mientos correctos cuando se usa el test, ver Bickel & Doksum (1977)[p.166]. Hay dos
tipos de error que se pueden comenter cuando se utiliza un test:
1. que se rechace la hipótesis H0 cuando en realidad se debería aceptar, o
2. que se acepte (no se rechace) la hipótesis H0 cuando en realidad se debería
rechazar.
Note que NO se pueden cometer los dos tipos de error simultáneamente. Al error
presentado en el item 1. se le llama error tipo I y al error presentado en el item 2.
se le llama error tipo II . Ver tabla 23.
XXX
Tabla 23: Tipos de error.
XXX Verdad
Decisión XXXXX H0 es verdadera H1 es verdadera
Aceptar H0 No hay error Error tipo II
Rechazar H0 Error tipo I No hay error
Definición 65. Casella & Berger (2002)[p.383]. La función de potencia de una

prueba de hipótesis con región de rechazo R es una función de θ definida por:
β(θ) = Pθ (X ∈ R).
b
Teorema de factorización, T es suficiente.
6
Nota 68. Una función de potencia ideal sería que tome el valor 0 para todo θ ∈ Θ0
y tome el valor de 1 para todo θ ∈ Θc0 .
Ejemplo 171. Casella & Berger (2002)[p.383]. Sea X una variable aleatoria tal que
X ∼ Bin(5, θ). Sea el test H0 : θ ≤ 21 versus H1 : θ > 21 . Considere un test que
rechaza H0 si y solo si se obtienen solo éxitos, esto es, X = 5. Entonces la función
de potencia es dada por, ver figura 68,

5 5
β(θ) = Pθ (X ∈ R) = Pθ (X = 5) = θ (1 − θ)5−5 = θ 5 .
5
1.0
0.8
= (0.5)5 = 0.03125
0.6
β(θ)
0.4
1
2
0.2

0.0
H0 H1
0.0 0.2 0.4 0.6 0.8 1.0
θ 1
θ= 2
= 0.5
Figura 68: Función de potencia β(θ), ejemplo 171.
Note que si θ ≤ 21 , esto es, si la hipótesis nula es verdadera, la función de potencia

es menor a 0.03125, esto es, β(θ) ≤ 0.03125.
Definición 66. Casella & Berger (2002)[p.385]. Para 0 ≤ α ≤ 1, un test con
función de potencia β(θ) es un test de tamaño α si sup β(θ) = α. c
θ∈Θ0
Ejemplo 172. Retomando el ejemplo 171, luego el test quesup β(θ) = 0.03125,
θ∈Θ0
rechaza H0 si y solo se obtienen solo éxitos es un test de tamaño 0.03125.
Definición 67 Casella & Berger (2002)[p.385]. Para 0 ≤ α
. ≤ 1, un test con
función de potencia β(θ) es un test al nivel α si sup β(θ) ≤ α.
θ∈Θ0
c
A α se le llama nivel de significancia, Lehmann & Romano (2008)[p.57].
7
Definición 68 . Bickel & Doksum (1977)[p.167]. La potencia de un test es la

probabilidad de rechazar la hipótesis nula cuando la hipótesis alternativa es verdadera.
En otras palabras, la potencia es una función de θ sobre Θc. Note que la potencia
y la probabilidad de cometer error tipo I están contenidas en la función
de potencia. Ver figura 69. En general, se denota a la probabilidad de cometer error
tipo II por β , luego la potencia será 1 − β . Ver tabla 24.
1.0
0.8
0.6
Potencia
1−β
β(θ)
0.4
0.2
α

0.0
H0 H1
0.0 0.2 0.4 0.6 0.8 1.0
θ
θ = 0.5
Figura 69: Función de potencia β(θ), ejemplo 171.
XXX
Tabla 24: Tipos de error y tamaño.
XXX Verdad
Decisión XXXXX H0 es verdadera H1 es verdadera
Aceptar H No hay error Error tipo II
0
1−α β
Rechazar H0 Error tipo I No hay error
α 1−β
Definición 69 Casella & Berger (2002)[p.387]. Un test con función de potencia

.
β(θ) es insesgado si β(θ ′ ) ≥ β(θ ′′ ) para cada θ ′ ∈ Θc0 y θ ′′ ∈ Θ0 .
Ejemplo 173. Continuando con el ejemplo 169, en que se tienen X1, . . . , Xn una
muestra aleatoria de una población N (θ, 1) y las hipótesis consideradas son
H : θ = θ0 versus H1 : θ 6= θ0 .
8
Se encontró que la región de rechazo de la forma

( r )
−2 ln(c)
{x : λ(x) ≤ c} = x : |x̄ − θ0 | ≥
n
corresponde aun LRT para probar H0 : θ = θ0 . Su correspondiente función de poten-

cia es dada por
r !
−2 ln(c)
β(θ) = Pθ (X ∈ R) = Pθ X̄ − θ0 ≥
n
r ! r !
−2 ln(c) −2 ln(c)
= Pθ X̄ − θ0 ≤ − + Pθ X̄ − θ0 ≥
n n
 √   √ 
−2 ln(c) −2 ln(c)
√ √
 X̄ − θ0 n   X̄ − θ0 n 
= Pθ  1 ≤− 1  + Pθ  1 ≥ 1 
√ √ √ √
n n n n
! !
X̄ − θ0 p X̄ − θ0 p
= Pθ ≤− −2 ln(c) + Pθ ≥ −2 ln(c) .
√1 √1
n n
h p i
Bajo H0 verdadera, se tiene que β(θ) = 2P Z ≥ −2 ln(c) = 2 1 − Φ −2 ln(c) ,
p
con Φ(.) la función de distribución acumulada de la variable aleatoria Z ∼ N (0, 1).

Bajo H1 verdadera, por ejemplo θ = θ1 6= θ0 ,
r ! ! r
−2 ln(c) −2 ln(c)
β(θ) = Pθ X̄ − θ0 ≤ − + Pθ X̄ − θ0 ≥
n n
r ! r !
−2 ln(c) −2 ln(c)
= Pθ X̄ − θ1 ≤ − + θ0 − θ1 + Pθ X̄ − θ1 ≥ + θ0 − θ1
n n
 q   q 
−2 ln(c) −2 ln(c)
X̄ − θ 1
− n + θ 0 − θ 1 X̄ − θ 1 n + θ 0 − θ 1
= Pθ  1 ≤ 1
 + Pθ 
1 ≥ 1

√ √ √ √
n n n n
p √ p √
= P Z ≤ − −2 ln(c) + n [θ0 − θ1 ] + Pθ Z ≥ −2 ln(c) + n [θ0 − θ1 ] .
Cabe notar que β(θ) toma su punto mínimo cuando θ = θ0 , ver figura 70. Así el test
es insesgado.
Nota 69. Casella & Berger (2002)[p.386]. Un LRT de tamaño α es construido al
escoger un c tal que
sup Pθ0 (λ(X) ≤ c) = α.
θ∈Θ0
Determinar c depende del problema particular.
9
1.0
1.0
0.8
0.8
Potencia
1−β
0.6
0.6
Potencia
1−β
β(θ)
β(θ)
fp2
0.4
0.4
c = 0.70
α = 0.3983
0.2
0.2
α = 0.0319
c = 0.10
0.0
0.0
−1 0 1 2 3 4 −1 0 1 2 3 4
θ0 = 2 θ θ0 = 2
Figura 70: Función de potencia β(θ) para θ0 = 2, n = 10 y considerando dos valores

para c, c = 0.10 y c = 0.70, ejemplo 173.
Ejemplo 174. Retomando el ejemplo 169, se encontró que la región de rechazo de

la forma
( r )
−2 ln(c)
{x : λ(x) ≤ c} = x : |x̄ − θ0 | ≥
n
corresponde aun LRT para probar H0 : θ = θ0 . Luego

( r )
−2 ln(c)
sup Pθ X̄ − θ0 ≥ =α
θ∈Θ0 n
( r )
−2 ln(c)
Pθ0 X̄ − θ0 ≥ =α
n
r ! r !
−2 ln(c) −2 ln(c)
Pθ0 X̄ − θ0 ≤ − + Pθ0 X̄ − θ0 ≥ =α
n n
 √   √ 
−2 ln(c) −2 ln(c)
√ √
 X̄ − θ0 n   X̄ − θ0 n 
Pθ0  1 ≤−  + Pθ0  1 ≥  =α
√ √1 √ √1
n n n n
p p
Pθ0 Z ≤ − −2 ln(c) + Pθ0 Z ≥ −2 ln(c) = α
p
2 ∗ Φ − −2 ln(c) = α
p
− −2 ln(c) = z α2
10
2
−2 ln(c) = z1− α2
2
−z1− α
2
ln(c) =
2( )
2
−z1− α
2
c = exp ,
2
entonces
( r )
−2 ln(c)
{x : λ(x) ≤ c} = x : |x̄ − θ0 | ≥
n
 v 2 
 u −z1− α 
 u 


 u
t −2 ln exp 2
2 


{x : λ(x) ≤ c} = x : |x̄ − θ0 | ≥

 n 


 

 
 v 2  
 u −z1− α
 u 


 u − 2 2 


 t 2 
{x : λ(x) ≤ c} = x : |x̄ − θ0 | ≥

 n 


 

 
 s 
2
z1−
 α 
2
z1− α2
{x : λ(x) ≤ c} = x : |x̄ − θ0 | ≥ = x : |x̄ − θ0 | ≥ √
 n  n

z1− α z1− α
{x : λ(x) ≤ c} = x : x̄ − θ0 ≥ √ 2 o x̄ − θ0 ≤ − √ 2
n n

z1− α2 z1− α2
{x : λ(x) ≤ c} = x : x̄ ≥ θ0 + √ o x̄ ≤ θ0 − √ .
n n
Ejemplo 175. Retomando el ejemplo 170, en que se tienen X1 , X2 , X3 , . . . , Xn va-
riables aleatorias independientes e idénticamente distribuidas
fX1 (x1 ; θ) = e−(x1 −θ) I[θ,+∞)(x1 ).
en que −∞ < θ < ∞. Las hipótesis consideradas son

H0 : θ ≤ θ0 versus H1 : θ > θ0
con θ0 una constante previamente establecida. Se encontró que para 0 ≤ c ≤ 1, la

región de rechazo de la forma

ln(c)
{x : λ(x) ≤ c} = x : x(1) ≥ θ0 − si θ0 ≤ x(1)
n
11
corresponde a un test LRT para probar la hipótesis H0 : θ ≤ θ0 , luego

ln(c) ln(c)
sup Pθ X(1) ≥ θ0 − = sup Pθ X(1) ≥ θ0 − =α
θ∈Θ0 n θ≤θ0 n
θ0 − ln(c)
n
Z
ln(c)
sup Pθ X(1) < θ0 − = sup n exp{−n(t − θ)}dt = 1 − α
θ≤θ0 n |{z} θ≤θ 0
d θ
sea u = −n(t − θ) = −nt + nθ entonces du = −ndt, dt = − n1 du y

Z Z Z
u −1
n exp{−n(t − θ)}dt =
ne du = − eu du = −eu = − exp{−n(t − θ)}.

n
Entonces
θ0 − ln(c)
n
θ0 − ln(c) !
Z n

sup n exp{−n(t − θ)}dt = − sup exp{−n(t − θ)} =1−α
θ≤θ0 θ≤θ0
θ θ

ln(c)
sup exp −n θ0 − −θ − 1 = −1 + α
θ≤θ0 n
sup [exp{ln(c) − n(θ0 − θ)}] = α
θ≤θ0
exp{ln(c)} sup [exp{−n(θ0 − θ)}] = α

θ≤θ0
c sup [exp{−n(θ0 − θ)}] = α
θ≤θ0
notando que exp{−n(θ0 − θ)} toma su máximo cuando θ = θ0 se tiene que c = α, y

entonces

ln(c)
{x : λ(x) ≤ c} = x : x(1) ≥ θ0 − si θ0 ≤ x(1)
n

ln(α)
= x : x(1) ≥ θ0 − si θ0 ≤ x(1) .
n
Definición 70 . El p-valor es α(T (X)). Bickel & Doksum (2001)[p.222].

d
La función de densidad de la variable aleatoria X(1) es dada por, ver ejemplo 153,
si
(
n exp{−n(x(1) − θ)} θ ≤ x(1)
fX(1) (x(1) ; θ) =
0 si θ > x(1)
12
En otras palabras, el p-valor o tamaño observado o probabilidad de signi-

ficancia del test es un estadístico que se define como el nivel de significancia más
pequeño α, al cual un experimentador usando el estadístico T (X) rechazaría la hipó-
tesis nula, basándose en los resultados observados x, Bickel & Doksum (2001)[p.221].
Por tanto, para un α dado por el investigador, si α < p-valor la hipótesis nula no se
rechaza y si α > p-valor la hipótesis nula se rechaza.
Test más potente
Definición 71 .Casella & Berger (2002)[p.388] Sea C una clase de tests para e
probar H0 : θ ∈ Θ0 vs H1 : θ ∈ Θc0 . Un test en la clase C , con función de potencia

β(θ), es un test uniformemente más potente (U M P ) si β(θ) ≥ β ′ (θ) para cada
f
θ ∈ Θc0 y cada β ′ (θ), que es una función de potencia de un test en la clase C .

Nota 70. Un test es insesgado uniformemente más potente (UMPU) si es unifor-
memente más potente en la clase de todos los test insesgados. De hecho un test
uniformemente más potente es siempre insesgado, ver Roussas (1997)[p.349].
Considere las hipótesis nula y alterna simples
H0 : θ = θ0 versus H1 : θ = θ1 ,
y sea la función
(
1 Si p(x; θ1 ) > kp(x; θ0 )
ϕk (x) |{z}
=
g
0 Si p(x; θ1 ) < kp(x; θ0 )
(
1 Si p(x; θ1 ) − kp(x; θ0 ) > 0
=
0 Si p(x; θ1 ) − kp(x; θ0 ) < 0
con k ≥ 0. A ϕk (x) se le llama función de test y es una función indicadora de la

región de rechazo del test.
Nota 71. Roussas (1997)[p.329] Si Θc0 consiste solo de un punto, un test uniforme-
mente más potentes (UMP) se dice que es un test más potente (MP).
Teorema 46 (Lema de Neyman-Pearson). Casella & Berger (2002)[p.388].
1. (Condición suficiente para ser un test más potente). Si α > 0 y ϕk (x) es un
test (una función de test) de razón de verosimilitud de tamaño α, entonces
ϕk (x) es uniformemente más potente en la clase C .
e
La clase C es la clase de todos los tests de nivel α, esto es, sup β(θ) ≤ α.
θ∈Θ 0
f
El adverbio “uniformemente” se refiere a “todos” los valores alternativos de θ, ver Mood, Graybill
& Boes (1974)[p.422].
g
Hay autores que definen la función de test considerando el caso p(x; θ1 ) = kp(x; θ0 ) en que
ϕk (x) = γ , 0 < γ < 1, ver por ejemplo, Roussas (1997)[p.330].
13
2. (Condición necesaria para ser un test más potente). Si existe ϕk (x), un test
(una función de test) de razón de verosimilitud de tamaño α, entonces cada
test UMP de nivel α es un test de tamaño α excepto en un conjunto A tal que:
Pθ0 (X ∈ A) = Pθ1 (X ∈ A) = 0.
Veamos: 1. Como ϕk (x) es un test de razón de verosimilitud de tamaño α se tiene

que
α = sup β(θ)
θ∈Θ0
= sup Pθ (X ∈ R) |{z} = β(θ0 )
= Pθ0 (X ∈ R) = Pθ0 (ϕk (X) = 1) |{z}
θ∈Θ 0
Θ0 ={θ0 } h
= Eθ0 [ϕk (X)]
Sea ϕ′k (x) una función de test para cualquier otro test de nivel α y sean β(θ)
y β ′ (θ) las funciones de potencia asociadas a ϕk (x) y ϕ′k (x), respectivamente.
i
Como ϕ′k (x) = 0 ó ϕ′k (x) = 1 se tiene que


−1
 Si ϕ(x) = 0 y ϕ′ (x) = 1

0 Si ϕ(x) = 1 y ϕ′ (x) = 1
ϕ(x) − ϕ′ (x) =
1

 Si ϕ(x) = 1 y ϕ′ (x) = 0
Si y

0 ϕ(x) = 0 ϕ′ (x) = 0
luego
[ϕ(x) − ϕ′ (x)] [p(x; θ1 ) − kp(x; θ0 )] =

−1 × |[p(x; θ1 ) −

 kp(x; θ0 )] Si ϕ(x) = 0 y ϕ′ (x) = 1

 {z }

 <0

0 × [p(x; θ ) − kp(x; θ )]
1 0 Si ϕ(x) = 1 y ϕ′ (x) = 1


 1 × [p(x; θ1 ) − kp(x; θ0 )] Si ϕ(x) = 1 y ϕ′ (x) = 0

 | {z }

 >0

0 × [p(x; θ ) − kp(x; θ )]
1 0 Si ϕ(x) = 0 y ϕ′ (x) = 0
≥0
para cada x. Integrando se tiene que

Z Z
(88)

··· ϕ(x) − ϕ′ (x) [p(x; θ1 ) − kp(x; θ0 )] dx ≥ 0
h
Definición de función de potencia, definición 65.
i
Como β ′ (θ) es de nivel α, se tiene que sup β ′ (θ) ≤ α, esto es, β ′ (θ0 ) ≤ α.
θ∈Θ0
14
Z Z Z Z
··· ϕ(x)p(x; θ1 )dx − · · · kϕ(x)p(x; θ0 )dx
| {z } | {z }
β(θ1 ) kβ(θ0 )
Z Z Z Z
− ··· ϕ′ (x)p(x; θ1 )dx + · · · kϕ′ (x)p(x; θ0 )dx ≥ 0
| {z } | {z }
β ′ (θ1 ) kβ ′ (θ0 )
h i
β(θ1 ) − β ′ (θ1 ) − k β(θ0 ) − β ′ (θ0 ) ≥ 0
| {z } | {z }
α ≤α
| {z }
≥0
entonces
h i
0 ≤ β(θ1 ) − β ′ (θ1 ) − k β(θ0 ) − β ′ (θ0 ) ≤ β(θ1 ) − β ′ (θ1 ) (89)
β ′ (θ1 ) ≤ β(θ1 )
por tanto, ϕ(x) es más potente que ϕ′ (x). Como α era arbitrario, ϕ(x) es un
test uniformemente más potente.
2. Sea ϕ′k (x) una función de test para cualquier test de nivel α uniformemente
más potente, entonces
β ′ (θ1 ) = β(θ1 )
y de (89) se tiene que
h i
′ ′
0 ≤ β(θ1 ) − β (θ1 ) −k β(θ0 ) −β (θ0 )
| {z } | {z }
0 α
h i
′
0 ≤ −k α − β (θ0 )
h i
k α − β ′ (θ0 )
0 ≥ |{z} =⇒ 0 ≥ α − β ′ (θ0 )
| {z }
>0 ≤α
′
0 ≥ α − β (θ0 ) ≥ 0
′
β (θ0 ) = α
por tanto ϕ′k (x) es un test de tamaño α. Retomando (88)
Z Z

··· ϕ(x) − ϕ′ (x) [p(x; θ1 ) − kp(x; θ0 )] dx
h i
= β(θ1 ) − β ′ (θ1 ) −k β(θ0 ) − β ′ (θ0 ) = 0
| {z } | {z }
0
0
excepto si al caso en un conjunto A con medida cero, esto es,

Pθ0 (X ∈ A) = Pθ1 (X ∈ A) = 0.
15
Nota 72. Cox & Hinkley (1974)[p.92] En otras palabras, el Lema de Neyman-
Pearson dice que para cualquier tamaño α, la región crítica generada a partir de
la razón de verosimilitud es la mejor región crítica.
Ejercicio 75. Casella & Berger (2002)[p.405]. Sea X una variable aleatoria cuya
función de masa de probabilidad bajo H0 y Ha es dada por
x 1 2 3 4 5 6 7
f (x|H0 ) 0.01 0.01 0.01 0.01 0.01 0.01 0.94
f (x|Ha ) 0.06 0.05 0.04 0.03 0.02 0.01 0.79
1. Use Neyman-Pearson para encontrar el test más potente para probar H0 versus
Ha con tamaño α = 0.04.
2. Calcule la probabilidad del error tipo II para este test.

Ejercicio 76. Casella & Berger (2002)[p.406]. Sea f (x; θ) la función de densidad
de localización logística f (x; θ) = ex−θ
2 con −∞ < θ < ∞ y −∞ < x < ∞.
(1+e(x−θ) )
1. Basado en UNA observación, encuentre el test más potente de tamaño α para
probar H0 : θ = 0 versus H1 : θ = 1.
2. Para α = 0.20, encuentre el tamaño del error tipo II.
Nota 73. Casella & Berger (2002)[p.389]. Si T (X) es una estadística suficiente
para θ, del teorema 45 se tiene que los test de razón de verosimilitud basados en
T y x son iguales, por tanto cualquier test basado en T con región de rechazo S
(un subconjunto del espacio muestral de T ) es un test uniformemente más potente
(U M P ) de nivel α si cumple con que
t ∈ S si g(t; θ1 ) > kg(t; θ0 )
y
t ∈ S c si g(t; θ1 ) < kg(t; θ0 ),
para algún k ≥ 0 en que α = Pθ0 (T ∈ S).
Ejemplo 176. Sean X1 , X2 , . . . , Xn variables aleatorias independientes e idéntica-

mente distribuidas normal con media θ y varianza σ2 , con µ parámetro desconocido
y σ2 conocida. Del ejemplo 48 se tiene que la media muestral X̄ es una estadística
16
suficiente para θ. Considere las hipótesis H0 : θ = θ0 vs H1 : θ = θ1 en que θ0 > θ1 .

Usando la nota 73, x̄ = t ∈ S si
g(x̄; θ1 ) > kg(x̄; θ0 )

−n 2 −n 2
exp (x̄ − θ1 ) > k exp (x̄ − θ0 )
2σ 2 2σ 2

−n 2 −n 2
(x̄ − θ1 ) > ln k exp (x̄ − θ0 )
2σ 2 2σ 2
−n n
2
(x̄ − θ1 )2 > ln k − 2 (x̄ − θ0 )2
2σ 2σ
2σ 2
−(x̄ − θ1 )2 > ln k − (x̄ − θ0 )2
n
2σ 2
(x̄ − θ0 )2 − (x̄ − θ1 )2 > ln k
n
2σ 2
x̄2 − 2x̄θ0 + θ02 − x̄2 + 2x̄θ1 − θ12 > ln k
n
2σ 2
2x̄ (θ1 − θ0 ) > ln k + θ12 − θ02
| {z } n
<0
2σ2
n ln k + θ12 − θ02
x̄ <
2(θ1 − θ0 )
por tanto
2σ2
n ln k + θ12 − θ02
x̄ ∈ S si x̄ <
2(θ1 − θ0 )
y
2σ2
c n ln k + θ12 − θ02
x̄ ∈ S si x̄ > ,
2(θ1 − θ0 )
con
!
2σ2
n ln k + θ12 − θ02
α = Pθ0 (X̄ ∈ S) = Pθ0 X̄ < = Pθ0 X̄ < d
2(θ1 − θ0 )
| {z }
d
! !
X̄ − θ0 d − θ0 d − θ0
= Pθ0
√σ
<
√σ
=P Z<
√σ
, entonces
n n n
| {z }
Z
d − θ0
zα =
√σ
n
σzα
d = √ + θ0 .
n
17
Luego el test uniformemente más potente rechaza H0 si X̄ < σz

√ α + θ0 , esto es, el test
n
uniformemente más potente rechaza H0 si
X̄ − θ0
< −z1−α .
√σ
n
Si las hipótesis consideradas fueran H0 : θ = θ0 vs H1 : θ = θ1 en que θ0 < θ1 ,

el test uniformemente más potente rechaza H0 si X̄ > σz√1−α
n
+ θ0 , esto es, el test
uniformemente más potente rechaza H0 si
X̄ − θ0
> z1−α .
√σ
n
Ejemplo 177. Sean X1, X2 , . . . , Xn variables aleatoris independientes e idéntica-

n
mente distribuidas bernoulli de parámetro θ. Del ejemplo 46 se tiene que Xi es
P
i=1
una estadística suficiente para θ. Considere las hipótesis H0 : θ = θ0 vs H1 : θ = θ1
n
en que 0 < θ1 < θ0 < 1. Usando la nota 73, xi = t ∈ S si
P
i=1
n
! n
!
X X
g xi ; θ 1 > kg xi ; θ 0
i=1 i=1
( X n
) ( X n
)
θ1 θ0
exp ln xi + n ln (1 − θ1 ) > k exp ln xi + n ln (1 − θ0 )
1 − θ1 1 − θ0
i=1 i=1
X n X n
θ1 θ0
ln xi + n ln (1 − θ1 ) > ln(k) + ln xi + n ln (1 − θ0 )
1 − θ1 1 − θ0
i=1 i=1

θ1 θ0
nx̄ ln − ln > ln(k) + n ln (1 − θ0 ) − n ln (1 − θ1 )
1 − θ1 1 − θ0
" θ1
!#
1−θ1 1 − θ0
nx̄ ln θ0
> ln(k) + n ln
1−θ0
1 − θ1
  

  θ1 1 − θ0   1 − θ0
nx̄ ln 
  ×  > ln(k) + n ln
θ0 1 − θ  1 − θ1
|{z} | {z 1}
<1 <1

1−θ0
ln(k) + n ln 1−θ 1
x̄ < .
θ1 (1−θ0 )
n ln θ0 (1−θ1 )
Por tanto
ln(k) + n ln 1−θ1−θ1
0
x̄ ∈ S si x̄ <
θ1 (1−θ0 )
n ln θ0 (1−θ1 )
18
y
1−θ0
ln(k) + n ln 1−θ 1
x̄ ∈ S c si x̄ > ,
θ1 (1−θ0 )
n ln θ0 (1−θ1 )
con
!
1−θ0
ln(k) + n ln 1−θ1
α = Pθ0 (X̄ ∈ S) = Pθ0 X̄ < = Pθ0 X̄ < d .
n ln θθ10 (1−θ 0)
(1−θ1 )
| {z }
d
Si n es suficientmente grande, utilizando el ejemplo 142,

!  
X̄ − θ0 d − θ0 d − θ0 
α ≈ Pθ0 √ < √
θ0 (1−θ0 ) θ0 (1−θ0 )
= P Z < q , entonces
θ0 (1−θ0 )
√ √
n n n
| {z }
Z
d − θ0
zα = q
θ0 (1−θ0 )
n
r
θ0 (1 − θ0 )
d = zα + θ0 .
n
Por tanto, paraqn suficientemente grande, el test uniformemente más potente rechaza
H0 si X̄ < zα θ0 (1−θ
n
0)
+ θ0 , esto es, el test uniformemente más potente rechaza H0
si
X̄ − θ0
q < −z1−α .
θ0 (1−θ0 )
n
Si las hipótesis consideradas fueran H0 : θ = θ0 vs H1 : θ = θ1 en que 0 < θ0 < θ1 <

1, para qn suficientemente grande, el test uniformemente más potente rechaza H0 si
X̄ > zα θ0 (1−θ
n
0)
+ θ0 , esto es, el test uniformemente más potente rechaza H0 si
X̄ − θ0
q > z1−α .
θ0 (1−θ0 )
n
Si las hipótesis consideradas fueran H0 : θ = θ0 vs H1 : θ 6= θ0 , para n suficientemente

grande, el test insesgado uniformemente más potente rechaza H0 si

X̄ − θ0
θ0 (1−θ0 ) > z1− α2 .
q

n
19
Ejemplo 178. Para ilustrar el caso en que no existe UN test uniformemente más
potente si no se restringe a los test insesgados es el siguiente, sea X una variable
aleatoria con distribución binomial de parámetros n y θ con 0 < θ < 1. Se quiere
probar las hipótesis
H0 : θ = θ0 versus Ha : θ 6= θ0
a un nivel α. Sean las hipótesis
H0′ : θ = θ0 versus Ha′ : θ = θ1
luego Θ0 = {θ0 } y Θ = {θ0 , θ1 }. El test de razón de verosimilitud para probar H0′

versus Ha′ sería dado por
n x
sup L(θ; x) sup x θ (1 − θ)n−x
Θ0 Θ0 θ0x (1 − θ0 )n−x
λ(x) = = =
sup L(θ; x) sup nx θ x (1 − θ)n−x sup θ x (1 − θ)n−x
Θ Θ Θ
Si sup θ x (1 − θ)n−x se tiene cuando θ = θ0 entonces λ(x) = 1, por otro lado, si

Θ
sup θ x (1 − θ)n−x se tiene cuando θ = θ1 entonces
Θ
x n−x x n
θ x (1 − θ0 )n−x θ0 1 − θ0 θ0 (1 − θ1 ) 1 − θ0
λ(x) = 0x = = .
θ1 (1 − θ1 )n−x θ1 1 − θ1 θ1 (1 − θ0 ) 1 − θ1
Luego, para 0 ≤ c ≤ 1, la región de rechazo de la forma

θ0 (1 − θ1 ) x 1 − θ0 n
{x : λ(x) ≤ c} = x : ≤c
θ1 (1 − θ0 ) 1 − θ1

θ0 (1 − θ1 ) 1 − θ0
= x : x ln + n ln ≤ ln(c)
θ1 (1 − θ0 ) 1 − θ1

θ0 (1 − θ1 ) 1 − θ0
= x : x ln ≤ ln(c) − n ln
θ1 (1 − θ0 ) 1 − θ1
( h i)
1−θ0
ln(c)−n ln 1−θ
Si θ0 > θ1


 x : x ≤ ln θ0 (1−θ1 )

 h i1
θ1 (1−θ0 )
= ( h
1−θ
i)
ln(c)−n ln 1−θ0
Si θ0 < θ1


 x:x≥
 h i1
θ (1−θ1 )
 ln 0 θ1 (1−θ0 )
por tanto si θ0 > θ1 el test más potente rechaza para valores pequeños de x, pero si
θ0 < θ1 el test más potente rechaza para valores grandes de x, luego el test depende
de θ1 y no existe un test uniformemente más potente.
Nota 74. En general no es posible encontrar un test uniformemente más potente
de tamaño α, por ejemplo para el problema H0 : θ = θ0 versus H1 : θ 6= θ0 . Para
20
encontrar un test con optimas propiedades se restringe a una clase más pequeña de
test que son los test insesgados, ver definición 69, Roussas (1997)[p.349]. Una clase
de distribuciones en las cuales sí existe un test UMP de tamaño α es la familia de
distribuciones que tiene la propiedad de la razón de verosimilitud monótona (RVM).
Definición 72. Casella & Berger (2002)[p.391] La familia de funciones de densi-
dad de probabilidad o de funciones de masa de probabilidad {p(x; θ) : θ ∈ Θ} para una
variable aleatoria univariada X con parámetro de valor real θ se dice que tiene una
razón de verosimilitud monótona (RVM) si para cada θ2 > θ1, la razón p(x;θ 2)
p(x;θ1 )
es función monotona (no creciente o no decreciente) de x sobre {x : p(x; θ1 ) > 0 ó
p(x; θ2 ) > 0}. Note que 0c se define como ∞ si 0 < c.
Ejemplo 179. Suponga que X1 , X2 , X3 , . . . , Xn son variables aleatorias indepen-

dientes e idénticamente distibuidas tal que X1 ∼ N (µ, 1) y sean µ1 y µ2 tal que
0 < µ1 < µ2 < ∞. Se tiene que
nn )
(
1 1X
p(x; µ1 ) = √
exp − (xi − µ1 )2
y
2
2π i=1
n ( n
)
1 1X 2
p(x; µ2 ) = √ exp − (xi − µ2 ) ,
2π 2
i=1
luego
( n
)
p(x; µ2 ) 1X
= exp − [(xi − µ2 )2 − (xi − µ1 )2 ]
p(x; µ1 ) 2
i=1
( n
)
1 X
i − 2µ2 xi + µ2 − xi + 2µ1 xi − µ1 )
2 2 2 2
= exp − (x
2
i=1
( n n
!)
1 X
2
X
2
= exp − −2µ2 xi + nµ2 + 2µ1 xi − nµ1
2
i=1 i=1
n
1 X
= exp − n µ22 − µ21 exp (µ2 − µ1 ) xi
2 | {z }
| {z } i=1
K1 >0
K0 ≥0
( n
) n
P
X xi
K1
= K0 exp K1 xi = K0 e i=1
i=1
n
n
P
xi
La función es creciente en xi . Así es RVM creciente para
P
eK1 i=1 N (µ, 1)
i=1
n
xi .
P
T (x) =
i=1
21
Ejemplo 180. Sean X1 , X2 . . . , Xn variables aleatorias independientes e idéntica-

mente distribuidas tal que
p(x1 ; θ) = θe−θx1 I(0,+∞) (x1 ), θ > 0.
Sean 0 < θ1 < θ2 < ∞, se tiene que

( n
) n
X Y
p(x; θ1 ) = θ1n exp −θ1 xi I(0,+∞) (xi )
i=1 i=1
( n
) n
X Y
p(x; θ2 ) = θ2n exp −θ2 xi I(0,+∞) (xi )
i=1 i=1
luego
 
n 
 n 
Yn
p(x; θ2 ) θ2 X
= exp − (θ2 − θ1 ) xi I(0,+∞) (xi )
p(x; θ1 ) θ1 
 | {z } 

| {z } i=1 i=1
K1 >0
K0 >0
n
P n
xi Y
−K1
= K0 e i=1 I(0,+∞) (xi )
i=1
n
n
P
xi
La función es decreciente (estrictamente) en xi , por tanto p(x; θ) es
P
e−K1 i=1
i=1
n
RVM en xi .
P
i=1
Teorema 47 (Karlin-Rubin). Casella & Berger (2002)[p.391]. Considere la prueba

H0 : θ ≤ θ0 versus H1 : θ > θ0 . Suponga que T es una estadística suficiente para
θ y que la familia de funciones de densidad de probabilidad o de funciones de masa
de probabilidad {g(t; θ) : θ ∈ Θ} de T tiene una razón de verosimilitud monótona
(RVM). Entonces para cualquier t0 , el test que rechaza H0 si y solo si T > t0 es un
test uniformemente mas potente (UMP) de nivel α, en que α = Pθ0 (T > t0 ).
Nota 75. Bickel & Doksum (2001)[p.228]. En la familia exponencial de un paráme-
tro
p (x; θ) = {exp [c(θ)T (x) + d(θ) + S (x)]} IA (x) (90)
donde IA (x) es la funcion indicadora del conjunto A, se sabe que la estadística T (X)
es una estadística suficiente para θ. Si c(θ) es creciente en θ ∈ Θ, entonces la familia
p (x; θ) tiene la propiedad de razón de verosimilitud monótona (RVM) en T (x).
Ejemplo 181. Sean X1, X2 , X3 , . . . , Xn variables aleatorias independientes e idénti-

camente distribuidas tal que X1 ∼ N (θ, σ2 ) con σ2 conocida. Considere las hipótesis
22
H0 : θ ≤ θ0 versus H1 : θ > θ0 . Como la distribución normal pertenece a la fami-

lia exponencial se sabe que X̄ es una estadística suficiente para θ y por la nota 75
que la distribución normal tiene la propiedad de razón de verosimiliud monótona en
x̄. Usando el teorema de Karlin-Rubin, teorema 47, se tiene que el test que rechaza
H0 : θ ≤ θ0 si y solo si X̄ > t0 es un test UMP de nivel α, esto es,
P (X̄ > t0 ) = α

X̄ − θ0 t0 − θ 0
P √ > √ =α
σ/ n σ/ n

t0 − θ 0
P Z< √ =1−α
σ/ n
t0 − θ 0
√ = z1−α
σ/ n
z1−α σ
t0 = √ + θ0
n
luego el test que rechaza H0 si
z1−α σ
X̄ > √ + θ0
n
es test uniformemente más potente (UMP) de nivel α.
Ejemplo 182. Bickel & Doksum (2001)[p.258]. Sean X1 , X2 , X3 , . . . , Xn variables
aleatorias independientes e idénticamente distribuidas tal que X1 ∼ N (µ, θ2 ). Se
consideran las hipótesis
H0 : µ = µ0 versus Ha : µ 6= µ0
en que µ0 es una constante previamente establecida. Entonces Θ0 = {(µ0 , θ02 )} para
n
un µ0 dado. El sup L(θ2 ; x) se tiene cuando θ̂2 = n1 (xi −x̄)2 , ver ejemplo 86. Luego
P
Θ i=1
el LRT es dado por
( n
)
1X
2 (θ̂02 ) 2 exp
−n −n
(2π)

−1
n (xi − µ0 )2
θ̂
2 2
0 n
sup L(θ 2 ; x) | i=1 {z }
Θ0 θ̂

2
0
λ(x) = = ( n
)
sup L(θ 2 ; x)
−n −n 1 X
Θ 2 (θ̂ 2 ) 2 exp
(2π)

−1
n (xi − x̄)2
2θ̂ 2 n
i=1
| {z }
θ̂ 2
! −n ! −n
θ̂02 2
−n n θ̂02 2
λ(x) = exp + = .
θ̂ 2 2 2 θ̂ 2
23
Luego para 0 ≤ c ≤ 1, la región de rechazo de la forma

 ! −n  ( ! )
 θ̂02 2  −n θ̂02
{x : λ(x) ≤ c} = x: ≤c = x: ln ≤ ln(c)
 θ̂ 2  2 θ̂ 2
  P n  
1 2
 (x − µ ) 
 n i=1

 i 0 

 −2
{x : λ(x) ≤ c} = x : ln 

n
 ≥ ln(c)
 1 P
 n 

 n (xi − x̄)2 

i=1
 P n  
 (x − x̄ + x̄ − µ0 ) 2 
 i=1 i

 

 −2
= x : ln  n
≥ ln(c)
  P  n 

 (xi − x̄)2 

i=1
 P
n n
 
(xi
P

 (xi − x̄)2 + 2 − x̄)(x̄ − µ0 ) + n(x̄ − µ0 )2 

  i=1
i=1  −2 
= x : ln  n
≥ ln(c)
  P  n 

 (xi − x̄)2 

i=1
   

 

  (x̄ − µ )2  −2 
0
= x : ln 1 +

n  ≥ n ln(c)

 1 P 2

 n (x i − x̄) 

i=1

(x̄ − µ0 )2 −2
= x : ln 1 + ≥ ln(c)
θ̂ 2 n

(x̄ − µ0 )2 −2
= x:1+ ≥ exp ln(c)
θ̂ 2 n

(x̄ − µ0 )2 −2
{x : λ(x)} = x : ≥ exp ln(c) − 1
θ̂ 2 n
corresponde a un test LRT para probar la hipótesis H0 : µ = µ0 .

Adicionalmente
!
(X̄ − µ0 )2 −2
α = Pθ0 ≥ exp ln(c) − 1
θ̂ 2 n
s !
(X̄ − µ0 ) −2
= Pθ0 ≥ exp ln(c) − 1
θ̂ n
| {z }
d
24
 

!
 
(X̄ − µ0 )  (X̄ − µ 0 ) 
α = Pθ0
≥ d = Pθ0  s

≥ d

θ̂  1 P n 
n 2
(Xi − X̄)
i=1
 

 
 
 
 √  √
 n(X̄ − µ0 )  n(X̄ − µ0 ) √
α = Pθ0  v

n ≥ d = Pθ0

≥ n − 1d

 u 1 X  Sn
u
 u[n − 1] 2
(Xi − X̄) 
 u n−1 
 t i=1 
| {z }
S2

n
bajo H0 se tiene que √

n(X̄ − µ0 )
∼ tn−1
Sn
y entonces bajo H0
√
n(X̄ − µ0 ) √ √
Pθ0
≥ n − 1d = Pθ0 |Tn | ≥ n − 1d = α
Sn
√ √
Pθ0 Tn ≤ − n − 1d + Pθ0 Tn ≥ n − 1d = α
| {z } | {z }
√ √
Pθ0 Tn ≥ n − 1d 1−P θ0 ( n
T < n−1d)
| {z √ }
1−Pθ (Tn < n−1d)
0
√
2 − 2Pθ0 Tn < n − 1d = α
√
2Pθ0 Tn < n − 1d = 2 − α
√ α
Pθ0 Tn < n − 1d = 1 −
√ 2
tn−1,1− α2 = n − 1d
tn−1,1− α2
d= √ .
n−1
Por tanto, el test insesgado uniformemente más potente rechaza H0 : µ = µ0 si
√
|Tn | ≥ n − 1d
√ tn−1,1− α2
|Tn | ≥ n − 1 √
n−1
|Tn | ≥ tn−1,1− α2 .
25
Algunos casos particulares

Antes de pasar a algunos casos particulares, teniendo en cuenta que el valor P
es el nivel de significancia más pequeño que conduce al rechazo de la hipótesis nula,
H0 , para su cálculo se debe tener en cuenta la hipótesis alterna. Por ejemplo si zc es
el estadístico de prueba, el valor P es
para

2[1 − Φ(|zc |)]
 H1 : θ 6= θ0
P − valor = 1 − Φ(zc ) para H1 : θ > θ0
para


Φ(zc ) H1 : θ < θ0
Ejemplo 183. Suponga que se tienen los datos

µ̂A = 274.7 µ̂B = 535.5
2
σ̂A = s2A = 124.9 2
σ̂B = s2B = 4762.2857
nA = 10 nB = 8
1. ¿Existe alguna razón para creer, a un nivel de significancia del 0.05, que µA >
265?. Suponga que la varianza es conocida σA 2 = 180. Calcule el P -valor.
a) Las hipótesis nula y alterna son:

Ho : µA = 265 versus H1 : µA > 265
x̄ − µ0 274.7 − 265
b) zc =
√σ
= 13.4164
√
= 2.2863
n 10
c) El criterio de rechazo según la hipótesis alterna es: se rechaza H0 cuando
zc ≥ z1−α
con z1−α = z0.95 = 1.645. Como 2.2863 >1.645, se toma la decisión de

rechazar la hipótesis nula con un nivel de significancia del 0.05, porque los
datos apoyan la evidencia para considerar que dicha hipótesis no es cierta.
d) Valor P . Como la hipótesis alterna es H1 : µA > 265, entonces el valor
P es:
P − valor = 1 − Φ(zc ) = 1 − Φ(2.2863) = 1 − 0.9857 = 0.0143
Como el P -valor es menor que el nivel de significancia propuesto para el

test (α = 0.05), se rechaza la hipótesis nula y se concluye que µA > 265
con un P -valor de 0.0143, ver figura 71.
2. ¿Existe alguna razón para creer, a un nivel de significancia del 0.1, que µB =
500?. Suponga que la varianza es desconocida.
26
0.4
0.3
φ (z)
0.2
P −valor=0.0143
0.1
0.0
−4 −2 0 2 4
z zc = 2.2863
0.4
0.3
φ (z)
0.2
α=0.05
0.1
0.0
−4 −2 0 2 4
z z1−α = z0.95 = 1.645
Figura 71: Zona de rechazo y P -valor, ejemplo 183, item 1.
a) Las hipótesis nula y alterna son:

Ho : µ = 500 versus H1 : µ 6= 500
x̄ − µ0 535.5 − 500
b) tc =
√s
= 69.0093
√
= 1.4550
n 8
c) El criterio de rechazo según la hipótesis alterna es: se rechaza H0 cuando
tc ≤ t α ,n−1
2
ó tc ≥ t1− α ,n−1
2
con t α2 ,n−1 = t0.05,7 = −1.895 y t1− α2 ,n−1 = t0.95,7 = 1.895.

d) Como 1.4550 >-1.895 y 1.4550 <1.895 se toma la decisión de no rechazar
la hipótesis nula con un nivel de significancia del 0.1, porque los datos no
dan suficiente evidencia para considerar que dicha hipótesis es cierta.
e) Valor P . Como la hipótesis alterna es H1 : µ 6= 500, entonces
P − valor = 2[1 − F (|tc |, 7)] = 2[1 − F (|1.4550|, 7)] = 2(0.0945) = 0.1890.
con F indicando la distribución acumulada de la distribución t de Student.

Como el P-valor es mayor que el nivel de significancia, se concluye que
no se puede rechazar la hipótesis nula con un P-valor igual a 0.1890, ver
figura 72.
27
0.4
0.3
0.2
fT(t)
P −valor
2
= 0.0945
0.1
0.0
−4 −2 0 2 4
tc = 1.4550
t
0.4
0.3
0.2
fT(t)
α =0.05 α =0.05
2 2
0.1
0.0
−4 −2 0 2 4
t α = t0.05,7 = −1.8946 t1− α = t0.95,7 = 1.8946
2 2
t
Figura 72: Zona de rechazo y P -valor, ejemplo 183, item 2.
Prueba de hipótesis sobre una varianza cuando µ = 0.

Sea
H0 : θ 2 ≤ θ02 versus Ha : θ 2 > θ02
y µ = 0, entonces
 

 

( n
) 
 X n


−1 X  n 1 
2 2 −n/2 2 2 2
p(x; θ ) = (2πθ ) exp x i = exp − ln 2πθ + − x i
2θ 2 | 2 {z
 2θ 2 
i=1 
 } | {z } |i=1{z } 

 d(θ) c(θ)

T (x)
y como c(θ) = −1
θ es creciente en θ , entonces el test que rechaza H0 : θ ≤ θ0 si y
2
2 2
n
solo si T (x) = Xi2 > t0 es un test uniformemente más potente de nivel α, en que
P
i=1
28
α = Pθ0 (T > t0 ), ver teorema 47 y nota 75.

P
n 
n
! Xi2
X  i=1 t0  t0
α = Pθ0 (T > t0 ) = Pθ0 Xi2 > t0 = Pθ0 
 θ2
2
> 2  = Pθ0 χn > 2

i=1 0 θ0 θ0
t0
χ2n,1−α =
θ02
θ02 χ2n,1−α = t0
y por tanto el test uniformemente más potente rechaza H0 : θ2 ≤ θ02, cuando µ = 0,

si n X
Xi2 > θ02 χ2n,1−α
i=1
esto es,
n
P
Xi2
i=1
> χ2n,1−α .
θ02
De forma similar, ver Mayorga (2004)[p.239], el test uniformemente más potente
rechaza H0 : θ2 ≤ θ02, cuando µ es constante desconocida, si
n
X
(Xi − X̄)2 > θ02 χ2n−1,1−α
i=1
esto es,
(n − 1)S 2
> χ2n−1,1−α .
θ02
Ejemplo 184. Retomando el ejemplo 183, ¿existe alguna razón para creer, a un
nivel de significancia del 0.05, que la varianza del peso en gramos luego de 64 días
de aplicada la dieta B sea mayor de 2000?
1. Las hipótesis nula y alterna son
2
H 0 : σB ≤ 2000 versus 2
H 1 : σB > 2000
esto es, θ02 = 2000.

2. = 16.6680.
2
(nB −1)SB (7)4762.2857
χ2c = θ02
= 2000
3. El criterio de rechazo según la hipótesis alterna es: se rechaza H0 cuando χ2c >
χ2n−1,1−α con χ2n−1,1−α = χ27,0.95 = 14.07. Como 16.6680 > 14.07, se toma
la decisión de rechazar la hipótesis nula porque los datos arrojaron suficiente
29
evidencia para considerar que dicha hipótesis no es cierta. En consecuencia, la

varianza del peso en gramos luego de 64 días de aplicada la dieta B es mayor
de 2000 con un nivel de significancia de 0.05.
4. Valor P. Como la hipótesis alterna es H1 : 2 > 2000,
σB entonces el valor P
es:
P − valor = 1 − P (χ27 < χ2c ) = 1 − P (χ27 < 16.6680)] = 1 − 0.9803 = 0.0197.
Como el P-valor es menor que el nivel de significancia, se concluye que se

rechaza la hipótesis nula con un P-valor igual a 0.02, ver figura 73.
0.12
0.08
fX(x)
P −valor=0.0197
0.04
0.00
0 5 10 15 20
χ2
c = 16.668
x
0.12
0.08
fX(x)
α=0.05
0.04
0.00
0 5 10 15 20
x χ2 2
n−1,1−α = χ7,0.95 = 14.067
Figura 73: Zona de rechazo y P -valor, ejemplo 184.
Prueba de hipótesis sobre diferencia de medias de dos poblaciones inde-

pendientes
Sean X1 , X2 , X3 , . . . , Xn variables aleatorias independientes e idénticamente dis-
tribuidas tal que X1 ∼ N (µX , σX2 ) y sean Y1, Y2 , Y3 , . . . , Ym variables aleatorias inde-
pendientes e idénticamente distribuidas tal que Y1 ∼ N (µY , σY2 ), en que las muestras
aleatorias son independientes entre si. Se consideran tres casos: varianzas conocidas,
30
varianzas desconocidas pero se pueden asumir iguales a nivel poblacional y varianzas

desconocidas pero no se pueden asumir iguales a nivel poblacional.
Varianzas conocidas.
H 0 : µX − µY ≤ θ 0 versus H a : µX − µY > θ 0
2
σX σY2
X̄n ∼ N µX ,
n
y
Ȳm ∼ N µY ,
m
2
σX σY2
X̄n − Ȳm ∼ N µX − µY , +
n m
usando los resultados del ejemplo 181 el test que rechaza H0 : µX − µY ≤ θ0 si
X̄ − Ȳ > z1−α σX̄−Ȳ + θ0
r
2
σX σ2
> z1−α + Y + θ0
n m
esto es,
X̄ − Ȳ − θ0
q 2 2
> z1−α
σX σY
n + m
es test uniformemente más potente de nivel α.

Si las hipótesis consideradas fueran H0 : µX −µY ≥ θ0 versus Ha : µX −µY < θ0
el test que rechaza H0 si
X̄ − Ȳ − θ0
q 2 2
< −z1−α
σX σY
n + m

Si las hipótesis consideradas fueran H0 : µX −µY = θ0 versus Ha : µX −µY 6= θ0

X̄ − Ȳ − θ0
q > z1− α
σ2 2
σY 2
n + m
X
es test insesgado uniformemente más potente de nivel α.

Varianzas desconocidas pero se pueden asumir iguales a nivel pobla-
cional.
31
2
σX σ2
X̄n ∼ N µX ,
n
y Ȳm ∼ N µY , Y
m
2

σ σ2
X̄n ∼ N µX ,
n
y Ȳm ∼ N µY , m

σ2 σ2
X̄n − Ȳm ∼ N µX − µY , +
n m
X̄n − Ȳm − (µX − µY )
q ∼ N (0, 1)
1 1
σ n+m
De las notas de clase sobre intervalos de confianza, casos particulares, se sabe

que
X̄n − Ȳm − (µX − µY )
q = T ∼ tn+m−2 .
Sp n1 + m 1
2 2
con Sp2 = (n−1)S n+m−2
X,n+(m−1)S
el estimador de la varianza σ2.
Y,m
El test que rechaza H0 : µX − µY ≤ θ0 si

X̄ − Ȳ > tn+m−2,1−α σ̂X̄−Ȳ + θ0
r
1 1
> tn+m−2,1−α Sp + + θ0
n m
esto es,
X̄ − Ȳ − θ0
q > tn+m−2,1−α
Sp n1 + m 1

X̄ − Ȳ − θ0
q < −tn+m−2,1−α
Sp n1 + m 1


X̄ − Ȳ − θ0
q > tn+m−2,1− α
1 1
2
Sp
n + m


32
Varianzas desconocidas y no se pueden asumir iguales a nivel pobla-

cional.

σ2 σ2
X̄n ∼ N µX , X Ȳm ∼ N y µY , Y
n m
2
σX σY2
X̄n − Ȳm ∼ N µX − µY , +
n m
X̄n − Ȳm − (µX − µY )
q
2 2
∼ N (0, 1)
σX σY
n + m
De las notas de clase sobre intervalos de confianza, casos particulares, se sabe

que se puede usar como aproximación que
X̄n − Ȳm − θ0
q 2 ∼ tv
SX SY2
n + m
con 2
2
SX SY2
n + m
v≈ 2 2 2 .
S2

S
X Y
n m
n−1 + m−1
X̄ − Ȳ > tv,1−α σ̂X̄−Ȳ + θ0
r
2
SX S2
> tv,1−α + Y + θ0
n m
esto es,
X̄ − Ȳ − θ0
q
2
> tv,1−α
SX SY2
n + m

X̄ − Ȳ − θ0
q
2
< −tv,1−α
SX SY2
n + m
33


X̄ − Ȳ − θ0
q > tv,1− α
S2
SY2 2
n + m
X

El programa en R para diferencia de medias de dos poblaciones independientes es
remove(list=ls())
dietaA=c(278, 245, 269, 275, 280, 281, 284, 278, 280, 277)
dietaB=c(478, 496, 472, 628, 495, 490, 625, 600)
var.test(dietaA,dietaB,ratio=1,alternative="two.sided",
conf.level=0.90) ## test F para comparar dos
## varianzas e intervalo de confianza
t.test(dietaB,dietaA,mu=250,alternative="greater",
paired=FALSE,var.equal=FALSE,conf.level=0.98) # test
Prueba de hipótesis para diferencia de medias de dos poblaciones no in-

dependientes
H 0 : µX − µY ≤ θ 0 versus Ha : µX − µY > θ0

X1 X2 X3 Xn
Sean Y1
,
Y2
,
Y3
,...,
Yn
vectores aleatorios independientes e idénti-
camente distribuidos tal que
2
X1 µX σX ρσX σY
∼ N2 , ,
Y1 µY ρσX σY σY2
luego
E (X1 ) = µX y E (Y1 ) = µY
V ar (X1 ) = 2
σX y V ar (Y1 ) = σY2 y Cov (X1 , Y1 ) = ρσX σY
E (Y1 − X1 ) = µY − µX y V ar (Y1 − X1 ) = 2
σX + σY2 − 2ρσX σY .
n n
Si Di = Yi − Xi , D̄ = n1 y SD,n , se sabe que
P 2 1 P 2
Di = n−1 Di − D̄
i=1 i=1
√
n D̄n − (µX − µY )
∼ tn−1 .
SD,n
34

SD,n
D̄ > tn−1,1−α √ + θ0 ,
n
esto es,
D̄ − θ0
SD,n
> tn−1,1−α
√
n

Si las hipótesis consideradas fueran H0 : µX − µY ≥ θ0 versus Ha : µX − µY < θ0
D̄ − θ0
SD,n
< −tn−1,1−α
√
n

Si las hipótesis consideradas fueran H0 : µX − µY = θ0 versus Ha : µX − µY 6= θ0

D̄ − θ0
S√D,n > tn−1,1− α2

n


Ejemplo 185. Cinco muestras de una sustancia tipo ferrosa se utilizan para deter-
minar si existe una diferencia entre un análisis químico de laboratorio y un análisis
de fluorescencia de rayos X. Cada muestra se divide en dos submuestras y se aplican
los dos tipos de análisis. Los datos codificados que muestran los análisis de contenido
de fierro se presentan en la tabla 25. Si se supone que las poblaciones son norma-
Tabla 25: Datos codificados, ejemplo 185.

Muestras
Análisis 1 2 3 4 5
Rayos X 2.0 2.0 2.3 2.1 2.4
Químico 2.2 1.9 2.5 2.3 2.4
Di -0.2 0.1 -0.2 -0.2 0.0
les, pruebe, al nivel de significancia de 0.05, si los dos métodos de análisis dan, en
promedio, el mismo resultado.
1. De los datos se tiene que
D̄ = −0.1 n=5 SD,n = 0.1414
35
2. Del enunciado se tiene que θ0 = 0 y α = 0.05.

H 0 : µB − µA = 0 versus Ha : µB − µA 6= 0
4. tc = D̄−θ0
SD,n
√
= −0.1−0
0.1414
√
= −1.5814
n 5
5. El criterio de rechazo según la hipótesis alterna es: se rechaza H0 cuando

|tc | ≥ tn−1,1− α2
6. Buscando en la tabla
tn−1,1− α2 = t4,1− 0.05 = 2.776
2
7. Como |-1.5814| <2.776, se toma la decisión de no rechazar la hipótesis nula.

En consecuencia, no se puede rechazar la hipótesis de que los dos métodos de
análisis dan, en promedio, el mismo resultado con un nivel de significancia del
0.05.
8. Valor P . Como la hipótesis alterna es Ha : µB − µA 6= 0, entonces el valor P
es:
P −valor = 2[1−P (T < |tc |)] = 2[1−P (T < |−1.5814|)] = 2(1−0.9055) = 0.189.
Como el P-valor es mayor que el nivel de significancia no se rechaza la hipótesis

de que los dos métodos de análisis dan, en promedio, el mismo resultado con
un P-valor de 0.189.
El programa en R para el ejemplo 185
remove(list=ls())
rayosX=c(2.0,2.0,2.3,2.1,2.4)
quimico=c(2.2,1.9,2.5,2.3,2.4)
## varianzas e intervalo de confianza
t.test(rayosX,quimico,mu=0,alternative="two.sided",
paired=TRUE,conf.level=0.95) # test
## t para comparar dos medias poblaciones no
## independientes
36
Pruebas de hipótesis para diferencia entre dos proporciones poblacionales,

muestras independientes.
Sean X1 , X2 , . . . , Xn variables aleatorias independientes e idénticamente distri-
buidas bernoulli de parámetro pX y sean Y1, Y2 , . . . , Ym variables aleatorias indepen-
dientes e idénticamente distribuidas bernoulli de parámetro pY , en que las muestras
aleatorias son independientes entre si. Si se denota X̄n = p̂X y Ȳm = p̂Y y si los
tamaños de muestra son suficientemente grandes para cada una de las muestras, se
tiene
√ D
n (p̂X − pX ) −−−→ N (0, pX [1 − pX ])
p̂ − pX D
qX −−−→ N (0, 1)
pX (1−pX )
n
√ D
m (p̂Y − pY ) −−−→ N (0, pY [1 − pY ])
y
p̂ − pY D
qY −−−→ N (0, 1) ,
pY (1−pY )
m
ver ejemplo 142. Luego para n y m suficientemente grandes

p̂ − p̂Y − (pX − pY ) D
qX −−−
→ N (0, 1) .
pX (1−pX ) pY (1−pY )
n + m
Si las hipótesis son

H 0 : pX − pY = 0 versus Ha : pX − pY 6= 0,
usando pruebas de hipótesis sobre diferencia de medias de dos poblaciones inde-
pendientes cuando las varianzas son desconocidas, pero se pueden asumir iguales
(teniendo en cuenta que la varianza depende de p y bajo la hipótesis nula pX = pY )
el test que rechaza H0 : pX − pY = 0 si

q p̂X − p̂Y

> z1− α
2
p̂ (1 − p̂) 1 + 1
n m
n
P m
P
Xi + Yj
es test insesgado uniformemente más potente de nivel α, en que p̂ = m+n . i=1 j=1
Ejemplo 186. Una firma manufacturera de cigarrillos distribuye dos marcas. Si se

encuentra que 56 de 200 fumadores prefieren la marca A y que 29 de 150 fumadores
prefieren la marca B, ¿Puede concluirse en el nivel de significancia de 0.05 que la
preferencia por marca A difiere de la preferencia por la marca B?
37
1. Se sabe
56
p̂A = = 0.28 y nA = 200,
200
29
p̂B = = 0.1933 y nB = 150,
150
Pn Pm
Xi + Yj
i=1 j=1 56 + 29 85
p̂ = = = = 0.2429
m+n 200 + 150 350

H 0 : pA − pB = 0 versus Ha : pA − pB 6= 0.
3.
p̂X − p̂Y 0.28 − 0.1933
zc = q =q = 1.8718
1 1 1 1
p̂ (1 − p̂) n + m 0.2429 (1 − 0.2429) 200 + 150
4. El criterio de rechazo según la hipótesis alterna es: se rechaza H0 cuando

|zc | ≥ z1− α2
con z1− α2 = z1− 0.05 = 1.96.

2
5. Como 1.8718 <1.96, se toma la decisión de no rechazar la hipótesis nula, luego

no hay suficiente evidencia para considerar que la preferencia por marca A
difiere de la preferencia por la marca B.
6. Valor P . Como la hipótesis alterna es Ha : p0 6= 0, entonces el valor P es:
P − valor = 2 [1 − Φ(zc )] = 2(1 − Φ(1.8718)) = 2(1 − 0.96934) = 0.06132
Como el P-valor es mayor que el nivel de significancia propuesto (α = 0.05),

no rechaza la hipótesis nula y se concluye que no hay suficiente evidencia para
considerar que la preferencia por marca A difiere de la preferencia por la marca
B, con un P-valor de 0.06132.
La instrucción en R para comparación de dos proporciones, muestras independientes,
es
prop.test(x=c(56,29),n=c(200,150),alternative=c("two.sided"),
conf.level=0.95,correct=FALSE)
prop.test(x=c(56,29),n=c(200,150),alternative=c("two.sided"),
conf.level=0.95,correct=TRUE)
38
√
Note que en este caso zc = | {zχ}2c = 3.5013 = 1.871176.
p
Ejercicio 77. Roussas (1997)[p.336] Sean X1 , X2 , X3 , . . . , X16 variables aleatorias

independientes e idénticamente distribuidas. Construya un test más potente para pro-
bar la hipótesis nula sobre que la distribución de las X ’s es normal con media cero y
varianza 9 versus la hipótesis alterna sobre que la distribución de las X ’s es normal
con media 1 y varianza 9 al nivel de significancia α = 0.05. Encuentre la potencia
del test.
Ejercicio 78. Roussas (1997)[p.349] Sean X1 , X2 , X3 , . . . , Xn variables aleatorias
independientes e idénticamente distribuidas con función de densidad
1 −x
f (x; θ) = e θ I(0,∞) (x), θ ∈ Θ = (0, ∞)
θ
1. Derive el test uniformemente más potente para probar la hipótesis nula θ ≥ θ0
contra la hipótesis alterna θ < θ0 al nivel de significancia α.
2. Determine el tamaño de muestra mínimo n requerido para obtener una potencia
de al menos 0.95 contra la alternativa θ1 = 500 cuando θ0 = 1000 y α = 0.05.
Ejercicio 79. Casella & Berger (2002)[p.411]. Para cada situación calcule el p−valor
de acuerdo a los datos observados.
1. Para probar H0 : θ ≤ 12 versus H1 : θ > 21 , se observan 7 éxitos en un total de
9 ensayos bernoulli.
2. Para probar H0 : λ≤1 versus H1 : λ > 1, se observa X = 3, en que X ∼
P oisson(λ).
3. Para probar H0 : λ ≤ 1 versus H1 : λ > 1, se observa X1 = 3, X2 = 5 y

X3 = 1, en que Xi ∼ P oisson(λ) y X1 , X2 y X3 son independientes.
Ejercicio 80. Bickel & Doksum (2001)[p.274]. Sección 4.3, ejercicios 1, 4 y 6.

Test de razón de verosimilitud para el coeficiente de correlación ρ,
distribución normal bivariada.
En la nota 44 se presentó la distribución normal multivariada y el caso par-
ticular cuando p = 2, que corresponde a la distribución normal bivariada. Sean
j
El test prop.test realiza un prueba chi-cuadrado. El estadístico calculado que arroja para este
ejemplo es χ2c = 3.5013.
39

Y1i
vectores aleatorios bidimensionales, esto es, Y i =
Y 1, Y 2, . . . , Y n , indepen- Y2i
dientes e idénticamente distribuidos tal que Y 1 ∼ N2 (µ, Σ). La correspondiente
función de densidad conjunta es dada por
n n !
Y Y 1 −1
f (y 1 , y 2 , . . . , y n ) = f (y) = 1 exp [y i − µ]t Σ−1 [y i − µ]
2
i=1 2π|Σ|
2
i=1
( n
)
1 −1 X t −1
= exp
1 n
(y i − µ) Σ (y i − µ)
2π|Σ| 2 2
i=1
luego la log-verosimilitud de la función de densidad conjunta es dada por

1Xn
1
ln(f (y)) = −n ln 2π|Σ| 2 − (y i − µ)t Σ−1 (y i − µ)
2
i=1
n
n 1 X
(91)

= −n ln (2π) − ln (|Σ|) − (y i − µ)t Σ−1 (y i − µ) .
2 2
i=1
Derivando (91) con respecto a µ se tiene que

n

n 1 P t −1

∂ −n ln (2π) − 2 ln (|Σ|) − 2 (y i − µ) Σ (y i − µ)
∂ ln(f (y1 , y2 )) i=1
=
∂µ ∂µ
n

P
∂ y ti Σ−1 y i − y ti Σ−1 µ − µt Σ−1 y i + µt Σ−1 µ
∂ ln(f (y1 , y2 )) 1 i=1
=− ×
∂µ 2 ∂µ
( n n
) n
1 X X X
= − −2 Σ−1 y i + 2 Σ−1 µ = Σ−1 y i − nΣ−1 µ
|{z} 2
Nota 32. i=1 i=1 i=1
igualando a cero
n
X
Σ−1 y i − nΣ−1 µ̂ = 0
i=1
n
X
nΣ−1 µ̂ = Σ−1 y i
i=1
n
1X
µ̂ = yi.
n
i=1
40
n n
Por tanto µ̂Y = n1 y1i y µ̂Y = n1 y2i .
P P
1 2
i=1 i=1
Por otro lado, para encontrar el estimador de Σ, dado µ̂ fijo, se reescribe la
log-verosimilitud de la función de densida conjunta
n
n 1 X
ln(f (y)) = −n ln (2π) − ln (|Σ|) − (y i − µ̂)t Σ−1 (y i − µ̂)
2 2
i=1
n
n 1X
= −n ln (2π) − ln (|Σ|) − T raza (y i − µ̂)t Σ−1 (y i − µ̂)
2 2
i=1
n
n 1
(92)
X
= −n ln (2π) − ln (|Σ|) − T raza (y i − µ̂) (y i − µ̂)t Σ−1
|{z} 2 2
k i=1
derivando (92) con respecto a Σ se tiene

n

P
∂ −n ln (2π) − n
2 ln (|Σ|) − 1
2 T raza (y i − µ̂) (y i − µ̂)t Σ−1
∂ ln(f (y)) i=1
=
∂Σ ∂Σ
n
P t −1
∂ n ln (|Σ|) + T raza (y i − µ̂) (y i − µ̂) Σ
1 i=1
=− ×
2 ( ∂Σ )
n
1 t X t
= − n Σ−1 + −Σ−1 (y i − µ̂) (y i − µ̂)t Σ−1
|{z} 2
l i=1
( " n
# )
1 X t
=− nΣ−1 − Σ−1 (y i − µ̂) (y i − µ̂) Σ−1
2
i=1
igualando a cero
( " n # )
1 −1 −1 X −1
− nΣ̂ − Σ̂ (y i − µ̂) (y i − µ̂)t Σ̂ =0
2
i=1
k
Harville (1997)[p.51]. Para cualquier matriz A de orden m × n, cualquier matriz B de orden
n×p y cualquier matriz C de orden p × m,
T raza(ABC) = T raza(CAB) = T raza(BCA).
l
Magnus & Neudecker (1995)[p.178],
∂T raza(AB −1 ) t
= − B −1 AB −1 .
B
Harville (1997)[p.305],
∂ ln(|B|) t
= B −1 .
B
41
" n
#
−1 −1 X −1
nΣ̂ − Σ̂ (y i − µ̂) (y i − µ̂)t Σ̂ =0
i=1
" n #
−1 X t −1 −1
Σ̂ (y i − µ̂) (y i − µ̂) Σ̂ = nΣ̂
i=1
" n
#
−1 X t −1 −1
Σ̂Σ̂ (y i − µ̂) (y i − µ̂) Σ̂ Σ̂ = nΣ̂Σ̂ Σ̂
i=1
" n #
1 X
(y i − µ̂) (y i − µ̂)t = Σ̂
n
i=1
" n #
1 X y1i − µ̂Y1
y1i − µ̂Y1 y2i − µ̂Y2 = Σ̂
n y2i − µ̂Y2
i=1
" n #
1 X (y1i − µ̂Y1 )2 (y1i − µ̂Y1 ) (y2i − µ̂Y2 )
= Σ̂.
n (y1i − µ̂Y1 ) (y2i − µ̂Y2 ) (y2i − µ̂Y2 )2
i=1
Por tanto
n
1X
σ̂Y2 1 = (y1i − µ̂Y1 )2
n
i=1
n
1X
σ̂Y2 2 = (y2i − µ̂Y2 )2
n
i=1
n
1X
ρ̂σ̂Y1 σ̂Y2 = (y1i − µ̂Y1 ) (y2i − µ̂Y2 )
n
i=1
n
1 X
ρ̂ = (y1i − µ̂Y1 ) (y2i − µ̂Y2 ) .
nσ̂Y1 σ̂Y2
i=1
Se quiere probar las hipótesis

versus Ha : ρ 6= 0.
H0 : ρ = 0
El test de razón de verosimilitud para probar H0 es dado por, θ = ρ y Θ0 = {0},
sup L(θ; x)
θ∈Θ0
λ(x) =
sup L(θ; x)
θ∈Θ
con
( n
)
1 −1 X h −1
i
sup L(θ; x) = L(0; x) = exp
1 n
(y i − µ)t Σ̂0 (y i − µ)
θ∈Θ0 2π|Σ̂0 | 2 2
i=1
42
en que
σ̂Y2 1 0
Σ̂0 =
0 σ̂Y2 2
n
y sup L(θ; x) se tiene cuando ρ = nσ̂ 1σ̂ (y1i − µ̂Y1 ) (y2i − µ̂Y2 ). Entonces el LRT
P
Y1 Y2
θ∈Θ i=1
es dado por
sup L(θ; x)
θ∈Θ0
λ(x) =
sup L(θ; x)
θ∈Θ
n h i
1 −1 P t −1
1 n exp 2 (y i − µ̂) Σ̂0 (y i − µ̂)
2π|Σ̂0 | 2 i=1
= n h i
1 −1 P t −1
1 n exp 2 (y i − µ̂) Σ̂ (y i − µ̂)
2π|Σ̂| 2 i=1
!n ( n
)
Σ̂| 2
1

2π| 1 Xh t
h −1 −1
i i
= exp (y i − µ̂) Σ̂ − Σ̂ 0 (y i − µ̂)
Σ̂0 | 2
1

2π| 2
i=1
!n ( n )
|Σ̂| 2 1 Xh h −1 −1
i i
= exp (y i − µ̂)t Σ̂ − Σ̂0 (y i − µ̂)
|Σ̂0 | 2
i=1
Para 0 ≤ c ≤ 1, la región de rechazo de la forma

{x : λ(x) ≤ c}
 !n ( n ) 
 2 h h i i 
|Σ̂| 1 X −1 −1
= x: exp (y i − µ̂)t Σ̂ − Σ̂0 (y i − µ̂) ≤c
 |Σ̂0 | 2 
i=1
( ! n
)
n |Σ̂| 1 Xh h −1 −1
i i
= x : ln + (y i − µ̂)t Σ̂ − Σ̂0 (y i − µ̂) ≤ ln(c)
2 |Σ̂0 | 2
i=1
en que

σ̂Y2 1 ρ̂σ̂Y1 σ̂Y2
|Σ̂| ρ̂σ̂Y σ̂Y σ̂Y2 2 σ̂ 2 σ̂ 2 − ρ̂2 σ̂ 2 σ̂ 2
= 1 2 2 = Y1 Y2 2 2 Y1 Y2 = 1 − ρ̂2
|Σ̂0 | σ̂Y
1
0 σ̂Y1 σ̂Y2
0 σ̂ 2
Y2
2
−1 2 −1
−1 −1 σ̂Y1 ρ̂σ̂Y1 σ̂Y2 σ̂Y1 0
Σ̂ − Σ̂0 = −
ρ̂σ̂Y1 σ̂Y2 σ̂Y2 2 0 σ̂Y2 2
43
 
1
−1 −1 1

σ̂Y2 2 −ρ̂σ̂Y1 σ̂Y2
2
σ̂Y
0
Σ̂ − Σ̂0 = − 1
1

σ̂Y2 1 σ̂Y2 2 2 2
− ρ̂ σ̂Y1 σ̂Y2 −ρ̂σ̂Y1 σ̂Y2
2 σ̂Y2 1 0 2
σ̂Y
2
 2 
σ̂Y 2 ρ̂σ̂Y1 σ̂Y2
2 − σ̂ −
2
1
= 2 2  1−ρ̂ρ̂σ̂ σ̂ Y2 σ̂2 1−ρ̂ 
2
σ̂Y1 σ̂Y2 − 1−ρ̂ Y1 Y2 Y 1

− σ̂Y2 1
2 1−ρ̂2
 2 2 
ρ̂ σ̂Y ρ̂σ̂Y1 σ̂Y2
1 1−ρ̂2
2
− 1−ρ̂2
= 2 2  ρ̂σ̂ σ̂ ρ̂2 σ̂Y
2

σ̂Y1 σ̂Y2 − Y1 Y2 1
1−ρ̂2 1−ρ̂2

ρ̂ ρ̂σ̂Y2 2 −σ̂Y1 σ̂Y2
= 2 2
σ̂Y σ̂Y (1 − ρ̂2 ) −σ̂Y1 σ̂Y2 ρ̂σ̂Y2 1
1 2
luego
n h
X h −1 i i
−1
(y i − µ̂)t Σ̂ − Σ̂0 (y i − µ̂)
i=1
n
ρ̂ X ρ̂σ̂Y2 2 −σ̂Y1 σ̂Y2 y1i − µ̂Y1
= y 1i − µ̂ Y1 y 2i − µ̂ Y2
σ̂Y2 1 σ̂Y2 2 (1 − ρ̂2 ) i=1 −σ̂Y1 σ̂Y2 ρ̂σ̂Y2 1 y2i − µ̂Y2
| {z }
A
n
X ρ̂σ̂Y2 (y1i − µ̂Y1 ) − σ̂Y1 σ̂Y2 (y2i − µ̂Y2 )
=A y1i − µ̂Y1 y2i − µ̂Y2 2
ρ̂σ̂Y2 1 (y2i − µ̂Y2 ) − σ̂Y1 σ̂Y2 (y1i − µ̂Y1 )
i=1
n
(
X
=A ρ̂σ̂Y2 2 (y1i − µ̂Y1 )2 − σ̂Y1 σ̂Y2 (y2i − µ̂Y2 ) (y1i − µ̂Y1 ) + ρ̂σ̂Y2 1 (y2i − µ̂Y2 )2
i=1
)
− σ̂Y1 σ̂Y2 (y1i − µ̂Y1 ) (y2i − µ̂Y2 )
( n n
1X 1X
= A ρ̂σ̂Y2 2 n (y1i − µ̂Y1 )2 −2σ̂Y1 σ̂Y2 n (y2i − µ̂Y2 ) (y1i − µ̂Y1 )
n n
| i=1 {z } | i=1 {z }
2
σ̂Y ρ̂σ̂Y1 σ̂Y2
1
n
) ( )
1X
+ ρ̂σ̂Y2 1 n (y2i − µ̂Y2 )2 = A nρ̂σ̂Y2 2 σ̂Y2 1 − 2nρ̂σ̂Y2 1 σ̂Y2 2 + nρ̂σ̂Y2 1 σ̂Y2 2 =0
n
| i=1 {z }
2
σ̂Y
2
44
entonces
n n o
{x : λ(x) ≤ c} = x : ln 1 − ρ̂2 ≤ ln(c)
2
2
= x : ln 1 − ρ̂2 ≤ ln(c)
n

2 2
= x : 1 − ρ̂ ≤ exp ln(c)
n

2
= x : ρ̂2 ≥ 1 − exp ln(c)
n
corresponde a un test LRT para probar la hipótesis H0 : ρ = 0.
Ejercicio 81. Bickel & Doksum (2001)[p.290]. Sección 4.9, ejercicios 9 y 14.
Bondad de ajuste
En este tipo de pruebas se compara los datos de una muestra aleatoria clasificados
en un cierto tipo de categorias con las frecuencias esperadas para las categorías bajo
la hipótesis nula. Se rechazará la hipótesis nula si las frecuencias esperadas y las
frecuencias observadas difieren suficientemente, ver tabla 26.
Tabla 26: Tabla de frecuencias esperadas y tabla de frecuencias observadas.

Frecuencias esperadas Frecuencias observadas
Categoría Proporción Categoría Proporción
1 π10 1 n
n
1
2 π20 2 n
n
2
3 π30 3 n 3
.. .. .. ..
n
. . . .
ni
i πi0 i
.. .. .. ..
n
. . . .
nI
I πI0 I n
n n
Total Total
P P ni
πi0 = 1 n = 1
i=1 i=1
Si n es el tamaño de muestra (cantidad fija) y se consideran n ensayos indepen-

dientes, en que cada ensayo tiene su resultado en uno de I posibles resultados, se dice
que la distribución asociada respectiva es la distribución multinomial. Cabe notar
que la distribución binomial es un caso particular de la distribución multinomial en
que I = 2.
Definición 73 (Distribución multinomial). Casella & Berger (2002)[p.180]. Sean
n e I enteros positivos y sean p1 , p2 , p3 , . . . , pI numeros que satisfacen que 0 ≤ pi ≤ 1,
45
I
i = 1, 2, 3, . . . , I ,
y pi = 1. Entonces el vector aleatorio X1 X2 X3 . . . XI t
P
i=1
tiene una distribución multinomial con n ensayos y p1 , p2 , p3 , ..t . , pI probabilidades
de celda si la distribución conjunta de X1 X2 X3 . . . XI es
n!
f (x1 , x2 , x3 , . . . , xI ; p1 , p2 , p3 , . . . , pI ) = px1 px2 px3 . . . pxI I
x1 !x2 !x3 ! . . . xI ! 1 2 3
 
I
!
 n!  Y
pxi i
 
= I 
Q 
xi ! i=1
i=1
en que el conjunto de es tal que xi es un entero no negativo

t
x1 x2 x3 . . . xI
I
y xi = n .
P
i=1
Notando que, sin pérdida de generalidad,

I−1
X I−1
X
xI = n − xi pI = 1 − pi ,
i=1 i=1
la función de log-verosimilitud es
  
I
!
 n!  Y 
pxi i
  
l(p1 , p2 , p3 , . . . , pI−1 ; x1 , x2 , x3 , . . . , xI−1 ) = ln  I  
 Q  
xi ! i=1
i=1
I
X I
X
= ln (n!) + xi ln (pi ) − ln (xi !)
i=1 i=1
I−1 I−1
! I−1
! I
X X X X
= ln (n!) + xi ln (pi ) + n− xi ln 1 − pi − ln (xi !)
i=1 i=1 i=1 i=1
derivando con respecto a pi , i = 1, 2, 3, . . . , I − 1,

∂l(p1 , p2 , p3 , . . . , pI−1 ; x1 , x2 , x3 , . . . , xI−1 )
=
∂pi
I−1
I−1
I−1
I

P P P P
∂ ln (n!) + xi ln (pi ) + n − xi ln 1 − pi − ln (xi !)
i=1 i=1 i=1 i=1
∂pi
46
xI
z }| {
I−1
X
n− xi
xi i=1 xi xI
= + (−1) = −
pi I−1
X pi pI
1− pi
i=1
| {z }
pI
igualando a cero, Roussas (1997)[p.304],

XI
z }| {
I−1
X
n− xi
xi i=1
− = 0 i = 1, 2, 3, . . . , I − 1
p̂i 1 − p1 − p2 − · · · − p̂i − pi+1 − · · · − pI−1
| {z }
p̂I
xi XI
= i = 1, 2, 3, . . . , I − 1
p̂i p̂I
xi p̂I
= p̂i i = 1, 2, 3, . . . , I − 1
XI
I
como entonces
P
pi = 1
i=1
I I−1
X X xi p̂I
p̂i = 1 ⇔ + p̂I = 1 ⇔
XI
i=1 i=1
I−1
!
X XI
p̂I xi + XI = XI ⇔ p̂I =
n
|i=1 {z }
n
xi XnI
= p̂i i = 1, 2, 3, . . . , I − 1
XI
xi
= p̂i i = 1, 2, 3, . . . , I − 1
n
luego el estimador vía máxima verosimilitud para pi es p̂i = xn , i = 1, 2, 3, . . . , I .i
Ahora considere las hipótesis

H0 : pi = pi0 versus Ha : pi 6= pi0 i = 1, 2, 3, . . . , I (93)
47
entonces
sup L(θ; x) sup L(p1 , p2 , p3 , . . . , pI−1 ; x1 , x2 , x3 , . . . , xI−1 )
Θ0 Θ0
λ(x) = =
sup L(θ; x) sup L(p1 , p2 , p3 , . . . , pI−1 ; x1 , x2 , x3 , . . . , xI−1 )
Θ Θ
 
I

Q
 I
n! 
pxi0i
i=1 I I I
Q
i=1
xi ! Y pxi0i Y nxi pxi0i Y npi0 xi
= = x = =

i=1 xni i xxi i xi
I i=1 i=1
 n!  Q xi xi
I n
i=1
Q
xi !
i=1
Luego, para 0 ≤ c ≤ 1, la región de rechazo de la forma

( I )
Y npi0 xi
{x : λ(x) ≤ c} = x: ≤c
xi
i=1
corresponde a un test LRT para probar la hipótesis H0 : pi = pi0 , i = 1, 2, 3, . . . , I .

Para encontrar la distribución de λ(x) se usará el teorema 48, que da la distri-
bución asintótica de la razón de verosimilitud generalizada.
Teorema 48. Casella & Berger (2002)[p.490] Sea X1 , X2 , . . . , Xn una muestra alea-
toria de una función de densidad de probabilidad o de una función de masa de pro-
babilidad f (x; θ). Bajo condiciones de regularidad, si θ ∈ Θ0 entonces la distribución
de la estadística −2 ln [λ (x)] converge a la distribución chi-cuadrado cuando el ta-
maño de muestra tiende a infinito. Los grados de libertad de la distribución límite
son la diferencia entre el número de parámetros libres dados por θ ∈ Θ0 y el número
de parámetros libres dados por θ ∈ Θ. Asi, se rechaza H0 si y sólo si
−2 ln (λ (x)) ≥ χ2v,1−α ,
a un nivel de significancia del α, i.e.,

lı́m Pθ {x : λ(x) ≤ c} = α
n→∞
para cada θ ∈ Θ0 .
Retomando
" I #
Y npi0 xi
−2 ln [λ (x)] = −2 ln
xi
i=1
I
X npi0 D
= −2 xi ln −−−→ χ2I−1
xi
i=1
48
entonces
lı́m Pθ {x : λ{x} ≤ c} = α
n→∞
( I x )
Y npi0 i
lı́m Pθ x : ≤c =α
n→∞
i=1
xi
( " I # )
Y npi0 xi
lı́m Pθ x : −2 ln ≥ −2 ln(c) = α
n→∞
i=1
xi
( I )
X npi0
lı́m Pθ x : −2 xi ln ≥ −2 ln(c) = α
n→∞
i=1
xi
( I )
X npi0
lı́m Pθ x : −2 xi ln < −2 ln(c) = 1 − α
n→∞
i=1
xi
χ2I−1,1−α = −2 ln(c)
( )
−χ2I−1,1−α
exp =c
2
por tanto, la región de rechazo de la forma

( I x ) ( I x ( ))
Y npi0 i Y npi0 i −χ2I−1,1−α
{x : λ(x) ≤ c} = x: ≤c = x: ≤ exp
i=1
xi i=1
xi 2
( " I # " ( )#)

Y npi0 xi −χ2I−1,1−α
{x : λ(x) ≤ c} = x : ln ≤ ln exp
xi 2
i=1
( I )
X npi0 −χ2I−1,1−α
= x: xi ln ≤
xi 2
i=1
( I )
X npi0 2
= x : −2 xi ln ≥ χI−1,1−α
xi
i=1
corresponde a un test LRT para probar la hipótesis H0 : pi = pi0 , i = 1, 2, 3, . . . , I .

Ejemplo 187. Canavos (1988)[p.374] Con base en registros de una tienda de ropa, el
50 % de los vestidos adquiridos para esta temporada se venderá a precio de menudeo,
el 25 % a un 20 % menos del precio de menudeo, el 15 % se venderá después de una
reducción de su precio al 40 % y los restantes con una disminución en su precio del
60 %. Para la temporada se adquirieron 300 vestidos y su venta se presenta en la
tabla 27.
¿Existe alguna razón para creer que el porcentaje de ventas según porcentaje de
descuento fue diferente en esta temporada con respecto a las temporadas anteriores?
Usar un nivel de significancia de 0.05 y calcular el P -valor.
49
Tabla 27: Distribución de ventas de los vestidos por porcentaje de disminucíón en su

precio de venta.
Precio de venta 20 % de descuento 40 % de descuento 60 % de descuento
140 90 30 40
1. Del enunciado se tiene n = 300, I = 4 y α = 0.05.

2. Si p1 corresponde a la proporción de ventas de vestidos al precio de menudeo,
p2 corresponde a la proporción de ventas de vestidos a un 20 % menos del precio
de menudeo, p3 corresponde a la proporción de ventas de vestidos a un 40 %
menos del precio de menudeo y p4 corresponde a la proporción de ventas de
vestidos a un 60 % menos del precio de menudeo, las hipótesis nula y alterna
son:        
p1 0.50 p1 0.50
p2  0.25 p2  0.25
Ho : 
p3  = 0.15
   versus H1 : 
p3  6= 0.15
  
p4 0.10 p4 0.10
3.
I
X npi0
χ2c = −2 xi ln
xi
i=1

300 × 0.50 300 × 0.25
= −2 140 ln + 90 ln +
140 90

300 × 0.15 300 × 0.10
30 ln + 40 ln = 12.1865
30 40
4. El criterio de rechazo es: se rechaza H0 cuando

χ2c ≥ χ2I−1,1−α
χ2I−1,1−α = χ23,0.95 = 7.8147
6. Como 12.1865 >7.8147 se concluye que el porcentaje de ventas según porcentaje

de descuento fue diferente en esta temporada con respecto a las temporadas
anteriores con nivel de significancia de 0.05.
7. Valor P . En este caso se evalua como área a la derecha del estadístico calcu-
lado.
P − valor = P (χ23 > χ2c ) = 1 − P (χ23 ≤ χ2c ) = 1 − P (χ23 ≤ 12.1865)
= 1 − 0.99323 = 0.00677
50
Como el P-valor es menor que el nivel de significancia propuesto (α = 0.05),

se rechaza la hipótesis nula y se concluye que el porcentaje de ventas según
porcentaje de descuento fue diferente, en esta temporada con respecto a las
temporadas anteriores, con un P-valor de 0.00677.
Otro test muy utilizado en la práctica para probar las hipótesis presentadas
en (93) fue propuesto por Pearson y es dado por
I
X (xi − npi0 )2
χ2c =
npi0
i=1
en que se rechaza H0 : pi = pi0, i = 1, 2, 3, . . . , I , si y solo si

χ2c > χ2I−1,1−α .
Ejemplo 188. Retomando el ejemplo 187, resolver la pregunta usando el test de

Pearson.
1. Del enunciado se tiene n = 300, I = 4 y α = 0.05.
2. Si p1 corresponde a la proporción de ventas de vestidos al precio de menudeo,
p2 corresponde a la proporción de ventas de vestidos a un 20 % menos del precio
de menudeo, p3 corresponde a la proporción de ventas de vestidos a un 40 %
menos del precio de menudeo y p4 corresponde a la proporción de ventas de
vestidos a un 60 % menos del precio de menudeo, las hipótesis nula y alterna
son:        
p1 0.50 p1 0.50
p2  0.25 p2  0.25
Ho : 
p3  = 0.15
   versus H1 : 
p3  6= 0.15
  
p4 0.10 p4 0.10
3.
I
X (xi − npi0 )2
χ2c =
npi0
i=1
(140 − 300 × 0.50)2 (90 − 300 × 0.25)2 (30 − 300 × 0.15)2
= + +
300 × 0.50 300 × 0.25 300 × 0.15
(40 − 300 × 0.10)2
+ = 12
300 × 0.10
4. El criterio de rechazo es: se rechaza H0 cuando

χ2c ≥ χ2I−1,1−α
51
REFERENCIAS Elementos de pruebas de hipótesis
χ2I−1,1−α = χ23,0.95 = 7.8147
6. Como 12 >7.8147 se concluye que el porcentaje de ventas según porcentaje

de descuento fue diferente en esta temporada con respecto a las temporadas
anteriores con nivel de significancia de 0.05.
7. Valor P . En este caso se evalua como área a la derecha del estadístico calcu-
lado.
P − valor = P (χ23 > χ2c ) = 1 − P (χ23 ≤ χ2c ) = 1 − P (χ23 ≤ 12)
= 1 − 0.9926 = 0.0074
Como el P-valor es menor que el nivel de significancia propuesto (α = 0.05),

se rechaza la hipótesis nula y se concluye que el porcentaje de ventas según
porcentaje de descuento fue diferente, en esta temporada con respecto a las
temporadas anteriores, con un P-valor de 0.0074.
Las instrucciones en R para este test son
remove(list=ls())
ventas=matrix(c(140,90,30,40))
dimnames(ventas) = list(c("Precio de venta","20% de descuento",
"40% de descuento","60% de descuento"))
ventas
chisq.test(ventas,p=c(0.50,0.25,0.15,0.10))## test Ji-cuadrado
Referencias
Bickel, P. & Doksum, K. (1977), Mathematical Statistics: Basic ideas and selected
topics, San Francisco: Holden-Day Inc.
Bickel, P. & Doksum, K. (2001), Mathematical Statistics: Basic ideas and selected
topics, Vol. I, second edn, New Jersey: Prentice Hall.
Canavos, G. (1988), Probabilidad y estadística. Aplicaciones y Métodos, México: Mc
Graw-Hill.
Casella, G. & Berger, R. (2002), Statistical Inference, second edn, Thomspon Lear-
ning.
Cox, D. & Hinkley, D. (1974), Theoretical statistics, first edn, New York: Springer.
52
REFERENCIAS Elementos de pruebas de hipótesis
Harville, D. A. (1997), Matrix Algebra from a Statistician’s Perspective, New York:

Springer.
Lehmann, E. & Romano, J. (2008), Testing statistical hypotheses, third edn, Springer-
Verlag, Inc.
Magnus, J. & Neudecker, H. (1995), Matrix differential calculus with applications in
statistics and econometrics, John Wiley & Songs.
Mayorga, H. (2004), Inferencia estadistica, Bogotá: Universidad Nacional de Colom-
bia.
Mood, A., Graybill, F. & Boes, D. (1974), Introduction to the Theory of Statistics,
third edn, Singapore: McGraw-Hill.
Roussas, G. (1997), A course in mathematical statistics, second edn, San Diego:
Academic Press.
53

10.elementos de Pruebas de Hipótesis

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

10.elementos de Pruebas de Hipótesis

Cargado por

Copyright:

Formatos disponibles

Notas de Clase elaboradas por L. M.

Elementos de pruebas de hipótesis

Sean dos estimadores vía máxima verosimilitud de θ, digamos θ̂(< ∞) y θ̂0(<

Ejemplo 169. Casella & Berger (2002)[p.374] Sean X1 , X2 , X3 . . . , Xn variables

Por tanto, para 0 ≤ c ≤ 1, la región de rechazo de la forma

El interés es sobre las hipótesis H0 : θ ≤ θ0 versus H1 : θ > θ0 , con θ0 una constante

Por otro lado, Θ0 = (−∞, θ0 ] y

Si θ0 ≤ x(1) entonces, ver figura 66,

Si θ0 > x(1) entonces, ver figura 67,

Luego el LRT es dado por

Para 0 ≤ c ≤ 1, la región de rechazo de la forma

= x : nθ0 − ln(c) ≤ nx(1) si θ0 ≤ x(1)

para cada x en el espacio muestral.

Definición 65. Casella & Berger (2002)[p.383]. La función de potencia de una

Figura 68: Función de potencia β(θ), ejemplo 171.

Note que si θ ≤ 21 , esto es, si la hipótesis nula es verdadera, la función de potencia

Definición 68 . Bickel & Doksum (1977)[p.167]. La potencia de un test es la

Figura 69: Función de potencia β(θ), ejemplo 171.

Definición 69 Casella & Berger (2002)[p.387]. Un test con función de potencia

Se encontró que la región de rechazo de la forma

corresponde aun LRT para probar H0 : θ = θ0 . Su correspondiente función de poten-

con Φ(.) la función de distribución acumulada de la variable aleatoria Z ∼ N (0, 1).

Figura 70: Función de potencia β(θ) para θ0 = 2, n = 10 y considerando dos valores

Ejemplo 174. Retomando el ejemplo 169, se encontró que la región de rechazo de

corresponde aun LRT para probar H0 : θ = θ0 . Luego

en que −∞ < θ < ∞. Las hipótesis consideradas son

con θ0 una constante previamente establecida. Se encontró que para 0 ≤ c ≤ 1, la

corresponde a un test LRT para probar la hipótesis H0 : θ ≤ θ0 , luego

sea u = −n(t − θ) = −nt + nθ entonces du = −ndt, dt = − n1 du y

exp{ln(c)} sup [exp{−n(θ0 − θ)}] = α

notando que exp{−n(θ0 − θ)} toma su máximo cuando θ = θ0 se tiene que c = α, y

Definición 70 . El p-valor es α(T (X)). Bickel & Doksum (2001)[p.222].

En otras palabras, el p-valor o tamaño observado o probabilidad de signi-

probar H0 : θ ∈ Θ0 vs H1 : θ ∈ Θc0 . Un test en la clase C , con función de potencia

θ ∈ Θc0 y cada β ′ (θ), que es una función de potencia de un test en la clase C .

con k ≥ 0. A ϕk (x) se le llama función de test y es una función indicadora de la

Veamos: 1. Como ϕk (x) es un test de razón de verosimilitud de tamaño α se tiene

= Eθ0 [ϕk (X)]

Como ϕ′k (x) = 0 ó ϕ′k (x) = 1 se tiene que

para cada x. Integrando se tiene que

excepto si al caso en un conjunto A con medida cero, esto es,

2. Calcule la probabilidad del error tipo II para este test.

Ejemplo 176. Sean X1 , X2 , . . . , Xn variables aleatorias independientes e idéntica-

suficiente para θ. Considere las hipótesis H0 : θ = θ0 vs H1 : θ = θ1 en que θ0 > θ1 .

Luego el test uniformemente más potente rechaza H0 si X̄ < σz

Si las hipótesis consideradas fueran H0 : θ = θ0 vs H1 : θ = θ1 en que θ0 < θ1 ,

Ejemplo 177. Sean X1, X2 , . . . , Xn variables aleatoris independientes e idéntica-

Si n es suficientmente grande, utilizando el ejemplo 142,

Si las hipótesis consideradas fueran H0 : θ = θ0 vs H1 : θ = θ1 en que 0 < θ0 < θ1 <

Si las hipótesis consideradas fueran H0 : θ = θ0 vs H1 : θ 6= θ0 , para n suficientemente

luego Θ0 = {θ0 } y Θ = {θ0 , θ1 }. El test de razón de verosimilitud para probar H0′

Si sup θ x (1 − θ)n−x se tiene cuando θ = θ0 entonces λ(x) = 1, por otro lado, si

Luego, para 0 ≤ c ≤ 1, la región de rechazo de la forma

Ejemplo 179. Suponga que X1 , X2 , X3 , . . . , Xn son variables aleatorias indepen-

Ejemplo 180. Sean X1 , X2 . . . , Xn variables aleatorias independientes e idéntica-

Sean 0 < θ1 < θ2 < ∞, se tiene que

Teorema 47 (Karlin-Rubin). Casella & Berger (2002)[p.391]. Considere la prueba

Ejemplo 181. Sean X1, X2 , X3 , . . . , Xn variables aleatorias independientes e idénti-

H0 : θ ≤ θ0 versus H1 : θ > θ0 . Como la distribución normal pertenece a la fami-

Luego para 0 ≤ c ≤ 1, la región de rechazo de la forma

corresponde a un test LRT para probar la hipótesis H0 : µ = µ0 .

bajo H0 se tiene que √

Algunos casos particulares