Documentos de Académico
Documentos de Profesional
Documentos de Cultura
J. Humberto Mayorga A.
Profesor Asociado
Departamento de Estadı́stica - Facultad de Ciencias
Prólogo iii
Introducción v
1 DISTRIBUCIONES MUESTRALES 1
1.1 La Inferencia estadı́stica, un soporte epistemológico . . . . . . . . 1
1.2 Preliminares en la Inferencia estadı́stica . . . . . . . . . . . . . . 4
1.3 Preliminares en convergencia de variables aleatorias . . . . . . . 9
1.4 Caracterı́sticas generales de algunas estadı́sticas . . . . . . . . . . 12
1.5 Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.1 Distribución de las estadı́sticas de orden . . . . . . . . . . 19
1.5.2 Distribución del rango, semirango y mediana muestrales . 20
1.5.3 Distribución de la función de distribución empı́rica . . . . 21
1.6 Momentos de estadı́sticas de orden . . . . . . . . . . . . . . . . . 23
1.7 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . . 25
1.8 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . 42
i
ii ÍNDICE GENERAL
iii
iv PRÓLOGO
v
vi INTRODUCCIÓN
DISTRIBUCIONES
MUESTRALES
“El conocimiento que tenemos del mundo está basado en la elaboración de un
modelo de la realidad, modelo que puede cotejarse con la experiencia tan sólo
de manera parcial y ocasionalmente... Este modelo se construye teniendo en
cuenta la utilización que hacemos del mismo...”
J. Bruner, “On cognitive growth”
1
2 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES
XX, avances que no podı́an pasar desapercibidos para los pensadores, obligaron
a los filósofos a revisar muchas de las ideas de los clásicos y es ası́ como un grupo
de hombres de ciencia, matemáticos y filósofos, se organizan en 1922 en torno
al fı́sico Moritz Schlick, profesor de filosofı́a de la ciencia de la Universidad de
Viena, convirtiéndose en un movimiento filosófico internacional, principal pro-
motor del positivismo lógico, (también llamado neopositivismo, neoempirismo
o empirismo lógico), movimiento conocido como Cı́rculo de Viena, conformado
entre otros, además de Schlick, por Hahn, Frank, Neurath, Kraft, Feigl, Wais-
mann, Gödel, y Carnap; Einstein, Russell y Wittgenstein eran considerados
como miembros honorı́ficos y Ramsey y Reinchenbach como miembros simpati-
zantes del mismo.
Este movimiento filosófico se dedicó a muchos y variados temas de la Filosofı́a
de la Ciencia, y por supuesto al problema de la inducción. En sı́ntesis se puede
afirmar que el hilo conductor de las ideas del Cı́rculo de Viena fue la defensa
de una visión cientı́fica del mundo a través de una ciencia unificada ligado al
empleo del análisis lógico en el sentido de Russell.
Pero respecto al tema de la inducción, el Cı́rculo no cerró la discusión; concre-
tamente para Popper y sus seguidores, la escuela del refutacionismo, el método
cientı́fico no utiliza razonamientos inductivos, sino razonamientos hipotético-
deductivos, ası́ se acopien datos y hechos particulares dentro del procedimiento
de evaluación de una hipótesis que dan paso a una conclusión de carácter general,
no existe como tal un razonamiento inductivo. Para el refutacionismo la ciencia
se concibe como una sucesión de conjeturas y refutaciones: se proponen conje-
turas para explicar los hechos, que luego serán refutadas para promover nuevas
conjeturas. En sı́ntesis, para Popper y su escuela, ninguna teorı́a cientı́fica puede
establecerse en forma concluyente.
Sin embargo, para Feyerabend y Kuhn, en otro momento de gran contro-
versia en este tema, las décadas del 60 y 70, la práctica cientı́fica no está en
correspondencia con este proceder racional ni tampoco puede lograrlo, porque
en gran medida existen supuestos relativos a la objetividad, a la verdad, al papel
de la evidencia y a la invariabilidad semántica. Para Feyerabend, no existen,
principios universables de racionalidad cientı́fica; el crecimiento del conocimien-
to es siempre especı́fico y diferente como tampoco sigue un camino de antemano
fijado.
Dentro de esta controversia, a la Inferencia estadı́stica no se le ha eximido
del problema de la inducción. Ronald Fisher, considerado por muchos el padre
de la Estadı́stica, defendió el papel inductivo que conlleva el juzgamiento de
hipótesis 1 . Sin embargo un sector de cientı́ficos y filósofos consideran que tanto
la estimación de parámetros como el juzgamiento de hipótesis tienen dirección
inductiva pero el razonamiento o inferencia que se lleva a cabo es de carácter
deductivo.
En fin, la Historia y la Filosofı́a de la Ciencia tuvieron un enorme auge a
lo largo del siglo pasado, continúan acopiando y estructurando reflexiones y
argumentos sobre la inducción, pero al no ser el propósito de esta sección tratar
1 La denominación juzgamiento de hipótesis será justificada en el capı́tulo 4.
4 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES
i=1
σ n−1
8 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES
100%
Desechable Ideal
Cantidad
ADMISIBLE
Funesta Inadmisible
0 Calidad 100%
ción.2001
1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 9
1 r
n
Mr,n = X
n i=1 i
1
n
Mr,n = (Xi − X n )r
n i=1
En particular cuando r = 1, primer momento ordinario muestral, M1,n = X n,
es llamado de manera más corriente, promedio muestral o promedio de la
muestra. Se prefiere como varianza muestral en cambio del segundo mo-
mento muestral, por razones que posteriormente se justificarán, a la expresión
1
n
(Xi − X n )2
n − 1 i=1
En efecto,
P lim Xn = 0 = 1
n→∞
1 n n
n
puesto que P [Xn = 0] = 1 − 2 . Como V [Xn ] = 12 1 − 12 , puede
notarse el decrecimiento de la varianza en cuanto n se incrementa, es decir
que Xn va perdiendo el carácter de variable aleatoria porque su varianza va
tendiendo a cero, la variable va asumiendo rasgos de una constante.
Convergencia
casi segura
Convergencia en Convergencia en
probabilidad distribución
Convergencia en
valor esperado
1
V [Mr,n ]= E[X 2r ] − (E[X r ])2
n
1
= μ2r − (μr )2
n
Corolario 1.4.1.1. Bajo las hipótesis del teorema 1.4.1,
E[X n ] = μ1 = μ
σ2
V [X n ] =
n
Teorema 1.4.2. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población
con valor esperado, también llamado promedio poblacional, μ y varianza σ 2 ,
y existiendo además el momento central de orden cuatro μ4 , entonces
1
n
2
E[Sn ] = E (Xi − X n ) = σ 2
2
n − 1 i=1
1 n−3 4
V [Sn2 ] = μ4 − σ ,n > 1
n n−1
σ2
para n entero mayor que 2 , > 0, δ > 0; lo cual permite determinar la
δ
magnitud del tamaño muestral bajo prefijados requisitos. Esta cota para el
tamaño de la muestra debe entenderse dentro del contexto de una población
infinita y una muestra simple.
Ejemplo 1.4.1. ¿Cuál debe ser el tamaño de la muestra para tener una
probabilidad de 0.95 de que el promedio muestral no difiera en más de una
cuarta parte de la desviación estándar de μ?
En esta situación, = 0.25σ, δ = 0.05, por lo tanto
σ2
n> = 320
(0.25σ)2 0.05
p
Mr,n → μr ,
− r = 1, 2, . . .
n
(Xi − μi )
i=1 d
−
→ Z ∼ N (0, 1)
τn
si y sólo si para cada > 0,
1
n
lim 2 (x − μi )2 fi (x)dx = 0
n→∞ τn |x−μ |≥τ
i=1 i n
n
(Xi − X n )2 (n − 1)Sn2
= ∼ χ2 (n − 1)
i=1
σ2 σ2
cov(X n , Sn2 ) = 0
1 n n
Sn2 = (Xi − Xj )2
2n(n − 1) i=1 j=1
• El semirango muestral
X1,n + Xn,n
SR =
2
• La mediana muestral
⎧
⎪
⎪ X n+1 ,n , si n es impar
⎪
⎨ 2
Me =
⎪
⎪
⎪ X n + X n2 +1,n
⎩ 2 ,n , si n es par
2
• La función de distribución empı́rica o función de distribución
muestral
1
n
Fn (x) = I(−∞,x] (xi )
n i=1
1.5. ESTADÍSTICAS DE ORDEN 19
es decir,
⎧
⎪ 0, si x < X1,n
⎪
⎪
⎪
⎪
⎪
⎨
k
Fn (x) = , si Xk,n ≤ x < Xk+1,n
⎪n
⎪
⎪
⎪
⎪
⎪
⎩
1, si x ≥ Xn,n , k = 1, 2, . . . , n − 1
Corolario 1.5.1.1. Para los casos especiales del mı́nimo y máximo de la mues-
tra se tiene:
c(n, j, k)[FX (x)]j−1 [FX (y) − FX (x)]k−j−1 [1 − FX (y)]n−k fX (y)fX (x)I(x,∞) (y)
1
fX (x) = I(α,β) (x)
β−α
x−α
FX (x) = I(α,β) (x) + I[β,∞) (x)
β−α
k−1 n−k
n! y−α y−α 1
fXk,n (y) = 1− I(α,β) (y)
(k − 1)!(n − k)! β − α β−α β−α
n
n! 1
= (y − α)k−1 (β − y)n−k I(α,β) (y)
(k − 1)!(n − k)! β − α
Nota. Una variable aletoria X con distribución Beta en el intervalo (0, 1) puede
generar una variable aleatoria Y con distribución Beta en el intervalo (α, β)
mediante la relación
Y = α + (β − α)X
k−1
n l
P [Xj,n < xp < Xk,n ] = p (1 − p)n−l
l
l=j
R = Xn,n − X1,n
X1,n + Xn,n
T =
2
1.5. ESTADÍSTICAS DE ORDEN 21
(2m)!
= [FX (x)]m−1 [1 − FX (x)]m−1 fX (x)fX (y)
[(m − 1)!]2
x+y
con x < y. Considerando la transformación u = 2 ,v = y, se tiene que
f x+y (u) = fU (u)
2
∞
2(2m)!
= [FX (2u − v)]m−1 [1 − FX (v)]m−1 fX (2u − v)fX (v)dv
[(m − 1)!]2 u
n
luego Zi ∼ Ber(FX (x)), por lo tanto Zi ∼ Bin(n, FX (x)) y por consiguiente
i=1
FX (x)[1 − FX (x)]
V [Fn (x)] =
n
Teorema 1.5.4. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de distribución FX (x), entonces
P
Fn (x) −→ FX (x)
FX (x)
Fn (x)
|
x
x
Realizando la sustitución v =
y
1
n!
Δ= y(1 − y)n−k y k β(j + 1, k − j) dy
(j − 1)!(k − j − 1)!(n − k)! 0
n!
= β(1 + j, k − j)β(k + 2, n − k + 1)
(j − 1)!(k − j − 1)!(n − k)!
j(k + 1)
= = E[Xj,n , Xk,n ]
(n + 1)(n + 2)
con lo cual
j(k + 1) jk
Cov(Xj,n , Xk,n ) = − j<k
(n + 1)(n + 2) (n + 1)2
j(n − k + 1)
ρ(Xj,n , Xk,n ) = j<k
k(n − j + 1)
1
ρ(X1,n , Xn,n ) =
n
Como ya se mencionó, en algunos casos se requiere integración numérica
para determinar momentos de una estadı́stica de orden. Sin embargo es posible
presentar expresiones que permiten aproximar el valor esperado y varianza de
la k-ésima estadı́stica de orden.
El desarrollo de estas expresiones se basa en una expansión en serie de Taylor
y en el hecho de que si X es una variable aleatoria con función de distribución
FX (x) continua, la variable aleatoria Y = FX (X) tiene distribución Uniforme
en (0, 1), entonces
−1 k
E[Xk,n ]
FX
n+1
k(n − k + 1)
V [Xk,n ]
2
−1 k
(n + 1)2 (n + 2) fX FX n+1
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 25
hecho revelador de que Fn (x) −→ F (x) siendo F (x) una función de distribución
tal que
0 si x < c
F (x) =
1 si x ≥ c
entonces
luego
p
lo cual significa que Xn −
→ c.
Demostración (Teorema 1.4.1). El valor esperado del momento ordinario
de orden r puede determinarse mediante dos argumentos. En primer lugar,
utilizando las propiedades del valor esperado se tiene que
n
1 r 1
n
E[Mr,n ] = E Xi = E[Xir ], r = 1, 2, . . .
n i=1 n i=1
1
n
1
E[Mr,n ]= μ = (nμr ) = μr
n i=1 r n
y debido a que las variables aleatorias son independientes, pues constituyen una
muestra aleatoria, lo son también las variables X1r , X2r , . . . , Xnr , con lo cual
1 1
n n
2
V [Mr,n ] = 2 r
V [Xi ] = 2 E[Xi2r ] − (E[Xir ])
n i=1 n i=1
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 27
1 1
n
V [Mr,n ]= 2
μ2r − (μr )2 = μ2r − (μr )2
n i=1 n
n
n
porque (Xi − X n ) = Xi − nX n = nX n − nX n = 0, y por lo tanto
i=1 i=1
n
(Xi − μ)2 = (n − 1)Sn2 + n(X n − μ)2
i=1
σ2
P [X n − μ < ] ≥ 1 − 2
n
de tal manera que
σ2
lim P [X n − μ < ] ≥ lim 1 − 2 = 1
n→∞ n→∞ n
es decir que
lim P [X n − μ < ] = 1
n→∞
p
lo cual significa que X n −
→ μ, como lo afirma la ley débil de los grandes números.
σ2
Nota. La cota 1 − 2 crece en cuanto n crece. Si se fija la cota en 1 − δ,
n
0 < δ < 1, significa que existe un tamaño de muestra mı́nimo n, para el cual
σ2
P [|X n − μ| < ] ≥ 1 − δ. Dicho en otros términos 1 − 2 > 1 − δ, es decir,
n
σ2
P [− < X n − μ < ] ≥ 1 − δ, para n >
δ2
Demostración (Teorema 1.4.4). Utilizando la función generatriz de momen-
tos de la variable que representa a la población MX (t), o en su defecto la función
caracterı́stica φX (t),
t t t
MX n (t) = E e tX n
= E exp X1 + X2 + · · · + Xn
n n n
como las variables constituyen una muestra aleatoria,
n t
n t n
t
MX n (t) = E e n Xi = E e n X
= MX
i=1 i=1
n
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 29
entonces
2
n
μ t 1 t
MX n (t) = 1 + 2
+ E[X ] + ···
1! n 2! n
n
μt t
lim MX n (t) = lim 1+ +O = eμt
n→∞ n→∞ n n
función generatriz que corresponde a la función generatriz de una constante μ.
(O es el sı́mbolo “o pequeña”usado en el estudio de las series). Lo cual significa
que
d
Xn −
→μ
y con base en el teorema 1.3.4 se tiene que
p
Xn −
→μ
Demostración (Teorema 1.4.5). Como la sucesión X1r , X2r , . . . , Xnr confor-
ma un conjunto de variables aleatorias independientes e idénticamente dis-
tribuidas porque la sucesión X1 , X2 , . . . , Xn es una muestra aleatoria, entonces
sólo resta aplicar el teorema relativo a la Ley débil de los grandes números uti-
lizando la sucesión X1r , X2r , . . . , Xnr , con lo cual se puede concluir que
1 r p
n
→ E [X1r ] = μr
[X ] −
n i=1 i
n n
t t
MZn (t) = MY √ = MY √
i=1
n n
n
lim MZn (t) = lim [1 + Pn (t)]
n→∞ n→∞
= exp lim Pn (t)
n→∞
1 2
= e2t
d
de acuerdo con el teorema de Lévy, Zn −
→ Z, Z ∼ N (0, 1).
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 31
por lo tanto
n
n
(Xi − μ)2 (Xi − X n )2
i=1 i=1 n(X n − μ)2
= +
σ2 σ2 σ2
luego
⎡ ⎡ n ⎤⎤
(Xi − μ)2
⎢ ⎢ i=1 ⎥⎥
⎥⎥ = E exp t (n − 1)Sn + t n(X n − μ)
2 2
E⎢
⎣exp ⎢t
⎣ ⎦⎦
σ2 σ2 σ2
(n − 1)Sn2 n(X n − μ)2
= E exp t E t
σ2 σ2
1
X n+1 = nX n + Xn+1
n+1
n 2
2
nSn+1 = (n − 1)Sn2 + Xn+1 − X n
n+1
Por último,
n
1 1
n+1
1
X n+1 = Xi = Xi + Xn+1 = nX n + Xn+1
n + 1 i=1 n + 1 i=1 n+1
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 35
n+1
2 n+1 2
2
nSn+1 = Xi − X n+1 = Xi − X n + X n − X n+1
i=1 i=1
n+1
2 2
= Xi − X n + 2 X n − X n+1 Xi − X n + X n − X n+1
i=1
2
n
= (n − 1)Sn2 + Xn+1 − X n + 2 X n − X n+1 Xi − X n
i=1
2
+ 2 X n − X n+1 Xn+1 − X n + (n + 1) X n − X n+1
n
como Xi − X n = 0,
i=1
2
2
nSn+1 = (n − 1)Sn2 + Xn+1 − X n + 2 X n − X n+1 Xn+1 − X n
2
+ (n + 1) X n − X n+1
2
= (n − 1)Sn2 + Xn+1 − X n
+ X n − X n+1 2Xn+1 + (n − 1)X n − (n + 1)X n+1
1
(n + 1)X n+1 = nX n + Xn+1 y X n − X n+1 = X n − Xn+1
n+1
2
2
nSn+1 = (n − 1)Sn2 + Xn+1 − X n
X n − Xn+1
+ 2Xn+1 + (n − 1)X n − nX n + Xn+1
n+1
2 Xn+1 − X n
= (n − 1)Sn + Xn+1 − X n −
2
Xn+1 − X n
n+1
n 2
= (n − 1)Sn +
2
Xn+1 − X n
n+1
1 2
2 2
(X1 − X2 )
S22 = Xi − X 2 =
2 − 1 i=1 2
36 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES
X1 + X2 (X1 − X2 )2 1
cov X 2 , S22 = cov , = cov X1 + X2 , (X1 − X2 )2
2 2 4
1
= cov X1 + X2 , X12 − 2X1 X2 + X22
4
1
= cov(X1 , X12 ) − 2cov(X1 , X1 X2 ) + cov X1 , X22
4
1
+ cov(X2 , X12 ) − 2cov(X2 , X1 X2 ) + cov X2 , X22
4
1
= [2E[X1 ]V [X1 ] − 2E[X2 ]V [X1 ] − 2E[X1 ]V [X2 ] + 2E[X2 ]V [X2 ]]
4
porque X1 tiene la misma distribución de X2 y además son variables indepen-
dientes,
1
cov X 2 , S22 = 2μσ 2 − 2μσ 2 − 2μσ 2 + 2μσ 2 = 0
4
Por hipótesis de inducción cov X n , Sn2 = 0. Ahora para una muestra de
2
tamaño n + 1, cov X n+1 , Sn+1 =Δ
n 1 1 2
Δ = cov Xn + Xn+1 , (n − 1)Sn2 + Xn+1 − X n
n+1 n+1 n+1
n−1 n 2
= cov X n , Sn2 + cov X n , X n+1 − X n
n+1 (n + 1)2
n−1 1 2
+ cov Xn+1 , Sn2 + 2
cov Xn+1 , Xn+1 − X n
n(n + 1) (n + 1)
como cov X n , Sn2 = 0 y Xn+1 , Sn2 son independientes,
n 2
2
cov X n+1 , Sn+1 = cov X n , X n+1 − X n
(n + 1)2
1 2
+ cov X n+1 , X n+1 − X n
(n + 1)2
Ahora bien,
2 2
cov X n , Xn+1 − X n 2
= cov X n , Xn+1 − 2X n Xn+1 + X n
2
= cov X n , Xn+1 − 2cov X n , X n Xn+1
2
+ cov X n , X n
σ2
σ2
= −2E[Xn+1 ] + 2E X n
n n
σ2 σ2
= −2μ + 2μ =0
n n
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 37
2 2
cov Xn+1 , Xn+1 − X n 2
= cov Xn+1 , Xn+1 − 2X n Xn+1 + X n
2
= cov Xn+1 , Xn+1 − 2cov Xn+1 , X n Xn+1
2
+ cov Xn+1 , X n
= −2μσ 2 + 2μσ 2 = 0
luego
2
n 1
cov X n+1 , Sn+1 =0 2
+0 =0
(n + 1) (n + 1)2
n
n
2
(Xi − Xj )2 = (Xi − X n ) − (Xj − X n )
i=1 i=1
n
Desarrollando el cuadrado allı́ indicado y como (Xi − X n ) = 0, entonces
i=1
n
n
(Xi − Xj )2 = (Xi − X n )2 + n(Xj − X n )2
i=1 i=1
luego
n
n
n
n
(Xi − Xj )2 = n (Xi − X n )2 + n (Xj − X n )2
j=1 i=1 i=1 j=1
n
= 2n (Xi − X n )2
i=1
En consecuencia
1
n n n
1
(Xi − X n )2 = (Xi − Xj )2
n − 1 i=1 2n(n − 1) j=1 i=1
! "
n
Como el evento {Xk,n ≤ y} es equivalente al evento Zi ≥ k , entonces la
i=1
función de distribución de la k-ésima estadı́stica de orden corresponde a
n
FXk,n (y) = P [Xk,n ≤ y] = P Zi ≥ k
i=1
n
n j n−j
= [FX (y)] [1 − FX (y)]
j
j=k
x x+h y y+t
n! k−1 n−k
P [A(h)] = [FX (y)] [FX (y + h) − FX (y)] [1 − FX (y)]
(k − 1)!1!(n − k)!
xk,n
y+t
x x+h xj,n
Tomando Δ = fXj,n ,Xk,n (x, y) y FXj,n ,Xk,n (u, v) = F (u, v), entonces
F (x + h, y + t) − F (x, y + t) − F (x + h, y) + F (x, y)
Δ= lim
h→0,t→0 ht
P [x ≤ Xj,n ≤ x + h, y ≤ Xk,n ≤ y + t]
= lim
h→0,t→0 ht
Intervalo Probabilidad
(−∞, x] = I1 FX (x) = p1
(x, x + h] = I2 FX (x + h) − FX (x) = p2
(x + h, y] = I3 FX (y) − FX (x + h) = p3
(y, y + t] = I4 FX (y + t) − FX (y) = p4
(y + t, ∞) = I5 1 − FX (y + t) = p5
40 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES
luego
n! (j−1) (k−j−1) (n−k)
P [A(h, t)] = p p2 p3 p4 p5
(j − 1)!1!(k − j − 1)!1!(n − k)! 1
entonces
A(h, t) D(h, t)
lim = B(x) lim
h→0,t→0 ht h→0,t→0 ht
D(h,t)
donde lim ht corresponde a
h→0,t→0
F (x+h)−F (x) F (y+t)−F (y)
lim h [F (y) − F (x + h)]k−j−1 t [1 − F (y + t)]n−k
h→0,t→0
esto es
D(h, t)
lim = [fX (x)][FX (y) − FX (x)]k−j−1 [fX (y)][1 − FX (y)]n−k
h→0,t→0 ht
es decir que fXj,n ,Xk,n (x, y) es
c(n, j, k)[FX (x)]j−1 [FX (y) − FX (x)]k−j−1 [1 − FX (y)]n−k fX (y)fX (x)I(x,∞) (y)
luego
P [Xj,n ≤ xp ≤ Xk,n ] = P [Xj,n ≤ xp ] − P [Xk,n ≤ xp ]
como el evento A (similarmente el evento B) puede transcribirse como
A : “j o más observaciones son menores o iguales a xp ”, entonces
n
n
n l
P [Xj,n ≤ xp ] = P Zi ≥ j = p (1 − p)n−l
i=1
l
l=j
por lo tanto
n
n
n l n l
P [Xj,n ≤ xp ≤ Xk,n ] = p (1 − p)n−l
− p (1 − p)n−l
l l
l=j l=k
como j < k,
k−1
n l
P [Xj,n ≤ xp ≤ Xk,n ] = p (1 − p)n−l
l
l=j
ESTIMACIÓN PUNTUAL
DE PARÁMETROS
La primera sección del capı́tulo anterior mencionó que los modelos son elementos
conexos con los quehaceres de la Ciencia. De ı́ndole diferente y con propósitos
distintos, los modelos son artificios que cooperan en la descripción y explicación
de la realidad al representarla de una manera muy peculiar, que posibilitan
descripciones y explicaciones generales o minuciosas, según sea el propósito.
Entre otras funciones, el modelo subsume en una especie de ideograma, una
variedad de casos similares. Como modelo especial el modelo probabilı́stico,
por su parte, simboliza mediante una expresión algebraica el comportamiento
genérico de variables que aluden mediciones, conteos, o valoraciones de unidades
estadı́sticas; pero igualmente el modelo probabilı́stico puede entenderse como la
representación del compendio de situaciones individuales, es decir constituye
una familia de modelos particulares de la misma naturaleza, modelos que se
pueden singularizar determinando valores especı́ficos de los parámetros, aquellas
constantes que son elementos integrantes del modelo.
El vocablo puntual, que adjetiva la estimación motivo de este capı́tulo, tiene
en el Castellano varias acepciones. El sentido que se le debe otorgar dentro del
contexto de la Inferencia estadı́stica es el de perteneciente o relativo al punto,
por tratarse de la estimación de un parámetro por medio de un valor particular
de una estadı́stica, un punto del recorrido de ella, y también para distinguirla
de otra forma de estimación, la estimación por intervalo; por ello es que algunos
traductores utilizan la expresión de estimación de punto.
En ese sentido la estimación puntual de los parámetros puede interpretarse
como la adopción de un modelo individual elegido dentro de una familia, para
representar una realidad particular, elección fruto de la tasación de los respec-
tivos parámetros por medio de un cálculo realizado con los valores observados de
la muestra aleatoria, a través de la expresión que define la estadı́stica facultada
como estimador.
La finalidad de este capı́tulo es la exposición de algunos criterios que per-
49
50 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
1
fX (x, θ) = I(0,θ) (x)
θ
que el cero es una frontera fija y que el parámetro θ se desempeña como la
frontera superior del recorrido de la variable, el cual asume un valor especı́fico
ante una situación también especı́fica. En este caso el parámetro θ es un real
positivo, por consiguiente, el espacio del parámetro es el conjunto:
Θ = {θ|θ > 0}
1 Este texto, con el objeto de simplificar el lenguaje, utiliza la expresión función de densidad
para referirse a la función de densidad de una variable aleatoria continua, a la función de masa,
de probabilidad o de cuantı́a de una variable aleatoria discreta. El contexto de su utilización
revelará el tipo de variable en referencia o se precisará cuando sea requerido.
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 51
θ1
sup{L(θ)|θ ∈ Θ}
x
θ 0 1 2 3 4
1
4 0.316406 0.421875 0.210938 0.046875 0.003906
1
2 0.062500 0.250000 0.375000 0.250000 0.062500
3
4 0.003906 0.046875 0.210938 0.421875 0.316406
derivada que es nula cuando θ = 15 , y en ese punto la función L(θ) tiene máximo,
lo cual significa que el valor más verosı́mil del nivel de estampación es del 20%,
cuando se dispone únicamente de la información relativa a una canasta que
contiene seis unidades premiadas.
Ejemplo 2.1.2. Se toma una muestra de tamaño tres de una población con
distribución de Poisson de parámetro θ cuyos los resultados son, x1 = 2, x2 = 0,
x3 = 5. Determinar la estimación máximo-verosı́mil de θ.
2 −θ 0 −θ 5 −θ
θ e θ e θ e θ7 e−3θ
L(θ) = =
2! 0! 5! 2!5!
1
L (θ) = 7θ6 e−3θ − 3θ7 e−3θ
2!5!
θ ∈ Θ = {θ|θ > 0}
n
n
xi n− xi
i=1 i=1
=
θ 1−θ
1 n
−1=
n −1
θ
xi
i=1
1
n
entonces ln L(θ) tiene máximo en θ = n xi . Es decir, el estimador máximo-
i=1
verosı́mil de θ es X n , llamado en este caso proporción muestral .
e−θ θx
fX (x, θ) = I{0,1,2,... } (x), θ ∈ Θ = {θ|θ > 0}
x!
56 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
e−θ θx1 e−θ θx2 e−θ θxn
L(θ; x1 , x2 , . . . , xn ) = ...
x1 ! x2 ! xn !
n
xi
−nθ
e θi=1
= )
n
xi !
i=1
n
n
ln L(θ; x1 , x2 , . . . , xn ) = xi ln θ − nθ − ln xi !
i=1 i=1
n
xi
∂ i=1
ln L(θ; x1 , x2 , . . . , xn ) = −n
∂θ θ
n
xi
∂2 i=1
ln L(θ; x1 , x2 , . . . , xn ) = − <0
∂θ2 θ2
con lo cual se garantiza la existencia del máximo de ln L(θ; x1 , x2 , . . . , xn ) en
n
n
θ = n1 xi , es decir el MLE de θ es n1 Xi .
i=1 i=1
n
L(θ; x1 , x2 , . . . , xn ) = I[θ− 12 ,θ+ 12 ] (xi )
i=1
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 57
fX (x, θ)
| | |
θ− 1
2 θ θ+ 1
2
x
como θ − 1
2 ≤ xi ≤ θ + 12 , i = 1, 2, . . . , n entonces
1 1
θ− ≤ xi implica θ ≤ xi +
2 2
1 1
y θ + ≥ xi implica θ ≥ xi −
2 2
luego xi − 1
2 ≤ θ ≤ xi + 1
2 para i = 1, 2, . . . , n, particularmente
1 1
xn,n − ≤ θ ≤ x1,n +
2 2
de tal manera que la función de verosimilitud se puede expresar como
L(θ)
| | |
xn,n − 1
2 x1,n + 1
2 θ
Como se deduce de la figura 2.2, cualquier valor entre xn,n − 12 y x1,n + 12 hace
máxima la función de verosimilitud. Como el papel que desempeña el parámetro
58 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
n n
1
L(θ; x1 , x2 , . . . , xn ) = I(0,θ) (xi )
θ i=1
L(θ)
xn,n θ
(1) (2) (k)
Teorema 2.1.2. Siendo Tn = Tn , Tn , . . . , Tn un MLE de θ, donde
(j)
Tn = tj (X1 , X2 , . . . , Xn ) para cualquier 1 ≤ j ≤ k, un estimador basado
en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densi-
dad fX (x, θ), θ = (θ1 , θ2 , . . . , θk ) . Si la función r(θ) = (r1 (θ), r2 (θ), . . . , rl (θ)),
1 ≤ l ≤ k entonces el MLE de la imágen de θ bajo r es
1 −x
fX (x, θ) = e θ I(0,∞) (x)
θ
1
k k
n! 1 (n − k)xk,n
L= exp − xi,n exp −
(n − k)! θ θ i=1 θ
k
1
k
n! 1
L= exp − xi,n + (n − k)xk,n
(n − k)! θ θ i=1
k
Xi,n + (n − k)Xk,n
i=1
Tn =
k
Por supuesto si se asume otro modelo para describir la duración del evento vital
o biológico, la determinación del correspondiente MLE dependerá del referido
modelo, pero el bosquejo aquı́ presentado se mantiene.
Nota. La denominada función de verosimilitud en el ejemplo anterior referente
a una estimación en una muestra censurada, no es una función de verosimili-
tud estrictamente hablando. Es una función de cuasiverosimilitud, cuyo
máximo reside en una estimación cuasimáximo-verosı́mil. Precisamente
para denotar a un estimador de esta naturaleza, se utiliza la sigla QMLE (qua-
si maximum likelihood estimator). Incorrectas funciones de verosimilitud
son propias de situaciones cuando la función de verosimilitud es supremamente
complicada, cuando hay presencia de datos censurados, cuando se realizan al-
gunos estudios basados en simulación o cuando se requiere de excesivo cómputo
estadı́stico para determinar una estimación máximo-verosı́mil y se acude a una
función de cuasiverosimilitud para simplificarlo.
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 61
1 2 p θ1
n
p θ1
Xn −
→ y Xi − X n − → 2
θ2 n i=1 θ2
por lo anterior
Xn p
n −
→ θ2
1
n (Xi − X n )2
i=1
en consecuencia
2
Xn p
n −
→ θ1
1
n (Xi − X n )2
i=1
En sı́ntesis,
⎛ ⎞
⎜ 2
Xn Xn ⎟
⎜ , ⎟
⎝1
n
n ⎠
n (Xi − X n )2 1
n (Xi − X n )2
i=1 i=1
y por lo tanto
+
, n
,3
- p
X2 −
→θ
n i=1 i
3
n
luego n Xi2 es el estimador por el método de los momentos de θ.
i=1
1
n
p
(Xi − X n )2 −
→ θ2
n i=1
1 n
luego X n , (Xi − X n )2
es el estimador por el método de los momentos
n i=1
de θ = (θ1 , θ2 ) .
64 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
1 p
−
→θ
Xn
1
luego es el estimador por el método de los momentos de θ. Teniendo en
Xn
ln(2)
cuenta que la mediana poblacional es su estimador por el método de los
θ
p ln(2)
momentos es X n ln(2) porque X n ln(2) −
→ .
θ
serı́a:
n
Xi + 1
i=1
Tn =
n+2
y la estimación Bayesiana para la varianza de la población θ(1 − θ), es decir
la estimación Bayesiana de la imagen de θ bajo la función r(θ) = θ(1 − θ),
asumiendo el mencionado modelo Uniforme en el intervalo (0, 1) como la dis-
tribución a priori de Θ, se deriva en la forma siguiente
n n
51 xi n− xi
0 θ(1 − θ) θ (1 − θ) i=1 dθ
i=1
E [r(Θ)|X1 , X2 , . . . , Xn ] = n n
51 xi n− xi
0
θ i=1 (1 − θ) i=1 dθ
n n
51 xi +1 n− xi +1
0 θi=1 (1 − θ) i=1 dθ
=
n
n
β xi + 1 , n + 1 − xi
i=1 i=1
n n
xi + 1 n + 1 − xi
i=1 i=1
=
(n + 3)(n + 2)
Ejemplo 2.1.16. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población
con distribución Normal de valor esperado θ y varianza σ 2 asumida como una
constante conocida. La distribución a priori de Θ se establece como Normal de
valor esperado μp y varianza σp2 , por supuesto conocidos. Puede comprobarse
que la familia de densidades Gaussiana es conjugada para la función de densidad
de un modelo Gaussiano e igualmente que la distribución a posteriori de Θ es
normal de valor esperado
nσp2 xn + μp σ 2
nσp2 + σ 2
y varianza
σp2 σ 2
nσp2 + σ 2
Nota. Como μp y σp2 son valores fijos y conocidos, en la medida en que el
tamaño de la muestra se incremente este estimador tiende al estimador máximo-
verosı́mil para θ.
Para terminar, los estimadores Bayesianos definidos en esta sección, real-
mente son estimadores Bayesianos cuyas estimaciones minimizan una función
de pérdida particular llamada error cuadrático. Quiere decir esto que si se adop-
ta otra función de pérdida, el estimador Bayesiano puede ser de otra naturaleza.
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 69
(1)
para la imagen de θ bajo la función r. Se dice que el estimador Tn es más
(2)
concentrado que el estimador Tn si y sólo si
Pθ r(θ) − λ < Tn(1) < r(θ) + λ ≥ Pθ r(θ) − λ < Tn(2) < r(θ) + λ
Eθ [Tn ] = r(θ)
para todo θ ∈ Θ
para todo θ ∈ Θ.
72 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
n θ
Bθ [Xn,n ] = θ−θ =−
n+1 n+1
Claramente Xn,n es un estimador asintóticamente insesgado para θ.
θ
n n 2
2
Eθ [Xn,n ]= n y n+1 dy = θ
θ 0 n+2
n 2 n2 n
Vθ [Xn,n ] = θ − θ2 = θ2
n+2 (n + 1)2 (n + 1)2 (n + 2)
luego
2θ2
ECMXn,n (θ) =
(n + 1)(n + 2)
Ejemplo 2.2.2. El MLE de σ 2 basado en una muestra aleatoria X1 , X2 , . . . , Xn ,
de una población Gaussiana de valor esperado μ y varianza σ 2 es
1 2
n
Tn = Xi − X n
n i=1
estadı́stica con un sesgo que puede pasarse por alto al contar con una muestra
grande, porque Eθ [Tn ] = n−1 2
n σ . Sin embargo es factible corregir esta ligera
imperfección construyendo una estadı́stica que cumpla el requisito de inses-
gamiento. Precisamente la estadı́stica
1 2
n
Sn2 = Xi − X n
n − 1 i=1
(1) (2)
Ejemplo 2.2.3. Si Tn y Tn son dos estimadores insesgados para θ cuyas
(i)
varianzas son respectivamente σ12 y σ22 y si además Tn ∼ N (θ, σi2 ) entonces
(1) (2)
Tn es más concentrado que Tn para θ si y sólo si σ12 < σ22 . En efecto, como
−λ
(i)
Tn − θ
(i) λ
Pθ Tn − θ < λ = Pθ < <
σi σi σi
λ λ λ
=Φ −Φ − = 2Φ
σi σi σi
5v 1 2
siendo Φ(v) = −∞ √12π e− 2 z dz, entonces
Pθ Tn(1) − θ < λ ≥ Pθ Tn(2) − θ < λ
λ λ
2Φ − 1 ≥ 2Φ −1
σ1 σ2
λ λ
Φ ≥Φ
σ1 σ2
λ λ
desigualdad que se cumple cuando ≥ , en sı́ntesis cuando σ1 < σ2 .
σ1 σ2
para todo θ ∈ Θ.
Definición 2.2.10. Bajo las consideraciones de la definición 2.2.9, Tn es un
estimador consistente simple o consistente débil para la imagen de θ bajo
r si, la sucesión de estadı́sticas {Tn } converge en probabilidad a r(θ), es decir
si
para todo θ ∈ Θ.
Nota. Un estimador que haya sido construido por el método de los momentos,
naturalmente es un estimador consistente simple.
74 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
Ejemplo 2.2.4. Sea X1 , X2 una muestra aleatoria de tamaño dos de una po-
blación con distribución de Bernoulli de parámetro θ. T2 = X1 + X2 es una
estadı́stica suficiente para θ.
Pθ [X1 = 1, X2 = 0]
Pθ [X1 = 1, X2 = 0|T2 = 1] =
Pθ [T2 = 1]
θ(1 − θ)
=
2θ(1 − θ)
1
=
2
Pθ [X1 = 0, X2 = 1]
Pθ [X1 = 0, X2 = 1|T2 = 1] =
Pθ [T2 = 1]
θ(1 − θ)
=
2θ(1 − θ)
1
=
2
n
Tn = Xi es una estadı́stica suficiente para θ. En efecto,
i=1
n n n
xi n− xi
L(θ; x1 , x2 , . . . , xn ) = θ i=1 (1 − θ) i=1 I{0,1} (xi )
i=1
n
xi n
θ i=1
= (1 − θ) n
I{0,1} (xi )
1−θ i=i
⎡ ⎤
n xi n
θ
=⎣ (1 − θ) ⎦
i=1 n
I{0,1} (xi )
1−θ i=1
9 :; <9 :; <
n h(x1 ,x2 ,... ,xn )
g xi ,θ
i=1
n
luego el criterio de Fisher-Neyman permite concluir que Xi es una estadı́stica
i=1
suficiente para θ.
n
n
h(x1 , x2 , . . . , xn ) = 1. Luego Xi y Xi2 son conjuntamente suficientes para
i=1 i=1
θ = (μ, σ 2 ) . También son conjuntamente suficientes para θ
n
1 1
n
Xi , (Xi − X n )2
n i=1 n − 1 i=1
θx e−θ
fX (x, θ) = I (x)
x! {0,1,2,... }
−θ I{0,1,2... } (x)
= e exp{[ln θ][x]}
x!
fX (x, θ) = a(θ)b(x)exp{c(θ)d(x)}
n
n
n
L(x1 , x2 , . . . , xn ; θ) = a (θ) b(xi )exp c(θ) d(xi )
i=1 i=1
! "
n
n
n )
n
g d(xi ), θ = a (θ)exp c(θ) d(xi ) y h(x1 , x2 , . . . , xn ) = b(xi ) La
i=1 i=1 i=1
k
estadı́stica d(Xi ) ha sido denominada por algunos autores como la estadı́stica
i=1
natural de la familia exponencial unidimensional e igualmente por las razones
de la nota anterior, para efectos de suficiencia, se le conoce como la estadı́stica
natural suficiente de la familia exponencial unidimensional. También al vec-
tor θ∗ = (c1 (θ), c2 (θ), . . . , ck (θ)) se le denomina el parámetro natural de la
82 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
n
n
n
distribución y en general a la estadı́stica d1 (Xi ), d2 (Xi ), . . . , dk (Xi )
i=1 i=1 i=1
se le conoce como estadı́stica natural k-dimensional para θ.
donde a(θ) = 1/β(θ1 , θ2 ), b(x) = I(0,1) (x), c1 (θ1 , θ2 ) = θ1 −1, c2 (θ1 , θ2 ) = θ2 −1,
d1 (x) = ln x, d2 (x) = ln(1 − x).
entonces,
2. Eθ [Tn∗ ] = r(θ)
3. Vθ [Tn∗ ] ≤ Vθ [Vn ]
n
n P θ X 1 = 0, X i = t 1
Pθ X1 = 0 | X i = t1 = n i=1
i=1 Pθ X i = t1
i=1
n
Pθ X1 = 0, X i = t1
= n i=2
Pθ X i = t1
i=1
n−1 t
(1 − θ) t1 (θ) 1 (1 − θ)n−1−t1
= n
t1 (θ) (1 − θ)
t1 n−t1
n − t1
=
n
n
n Pθ X1 = 1, X i = t1
Pθ X1 = 1 | X i = t1 = n i=1
i=1 Pθ X i = t1
i=1
n
Pθ X1 = 1, X i = t1 − 1
= n i=2
Pθ X i = t1
i=1
n−1 t −1
θ θ 1
(1 − θ)n−1−t1 +1 t1
= t1 −1 n t =
t1 θ (1 − θ)
1 n−t 1 n
luego
n
n − t1 t1
Eθ X1 | Xi = t1 = 0. + 1.
i=1
n n
en consecuencia
1
n
Tn∗ = Xi
n i=1
θ(1 − θ)
V [Tn ] = θ(1 − θ) > V [Tn∗ ] =
n
Definición 2.2.26. Sea X una variable aleatoria cuya función de densidad es
∂
fX (x, θ) tal que ln fX (x, θ) existe para todo x y todo θ ∈ Θ ⊆ R.
∂θ
La información de Fisher acerca del parámetro θ en la variable aleatoria X,
86 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
1 6 7 Vθ (X)
= 2 Eθ (X − θ)2 = 2
θ (1 − θ)2 θ (1 − θ)2
θ(1 − θ) 1
= 2 =
θ (1 − θ)2 θ(1 − θ)
luego
√ d
n(Pn − θ) −
→ N (0, θ(1 − θ))
(2)
Definición 2.2.29. La eficiencia relativa de Tn = t2 (X1 , X2 , . . . , Xn ) con
(1)
respecto a Tn = t1 (X1 , X2 , . . . , Xn ), estimadores insesgados para la imagen de
θ bajo una función r, basados en una muestra aleatoria X1 , X2 , . . . , Xn de una
población con función de densidad fX (x, θ), corresponde al cociente
(1)
Vθ [Tn ]
(2)
Vθ [Tn ]
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 89
σ12 (θ)
σ22 (θ)
Definición 2.2.31. En un caso regular de estimación la eficiencia de un
estimador Tn insesgado para la imagen de θ bajo una función r se define como
(r (θ))2 / nI(θ)
Efθ (Tn ) =
Vθ [Tn ]
Definición 2.2.32. En un caso regular de estimación, si Tn un estimador
insesgado para la imagen de θ bajo una función r , Tn se denomina estimador
eficiente o BRUE (best regular unbiased estimator) para la imagen de
θ bajo la función r si Efθ (Tn ) = 1.
Nota. Todo BRUE es un UMVUE, mas no todo UMVUE es BRUE.
Definición 2.2.33. En un caso regular de estimación, la eficiencia asintótica
de un estimador Tn insesgado para la imagen de θ bajo una función r, se define
como
lim Efθ (Tn )
n→∞
90 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
θ2
E[X n ] = θ V [X n ] =
n
de donde,
1 θ2
1
n 2
Efθ (X n ) = θ2 = n2 = 1
θ θ
n n
Eθ [z(X)]
para todo θ ∈ Θ, implica que Pθ [z(X) = 0] = 1 para todo x tal que fX (x, θ) > 0.
Eθ [z(X)] = 0
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 91
n
n j
0= z(j) θ (1 − θ)n−j
j=1
j
n j
n θ
0= z(j) (1 − θ)n
j=1
j 1 − θ
n
n j θ
0= z(j) α , α=
j=1
j 1−θ
luego
n 0 n 1 n n
0 = z(0) α + z(1) α + · · · + z(n) α
0 1 n
n
Xi
i=1
n
es una estadı́stica completa para θ. En efecto, Xi ∼ Bin(n, θ), como se
i=1
confirmó la familia de densidades Binomial es completa, entonces la estadı́stica
n
Xi es completa.
i=1
Partiendo de la condición
θ
n n−1
Eθ [z(Y )] = z(y) y dy = 0
0 θn
θ
n
= n z(y)y n−1 dy = 0
θ 0
con lo cual se concluye que Xn,n es una estadı́stica completa para θ, porque
Eθ [z(X)] = 0 implica que z(y) = θ para 0 < y < θ.
Ejemplo 2.2.19. La familia de densidades
! "
1 1
fX (x, θ) = e− θ x I(0,∞) (x) | θ > 0
θ
es una familia completa.
∞
1 1
Eθ [z(Tn )] = 0 = z(t)e− θ t dt
0 θ
n
Xi
i=1
n
n
2. Eθ I{0} (X1 ) | Xi es una estimación insesgada función de xi con-
i=1 i=1
94 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
n
Xi
n−1 i=1
n
es un estimador insesgado función de una estadı́stica suficiente y completa,
por lo tanto es UMVUE para e−θ .
Ejemplo 2.2.21. Determinar un UMVUE para θ cuando el modelo asumido
para representar la población es un modelo Exponencial negativo,
n
1. fX (x, θ) pertenece a la familia exponencial de densidades, Xi es una
i=1
estadı́stica suficiente y completa para θ.
n 1
2. X n es una función de Xi , X n es un estimador insesgado para , por
i=1 θ
1
lo tanto X n es un UMVUE para
θ
c
El estimador para θ se intuye como
n con c constante, entonces
Xi
i=1
⎡ ⎤
∞
⎢ c ⎥ 1 1
n
⎢
Eθ ⎣ ⎥
n ⎦ = θ = c Eθ T = c t
fT (t)dt, T = Xi
Xi 0 i=1
i=1
n−1
Un estimador insesgado para θ es
n , el cual es una estadı́stica función de
Xi
i=1
una estadı́stica suficiente y completa. Por ser insesgado para θ, es UMVUE
para el parámetro θ.
k
k
fXc (x, θ) = j fXj (x), siendo j = 1
j=1 j=1
elegida g(x) de manera que sea la responsable de generar los valores insólitos,
bajo el modelo original cuya función de densidad es fX (x, θ), entonces X n es
altamente sensible frente a las discrepancias citadas. Esa falta de robustez de
la media de la muestra, ha sido paliada por eliminación de los valores más
extremos, o por la utilización de la medianade la muestra, menos afectada por
dichos valores.
En general son varios los mecanismos de enfrentar la no robustez, sólo que
dentro del contexto del capı́tulo se desea en un sentido destacar uno basado en
la idea de excluir valores extremos, o de reemplazarlos para eliminar los outliers
o amortiguar su efecto: los estimadores L y en otro sentido hacer una ligera
mención de los estimadores M.
Definición 2.2.38. Sea X1,n , X2,n , . . . , Xn,n , una muetra ordenada de una po-
blación con función de densidad fX (x, θ), θ ∈ Θ ⊆ R, θ un parámetro de loca-
lización. Un estimador L para θ, es una estadı́stica de la forma
n
Tn = cn,i Xi,n
i=1
1
n−[nα]
r X n,α = Xi,n
n − 2[nα]
i=[nα]+1
98 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
como el momento μ2r existe, los momentos μs y μs , s ≤ 2r, existen. El teorema
1.4.5, página 14, y el teorema 2.1.3, página 61 garantizan que
r r
r j p r j
Mr = Mj (−X n )r−j −
→ μj (−μ)r−j
j=0
j j=0
j
Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t]
L(θ; x1 , x2 , . . . , xn ) = Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn ]
= Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] Pθ [Tn = t]
= h(x1 , x2 , . . . , xn )g(t, θ)
Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] = Δ
Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn ] L(θ; x1 , x2 , . . . , xn )
Δ= =
Pθ [Tn = t] L(θ; x1 , x2 , . . . , xn )
A(t)
h(x1 , x2 , . . . , xn )
=
h(x1 , x2 , . . . , xn )
A(t)
que no depende de θ.
Demostración (Teorema 2.2.4). La demostración de este teorema es muy
similar a la demostración del teorema que hace referencia al criterio de
2.3. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 101
5∞
porque −∞ vn fVn ,T (vn , t)dvn = c(t)fT (t), intercambiando apropiadamente el
orden de integración se tiene que
∞ ∞ ∞
Eθ [Eθ [Vn |T ]] = vn ··· fVn ,T (vn , t)dt1 dt2 · · · dtm dvn
−∞ −∞ −∞
∞
= vn fVn (vn )dvn = E[Vn ] = r(θ)
−∞
5∞ 5∞
porque −∞ · · · −∞ fVn ,T (vn , t)dt1 dt2 · · · dtm = fVn (vn ).
Para concluir el desarrollo de lo pertinente al punto 3, se parte de la conocida
adición de un cero, ası́
Vθ [Vn ] = Eθ (Vn − r(θ)2 ) = Eθ (Vn − c(T ) + c(T ) − r(θ))2
= Eθ (Vn − c(T ))2 + Eθ (c(T ) − r(θ))2
= Eθ (Vn − c(T ))2 + Vθ [c(T )]
∞ ∞ ∞ ∞
Δ= ··· c(t)(vn − c(t))fVn ,T (vn , t)dvn dt1 dt2 · · · dtm
−∞ −∞ −∞ −∞
∞ ∞ ∞ ∞
= ··· c(t) (vn − c(t))fVn ,T (vn , t)dvn dt1 dt2 · · · dtm
−∞ −∞ −∞ −∞
∞ ∞
(vn − c(t))fVn ,T (vn , t)dvn = vn fVn ,T (vn , t)dvn
−∞ −∞
∞
− c(t) fVn ,T (vn , t)dvn
−∞
= c(t)fT (t) − c(t)fT (t) = 0
2.3. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 103
∂
como se trata de un caso regular de estimación, Bθ (Tn ) + r (θ) = Δ
∂θ
∞ ∞ ∞ n
∂
Δ= ··· t(x1 , · · · , xn ) fX (xi , θ) dx1 · · · dxn
−∞ −∞ −∞ ∂θ i=1
n
∞ ∞ ∞ n
∂
= ··· t(x1 , · · · , xn ) ln fX (xi , θ) fX (xi , θ)dx1 · · · dxn
−∞ −∞ −∞ ∂θ i=1 i=1
n
∂ ) n ∂ )n )
puesto que fX (xi , θ) = ln fX (xi , θ) fX (xi , θ) porque
∂θ i=1 ∂θ i=1
d
g (x)
d
i=1
la cual afirma que si X, Y son dos variables
Aplicando la desigualdad
de Schwarz
2
aleatorias, [E[XY ]] ≤ E[X 2 ] Y 2 por lo tanto
+ n
2
,
,
Bθ (Tn ) + r (θ) = - Eθ (Tn − r(θ))
∂
ln fX (Xi , θ)
∂θ i=1
≤ Eθ [(Tn − r(θ))2 ] nI(θ)
entonces [Bθ (Tn ) + r (θ)]2 ≤ Eθ (Tn − r(θ))2 [nI(θ)], con lo cual se permite
establecer la cota:
[B (Tn ) + r (θ)]2
Eθ (Tn − r(θ))2 ≥ θ
nI(θ)
Eθ [Tn − h(Tn )] = 0
Los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0.
¿Cuál es el MLE para θ?. ¿Cuál es el estimador por el método de los
momentos para θ?.
Dado el caso en el cual se asuma conocido o fijo el valor de θ1 , ¿cuál es el
MLE para θ2 ?, ¿cuál es el estimador por el método de los momentos para
θ2 ?, ¿es pertinente pensar en estimador por analogı́a para θ2 ?.
Igualmente, dado el caso en el cual se asuma conocido o fijo el valor de
θ2 , ¿cuál es el MLE para θ1 ?, ¿cuál es el estimador por el método de los
momentos para θ1 ?, ¿es factible determinar un estimador por analogı́a
para θ1 ?.
2. El modelo de Pareto es otro de los modelos frecuentemente utilizados.
Recordando que la función de densidad de una variable aleatoria X, con
distribución de Pareto es
θ2 θ1θ2
fX (x, θ) = I (x)
xθ2 +1 (θ1 ,∞)
Los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0.
¿Cuál es el MLE para θ?, ¿cuál es el estimador por el método de los
momentos para θ?, ¿es procedente pensar en un estimador por analogı́a
para θ?.
Asumiendo conocido o fijo el valor de θ1 , ¿cuál es el MLE para θ2 ?, ¿cuál
es el estimador por el método de los momentos para θ2 ?, ¿es procedente
la construcción de un estimador por analogı́a para θ2 ?.
De la misma manera, asumiendo conocido o fijo el valor de θ2 , ¿cuál es el
MLE para θ1 ?, ¿cuál es el estimador por el método de los momentos para
θ1 ?, ¿es factible determinar un estimador por analogı́a para θ1 ?.
3. El modelo Zeta, utilizado particularmente en Lingüı́stica, está construido
con base en la función Zeta de Riemann, función definida como
∞
1
ζ(s) = s
, con s > 1
j=1
j
Una varible aleatoria X se dice que tiene distribución Zeta con parámetro
θ, θ > 0, o que tiene distribución de Zipf (en honor a George Zipf), si su
función de densidad es
1
fX (x, θ) = θ I{1,2,... } (x)
x ζ(θ)
en cuyo caso E X k = ζ(θ−k)
ζ(θ) , con θ > k + 1, k = 1, 2, ... Particularmente
ζ(θ − 1)
E[X] = si θ > 2
ζ(θ)
2
ζ(θ − 2) ζ(θ − 1)
V [X] = − si θ > 3
ζ(θ) ζ(θ)
106 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
θ2θ1 θ1 −1 −θ2 x
fX (x, θ) = x e I(0,∞) (x)
Γ(θ1 )
los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0.
¿Cuál es el MLE para θ?, ¿cuál es el estimador por el método de los
momentos para θ?.
Cuando se asume conocido o fijo el valor de θ1 , ¿cuál es el MLE para θ2 ?,
¿cuál es el estimador por el método de los momentos para θ2 ?, ¿cuál es el
estimador por analogı́a para θ2 ?.
Similarmente cuando se asume conocido o fijo el valor de θ2 , ¿cuál es el
2.4. EJERCICIOS DEL CAPÍTULO 107
10. De los dos estimadores para σ 2 del ejercicio anterior, ¿cuál tiene mayor
error cuadrático medio?.
11. Igualmente, de los dos estimadores para σ 2 del ejercicio anterior, ¿cuál
tiene menor varianza?.
12. Un tramposo juega con una moneda de dos sellos, pero algunas veces para
no despertar sospechas, utiliza una moneda equitativa. El objeto de este
ejercicio es estimar cuál moneda está utilizando en un momento dado,
a partir de los resultados de n lanzamientos de una misma moneda,6 es
7
decir, estimar el parámetro θ, cuyo espacio es el conjunto Θ = 12 , 1 .
Compruebe que el MLE para θ es
n n
1
Tn = I{0,1,... ,n−1} Xi + I{n} Xi
2 i=1 i=1
14. Determine el error cuadrático medio del estimador Tn del ejercicio anterior.
108 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
35. Teniendo en cuenta una muestra aleatoria de tamaño n de una
población
2
∂
Uniforme en el intervalo (0, θ), calcule Eθ ln fX (x, θ) y compárelo
∂θ
con la varianza del estimador insesgado para θ basado en el máximo de la
muestra. ¿Se presenta alguna contradicción?.
es mı́nima, cuando
1
jσ2
βj =
n para j = 1, 2, . . . , n
1
σj2
i=1
44. La estadı́stica
⎡ n 2 ⎤
1
n
1
Xi − ⎣ Xi ⎦
n − 1 i=1 n(n − 1) i=1
55. ¿La familia de densidades Gama es cerrada bajo muestreo para la función
de densidad de un modelo Exponencial?.
nX1,n
n
n y Xi
Xi i=1
i=1
n
¿Es Xi una estadı́stica suficiente y completa para θ?. Determine un
i=1
n
estimador insesgado para θ que sea una función de Xi tal que él tenga
i=1
la varianza mı́nima.
62. Compruebe que el MLE para θ es una función de la media geométrica
muestral, y que ésta es una estadistica suficiente y completa para el
parámetro θ, basados en una muestra aleatoria X1 , X2 , . . . , Xn , de una
población con función de densidad
ESTIMACIÓN POR
INTERVALO DE
PARÁMETROS
115
116 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS
Pθ [a < QX < b] = 1 − α
por lo tanto,
y
2θ
FYi (y) = θe−θxi dxi , luego
0
1 − θy
fYi (y) = θ e 2θ
2θ
1 1
= e− 2 y I(0,∞) (y)
2
Con base en este resultado se establece a
n
n
QX = Yi = 2θ Xi
i=1 i=1
como una variable aleatoria pivote, variable que tiene distribución Ji-cuadrado
de parámetro 2n, debido a lo siguiente n
1 1
para t < 12 , MYi (t) = 1 2−t , y por lo tanto, MQX (t) = 2
por ser
(2 ) ( 12 −t)
Y1 , Y2 , . . . , Yn un conjunto de variables aleatorias independientes; esta función
generatriz de momentos es propia de una variable aleatoria con distribución
Ji-cuadrado con 2n grados de libertad.
Como la distribución de QX no depende de θ, ésta constituye una auténtica
variable pivote, y con base en lo anterior, como punto de partida en la construc-
ción del intervalo confidencial, se considera el evento aleatorio {a < QX < b}.
En consecuencia,
⎡ ⎤
n
⎢ a b ⎥
Pθ a < 2θ Xi < b = Pθ ⎢⎣ n <θ< n
⎥=1−α
⎦
i=1 2 Xi 2 Xi
i=1 i=1
⎛ ⎞
⎜ χ2α2 χ21− α ⎟
⎜ , 2 ⎟
⎝ n n ⎠
2 Xi 2 Xi
i=1 i=1
Ejemplo 3.2.4 (Una variable pivote general). Partiendo del hecho del cual
si X es una variable aleatoria con función de distribución FX (x, θ) continua, en-
tonces la variable aleatoria Y = FX (X, θ) tiene distribución Uniforme en el
intervalo (0, 1), es posible construir una variable pivote de la manera siguiente.
Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con función
de distribución FX (x, θ) continua,
porque
n
n
QX = Ri = − ln FX (Xi , θ) ∼ Gama(n, 1)
i=1 i=1
porque
n
tQX
t Ri
MQX (t) = E e =E e i=1
= E etR1 etR2 . . . etRn
= E etR1 E etR2 . . . E etRn
variable que puede utilizarse como una variable pivote para θ, siempre y cuando,
la función de distribución de la población tenga una expresión que permita
aplicar el método.
La deducción de una variable aleatoria pivote general, se basó en el hecho de
que FX (Xi , θ) para i = 1, 2, . . . , n, tiene distribución Uniforme en el intervalo
(0, 1). Para algunos casos particulares, por razones expeditivas, la variable
aleatoria pivote se construye a partir de que igualmente 1−FX (Xi , θ) ∼ U (0, 1).
Una sutil modificación a la variable aleatoria pivote general, regido por el
modelo Gama, permite la construcción de otra variable aleatoria pivote, ésta
bajo la distribución Ji-cuadrado, ası́
n
Q∗X = −2 ln FX (Xi , θ) ∼ χ2 (2n)
i=1
n
Q∗X = −2 ln FX (Xi , θ) ∼ χ2 (2n)
i=1
Como FX (x, θ) = 1 − e−θx I(0,∞) (x), (1 − FX(x, θ)) I(0,∞) (x) = e−θx I(0,∞) (x),
con lo cual e−θXi ∼ U (0, 1) e igualmente − ln e−θXi = θXi tiene distribución
Exponencial con parámetro igual a uno, hecho que permite justificar el motivo
para la adopción de la variable pivote:
n
QX = 2θ Xi ∼ χ2 (2n)
i=1
Tn
2. Si θ es un parámetro de escala y si Tn es MLE de θ, o θTn es una
θ
variable aleatoria pivote para θ.
(1)
3. Si θ1 es el componente de localización y Tn un MLE de θ1y además si
(1)
(2) T n − θ 1
θ2 es el componente de escala y Tn un MLE de θ2 entonces (2)
Tn
es una variable aleatoria pivote para θ1 , si ésta no depende de los demás
componentes de θ, o si éstos son conocidos.
fQX (q)
1−α
a b q
Figura 3.1: Esquema del punto de partida del método de la variable pivote para
el caso 1
3.3. ESTIMACIÓN DE PROMEDIOS, BAJO NORMALIDAD 125
√
1 − α = Pμ aσ < n(X n − μ) < bσ
aσ bσ
= Pμ √ < (X n − μ) < √
n n
aσ bσ
= Pμ −X n + √ < μ < −X n + √
n n
bσ aσ
= Pμ X n − √ < μ < X n − √
n n
o equivalentemente
fQX (b) ∂
= a
fQX (a) ∂b
De esta manera
∂
LI = 0 cuando fQX (b) = fQX (a)
∂b
o cuando a = b, pero esta última solución no es admisible porque no satisface la
relación fundamental entre a y b. Gráficamente la figura 3.1 muestra la elección
apropiada de a y b para conseguir el intervalo confidencial con la exigencia de
longitud mı́nima.
fQX (q)
1−α
α α
2 2
|
a 0 b q
(−z1− α2 ) (z1− α2 )
Figura 3.2: Elección de los valores a y b que minimizan la longitud del intervalo
confidencial correspondiente al caso 1
Teorema 3.3.1. Sea Tn un MLE insesgado para θ, cuya varianza coincide con
la cota de Cramer-Rao y que cumple conjuntamente las condiciones de regulari-
dad con el modelo probabilı́stico elegido, entonces para un tamaño de muestra su-
ficientemente grande, un intervalo confidencial de aproximadamente 100(1−α)%
de confianza para θ es
z1− α2 z1− α2
Tn − , Tn +
nI(Tn ) nI(Tn )
es decir
8 8
Pn (1 − Pn ) Pn (1 − Pn )
Pn − z1− α2 , Pn + z1− α2
n n
128 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS
Como este intervalo requiere para su aplicación que el tamaño de la muestra sea
grande, una recomendación práctica para su utilización, según varios autores,
es confirmar que npn > 5 y n(1 − pn ) > 5.
Un intervalo confidencial también utilizado en laestimación de π, citado en
algunos textos, basado en la misma variable pivote nI(θ)(Pn − θ) es
⎛ 8 8 ⎞
2 z1− α 2 z1− α
z2 α Pn (1−Pn )
2
z1− α Pn (1−Pn )
⎜ Pn + 1− 2 + 4n2
2
Pn + 2 + 4n2
2
⎟
⎜ 2n
− z1− α2
n
, 2n
+ z1− α2
n
⎟
⎝ 2
z1− α
2
z1− α
2
z1− α
2
z1− α ⎠
1+ n2 1+ n
2
1+ n
2
1+ n
2
μd = μ1 − μ2
(X n − Y m ) − (μ1 − μ2 )
QX = 8 ∼ N (0, 1)
σ12 σ22
+
n m
A partir de esta variable pivote para (μ1 − μ2 ), puede generarse el intervalo
confidencial correspondiente
8 8
σ12 σ22 σ12 σ22
(X n − Y m ) − z1− α2 + , (X n − Y m ) + z1− α2 +
n m n m
Caso 2
Un intervalo del 100(1 − α)% para la diferencia de promedios poblacionales
correspondientess a dos poblaciones independientes, de longitud mı́nima, bajo
el supuesto de que las varianzas poblacionales son desconocidas pero iguales, se
desarrolla teniendo en cuenta lo siguiente:
Sea σ12 = σ22 = σ 2 , entonces
(X n − Y m ) − (μ1 − μ2 )
8 ∼ N (0, 1)
σ2 σ2
+
n m
n
(Xi − X n )2
(n − 1)S1,n
2
i=1
= ∼ χ2 (n − 1)
σ2 σ2
n
(Yj − Y m )2
(m − 1)S2,m
2
j=1
= ∼ χ2 (m − 1)
σ2 σ2
130 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS
2
∼ χ2 (m + n − 2)
σ
(X n − Y m ) − (μ1 − μ2 )
QX = . ∼ t(n + m − 2)
Sp,n+m n1 + m 1
2
(n − 1)S1,n
2
+ (m − 1)S2,m2
donde Sp,n+m = es el estimador de la varianza
(n + m − 2)
común σ 2 . El intervalo confidencial para (μ1 − μ2 ) basado en esta variable
pivote tiene como lı́mite confidencial inferior a
8
1 1
(X n − Y m ) − t1− α2 (n + m − 2)Sp,n+m +
n m
y como lı́mite confidencial superior a
8
1 1
(X n − Y m ) + t1− 2 (n + m − 2)Sp,n+m
α +
n m
Caso 3
Un intervalo confidencial del 100(1 − α)% de confianza para la diferencia de los
promedios de dos poblaciones independientes de longitud mı́nima, cuando las
varianzas poblacionales se asumen distintas y desconocidas, está basado en la
variable pivote
(X n − Y m ) − (μ1 − μ2 )
T = . 2 2
S1,n S2,m
n + m
n−1 + m−1
3.4. ESTIMACIÓN DE VARIANZAS, BAJO NORMALIDAD 131
⎡ ⎤
⎢1 σ2 1⎥
Pσ2 ⎢
⎣b < < ⎥=1−α
n
a⎦
(Xi − μ)2
i=1
es decir
⎡
n
n ⎤
(Xi − μ)2 (Xi − μ)2
⎢ i=1 ⎥
Pσ2 ⎢
⎣ < σ2 < i=1 ⎥=1−α
⎦
b a
132 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS
fQX (q)
1−α
a b q
Figura 3.3: Esquema del punto de partida del método de la variable pivote para
el caso 1
fQX (a) ∂
= b
fQX (b) ∂a
3.4. ESTIMACIÓN DE VARIANZAS, BAJO NORMALIDAD 133
∂ 1 1 ∂
luego LI = 0 cuando 2 = 2 b, es decir, cuando
∂a a b ∂a
1 1 fQX (a)
= 2
a2 b fQX (b)
Concretamente, el intervalo confidencial tiene longitud mı́nima cuando
fQX (q)
α
2
1−α
α
2
a b q
(χ2α ) (χ21− α )
2 2
Caso 2
Un intervalo confidencial del 100(1 − α)% de confianza para σ 2 cuando μ es
134 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS
desconocido es
⎛
n
n ⎞
(Xi − X n )2 (Xi − X n )2
⎜ i=1 ⎟
⎜ , i=1 ⎟
⎝ χ2 (n − 1) χ2 (n − 1) ⎠
1− α
2
α
2
En efecto,
n
m
(Xi − μ1 )2 (Yj − μ2 )2
i=1 j=1
∼ χ (n)
2
∼ χ2 (m)
σ12 σ22
σ12
poblaciones se construye la siguiente variable pivote para σ22
m
m
(Yj − μ2 )2 /(mσ22 ) (Yj − μ2 )2 /m
j=1 σ 2 j=1
QX =
n = 12 ∼ F (m, n)
σ2 n
(Xi − μ1 )2 /(nσ12 ) (Xi − μ1 )2 /n
i=1 i=1
Al partir de
⎡
m ⎤
(Yj − μ2 )2 /m
⎢ σ12 j=1 ⎥
Pσ12 ,σ22 ⎢
⎣a < < b⎥
⎦=1−α
σ22 n
(Xi − μ1 )2 /n
i=1
fQX (q)
1−α
a b q
Figura 3.5: Esquema del punto de partida del método de la variable pivote para
el caso 1
con ello
σ2
Pσ12 ,σ22 aT < 12 < bT = 1 − α
σ2
LI = bT − aT = T (b − a)
longitud que se minimiza como en casos anteriores haciendo uso de los proce-
dimientos respectivos del cálculo diferencial.
∂ ∂
LI = T b−1
∂a ∂a
∂ fQX (a) ∂ fQX (a)
como ya se ha establecido b = , luego LI = T −1 ,
∂a fQX (b) ∂a fQX (b)
∂
entonces LI = 0 cuando fQX (a) = fQX (b).
∂a
Similarmente al caso de los intervalos confidenciales de longitud mı́nima para
las varianzas bajo normalidad, establecidos los grados de libertad y el nivel
confidencial (1 − α), es posible identificar los valores de a y b que cumplen
con la condición anterior, como lo muestra la figura 3.6, por medio de métodos
numéricos. De la misma manera, es fácil elaborar un programa de computador
que los calcule. E igualmente esta limitación se soslaya en la medida que se
cuente con muestras grandes.
fQX (q)
1−α
a b q
Figura 3.6: Elección de los valores a y b que minimizan la longitud del intervalo
confidencial correspondiente al caso 1
σ12
en cuyo caso, el intervalo confidencial para σ22
del 100(1 − α)% de confianza es
⎛ n n ⎞
(Xi − μ1 )2 /n (Xi − μ1 )2 /n
⎜ i=1 ⎟
⎜ f α2 (m, n) , i=1 f α (m, n)⎟
⎝ m m 1− 2 ⎠
(Yj − μ2 )2 /m (Yj − μ2 )2 /m
j=1 j=1
Caso 2
Un intervalo confidencial del 100(1 − α)% de confianzas para el cociente de va-
σ2
rianzas σ12 de dos poblaciones independientes, cuando μ1 y μ2 se desconocen,
2
es
⎛ n n ⎞
(Xi − X n )2 /(n − 1) (Xi − X n )2 /(n − 1)
⎜ i=1 ⎟
⎜ a , i=1 b⎟
⎝ m m ⎠
(Yj − Y m )2 /(m − 1) (Yj − Y m )2 /(m − 1)
j=1 j=1
σ12
intervalo confidencial basado en la variable pivote para σ22
m
2
(Yj − Y m )2 /(m − 1)
σ1 j=1
QX = ∼ F (m − 1, n − 1)
σ22 n
(Xi − X n )2 /(n − 1)
i=1
2 2
S1,n S1,n
2 F α2 (m − 1, n − 1), 2 F1− α2 (m − 1, n − 1)
S2,m S2,m
adopción de z0.975 = 1.96 y debido a que npn = 315 > 5 y n(1 − pn ) = 194 > 5,
entonces se puede estimar con una confianza del 95% que entre el 57.66% y el
66.1% de los abogados que se desempeñan en asuntos del Derecho Penal, consi-
deran que el nuevo sistema acusatorio no es un instrumento contra la impunidad
puesto que la estimación por intervalo de la proporción en mención es
8 8
pn (1 − pn ) pn (1 − pn )
pn − z1− α2 , pn + z1− α2
n n
8 8
0.6188 ∗ 0.3811 0.6188 ∗ 0.3811
= 0.6188 − 1.96 , 0.6188 + 1.96
509 509
= (0.5766, 0.6610)
n
2
1 z1 −α/2
4 e
1
2 1 π
∂
H(X, θ) = [ln fX (X, θ)]
∂θ
por lo tanto
1 n
Tn = r(θ) + H(Xi , θ)
K(θ, n) i=1
θ2θ1 θ1 −1 − θx
fX (x, θ) = x e 2 I(0,∞) (x)
Γ(θ1 )
θ2 θ1θ2
fX (x, θ) = I(θ ,∞) (x)
xθ2 +1 1
10. ¿Cuál de los dos intervalos confidenciales para la estimación de la propor-
ción poblacional, presentados en el numeral 3.3.2, prefiere utilizar?.
11. Deduzca la expresión para el tamaño de la muestra simple requerido en la
estimación de la diferencia de promedios en poblaciones independientes,
bajo Normalidad.
12. En número de disconformidades de una baldosa de cerámica se modela
para efectos de control de calidad, como una variable aleatoria con dis-
tribución de Poisson. La variabilidad propia del proceso de manufactura,
sugiere reconocer al parámetro como una variable aleatoria, para la cual se
propone un modelo Exponencial de parámetro igual a uno. Determine un
intervalo Bayesiano para estimar la tasa de disconformidades por unidad,
con base en una muestra aleatoria de tamaño n.
146 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS
JUZGAMIENTO DE
HIPÓTESIS
ción.2001
147
148 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
con otra, cuando se comparan ambas ”(op. cit.), es un término más cercano a
estimar o a destacar que a la toma de decisiones a partir de la información de
la muestra.
Docimasia como “Arte de ensayar los minerales para determinar la natu-
raleza y proporción de los metales que contienen ”2 , y de otras de sus acepciones,
presenta más un sentido de análisis que un sentido de opción por algo a la luz
de los hechos. Además su origen etimológico de ensayar o probar, la colocarı́a
como término sinónimo de prueba, y no habrı́an razones para adoptarla. Cotejo
como acción y efecto de cotejar, siendo cotejar “Confrontar algo con otra u otras
cosas; compararlas teniéndolas a la vista ”(op. cit), consistirı́a igualmente en
un simple sinómino de contraste, que no introduce elementos adicionales para
admitirlo como palabra nuclear.
Como juzgamiento es acción y efecto de juzgar, entendiendo que juzgar sig-
nifica “Deliberar acerca de la culpabilidad de alguien o de la razón que le asiste
en un asunto y sentenciar lo procedente. Decidir en favor o en contra y espe-
cialmente pronunciar como juez una sentencia acerca de alguna cuestión o sobre
alguno ”(op. cit), además de tomarse como directriz a una de sus acepciones
que condensa la finalidad de un procedimiento de toma de una decisión a fa-
vor o en contra de algo, juzgamiento por su parte es un vocablo que permite
construir una analogı́a magistral entre un juicio que se realiza ante un juez y
los elementos, pasos y conceptos en el acopio de información, su procesamiento
y la decisión que se toma ante una afirmación relativa al fenómeno en estu-
dio, que la Inferencia estadı́stica abstrae y estructura como una de sus partes
fundamentales.
En consecuencia este texto titula al presente capı́tulo como Juzgamiento de
Hipótesis, porque como se comprenderá en la medida que se vaya desarrollando,
se trata realmente de algo análogo a un juicio, particularmente a un juicio penal.
Para iniciar la exposición de los conceptos propios del juzgamiento de hipótesis,
se parte del concepto de Hipótesis Estadı́stica.
H0 : θ ∈ Θ 0 , Θ0 ⊂ Θ
H1 : θ ∈ Θ1 , Θ1 ⊂ Θ, Θ1 ∩ Θ0 = ∅
H0 : θ ∈ Θ0
f rente a
H1 : θ ∈ Θ1
Definición 4.1.5. Una hipótesis H : θ ∈ Θ , Θ ⊂ Θ se denomina hipótesis
simple si con dicha aseveración queda plenamente especificada la función de
densidad fX (x, θ). En caso contrario se denomina hipótesis compuesta.
Ejemplo 4.1.1. El diseño de un producto establece un envase de 20 onzas
fluidas; en consecuencia el proceso de llenado debe adecuarse a ese requerimiento
y deben planearse y ejecutarse los controles periódicos para poder tomar las
decisiones a que haya lugar sobre los ajustes a las máquinas y al proceso en
general una vez se obtenga y se procese la información pertinente durante los
controles.
Para respaldar cualquier decisión con el apoyo de procedimientos estadı́sticos,
una manera consistirı́a en idealizar el contenido del producto en el envase como
una variable aleatoria y adoptar un modelo probabilı́stico como regente de su
comportamiento. En particular si se elige el modelo Gaussiano como el más
idóneo para representar el contenido mencionado, con valor esperado θ y bajo
el supuesto de varianza conocida, la declaración H : θ = 20 indicativa de que
el proceso de llenado está centrado de acuerdo con el requerimiento del diseño,
corresponde a una hipótesis simple, puesto que conocida la varianza y admitido
θ = 20 como el valor esperado de la variable que representa el citado contenido,
queda plenamente determinada la distribución de dicha variable.
Por su parte la afirmación de que el proceso de llenado tiende a rebosar el envase,
traducida como H : θ > 20, corresponde a una hipótesis compuesta, porque
se trata de una afirmación que aunque lleva tácita la alusión a una variable
con distribución Gaussiana de varianza conocida, no identifica una distribución
singular.
Continuando dentro de este contexto industrial, si en el instante de cierre del
envase posterior al llenado, mediante la utilización de una fotocélula, se detectan
envases con contenido inferior a 18.5 fl oz, éstos son trasladados a un proceso
de reciclaje prácticamente sin costo alguno, mientras que los recipientes que
150 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
Como los tests aleatorizados no son del interés de este texto, debe entenderse
que dentro del contenido del presente capı́tulo el término test hace mención
únicamente a los tests no aleatorizados.
Ejemplo 4.1.2. Un test propuesto para el juzgamiento de H0 dentro del sis-
tema de hipótesis del ejemplo 4.1.1 es
DECISIÓN
H0 Rechazar H0 No rechazar H0
Cierta Error del tipo I Correcta
Falsa Correcta Error del tipo II
La función
!
1 si (x1 , x2 , . . . , xn ) = xn ∈ Cτ,n
ψτ (xn ) =
0 si xn ∈ Cτ,n c c
siendo Cτ,n = X − Cτ,n
dicho de otra manera, calcular este error del tipo I corresponde al cálculo de
la probabildad de rechazar la hipótesis nula dado que el valor del parámetro es
θ = θ0 . Sin embargo, bajo una situación relativa a una hipótesis nula compuesta,
que se refiere a una variedad de distribuciones, el error del tipo I no serı́a único,
serı́a un conjunto de errores del tipo I. El máximo del conjunto citado, la mayor
probabilidad de rechazar la hipótesis nula siendo cierta, se adopta como uno
de los elementos constituyentes en la construcción, en la caracterización o en la
evaluación de un test. La siguiente definición hace referencia a ello.
4.1. ELEMENTOS BÁSICOS 153
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
154 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
Tabla 4.1: Tabla de compilación de probabilidades de error del tipo II, para tres test
particulares, según algunos supuestos valores de θ
c
Definición 4.1.13. Siendo Θ1 = Θ0 la función βτ (θ) = 1 − πτ (θ), es llamada
curva caracterı́stica de operación o curva CO del test τ .
Ejemplo 4.1.4. El tiempo que una persona requiere para comprar una tarjeta
de ingreso al sistema de Transmilenio en la estación de Alcalá durante el año
2002, ha mostrado un comportamiento que sugiere el modelo Uniforme en el
intervalo (0, θ) para su descripción. Se afirma que el tiempo máximo de per-
manencia en la fila está entre dos y tres minutos. Para evaluar la afirmación y
tomar los correctivos del caso, se va a registrar el tiempo empleado por n per-
sonas que serán elegidas por medio de un procedimiento especial de muestreo
en la rampa de ingreso, y se propone la utilización del test
H0 : θ ∈ [2, 3]
f rente a
H1 : θ ∈
/ [2, 3]
n n n
1.9 1.9 2.9
πτ (θ) = I(0,1.9] (θ) + I(1.9,2.9] (θ) + 1 + − I(2.9,∞) (θ)
θ θ θ
πτ (θ)
1
| | | | |
1 2 3 4 5 θ
πτ (θ)
1.9 2.9 θ
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
el test τ ∗ con nivel α se dice que es más potente para H0 que cualquier otro
test τ para H0 si
2. πτ ∗ (θ1 ) ≥ πτ (θ1 )
1 n
n
τ : “Rechazar H0 si (μ0 − μ1 ) xi − 2 (μ20 − μ21 ) < ln k”
σ2 i=1
2σ
H0 : θ ∈ Θ 0
f rente a
H1 : θ ∈ Θ 1
Λn = λ(X1 , X2 , . . . , Xn )
2. λn ∈ (0, 1]
4.2. TESTS MÁS POTENTES 161
La función de verosimilitud
L = L μ1 , μ2 , . . . , μk , σ12 , σ22 , ..., σk2 ; x11 , x12 , . . . , x1n1 , . . . , xk1 , xk2 , . . . , xknk
de las N variables aleatorias X11 , X12 , . . . , X1,n1 , . . . , Xk1 , Xk2 , . . . , Xknk , in-
n
cluye l = 2k componentes, donde N = nj ; por otra parte denotando por σ 2
j=1
162 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
sup L
Θ0
La determinación de λN = requiere de los siguientes elementos:
sup L
Θ
nj
• La estimación máximo-verosı́mil de μj es 1
nj xji = xj
i=1
nj
• La estimación máximo-verosı́mil de σj2 es 1
nj (xji − xj )2
i=1
con lo anterior
n2j
)
k
nj
sup L 1
nj (xji − xj )2
Θ0 j=1 i=1
λN = = ⎡ ⎤ N2
sup L k nj
(xji −xj )2
Θ
⎢ j=1 i=1 ⎥
⎣ k ⎦
nj
j=1
n
−θ xi
como L(θ; x1 , x2 , . . . , xn ) = θn e i=1 y además
n
1
sup L(θ; x1 , x2 , . . . , xn ) = e−n
θ∈Θ xn
luego
⎧
⎪ 1
⎪
⎪ 1 cuando ≤ θ0
⎨ xn
λn = θ0n e−θ0 nxn 1
⎪
⎪ n cuando > θ0
⎪
⎩ 1 xn
xn e−n
164 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
L(θ)
θ0 x1n θ
L(θ)
1
xn θ0 θ
1 θn e−θ0 nxn
τ : “Rechazar H0 si > θ0 y 0 n < k”
xn 1
e−n
xn
o equivalentemente
τ : “Rechazar H0 si θ0 xn ≤ k0 ”
4.2. TESTS MÁS POTENTES 165
y n e−n(y−1)
1
k
k0 1 y
H0 : θ ∈ Θ0
f rente a
H1 : θ ∈ Θ1
1. sup πτ ∗ (θ) = α
θ∈Θ0
2. πτ ∗ (θ) ≥ πτ (θ) para todo θ ∈ Θ1 y para todo test τ con nivel menor o
igual a α.
166 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
H0 : θ = θ 0
f rente a
H1 : θ > θ 0
En el sistema de hipótesis
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
el test más potente para H0 en este último sistema está formulado como
n n
θ0 −(θ0 −θ1 ) xi
τ : “Rechazar H0 si e i=1 < k”
θ1
o equivalentemente
n n
1 θ1
τ : “Rechazar H0 si xi < ln k ”
i=1
θ1 − θ0 θ0
n
τ : “Rechazar H0 si xi < c”
i=1
Este test es más potente para H0 bajo cualquier elección de θ1 > θ0 , de tal
manera que el test
n
τ : “Rechazar H0 si xi < c”
i=1
4.2. TESTS MÁS POTENTES 167
H0 : θ = θ 0
f rente a
H1 : θ > θ 0
L(θ1 ; x1 , x2 , . . . , xn )
L(θ2 ; x1 , x2 , . . . , xn )
n
xi
L(θ1 ; x1 , x2 , . . . , xn ) θ1
e−n(θ1 −θ2 )
i=1
=
L(θ2 ; x1 , x2 , . . . , xn ) θ2
n
la cual es una función no decreciente de xi .
i=1
entonces el test
el test
n
τ : “Rechazar H0 si d(xi ) > t1−α ”
i=1
o en el sistema
H0 : θ = θ 0
f rente a
H1 : θ > θ 0
el test
n
τ : “Rechazar H0 si d(xi ) < tα ”
i=1
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
o en el sistema
H0 : θ = θ 0
f rente a
H1 : θ > θ 0
valor puede entenderse como una ayuda muy eficiente en la lectura de los re-
sultados para el juzgamiento de una hipótesis, proque su valor condensa los
elementos del test y hace más diligente la decisión.
Tratando al valor particular de la estadı́stica explı́cito en el test como un
percentil de la misma, la forma estándar que compara el valor de la estadı́stica
con algunos de sus percentiles, es decir, que compara valores de una variable
aleatoria, puede vérsela de manera equivalente desde otro ángulo, la de comparar
probabilidades: la probabilidad asociada al valor particular de la estadı́stica
tratado como un percentil y la probabilidad que representa el valor α.
Ası́ entonces, un test de nivel α puede transformarse a una manera equiva-
lente utilizando el recurso del valor p, de la siguiente manera,
Por supuesto si wc < χ2α (2n) implica que p < α y como consecuencia el test
puede expresarse equivalentemente como:
τ : “Rechazar H0 si p < α”
wc P [Wc > wc ]
0 0.3888827605
1 0.0864105914
2 0.0130840050
3 0.0014801344
4 0.0001322100
H0 : π ≤ 0.01
f rente a
H1 : π > 0.01
τ : “Rechazar H0 si wc > k”
49
Teniendo en cuenta que bajo la hipótesis nula Xi ∼ Bin(49, 0.01) y que un
i=1
test con nivel del 5% no es posible conseguirse, la tabla 4.2 nos permite dos
finalidades: la especificación de α, siguiendo la recomendación de las normas
internas, y la enumeración de algunos valores p.
El valor p en este caso corresponde a p = 1 − P [Wc ≤ wc ] y del contenido de
la tabla anterior se deduce que α = 0.013084, porque 0.086410 no es admisible
por las normas. Finalmente el test correspondiente formulado especı́ficamente
para tomar decisiones en la fase de rotulación,
49
τ : “Rechazar H0 si xi > 2”
i=1
es equivalente a:
• Sistema A
H0 : μ = μ0
f rente a
H1 : μ < μ0
• Sistema B
H0 : μ = μ0
f rente a
H1 : μ > μ0
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 173
• Sistema C
H0 : μ = μ0
f rente a
H1 : μ = μ0
1 1 θ 2 1 x 2 θ
a(θ) = √ e− 2 ( σ ) , b(x) = e− 2 ( σ ) , c(θ) = , d(x) = x
2πσ σ
n
t(X1 , X2 , . . . , Xn ) = Xi
i=1
en consecuencia el test
n
τB : “Rechazar H0 si xi > k ∗ ”
i=1
X n − μ0
donde Zc = √ , entonces
σ/ n
α
|
Rechazar H0 0 z
τA : “Rechazar H0 si zc < zα ”
H0 : μ = μ0
f rente a
H1 : μ = μ0
⎧ n
⎫
n ⎨− (xi −μ0 )2 ⎬
√1 exp i=1
sup L 2πσ ⎩ 2σ2 ⎭
θ=μ0
λn = = ⎧ n
⎫
sup L n ⎨− (xi −xn )2 ⎬
θ∈Θ √1 exp i=1
2πσ ⎩ 2σ2 ⎭
⎧ n ⎫
⎪
n
⎪ (xi − xn )2 −
⎨ (xi − μ0 )2 ⎪
⎪
⎬
i=1 i=1
λn = exp
⎪
⎪ 2σ 2 ⎪
⎪
⎩ ⎭
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 175
Como
n
n
(xi − μ0 )2 = {(xi − xn ) + (xn − μ0 )}2
i=1 i=1
n
n
n
= (xi − xn ) + 2
2
(xi − xn ) (xn − μ0 ) + n(xn − μ0 )2
i=1 i=1 i=1
n
= (xi − xn )2 + n(xn − μ0 )2
i=1
entonces
⎧ n ⎫
⎪
n
2⎪
⎪
⎨ (xi − xn )2
− (xi − xn )2
− n(xn − μ0 ) ⎪
⎬
i=1 i=1
λn = exp
⎪
⎪ 2σ 2 ⎪
⎪
⎩ ⎭
n(xn − μ0 )2
= exp −
2σ 2
por lo tanto el test construido con base en la razón generalizada de vero-
similitudes está determinado como
n(xn − μ0 )2
τC : “Rechazar H0 si exp − < k”
2σ 2
pero
8
n(xn − μ0 )2 n(x − μ )2
n 0
exp − <k implica que > k0
2σ 2 2σ 2
1−α
α α
2 2
|
Rechazar H0 0 Rechazar H0 z
de esta manera
y por lo tanto
⎛ ⎛ n ⎞⎞
1 ⎜ i=1(xi −xn )2 ⎟
⎜ − ⎝ s2
⎠⎟
⎜ 1 2 n
⎟
sup L = ⎜ √ e ⎟
θ∈Θ ⎝ 2
2π sn ⎠
ns2
1 −1 s2
n
=√ e 2 n
2
2π sn
⎛ ⎞ n2
⎜ n ⎟ −n
=⎜
⎝
n
⎟ e 2
⎠
2π (xi − xn )2
i=1
⎛ ⎞ n2
⎜ n ⎟ −n
sup L = ⎜
⎝
n
⎟ e 2
⎠
θ∈Θ0 2π (xi − μ0 )2
i=1
πτc (θ)
1
α
|
μ0 θ
n
μ = μ0 y σ 2 = 1
n (xi − μ0 )2 . En consecuencia
i=1
⎛
n ⎞ n2
(xi − xn ) 2
⎜ i=1 ⎟
λn = ⎜
⎝ n
⎟
⎠
(xi − μ0 )2
i=1
⎛
n ⎞ n2
(xi − xn )2
⎜ ⎟
=⎜
⎝n
i=1
n
⎟
⎠
(xi − xn )2 + n (xi − μ0 )2
i=1 i=1
⎛ ⎞ n2
⎜ ⎟
⎜ ⎟
⎜ 1 ⎟
=⎜
⎜ n
⎟
⎟
⎜ n (xn −μ0 )2 ⎟
⎝1 + i=1
n
⎠
(xi −xn )2
i=1
τC : “Rechazar H0 si λn < k”
H0 : μ = μ0
f rente a
H1 : μ < μ0
• Para el Sistema B,
H0 : μ = μ0
f rente a
H1 : μ > μ0
p = Φ(zc )
p = 1 − Φ(zc )
z
z1−α |zc | z1− α2
La razón de este cálculo lo sugiere la figura 4.8; ante una situación en la cual el
valor particular zc fuese tal que z1−α < |zc | < z1− α2 , y admitiendo p = 1−Φ(zc ),
no se dispondrı́a de una forma alternativa de decisión equivalente al test τc ,
puesto que claramente no habrı́a evidencia estadı́stica para rechazar la hipótesis
nula por ser |zc | < z1− α2 , pero por otra parte como p < α la decisión serı́a
contraria. De esta manera la decisión que se tome mediante el test τc es idéntica
a la que se tome mediante la utilización del valor p = 2(1 − Φ(|zc |)).
Las funciones de potencia de los tests τA y τB se ilustran en las figuras 4.9
y 4.10.
πτA (θ)
1
α
|
μ0 θ
πτB (θ)
1
α
|
μ0 θ
• Sistema A
H0 : μ1 − μ2 = δ0
f rente a
Ha : μ1 − μ2 < δ0
• Sistema B
H0 : μ1 − μ2 = δ0
f rente a
Ha : μ1 − μ2 > δ0
• Sistema C
H0 : μ1 − μ2 = δ0
f rente a
Ha : μ1 − μ2 = δ0
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 181
Juzgamiento de
H0 : μ = μ0
√ √
n(xn − μ0 ) No ¿El valor de σ2 se Si n(xn − μ0 )
tc = zc =
sn asume conocido? σ
Tests Tests
τA : “Rechazar H0 si τA : “Rechazar H0 si
tc < tα (n − 1)” zc < zα ”
τB : “Rechazar H0 si τB : “Rechazar H0 si
tc > t1−α (n − 1)” zc > z1−α ”
τC : “Rechazar H0 si τC : “Rechazar H0 si
|tc | > t1− α2 (n − 1)” |zc | > z1− α2 ”
es muy sencillo confirmar que se trata de una variable aleatoria con dis-
tribución Normal estándar, teniendo en cuenta que las muestras aleato-
rias son independientes; esta expresión por su condición es una variable
pivote para la construcción de un intervalo confidencial para μ1 − μ2 .
Se hace esta mención en razón a que existe cierta correspondencia en-
182 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
trela estimación
por intervalo y el juzgamiento de hipótesis. En efecto,
(1) (2)
si Tn , Tn es un intervalo confidencial del 100(1 − α)% de confianza
para el parámetro θ, un test razonable de nivel α para el juzgamiento
de la hipótesis nula H0 : θ = θ0 , frente a H1 : θ = θ0 descrito como
(1) (2)
τ : “Rechazar H0 si θ0 ∈ / tn , tn ”, es un test que da origen a uno
equivalente formulado en la forma caracterı́stica. De los intevalos confi-
denciales unilaterales también se pueden deducir tests. Utilizando este
recurso, se pueden derivar los test correspondientes ası́
τA : “Rechazar H0 si zc < zα ”
⎢ ⎥
⎢ n+m ⎥
sup L = ⎢ ⎥
n+m
⎢ ⎥ e− 2
θ∈Θ ⎣
n
m ⎦
2π (xi − xn )2 + (yj − y m )2
i=1 j=1
⎡ ⎤ m+n
2
⎢ ⎥
⎢ m+n ⎥ n+m
⎢ ⎥ e− 2
⎢ ⎥
⎣
n
m ⎦
2π (xi − xn ) +
2 (yj − y m ) + m+n (xn − y m )
2 mn 2
i=1 j=1
con lo cual
⎡ ⎤− m+n
2
⎢ mn
m+n (xn − ym) 2⎥
λn+m = ⎢
⎣1 +
n m
⎥
⎦
(xi − xn )2 + (yj − y m )2
i=1 j=1
n
m
(Xi − X n )2 + (Yj − Y m )2
i=1 j=1
• ∼ χ2 (n + m − 2)
σ2
y dada la independencia de las dos variables aleatorias mencionadas,
(X n −Y m −δ0 )
√1 1
σ n +m
Tc = n m
∼ t(m + n − 2)
(Xi −X n )2 + (Yj −Y m )2
i=1 j=1
σ2 (n+m−2)
n+m
2
1
λn+m = t2c
1+ n+m−2
(X n − Y m ) − δ0
Tc = .
1 1
n + m Sp
donde
n
m
(Xi − X n )2 + (Yj − Y m )2
i=1 j=1
Sp2 =
n+m−2
H0 : σ12 = σ22
X n − Y m − δ0
Tc = . 2 2
S1,n S2,m
n + m
n−1 + m−1
Como conclusión esta sección 4.3 y como generalización del numeral 4.3.2, asum-
iendo el modelo de Gauss para cada una de las k poblaciones independientes,
de tal manera que la variable que representa a la población j tiene valor esper-
ado μj y desviación estándar σ, j = 1, 2, . . . , k, y siendo Xj1 , Xj2 , . . . , Xjnj ,
la muestra aleatoria de tamaño nj correspondiente a la población j y bajo el
supuesto de homocedasticidad, el procedimiento de juzgamiento de la hipótesis
nula que forma parte del sistema
H0 : μ1 = μ2 = . . . = μk
f rente a
H1 : no todos los promedios poblacionales son iguales
2001
186 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
Juzgamiento de
H0 : μ1 − μ2 = δ0
No ¿σ12 , σ22 Si
son conocidos?
n − y m ) − δ0
Si t = (x. (xn − ym ) − δ0
¿σ12 = σ22 ? c zc = .
1 1 σ12 σ22
n + m sp n + m
No
(xn − y ) − δ0
tc = . 2 m 2
s1,n s2,m
n + m
La función de verosimilitud
L = L(μ1 , μ2 , . . . , μk , σ 2 ; x11 , x12 , . . . , x1n1 , . . . , xk1 , xk2 , . . . , xknk )
de las n variables aleatorias X11 , X12 , . . . , X1n1 , . . . , Xk1 , Xk2 , . . . , Xknk , siendo
σ 2 el valor común desconocido de las varianzas de cada población adoptando la
k
homocedasticidad y n = nj , es especı́ficamente
j=1
k nj 2
1 1 xji − μj
L= √ exp −
j=1 i=1
2πσ 2 σ
⎧ ⎫
n
⎨ 1 k nj ⎬
= (2πσ 2 ) 2 exp − 2 (xji − μj )2
⎩ 2σ ⎭
j=1 i=1
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 187
k
nj
• La estimación máximo-verosı́mil de σ 2 es 1
n (xji − xj )2 .
j=1 i=1
⎡ nj
⎤− n2
k
2π (xji −xj )2 n
⎢ j=1 i=1 ⎥
de tal manera que sup L = ⎣ n ⎦ exp − .
Θ 2
Acorde con la hipótesis nula, denotando
6 por μ el valor común7 desconocido
de los promedios de cada población, Θ0 = (μ, σ 2 )|μ ∈ R, σ 2 > 0 , de donde se
pueden establecer los siguientes elementos
⎡ nj
⎤− n2
k
2π (xji −x)2 n
⎢ j=1 i=1 ⎥
Por lo tanto sup L = ⎣ ⎦ exp − , y en consecuencia
Θ0 2
⎡ ⎤− n2
k
nj
sup L
⎢ (xji − x) ⎥ 2
Θ0 ⎢ j=1 i=1 ⎥
λn = = ⎢ k nj ⎥
sup L ⎣ ⎦
Θ (x ji − xj )2
j=1 i=1
k
nj
Algebraicamente la expresión (xji −x)2 , llamada suma total de cuadrados,
j=1 i=1
puede expresarse como la adición de dos cantidades,
k
k
nj
nj (xj − x)2 + (xji − xj )2
j=1 j=1 i=1
conocidas estas últimas como suma de cuadrados entre grupos (en el lenguaje
del Diseño Experimental, suma de cuadrados entre tratamientos) y suma de
cuadrados de errores respectivamente. Como estas cantidades son calculadas a
partir de los valores observados de las muestras, la suma total de cuadrados es
el numerador de una varianza muestral particular, varianza que se descompone
188 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
⎢ nj (xj − x) + (xji − xj )
2 2
⎥
⎢ j=1 j=1 i=1 ⎥
λn = ⎢ ⎥
⎣
k nj ⎦
(xji − xj )2
j=1 i=1
sustituyendo
k
nj (xj −x)2
j=1 − n2
k−1 k−1
nj por fc entonces λn = 1+ fc
k
(xji −xj )2
n−k
j=1 i=1
n−k
k
2
k
nj
2
nj X j − X y Xji − X j
j=1 j=1 i=1
nj
2
está garantizada por la independencia estadı́stica entre X j y Xji − X j .
i=1
En segundo lugar, bajo la hipótesis nula
k 2
nj X j − X
j=1
∼ χ2 (k − 1)
σ 2 (k − 1)
k
nj 2
Xji − X j
j=1 i=1
y ∼ χ2 (n − k)
σ 2 (n − k)
τ : “Rechazar H0 si λn < c”
• Sistema B
H0 : σ 2 = σ02
f rente a
H1 : σ 2 > σ02
• Sistema C
H0 : σ 2 = σ02
f rente a
H1 : σ 2 = σ02
2π θ
n n
1
− 2θ (xi −μ)2 +ln √ 1√
2π θ
=e i=1
Rechazar H0 χ2 (n)
H0 : σ 2 ≤ σ02
f rente a
H1 : σ 2 > σ02
4.4. JUZGAMIENTO DE HIPÓTESIS SOBRE VARIANZAS, BAJO NORMALIDAD 191
δ
Rechazar H0 Rechazar H0 χ2 (v)
Figura 4.14: Región crı́tica del test τc , con v = n o v = n − 1 según sea el caso
H0 : σ12 = σ22
f rente a
H1 : σ12 < σ22
• Sistema B
H0 : σ12 = σ22
f rente a
H1 : σ12 > σ22
• Sistema C
H0 : σ12 = σ22
f rente a
H1 : σ12 = σ22
Juzgamiento de
H0 : σ 2 = σ02
n
n
(xi − xn )2 No ¿El valor de μ se Si (xi − μ)2
i=1 i=1
χ2c2 = asume conocido? χ2c1 =
σ02 σ02
Tests Tests
τA : “Rechazar H0 si τA : “Rechazar H0 si
χ2c2 < χ2α (n − 1)” χ2c1 < χ2α (n)”
τB : “Rechazar H0 si τB : “Rechazar H0 si
χ2c2 > χ2α (n − 1)” χ2c1 > χ2α (n)”
τC : “Rechazar H0 si τC : “Rechazar H0 si
χ2c2 < χ2 (n − 1) o si χ2c1 < χ2 (n) o si
χ2c2 > χ2δ (n − 1)” χ2c1 > χ2δ (n)”
α = + (1 − δ) α = + (1 − δ)
H0 : π = π0
f rente a
H1 : π > π0
n
por medio de un test establecido como, τ : “Rechazar H0 si xi > k”.
i=1
n
Bajo la hipótesis nula Xi ∼ Bin(n, π0 ), elegido un nivel del test α, y con
i=1
el ánimo de determinar plenamente el valor de k, puede suceder que
n
n
Pπ0 Xi ≥ k + 1 < α < Pπ0 Xi ≥ k
i=1 i=1
es decir que no se puede determinar un valor de k para el cual el nivel del test
sea exactamente α. En esta situación hay dos soluciones: modificar el valor de
α por un valor menor α , o establecer un test aleatorizado.
n
La primera solución es adoptar el nivel α = Pπ0 Xi ≥ k + 1 . La se-
i=1
194 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
H0 : π = π0
f rente a
H1 : π < π0
n
a través de un test establecido como, τ : “Rechazar H0 si xi < k”, y para el
i=1
juzgamiento de la referida hipótesis nula en el sistema,
H0 : π = π0
f rente a
H1 : π = π0
n
n
por intermedio de un test τ : “Rechazar H0 si xi < k1 o si xi > k2 ”.
i=1 i=1
4.5. JUZGAMIENTO DE PROPORCIONES 195
• Sistema A
H0 : π = π0
f rente a
H1 : π < π0
• Sistema B
H0 : π = π0
f rente a
H1 : π > π0
• Sistema C
H0 : π = π0
f rente a
H1 : π = π0
Basados en la estadı́stica
Pn − π0
Zc = .
π0 (1−π0 )
n
τA :“Rechazar H0 si zc < zα ”
τB :“Rechazar H0 si zc > z1−α ”
τC :“Rechazar H0 si |zc | < z1− α2 ”
196 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
(1) 1
n
(2) 1
m
siendo Pn = n Xi y Pm = m Yj .
i=1 j=1
Si algún sistema enuncia la hipótesis nula como H0 = π1 − π2 = 0, la estadı́stica
apropiada que fundamenta el respectivo test es
(1) (2)
Pn − Pm
ZC = .
P (1 − P ) n1 + 1
m
(1) (2)
nPn + mPm
siendo P = , entendida esta estadı́stica como un estimador del
n+m
valor común π = π1 = π2 .
s2
s1 = 1.21, s2 = 1 y fc = s12 = 1.4641, el valor p dentro del juzgamiento de
2
la homoscedasticidad es 0.0811587, teniendo en cuenta que Fc ∼ F (63, 50),
valor que adoptando α = 0.05, permite descartar la homoscedasticidad como
supuesto de juzgamiento de H0 : μ1 = μ2 (el promedio de edad en la cual los
niños y las niñas alcanzan un ı́ndice de maduración de siete es el mismo) dentro
del sistema
H0 : μ1 = μ2
f rente a
H1 : μ1 = μ2
De esta manera se acude a la solución de Welch para poder contar con los
argumentos necesarios para sustentar la afirmación. Dado que
xn − y m 12.6 − 14.4
tc = . =. = −8.6928
s21,n s22,m 1.4641 1
+ 64 + 51
n m
H0 : σ12 = σ22
f rente a
H1 : σ12 = σ22
s2 2
Entonces fc = s12 = (36)
(45)2 = 0.64. La solución corriente en la determinación de
2
los percentiles permite establecer para este caso que f0.025 (46, 37) = 0.54323124
y que f0.975 (46, 37) = 1.8880067, con lo cual
Si μ fuese igual a μ∗ (μ∗ = μ0 ), la probabilidad del error del tipo II serı́a por
consiguiente,
σzα
β = Pμ∗ X n ≥ μ0 + √
n
√ √
∗
n Xn − μ n(μ0 − μ∗ )
= Pμ∗ ≥ + zα
σ σ
por lo tanto
√
n(μ0 − μ∗ )
+ zα = z1−β
σ
y como zα = −z1−α , entonces
√
n(μ0 − μ∗ )
− z1−α = z1−β
σ
de donde finalmente,
2
σ (z1−α + z1−β )
n=
μ0 − μ∗
n
δ0 − δ ∗
. + z1−α = −z1−β , luego
σ12 +σ22
n
δ ∗ − δ0
. = z1−α + z1−β , con lo cual se deduce que
2 2
σ1 +σ2
n
(σ12 + σ22 )(z1−α + z1−β )2
m=n=
(δ ∗ − δ0 )2
Cada una de las dos muestras debe entonces contar con n unidades para cumplir
cabalmente con las exigencias relacionadas con las probabilidades de los errores
en la decisión. Esta expresión es igualmente válida para el cálculo del número de
unidades estadı́sticas que deben seleccionarse en cada una de las dos poblaciones,
para el caso del juzgamiento de la hipótesis nula H0 : μ1 −μ2 = δ0 , en el Sistema
A. La sensibilidad del test, como en el caso anterior, es la determinante del valor
δ∗.
H0 : fX (x, θ) = fX (x, θ0 )
f rente a
H1 : fX (x, θ) = fX (x, θ1 )
)
j
fX (x, θ0 )
L(θ0 ; x1 , x2 , . . . , xj )
λj = = i=1
L(θ1 ; x1 , x2 , . . . , xj ) )
j
fX (x, θ1 )
i=1
Como α y β han sido establecidos de antemano, por lo tanto los conjuntos Aτ,n
y Cτ,n no están totalmente especificados y requieren para su determinación
de los valores de las constantes κ0 y κ1 , valores que definen plenamente el test
secuencial. Entonces el paso siguiente consiste en la concreción de dichos valores,
para los cuales el teorema siguiente facilita una aproximación.
Teorema 4.8.1. Definidos los tamaños de los errores α y β, los valores κ0 y
κ1 , que definen un test secuencial τ , pueden aproximarse mediante
α 1−α
κ0 ≈ y κ1 ≈
1−β β
Teorema 4.8.2. Definidos los tamaños de los errores α y β, y aproximados los
valores κ0 y κ1 , por κ∗0 = 1−β
α
y κ∗1 = 1−α
β respectivamente, los tamaños α∗ y
∗ ∗ ∗
β correspondientes a los valores por κ0 y κ1 , son tales que
α∗ + β ∗ < α + β
Ejemplo 4.8.1. Sea X1 , X2 , . . . , Xn una muestra aletoria de tamaño n, n un
valor no prefijado, de una población con distribución de Bernoulli de parámetro
θ. Un test secuencial τ para el juzgamiento de la hipótesis H0 : θ = θ0 en el
sistema de hipótesis simples
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
habiendo definido previamente α y β, puede formularse en los siguientes términos.
Definida la razón de verosimilitudes
)
j
θ0xi (1 − θ0 )1−xi j x j
i=1 θ0 (1 − θ1 ) i=1 i 1 − θ0
λj = j =
) xi θ1 (1 − θ0 ) 1 − θ1
θ1 (1 − θ1 )1−xi
i=1
4.8. JUZGAMIENTO SECUENCIAL 203
j
xi j
θ0 (1 − θ1 ) i=1 α 1 − θ1
≤
θ1 (1 − θ0 ) 1 − β 1 − θ0
θ0 (1−θ1 )
asumiendo que θ0 < θ1 , entonces 1−θ 1
1−θ0 < 1 y θ1 (1−θ0 ) < 1, luego el test secuencial
rechaza la hipótesis nula H0 : θ = θ0 , si
j
θ1 (1 − θ0 ) 1−β 1 − θ0
ln xi ≥ ln + j ln
θ0 (1 − θ1 ) i=1 α 1 − θ1
Denotando por
ln 1−β α ln 1−θ
1−θ1
0
a1 = y por b=
θ1 (1−θ0 ) θ1 (1−θ0 )
ln θ0 (1−θ1 ) ln θ0 (1−θ1 )
j
xi ≥ a1 + bj
i=1
j
xi j
θ0 (1 − θ1 ) i=1 1 − α 1 − θ1
≥
θ1 (1 − θ0 ) β 1 − θ0
Denotando por
− ln 1−α β
a0 =
ln θθ10 (1−θ 0)
(1−θ1 )
j
xi ≤ a0 + bj
i=1
204 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
j
τ :“En el paso j rechazar H0 si xi ≥ a1 + bj; no rechazar H0
i=1
j
en el paso j si xi ≤ a0 + bj ; incluir la observación xj+1 para
i=1
j+1
calcular el nuevo valor xi y continuar en el paso j + 1 si
i=1
j
a0 + bj < xi < a1 + bj”
i=1
j
xi •
i=1 •
•
•
Rechazar H0 •
•
• •
• •
• •
• Continuar •
•
•
• No rechazar H0
•
•
1 2 3 4 5 6 7 8 9 10 j
H0 : θ = μ0
f rente a
H1 : θ = μ0 + cσ
4.8. JUZGAMIENTO SECUENCIAL 205
j
(xi − μ0 ) 1 1−α c
≥ − ln +j
i=1
σ c β 2
j
(xi − μ0 ) 1 1−α c
≤ − ln +j
i=1
σ c β 2
j
(xi − μ0 )
1 α c
τ :“En el paso j rechazar H0 si ≥ − ln +j ;
i=1
σ c 1 − β 2
(xi − μ0 )
j
1 1−α c
no rechazarla si ≤ − ln + j ; calcular el
i=1
σ c β 2
j+1
(xi − μ0 )
valor para continuar en el paso j + 1 si
i=1
σ
j
(xi − μ0 ) 1 α c 1 1−α c
∈ − ln + j , − ln +j ”
i=1
σ c 1−β 2 c β 2
j
si yi ≥ ln κ1 , . . . ; incluir la observación yj+1 para calcular la
i=1
j+1
nueva razón de verosimilitudes yi , para continuar en el paso
i=1
j
j + 1 si ln κ0 < yi < ln κ1 ”
i=1
H0 : θ = 75
f rente a
H1 : θ = 80
es decir
√ √
n(c − 75) n(c − 80)
= z0.99 = 2.326347 y = z0.05 = −1.64485348
5 5
208 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
√
de donde se deduce que n = 3.97120048, entonces n = 15.7704332, es decir
n = 16. En general si el sistema de hipótesis se formula como
H0 : θ = μ0
f rente a
H1 : θ = μ1
siendo μ0 < μ1 ,
fX (xi , μ0 ) 1
yi = ln , i = 1, 2, 3, . . . , yi = − 2 (μ20 − μ21 ) − 2xi (μ0 − μ1 )
fX (xi , μ1 ) 2σ
luego
1
Eμ0 [Yi ] = (μ1 − μ0 )2
2σ 2
1
Eμ1 [Yi ] = − 2 (μ1 − μ0 )2
2σ
1
Para el caso particular μ0 = 75, μ1 = 80, σ 2 = 25, Eθ=75 [Yi ] = 2,
Eθ=80 [Yi ] = − 21 , α = 0.01, β = 0.05, entonces
α 1−α
Eθ0 [N ] ≈ 2 α ln + (1 − α) ln = 5.8206 ≈ 6
1−β β
α 1−α
Eθ1 [N ] ≈ −2 (1 − β) ln + β ln = 8.3538 ≈ 9
1−β β
En general esta propiedad de necesitar un tamaño esperado de la muestra menor
al tamaño de la muestra que requieren los tests que deben determinar previa-
mente el citado tamaño, es una propiedad que caracteriza a los tests secuenciales.
Terminada esta breve presentación de la idea central de un test secuencial,
se continua con la siguiente sección dedicada al juzgamiento del ajuste.
k
θ = (π1 , π2 , . . . , πk ) cuyos componentes son tales que πj = 1, y por otra
j=1
k
parte nj = n, nj ∈ {0, 1, . . . , n}. En otros términos, que su función de
j=1
densidad es:
P [V = v = (n1 , n2 , . . . , nk )] = P [N1 = n1 , N2 = n2 , . . . , Nk = nk ]
n
n! n
= πj j
)
k
nj ! i=1
j=1
H0 : πj = πj0 , j = 1, 2, . . . , k
f rente a
H1 : πj = πj0 , j = 1, 2, . . . , k
(nj − npi0j )2
j Clase j nj nπj0
npi0j
1 [0, 0.2] 174 190 1.34736842
2 (0.2, 0.4] 198 190 0.33684211
3 (0.4, 0.6] 194 190 0.08421053
4 (0.6, 0.8] 186 190 0.08421053
5 (0.8, 1.0] 198 190 0.33684211
Total 2.18947368
CPT(ml) Número de
Pacientes
Menos de 5400 12
de 5400 a 5500 46
de 5500 a 5700 78
de 5700 a 5850 80
de 5850 a 6000 39
de 6000 y más 15
Total 270
La tabla 4.6 presenta tanto las frecuencias observadas y esperadas como los
sumandos para la determinación del valor de la Estadı́stica de Pearson, deriva-
dos de la información precedente.
(nj − npi0j )2
j Clase j nj πj0 nπj0
npi0j
1 (−∞, 5400] 2 0.003830425 1.03421478 0.90188334
2 (5400, 5550] 15 0.043959905 11.86917443 0.82584251
3 (5550, 5700] 60 0.204702137 55.26957697 0.40486834
4 (5700, 5850] 102 0.378066128 102.07785468 5.9680E-05
5 (5850, 6000] 71 0.278230122 75.12213300 0.22619140
6 (6000, ∞] 20 0.091211282 24.62704613 0.86935135
Total 3.22819633
A diferencia de la idea de Pearson que coteja las frecuencias observadas con las
frecuencias esperadas, la idea de Kolmogorov por su parte, coteja la función de
distribución correspondiente al modelo postulado con la función de distribución
empı́rica. A principio de los años 30 del siglo pasado, Kolmogorov, condensó su
idea en la estadı́stica
que luego Smirnov a finales de los mencionados años la hizo extensiva a otros
propósitos, estadı́stica cuya distribución depende directamente del tamaño de la
muestra como lo garantiza el teorema de Glivenko-Cantelli. Del mismo teorema,
se puede afirmar que valores pequeños de la estadı́stica Dn son argumentos
estadı́sticos a favor de la hipótesis nula, porque si la mayor diferencia entre la
distribución propuesta y la función de distribución empı́rica es relativamente
pequeña, las demás diferencias también serán pequeñas y por lo tanto el modelo
es pertinente; mientras que valores grandes de la estadı́stica se constituyen en
evidencias estadı́sticas para prescindir del modelo propuesto como representante
del comportamiento poblacional.
La distribución muestral de Dn tiene una expresión engorrosa, que el lector
puede consultar en Nonparametric Statistical Inference de J.D.Gibbons (1971)
páginas 77 a 81. El siguiente teorema presenta una aproximación cuando el
tamaño de muestra es relativamente grande.
4.9. JUZGAMIENTO DEL AJUSTE 215
La función h(v) fue tabulada por Smirnov a mediados del siglo pasado y
muchos programas de cómputo estadı́stico han incluido algoritmos para la de-
terminación de los respectivos percentiles y el cálculo de los valores p, e igual-
mente algunos textos, principalmente los textos de Estadı́stica no paramétrica
incluyen tablas que permiten determinar los percentiles correspondientes.
En pocas palabras, cuando la calidad del ajuste no es satisfactoria se descar-
ta el modelo propuesto, decisión que se adopta cuando dn > c. Utilizando la
aproximación ofrecida por el teorema anterior, el tamaño del test puede estable-
cerse mediante, la expresión
v
α = P Dn > √
n
Ejemplo 4.9.3. Para ilustrar la parte operativa del ajuste por el método de
Kolmogorov-Smirnov, una muestra de 25 baldosas de cerámica de un lote de
producción fueron seleccionadas para identificar el modelo apropiado para de-
scribir la variabilidad del grosor de la baldosa que ella alcanza al final del proceso
de fabricación. Teniendo en cuenta información que acopia el Departamento de
control de calidad, es razonable pensar que el grosor tiene un comportamiento
uniforme entre 90 y 110 milı́metros. La tabla 4.7, presenta los valores particu-
lares de la muestra ordenados, la función empı́rica, la función de distribución
correspondiente al modelo en consideración y las diferencias entre ellas.
Como sup |F25 (x) − F0 (x, θ)| = 0.05 y el percentil 95 de la distribución de Dn
es 0.238 (valor tomado de la Tabla III en Applied Nonparametric Statistical
Methods de P. Sprent (1993)), no hay evidencia estadı́stica para desechar el
modelo uniforme en el intervalo (90, 110) para describir las irregularidades, con
respecto al estándar, del grosor de la baldosa.
Nota. El juzgamiento del ajuste de una variable discreta mediante el método
de Pearson no tiene restricción alguna, sólo la que le es común a cualquier tipo
de variable: tamaño de una muestra relativamente grande, para que sea legı́timo
el uso de los percentiles de una variable aleatoria con distribución Ji-cuadrado,
o el cálculo de los valores p a través de ella, como los puntos de referencia para
tomar la decisión. El método de juzgamiento del ajuste mediante la estadı́stica
de Kolmogorov-Smirnov se ha establecido sobre la consideración de que F0 (x, θ)
es continua. Sin embargo algunos autores como Noether han demostrado que
se puede utilizar el procedimiento para ajuste de modelos discretos, pero que el
nivel del test se altera.
Para dar fin a este capı́tulo y por consiguiente al contenido de este texto,
un punto final al vocablo: modelo, que aparece por primera vez en este texto
216 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
Valores
ordenados F25 (x) F0 (x, θ) |F25 (x) − F0 (x, θ)|
91 0.04 0.05 0.01
92 0.08 0.10 0.02
93 0.12 0.15 0.03
94 0.20 0.20 0.00
94 0.20 0.20 0.00
95 0.28 0.25 0.03
95 0.28 0.25 0.03
96 0.32 0.30 0.02
97 0.36 0.35 0.01
98 0.40 0.40 0.00
99 0.44 0.45 0.01
100 0.48 0.50 0.02
101 0.52 0.55 0.03
102 0.56 0.60 0.04
103 0.60 0.65 0.05
104 0.72 0.70 0.02
104 0.72 0.70 0.02
104 0.72 0.70 0.02
106 0.76 0.80 0.04
107 0.84 0.85 0.01
107 0.84 0.85 0.01
108 0.88 0.90 0.02
109 0.96 0.95 0.01
109 0.96 0.95 0.01
110 1.00 1.00 0.00
Tabla 4.7: Valores muestrales ordenados del grosor de las baldosas y sus respec-
tivos valores de las funciones de distribución
precisamente en la primera página cuando se cita una frase del psicólogo Jerome
Seymour Bruner, con la cual se encabeza el capı́tulo inicial, vocablo mencionado
con frecuencia de manera explı́cita o tácita en todos los capı́tulos y que incluso
también en esta última página se hace alusión a él.
La mente humana puede construir modelos tan artificiosos y complejos como
quiera, pues cuenta con herramientas que le permiten elaborar ilimitadamente
mundos virtuales donde puede incorporar a voluntad, propiedades, relaciones,
normas, semánticas, en fin, un sinnúmero de elementos, agregados a voluntad o
en coherencia con otros, para generar la dinámica propia de ese mundo virtual.
Pero tal vez no sea la mejor ruta, el excesivo detalle y meticulosidad en la
elaboración del modelo, tratándose de encontrar un paradigma que a manera
de una réplica ofrezca alternativas de explicación de la realidad, de reproduc-
4.9. JUZGAMIENTO DEL AJUSTE 217
3. ψτ (Xn ) puede considerarse como una variable aleatoria con distribución
de Bernoulli cuya probabilidad de éxito bajo θ0 es
Pθ0 ψτ (Xn ) = 1 = Eθ0 ψτ (Xn ) =α
5
4. El sı́mbolo corresponde a la integral múltiple sobre el conjunto A y dxn
A
representa a dx1 dx2 . . . dxn .
El objeto de la demostración es simple: concluir que πτ (θ1 ) ≥ πτ (θ1 ) tal como
lo estipula la definición 4.2.1 o en otros términos concluir que
Eθ1 ψτ (Xn ) ≥ Eθ1 ϕτ (Xn )
Para ello la demostración gira alrededor de la diferencia:
Δ = Eθ1 ψτ (Xn ) − Eθ1 ϕτ (Xn ) = Eθ ψτ (Xn ) − ϕτ (Xn )
n
= ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn
X i=1
Como X = Cτ,n ∪ D ∪ E
n
Δ= ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn
Cτ,n i=1
n
+ ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn
D i=1
n
+ ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn
E i=1
4.10. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 219
n
n
Δ1 = 1 − ϕτ (xn ) fX (xi , θ1 )dxn + −ϕτ (xn ) fX (xi , θ1 )dxn
Cτ,n i=1 D i=1
n
+ ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn
E i=1
)
n )
n
Adicionalmente cuando xn ∈ Cτ,n , k fX (xi , θ1 ) > fX (xi , θ0 ), y con ello
i=1 i=1
n
n
k 1 − ϕτ (xn ) fX (xi , θ1 )dxn > 1 − ϕτ (xn ) fX (xi , θ0 )dxn
Cτ,n i=1 Cτ,n i=1
)
n )
n
igualmente, cuando xn ∈ D entonces −k fX (xi , θ1 ) > − fX (xi , θ0 ) y por
i=1 i=1
lo tanto
n
n
k −ϕ τ (xn ) fX (xi , θ1 )dxn > −ϕτ (xn ) fX (xi , θ0 )dxn
D i=1 D i=1
)
n )
n
y finalmente cuando xn ∈ E, k fX (xi , θ1 ) = fX (xi , θ0 ), con lo cual,
i=1 i=1
n
k ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn
E i=1
n
= ψτ (xn ) − ϕτ (xn ) fX (xi , θ0 )dxn
E i=1
220 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
como los test tienen el mismo nivel, Δ2 = α − α = 0 y como kΔ1 > Δ2 se puede
afirmar que Δ1 ≥ 0, luego
Eθ1 ψτ (Xn ) ≥ Eθ1 ϕτ (Xn )
conclusión que garantiza que el test τ cuya región crı́tica es Cτ,n es un test más
potente para
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
H0∗ : θ = θ1
f rente a
H1∗ : θ = θ2
L(θ1 ; x1 , x2 , . . . , xn )
τ : “Rechazar H0∗ si λn = < κ”
L(θ2 ; x1 , x2 , . . . , xn )
4.10. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 221
es un test más potente para H0∗ en el nuevo sistema. Dado que la familia
{fX (x, θ)} tiene MLR en la estadı́stica T = t(X1 , X2 , . . . , Xn ), y suponiendo
que el cociente de verosimilitudes es una función no creciente de t(x1 , x2 , . . . , xn ),
afirmar que λn < κ equivale a afirmar que t(x1 , x2 , . . . , xn ) > t1−α , como lo
indica la figura 4.17,
λn
t1−α t
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
y además que
n n
fX (xi , θ0 ) ≤ κ0 fX (xi , θ1 )
i=1 i=1
por lo tanto
∞
n
α ≤ κ0 fX (xi , θ1 )dx1 dx2 · · · dxn = (1 − β)
n=1 Cτ,n i=1
porque
∞
n
fX (xi , θ1 )dx1 dx2 · · · dxn
n=1 Cτ,n i=1
entonces
∞
n
1 − α ≥ κ1 fX (xi , θ1 )dx1 dx2 · · · dxn = κ1 β
n=1 Aτ,n i=1
luego
1−α
1 − α ≥ κ1 β, es decir κ1 ≤
β
α
κ0 tiene entonces una cota inferior 1−β y κ1 tiene una cota superior 1−α
β , cotas
que se pueden asumir como aproximaciones a κ0 y κ1 respectivamente.
κ∗0 y κ∗1 .
∞
n
α∗ = fX (xi , θ0 )dx1 dx2 · · · dxn
∗
Cτ,n
n=1 i=1
∞ n
α
≤ fX (xi , θ1 )dx1 dx2 · · · dxn
1−β n=1
∗
Cτ,n i=1
similarmente,
∞
n
1 − α∗ = fX (xi , θ0 )dx1 dx2 · · · dxn
n=1 A∗
τ,n i=1
∞ n
1−α
≥ fX (xi , θ1 )dx1 dx2 · · · dxn
β n=1 A∗
τ,n i=1
a su vez
∞
1−α
n
1−α ∗
fX (xi , θ1 )dx1 dx2 · · · dxn = β
β n=1 A∗τ,n i=1 β
Concretamente de lo anterior,
α 1−α
α∗ ≤ (1 − β ∗ ) y (1 − α∗ ) ≥
1−β β
A partir de estas desigualdades es fácil comprobar que
α∗ + β ∗ ≤ α + β
2. Bajo las consideraciones del ejercicio anterior, formalice un test con nivel
α para el juzgamiento de H0 dentro del sistema de hipótesis
H0 : θ = θ 0
f rente a
H1 : θ = θ0
H0 : θ = θ 0
f rente a
H1 : θ = θ0
Para tal efecto determine un test con nivel α basado en una muestra
aleatoria de tamaño n de la citada población.
1
fX (x) = ,x ∈ R
π [1 + (x − θ)2 ]
H0 : θ = 0
f rente a
H1 : θ > 0
H0 : θ 1 = 0
f rente a
H1 : θ 1 > 0
H0 : θ < θ 0
f rente a
H1 : θ ≥ θ 0
11. Determine una expresión para el cálculo del tamaño de muestra apropiado
para el juzgamiento de la hipótesis nula H0 : π = π0 en el sistema
H0 : π = π0
f rente a
H1 : π > π0
H0 : ρ = 0
f rente a
H1 : ρ = 0
(c) πτ (μ0 ) = α.
228 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
21. Muestre que la expresión algebraica que permite el cálculo del valor p al
utilizar el test τc en el juzgamiento de la hipótesis nula H0 : μ = μ0 frente
a la hipótesis alterna H1 : μ = μ0 , bajo Normalidad asumiendo el segundo
supuesto, es
p = 2 1 − F(n−1) (|tc |)
siendo F(n−1) (x) la función de distribución de una variable aleatoria X,
con distribución t con (n − 1) grados de libertad.
22. Muestre que la expresión algebraica que permite el cálculo del valor p al
utilizar el test τ en el juzgamiento de la hipótesis nula H0 : μ ≤ μ0 frente a
la hipótesis alterna H1 : μ > μ0 , bajo Normalidad asumiendo desconocido
el valor del promedio poblacional y eligiendo = δ = α2 es:
2 2 2 2
σ0 χ1− α σ0 χ α
πτ (θ) = 1 − F(n−1) 2
+ F (n−1)
2
σ2 σ2
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
H0 : θ = 1
f rente a
H1 : θ = 2
32. Teniendo en cuenta el ejercicio anterior, muestre que el test uniforme más
potente para juzgar la hipótesis nula dentro del sistema,
H0 : θ = 1
f rente a
H1 : θ < 1
231
232 BIBLIOGRAFÍA
[12] Daykin, Chris D. Practical risk theory for actuaries / C.D. Daykin, T.
Pentikainen, M. Pesonen. New York: Chapman and Hall. 1944 xxi, 546 p.
(Monographs on Statistics and Applied Probability; 53)
[14] Dorea, Chang Chung Yu. Teoria assintotica das estatisticas / Chang C.Y.
Dorea. Rio de Janeiro: Instituto de Matematica Pura e Aplicada. 1995.
79 p.
[20] Fisz, Marek. Probability theory and mathematical statistics. 3a ed. New
York: John Wiley. 1967 xvi, 677 p. (Wiley series in probability and math-
ematical statistics). (Wiley publication in mathematical statistics)
análisis cota, 87
de varianza a una vı́a, 185 desigualdad de, 87
criterios
Basu de exclusión, 5
teorema de, 83 de inclusión, 5
Behrens-Fisher curva
problema de, 184 caracterı́stica
bondad de operación, 156
del ajuste, 209 CO
del test, 156
caso
regular
de estimación, 86 desigualdad
completez, 90 de Cramer-Rao, 87
componente distribución
de escala, 122 Beta, 104
de localización, 122 de Cauchy, 224
concentración, 69 de Gumbel, 107
condiciones de regularidad de la función de distribución empı́rica,
cumplimiento de, 86 21
confianza, 116 de la mediana muestral, 20
consistencia, 73 de Laplace, 107
contorno, 75 de las estadı́sticas de orden, 19
convergencia de Pareto, 43, 105, 145
casi segura, 10 de Poisson, 106
con probabilidad uno, 10 de Zipf, 105
débil, 10 del rango, 20
en distribución, 11 del semirango, 20
en media cuadrática, 11 exponencial
en medida, 10 desplazada, 43
en momento de orden r, 11 exponencial doble, 107
en probabilidad, 10 Gama, 106
en valor esperado, 11 Gaussiana, 106
estocástica, 10 muestral, 9
cota original
de Cramer-Rao, 87 de las observaciones, 9
Cramer-Rao reducida, 9
235
236 ÍNDICE DE MATERIAS
parámetro semirango
de escala, 122 muestral, 18
de localización, 122 sesgo
natural, 81 del estimador, 71
Pearson suficiencia, 75
estadı́stica de, 210–212
juzgamiento del ajuste, método tamaño
de, 209 de la muestra, 6, 198
población, 5 de la muestra simple, 139
principio de la región crı́tica, 153
ÍNDICE DE MATERIAS 239
unidades
estadı́sticas, 5
valor p, 169
variable
aleatoria
contaminada, 97
pivote, 117
pivote, 117
general, 120
método de la, 117
varianza
mı́nima, 83
muestral, 9
Wald
ecuación de, 206
Welch
solución de, 184