Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EXPERIMENTOS Y
ANÁLISIS DE DATOS
BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA
FACULTAD DE INGENIERÍA QUÍMICA
SEPTIEMBRE 2022
Índice general
I
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . 32
II
3.1. Aproximaciones a la distribución normal . . 85
S12
3.1.8. Distribución muestral de la razón S22
. 94
III
5. Intervalos de confianza 105
IV
5.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . 140
V
6.10.1. Pruebas de bondad de ajuste ji cuadrada189
VI
9.2. Prueba de un vector de medias con matriz de
covarianzas desconocida . . . . . . . . . . . . 292
VII
Capítulo 1
Distribuciones discretas
básicas
1
excluyentes, generalmente llamados ”E=ÉXITO” o ”F=FRACASO”.
Más precisamente su espacio muestral tiene la forma
Ω = { E, F } = { A, Ac }
X:Ω→ℜ
de la manera siguiente
X ( E) = 1, X ( F ) = 0
P( X = 0) = P({ω ∈ Ω : X (ω ) ∈ {0}}) = P( F ) = 1 − p
2
y
P( X = 1) = P({ω ∈ Ω : X (ω ) ∈ {1}}) = P( E) = p
X ∼ Ber ( p)
X ∼ Ber ( p)
entonces
1. La función de densidad de X es f : ℜ → ℜ
1 − p, si x = 0
f ( x ) = P( X = x ) = p, si x = 1
0, si x ̸= 0, 1
3
3. La media de X es
E( X ) = µ = p
4. La varianza es
V ( X ) = σ2 = pq
Demostración.
= P(∅) = 0.
Si 0 ≤ x < 1, entonces
= P({ F }) = 1 − p = q.
Si 1 ≤ x, entonces
= P({ F, E}) = P( F ) + P( E) = 1 − p + p = 1.
3. La media de X es
E( X ) = µ = µ X = ∑ xi f ( xi )
xi ∈ R X
= ∑ x i P ( X = x i ) = 0(1 − p ) + 1( p ) = p
xi ∈ R X
4
4. La varianza de X es
V (X) = ∑ ( x i − µ )2 f ( x i ) = (0 − p )2 (1 − p ) + (1 − p )2 p
xi ∈ R X
= p2 (1 − p) + (1 − 2p + p2 ) p = p − p2 = p(1 − p) = pq
5
Es claro que si X ∼ Bin(n, p), entonces su recorrido es
R = {0, 1, 2, ..., n}
lo que hace que X sea una variable aleatoria discreta. Ade-
más también es claro que
n
X= ∑ Xi
i =1
6
Teorema 1.2 Si X ∼ Bin(n, p), entonces
1. La función f : ℜ → ℜ:
(
(nx) p x qn−x , si x = 0, 1, 2, ..., n
f ( x ) = P( X = x ) =
0, si x ̸= 0, 1, 2, ..., n
satisface la propiedad
n
n x n− x
∑ f ( xi ) = ∑ p q =1
xi ∈ R X x =0 x
2. La función acumulativa de X es F : ℜ → ℜ
0,
si x < 0
x n k n−k
F ( x ) = P( X ≤ x ) = ∑k=0 ( k ) p q , si x = 0, 1, ..., n − 1
1, si x ≥ n
3. La media de X es
E( X ) = np
4. La varianza de X es
V ( X ) = npq
Demostración.
7
2. Esta propiedad es fácil de deducir.
8
El espacio muestral del experimento geométrico es el
conjunto:
Ω = { E, FE, FFE, FFFE, ...}
El recorrido de X es
R = {1, 2, 3, ....}
f (k ) = P( X = k) = pqk−1
9
Utilizando la teoría elemental de series tenemos el si-
guiente
1. La función f : ℜ → ℜ
(
pq x−1 , si x = 1, 2, ...
f ( x ) = P( X = x ) =
0, si x ̸= 1, 2, ...
4. La media de X es
1
E( X ) =
p
5. La varianza de X es
q
V (X) =
p2
10
1.4. Distribución Binomial negativa o
de Pascal
yi = E ó F
y
y(k) = E
y donde en
(y1 , y2 , ..., yk−1 )
hay exactamente r − 1 éxitos y (k − 1) − (r − 1) = k − r
fracasos.
11
Definición 1.8 Consideremos un experimento Binomial negati-
vo o de Pascal con espacio muestral
yi = E ó F
y
y(k) = E
y donde en
(y1 , y2 , ..., yk−1 )
hay exactamente r − 1 éxitos y (k − 1) − (r − 1) = k − r fraca-
sos.
El recorrido de X es
R X = R = {r, r + 1, r + 2, ....}
12
en cada repetición y el análisis combinatorio elemental, si
k = r, r + 1, ..., entonces
(
−1 r k −r
(kr− 1) p q , si k = r, r + 1, ...
f (k) = P( X = k) =
0, si k ̸= r, r + 1, ...
X1 , X2 , ..., Xr
de la siguiente manera:
X1 El número de repeticiones necesarias hasta la ocurrencia
del primer éxito.
X2 Es el número de repeticiones necesarias entre el primer
éxito y el segundo éxito
etc
Xr Es el número de repeticiones necesarias entre el (r − 1)-
ésimo éxito y el r-ésimo éxito
X = X1 + X2 + ... + Xr
X1 , X2 , ..., Xr
13
Teorema 1.4 Si X ∼ P(r, p), entonces
1. La función f : ℜ → ℜ
(
−1 r x −r
( xr− 1)p q , si x = r, r + 1, ...
f ( x ) = P( X = x ) =
0, si x ̸= r, r + 1, ...
3. La función acumulativa de X, F : ℜ → ℜ, es
(
0, si x<r
F ( x ) = P( X ≤ x ) = x −1
∑ xi ≤ x ( ri−1 ) pr q xi −r , si r≤x
4. La media de X es
r
E( X ) =
p
5. La varianza de X es
rq
V (X) =
p2
Demostración.
1. Ya se demostró.
14
3. Al aplicar la definición de F ( x ) se obtiene el resultado.
E( X ) = E( X1 ) + E( X2 ) + ... + E( Xr )
1 1 1 r
= + + ... + =
p p p p
V ( X ) = V ( X1 ) + V ( X2 ) + ... + V ( Xr )
q q q rq
= 2
+ 2 + ... + 2 = 2
p p p p
Ejemplo 1.3 Leer el ejemplo 7.5 de la página 265 del libro Cór-
dova, y el ejemplo 7.6 de la página 268 del mismo libro.
15
tiene distribución de Poisson con parámetro λ, (λ > 0) y se
escribe X ∼ Poisson(λ), o X ∼ P(λ), si su función de densidad
puntual es
( −λ x
e λ
f ( x ) = P( X = x ) = x! , si x = 0, 1, ...
0, si x ̸= 0, 1, ...
La fórmula ∑∞ k =0
λk
k! = eλ se ocupará para la demostra-
ción del siguiente
16
1.
e−λ λ x
(
x! , si x = 0, 1, ...
f ( x ) = P( X = x ) =
0, si x ̸= 0, 1, ...
2. La función f ( x ) ≥ 0 satisface
∞ ∞
e−λ λk
∑ f (k) = ∑
k!
=1
k =0 k =0
3. La función acumulativa de X es
(
0, si x < 0
F ( x ) = P( X ≤ x ) = e − λ λ xi
∑ xi ≤ x xi ! , si x ≥ 0
4. µ = E( X ) = λ
5. σ2 = V ( X ) = λ
Demostración.
1. Es por definición
2.
∞ ∞
e−λ λk
∑ f (k) = ∑ k!
k =0 k =0
∞
λk
= e−λ ∑ k!
= e − λ e λ = e0 = 1
k =0
3. Es por definición.
17
4.
∞ ∞
e−λ λk
µ = E( X ) = ∑ k f (k) = ∑ k k!
k =0 k =0
∞
e−λ λk
= ∑ k
k!
k =1
∞
λ k −1
=e −λ
λ ∑ ( k − 1) !
k =1
∞
λk
= e−λ λ ∑ (k)!
k =0
= e−λ λeλ = λ
∞
e−λ λk
= ∑ k ( k − 1)
k!
k =2
∞
λ k −2
= e − λ λ2 ∑ ( k − 2) !
k =2
∞
λk
= e − λ λ2 ∑ (k)!
k =0
= e − λ λ2 e λ = λ2
entonces
E( X 2 − X ) = E( X ( X − 1)) = λ2
18
es decir,
E ( X 2 ) − E ( X ) = E ( X 2 − X ) = λ2
es decir,
E ( X 2 ) = λ2 + E ( X ) = λ2 + λ
por tanto
V ( X ) = E ( X 2 ) − µ2 = λ2 + λ − λ2 = λ
Ejemplo 1.4 Leer los ejemplos 7.9 y 7.10 de las páginas 274,275
del libro Córdova.
19
Capítulo 2
Distribuciones continuas
básicas
21
2.1. Distribución Uniforme
22
Teorema 2.1 Si X ∼ U ([ a, b]), entonces
Ejemplo 2.1 Leer los ejemplos 7.12 y 7.13 de las páginas 288,
289 del libro Córdova.
23
importantes. En esta sección describimos la distribución nor-
mal y sus principales propiedades.
si su función de densidad es
1 1 x −µ 2
f (x) = √ e− 2 ( σ ) ,x ∈ ℜ
2πσ
24
2.3. Propiedades de la distribución nor-
mal
f (µ + x ) = f (µ − x )
lı́m f ( x ) = 0 y lı́m f ( x ) = 0
x →−∞ x →∞
x = µ−σ
y
x = µ+σ
Más precisamente hablando, f ( x ) es cóncava hacia aba-
jo en el intervalo µ − σ < x < µ + σ, y cóncava hacia
arriba en cualquier otra parte de la recta real.
25
5. El área total de la superficie bajo la curva es uno., es
decir, Z ∞
f ( x ) dx = 1
−∞
Como consecuencia de esta propiedad y por el hecho
de que f ( x ) es simétrica respecto al eje x = µ, enton-
ces el área bajo la curva de la superficie izquierda y
derecha de la recta x = µ es 12 = 0.5
6. La función acumulativa es
Z x Z x
1 1 x −µ 2
F ( x ) = P( X ≤ x ) = f (t) dt = √ e− 2 ( σ ) dt
−∞ σ 2π −∞
P( a ≤ X ≤ b) = F (b) − F ( a)
1. E( X ) = µ
2. V ( X ) = σ2
26
tiene una distribución normal estándar o típica. La función
de distribución acumulativa de Z la denotaremos por
ϕ( x ) = P( Z ≤ x )
1. La función de densidad f ( x ) de Z es
1 x2
f ( x ) = √ e− 2 , x ∈ ℜ
2π
27
Como consecuencia de esta propiedad y por el hecho de que
f ( x ) es simétrica respecto al eje x = 0, entonces el área
bajo la curva de la superficie izquierda y derecha de la recta
x = 0 es 12 = 0.5
7. La función acumulativa es
Z x Z x
1 x2
ϕ( x ) = P( Z ≤ x ) = f (t) dt = √ e− 2 dt
−∞ 2π −∞
9. E( Z ) = 0 y V ( Z ) = 1
11. P( a ≤ Z ≤ b) = ϕ(b) − ϕ( a)
28
El teorema que sigue es de suma importancia para el
uso de tablas y para pasar un problema de cualquier normal
a un problema de una normal estándar.
1.
a−µ b−µ
P( a ≤ X ≤ b) = P ≤Z≤
σ σ
b−µ a−µ
= ϕ −ϕ
σ σ
2.
F ( x ) = P( X ≤ x )
X−µ x−µ
= P ≤
σ σ
x−µ
= P Z≤
σ
x−µ
= ϕ
σ
29
Teorema 2.4 (Propiedad reproductiva de la normal) Si
X1 , X2 , · · · , X n
X = c 1 X1 + c 2 X2 + · · · + c n X n
E ( X ) = c1 µ1 + c2 µ2 + · · · + c n µ n
y varianza
X1 , X2 , · · · , X n
X = c 1 X1 + c 2 X2 + · · · + c n X n
E ( X ) = ( c1 + c2 + · · · + c n ) µ
y varianza
V ( X ) = (c21 + c22 + · · · + c2n )σ2
Más aún, si todas las variables aleatorias independientes
X1 , X2 , · · · , X n
30
tienen una distribución normal con media µ y varianza σ2 , en-
tonces, la variable aleatoria
X = X1 + X2 + · · · + X n
E( X ) = nµ
y varianza
V ( X ) = nσ2
Ejemplo 2.2 Ver ejemplo 7.20 de la página 299 del libro Córdo-
va.
2. https://www.youtube.com/watch?v=5q5UOSGzPmw
3. https://www.youtube.com/watch?v=ZsFbWV8OlzI
4. https://www.youtube.com/watch?v=6iS1on_fGu8
5. https://www.youtube.com/watch?v=shUzIp2wruw
6. https://www.youtube.com/watch?v=A6CL8pVYJ_8
7. https://www.youtube.com/watch?v=90dUfluejQw
31
2.5. Ejercicios
32
2.6. Disribuciones muestrales
Teorema 2.5
1. Γ(1) = 1
33
g(x)
15
10
−5
−10
−4 −3 −2 −1 0 1 2 3 4 5
x
34
La figura de abajo muestra la gráfica de la distribución
gamma cuando β = 1, para α = 1, α = 2, α = 4.
35
Teorema 2.6 Si la variable aleatoria X ∼ Γ(α, β), entonces,
α
1. E( X ) = β
α
2. V ( X ) = β2
36
2.6.2. Distribución exponencial
37
NOTA. La distribución exponencial es un caso parti-
cular de la distribución gamma cuando α = 1, por tanto,
tenemos el siguiente
1
1. E( X ) = β
1
2. V ( X ) = β2
Ejemplo 2.3 Ver el ejemplo 7.21 de la página 304 del libro Cór-
dova.
38
Definición 2.7 Se dice que la variable aleatoria continua X tiene
distribución exponencial cou parámetros β > 0 y λ > 0, y se
escribe X ∼ exp( β, λ), si su función de densidad es:
(
βe− β( x−λ) , x ≥ λ
f (x) =
0, x < λ
1
1. E( X ) = β +λ
1
2. V ( X ) = β2
39
A los parámetros β, λ se les llama parámetros de escala y de um-
bral (posición), respectivamente.
1. E( X ) = β + λ
2. V ( X ) = β2
− β1 ( x −λ)
3. F ( x ) = P( X ≤ x ) = P( X < x ) = 1 − e , para
toda x ≥ λ
− β1 ( x −λ)
4. P( X > x ) = P( X ≥ x ) = e , para toda x ≥ λ
40
Figura 2.7: Distribución exponencial con β = 1, 3; λ = 4
41
2.6.3. Distribución Chi-cuadrado
donde r > 0.
42
NOTA. La distribución Chi-cuadrado con r grados de
libertad es un caso particular de la distribución gamma cuan-
do α = 2r , y β = 12 , por tanto, tenemos el siguiente
1. E( X ) = r
2. V ( X ) = 2r
Teorema 2.11
43
Teorema 2.12 (Propiedad reproductiva de Chi-cuadrado).
k
∑ Xi2 ∼ χ2 (r1 + r2 + · · · + rk )
i =1
Ejemplo 2.4 Ver el ejemplo 7.24 y 7.25 de las páginas 308 y 309
del libro Córdova.
44
2.7. Distribución t-student
donde r > 0.
45
0.4
r=5
r = 10
r = 50
0.35
0.3
0.25
f(x)
0.2
0.15
0.1
0.05
0
−5 −4 −3 −2 −1 0 1 2 3 4 5
x
Z
T = q ∼ t (r )
V
r
1. E( X ) = 0
r
2. V ( X ) = r −2 , para r > 2
46
4. La varianza de la distribución t(r ) es mayor que de la dis-
tribución N (0, 1), pero cuando r → ∞, la varianza de t(r )
tiende a uno, la varianza de N (0, 1).
47
2.8. Distribución F de Fisher
donde r1 , r2 > 0.
48
Figura 2.10: Distribución F de Fisher
1. (
r2
r2 −2 , r2 ≥ 3
E( X ) =
no existe para r2 = 1, 2
2.
2r22 (r1 +r2 −2)
(
r1 (r2 −2)2 (r2 −4)
, r2 ≥ 5
V (X) =
no existe para r2 = 1, 2, 3, 4
1
3. La variable aleatoria X ∼ F (r2 , r1 )
49
Ejemplo 2.6 Ver el ejemplo 7.28-7.30 de las páginas 314 y 315
del libro Córdova.
50
2.9. Distribución lognormal
51
Proposición 2.3 Si X es una variable aleatoria lognormal con
parámetros µ y σ, entonces,
1 2
2. E( X ) = eµ+ 2 σ
2 2
3. V ( X ) = e2µ+σ (eσ − 1)
2
4. La moda de X es Mod = eµ−σ
5. La mediana de X es Medi = eµ
6. Si X1 , X2 , · · · , Xn es una muestra de X, y Yi = ln Xi , i =
1, 2, · · · , n, entonces, los estimadores de máxima verosimi-
litud de µ y σ2 son respectivamente,
1 n
n i∑
b=
µ Yi
=1
y
1 n
σb2 = ∑ (Yi − Y )2
n i =1
52
ln( X ), tenemos,
F ( x ) = P[ X ≤ x ]
ln( X ) − µ ln( x ) − µ
= P ≤
σ σ
ln( x ) − µ
= P Z≤
σ
ln( x ) − µ
= ϕ
σ
53
En algunas aplicaciones es necesario desechar datos ne-
gativos o ceros. Este tipo de aplicaciones se modelan con la
distribución de lognormal de 3 parámetros.
ln( x −λ)−µ 2
h i
1√ − 21
e , si x ≥ λ
σ
f ( x ) = ( x−λ) 2πσ
0, x < λ.
1 2
2. E( X ) = eµ+ 2 σ + λ
2 2
3. V ( X ) = e2µ+σ (eσ − 1)
54
Figura 2.12: Distribución Lognormal con µ = 0; σ =
0.1, 0.3, 1; λ = 5
55
Ejemplo 2.7 Se sabe que históricamente la concentración de con-
taminantes producidos por plantas químicas exhiben un compor-
tamiento que se parece a una distribución logarítmica normal. Es-
to es importante cuando se consideran cuestiones relacionadas con
el cumplimiento de las regulaciones gubernamentales. Suponga
que la concentración de cierto contaminante, en partes por mi-
llón, tiene una distribución logarítmica normal con los paráme-
tros µ = 3.2 y σ = 1. ¿Cuál es la probabilidad de que la concen-
tración exceda 8 partes por millón?
Ejemplo 2.8 Ver los ejemplos 6.28 y 6.29 páginas 176-177 del
libro Sahoo.
56
2.10. Distribución de Weibull
f (x) =
0, en otro caso.
57
Figura 2.13: Distribución Weibull (α = 1)
58
Si hacemos β = 1, la distribución de Weibull se reduce
a la distribución exponencial con parámetro α > 0.
− β1
1. µ = α Γ 1 + β1
i2
− β2
h
2. σ2 =α Γ 1+ β − Γ 1+ β
2 1
, donde,
Z ∞
Γ(y) = x y−1 e− x dx, para y > 0
0
F ( x ) = P( X ≤ x ) = 1 − e−αx , para x ≥ 0
β
59
En esta definición sólo se cambio α por α1β . Con estos
cambios las propiedades de la distribución de Weibull son
las mismas, sólo hay que cambiar el parámetro antes seña-
lado. Con esta nueva definición, tenemos el siguiente resul-
tado.
x β
1. F ( x ) = 1 − e−( α )
2. µ = αΓ 1 + β1
h i2
3. σ2 = α2 Γ 1+ 2
β − Γ 1+ β
1
, donde,
Z ∞
Γ(y) = x y−1 e− x dx, para y > 0
0
4. Si F ( x ) = p, entonces,
1
x = F −1 ( p) = α[− ln(1 − p)] β , 0 < p < 1
x β
5. La función survival de X es, P( X > x ) = e−( α )
1
1 β
6. La moda de X es Mod = α 1 − β , β≥1
1
7. La mediana de X es Medi = α(ln 2) β
60
Definición 2.16 La variable aleatoria continua X tiene una dis-
tribución de Weibull, con parámetros α, β y λ, si su función de
densidad es dada por
β t−λ β−1 −( t−αλ ) β
e , si x ≥ λ
f (x) = α α
0, en otro caso.
x −λ β
1. F ( x ) = 1 − e−( α)
2. Si F ( x ) = p, entonces,
1
x = F −1 ( p) = λ + α[− ln(1 − p)] β , 0 < p < 1
Ejemplo 2.9 Ver el ejemplo 6.24 del libro Walpole página 204
61
Figura 2.14: Distribución Weibull (α = 1; β = 1, 2, 3.5; λ = 3)
62
2.11. Distribución logística
π ( x −µ )
−√ σ
e 3
1. F ( x ) = P( X ≤ x ) = π
√
σ 3
"
π ( x −µ ) 2
# −∞ < x < ∞
−√ σ
1+ e 3
2. E( X ) = µ
3. V ( X ) = σ2
63
Figura 2.15: Distribución Logística con µ = 5
64
Daremos otra definición de distribución logística que
utilizan la mayoría de libros, y la que usa matlab
1. F ( x ) = P( X ≤ x ) = 1
x −µ −∞ < x < ∞
1+ e − σ
2. P( X > x ) = 1
x −µ −∞ < x < ∞
1+ e σ
p
3. Si p = P( X ≤ x ), entonces, x = µ + σ ln 1− p , 0<
p<1
1− p
4. Si p = P( X > x ), entonces, x = µ + σ ln p , 0<
p<1
5. E( X ) = µ
6. La moda de X es Mo = µ
7. La mediana de X es Medi = µ
π2 2
8. V ( X ) = 3 σ
65
2.12. Distribuciones de valores extremos
Mn = máx{ X1 , X2 , · · · , Xn }
66
Entonces, bajo ciertas condiciones asintóticas, la función de dis-
tribución acumulada de Mn es,
−1
(
e−(1+εx) ε , si ε ̸= 0, 1 + εx > 0
G ( x ) = P ( Mn ≤ x ) = −x
e−e , si ε = 0.
67
3. La distribución de tipo III o de Weibull tiene la forma
x −µ β
(
e( σ) , si x < µ
G(x) =
1, si x ≥ µ.
68
distribución acumulativa es:
x −µ
− σ
F ( x ) = P ( Mn ≤ x ) = e − e , −∞ < x < ∞
69
Proposición 2.6 Si Mn ∼ Gumbelmax (µ, σ ), entonces,
3. Si P( Mn ≤ x ) = p, entonces,
4. Si P( Mn > x ) = p, entonces,
6. La moda de Mn es Mod = µ
70
Figura 2.16: Distribución valor extremo máximo de Gumbel
con µ = 0; σ = 1, 2, 3
71
2.12.2. Distribución de Gumbel para valores mí-
nimos
mn = mı́n{ X1 , X2 , · · · , Xn }
72
tribución acumulada de mn es,
−1
(
1 − e−(1−εx) ε , si ε ̸= 0, 1 − εx > 0
H ( x ) = P(mn ≤ x ) = −x
1 − e−e , si ε = 0.
73
Proposición 2.7 Si mn ∼ Gumbelmin(µ, σ), entonces,
3. Si P(mn ≤ x ) = p, entonces,
74
Figura 2.17: Distribución valor extremo mínimo de Gumbel
con µ = 0; σ = 1, 2, 3
75
Hay una relación entre la distribución de valores máxi-
mos y mínimos.
Mn = máx{ X1 , X2 , · · · , Xn }
mn = mı́n{ X1 , X2 , · · · , Xn }
Si Y = − X, entonces, Mn = −mn .
76
2.13. Distribución de Pareto
αx0α
(
x α +1
, si x ≥ x0
f (x) =
0, si x < x0 .
77
1. La función de distribución acumulativa de X es:
x α
0
F ( x ) = P( X ≤ x ) = 1 − , x ≥ x0
x
2. La función de distribución Survival es:
x α
0
P( X > x ) =
x
3. Si p = P( X ≤ x ), entonces,
1
x = x0 (1 − p ) − α
4. Si p = P( X > x ), entonces,
1
x = x0 p − α
αx0
5. La media de X, es E( X ) = α −1 para α > 1
αx02
6. La varianza de X es V ( X ) = ( α −1)2 ( α −2)
para α > 2
7. La moda de X es Mod = x0
1
8. La mediana de X es Medi = 2 α x0
78
Definición 2.22 (Distribución de Pareto generalizada). La
variable aleatoria absolutamente continua X tiene una distribu-
ción de Pareto generalizada o tipo II con parámetro de ubi-
cación (umbral) −∞ < µ < ∞, parámetro de escala σ > 0
y parámetro de forma −∞ < k < ∞, y en tal caso se escribe
X ∼ Pareto (µ, k, σ) si su función de distribución es:
h i− 1
x −µ k
1− 1+k σ , si k ̸= 0
F ( x ) = P( X ≤ x ) = x − µ
1 − e− σ , si k = 0.
donde, x ≥ µ para k ≥ 0, y µ ≤ x ≤ µ − σ
k si k < 0.
donde, x ≥ µ para k ≥ 0, y µ ≤ x ≤ µ − σ
k si k < 0.
σ
2. La media de X, es E( X ) = µ + 1− k , para k < 1
σ2 1
3. La varianza de X es V ( X ) = (1−k)2 (1−2k)
para k < 2
σ (2k −1)
4. La mediana de X es Medi = µ + k
79
Figura 2.18: Distribución generalizada de Pareto
80
Capítulo 3
X1 , X2 , · · · , X n
y
V ( Xi ) = σ 2
81
Definición 3.2 Sea
X1 , X2 , · · · , X n
∑in=1 Xi
X=
n
X1 , X2 , · · · , X n
entonces
1. µY = E(Y ) = nµ
2. σY2 = V (Y ) = nσ2
√
3. σY = σ n
4. µ X = E( X ) = µ
σ2
5. σX2 = V ( X ) = n
6. σX = √σ
n
82
Demostración. Trivial.
1. La variable aleatoria
∑in=1 Xi
X=
n
σ2
tiene una distribución normal con media µ y varianza n.
Más precisamente hablando,
σ2
X ∼ N µ,
n
83
la variable aleatoria. Entonces,
O de otra forma,
Y − nµ
√ ∼ N (0, 1), n → ∞.
nσ
84
Ejemplo 3.1 Ver los siguientes vídoes de apoyo sobre el teorema
del límite central:
Ejemplo 3.2 Leer el ejemplo 8.5, página 352 del libro Córdova.
85
3.1.1. Aproximación de la binomial a la normal
1. La variable aleatoria
n
Y= ∑ Xi
i =1
Ejemplo 3.3 Leer el ejemplo 7.35, página 330 del libro Córdova.
86
1. La variable aleatoria
n
Y= ∑ Xi
i =1
Ejemplo 3.4 Leer el ejemplo 7.37, página 333 del libro Córdova.
la muestra. Y además:
1. La media muestral
∑in=1 Xi
p̂ =
n
pq
tiene una media E( p̂) = p y una varianza V ( p̂) = n.
87
2.
p̂ − p
Z= q ∼ ˙ N (0, 1) (3.3)
pq
n
1 1
P( p̂ = k) ≈ P(k − ≤ p̂ ≤ k + )
2n 2n
Ejemplo 3.5 Leer el ejemplos 8.6 y 8.7, páginas 355-357 del li-
bro Córdova.
nS2 X −µ
3.1.4. Distribución muestral de σ2
y √S
n
∑in=1 ( Xi − X )2
S2 = . (3.4)
n−1
Algunos autores definen la varianza muestral como
∑in=1 ( Xi − X )2
S∗2 = . (3.5)
n
Observar que
( n − 1) S2 nS∗2 ∑in=1 ( Xi − X )2
= =
σ2 σ2 σ2
88
Teorema 3.3 (Distribución de X cuando a σ2 se desconoce)
Si X1 , X2 , · · · , Xn es una muestra aleatoria escogida de una dis-
tribución normal N (µ, σ2 ), y si,
∑in=1 ( Xi − X )2
S2 = (3.6)
n−1
es la varianza muestral, entonces
1. E(S2 ) = σ2
( n −1) S2 ∑in=1 ( Xi − X )2
2. σ2
= σ2
∼ χ2 ( n − 1)
X −µ
3. √S
∼ t ( n − 1)
n
∑in=1 ( Xi − X )2
S∗2 = . (3.7)
n
es la varianza muestral, entonces
n −1 2
1. E(S∗2 ) = n σ
nS∗2 ∑in=1 ( Xi − X )2
2. σ2
= σ2
∼ χ2 ( n − 1)
X −µ
3. √S∗
∼ t ( n − 1)
n −1
89
3.1.5. Distribución muestral de la diferencia de
dos medias con varianzas poblacionales
conocidas
1. E( X − Y ) = E( X ) − E(Y ) = µ1 − µ2
σ12 σ22
2. V ( X − Y ) = V ( X ) + V (Y ) = n + m
X −Y −(µ1 −µ2 )
3. Z = r ∼
˙ N (0, 1)
σ2 σ22
1
n +m
1. E( X − Y ) = E( X ) − E(Y ) = µ1 − µ2
σ12 σ22
2. V ( X − Y ) = V ( X ) + V (Y ) = n + m
X −Y −(µ1 −µ2 )
3. Z = r ∼ N (0, 1)
σ2 σ22
1
n +m
90
3.1.6. Distribución muestral de la diferencia de
dos medias con varianzas poblacionales
desconocidas
1.
X − Y − ( µ1 − µ2 )
Z= q ∼ N (0, 1)
1 1
σ n+m
2.
X − Y − ( µ1 − µ2 )
T= q ∼ t ( n + m − 2)
Sc2 Sc2
n + m
donde
(n − 1)S12 + (m − 1)S22
Sc2 =
n+m−2
es la varianza común muestral, y,
∑in=1 ( Xi − X )2
S12 =
n−1
m
∑i=1 (Yi − Y )2
S22 =
m−1
91
Teorema 3.8 Sean X1 , X2 , · · · , Xn y Y1 , Y2 , · · · , Ym dos mues-
tras aleatorias independientes normales, con medias muestrales
X y Y, respectivamente. Supongamos que las muestras tienen me-
dias µ1 y µ2 respectivamente, y varianzas σ12 y σ22 respectivamente
desconocidas, y diferentes. Entonces
X − Y − ( µ1 − µ2 )
T= q ∼ t( g)
S12 S22
n + m
donde
2
S12 S22
n + m
g= 2 2 2
S22
S
1
n m
n −1 + m −1
∑in=1 ( Xi − X )2
S12 =
n−1
m
∑i=1 (Yi − Y )2
S22 =
m−1
92
de éxito respectivos. Sean las proporciones muéstrales
∑in=1 Xi ∑m Y
pˆ1 = , y pˆ2 = i=1 i
n m
Entonces
p1 (1− p1 ) p2 (1− p2 )
2. V ( pˆ1 − pˆ2 ) = V ( pˆ1 ) + V ( pˆ2 ) = n + m
pˆ − pˆ2 − ( p1 − p2 )
3. Z = q1 ∼
˙ N (0, 1)
p1 (1− p1 ) p2 (1− p2 )
n + m
93
Estandarizando el problema y utilizando la propiedad
3 del teorema precedente, obtenemos:
0.10 − (0.40 − 0.20)
P( pˆ1 − pˆ2 < 0.10) = P Z < q
(0.40)(0.60) (0.80)
300 + 0.20100
−0.10
= P Z<
0.0490
= P ( Z < −2.0408)
= ϕ(−2.0408)
= 0.0206354
es decir,
P( pˆ1 − pˆ2 < 0.10) = 0.0206354.
Ejemplo 3.7 Ver el ejemplo 8.11 página 367 del libro Córdova.
S12
3.1.8. Distribución muestral de la razón S22
S12
σ12
S22
σ22
94
tiene distribución F de Fisher con n − 1 grados de libertad en el
numerador y m − 1 grados de libertad en el denominador, es decir,
S12
σ12
∼ F (n − 1, m − 1)
S22
σ22
95
Capítulo 4
ESTIMACION PUNTUAL
DE PARAMETROS
97
valor preconcebido θ0 de θ.
98
4.1. Estimador insesgado
E(Θ̂) = θ
2. La varianza muestral
∑in=1 ( Xi − X )2
S2 =
n−1
99
Definición 4.3 Sea X1 , X2 , · · · , Xn una muestra aleatoria de ta-
maño n seleccionada de una población cuya distribución es f ( x, θ ),
(discreta o continua). Un estimador Θ̂ = Θ̂( X1 , · · · , Xn ) es un
estimador asintóticamente insesgado de θ si
lı́m E(Θ̂) = θ
n→∞
n
( X − X )2
Ejemplo 4.2 Si S∗2 = ∑i=1 ni entonces se tiene E(S∗2 ) =
n −1 2
n σ , lo que indica que el estimador es sesgado. Observar que
n−1 2
lı́m E(S∗2 ) = lı́m σ = σ2 .
n→∞ n→∞ n
Esto significa que el estimador S∗2 en un estimador asintóticamen-
te insesgado del parámetro σ2 .
∑in=1 Xi
p̂ =
n
es un estimador insesgado de p pues E( p̂) = p.
100
Ejemplo 4.4 Ver el ejeplo 9.3 página 382 del libro Córdova.
Ejemplo 4.6 Ver el ejemplo 9.3 página 382 del libro Córdova.
101
4.3. Estimador de máxima verosimili-
tud
102
Si f ( x1 , θ ) > 0, f ( x2 , θ ) > 0, · · · f ( xn , θ ) > 0, entonces el
valor de θ que maximiza a L(θ ) es el mismo que maximiza la
función ln( L(θ ))
Ejemplo 4.7 Ver los ejemplos 10.3, 10.4, y 10.6 del libro Mont-
gomery páginas 290-292.
103
Capítulo 5
Intervalos de confianza
1. P( a < θ < b) = 1 − α
2. La longitud del intervalo ( a, b) debe ser lo más cercana a
105
cero.
P( a < θ ) = 1 − α
106
5.1. Intervalos de confianza para la me-
dia con varianza conocida
Ejemplo 5.1 Ver ejemplo 7.1 de la página 327 del libro Mont-
gomery.
107
La fórmula (5.1) es equivalente a
σ
P | X − µ| < z α2 √ = 1 − α. (5.2)
n
E = | X − µ|
108
Ejemplo 5.2 Ver el ejemplo 7.2 página 329 del libro Montgo-
mery.
109
Teorema 5.2 (Intervalo de confianza superior de la media
conociendo varianza). Sea X1 , ..., Xn una muestra aleatoria nor-
mal o supongamos que n ≥ 30 (muestras grandes), supongamos
que µ, σ son la media desconocida y la desviación conocida, en-
tonces
σ
P µ < X + zα √ = 1−α (5.5)
n
donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el
número (cuantil)
z α = ϕ −1 (1 − α ).
Al intervalo
σ
−∞, X + zα √
n
se le llama un intervalo de confianza superior de 100(1 − α)
por ciento de confianza para la media µ, conociendo la varianza
σ2
110
se le llama un intervalo de confianza inferior de 100(1 − α)
por ciento de confianza para la media µ, conociendo la varianza
σ2
111
5.2. Intervalos de confianza para la me-
dia con varianza desconocida
112
5.2.1. Selección del tamaño de la muestra
entonces
E = X−µ < ε
con una confianza del (100)(1 − α) por ciento.
113
Teorema 5.5 (Intervalo de cofianza superior de la media des-
coconociendo varianza).
114
donde F −1 es la función acumulativa inversa de la distribución
t-student con n − 1 grados de libertad. Al intervalo
S
X − tα √ , ∞
n
115
5.3. Intervalos de confianza para la di-
ferencia de medias con varianzas
conocidas
X1 , ..., Xn ; Y1 , ..., Ym
respectivamente.
116
Ejemplo 5.7 Hacer el ejercicio 7.3 de la página 331 del libro
Montgomery.
117
5.3.1. Selección del tamaño de la muestra
118
Entonces
E = ( X − Y ) − ( µ1 − µ2 ) < ε
con una confianza del (100)(1 − α) por ciento.
119
Teorema 5.8 (Intervalo superior de confianza de la diferen-
cia de medias conociendo varianzas).
Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y las desviaciones conocidas, de las
muestras (independientes) respectivamente. Entonces
s
σ12 σ22
P µ1 − µ2 < X − Y + z α + = 1−α (5.13)
n m
X1 , ..., Xn ; Y1 , ..., Ym
respectivamente.
120
Teorema 5.9 (Intervalo inferior de confianza de la diferen-
cia de medias conociendo varianzas).
Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y las desviaciones conocidas, de las
muestras (independientes) respectivamente. Entonces
s
σ12 σ22
P X − Y − zα + < µ1 − µ2 = 1 − α (5.14)
n m
X1 , ..., Xn ; Y1 , ..., Ym
respectivamente.
121
5.4. Intervalos de confianza para la di-
ferencia de medias con varianzas
desconocidas pero iguales
Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas pero
iguales, de las muestras (independientes) respectivamente. En-
tonces
P X − Y − t α2 Sr < µ1 − µ2 < X − Y + t α2 Sr = 1 − α
q (5.15)
1 1
Con r = n + m , y (1 − α ) ∈ (0, 1) el grado de confianza del
intervalo, y el número (cuantil)
α
t α2 = F −1 (1 − ),
2
siendo F −1 la inversa de la distribución t-student con m + n − 2
grados de libertad, y X, Y las medias muestrales de las muestras
X1 , ..., Xn ; Y1 , ..., Ym
122
respectivamente, y
n
1 ( Xi − X ) 2
S2 =
n+m−2
(n − 1)S12 + (m − 1)S22 , S12 = ∑ n−1 ,
1
m
(Yi − Y )2
S22 = ∑ m−1
1
123
Teorema 5.11 (Intervalo de confianza superior de la dife-
rencia de medias, con varianzas desconocidas iguales).
Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas pero
iguales, de las muestras (independientes) respectivamente. En-
tonces
r !
1 1
P µ1 − µ2 < X − Y + t α S + = 1−α (5.16)
n m
X1 , ..., Xn ; Y1 , ..., Ym
respectivamente, y
n
1 ( Xi − X ) 2
2
S =
n+m−2
(n − 1)S1 + (m − 1)S2 , S12 =
2 2
∑ n−1
,
1
m
(Yi − Y )2
S22 = ∑ m−1
1
124
Teorema 5.12 (Intervalo de confianza inferior de la diferen-
cia de medias, con varianzas desconocidas iguales).
Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas igua-
les, de las muestras (independientes) respectivamente. Entonces
r !
1 1
P X − Y − tα S + < µ1 − µ2 = 1 − α (5.17)
n m
X1 , ..., Xn ; Y1 , ..., Ym
respectivamente, y
n
1 ( Xi − X ) 2
S2 =
n+m−2
(n − 1)S12 + (m − 1)S22 , S12 = ∑ n−1 ,
1
m
(Yi − Y )2
S22 = ∑ m−1
1
125
5.5. Intervalos de confianza para la di-
ferencia de medias con varianzas
desconocidas distintas
Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas con-
sideradas distintas, de las muestras (independientes) respecti-
vamente. Entonces
P X − Y − t α2 r < µ1 − µ2 < X − Y + t α2 r = 1 − α (5.18)
q
S12 S22
donde r = n + m , y (1 − α ) ∈ (0, 1) el grado de confianza
del intervalo, el número (cuantil)
α
t α2 = F −1 (1 − ),
2
− 1
F la función acumulativa inversa de la distribución t-student
con v grados de libertad, siendo
n m
( Xi − X ) 2 2 (Yi − Y )2
S12 = ∑ n−1 2 ∑ m−1 , S =
1 1
126
2
S12 S22
n + m
v= 2 2 2 −2
S22
S
1
n m
n +1 + m +1
X1 , ..., Xn ; Y1 , ..., Ym
respectivamente.
127
Teorema 5.14 (Intervalo de confianza superior de la dife-
rencia de medias con varianzas desconocidas distintas).
Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas con-
sideradas distintas, de las muestras (independientes) respecti-
vamente. Entonces
s
2
S1 S2 2
P µ1 − µ2 < X − Y + t α + = 1−α (5.19)
n m
128
Teorema 5.15 (Intervalo de confianza inferior de la diferen-
cia de medias con varianzas desconocidas distintas).
Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas con-
sideradas distintas, de las muestras (independientes) respectiva-
mente. Entonces
s
S12 S22
P X − Y − tα + < µ1 − µ2 = 1 − α (5.20)
n m
X1 , ..., Xn ; Y1 , ..., Ym
respectivamente.
129
Ejemplo 5.10 Hacer el ejercicio 7.22 de la página 346 del libro
Montgomery.
Observaciones:
5.6. Ejercicios
130
5.7. Intervalos de confianza para una pro-
porción
" r r #
p̂(1 − p̂) p̂(1 − p̂)
P p̂ − z α2 < p < p̂ + z α2 = 1−α
n n
(5.21)
donde p̂ es el número de éxitos en la muestra sobre el tamaño de
la muestra, es decir la frecuencia relativa; (1 − α) ∈ (0, 1) es el
grado de confianza del intervalo, y el número (cuantil)
α
z α2 = ϕ−1 1 − .
2
Es decir, el intervalo donde el parámetro desconocido p está con
una confianza 1 − α, es
r r !
p̂(1 − p̂) p̂(1 − p̂)
p̂ − z α2 , p̂ + z α2
n n
Ejemplo 5.11 Ver ejemplo 7.9 de la página 356 del libro Mont-
gomery.
131
5.7.1. Selección del tamaño de la muestra
E = | p̂ − p|
donde q̂ = 1 − p̂.
132
Lo anterior lo podemos resumir en el siguiente resulta-
do
z α 2
Proposición 5.4 Sea ε > 0, si n > p̂q̂ ε2 , donde q̂ = 1 − p̂,
entonces,
P (| p̂ − p| < ε) = 1 − α.
z α 2
Si desconocemos la muestra, entonces, si n > 14 ε2 , entonces,
P (| p̂ − p| < ε) = 1 − α.
Ejemplo 5.12 Ver ejemplo 7.10 de la página 357 del libro Mont-
gomery.
Ejemplo 5.13 Ver el ejemplo 3.37 página 159 del libro Eduardo.
133
donde p̂ es el número de éxitos en la muestra sobre el tamaño de
la muestra, es decir la frecuencia relativa; (1 − α) ∈ (0, 1) es el
grado de confianza del intervalo, y el número (cuantil)
z α = ϕ −1 (1 − α ).
z α = ϕ −1 (1 − α ).
134
NOTA.
135
5.8. Ejercicios
136
(1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el núme-
ro (cuantil) α
z α2 = ϕ−1 1 − .
2
Es decir, el intervalo donde el parámetro desconocido p1 − p2 está
con una confianza 1 − α, es
pˆ1 − pˆ2 − z α2 r, pˆ1 − pˆ2 + z α2 r
Ejemplo 5.14 Ver ejemplo 7.11 de la página 359 del libro Mont-
gomery.
137
Teorema 5.21 (Intervalo de confianza inferior de la diferen-
cia de proporciones). Sean X1 , ..., Xn ; Y1 , ..., Ym dos muestras de
Bernoulli con parámetros p1 , p2 respectivamente, es decir, p1 es la
probabilidad de éxito en la primera nuestra y p2 es la probabilidad
de éxito de la segunda muestra. Si X, Y representan el número
de éxitos en la primera y segunda muestra, respectivamente, y
Y
pˆ1 = Xn , pˆ2 = m son las frecuencias relativas de la primera y
segunda muestra, respectivamente, entonces
donde r
pˆ1 (1 − pˆ1 ) pˆ (1 − pˆ2 )
r= + 2 ,
n m
(1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el núme-
ro (cuantil)
z α = ϕ −1 (1 − α ).
Es decir, el intervalo inferior donde el parámetro desconocido p1 −
p2 está con una confianza 1 − α, es
r !
pˆ1 (1 − pˆ1 ) pˆ2 (1 − pˆ2 )
pˆ1 − pˆ2 − zα + , +∞
n m
138
Proposición 5.6 (Tamaño de la muestra). Sea ε > 0, α ∈
(0, 1), y sean X1 , ..., Xn ; Y1 , ..., Yn dos muestras de Bernoulli con
parámetros p1 , p2 respectivamente, es decir, p1 es la probabilidad
de éxito en la primera nuestra y p2 es la probabilidad de éxito de
la segunda muestra. Supongamos que X, Y representan el núme-
ro de éxitos en la primera y segunda muestra, respectivamente,
y pˆ1 = Xn , pˆ2 = Yn son las frecuencias relativas de la primera y
segunda muestra, respectivamente.
entonces,
P[|( p1 − p2 ) − ( pˆ1 − pˆ2 )| < ε] = 1 − α
2
zα
1
2. Si n ≥ 2
2
ε , entonces,
Aquí z α2 = ϕ−1 1 − α
2 .
139
Ejemplo 5.15 Ver el ejemplo 3.39 página 161 del libro Eduardo.
NOTA:
5.10. Ejercicios
140
5.11. Intervalos de confianza de una va-
rianza
y los números
χ2α ,n−1 , χ21− α ,n−1
2 2
141
siendo F −1 la función acumulativa inversa de la distribución χ2
con n − 1 grados de libertad.
Solución:
Aquí tenemos
1 − α = 0.95; α = 0.025; n = 10; n − 1 = 9; S2 = 0.056.
Al aplicar minitab (se utiliza la F inversa acumulativa de la
χ2 con 9 grados de libertad) se obtiene:
142
equivalente a
h i
2
0.95 = P 0.0265 < σ < 0.1867
143
y el número χ21−α,n−1 satisface la relación
χ21−α,n−1 = F −1 (α)
χ2α,n−1 = F −1 (1 − α)
Ejemplo 5.17 Ver ejemplo 7.7 de la página 350 del libro Mont-
gomery.
144
5.12. Ejercicios
145
Aquí F es la función acumulativa de la distribución F de Fisher
con n2 − 1 grados de libertad en el numerador, y n1 − 1 grados de
libertad en el denominador. Al valor 1 − α se le llama la confianza
del intervalo
!
S12 S12
F1− α2 ,n2 −1,n1 −1 , 2 Fα2 ,n2 −1,n1 −1
S22 S2
σ12 σ12
1. Si a < σ22
< b < 1, entonces σ22
< 1, lo cual implica
que σ12 < σ22
2.
σ12 σ12
3. Si 1 < a < σ22
< b, entonces 1 < σ22
, lo cual implica
que σ22 < σ12
σ12
4. Si el intervalo ( a, b) de confianza del cociente σ22
con-
tiene al uno, entonces no podemos concluir estadisti-
camente que haya diferencia entre las varianzas.
Ejemplo 5.18 Ver ejemplo 7.8 de la página 353 del libro Mont-
gomery.
146
Teorema 5.26 (Intervalo de confianza superior del cociente
de varianzas.) Sean X1 , ..., Xn1 ; Y1 , ..., Yn2 dos muestras norma-
les independientes con medias µ1 , µ2 respectivamente; y varianzas
σ12 y σ22 . Entonces
" #
σ12 S12
P 2 < 2 Fα,n2 −1,n1 −1 = 1 − α, (5.33)
σ2 S2
donde
n1 n2
( Xi − X̄ )2 (Yi − Ȳ )2
S12 =∑ , S22 =∑ ,
i =1
n1 − 1 i =1
n2 − 1
y donde
Fα,n2 −1,n1 −1 = F −1 (1 − α) .
Aquí F es la función acumulativa de la distribución F de Fisher
con n2 − 1 grados de libertad en el numerador, y n1 − 1 grados de
libertad en el denominador. Al valor 1 − α se le llama la confianza
del intervalo !
S12
−∞, 2 Fα,n2 −1,n1 −1
S2
superior del cociente de varianzas
σ12
σ22
.
147
σ12 y σ22 . Entonces
" #
S12 σ12
P 2 F1−α,n2 −1,n1 −1 < 2 = 1 − α, (5.34)
S2 σ2
donde
n1 n2
( Xi − X̄ )2 (Yi − Ȳ )2
S12 = ∑ n1 − 1 , S22 = ∑ n2 − 1 ,
i =1 i =1
y donde
F1−α,n2 −1,n1 −1 = F −1 (α) .
Aquí F es la función acumulativa de la distribución F de Fisher
con n2 − 1 grados de libertad en el numerador, y n1 − 1 grados de
libertad en el denominador. Al valor 1 − α se le llama la confianza
del intervalo !
S12
F1−α,n2 −1,n1 −1 , +∞
S22
inferior del cociente de varianzas
σ12
σ22
.
S1 = 0.85, S2 = 0.98,
148
respectivamente; y con n1 = 12, n2 = 15. Calcular el intervalo
bilateral del cociente
σ12
σ22
con una confianza del 90 por ciento.
σ12
,
σ22
y tambien,
entonces
149
es decir, el intervalo con la confianza del 90 por ciento para
el cociente
σ12
σ22
es (0.29, 2.06).
150
NOTA.
donde
−1
α
Fα2 ,n1 −1,n2 −1 = F 1− ,
2
con F −1 la función acumulativa inversa de la F de Fisher con
n1 − 1 grados de libertad en el numerador, y n2 − 1 grados
de libertad en el denominador; y
α
Fα2 ,n2 −1,n1 −1 = F −1 1 − ,
2
con F −1 la función acumulativa inversa de la F de Fisher con
n2 − 1 grados de libertad en el numerador, y n1 − 1 grados
de libertad en el denominador.
5.14. Ejercicios
151
Capítulo 6
Prueba de hipótesis
153
6.1. Hipótesis estadísticas
154
la población, es decir, especifica la forma de la distribución y el va-
lor de su(s) parámetro(s). Si una hipótesis no especifica completa-
mente la distribución de la población ae dice que es una hipótesis
compuesta.
155
Por ejemplo, si se asume que θ0 es un valor del pará-
metro desconocido θ de una población cuya distribución se
supone conocida, entonces son hipótesis nulas y alternati-
vas respectivamente las siguientes afirmaciones:
1. H0 : θ = θ0 y H1 : θ ̸= θ0
2. H0 : θ ≤ θ0 y H1 : θ > θ0
3. H0 : θ ≥ θ0 y H1 : θ < θ0
H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1
donde Θ0 ∩ Θ1 = ∅.
156
La aceptación de una hipótesis significa que los datos
de la muestra no proporcionan evidencia suficiente para re-
futarla. El rechazo significa que los datos de la muestra lo
refutan.
157
Definición 6.7 Se denomina error tipo II, al error que se comete
al aceptar una hipótesis nula H0 cuando en realidad es falsa. La
probabilidad de cometer un error tipo II se denota por β. Entonces
158
Después de plantear la hipótesis nula H0 y su corres-
pondiente alternativa H1 , referentes a un parámetro θ, y es-
pecificado el tamaño α del nivel de significación de la prue-
ba de H0 contra H1 , se deberá determinar una estadística
de prueba correspondiente al parámetro, cuya distribución
muestral se conozca.
159
6.1.1. Procedimiento de la prueba de hipótesis
H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1
donde Θ0 ∩ Θ1 = ∅.
160
6.2. Prueba de una media
X − µ0
Z0 =
√σ
n
y
α ∈ (0 , 1)
un nivel de confianza, con
y α
Z α2 = ϕ−1 1 − , Zα = ϕ−1 (1 − α).
2
Entonces:
H0 : µ = µ0
1. Sea
Ha : µ ̸ = µ 0
a) Si | Z0 | ≤ Z α2 ⇒ H0 no se rechaza
b) Si | Z0 | > Z α2 ⇒ H0 se rechaza
H0 : µ = µ0
2. Sea
Ha : µ < µ 0
161
a) Si Z0 ≥ − Zα ⇒ H0 no se rechaza
b) Si Z0 < − Zα ⇒ H0 se rechaza
H0 : µ = µ0
3. Sea ,
Ha : µ > µ 0
a) Si Z0 ≤ Zα ⇒ H0 no se rechaza
b) Si Z0 > Zα ⇒ H0 se rechaza
Ejemplo 6.2 Ver de la página 344 el ejemplo 11.1 del libro Mont-
gómery.
162
Teorema 6.2 (Prueba t de un media con varianza descono-
cida). Sea X1 , X2 , . . . , Xn una muestra aleatoria normal N (µ , σ2 )
o supongamos que n ≥ 30 . Si tanto µ como σ2 son desconocidas,
y si α ∈ (0, 1) es el nivel de confianza, con
α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero],
∑in=1 ( Xi − X )2 X − µ0
S2 = , t0 = ,
n−1 √S
n
t α2 = F −1 (1− α
2 ), t α
= F −1 (1
− α), donde F −1 es la inversa
de la función acumulativa de la distribución t-estudent con n − 1
grados de libertad. Entonces,
H0 : µ = µ0
1. Sea
Ha : µ ̸ = µ 0 ,
a) Si |t0 | ≤ t α2 ⇒ H0 no se rechaza
b) Si |t0 | > t α2 ⇒ H0 se rechaza
H0 : µ = µ0
2. Sea
Ha : µ < µ 0 ,
a) Si t0 ≥ −tα ⇒ H0 no se rechaza
b) Si t0 < −tα ⇒ H0 se rechaza
H0 : µ = µ0
3. Sea
Ha : µ > µ 0 ,
a) Si t0 ≤ tα ⇒ H0 no se rechaza
b) Si t0 > tα ⇒ H0 se rechaza
Ejemplo 6.3 Ver de la página 356 el ejemplo 11.7 del libro Mont-
gómery.
163
6.3. Prueba de diferencia de medias
Entonces,
H0 : µ1 − µ2 = µ0
1.
Ha : µ 1 − µ 2 ̸ = µ 0
a) Si | Z0 |≤ Z α2 ⇒ H0 no se rechaza
b) Si | Z0 |> Z α2 ⇒ H0 se rechaza
H0 : µ1 − µ2 = µ0
2.
Ha : µ 1 − µ 2 < µ 0
164
a) Si Z0 ≥ − Zα ⇒ H0 no se rechaza
b) Si Z0 < − Zα ⇒ H0 se rechaza
H0 : µ1 − µ2 = µ0
3.
Ha : µ 1 − µ 2 > µ 0
a) Si Z0 ≤ Zα ⇒ H0 no se rechaza
b) Si Z0 > Zα ⇒ H0 se rechaza
Ejemplo 6.4 Ver de la página 352 el ejemplo 11.5 del libro Mont-
gómery.
165
Teorema 6.4 (Prueba t de diferencia de dos medias con va-
rianzas iguales pero desconocidas). Sean X1 , X2 , . . . , Xn1 y
Y1 , Y2 , . . . , Yn2 dos muestras aleatorias independientes, con N (µ1 , σ12 )
y N (µ2 , σ12 ), respectivamente, y con σ12 = σ22 = σ2 desconocida.
Si α ∈ (0 , 1) es un nivel de confianza,
X − Y − µ0
t0 = q ,
1 1
S p n1 + n2
α
t α2 = F −1 (1 − ),
2
t α = F −1 (1 − α ),
donde F −1 es la inversa de la función acumulativa de la distribu-
ción t-estudent con n1 + n2 − 2 grados de libertad. Entonces
H0 : µ1 − µ2 = µ0
1. Sea
Ha : µ 1 − µ 2 ̸ = µ 0
a) Si | t0 |≤ t α2 ⇒ H0 no se rechaza
b) | t0 |> t α2 ⇒ H0 se rechaza
166
H0 : µ1 − µ2 = µ0
2. Sea
Ha : µ 1 − µ 2 < µ 0
a) Si t0 ≥ −tα ⇒ H0 no se rechaza
b) Si t0 < −tα ⇒ H0 se rechaza
H0 : µ1 − µ2 = µ0
3. Sea
Ha : µ 1 − µ 2 > µ 0
a) Si t0 ≤ tα ⇒ H0 no se rechaza
b) Si t0 > tα ⇒ H0 se rechaza
Ejemplo 6.5 Ver de la página 360 el ejemplo 11.9 del libro Mont-
gómery.
167
Teorema 6.5 (Prueba t de diferencia de dos medias con va-
rianzas distintas desconocidas). Sean
X1 , X2 , . . . , X n 1
y
Y1 , Y2 , . . . , Yn2
dos muestras aleatorias independientes, con N (µ1 , σ12 ) y N (µ2 , σ12 ),
respectivamente, y con σ12 ̸= σ22 desconocidas. Si α ∈ (0 , 1) es
un nivel de confianza,
X − Y − µ0
t0 = r ,
s21 s22
n1 + n2
α
t α2 = F −1 (1 − ),
2
t α = F −1 (1 − α ),
donde F −1 es la inversa de la función acumulativa de la distribu-
ción t-estudent con v grados de libertad. Entonces,
168
H0 : µ1 − µ2 = µ0
1.
Ha : µ 1 − µ 2 ̸ = µ 0
a) Si | t0 |≤ t α2 ⇒ H0 no se rechaza
b) Si | t0 |> t α2 ⇒ H0 se rechaza
H0 : µ1 − µ2 = µ0
2.
Ha : µ 1 − µ 2 < µ 0
a) Si t0 ≥ −tα ⇒ H0 no se rechaza
b) Si t0 < −tα ⇒ H0 se rechaza
H0 : µ1 − µ2 = µ0
3.
Ha : µ 1 − µ 2 > µ 0
a) Si t0 ≤ tα ⇒ H0 no se rechaza
b) Si t0 > tα ⇒ H0 se rechaza
169
6.4. Prueba de hipótesis para la dife-
rencia de medias de observaciones
pareadas
X D − µ0
SD
√
n
170
es la varianza muestral de las diferencias.
( X1 , Y1 )( X2 , Y2 ), · · · , ( Xn , Yn ).
Asumamos:
1 n 1 n
n i∑ n i∑
XD = ( X i − Yi ) = Di
=1 =1
171
4. Supongamos además que
X D − µ0
t0 = SD
√
n
Entonces,
H0 : µ D = µ0
1.
Ha : µ D ̸ = µ 0
H0 : µ D = µ0
2.
Ha : µ D < µ 0
H0 : µ D = µ0
3.
Ha : µ D > µ 0
a) Si t0 ≤ tα , entonces H0 no se rechaza
b) Si t0 > tα , entonces H0 se rechaza
172
Ejemplo 6.8 Hacer el ejemplo 4.25 de la página 219 del libro
Eduardo.
α ∈ (0 , 1) es un nivel de confianza,
y α
Z α2 = ϕ−1 1 − , Zα = ϕ−1 (1 − α).
2
Entonces,
173
H0 : p = p0
1.
Ha : p ̸ = p 0
a) si | Z0 |≤ Z α2 ⇒ H0 no se rechaza
b) si | Z0 |> Z α2 ⇒ H0 se rechaza
H0 : p = p0
2.
Ha : p < p 0
a) si Z0 ≥ − Zα ⇒ H0 no se rechaza
b) si Z0 < − Zα ⇒ H0 se rechaza
H0 : p = p0
3.
Ha : p > p 0
a) si Z0 ≤ Zα ⇒ H0 no se rechaza
b) si Z0 > Zα ⇒ H0 se rechaza
174
Teorema 6.8 (Prueba Z de la diferencia de proporciones).
Sean X1 , X2 , . . . , Xn1 y Y1 , Y2 , . . . , Yn2 dos muestras aleatorias
independientes de tipo Bernoulli, con
p1 = P[éxito I]
p2 = P[éxito II],
respectivamente. Supongamos además que
n1 ≥ 30 , n2 ≥ 30,
n
∑i=1 1 Xi número de éxitos I
p̂1 = = ,
n1 n1
n
∑i=2 1 Yi número de éxitos II
p̂2 = = ,
n2 n2
E1 = número de éxitos de la muestra I,
E2 = número de éxitos de la muestra II,
E1 + E2
pˆ0 = , qˆ0 = 1 − pˆ0 ,
n1 + n2
p̂1 − p̂2
Z0 = q ,
pˆ0 qˆ0 ( n11 + 1
n2 )
α ∈ (0 , 1) es un nivel de confianza,
y α
Z α2 = ϕ−1 1 − , Zα = ϕ−1 (1 − α).
2
Entonces,
175
H0 : p1 − p2 = p0
1.
Ha : p 1 − p 2 ̸ = p 0
a) Si | Z0 |≤ Z α2 ⇒ H0 no se rechaza
b) Si | Z0 |> Z α2 ⇒ H0 se rechaza
H0 : p1 − p2 = p0
2.
Ha : p 1 − p 2 < p 0
a) Si Z0 ≥ − Zα ⇒ H0 no se rechaza
b) Si Z0 < − Zα ⇒ H0 se rechaza
H0 : p1 − p2 = p0
3.
Ha : p 1 − p 2 > p 0
a) Si Z0 ≤ Zα ⇒ H0 no se rechaza
b) Si Z0 > Zα ⇒ H0 se rechaza
176
6.7. Prueba de una varianza
( n − 1) s2
χ20 =
σ02
es el estadístico de prueba y
χ2α = F −1 (1 − α),
χ21−α = F −1 (α),
α
χ21− α = F −1 ,
2 2
y F −1 es la función acumulativa inversa de la distribución χ2 con
n − 1 grados de libertad. Entonces,
H0 : σ2 = σ02
1.
Ha : σ2 ̸= σ02
177
b) Si χ20 < χ21− α ó χ20 > χ2α entonces H0 se rechaza
2 2
H0 : σ2 = σ02
2.
Ha : σ2 < σ02
H0 : σ2 = σ02
3.
Ha : σ2 > σ02
∑in=1 ( Xi − X̄ )2
S2 = ,
n−1
α ∈ (0 , 1) es un nivel de confianza,
178
es el estadístico de prueba,
α
Z α2 = ϕ−1 1 − ; Zα = ϕ−1 (1 − α),
2
y ϕ−1 es la función acumulativa inversa de la distribución Z.
Entonces,
H0 : σ2 = σ02
1.
Ha : σ2 ̸= σ02
a) si | Z0 |≤ Z α2 ⇒ H0 no se rechaza
b) si | Z0 |> Z α2 ⇒ H0 se rechaza
H0 : σ2 = σ02
2.
Ha : σ2 < σ02
a) si Z0 ≥ − Zα ⇒ H0 no se rechaza
b) si Z0 < − Zα ⇒ H0 se rechaza
H0 : σ2 = σ02
3.
Ha : σ2 > σ02
a) si Z0 ≤ Zα ⇒ H0 no se rechaza
b) si Z0 > Zα ⇒ H0 se rechaza
179
6.8. Prueba de cociente de varianzas
X1 , X2 , . . . , X n 1
y
Y1 , Y2 , . . . , Yn2
dos muestras aleatorias independientes, con N (µ1 , σ12 ) y N (µ2 , σ12 )
respectivamente, ó supongamos que n1 ≥ 30 y n2 ≥ 30.
Si n
∑i=1 1 ( Xi − X̄ )2
S12 = ,
n1 − 1
n
∑i=2 1 (Yi − Ȳ )2
S22 = ,
n2 − 1
α ∈ (0 , 1) es un nivel de confianza,
S12
F0 =
S22
es el estadístico de prueba,
α
Fα2 = F −1 1 − ,
2
Fα = F −1 (1 − α),
180
α
F1− α2 = F −1 ,
2
F1−α = F −1 (α)
y F −1 es la función acumulativa inversa de la distribución F de
Fisher, con n1 − 1 grados de libertad en el numerador, y n2 − 1
grados de libertad en el denominador. Entonces,
H0 : σ12 = σ22
1.
Ha : σ12 ̸= σ22
H0 : σ12 = σ22
2.
Ha : σ12 < σ22
H0 : σ12 = σ22
3.
Ha : σ12 > σ22
a) Si F0 ≤ Fα , entonces H0 no se rechaza
b) Si F0 > Fα , entonces H0 se rechaza
Observaciones:
181
1. Utilizamos la notación corta Fα en lugar de la notación
Fα,n1 ,n2 que la mayoría de libros utilizan.
1
F1− β,n1 ,n2 = ,
Fβ,n2 ,n1
6.9. Ejercicios
1. 11-1 a)
2. 11-7 a)
3. 11-8
4. 11-16 a)
5. 11-20
6. 11-21 a)
7. 11-27 a)
8. 11-29 a)
182
9. 11-31
10. 11-32 a)
11. 11-31, 11-32, 11-33, 11-34, 11-35, 11-36, 11-37, 11-40, 11-
41, 11-42.
183
6.10. Pruebas de bondad de ajuste
F ( x; θ1 , θ2 , · · · , θ p ) = P( X ≤ x )
184
Proposición 6.1 (Gráfica de probabilidad). Supongamos que
X1 , X2 , · · · , Xn es una muestra ordenada en forma creciente de
una variable aleatoria X con función acumulativa
F ( x; θ1 , θ2 , · · · , θ p ) = P( X ≤ x )
donde, los parámetros θ1 , θ2 , · · · , θ p de la distribución son cono-
cidos. Definamos la función acumulativa empírica: Gn : R →
[0, 1]
número de Xi ≤ x
Gn ( x ) =
n
Es claro que,
i
Gn ( Xi ) = , i = 1, 2, · · · , n
n
Si la muestra X1 , X2 , · · · , Xn tiene como función acumulativa
F ( x ), entonces, los puntos
1 2 n
X1 , , X2 , , · · · , Xn ,
n n n
están aproximadamente ”alineados”. Algunos autores consideran
la gráfica de los puntos
n
1 2
, X1 , , X2 , · · · , , Xn
n n n
185
Es claro que,
i − 0.5
Fn ( Xi ) = , i = 1, 2, · · · , n
n
Si la muestra X1 , X2 , · · · , Xn tiene como función acumulativa
F ( x ), entonces, los puntos
186
Proposición 6.2 (Prueba Q-Q). Supongamos que X1 , X2 , · · · , Xn
es una muestra ordenada en forma creciente de una variable alea-
toria X con función acumulativa
F ( x; θ1 , θ2 , · · · , θ p ) = P( X ≤ x )
i
Gn ( Xi ) = , i = 1, 2, · · · , n
n
Si la muestra X1 , X2 , · · · , Xn tiene como función acumulativa
F ( x ), entonces, los puntos ( X1 , z1 ), ( X2 , z2 ), · · · , ( Xn , zn ) es-
tán aproximadamente ”alineados”. Algunos autores consideran la
gráfica de los puntos (z1 , X1 ), (z2 , X2 ), · · · , (zn , Xn ); donde los
puntos z1 , z2 , · · · , zn son los cuantiles de la variable aleatoria X.
Más precisamente hablando, zi deben satisfacer,
i
= F ( zi )
n
es decir,
−1 i
zi = F
n
187
la función F ( x ) conviene seleccionar (entre otras) la función acu-
mulativa empírica: Fn : R → [0, 1]
0.5 (número de Xi ≤ x ) − 0.5
Fn ( x ) = Gn ( x ) − =
n n
Es claro que,
i − 0.5
Fn ( Xi ) = , i = 1, 2, · · · , n
n
Si la muestra X1 , X2 , · · · , Xn tiene como función acumulativa
F ( x ), entonces, los puntos ( X1 , z1 ), ( X2 , z2 ), · · · , ( Xn , zn ) es-
tán aproximadamente ”alineados”. Algunos autores consideran la
gráfica de los puntos (z1 , X1 ), (z2 , X2 ), · · · , (zn , Xn ); donde los
puntos z1 , z2 , · · · , zn son los cuantiles de la variable aleatoria X.
Más precisamente hablando, zi deben satisfacer,
i − 0.5
= F ( zi )
n
es decir,
i − 0.5
−1
zi = F
n
Ejemplo 6.17 Ver el ejemplo 15.10 del libro Meyer, página 441.
188
6.10.1. Pruebas de bondad de ajuste ji cuadra-
da
189
Definición 6.11 Consideremos un experimento E, su espacio mues-
tra1 Ω y una partición de Ω en k eventos mutuamente excluyen-
tes A1 , A2 , · · · , Ak . Es decir, cuando se efectúa E uno y sólo uno
de los eventos Ai ocurre). Considérese n repeticiones independien-
tes de E. Sea pi = P( Ai ) > 0 y supóngase que pi permane-
ce constante durante todas las repeticiones. Desde luego tenemos
que (por definición de partición) ∑ik=1 pi = 1. Definamos sobre Ω
las siguientes variables aleatorias discretas X1 , X2 , · · · , Xk como
sigue: Xi es el número de veces que ocurre Ai entre las n repeti-
ciones de E, para i = 1, 2, · · · , k. Las variables Xi no son inde-
pendientes, puesto que ∑ik=1 pi = 1. Entonces, tan pronto como
el valor de cualquiera de las k − 1 variables aleatorias es conocido,
se determina el valor de la otra. La distribución anterior de las va-
riables Xi se conoce como distribución multinomial de proba-
bilidades; y es una generalización de la distribución binomial. La
notación de esta distribución es X ∼ Multi (n, p1 , p2 , · · · , pk )
190
Teorema 6.12 Si Xi , i = 1, 2, · · · , k están definidas como antes,
tenemos:
1. P( X1 = n1 , · · · , Xk = nk ) = n! n1
n1 ···nk ! p1 · · · pnk k , donde,
∑ik=1 pi = 1.
2. E( Xi ) = npi , i = 1, 2, · · · , k
3. V ( Xi ) = npi (1 − pi ), i = 1, 2, · · · , k
4. Cov( Xi , X j ) = −npi p j , i ̸= j
Ejemplo 6.18 Ver el ejemplo 8.13 página 234 del libro Meyer.
También ver el ejemplo 5.30 página 280 del libro Mendenhall.
191
tiene una distribución aproximada χ2 con k − 1 grados de liber-
tad, cuando el tamaño de la muestra es ”grande”.
192
tiene una distribución aproximada χ2 con k − 1 grados de liber-
tad, cuando el tamaño de la muestra es ”grande”. Además,
donde,
χ2α = F −1 (1 − α)
y F −1 es la función acumulativa inversa de la distribución χ2 con
k − 1 grados de libertad.
193
El siguiente teorema de bondad de ajuste es aplicable a
cualquier distribución y es llamada prueba de bondad de
ajuste de Karl Pearson (1900).
X1 = x 1 , X2 = x 2 , · · · X n = x n
1. El estadístico de prueba
k
(ni − npi )2
D02 = ∑ npi
i =1
194
tiene una distribución aproximada χ2 con k − 1 grados de
libertad, cuando el tamaño de la muestra es ”grande”.
Observacion.
195
3. La prueba de bondad de ajuste χ2 se aplica a muestras
”grandes”, n ≥ 40, y de preferencia para un número
de clases k ≥ 2
4. Si los parámetros θi , i = 1, 2, · · · , θr no se especifican,
entonces, es necesario considerarlos como variables.
Una forma de estimar estos parámetros es con el mé-
todo de máxima verosimilitud. Por tanto, el estadísti-
co de prueba
k
(ni − npi )2
D02 = ∑ npi
i =1
196
2. https: // www. youtube. com/ watch? v= 8mvBmAoja_ g&
t= 1201s
Ejemplo 6.22 Ver los ejemplos 15.8 página 438, 15.9 página
440 y 15.10 página 441 del libro Meyer.
197
6.10.2. Prueba de Kolmogorov Smirnov (K-S)
x1 , x2 , · · · , x n
i
Sn ( X(i ) ) = , i = 1, 2, · · · , n
n
198
También,
0, x < x(1)
Sn ( x ) = nk , x(k) ≤ x < x(k+1)
1, x(n) ≤ x
para todo x ∈ R.
número de Xi < x
Sn ( x ) =
n
Es claro que,
0, x ≤ x(1)
Sn ( x ) = nk , x(k) < x ≤ x(k+1)
1, x(n) < x
199
a mayor, la función de distribución empírica:
0, x < x(1)
Sn ( x ) = nk , x(k) ≤ x < x(k+1)
1, x(n) ≤ x
2. lı́mx→−∞ Sn ( x ) = 0
3. lı́mx→∞ Sn ( x ) = 1
6. Si
Dn = sup x∈R [Sn ( x ) − F ( x )] , n ∈ N
entonces, h i
P lı́m Dn = 0 = 1
n→∞
200
Figura 6.1: Función de distribución empírica
201
Teorema 6.17 (Prueba de bondad de ajuste de Kolmogorov-
Smirnov). Supongamos que tenemos los valores ordenados en for-
ma creciente x1 , x2 , · · · , xn de una variable aleatoria X continua.
Consideremos el contraste de hipótesis:
H0 : F ( x ) = F0 ( x ), ∀ x
Ha : F ( x ) ̸= F0 ( x ), para algún x
donde,
F = F(x)
es la función acumulativa de la variable aleatoria X. Y donde,
F0 = F0 ( x; θ1 , θ2 , · · · , θr )
es la función acumulativa de cierta distribución propuesta, siendo
θi , i = 1, 2, · · · , θr los parámeros de dicha distribución. Conside-
remos la función acumulativa empírica:
0, x < x(1)
Sn ( x ) = nk , x(k) ≤ x < x(k+1)
1, x(n) ≤ x
202
Otra forma práctica de presentar la prueba de K-S es la
siguiente.
203
1. Si Dn > Dα , entonces, H0 se rechaza al nivel α,
Observación.
q
ln( α2 )
1. Una aproximación de Dα = − 2n
Ejemplo 6.24 Ver los ejemplos 21.1 y 21.2 páginas 658-660 del
libro Sahoo Probability and Mathematical Estatistics
204
Figura 6.2: Tabla de valores K-S
205
6.11. Test de bondad de ajuste de Anderson-
Darling
X (1) , X (2) , · · · , X ( n )
1 n
n i∑
A2n = −n − (2i − 1)[ln( F ( X(i) )) + ln(1 − F ( X(n+1−i) ))]
=1
H0 : F ( x ) = F0 ( x; θ ), ∀ x
Ha : F ( x ) ̸= F0 ( x; θ ) para algún x
donde,
F = F ( x; θ )
es la función acumulativa de la variable aleatoria X, y donde,
F0 = F ( x; θ ) = F0 ( x; θ1 , θ2 , · · · , θr )
206
es la función acumulativa de cierta distribución propuesta, siendo
θi , i = 1, 2, · · · , θr los parámeros de dicha distribución.
207
En particular si la muestra X(1) , X(2) , · · · , X(n) es nor-
mal con media µ y varianza σ2 , el estadístico de prueba lo
podemos expresar en términos de los valores de la distribu-
ción normal estándar:
1 n
n i∑
A2 = − n − (2i − 1)[ln(zi ) + ln(1 − zn+1−i )]
=1
X(i ) − X
2. Si σ2 se conoce y µ se desconoce, usamos wi = σ
y z i = Φ ( wi ).
X(i ) − µ
3. Si se conoce µ y se desconoce σ2 , usamos wi = S1 ,
donde, S12 = n1 ∑in=1 ( X(i) − µ)2 , y zi = Φ(wi ).
208
6.12. Bandas de confianza de F ( x )
x (1) , x (2) , · · · , x ( n )
Ln ( x ) = máx{Sn ( x ) − Dn,α , 0}
Un ( x ) = mı́n{Sn ( x ) + Dn,α , 1}
entonces,
P[ Ln ( x ) < F ( x ) < Un ( x )] = 1 − α
209
Ejemplo 6.27 Calcule la banda para F (20) con un nivel de con-
fianza α = 0.05 de la muestra
X = [18.2, 21.4, 22.6, 17.4, 17.6, 16.7, 17.1, 21.4, 20.1, 17.9, 16.8, 23.1]
5. Distribución binomial:
https: // www. youtube. com/ watch? v= RfjRCobrLAM
210
7. Prueba de normalidad:
https: // www. youtube. com/ watch? v= BoEemfgzuBQ
8. Prueba de normalidad:
https: // www. youtube. com/ watch? v= w4HbIgEQ654
9. Prueba de normalidad:
https: // www. youtube. com/ watch? v= nDgIKGMAn0Y
10. Prueba de normalidad:
https: // www. youtube. com/ watch? v= 27K7gwu5o-4
11. Prueba de normalidad:
https: // www. youtube. com/ watch? v= AmQ2XWj4Chs
12. Prueba de normalidad con A. Darling:
https: // www. youtube. com/ watch? v= chzzq8N07ws
13. Prueba de normalidad con A. Darling:
https: // www. youtube. com/ watch? v= v9jU6ZH3nuA
211
6.13. Prueba de independencia
B1 B2 B3 ··· Bs Total
A1 n11 n12 n13 ··· n1s n1.
A2 n21 n22 n23 ··· n2s n2.
A3 n31 n32 n33 ··· n3s n3.
..
.
Ar nr1 nr2 nr3 ··· nrs nr.
Total n.1 n.2 n.3 ··· n.s
212
ni. es la suma de los elementos de la fila i-ésima de la tabla
de contingencia; y n.j = ∑ri=1 nij es el número de elementos
de la muestra que tienen la categoría Bj , es decir, n j. es la
suma de los elementos de la columna j-ésima de la tabla de
contingencia
213
Teorema 6.21 (Prueba de independencia χ2 ). Supongamos que
tenemos una muestra de n individuos o conceptos clasificados se-
gún dos factores o criterios, A y B, de modo que hay r clasifica-
ciones (categorías) A1 , A2 , · · · , Ar de tipo A y s clasificaciones
(categorías) B1 , B2 , · · · , Bs de tipo B, y que cada individuo de la
muestra sólo puede tener una y sólo una de las categorías Ai y Bj ,
para algún i = 1, 2, · · · , r y algún j = 1, 2, · · · , s. Supongamos
que pij es la probabilidad de que un elemento de la muestra esté
en la categoría Ai y la categoría Bj ; que pi sea la probabilidad de
que un individuo de la muestra esté en la categoría Ai del factor
A, que p j sea la probabilidad de que un individuo de la muestra
esté en la categoría Bj del factor B. Supongamos que nij es el nú-
mero de elementos de la muestra que tienen la categoría Ai y Bj ;
ni. = ∑sj=1 nij es el número de elementos de la muestra que tienen
la categoría Ai , y que n.j = ∑ri=1 nij es el número de elementos de
la muestra que tienen la categoría Bj
equivalente a:
H0 : pij = pi p j , i = 1, 2, · · · , r; j = 1, 2, · · · , s
Ha : Algún pij ̸= pi p j
Si n i2
i. n.j
h
r s nij − n
χ20 = ∑∑ n n
i. .j
i =1 j =1 n
214
Aquí χ2α = F −1 (1 − α), donde F −1 es la función acumulativa de
la distribución χ2 con (r − 1)(s − 1) grados de libertad.
Ejemplo 6.31 Ver el ejemplo 14.3 página 724 del libro Men-
denhall. Hacer el ejercicio 47 página 374 del libro Mood en es-
pañol
215
Capítulo 7
Análisis multivariable
217
Toma más interés para las aplicaciones el caso donde la
matriz A es una matriz simétrica. En tal caso,
p
′
x Ax = ∑ aii xi + 2 ∑ aij xi x j
i =1 i̸= j
218
Observar que una matriz definida positiva es semidefi-
nida positiva, y una matriz definida negativa es semidefini-
da negativa.
Ax = λx.
( A − λI ) x = 0
det( A − λI ) = 0
1. tr ( A) = ∑in=1 λi
219
2. det( A) = ∏in=1 λi
220
6. La matriz A es indefinida si y solo si existe un eigenvalor
λi > 0 y un eigenvalor λ j < 0.
9. Si A ≥ 0 entonces, A′ ≥ 0
11. Si A ≤ 0 entonces, A′ ≤ 0
221
Definición 7.8 Los eigenvectores de una matriz A de orden n ×
n simétrica son mutuamente ortogonales, es decir, si,
C = ( x1 , x2 , · · · , x n )
xi x ′j = 0, i ̸= j
222
Nota. Algunos autores escriben S = H ′ DH en lugar de
S = HDH ′ .
223
donde, U r = [u1 , · · · , ur ], V r = [v1 , · · · , vr ], y, Λr , es una
matriz diagonal de orden r × r, con Λr = diag(λ1 , · · · , λr ).
224
2. Si la matriz S es definida positiva, entonces todos sus eigen-
valores son positivos, por tanto, definimos,
1 1
S− 2 = CD − 2 C ′
donde,
√1
λ1
0 ··· 0
0 √1 ··· 0
− 12
λ2
D = .. .. .. ..
. . . .
0 0 ··· √1
λn
C = [ x1 , · · · , x n ]
225
7. Toda matriz de la forma BB′ , donde B es de orden n × p,
con rank ( B) = p < n es definida positiva
1 1
1. S 2 S 2 = S
1
2. |S 2 |2 = |S|
1 1
3. |S 2 | = |S| 2
226
1 1 1
a) (S 2 )′ = S 2 , es decir, S 2 es simétrica
1 1
b) S 2 S 2 = S
1 1
c) (S 2 )−1 = ∑in=1 √1 ei e′
λi i = CD − 2 C ′ , donde,
√1
λ1
0 ··· 0
0 √1 ··· 0
− 12
λ2
D = .. .. ... ..
. . .
0 0 ··· √1
λn
C = [ e1 , · · · , e n ]
d)
1 1 1 1
S 2 S− 2 = S− 2 S 2 = I
227
1. El vector columna x : Ω → R p ,
x1
x2
x = ..
.
xp
x−1 (B) = {ω ∈ Ω : ( x1 (ω ), · · · , x p (ω )) ∈ B}
es definida como:
para todo x = ( x1 , · · · , x p ) ∈ R p .
228
3. La distribución de probabilidad marginal para la variable
Xi , i = 1, 2, · · · , p, es definidida como:
4. Si
X1
X2
X=
..
.
Xp
es un vector aleatorio y toda Xi , i = 1, 2, · · · , p es una
variable aleatoria discreta, entonces, al vector X le llamamos
un vector aleatorio discreto.
a)
f (x) ≥ 0
para todo, x ∈ R p
229
b)
Z Z ∞ Z ∞
f ( x )dx = ··· f ( x1 , · · · , x p )dx1 · · · dx p = 1
Rp −∞ −∞
c)
d)
P[ a1 ≤ X1 ≤ b1 , · · · , a p ≤ X1 ≤ b p ]
Z b1 Z bp
= ··· f ( x1 , · · · , x p )dx1 · · · dx p
a1 ap
1.
x1 k
x = ... ∼ F sobre Rn , donde n = ∑ ni
xk i =1
230
es llamado el vector adjunto aleatorio de los vectores
xi , i = 1, 2, · · · , k; y estos últimos vectores son llamados
vectores aleatorios marginales de x.
F ( t ) = F ( t1 , · · · , t k ) = P [ t1 ≤ x 1 , · · · , t1 ≤ x k ]
t1
para toda t = ...
tk
3.
Fi (s) = F (∞, · · · , s, · · · , ∞), ∀s ∈ Rni
se le llama la distribución acumulativa marginal del
vector aleatorio xi , i = 1, 2, · · · , k
1. lı́mxi →∞ F ( x) = 1
231
2. lı́mxi →−∞ F ( x) = 0
1. lı́mxi →∞ F ( x) = 1
2. lı́mxi →−∞ F ( x) = 0
xk i =1
232
2. Z
P [ xi ∈ A ] = f i (s)ds, ∀ A ∈ B ni
A
3. Z s
Fi (s) = f i (u)du, ∀s ∈ Rni
∞
233
Uno de los resultados del cálculo avanzado que es ne-
cesario en la estadística inferencial es el teorema de cambio
de variable.
234
constante de orden p × p, entonces, la función de densidad de y
es g:
1
g ( y ) = f ( A −1 y )
| det( A)|
1.
cov( X, Y ) = E( XY ) − µ X µY = µ XY − µ X µY
es decir,
µ XY = σXY + µ X µY ,
2. cov( X, Y ) = cov(Y, X )
3. cov( X, X ) = var ( X )
235
7. cov( X1 + X2 , Y ) = cov( X1 , Y ) + cov( X2 , Y ), y en gene-
ral,
cov( X1 + · · · + Xn , Y ) = cov( X1 , Y ) + · · · + cov( Xn , Y )
236
12. var ( aX + bY ) = a2 var ( X ) + b2 var (Y ) + 2abcov( X, Y ),
donde, a y b son constantes arbitrarias. En particular, si
las variables aleatorias X y Y son independientes, entonces,
cov( X, Y ) = 0, y por tanto,
var ( aX + bY ) = a2 var ( X ) + b2 var (Y )
1.
∑in=1 xi yi − X Y
SXY =
n−1
2. E(SXY ) = σXY
237
Definición 7.19 (Coeficiente de correlación muestral). Sean
X, Y dos variables aleatorias, y consideremos que x1 , x2 , · · · , xn
y y1 , y2 , · · · , yn son muestras de las variables aleatorias X y Y
respectivamente, entonces, el coeficiente de correlación pobla-
cional se define como,
SXY ∑in=1 xi yi − X Y
r XY = =q
SX SY
∑in=1 ( xi − X )2 ∑in=1 (yi − Y )2
238
2. Sea x = [ x1 , x2 , · · · , x p ]′ un p vector columna de varia-
bles aleatorias. Consideremos x1 , x2 , · · · , xn una muestra
de tamaño n del vector x, y supongamos que,
xi′ = [ xi1 , xi2 , · · · , xip ], i = 1, 2, · · · , n
por tanto, los vectores
x1j
x2j
..
.
xnj
representan los valores de cada variable aleatoria x j , j =
1, 2, · · · , p en la muestra. La media muestral de x1 , x2 , · · · , xn ,
es:
x1
1 n x2
x = ∑ xi = .. (7.1)
n i =1 .
xp
239
donde los vectores xi′ , i = 1, 2, · · · , n son vectores renglón
de la forma:
xi′ = [ xi1 , xi2 , · · · , xip ]
y donde la j-ésima columna de X son los valores de la varia-
ble x j , j = 1, 2, · · · , p en la muestra. No es difícil comprobar
la siguiente proposición.
1.
x1
x2 1
x= = X′j
..
. n
xp
donde,
x1′
x2′
x11 x12 · · · x1p
..
. x21 x22 · · · x2p
X= =
xi′
··· ··· ··· ···
..
xn1 xn2 · · · xnp
.
x′n
y donde, j es la matriz unos de orden n × 1.
2.
x1 E ( x1 ) µ1
x2 E ( x2 ) µ2
E( x) = E = = =µ
.. .. ..
. . .
xp E( x p ) µp
240
es decir, x es un estimador insesgado de µ.
2. E[ x + y] = E[ x] + E[y]
241
Definición 7.21 (Matriz de covarianzas muestral y pobla-
cional). Sea x un p vector aleatorio columna y sea x1 , · · · , xn
una muestra de tamaño n de este vector, a saber,
xi′ = [ xi1 , xi2 , · · · , xip ], i = 1, 2, · · · , n
Si los datos de la muestra los disponemos en la matriz
′
x1
x2′
. x11 x12 · · · x1p
.
. x21 x22 · · · x2p
X= ′ =
xi · · · · · · · · · · · ·
.
.. xn1 xn2 · · · xnp
x′n
entonces,
242
2. La matriz de covarianzas muestral o matriz de disper-
sión es la matriz de covarianzas muestrales de los valores
(de la muestra) de las p variables aleatorias, es decir,
s11 s12 · · · s1p
s21 s22 · · · s2p
S = (s jk ) = ..
.. .. ..
. . . .
s p1 s2 · · · s pp
donde,
n
1
n − 1 i∑
s jk = ( xij − x j )( xik − xk )
=1
!
n
1
n − 1 i∑
= xij xik − nx j xk
=1
en particular,
n
1
s jj = s2j = ∑
n − 1 i =1
( xij − x j )2
!
n
1
=
n−1 ∑ xij2 − nx j 2
i =1
Proposición 7.19 Si
x1
x2
x=
..
.
xp
243
es un p vector de variables aleatorias, entonces,
2.
∑ = E[(x − µ)(x − µ)′ ] = E(xx′ ) − µµ′
3. E[ Ax] = Aµ, para toda A ∈ Rm
p matriz constante.
244
7. cov(s′ x, t ′ x) = s′ ∑ t, para todo s, t ∈ R p vectores co-
lumna constantes.
E[ AZB + C ] = AE( Z ) B + C
245
Proposición 7.21 Bajo las consideraciones de la definición pre-
cedente, si para cada i = 1, 2, · · · , n, definimos los p vectores
x1′
x2′
x11 x12 · · · x1p
..
. x21 x22 · · · x2p
X= =
xi′
··· ··· ··· ···
..
xn1 xn2 · · · xnp
.
x′n
y además,
x1
x2
x=
..
.
xp
246
1.
n
1
S = ∑
n − 1 i =1
( xi − x)( xi − x)′
!
n
1
n − 1 i∑
= xi xi′ − nx x′
=1
2.
1 1
S= X′ I− J X
n−1 n
donde, la matriz I es la matriz identidad de orden n × n, y
la matriz J es la matriz de unos de orden n × n.
3.
E(S) = ∑
es decir, S la matriz de covarianzas muestral es un estima-
dor insesgado de la matriz simétrica de covarianzas pobla-
cional ∑.
Si
y1 y2 yn
, ,··· ,
x1 x2 xn
247
es una muestra de tamaño n de tales vectores, donde,
yi1
yi2
.
..
yi yip
= , i = 1, 2, · · · , n
xi xi1
xi2
.
..
xiq
entonces,
1.
y1
y2
..
.
y yp
=
x
x1
x2
..
.
xq
2.
Syy Syx
S=
Sxy Sxx
donde Syy es la matriz de covarianzas de las y’s, de orden
p × p; Sxx es la matriz de covarianzas de las x’s de orden
q × q; Syx es la matriz de covarianzas entre las y’s y las x’s,
de orden p × q; Sxy es la matriz de covarianzas entre las x’s
y las y’s, de orden q × p. Notar que Sxy = Syx′ .
248
Definición 7.23 (Matriz de correlación muestral y pobla-
cional). Sean x un p vector columna aleatorio y consideremos
una muestra de tamaño n, x1 , · · · , xn del vector x, a saber,
x1′
x2′
x11 x12 · · · x1p
..
.x21 x22 · · · x2p
X= ′ =
xi ··· ··· ··· ···
.
.. xn1 xn2 · · · xnp
x′n
entonces,
1. Si
x1
x2
x=
..
.
xp
249
guiente manera:
ρ11 ρ12 · · · ρ1p
ρ21 ρ22 · · · ρ2p
Pρ = (ρ jk ) =
.. .. .. ..
. . . .
ρ p1 ρ2 · · · ρ pp
1 ρ12 · · · ρ1p
ρ21 1 · · · ρ2p
=
.. .. .. ..
. . . .
ρ p1 ρ2 · · · 1
donde,
σjk E[( x j − µ x j )( xk − µ xk )]
ρ jk = =q q
σj σk E ( x j − µ x j ) E ( x k − µ x k )2
2
donde,
s jk
r jk =
s j sk
250
y
n
1
s jk = ∑ ( x − x j )( xik − xk )
n − 1 i=1 ij
!
n
1
n − 1 i∑
= xij xik − nx j xk
=1
en particular,
n
1
n − 1 i∑
s jj = s2j = ( xij − x j )2
=1
!
n
1
=
n−1 ∑ xij2 − nx j 2
i =1
251
es decir,
S = DS RDS
252
7.2. Distribución normal multivariada
1. E[ x] = µ
253
2. cov( x) = ∑
254
1. La media µ del vector x es b, es decir, E( x) = b
2. A = ∑−1
1 1 ′ −1
f ( x) = √ 1
e− 2 ( x−µ) ∑ ( x−µ)
( 2π ) p |∑| 2
255
y matriz de covarianzas poblacional:
σ11 σ12 · · · σ1p
σ21 σ22 · · · σ2p
∑ = cov(x) =
. .. .. ..
..
. . .
σp1 σ2 · · · σpp
a) Si
a1
a2
a=
..
.
ap
es un vector de constantes, entonces la función lineal
a ′ x = a1 x1 + a2 x2 + · · · + a p x p
a′ x ∼ N ( a′ µ, a′ ∑ a)
256
2. Normalidad de las distribuciones marginales:
Cualquier subconjunto de las xi en el vector
x1
x2
x = ..
.
xp
tienen una distribución normal cuyo vector de medias es-
tá formado por las medias respectivas del subconjunto de
variables; y cuya matriz de covarianzas es la submatriz de
∑ correspondiente al subconjunto de variables considerado.
En particular, si x ∼ Np (µ, ∑), entonces, xi ∼ N (µi , σi2 ),
para i = 1, 2, · · · , p
3. Independencia:
Las variables aleatorias xi y x j son independientes si σij =
0. Por tanto, si x ∼ Np (µ, ∑), entonces, las variables xi y
x j para i ̸= j son independientes si y solo si σij = 0.
4. Distribución normal de la suma de subvectores:
Si x y y son vectores de p × 1 variables aleatorias indepen-
dientes, con x ∼ Np (µ x , ∑ x ), y, y ∼ Np (µy , ∑y ), enton-
ces,
!
x + y ∼ Np µ x + µy , ∑ + ∑
x y
!
x − y ∼ Np µ x − µy , ∑ + ∑
x y
5. Si los
subvectores
y y x, son tales que el vector aleato-
y
rio tiene una distribución normal multivariada, con
x
257
Syx ̸= 0, entonces, la distribución de y dado x, f (y | x) tie-
ne una distribución normal multivariada con media,
−1
E[y | x] = µy + ∑ ∑( x − µ x )
yx xx
y covarianza,
−1
cov[y | x] = ∑−∑∑∑
yy yx xx xy
g(y,x)
Nota. Recordar que f (y | x) = h( x) , donde, g(y, x) es la
función de densidad conjunta de los vectores y y x, y donde,
h( x) es la función de densidad marginal de x.
258
es el conjunto de puntos
x1
x2
x= ∈ Rp
..
.
xp
( x1 − x01 )2 ( x p − x0p )2
+ · · · + =1
a21 a21
1 1 ′ −1
f ( x) = √ 1
e− 2 ( x−µ) ∑ ( x−µ)
( 2π ) p |∑| 2
259
Las curvas de nivel de la función de densidad del vector x constan
del conjunto de puntos que satisfacen la ecuación
−1
( x − µ)′ ∑( x − µ) = c (7.4)
260
entonces, las curvas de nivel de la función de densidad f del vector
x tienen la siguiente forma paramétrica :
√
√
x d 1 sin θ
= µ + cH √
y d2 cos θ
donde 0 ≤ θ ≤ 2π y c es una constante positiva arbitraria.
1
Ejemplo 7.4 Supongamos que x ∼ N2 (µ, ∑), donde, µ =
2
2 1
y, ∑ = . ¿ La matriz ∑ es definida positiva?. Si la res-
1 4
puesta es afirmativa hacer la gráfica de la función de densidad del
vector aleatorio x y bosquejar sus curvas de nivel.
Solución.
261
Figura 7.1: Curva de nivel de una normal bivariada
262
2. La matriz ∑ es definida positiva pues sus eigenvalores
son 1.585786437626905 > 0 y 4.414213562373095 > 0.
Por tanto, el vector x tiene como función de densidad:
1 1 ′ −1
f ( x) = √ 1
e− 2 ( x−µ) ∑ ( x−µ)
( 2π ) p |∑| 2
Graficando la función en Matlab, se obtiene la siguien-
te gráfica:
263
Las curvas de nivel para el caso p = 3 vienen descritas
en la siguiente.
264
Si la respuesta es afirmativa bosquejar las curvas de nivel del vec-
tor aleatorio x.
265
Figura 7.3: Curva de nivel de una normal trivariada
266
Capítulo 8
Distribuciones muestrales
1
2. Si x ∼ N p (µ, ∑) y si z = (∑ 2 )−1 ( x − µ), entonces, z ∼
N p (0, I )
267
Teorema 8.1 Sea
x1
x2
x=
..
.
xp
µ1
µ2
µ=
..
.
µp
σ11 σ12 · · · σ1p
σ21 σ22 · · · σ2p
∑ = cov ( x ) =
.. .. .. ..
. . . .
σp1 σ2 · · · σpp
268
Si los datos de la muestra los disponemos en la matriz X, tenemos:
x1′
x2′
x11 x12 · · · x1p
..
. x21 x22 · · · x2p
X= =
xi′
··· ··· ··· ···
..
xn1 xn2 · · · xnp
.
x′n
3.
∑
x ∼ Np µ, (8.1)
n
a)
x1
1 n x2
x = ∑ xi =
..
n i =1
.
xp
269
b)
s11 s12 · · · s1p
s21 s22 · · · s2p
S = (s jk ) =
.. .. .. ..
. . . .
s p1 s2 · · · s pp
donde,
n
1
n − 1 i∑
s jk = ( xij − x j )( xik − xk )
=1
!
n
1
n − 1 i∑
= xij xik − nx j xk
=1
en particular,
n
1
n − 1 i∑
s jj = s2j = ( xij − x j )2
=1
!
n
1
=
n−1 ∑ xij2 − nx j 2
i =1
c)
ρ11 ρ12 · · · ρ1p
ρ21 ρ22 · · · ρ2p
Pρ = (ρ jk ) =
.. .. .. ..
. . . .
ρ p1 ρ2 · · · ρ pp
1 ρ12 · · · ρ1p
ρ21 1 · · · ρ2p
=
.. .. .. ..
. . . .
ρ p1 ρ2 · · · 1
270
donde,
σjk E[( x j − µ x j )( xk − µ xk )]
ρ jk = =q q
σj σk E ( x j − µ x j )2 E ( x k − µ x k )2
d)
r11 r12 · · · r1p
r21 r22 · · · r2p
R = (r jk ) =
.. .. .. ..
. . . .
r p1 r2 · · · r pp
1 r12 · · · r1p
r21 1 · · · r2p
=
.. .. .. ..
. . . .
r p1 r2 · · · 1
donde,
s jk
r jk =
s j sk
271
En particular, si hacemos x = x, y consideramos que x ∼ N p µ, ∑n ,
obtenemos,
−1
n( x − µ)′ ∑ ( x − µ) ∼ χ2p (8.4)
n
W= ∑ (xi − x)(xi − x)′ .
i =1
es decir,
xi ∼ N p µ, ∑ , i = 1, · · · , n
272
Si en la definición anterior, hacemos zi = xi − x, enton-
ces, E(zi ) = 0, y var (zi ) = ∑. Más aún, cada zi ∼ Np (0, ∑).
Por tanto,
n
W = ∑ (xi − x)(xi − x)′
i =1
n
= ∑ zi zi′
i =1
= Z′ Z
donde,
z1′
Z = ...
z′n
Así pues, la matriz W de orden p × p tiene una distribución
Wp (n, ∑) si y solo si,
n
W= ∑ zi zi′ = Z′ Z
i =1
con,
z1′
Z = ...
z′n
y donde, los p vectores aleatorios columna zi ∼ Np (0, ∑).
W1 + W2 ∼ Wp (n1 + n2 , ∑)
273
Teorema 8.3 Sea
x1
x2
x=
..
.
xp
µ1
µ2
µ=
..
.
µp
σ11 σ12 · · · σ1p
σ21 σ22 · · · σ2p
∑ = cov ( x ) =
.. .. .. ..
. . . .
σp1 σ2 · · · σpp
274
Si los datos de la muestra los disponemos en la matriz X, tenemos:
x1′
x2′
x11 x12 · · · x1p
..
. x x22 · · · x2p
21
X= =
xi′
··· ··· ··· ···
..
xn1 xn2 · · · xnp
.
x′n
∑
x ∼ Np µ, , (8.5)
n
y,
(n − 1)S ∼ Wp n − 1, ∑
(8.6)
275
Definición 8.2 Supongamos que z ∼ N p (0, ∑) y W ∼ W p (v, ∑),
con z y W independientes. Decimos que la variable aleatoria uni-
dimensional T 2 tiene una distribución Hotelling con p dimensio-
2 = T 2 ( p, v ) si y solo
nes y v grados de libertad, y escribimos Tp,v
si,
−1
2 ′ W
T =z z
v
Recordar que z es un p vector aleatorio columna y W es una ma-
triz aleatoria de orden p × p.
v− p+1 2
T ( p, v) = Fp,v− p+1
vp
es decir,
vp
T 2 ( p, v) = Fp,v− p+1
v− p+1
2 = t2 , donde t es la distribución t student con
En particular, T1,v v v
v grados de libertad.
276
un vector de p variables aleatorias con media
µ1
µ2
µ = ..
.
µp
277
1. Si n → ∞, entonces,
2.
(n − 1)( x − µ)′ S−1 ( x − µ) ∼ T 2 ( p, n − 1)
con,
n
1
n − 1 i∑
S= ( xi − x)( xi − x)′
=1
o
1 1
S= X′ I− J X
n−1 n
donde, la matriz I es la matriz identidad de orden n × n, y
la matriz J es la matriz de unos de orden n × n.
278
Capítulo 9
Prueba de hipótesis de
medias de vectores
aleatorios
279
del vector de medias con matriz de covarianza conocida.
χ2α = F −1 (1 − α)
RC satisface la propiedad:
P[µ ∈ RC ] = 1 − α
280
Proposición 9.2 Sea 0 < α < 1 y sea x1 , · · · , xn una muestra
aleatoria de un 2 vector columna x ∼ N2 (µ, ∑ ) con µ descono-
h11 h12
cida y ∑ > 0 conocida. Supongamos que H = es
h21 h22
la matrizcuyascolumnas son los eigenvectores de la matriz ∑ y
d1
que d = es el vector de eigenvalores de la matriz ∑.
d2
χ2α = F −1 (1 − α)
P[µ ∈ RC ] = 1 − α
281
Ejemplo 9.1 Representa la región
de
confianza, al nivel del 95 %,
µ1
para el vector de medias µ = en base a los siguientes da-
µ2
tos de las extremidades de diez animales:
Longitud: 65, 46, 53, 57, 71, 49, 58, 68, 54, 53
Anchura: 21.5, 18.5, 20.6, 24.5, 26.3, 17.8, 22.2, 24.9, 21.2,
21.0
2.5 1
Supóngase que la matriz de covarianzas ∑ =
1 2
282
Veamos ahora la región de confianza para el caso p = 3.
P[µ ∈ RC ] = 1 − α
283
aproximadamente una distribución normal N3 (µ, ∑), donde,
29.64 8.59 0.38
∑ = 8.59 3.47 1.22
0.38 1.22 2.04
284
Describa la región de confianza del vector de medias pobla-
cional a un nivel de confianza α = 0.01.
285
Veamos ahora el resultado sobre la prueba de hipótesis
de una media con matriz de covarianza conocida.
286
Si los datos de la muestra los disponemos en la matriz X, tenemos:
x1′
x2′
x11 x12 · · · x1p
..
. x21 x22 · · · x2p
X= =
xi′
··· ··· ··· ···
..
xn1 xn2 · · · xnp
.
x′n
Si Z2 = n( x − µ0 )′ (∑)−1 ( x − µ0 ) es el estadístico de
prueba, y, α ∈ (0 , 1) es un nivel de confianza, con
Entonces,
287
2. Si Z2 ≤ χ2α , entonces, H0 no se rechaza al nivel de confian-
za α
288
Probar el contraste de hipótesis:
H0 : µ = [70, 170]′
Ha : µ ̸= [70, 170]′
289
Ejemplo 9.4 Se ha observado, después de varios estudios en ni-
ños de alrededor dos años de edad, que la estatura x1 , la longi-
tud toráxica x2 y la circunferencia media del antebrazo x3 , tienen
aproximadamente una distribución normal N3 (µ, ∑), donde,
29.64 8.59 0.38
∑ = 8.59 3.47 1.22
0.38 1.22 2.04
290
Probar el contraste de hipótesis:
291
9.2. Prueba de un vector de medias con
matriz de covarianzas desconocida
292
para µ es la frontera y el interior de la elipse con ecuaciones para-
métricas:
s √
( n − 1) p
x d 1 sin θ
= x+ Fα H √
y n(n − p) d2 cos θ
Fα = F −1 (1 − α)
P[µ ∈ RC ] = 1 − α
293
Figura 9.5: Radiación de hornos con puertas cerradas
294
y las observaciones de la radiación emitida a través de puertas
abiertas de n = 42 hornos seleccionados aleatoriamente son los
siguientes:
295
Halle la región de confianza para µ de las raíces cuartas de
los datos de la matriz X formada por dos columnas; la primera son
las radiaciones a puerta cerrada, y la segunda son las radiaciones
a puerta abierta. Use α = 0.05.
296
Veamos ahora la región de confianza para el caso p = 3.
Fα = F −1 (1 − α)
P[µ ∈ RC ] = 1 − α
297
Ejemplo 9.6 El Director de Mercadotecnia de una cadena de ci-
nes desea medir el grado de evocación o recuerdo que tiene el con-
sumidor sobre esta cadena de cines. Este concepto es medido a tra-
vés de tres variables dependientes: Marca, Slogan y Logotipo. Pa-
ra que los potenciales consumidores recuerden la cadena de cines
cuando se utiliza la PRENSA ESCRITA como medio masivo para
la campaña de publicidad en los consumidores los valores medios
de las variables deben ser por lo menos de (7,9,7). Para comprobar
si se logró este objetivo, una vez lanzada la campaña en la PREN-
SA ESCRITA, se tomó una muestra de 7 potenciales clientes y se
les pidió que calificarán su grado de evocación o recuerdo sobre
la cadena de cines en una escala de 0 a 10 puntos donde el 0 nos
indica baja evocación o recuerdo y el 10 alta evocación o recuerdo.
Los resultados son los siguientes: Considere la siguiente muestra
de tamaño n = 7 extraída de una población normal multivariada
donde x1 representa la evocación de la marca , x3 representa la
evocación del Slogan y x3 representa la evocación del logotipo:
4 8 3
6 7 3
5 9 4
X=
5 9 6
5 7 4
6 6 7
7 7 6
H0 : µ = [7, 9, 7]′
Ha : µ ̸= [7, 9, 7]′
298
Solución. Ver la solución en COMPILACIONDEPRUE-
BASDEHIPOTESIS en Matlab. Como T 2 = 68.1672 > 29.6612 =
Fα , entonces, H0 se rechaza al nivel de confianza α = 0.05.
La región de confianza se muestra en la siguiente figura:
299
Teorema 9.2 (Prueba de un vector de medias con matriz de
covarianzas desconocida). Sea
x1
x2
x=
..
.
xp
300
Si los datos de la muestra los disponemos en la matriz X, tenemos:
x1′
x2′
x11 x12 · · · x1p
..
. x21 x22 · · · x2p
X= =
xi′
··· ··· ··· ···
..
xn1 xn2 · · · xnp
.
x′n
donde,
n
1
n − 1 i∑
s jk = ( xij − x j )( xik − xk )
=1
!
n
1
n − 1 i∑
= xij xik − nx j xk
=1
301
en particular,
n
1
n − 1 i∑
s jj = s2j = ( xij − x j )2
=1
!
n
1
=
n−1 ∑ xij2 − nx j 2
i =1
o bién,
n
1 1 1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′ =
n−1
X′ I− J
n
X
H0 : µ = µ0
Ha : µ ̸ = µ 0
Entonces,
302
( n −1) p
3. Si T 2 ≤ (n− p) Fα , entonces, H0 no se rechaza al nivel de
confianza α
303
y las observaciones de la radiación emitida a través de puertas
abiertas de n = 42 hornos seleccionados aleatoriamente son los
siguientes:
304
Halle la región de confianza para µ de las raíces cuartas de
los datos de la matriz X formada por dos columnas; la primera son
las radiaciones a puerta cerrada, y la segunda son las radiaciones
a puerta abierta. Pruebe la docemasia de hipótesis:
H0 : µ = µ0
Ha : µ ̸ = µ 0
0.562
donde µ0 = . Use α = 0.05.
0.589
305
Ejemplo 9.8 El Director de Mercadotecnia de una cadena de ci-
nes desea medir el grado de evocación o recuerdo que tiene el con-
sumidor sobre esta cadena de cines. Este concepto es medido a tra-
vés de tres variables dependientes: Marca, Slogan y Logotipo. Pa-
ra que los potenciales consumidores recuerden la cadena de cines
cuando se utiliza la PRENSA ESCRITA como medio masivo para
la campaña de publicidad en los consumidores los valores medios
de las variables deben ser por lo menos de (7,9,7). Para comprobar
si se logró este objetivo, una vez lanzada la campaña en la PREN-
SA ESCRITA, se tomó una muestra de 7 potenciales clientes y se
les pidió que calificarán su grado de evocación o recuerdo sobre
la cadena de cines en una escala de 0 a 10 puntos donde el 0 nos
indica baja evocación o recuerdo y el 10 alta evocación o recuerdo.
Los resultados son los siguientes: Considere la siguiente muestra
de tamaño n = 7 extraída de una población normal multivariada
donde x1 representa la evocación de la marca , x3 representa la
evocación del Slogan y x3 representa la evocación del logotipo:
4 8 3
6 7 3
5 9 4
X=
5 9 6
5 7 4
6 6 7
7 7 6
H0 : µ = [7, 9, 7]′
Ha : µ ̸= [7, 9, 7]′
306
Solución. Ver la solución en COMPILACIONDEPRUE-
BASDEHIPOTESIS en Matlab. Como T 2 = 68.1672 > 29.6612 =
Fα , entonces, H0 se rechaza al nivel de confianza α = 0.05.
La región de confianza se muestra en la siguiente figura:
307
Ejemplo 9.9 Se analizó la transpiración de 20 mujeres sanas.
Tres componentes se midieron, x1 = tasa de sudoración, x2 = con-
tenido de sodio y x3 = contenido de potasio. Los resultados, que
llamamos datos de sudor, se presentan en la siguiente tabla:
308
Probar el contraste de hipótesis:
309
9.3. Intervalos de confianza de Bonfe-
rroni para ai′ µ
310
Como una consecuencia práctica tenemos el siguiente
resultado sobre el intervalo de confianza de cada una de las
medias µi , con una confianza de almenos 100(1 − α) % (se
aumenta la confianza). Más aún este tipo de intervalos re-
duce la probabilidad de cometer un error tipo I, es decir,
rechazar una hípótesis nula cuando esta es verdadera; en
nuestro caso se reduce la probabilidad de que alguna me-
dia µi no esté en el intervalo indicado. Esto nos indica que
los intervalos de confianza tienen más estabilidad o que las
pruebas tienen más estabilidad. Este tipo de intervalos se
les conoce como intervalos simultáneos de Bonferroni.
311
Ejemplo 9.10 LIBRO JAVIER MECH PÁGINA 369. El Direc-
tor de Mercadotecnia de una cadena de cines desea medir el grado
de evocación o recuerdo que tiene el consumidor sobre esta cade-
na de cines. Este concepto es medido a través de tres variables
dependientes: Marca, Slogan y Logotipo. Para que los potencia-
les consumidores recuerden la cadena de cines cuando se utiliza
la PRENSA ESCRITA como medio masivo para la campaña de
publicidad en los consumidores los valores medios de las variables
deben ser por lo menos de (7, 9, 7). Para comprobar si se logró este
objetivo, una vez lanzada la campaña en la PRENSA ESCRITA,
se tomó una muestra de 7 potenciales clientes y se les pidió que
calificarán su grado de evocación o recuerdo sobre la cadena de
cines en una escala de 0 a 10 puntos donde el 0 nos indica baja
evocación o recuerdo y el 10 alta evocación o recuerdo. Conside-
re la siguiente muestra de tamaño n=7 extraída de una población
normal multivariada donde X1 = Evocación de la marca , X2 =
Evocación del Slogan y X3 = Evocación del logotipo:
4 8 3
6 7 3
5 9 4
X=
5 9 6
5 7 4
6 6 7
7 7 6
312
aislada y verifique si existen diferencias significativas entre
las medias muestrales y las hipotéticas e interprete.
Solución.
4.2160 6.6412
6.1625 8.9803
2.7218 6.7068
313
9.4. Análisis de perfiles de una mues-
tra
314
tos se comparan con respecto a una sola variable de respues-
ta. Cada tema o unidad experimental recibe cada tratamien-
to una vez en periodos de tiempo sucesivos. Más precisa-
mente hablando, si x ∼ Np (µ, ∑) y las variables en x son
medidas en la misma escala con aproximadamente la mis-
ma varianza, entonces, a veces es necesario (por ejemplo en
test de Psicología) comparar las medias µ1 , µ2 , · · · , µ p de µ
de cada variable de x. Conectaremos los puntos,
(1, µ1 ), (2, µ2 ), · · · , ( p, µ p )
315
Una hipótesis básica es analizar si las medias tienen el
mismo nivel o planitud, es decir, si la hipótesis nula
H0 : µ1 = µ2 = · · · = µ p
Ha : µi ̸= µ j , para alguna i ̸= j
Sea,
−1 1 0 ··· 0 0
0 −1 1 ··· 0 0
C=
.. .. .. .. ..
. . . . .
0 0 0 ··· −1 1
H0 : Cµ = 0
316
equivalente a la igualdad de matrices:
µ2 − µ1 0
µ3 − µ2 0
=
.. ..
. .
µ p − µ p −1 0
equivalente a:
H0 : µ1 = µ2 = · · · = µ p
Supongamos el contraste de hipótesis:
H0 : Cµ = 0
Ha : Cµ ̸= 0
317
y,
n
1 1 1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′ =
n−1
X′ I− J
n
X
Ejemplo 9.11 Ver el ejemplo del calcio página 84 del libro Al-
vin Multivariable estadística inferencial. Los datos fueron obteni-
dos de la tabla 3.3 del libro Alvin Métodos multivariable segunda
edición página 56
318
1. T 2 tiene una distribución Tk,n
2
−1 si H0 es verdadero
y,
n
1 1 1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′ =
n−1
X′ I− J
n
X
319
En base al teorema precedente, tenemos los siguientes
casos particulares de regiones de confianza.
y,
n
1 1 1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′ =
n−1
X′ I− J
n
X
320
Corolario 9.3 (Región de confianza de perfiles de una mues-
tra en 3D). Sea x11 , · · · , x1n una muestra normal de un vector
x, es decir, x ∼ Np (µ, ∑), y supongamos que las variables del
vector x tienen las mismas unidades (mismas escalas). Sea, C una
matriz constante (matriz contraste) de orden 3 × p.
y,
n
1 1 1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′ =
n−1
X′ I− J
n
X
321
Ejemplo 9.12 Ver el ejemplo del calcio página 84 del libro Al-
vin Multivariable estadística inferencial. Los datos fueron obteni-
dos de la tabla 3.3 del libro Alvin Métodos multivariable segunda
edición página 56
322
9.5. Pruebas de diferencia de medias de
dos muestras con varianzas desco-
nocidas iguales
n2
X2i
X2 = ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
323
Veamos ahora la región de confianza de µ1 − µ2 para el
caso de dos dimensiones.
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
Fα = F −1 (1 − α)
P[µ ∈ RC ] = 1 − α
324
Ejemplo 9.14 EJEMPLO 5.4.2 DEL LIBRO METHODS OF
MULTIVARIATE ANALYSIS Third Edition ALVIN PÁGINA
137.
Ejemplo 9.16 Ver el ejemplo 6.3 del libro Richard quinta edi-
ción página 286. También ver la compilación de este problema en
el programa COMPILACIONDEPRUEBASDEHIPÓTESIS de
matlab.
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
325
La región RC de confianza de 100(1 − α) % de confianza para
µ1 − µ2 es la frontera y el interior del elipsoide con ecuaciones
paramétricas:
x
y =
z
√
d sin sin
s
1 θ 1 θ 2
(n1 + n2 ) p(n1 + n2 − 2) Fα √
x1 − x2 + H √d2 sin θ1 cos θ2
n1 n2 ( n1 + n2 − p − 1)
d3 cos θ1
P[µ ∈ RC ] = 1 − α
H0 : µ1 − µ2 = δ0
Ha : µ1 − µ2 ̸= δ0
326
Sea T 2 = nn11+nn22 ( X1 − X2 − δ0 )′ S− 1
pl ( X1 − X2 − δ0 ) el estadís-
tico de prueba, y, α ∈ (0 , 1) es un nivel de confianza, con
Entonces,
p ( n + n −2)
2. Si T 2 > (n +1n −2p−1) Fα , entonces, H0 se rechaza al nivel de
1 2
confianza α
p ( n + n −2)
3. Si T 2 ≤ (n +1n −2p−1) Fα , entonces, H0 no se rechaza al nivel
1 2
de confianza α
n2
X2i
X2 = ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
327
Corolario 9.4 (Igualdad de medias con varianzas descono-
cidas iguales). Sean X11 , · · · , X1n1 y X21 , · · · , X2n2 dos mues-
tras normales independientes con X1 ∼ Np (µ1 , ∑1 ) y X2 ∼ Np (µ2 , ∑2 ).
Supongamos que ∑1 = ∑2 = ∑ es desconocida. Consideremos el
contraste de hipótesis:
H0 : µ1 − µ2 = 0
Ha : µ 1 − µ 2 ̸ = 0
equivalente al contraste:
H0 : µ1 = µ2
Ha : µ 1 ̸ = µ 2
Sea T 2 = nn11+nn22 ( X1 − X2 )′ S− 1
pl ( X1 − X2 ) el estadístico de prue-
ba, y, α ∈ (0 , 1) es un nivel de confianza, con
Entonces,
p ( n + n −2)
2. Si T 2 > (n +1n −2p−1) Fα , entonces, H0 se rechaza al nivel de
1 2
confianza α
p ( n + n −2)
3. Si T 2 ≤ (n +1n −2p−1) Fα , entonces, H0 no se rechaza al nivel
1 2
de confianza α
328
F de Fisher con p grados de libertad en el numerador, y n1 + n2 −
p − 1 grados de libertad en el denominador, y donde,
n1
X1i
X1 = ∑ n
i =1 1
n2
X2i
X2 = ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
Ejemplo 9.19 Con los datos de la tabla 5.5 DEL LIBRO METHODS
OF MULTIVARIATE ANALYSIS Third Edition ALVIN página
162, pruebe el contraste de hipótesis H0 : µ1 − µ2 = 0 contra la
hipótesis Ha : µ1 − µ2 ̸= 0
329
9.6. Prueba de hipótesis de combinacio-
nes lineales de diferencia de dos
medias
donde
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
s
p ( n1 + n2 − 2)
c= Fα
n1 + n2 − p − 1
con Fα = F −1 (1 − α); siendo, F −1 la función acumulativa in-
versa de la distribución F de Fisher con p grados de libertad en el
numerador y n1 + n2 − p − 1 grados de libertad en el denomina-
dor.
330
En particular, un intervalo de 100(1 − α) % de confianza
para cada diferencia medias µ1i − µ2i , i = 1, 2, · · · , p es:
s
1 1
X1i − X2i ± c + S pl,ii
n1 n2
331
Teorema 9.6 (Prueba de hipótesis de una combinación li-
neal de diferencia de medias). Supongamos que X11 , · · · , X1n1
y X21 , · · · , X2n2 son dos muestras normales independientes con
X1 ∼ Np (µ1 , ∑1 ) y X2 ∼ Np (µ2 , ∑2 ). Asumamos que ∑1 =
∑2 = ∑ es desconocida y que además a es un p vector colum-
na arbitrario de valores contantes . Consideremos el contraste de
hipótesis:
H0 : a′ (µ1 − µ2 ) = a′ δ0
Ha : a′ (µ1 − µ2 ) ̸= a′ δ0
donde δ0 es un p vector columna arbitrario de valores contantes .
Sea
a′ ( X1 − X2 − δ0 )
T 2 = r
1 1
n1 + n2 S pl
p ( n + n −2)
2. Si | T 2 | > (n +1n −2p−1) Fα , entonces, H0 se rechaza al nivel
1 2
de confianza α
p ( n + n −2)
3. Si | T 2 | ≤ (n +1n −2p−1) Fα , entonces, H0 no se rechaza al
1 2
nivel de confianza α
332
en el numerador, y n1 + n2 − p − 1 grados de libertad en el deno-
minador, y donde,
n1
X1i
X1 = ∑
n
i =1 1
n2
X2i
X2 = ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
333
Corolario 9.5 (Prueba de igualdad de dos medias de un vec-
tor de medias). Supongamos que X11 , · · · , X1n1 y X21 , · · · , X2n2
son dos muestras normales independientes con X1 ∼ Np (µ1 , ∑1 )
y X2 ∼ Np (µ2 , ∑2 ). Asumamos que ∑1 = ∑2 = ∑ es descono-
cida. Para i = 1, 2, · · · p consideremos el contraste de hipótesis:
H0 : µ1i − µ2i = 0
Ha : µ1i − µ2i ̸= 0
Sea
X 1i − X 2i
T 2 = r
1 1
n1 + n2 S pl,ii
Entonces,
p ( n + n −2)
2. Si | T 2 | > (n +1n −2p−1) Fα , entonces, H0 se rechaza al nivel
1 2
de confianza α
p ( n + n −2)
3. Si | T 2 | ≤ (n +1n −2p−1) Fα , entonces, H0 no se rechaza al
1 2
nivel de confianza α
334
en el numerador, y n1 + n2 − p − 1 grados de libertad en el deno-
minador, donde,
n1
X1i
X1 = ∑
n
i =1 1
n2
X2i
X2 = ∑ n
i =1 2
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
y donde S pl,ii es el i-ésimo elemento de la diagonal principal de la
matriz S pl .
335
Ejemplo 9.21 Con los datos de la tabla 5.5 DEL LIBRO METHODS
OF MULTIVARIATE ANALYSIS Third Edition ALVIN página
162. Halle los intervalos de confianza simultáneos de la combina-
ción lineal de medias de la diferencia de medias de las dos mues-
tras. El programa se llama
Ejemplo 9.22 Ejemplo. Con los datos de la tabla 5.5 DEL LI-
BRO METHODS OF MULTIVARIATE ANALYSIS Third Edi-
tion ALVIN página 162, pruebe el contraste de hipótesis H0 :
µ1i − µ2i = 0 contra Ha : µ1i − µ2i ̸= 0 para todo i = 1, 2, · · · , p
336
También existen los intervalos de confianza simultá-
neos de Bonferroni para estimar la diferencia de medias de
cada componente de la diferencia de dos vectores.
" s #
1 1
P X1i − X2i ± t 2pα + S pl,ii = 1 − α
n1 n2
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
t 2pα = F −1 (1 − 2p
α
), es la función inversa acumulativa de la dis-
tribución t con n1 + n2 − 2 grados de libertad
Ejemplo 9.23 Ver el ejemplo 6.1 del libro Richard página 275.
También ver su solución en compilación de prueba de hipótesis.
337
9.7. Prueba de la diferencia de dos vec-
tores de medias con covarianzas des-
conocidas y distintas
338
el conjunto {δ ∈ R p } que satisfacen la desigualdad:
−1
′ 1 1
[ x − y − δ] S1 + S2 [ x − y − δ] < χ2p (α)
n1 n2
H0 : µ x − µy = δ
Ha : µ x − µ y ̸ = δ
Si el estadístico de prueba
−1
2 ′ 1 1
χ = [ x − y − δ] S1 + S2 [ x − y − δ] > χ2p (α)
n1 n2
entonces, H0 se rechaza al nivel α; en caso contrario no se
rechaza, donde χ2p (α) = F −1 (1 − α), siendo F −1 la función
acumulativa inversa de la distribución χ2 con p grados de
libertad.
H0 : µ x = µy
Ha : µ x ̸ = µ y
339
Si el estadístico de prueba
−1
2 ′ 1 1
χ = [ x − y] S1 + S2 [ x − y] > χ2p (α)
n1 n2
340
Corolario 9.6 (Región de confianza para la diferencia de me-
dias de dos vectores con matrices de covarianzas supuestas
desconocidas y distintas, caso 2D).
341
h
1 1
i d1
eigenvectores de la matriz n1 S1
+ n2 S2
y, d =
d2
es el
h i
1 1
vector de eigenvalores de la matriz n1 S1 + n2 S2 .
342
Corolario 9.7 (Región de confianza para la diferencia de me-
dias de dos vectores con matrices de covarianzas supuestas
desconocidas y distintas, caso 3D).
343
h i
yas columnas son los eigenvectores de la matriz n11 S1 + n12 S2 y,
d1 h i
d = d2 es el vector de eigenvalores de la matriz n11 S1 + n12 S2 .
d3
Ejemplo 9.24 Ver el ejemplo 6.5 página 292 del libro Richard.
Los datos fueron seleccionados de la página 288 del ejemplo 6.4
del mismo libro.
344
9.8. Prueba de observaciones pareadas
345
o sea
X (i, 1) − Y (i, 1)
X (i, 2) − Y (i, 2)
Di = [ X (i, :) − Y (i, :)]′ =
···
X (i, p) − Y (i, p)
Supongamos que D1 , D2 , · · · , D n son vectores independientes y
cada Di ∼ Np (µd , ∑d ), donde, µd = µ x − µy (Para el caso en
que n − p es largo no necesitamos suponer la normalidad). Si de-
finimos
1 n
D = ∑ Di = x − y
n i =1
n
1
Sd = ∑
n − 1 i =1
( Di − D )( Di − D )′
y,
T 2 = n( D − µd )′ Sd−1 ( D − µd )
Entonces
( n −1) p
1. T 2 tiene una distribución F
(n− p) p,n− p
346
Proposición 9.11 (Región confianza de observaciones pa-
readas). Supongamos que x = [ x1 , x2 , · · · , x p ] y y = [y1 , y2 , · · · , y p ]
son dos vectores de p variables aleatorias y que tenemos una mues-
tra de tamaño n del vector x y del vector y. La muestra del vector
x y del vector y se describen en las siguientes matrices y no tienen
que ser independientes necesariamente:
x11 x12 · · · x1p
x21 x22 · · · x2p
X= ··· ··· ··· ···
o sea
X (i, 1) − Y (i, 1)
X (i, 2) − Y (i, 2)
Di = [ X (i, :) − Y (i, :)]′ =
···
X (i, p) − Y (i, p)
Supongamos que D1 , D2 , · · · , D n son vectores independientes y
cada Di ∼ Np (µd , ∑d ), donde, µd = µ x − µy (Para el caso en
que n − p es largo no necesitamos suponer la normalidad). Si de-
finimos
1 n
D = ∑ Di = x − y
n i =1
347
n
1
n − 1 i∑
Sd = ( Di − D )( Di − D )′
=1
Entonces, si 0 < α < 1 entonces la región de 100(1 − α) % de
confianza para µd es el conjunto:
( n − 1 ) p −1
p ′ −1
µ d ∈ R : ( D − µ d ) Sd ( D − µ d ) ≤ F (1 − α )
n(n − p)
348
Corolario 9.8 (Región confianza de observaciones pareadas
en dos dimensiones). Supongamos que x = [ x1 , x2 ] y y =
[y1 , y2 ] son dos vectores de 2 variables aleatorias y que tenemos
una muestra de tamaño n del vector x y del vector y. La muestra
del vector x y del vector y se describen en las siguientes matrices
y no tienen que ser independientes necesariamente:
x11 x12
x21 x22
X= ··· ···
xn1 xn2
y11 y12
y21 y22
Y= ··· ···
yn1 yn2
Para cada i = 1, 2, · · · , n, definamos Di′ como el vector de la i-
ésima fila de X menos la i-ésima fila de Y, es decir,
Di′ = X (i, :) − Y (i, :)
o sea
′ X (i, 1) − Y (i, 1)
Di = [ X (i, :) − Y (i, :)] =
X (i, 2) − Y (i, 2)
Supongamos que D1 , D2 , · · · , D n son vectores independientes y
cada Di ∼ N2 (µd , ∑d ), donde, µd = µ x − µy (Para el caso en
que n − 2 es largo no necesitamos suponer la normalidad). Si de-
finimos
1 n
D = ∑ Di = x − y
n i =1
n
1
n − 1 i∑
Sd = ( Di − D )( Di − D )′
=1
349
Entonces, si 0 < α < 1 entonces la región de 100(1 − α) % de
confianza para µd es el conjunto con coordenadas paramétricas:
s √
2 ( n − 1 ) −1
x √ d1 sin θ
= D+ F (1 − α ) H
y n ( n − 2) d2 cos θ
350
Corolario 9.9 (Región confianza de observaciones pareadas
en tres dimensiones). Supongamos que x = [ x1 , x2 , x3 ] y y =
[y1 , y2 , y3 ] son dos vectores de 3 variables aleatorias y que tenemos
una muestra de tamaño n del vector x y del vector y. La muestra
del vector x y del vector y se describen en las siguientes matrices
y no tienen que ser independientes necesariamente:
x11 x12 x13
x21 x22 x23
X= ··· ··· ···
o sea
X (i, 1) − Y (i, 1)
Di = [ X (i, :) − Y (i, :)]′ = X (i, 2) − Y (i, 2)
X (i, 3) − Y (i, 3)
351
n
1
n − 1 i∑
Sd = ( Di − D )( Di − D )′
=1
Entonces, si 0 < α < 1 entonces la región de 100(1 − α) % de
confianza para µd es el conjunto con coordenadas paramétricas:
√
x √ √ d 1 sin θ 1 sin θ 2
y = D + F0H d2 sin θ1 cos θ2
√
z d3 cos θ1
3( n −1) −1
0 ≤ θ1 ≤ π, 0 ≤ θ2 ≤ 2π, donde F0 = n ( n −3)
− α ),
F (1
F −1 es la función acumulativa inversa de la distribución F de
Fisher con 3 grados de libertad en el numerador
y n − 3 gra-
h11 h12 h13
dos en el denominador, y, donde, H = h21 h22 h23 es
h31 h32 h33
la matriz
cuyas columnas son los eigenvectores de la matriz Sd y,
d1
d = d2 es el vector de eigenvalores de la matriz Sd .
d3
352
Proposición 9.12 (Intervalos simultáneos para la diferen-
cia de medias pareadas). Supongamos que x = [ x1 , x2 , · · · , x p ]
y y = [y1 , y2 , · · · , y p ] son dos vectores de p variables aleatorias y
que tenemos una muestra de tamaño n del vector x y del vector y.
La muestra del vector x y del vector y se describen en las siguien-
tes matrices y no tienen que ser independientes necesariamente:
x11 x12 · · · x1p
x21 x22 · · · x2p
X= ··· ··· ··· ···
o sea
X (i, 1) − Y (i, 1)
X (i, 2) − Y (i, 2)
Di = [ X (i, :) − Y (i, :)]′ =
···
X (i, p) − Y (i, p)
Supongamos que D1 , D2 , · · · , D n son vectores independientes y
cada Di ∼ Np (µd , ∑d ), donde, µd = µ x − µy (Para el caso en
que n − p es largo no necesitamos suponer la normalidad). Si de-
finimos
1 n
D = ∑ Di = x − y
n i =1
353
n
1
n − 1 i∑
Sd = ( Di − D )( Di − D )′
=1
Entonces, para 0 < α < 1, y para cada i = 1, 2, · · · , p, los
intervalos simultáneos de 100(1 − α) % de confianza para la di-
ferencia de medias µ xi − µyi de cada componente de la matriz Di ,
son respectivamente:
s r
( n − 1 ) p −1 Sdi
Di ± F (1 − α )
(n − p) n
354
Proposición 9.13 (Intervalos simultáneos de Bonferroni pa-
ra la diferencia de medias pareadas). Supongamos que x =
[ x1 , x2 , · · · , x p ] y y = [y1 , y2 , · · · , y p ] son dos vectores de p
variables aleatorias y que tenemos una muestra de tamaño n del
vector x y del vector y. La muestra del vector x y del vector y se
describen en las siguientes matrices y no tienen que ser indepen-
dientes necesariamente:
x11 x12 · · · x1p
x21 x22 · · · x2p
X= ··· ··· ··· ···
355
n
1
n − 1 i∑
Sd = ( Di − D )( Di − D )′
=1
Entonces, para 0 < α < 1, y para cada i = 1, 2, · · · , p, los in-
tervalos simultáneos de almenos 100(1 − α) % de confianza para
la diferencia de medias µ xi − µyi de cada componente de la matriz
Di , son respectivamente:
r
α Sdi
Di ± t − 1 1 −
2p n
Ejemplo 9.25 Ver el ejemplo 6.1 página 275 del libro Richard y
el resultado en compilación prueba de hipótesis.
356
9.9. Análisis de perfiles de dos mues-
tras
y,
y1i ∼ Np µy , ∑
Sea,
−1 1 0 ··· 0 0
0 −1 1 ··· 0 0
C=
.. .. .. .. ..
. . . . .
0 0 0 ··· −1 1
357
la matriz de contraste de orden ( p − 1) × p, y consideremos la
hipótesis nula del paralelismo:
H01 : Cµ x = Cµy
H01 : Cµ x = Cµy
Ha01 : Cµ x ̸= Cµy
Entonces,
358
libertad en el numerador, y, n1 + n2 − 2 grados de libertad en el
denominador, y donde,
n1
x1i
x= ∑ n
i =1 1
n2
y1i
y= ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
359
El segundo perfil está basado en la siguiente pregunta,
¿ son las dos poblaciones o grupos del mismo nivel?. Es-
ta pregunta es equivalente a preguntar si la hipótesis nula
siguiente no se rechaza:
equivalente a:
equivalente a:
H02 : 1′ µ x = 1′ µy
x1i ∼ Np µ x , ∑
y,
y1i ∼ Np µy , ∑
Sea,
1
1
1=
..
.
1
360
la matriz de contraste de orden p × 1, y consideremos el contraste
de hipótesis de los perfiles de coincidencia:
H02 : 1′ µ x = 1′ µy
Ha02 : 1′ µ x ̸= 1′ µy
1′ ( x − y )
Sea t = r el estadístico de prueba, y, α ∈ (0 , 1) un
n
1
+ n
1
1′ S pl 1
1 2
nivel de confianza, con
α = P[error tipo I] = P[Rechazar H02 | H02 es verdadero]
Entonces,
361
La tercera prueba de interés, correspondiente al efecto
principal de la prueba (o variable), es, ¿los perfiles son pla-
nos?, es decir, ¿el promedio de las medias de los dos gru-
pos es el mismo para cada prueba?. Esta última pregunta
es equivalente a preguntar si la hipótesis siguiente no se re-
chaza:
1 1 1
H03 : (µ x1 + µy1 ) = (µ x2 + µy2 ) = · · · = (µ xp + µyp )
2 2 2
equivalente a:
1
H03 : C (µ x + µy ) = 0
2
H03 : C (µ x + µy ) = 0
equivalente a:
H03 : Cµ x = 0, Cµy = 0
es decir,
362
Teorema 9.12 (Prueba de planitud).
x1i ∼ Np µ x , ∑
y,
y1i ∼ Np µy , ∑
Sea,
−1 1 0 ··· 0 0
0 −1 1 ··· 0 0
C=
.. .. .. .. ..
. . . . .
0 0 0 ··· −1 1
la matriz de contraste de orden ( p − 1) × p, y consideremos el
contraste de hipótesis de planitud:
1
H03 : 2 C (µ x + µy ) = 0
1
Ha03 : 2 C (µ x + µy ) ̸= 0
Entonces,
363
2. Si T 2 > Tα , entonces, H03 se rechaza al nivel de confianza
α
n2
y1i
y= ∑ n
i =1 2
n1 x + n2 y
z= , la grán media
n1 + n2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
364
9.10. Bibliografía
1. ALVIN RENCHER INFERENCIAL:
https://drive.google.com/file/d/1KKAj-5bdhCFdp4weYrwgVj
view?usp=sharing
3. HUMBERTO PULIDO:
https://drive.google.com/file/d/1xHXExqwP1zETDAFHzvsv22
kJZMXke/view?usp=sharing
4. LUIS GUILLERMO:
https://drive.google.com/file/d/1YTvUUXGViK_nSANQn2X9IL
5yC/view?usp=sharing
5. RICHARD:
https://drive.google.com/file/d/1y65BRqXx6ePm7ugvJ1-
8PViAFo-htg9M/view?usp=sharing
6. SOLUCIONARIO RICHARD:
7. https://drive.google.com/file/d/144UiL3GToh2NJmUWClLr-
CD0KCjoxhlt/view?usp=sharing
8. ANDERSON:
https://drive.google.com/file/d/1xB5boLc0Qv9EKFW7doWSoU
xY6/view?usp=sharing
365
9. CÓRDOVA:
https://drive.google.com/file/d/1t-6XvRfosvYUQL_
WBy1R3vX4kJvNh5jy/view?usp=sharing
10. MENDENHALL:
https://drive.google.com/file/d/100g_kwGCpNX3Uf0YWBcBDo-
GU_EOrAAl/view?usp=sharing
11. MONTGOMERY 2:
https://drive.google.com/file/d/1_TIt8v3H1vu47yUjwEHnkgm
view?usp=sharing
12. MONTGOMERY:
https://drive.google.com/file/d/1ZmAgnDetmOYGubsA958z5Ya
view?usp=sharing
15. Minitab.
https://drive.google.com/drive/folders/1-FfqJYZ8t4dFYm3W
Z-Rho3qle-?usp=sharing
366
17. Corder. Estadística no parámetrica:
https://drive.google.com/file/d/1mW22eSfJU5_g0GJnlKDwl-
ZzRaAOWHh5/view?usp=sharing
18. Gibbson. Estadística no paramétrica inferencial:
https://drive.google.com/file/d/1objElNy6tLV3zzki-
TLj-vwCiLrjnd3-/view?usp=sharing
19. Ejercicios de aplicaciones de pruebas de hipótesis:
https://drive.google.com/file/d/1Rrl8CtuHDeDXi9XhDj8tyG
view?usp=sharing
20. Larry. Estadística no parámetrica:
https://drive.google.com/file/d/1PgUUAwNFROuRJK6ipNFczk
view?usp=sharing
21. Estadística no paramétrica, teoría y métodos:
https://drive.google.com/file/d/1VoPsJp7beeMjiPao3xyHTo
view?usp=sharing
22. Handbook de Estadística no paramétrica:
https://drive.google.com/file/d/10sDR8w-yx_p7i_
s5VanKFMg6_y6Paex6/view?usp=sharing
23. K. krishnamoorthy. Handbook de distribuciones está-
disticas con aplicaciones:
https://drive.google.com/file/d/1JtSyAMn1KEHuhyiVpSGcdR
view?usp=sharing
24. Evans. Estadística no paramétrica:
https://drive.google.com/file/d/1DQLsUaX63pxdRhqyTOy2lk
view?usp=sharing
367
25. Exploración de datos con matlab:
https://drive.google.com/file/d/1_HuIR4nXkfz63ZXam6qBqNd
view?usp=sharing
26. Fisz. Teoría de Probabilidad:
https://drive.google.com/file/d/1FDkOLtILmX9ZqIFmA_
E4RtuYLn3wPEL1/view?usp=sharing
27. Eduardo Gutiérrez. Estadística inferencial:
https://drive.google.com/file/d/1gDwxol2PzapkVZeuvRE6knp
2/view?usp=sharing
368