Está en la página 1de 378

MANUAL DE DISEÑO DE

EXPERIMENTOS Y
ANÁLISIS DE DATOS
BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA
FACULTAD DE INGENIERÍA QUÍMICA

JOSÉ LUCIO PALACIOS ARIAS

SEPTIEMBRE 2022
Índice general

1. Distribuciones discretas básicas 1

1.1. Distribución de Bernoulli . . . . . . . . . . . . 1

1.2. Distribución Binomial . . . . . . . . . . . . . 5

1.3. Distribución Geométrica . . . . . . . . . . . . 8

1.4. Distribución Binomial negativa o de Pascal . 11

1.5. Distribución de Poisson . . . . . . . . . . . . 15

2. Distribuciones continuas básicas 21

2.1. Distribución Uniforme . . . . . . . . . . . . . 22

2.2. Distribución Normal . . . . . . . . . . . . . . 23

2.3. Propiedades de la distribución normal . . . . 25

2.4. Videos sobre la distribución normal . . . . . 31

I
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . 32

2.6. Disribuciones muestrales . . . . . . . . . . . . 33

2.6.1. Distribución Gamma . . . . . . . . . . 34

2.6.2. Distribución exponencial . . . . . . . 37

2.6.3. Distribución Chi-cuadrado . . . . . . 42

2.7. Distribución t-student . . . . . . . . . . . . . 45

2.8. Distribución F de Fisher . . . . . . . . . . . . 48

2.9. Distribución lognormal . . . . . . . . . . . . . 51

2.10. Distribución de Weibull . . . . . . . . . . . . 57

2.11. Distribución logística . . . . . . . . . . . . . . 63

2.12. Distribuciones de valores extremos . . . . . . 66

2.12.1. Distribución de Gumbel para valores


máximos . . . . . . . . . . . . . . . . . 68

2.12.2. Distribución de Gumbel para valores


mínimos . . . . . . . . . . . . . . . . . 72

2.13. Distribución de Pareto . . . . . . . . . . . . . 77

2.13.1. Distribución de Pareto clásica . . . . . 77

2.13.2. Distribución de Pareto generalizada . 78

3. Teorema del Límite central 81

II
3.1. Aproximaciones a la distribución normal . . 85

3.1.1. Aproximación de la binomial a la nor-


mal . . . . . . . . . . . . . . . . . . . . 86

3.1.2. Aproximación de la Poisson a la normal 86

3.1.3. Distribución muestral de una propor-


ción . . . . . . . . . . . . . . . . . . . . 87
nS2 X −µ
3.1.4. Distribución muestral de σ2
y √S
. 88
n

3.1.5. Distribución muestral de la diferencia


de dos medias con varianzas pobla-
cionales conocidas . . . . . . . . . . . 90

3.1.6. Distribución muestral de la diferencia


de dos medias con varianzas pobla-
cionales desconocidas . . . . . . . . . 91

3.1.7. Distribución muestral de la diferencia


de dos proporciones . . . . . . . . . . 92

S12
3.1.8. Distribución muestral de la razón S22
. 94

4. ESTIMACION PUNTUAL DE PARAMETROS 97

4.1. Estimador insesgado . . . . . . . . . . . . . . 99

4.2. Estimador eficiente . . . . . . . . . . . . . . . 100

4.3. Estimador de máxima verosimilitud . . . . . 102

III
5. Intervalos de confianza 105

5.1. Intervalos de confianza para la media con va-


rianza conocida . . . . . . . . . . . . . . . . . 107

5.1.1. Selección del tamaño de la muestra . 107

5.2. Intervalos de confianza para la media con va-


rianza desconocida . . . . . . . . . . . . . . . 112

5.2.1. Selección del tamaño de la muestra . 113

5.3. Intervalos de confianza para la diferencia de


medias con varianzas conocidas . . . . . . . . 116

5.3.1. Selección del tamaño de la muestra . 118

5.4. Intervalos de confianza para la diferencia de


medias con varianzas desconocidas pero igua-
les . . . . . . . . . . . . . . . . . . . . . . . . . 122

5.5. Intervalos de confianza para la diferencia de


medias con varianzas desconocidas distintas 126

5.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . 130

5.7. Intervalos de confianza para una proporción 131

5.7.1. Selección del tamaño de la muestra . 132

5.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . 136

5.9. Intervalos de confianza para la diferencia de


proporciones . . . . . . . . . . . . . . . . . . . 136

IV
5.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . 140

5.11. Intervalos de confianza de una varianza . . . 140

5.12. Ejercicios . . . . . . . . . . . . . . . . . . . . . 145

5.13. Intervalo de confianza de un cociciente de va-


rianzas . . . . . . . . . . . . . . . . . . . . . . 145

5.14. Ejercicios . . . . . . . . . . . . . . . . . . . . . 151

6. Prueba de hipótesis 153

6.1. Hipótesis estadísticas . . . . . . . . . . . . . . 154

6.1.1. Procedimiento de la prueba de hipótesis160

6.2. Prueba de una media . . . . . . . . . . . . . . 161

6.3. Prueba de diferencia de medias . . . . . . . . 164

6.4. Prueba de hipótesis para la diferencia de me-


dias de observaciones pareadas . . . . . . . . 170

6.5. Prueba de una proporción . . . . . . . . . . . 173

6.6. Prueba de diferencia de proporciones . . . . 174

6.7. Prueba de una varianza . . . . . . . . . . . . 177

6.8. Prueba de cociente de varianzas . . . . . . . . 180

6.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . 182

6.10. Pruebas de bondad de ajuste . . . . . . . . . . 184

V
6.10.1. Pruebas de bondad de ajuste ji cuadrada189

6.10.2. Prueba de Kolmogorov Smirnov (K-S) 198

6.11. Test de bondad de ajuste de Anderson-Darling 206

6.12. Bandas de confianza de F ( x ) . . . . . . . . . . 209

6.13. Prueba de independencia . . . . . . . . . . . 212

7. Análisis multivariable 217

7.1. Distribuciones de probabilidad de vectores alea-


torios . . . . . . . . . . . . . . . . . . . . . . . 227

7.2. Distribución normal multivariada . . . . . . 253

8. Distribuciones muestrales 267

8.1. Distribución de Wishart . . . . . . . . . . . . 272

8.2. Distribución de Hotelling . . . . . . . . . . . 275

9. Prueba de hipótesis de medias de vectores aleato-


rios 279

9.1. Prueba de un vector de medias conociendo


matriz de covarianzas . . . . . . . . . . . . . 279

9.1.1. Región de confianza de una media con


matriz de covarianza conocida . . . . 280

VI
9.2. Prueba de un vector de medias con matriz de
covarianzas desconocida . . . . . . . . . . . . 292

9.2.1. Region de confianza de medias con co-


varianza desconocida . . . . . . . . . 292

9.3. Intervalos de confianza de Bonferroni para ai′ µ 310

9.4. Análisis de perfiles de una muestra . . . . . . 314

9.5. Pruebas de diferencia de medias de dos mues-


tras con varianzas desconocidas iguales . . . 323

9.6. Prueba de hipótesis de combinaciones linea-


les de diferencia de dos medias . . . . . . . . 330

9.7. Prueba de la diferencia de dos vectores de


medias con covarianzas desconocidas y dis-
tintas . . . . . . . . . . . . . . . . . . . . . . . 338

9.8. Prueba de observaciones pareadas . . . . . . 345

9.9. Análisis de perfiles de dos muestras . . . . . 357

9.10. Bibliografía . . . . . . . . . . . . . . . . . . . . 365

VII
Capítulo 1

Distribuciones discretas
básicas

En este capítulo describimos la información de las dis-


tribuciones discretas básicas, la distribución de Bernoulli, la
distribución binomial, la distribución binomial negativa, y
la distribución de Poisson.

1.1. Distribución de Bernoulli

Para describir la distribución de Bernoulli, es necesario


primero definir un experimento de Bernoulli.

Definición 1.1 Un experimento o ensayo de Bernoulli es el


experimento que sólo tiene dos posibles resultados mutuamente

1
excluyentes, generalmente llamados ”E=ÉXITO” o ”F=FRACASO”.
Más precisamente su espacio muestral tiene la forma

Ω = { E, F } = { A, Ac }

Si p = P( E), 0 < p < 1, entonces q = 1 − p = P( F ).

Ejemplo 1.1 1. Si clasificamos los dos resultados en el con-


trol de calidad, como ”defectuoso” o ”no defectuoso”, enton-
ces el experimento es de Bernoulli.

2. Si tiramos un dado, y si nos fijamos si ”cae par” o ”cae


impar”, este es un experiemeto de Bernoulli.

3. Si un estudiante ”pasa” un curso determinado o ”no lo pa-


sa”, este es un experiemento de tipo Bernoulli.

Definición 1.2 Supongamos que tenemos un experimento de Ber-


noulli, con

p = P( E), 0 < p < 1, q = 1 − p = P( F )

Definamos la variable aleatoria sobre Ω = { E, F }

X:Ω→ℜ

de la manera siguiente

X ( E) = 1, X ( F ) = 0

entonces X es una variable aleatoria discreta con recorrido R =


{0, 1}. Además

P( X = 0) = P({ω ∈ Ω : X (ω ) ∈ {0}}) = P( F ) = 1 − p

2
y

P( X = 1) = P({ω ∈ Ω : X (ω ) ∈ {1}}) = P( E) = p

Con todas estas consideraciones decimos que X tiene una distri-


bución de Bernoulli con parámetro p = P( E). Y se escribe

X ∼ Ber ( p)

Teorema 1.1 Si la variable aleatoria discreta X tiene una distri-


bución Bernoulli con parámetro p = P( E), es decir

X ∼ Ber ( p)

entonces

1. La función de densidad de X es f : ℜ → ℜ

1 − p, si x = 0

f ( x ) = P( X = x ) = p, si x = 1

0, si x ̸= 0, 1

o en forma más corta


(
p x (1 − p )1− x , si x = 0, 1
f ( x ) = P( X = x ) =
0, si x ̸= 0, 1

2. La función acumulativa de X es F : ℜ→ℜ



0,
 si x < 0
F ( x ) = P( X ≤ x ) = q, si 0 ≤ x < 1

1, si x ≥ 1

3
3. La media de X es

E( X ) = µ = p

4. La varianza es
V ( X ) = σ2 = pq

Demostración.

1. Esta propiedad de deduce directamente de la defini-


ción.
2. Si x < 0, entonces

F ( x ) = P( X ≤ x ) = P({ω ∈ Ω : X (ω ) ∈ (−∞, x ]})

= P(∅) = 0.
Si 0 ≤ x < 1, entonces

F ( x ) = P( X ≤ x ) = P({ω ∈ Ω : X (ω ) ∈ (−∞, x ]})

= P({ F }) = 1 − p = q.
Si 1 ≤ x, entonces

F ( x ) = P( X ≤ x ) = P({ω ∈ Ω : X (ω ) ∈ (−∞, x ]})

= P({ F, E}) = P( F ) + P( E) = 1 − p + p = 1.
3. La media de X es

E( X ) = µ = µ X = ∑ xi f ( xi )
xi ∈ R X

= ∑ x i P ( X = x i ) = 0(1 − p ) + 1( p ) = p
xi ∈ R X

4
4. La varianza de X es
V (X) = ∑ ( x i − µ )2 f ( x i ) = (0 − p )2 (1 − p ) + (1 − p )2 p
xi ∈ R X

= p2 (1 − p) + (1 − 2p + p2 ) p = p − p2 = p(1 − p) = pq

1.2. Distribución Binomial

En esta sección definimos la distribución binomial.

Definición 1.3 Un experimento Binomial es aquel experimen-


to que resulta de repetir n veces un ensayo de Bernoulli, donde las
repeticiones son independientes entre si, y donde la probabilidad
p = P( xito ) es la misma en cada repetición.

El espacio muestral del experimento binomial es el con-


junto:
Ω = {(ω1 , ω2 , ..., ωn ) : ωi = E ó F }

Definición 1.4 Si tenemos un experimento Binomial con proba-


bilidad de éxito p, y espacio muestral
Ω = {(ω1 , ω2 , ..., ωn ) : ωi = E ó F}
La variable aleatoria X : Ω → ℜ, definida como
X [(ω1 , ω2 , ..., ωn )] = número de éxitos en (ω1 , ω2 , ..., ωn )
se llama variable Binomial. Decimos que X tiene una distribu-
ción Binomial con parámetros n, p, y se escribe X ∼ Bin(n, p)

5
Es claro que si X ∼ Bin(n, p), entonces su recorrido es
R = {0, 1, 2, ..., n}
lo que hace que X sea una variable aleatoria discreta. Ade-
más también es claro que
n
X= ∑ Xi
i =1

donde las variables Xi , i = 1, 2, .., n son variables aleatorias


de Bernoulli independientes con parámetro p = P( E), es
decir, Xi ∼ Ber ( p), y donde las Xi están definidas para i =
1, 2, ..., n como:
(
1, si ocurrio éxito en la i-ésima repetición
Xi =
0, si ocurrio fracaso en la i-ésima repetición

Si k es cualquier valor de la variable Binomial, es decir,


k = 0, 1, 2, ..., n, entonces un resultado elemental
(ω1 , ω2 , ..., ωn ) ∈ Ω
con k éxitos, (por la independencia de las repeticiones) tiene
probabilidad

P[(ω1 , ω2 , ..., ωn )] = pk (1 − p)n−k = pk qn−k


Además hay (nk) = (n−n!k)! k! de estos eventos elementales en
Ω con k éxitos, y estos son mutuamente excluyentes. Por
tanto, tenemos
 
n k n−k
P( X = k) = p q , k = 0, 1, 2, ..., n
k
En resumen tenemos el siguiente

6
Teorema 1.2 Si X ∼ Bin(n, p), entonces

1. La función f : ℜ → ℜ:
(
(nx) p x qn−x , si x = 0, 1, 2, ..., n
f ( x ) = P( X = x ) =
0, si x ̸= 0, 1, 2, ..., n

satisface la propiedad
n  
n x n− x
∑ f ( xi ) = ∑ p q =1
xi ∈ R X x =0 x

es decir, f ( x ) ≥ 0 es la función de densidad de la variable


aleatoria X.

2. La función acumulativa de X es F : ℜ → ℜ

0,
 si x < 0
x n k n−k
F ( x ) = P( X ≤ x ) = ∑k=0 ( k ) p q , si x = 0, 1, ..., n − 1

1, si x ≥ n

3. La media de X es
E( X ) = np

4. La varianza de X es

V ( X ) = npq

Demostración.

1. Se utilizan algunas propiedades de la sumas y de los


coeficientes binomiales.

7
2. Esta propiedad es fácil de deducir.

3. Como X = ∑in=1 Xi , y las variables Xi son variables


aleatorias independientes, con Xi ∼ Ber ( p), i = 1, 2, ..., n,
entonces
n n
E( X ) = ∑ E ( Xi ) = ∑ p = np
i =1 i =1

4. Como X = ∑in=1 Xi , y las variables Xi son variables


aleatorias independientes, con Xi ∼ Ber ( p), i = 1, 2, ..., n,
entonces
n n
V (X) = ∑ V (Xi ) = ∑ pq = npq
i =1 i =1

Ejemplo 1.2 Leer los ejemplos 7.1,7.2,7.3 de las páginas 261-


263 del libro Córdova.

1.3. Distribución Geométrica

En esta sección describimos la distribución geométrica.

Definición 1.5 Un experimento Geométrico es aquel experi-


mento que resulta de repetir de forma independiente un ensayo de
Bernoullí hasta obtener el primer éxito. Suponemos que en cada
ensayo de Bernoullí puede ocurrir un éxito (E) con probabilidad p
o un fracaso (F) con probabilidad q = 1 − p, siendo 0 < p < 1

8
El espacio muestral del experimento geométrico es el
conjunto:
Ω = { E, FE, FFE, FFFE, ...}

Definición 1.6 Consideremos un experimento geométrico con es-


pacio muestral

Ω = {ω1 = E, ω2 = FE, ω3 = FFE, ω4 = FFFE, ...}

definamos la variable aleatoria X : Ω → ℜ de la siguiente mane-


ra:
X ( ωk ) = k
Es decir, X (ωk ) = k es el número de repeticiones necesarias del
experimento de Bernoulli hasta obtener el primer éxito. Por ejem-
plo:

X (ω1 ) = 1, X (ω2 ) = 2, X (ω3 ) = 3, X (ω4 ) = 4

Bajo las consideraciones indicadas se dice que X tiene una distri-


bución geométrica con parámetro p = P( E), y se escribe X ∼
Geo ( p) o bién X ∼ G ( p).

El recorrido de X es

R = {1, 2, 3, ....}

Es claro que para k = 1, 2, 3, ... posibles valores de X, y


bajo la consideración de la independencia de las repeticio-
nes de cada ensayo de Bernoulli

f (k ) = P( X = k) = pqk−1

9
Utilizando la teoría elemental de series tenemos el si-
guiente

Teorema 1.3 Si X ∼ Geo ( p), entonces

1. La función f : ℜ → ℜ
(
pq x−1 , si x = 1, 2, ...
f ( x ) = P( X = x ) =
0, si x ̸= 1, 2, ...

2. La función f ( x ) ≥ 0 satisface la propiedad



∑ f (x) = ∑ pqx−1 = 1
x∈ RX x =1

es decir, f ( x ) es una función de densidad de X.


3. La función acumulativa de X, F : ℜ → ℜ, es
(
0, si x < 1
F ( x ) = P( X ≤ x ) = x
∑ xi ≤ x pq , si 1 ≤ x
i

4. La media de X es
1
E( X ) =
p
5. La varianza de X es
q
V (X) =
p2

Antes de dar algunos ejemplos describamos la genera-


lización de la distribución geométrica, la distribución Bino-
mila negativa o de Pascal.

10
1.4. Distribución Binomial negativa o
de Pascal

En esta sección describimos la distribución Binomial


negativa o de Pascal.

Definición 1.7 Sea r un número natural fijo. Un experimento


Binomial negativo o de Pascal es aquel experimento que re-
sulta de repetir de forma independiente un ensayo de Bernoullí
hasta obtener el r-esimo éxito. Suponemos que en cada ensayo
de Bernoullí puede ocurrir un éxito (E) con probabilidad p o un
fracaso (F) con probabilidad q = 1 − p, siendo 0 < p < 1

El espacio muestral del experimento Binomial negativo


o de Pascal es el conjunto:

Ω = {ω = (y1 , y2 , ..., yk ) : k = r, r + 1, r + 2, ...}

donde para i = 1, 2, ..., k − 1 se tiene

yi = E ó F

y
y(k) = E
y donde en
(y1 , y2 , ..., yk−1 )
hay exactamente r − 1 éxitos y (k − 1) − (r − 1) = k − r
fracasos.

11
Definición 1.8 Consideremos un experimento Binomial negati-
vo o de Pascal con espacio muestral

Ω = {ωk = (y1 , y2 , ..., yk ) : k = r, r + 1, ...}

donde para i = 1, 2, ..., k − 1 se tiene

yi = E ó F

y
y(k) = E
y donde en
(y1 , y2 , ..., yk−1 )
hay exactamente r − 1 éxitos y (k − 1) − (r − 1) = k − r fraca-
sos.

Definamos la variable aleatoria X : Ω → ℜ de la siguiente


manera:
X ( ωk ) = k
Es decir, X (ωk ) = k es el número de repeticiones necesarias del
experimento de Bernoulli hasta obtener el r-esimo éxito. Bajo
estas consideraciones decimos que X tiene una distribución Bi-
nomial negativa o de Pascal, con parámetros r, p, y se escribe
X ∼ Binneg(r, p) o bién X ∼ P(r, p)

El recorrido de X es

R X = R = {r, r + 1, r + 2, ....}

Considerando la independencia de las repeticiones de


los ensayos de Bernoulli, la probabilidad p = P( E) de éxito

12
en cada repetición y el análisis combinatorio elemental, si
k = r, r + 1, ..., entonces
(
−1 r k −r
(kr− 1) p q , si k = r, r + 1, ...
f (k) = P( X = k) =
0, si k ̸= r, r + 1, ...

Observación: Para r natural fijo. Si X ∼ P(r, p), defi-


namos las variables aleatorias geométricas independientes
con parámetro p = P( E)

X1 , X2 , ..., Xr

de la siguiente manera:
X1 El número de repeticiones necesarias hasta la ocurrencia
del primer éxito.
X2 Es el número de repeticiones necesarias entre el primer
éxito y el segundo éxito
etc
Xr Es el número de repeticiones necesarias entre el (r − 1)-
ésimo éxito y el r-ésimo éxito

Luego si X ∼ P(r, p), entonces es claro que

X = X1 + X2 + ... + Xr

donde las variables aleatorias

X1 , X2 , ..., Xr

son variables independientes de tipo geométricas con pará-


metro p = P( E). Es decir, una variable aleatoria de Pascal es
la suma de r variables aleatorias geométricas independien-
tes.

13
Teorema 1.4 Si X ∼ P(r, p), entonces

1. La función f : ℜ → ℜ
(
−1 r x −r
( xr− 1)p q , si x = r, r + 1, ...
f ( x ) = P( X = x ) =
0, si x ̸= r, r + 1, ...

2. La función f ( x ) ≥ 0 satisface la propiedad


∞ 
x − 1 r x −r

∑ f (x) = ∑ r − 1 p q = 1
x∈R X x =r

es decir, f ( x ) es una función de densidad de X.

3. La función acumulativa de X, F : ℜ → ℜ, es
(
0, si x<r
F ( x ) = P( X ≤ x ) = x −1
∑ xi ≤ x ( ri−1 ) pr q xi −r , si r≤x

4. La media de X es
r
E( X ) =
p
5. La varianza de X es
rq
V (X) =
p2

Demostración.

1. Ya se demostró.

2. Se utiliza la definción de f ( x ), y la teoría de series.

14
3. Al aplicar la definición de F ( x ) se obtiene el resultado.

4. Como X = X1 + X2 + ... + Xr es la suma de r variables


aleatorias geométricas independientes con parámetro
p = P( E). Entonces

E( X ) = E( X1 ) + E( X2 ) + ... + E( Xr )

1 1 1 r
= + + ... + =
p p p p

5. Como X = X1 + X2 + ... + Xr es la suma de r variables


aleatorias geométricas independientes con parámetro
p = P( E). Entonces

V ( X ) = V ( X1 ) + V ( X2 ) + ... + V ( Xr )
q q q rq
= 2
+ 2 + ... + 2 = 2
p p p p

Ejemplo 1.3 Leer el ejemplo 7.5 de la página 265 del libro Cór-
dova, y el ejemplo 7.6 de la página 268 del mismo libro.

1.5. Distribución de Poisson

En esta sección describimos la distribución de Poisson.

Definición 1.9 Se dice que la variable aleatoria discreta X, cuyos


valores posibles son:
X = 0, 1, 2...

15
tiene distribución de Poisson con parámetro λ, (λ > 0) y se
escribe X ∼ Poisson(λ), o X ∼ P(λ), si su función de densidad
puntual es
( −λ x
e λ
f ( x ) = P( X = x ) = x! , si x = 0, 1, ...
0, si x ̸= 0, 1, ...

NOTA. En la distribución de Poisson, λ representa el


promedio (por unidad de tiempo, por unidad de area o por
unidad de volumen) de valores que puede tener la variable
aleatoria X. La distribución de Poisson se aplica a proble-
mas donde la variable aleatoria es el número de eventos in-
dependientes que ocurren en un intervalo de tiempo, o en
una región plana o en una región del espacio (con un pro-
medio dado), por ejemplo, entre otros:

Número de llamadas que recibe una central telefónica


en el período de un minuto.

Número de accidentes de trabajo que ocurren en una


fábrica durante una semana.

Número de fallas en la superficie de una cerámica rec-


tangular.

Número de bacterias en un volumen de un m3 de agua.

La fórmula ∑∞ k =0
λk
k! = eλ se ocupará para la demostra-
ción del siguiente

Teorema 1.5 Si X ∼ Poisson(λ), entonces

16
1.
e−λ λ x
(
x! , si x = 0, 1, ...
f ( x ) = P( X = x ) =
0, si x ̸= 0, 1, ...

2. La función f ( x ) ≥ 0 satisface
∞ ∞
e−λ λk
∑ f (k) = ∑
k!
=1
k =0 k =0

es decir, la función f ( x ) es en verdad una función de densi-


dad.

3. La función acumulativa de X es
(
0, si x < 0
F ( x ) = P( X ≤ x ) = e − λ λ xi
∑ xi ≤ x xi ! , si x ≥ 0

4. µ = E( X ) = λ

5. σ2 = V ( X ) = λ

Demostración.

1. Es por definición

2.
∞ ∞
e−λ λk
∑ f (k) = ∑ k!
k =0 k =0

λk
= e−λ ∑ k!
= e − λ e λ = e0 = 1
k =0

3. Es por definición.

17
4.
∞ ∞
e−λ λk
µ = E( X ) = ∑ k f (k) = ∑ k k!
k =0 k =0

e−λ λk
= ∑ k
k!
k =1

λ k −1
=e −λ
λ ∑ ( k − 1) !
k =1

λk
= e−λ λ ∑ (k)!
k =0

= e−λ λeλ = λ

5. Utilizaremos la fórmula V ( X ) = E( X 2 ) − µ2 . Como


∞ ∞
e−λ λk
E( X ( X − 1)) = ∑ k ( k − 1) f ( k ) = ∑ k ( k − 1)
k!
k =0 k =0


e−λ λk
= ∑ k ( k − 1)
k!
k =2

λ k −2
= e − λ λ2 ∑ ( k − 2) !
k =2

λk
= e − λ λ2 ∑ (k)!
k =0

= e − λ λ2 e λ = λ2
entonces

E( X 2 − X ) = E( X ( X − 1)) = λ2

18
es decir,
E ( X 2 ) − E ( X ) = E ( X 2 − X ) = λ2
es decir,
E ( X 2 ) = λ2 + E ( X ) = λ2 + λ
por tanto
V ( X ) = E ( X 2 ) − µ2 = λ2 + λ − λ2 = λ

NOTA. (Extensión o reducción dél intervalo unitario).

Si X ∼ Poisson(λ), entonces λ representa el promedio


de ocurrencias en una unidad de tiempo, o en una unidad
de area, o en una unidad de volumen. En problemas prác-
ticos es necesario algunas veces contar el promedio de ocu-
rrencias en una región que no sea una unidad exactamente.
Por tal motivo tenemos la siguiente :

Definición 1.10 La probabilidad de que ocurran k eventos de


Poisson en un intervalo de tiempo o en una región de tamaño t
es
e−λt (λt)k
P( X = k) = , k = 0, 1, 2, ...
k!
donde λ representa el promedio de ocurrencias en una unidad de
tiempo, o en una unidad de area, o en una unidad de volumen. Y
λt representa el promedio de ocurrencias de eventos de Poison en
una región t de tiempo, de area o de espacio, no necesariamente
una unidad.

Ejemplo 1.4 Leer los ejemplos 7.9 y 7.10 de las páginas 274,275
del libro Córdova.

19
Capítulo 2

Distribuciones continuas
básicas

En este capítulo describimos la información de las dis-


tribuciones absolutamente continuas básicas: Uniforme, nor-
mal, exponencial, Gamma, Chi-cuadrado, t-student, F de
Fisher.

21
2.1. Distribución Uniforme

Definición 2.1 Se dice que la variable aleatoria continua, X, tie-


ne distribución uniforme (o rectangular) en el intervalo I =
[ a, b] ó I = ( a, b), y se denota por X ∼ U ( I ), si su función de
densidad es (
1
, si x ∈ I
f ( x ) = b− a
0, si x ∈
/I

Figura 2.1: Función de densidad y acumulativa de la distri-


bución uniforme

22
Teorema 2.1 Si X ∼ U ([ a, b]), entonces

1. La función acumulativa F ( x ) satisface la propiedad



0,
 si x < a
x − a
F ( x ) = P( X ≤ x ) = b−a , si a ≤ x < b

1, si x ≥ b

2. Si [c, d] ⊂ [ a, b], entonces


d−c
P(c ≤ X ≤ d) =
b−a
3. La media de X es
a+b
E( X ) =
2
el punto medio del intervalo [ a, b]
4. La varianza de X es
( b − a )2
V (X) =
12

Ejemplo 2.1 Leer los ejemplos 7.12 y 7.13 de las páginas 288,
289 del libro Córdova.

2.2. Distribución Normal

La distribución normal es el modelo probabilístico que


se usa más frecuentemente y sirve como una buena apro-
ximación de muchas distribuciones que tienen aplicaciones

23
importantes. En esta sección describimos la distribución nor-
mal y sus principales propiedades.

Definición 2.2 La variable aleatoria absolutamente continua X


tiene una distribución normal con parámetros

−∞ < µ < ∞, σ>0

si su función de densidad es

1 1 x −µ 2
f (x) = √ e− 2 ( σ ) ,x ∈ ℜ
2πσ

en tal caso se escribe X ∼ N (µ, σ2 )

Figura 2.2: Función de densidad de la normal

24
2.3. Propiedades de la distribución nor-
mal

A partir de su gráfica y del análisis de su función de


densidad, la curva normal tiene las siguientes propiedades:

1. Es simétrica con respecto al eje vertical X = µ, es de-


cir, para todo x ∈ ℜ,

f (µ + x ) = f (µ − x )

2. Tiene valor máximo en x = µ (su moda). Este valor


máximo es:
1
f (µ) = √
σ 2π

3. Tiene al eje X como asíntota horizontal, ya que

lı́m f ( x ) = 0 y lı́m f ( x ) = 0
x →−∞ x →∞

4. Tiene puntos de inflexión en

x = µ−σ

y
x = µ+σ
Más precisamente hablando, f ( x ) es cóncava hacia aba-
jo en el intervalo µ − σ < x < µ + σ, y cóncava hacia
arriba en cualquier otra parte de la recta real.

25
5. El área total de la superficie bajo la curva es uno., es
decir, Z ∞
f ( x ) dx = 1
−∞
Como consecuencia de esta propiedad y por el hecho
de que f ( x ) es simétrica respecto al eje x = µ, enton-
ces el área bajo la curva de la superficie izquierda y
derecha de la recta x = µ es 12 = 0.5

6. La función acumulativa es
Z x Z x
1 1 x −µ 2
F ( x ) = P( X ≤ x ) = f (t) dt = √ e− 2 ( σ ) dt
−∞ σ 2π −∞

7. Para todo a < b en los reales, tenemos


Z b Z b
1 1 x −µ 2
P( a ≤ X ≤ b) = f ( x ) dx = √ e− 2 ( σ ) dx
a σ 2π a

8. Para todo a < b en los reales, tenemos

P( a ≤ X ≤ b) = F (b) − F ( a)

Teorema 2.2 Si la variable aleatoria X tiene una distribución


normal N (µ, σ2 ), entonces,

1. E( X ) = µ

2. V ( X ) = σ2

Definición 2.3 Si X ∼ N (µ, σ2 ), con µ = 0 y σ2 = 1,


entonces la variable aleatoria X es denotada por Z, y se dice que

26
tiene una distribución normal estándar o típica. La función
de distribución acumulativa de Z la denotaremos por
ϕ( x ) = P( Z ≤ x )

Proposición 2.1 Si Z ∼ N (0, 1), entonces,

1. La función de densidad f ( x ) de Z es
1 x2
f ( x ) = √ e− 2 , x ∈ ℜ

2. Es simétrica con respecto al eje vertical x = 0, es decir,


f ( x ) = f (− x )
para todo x real.
3. Tiene valor máximo en x = 0 (su moda), y su valor en este
punto es f (0) = √1

4. Tiene al eje X como una asíntota horizontal. Más preci-


samente hablando,
lı́m f ( x ) = 0, lı́m f ( x ) = 0
x →−∞ x →+∞

5. Tiene dos puntos de inflexión en x = 1 y x = −1. Es


cóncava hacia abajo en el intervalo [−1, 1] y cóncava
hacia arriba en cualquier otra parte de los números reales.
6. El área total de la superficie bajo la curva es uno. Esto es
consecuencia de la propiedad:
Z +∞
f ( x ) dx = 1
−∞

27
Como consecuencia de esta propiedad y por el hecho de que
f ( x ) es simétrica respecto al eje x = 0, entonces el área
bajo la curva de la superficie izquierda y derecha de la recta
x = 0 es 12 = 0.5

7. La función acumulativa es
Z x Z x
1 x2
ϕ( x ) = P( Z ≤ x ) = f (t) dt = √ e− 2 dt
−∞ 2π −∞

8. Para todo a < b en los reales, tenemos


Z b Z b
1 x2
P( a ≤ Z ≤ b) = f ( x ) dx = √ e− 2 dx
a 2π a

9. E( Z ) = 0 y V ( Z ) = 1

10. ϕ(− x ) = 1 − ϕ( x ) para todo x ∈ ℜ distinto de cero.

11. P( a ≤ Z ≤ b) = ϕ(b) − ϕ( a)

12. P(− a ≤ Z ≤ a) = 2ϕ( a) − 1

Figura 2.3: Función de densidad de la normal estándar

28
El teorema que sigue es de suma importancia para el
uso de tablas y para pasar un problema de cualquier normal
a un problema de una normal estándar.

Teorema 2.3 (De estándarización) Si X ∼ N (µ, σ2 ), enton-


ces,
X−µ
Z= ∼ N (0, 1)
σ

Proposición 2.2 Si X ∼ N (µ, σ2 ), entonces,

1.
a−µ b−µ
 
P( a ≤ X ≤ b) = P ≤Z≤
σ σ
b−µ a−µ
   
= ϕ −ϕ
σ σ

2.

F ( x ) = P( X ≤ x )
X−µ x−µ
 
= P ≤
σ σ
x−µ
 
= P Z≤
σ
x−µ
 
= ϕ
σ

La siguiente propiedad de la normal es de suma impor-


tancia.

29
Teorema 2.4 (Propiedad reproductiva de la normal) Si

X1 , X2 , · · · , X n

es una colección finita de variables aleatorias independientes, tales


que, Xi ∼ N (µi , σi2 ), para toda i = 1, 2, · · · , n. Entonces, la
variable aleatoria

X = c 1 X1 + c 2 X2 + · · · + c n X n

(donde c1 , c2 , · · · , cn son constantes reales) está distribuida nor-


malmente con media

E ( X ) = c1 µ1 + c2 µ2 + · · · + c n µ n

y varianza

V ( X ) = c21 σ12 + c22 σ22 + · · · + c2n σn2 +

En particular, si todas las variables aleatorias independientes

X1 , X2 , · · · , X n

tienen una distribución normal con media µ y varianza σ2 , en-


tonces, la variable aleatoria

X = c 1 X1 + c 2 X2 + · · · + c n X n

tiene una distribución normal con media

E ( X ) = ( c1 + c2 + · · · + c n ) µ

y varianza
V ( X ) = (c21 + c22 + · · · + c2n )σ2
Más aún, si todas las variables aleatorias independientes

X1 , X2 , · · · , X n

30
tienen una distribución normal con media µ y varianza σ2 , en-
tonces, la variable aleatoria

X = X1 + X2 + · · · + X n

tiene una distribución normal con media

E( X ) = nµ

y varianza
V ( X ) = nσ2

Ejemplo 2.2 Ver ejemplo 7.20 de la página 299 del libro Córdo-
va.

2.4. Videos sobre la distribución nor-


mal
1. https://www.youtube.com/watch?v=T7_ktqfVseU

2. https://www.youtube.com/watch?v=5q5UOSGzPmw

3. https://www.youtube.com/watch?v=ZsFbWV8OlzI

4. https://www.youtube.com/watch?v=6iS1on_fGu8

5. https://www.youtube.com/watch?v=shUzIp2wruw

6. https://www.youtube.com/watch?v=A6CL8pVYJ_8

7. https://www.youtube.com/watch?v=90dUfluejQw

31
2.5. Ejercicios

Hacer los siguientes ejercicios del libro Córdova.

1. Página 316. 1,2,4.

2. Página 317-319. 7,9,14,15. Hacer un video de uno de


estos ejercicios (cualquiera)

3. Página 321-322. 25,26,28,30. Hacer un video de uno de


estos ejercicios (cualquiera)

32
2.6. Disribuciones muestrales

En esta sección describimos las distribuciones muestra-


les Gamma, exponencial y Chi-cuadrado que son de gran
importancia para el desarrollo del curso. Empecemos pri-
mero definiendo la función Gamma.

Definición 2.4 La función Gamma denotada por, Γ, se define


por,
Z ∞
Γ( p) = x p−1 e− x dx, ( p ∈ ℜ − {0, −1, −2, · · · })
0

Teorema 2.5

1. Γ(1) = 1

2. Γ( p + 1) = pΓ( p), con p ̸= 0, −1, −2, · · · ,

3. Γ(n + 1) = n! para todo natural n.



4. Γ( 21 ) = π

33
g(x)

15

10

−5

−10

−4 −3 −2 −1 0 1 2 3 4 5
x

Figura 2.4: Función Gamma

2.6.1. Distribución Gamma

Definición 2.5 Se dice que la variable aleatoria continua X tiene


distribución gamma, con parámetros α, β, y se denota por X ∼
Γ(α, β), si su función de densidad es:
( βα
x α−1 e− βx , x ≥ 0
f ( x ) = Γ(α)
0, x < 0

donde α, β son constantes positivas. Otros autores (por ejemplo


en minitab) prefieren la siguiente definición:
− βx
(
1
βα Γ(α)
x α −1 e , x≥0
f (x) =
0, x < 0

el parámetro α es llamdo de forma y el parámetro β de escala.

34
La figura de abajo muestra la gráfica de la distribución
gamma cuando β = 1, para α = 1, α = 2, α = 4.

Figura 2.5: Distribución Gamma

35
Teorema 2.6 Si la variable aleatoria X ∼ Γ(α, β), entonces,

α
1. E( X ) = β

α
2. V ( X ) = β2

36
2.6.2. Distribución exponencial

En esta sección definimos la distribución eponencial co-


mo un caso particular de la distribución Gamma. La distri-
bución exponencial es un modelo apropiado para describir
la vida útil de objetos.

Definición 2.6 Se dice que la variable aleatoria continua X tiene


distribución exponencial cou parámetro β (β > 0), y se escribe
X ∼ exp( β), si su función de densidad es:
(
βe− βx , x ≥ 0
f (x) =
0, x < 0

Figura 2.6: Distribución exponencial

37
NOTA. La distribución exponencial es un caso parti-
cular de la distribución gamma cuando α = 1, por tanto,
tenemos el siguiente

Teorema 2.7 Si la variable aleatoria X tiene una distribución ex-


ponencial con parámetro β, es decir, X ∼ exp( β), entonces,

1
1. E( X ) = β

1
2. V ( X ) = β2

3. F ( x ) = P( X ≤ x ) = P( X < x ) = 1 − e− βx , para toda


x≥0

4. P( X > x ) = P( X ≥ x ) = e− βx , para toda x ≥ 0

5. Para todo s, t valores positivos,

P( X > s + t | X > s) = P( X > t)

esta propiedad nos dice que la distribución exponencial ”no


tiene memoria”.

Ejemplo 2.3 Ver el ejemplo 7.21 de la página 304 del libro Cór-
dova.

En algunas aplicaciones es necesario desechar datos ne-


gativos o ceros. Este tipo de aplicaciones se modelan con la
distribución de exponencial de 2 parámetros.

38
Definición 2.7 Se dice que la variable aleatoria continua X tiene
distribución exponencial cou parámetros β > 0 y λ > 0, y se
escribe X ∼ exp( β, λ), si su función de densidad es:
(
βe− β( x−λ) , x ≥ λ
f (x) =
0, x < λ

A los parámetros β, λ se les llama parámetros de escala y de um-


bral (posición), respectivamente.

Teorema 2.8 Si X ∼ exp( β, λ), entonces,

1
1. E( X ) = β +λ
1
2. V ( X ) = β2

3. F ( x ) = P( X ≤ x ) = P( X < x ) = 1 − e− β( x−λ) , para


toda x ≥ λ
4. P( X > x ) = P( X ≥ x ) = e− β( x−λ) , para toda x ≥ λ

Algunos autores, y como minitab y matlab definen la


función de densidad de la distribución exponencial de la
siguiente manera.

Definición 2.8 Se dice que la variable aleatoria continua X tiene


distribución exponencial cou parámetros β > 0 y λ > 0, y se
escribe X ∼ exp( β, λ), si su función de densidad es:
1
1 − β ( x −λ)
(
e , x≥λ
f (x) = β
0, x < λ

39
A los parámetros β, λ se les llama parámetros de escala y de um-
bral (posición), respectivamente.

Notar que en esta definición sólo se cambio β por su


inverso multiplicativo. Por tanto, tenemos la siguiente pro-
posición.

Teorema 2.9 Si X ∼ exp( β, λ), entonces,

1. E( X ) = β + λ

2. V ( X ) = β2
− β1 ( x −λ)
3. F ( x ) = P( X ≤ x ) = P( X < x ) = 1 − e , para
toda x ≥ λ
− β1 ( x −λ)
4. P( X > x ) = P( X ≥ x ) = e , para toda x ≥ λ

Nota. La definición y la proposición anterior también es


válida para el caso de una exponencial con un sólo paráme-
tro β; sólo hay que eliminar el parámetro λ de las fórmulas.

40
Figura 2.7: Distribución exponencial con β = 1, 3; λ = 4

41
2.6.3. Distribución Chi-cuadrado

En esta sección describimos la distribución Chi-cuadro


como un caso particular de la distribución Gamma. La dis-
tribución Chi-cuadradro es de gran importancia para las
muestras aleatorias, por ello se conoce como una distribu-
ción muestral.

Definición 2.9 Se dice que la variable aleatoria continua X tie-


ne distribución Chi-cuadrado con r grados de libertad, y se
representa como X ∼ χ2 (r ), si su función de densidad es:
 r
 2− 2 x 2r −1 e− 2x , x ≥ 0
r
f ( x ) = Γ( 2 )
0, x < 0

donde r > 0.

Figura 2.8: Distribución Chi-cuadrado

42
NOTA. La distribución Chi-cuadrado con r grados de
libertad es un caso particular de la distribución gamma cuan-
do α = 2r , y β = 12 , por tanto, tenemos el siguiente

Teorema 2.10 Si la variable aleatoria X tiene una distribución


Chi-cuadrado con r grados de libertad, es decir, X ∼ χ2 (r ),
entonces,

1. E( X ) = r

2. V ( X ) = 2r

3. Si r → ∞, entonces la distribución χ2 (r ) tiende a una dis-


tribución normal

Una propiedad importante la describe el siguiente,

Teorema 2.11

1. Si Z ∼ N (0, 1), entonces, Z2 ∼ χ2 (1)

2. Si Z1 , Z2 , · · · , Zr son r variables aleatorias independientes


tales que Zi ∼ N (0, 1), para cada i = 1, 2, · · · , r, entonces,
r
∑ Zi2 ∼ χ2 (r)
i =1

43
Teorema 2.12 (Propiedad reproductiva de Chi-cuadrado).

Si X1 , X2 , · · · , Xk son k variables aleatorias independientes


tales que Xi ∼ χ2 (ri ), para cada i = 1, 2, · · · , k, entonces,

k
∑ Xi2 ∼ χ2 (r1 + r2 + · · · + rk )
i =1

Ejemplo 2.4 Ver el ejemplo 7.24 y 7.25 de las páginas 308 y 309
del libro Córdova.

44
2.7. Distribución t-student

En esta sección describimos la distribución t-student.


La distribución t-student es de gran importancia para las
muestras aleatorias, por ello se conoce como una distribu-
ción muestral.

Definición 2.10 Se dice que la variable aleatoria continua X tie-


ne una distribución t-student con r grados de libertad y se
representa por X ∼ t(r ), si su función de densidad es,
− r+2 1
Γ( r+2 1 ) t2

f (x) = √ 1+ , x∈ℜ
Γ( 2r ) πr r

donde r > 0.

45
0.4
r=5
r = 10
r = 50

0.35

0.3

0.25
f(x)

0.2

0.15

0.1

0.05

0
−5 −4 −3 −2 −1 0 1 2 3 4 5
x

Figura 2.9: Distribución t-student

Teorema 2.13 Si Z ∼ N (0, 1) y V ∼ χ2 (r ), son dos variables


independientes, entonces,

Z
T = q ∼ t (r )
V
r

Teorema 2.14 Si X ∼ t(r ), entonces,

1. E( X ) = 0
r
2. V ( X ) = r −2 , para r > 2

3. La gráfica de la función de densidad de la distribución t-


student con r grados de libertad tiene forma de campana de
Gauss, simétrica en cero.

46
4. La varianza de la distribución t(r ) es mayor que de la dis-
tribución N (0, 1), pero cuando r → ∞, la varianza de t(r )
tiende a uno, la varianza de N (0, 1).

5. La distribución t(r ) se aproxima a la distribución N (0, 1),


cuando r → ∞. La aproximación es buena, si r ≥ 30.

Ejemplo 2.5 Ver el ejemplo 7.26 y 7.27 de la página 311 del


libro Córdova.

47
2.8. Distribución F de Fisher

En esta sección describimos la distribución F de Fhisher.


Esta distribución es de gran importancia para las muestras
aleatorias, por ello se conoce como una distribución mues-
tral.

Definición 2.11 Se dice que la variable aleatoria continua X tie-


ne distribución F de Fisher, con r1 grados de libertad en el nume-
rador, y r2 grados de libertad en el denominador, y se representa
como X ∼ F (r1 , r2 ), si su función de densidad es:
  r1 

r1 2 r1 +r2

r1
Γ

x 2 −1

 r2 r 2
r2 , x ≥ 0

r
f (x) = Γ( 21 )Γ( 22 )  r x  r1 +2
1
1+ r

 2
0, x < 0

donde r1 , r2 > 0.

48
Figura 2.10: Distribución F de Fisher

Teorema 2.15 Si X ∼ F (r1 , r2 ), entonces,

1. (
r2
r2 −2 , r2 ≥ 3
E( X ) =
no existe para r2 = 1, 2

2.
2r22 (r1 +r2 −2)
(
r1 (r2 −2)2 (r2 −4)
, r2 ≥ 5
V (X) =
no existe para r2 = 1, 2, 3, 4
1
3. La variable aleatoria X ∼ F (r2 , r1 )

Teorema 2.16 Si U ∼ χ2 (r1 ) y V ∼ χ2 (r2 ), entonces,


U
r1
X= V
∼ F (r1 , r2 )
r2

49
Ejemplo 2.6 Ver el ejemplo 7.28-7.30 de las páginas 314 y 315
del libro Córdova.

50
2.9. Distribución lognormal

La distribución lognormal fue inicialmente estudiada


por Galton and McAlister en 1879. La distribución lognor-
mal se aplica en casos donde una transformación logarít-
mica natural tiene como resultado una distribución normal.
Por ejemplo, la concentración de contaminantes producidos
por plantas químicas, la distribución de especies, la distri-
bución de estrellas en el universo. La distribución lognor-
mal se utiliza en aplicaciones de la biología, de economía,
de farmacología, etc. Por ejemplo, el peso de los adultos,
la concentración de minerales en los yacimientos, distribu-
ción de la riqueza, producción de leche por vacas, vidas de
unidades industriales con modos de falla que se caracteri-
zan por fatiga-esfuerzo, cantidades de lluvia, distribucio-
nes de tamaño de las gotas de lluvia, el volumen de gas
en una reserva de petróleo, duración de los períodos laten-
tes de enfermedades infecciosas, y tiempos de inactividad
de una máquina se pueden modelar con una distribución
lognormal. La distribución lognormal se aplica a muestras
de variables aleatorias con datos no negaivos y que tienen
algunos valores muy grandes.

Definición 2.12 (Distribución Lognormal). La variable alea-


toria absolutamente continua X tiene una distribución logarít-
mica normal o simplemente lognormal con parámetros µ ∈ R
y σ > 0 si la variable aleatoria Y = ln( X ) tiene una distribución
normal con media µ y desviación estándar σ. Si X tiene una dis-
tribución lognormal con parámetros µ ∈ R y σ > 0 escribiremos
X ∼ (µ, σ2 ). A los parámetros µ, σ se les llama parámetros de
V

ubicación y escala, respectivamente.

51
Proposición 2.3 Si X es una variable aleatoria lognormal con
parámetros µ y σ, entonces,

1. La función de densidad de X es:


 h i2
1 ln( x )−µ

√1 e 2 si x ≥ 0

f (x) =
σ
,
x 2πσ
0, x < 0.

1 2
2. E( X ) = eµ+ 2 σ

2 2
3. V ( X ) = e2µ+σ (eσ − 1)

2
4. La moda de X es Mod = eµ−σ

5. La mediana de X es Medi = eµ

6. Si X1 , X2 , · · · , Xn es una muestra de X, y Yi = ln Xi , i =
1, 2, · · · , n, entonces, los estimadores de máxima verosimi-
litud de µ y σ2 son respectivamente,

1 n
n i∑
b=
µ Yi
=1

y
1 n
σb2 = ∑ (Yi − Y )2
n i =1

7. Utilizando estandarización sobre la distribución normal Y =

52
ln( X ), tenemos,

F ( x ) = P[ X ≤ x ]
ln( X ) − µ ln( x ) − µ
 
= P ≤
σ σ
ln( x ) − µ
 
= P Z≤
σ
ln( x ) − µ
 
= ϕ
σ

Figura 2.11: Distribución Lognormal

53
En algunas aplicaciones es necesario desechar datos ne-
gativos o ceros. Este tipo de aplicaciones se modelan con la
distribución de lognormal de 3 parámetros.

Definición 2.13 (Distribución Lognormal con 3 parámetros).


La variable aleatoria absolutamente continua X tiene una dis-
tribución logarítmica normal o simplemente lognormal con
parámetros µ ∈ R, σ > 0 y λ > 0 si la variable aleatoria
Y = ln( X − λ) tiene una distribución normal con media µ y des-
viación estándar σ. Si X tiene una distribución lognormal con pa-
rámetros µ ∈ R, σ > 0 y λ > 0 escribiremos X ∼ (µ, σ2 , λ).
V

A los parámetros µ, σ, λ se les llama parámetros de ubicación, es-


cala y umbral (posición), respectivamente.

Proposición 2.4 Si X ∼ Lognormal (µ, σ, λ), entonces,

1. La función de densidad de X es:

ln( x −λ)−µ 2
 h i
1√ − 21
e , si x ≥ λ
 σ
f ( x ) = ( x−λ) 2πσ
0, x < λ.

1 2
2. E( X ) = eµ+ 2 σ + λ
2 2
3. V ( X ) = e2µ+σ (eσ − 1)

54
Figura 2.12: Distribución Lognormal con µ = 0; σ =
0.1, 0.3, 1; λ = 5

55
Ejemplo 2.7 Se sabe que históricamente la concentración de con-
taminantes producidos por plantas químicas exhiben un compor-
tamiento que se parece a una distribución logarítmica normal. Es-
to es importante cuando se consideran cuestiones relacionadas con
el cumplimiento de las regulaciones gubernamentales. Suponga
que la concentración de cierto contaminante, en partes por mi-
llón, tiene una distribución logarítmica normal con los paráme-
tros µ = 3.2 y σ = 1. ¿Cuál es la probabilidad de que la concen-
tración exceda 8 partes por millón?

Solución. Al utilizar estandarización, tenemos,

P( X > 8) = 1 − P( X ≤ 8) = 1 − F (8) = 0.1314

Ejemplo 2.8 Ver los ejemplos 6.28 y 6.29 páginas 176-177 del
libro Sahoo.

56
2.10. Distribución de Weibull

La tecnología actual permite que los ingenieros diseñen


muchos sistemas complicados cuya operación y seguridad
dependen de la confiabilidad de los diversos componentes
que conforman los sistemas. Por ejemplo, un fusible se pue-
de quemar, una columna de acero se puede torcer o un dis-
positivo sensor de calor puede fallar. Componentes idén-
ticos, sujetos a idénticas condiciones ambientales, fallarán
en momentos diferentes e impredecibles. Ya examinamos el
papel que desempeñan las distribuciones gamma y expo-
nencial en estos tipos de problemas. Otra distribución que
se ha utilizado ampliamente en años recientes para tratar
con tales problemas es la distribución de Weibull, introdu-
cida por el físico sueco Waloddi Weibull en 1939.

Definición 2.14 La variable aleatoria continua X tiene una dis-


tribución de Weibull, con parámetros α y β, si su función de
densidad es dada por
(
αβx β−1 e−αx , si x ≥ 0
β

f (x) =
0, en otro caso.

donde α > 0 y β > 0. A los valores de los parámetros α, β se les


llama parámetros de escala y forma, respectivamente

57
Figura 2.13: Distribución Weibull (α = 1)

58
Si hacemos β = 1, la distribución de Weibull se reduce
a la distribución exponencial con parámetro α > 0.

Teorema 2.17 Si la variable aleatoria X tiene una distribución


Weibull con parámetros α y β, entonces,

− β1
 
1. µ = α Γ 1 + β1
  i2 
− β2
 h 
2. σ2 =α Γ 1+ β − Γ 1+ β
2 1
, donde,

Z ∞
Γ(y) = x y−1 e− x dx, para y > 0
0

3. La función acumulativa de la distribución de Weibull es:

F ( x ) = P( X ≤ x ) = 1 − e−αx , para x ≥ 0
β

Algunos autores como D’Agostino, o en minitab, o en


matlab utilizan la siguiente definición equivalente. Mien-
tras no se diga lo contrario ocuparemos esta definición.

Definición 2.15 La variable aleatoria continua X tiene una dis-


tribución de Weibull, con parámetros α y β, si su función de
densidad es dada por
( β
β t  β−1 −( αt )
e , si x ≥ 0
f (x) = α α
0, en otro caso.

donde α > 0 y β > 0

59
En esta definición sólo se cambio α por α1β . Con estos
cambios las propiedades de la distribución de Weibull son
las mismas, sólo hay que cambiar el parámetro antes seña-
lado. Con esta nueva definición, tenemos el siguiente resul-
tado.

Teorema 2.18 Si la variable aleatoria X tiene una distribución


Weibull con parámetros α y β, entonces,

x β
1. F ( x ) = 1 − e−( α )
 
2. µ = αΓ 1 + β1
  h  i2
3. σ2 = α2 Γ 1+ 2
β − Γ 1+ β
1
, donde,
Z ∞
Γ(y) = x y−1 e− x dx, para y > 0
0

4. Si F ( x ) = p, entonces,
1
x = F −1 ( p) = α[− ln(1 − p)] β , 0 < p < 1
x β
5. La función survival de X es, P( X > x ) = e−( α )
 1
1 β
6. La moda de X es Mod = α 1 − β , β≥1
1
7. La mediana de X es Medi = α(ln 2) β

En algunas aplicaciones es necesario desechar datos ne-


gativos o ceros. Este tipo de aplicaciones se modelan con la
distribución de Weibull de 3 parámetros.

60
Definición 2.16 La variable aleatoria continua X tiene una dis-
tribución de Weibull, con parámetros α, β y λ, si su función de
densidad es dada por
 
 β t−λ β−1 −( t−αλ ) β

e , si x ≥ λ
f (x) = α α
0, en otro caso.

donde α > 0, β > 0 y λ > 0

El parámetro λ en la práctica debe ser elegido de los da-


tos de la muestra, por ejemplo se acostumbra seleccionar
el mínimo de los datos; hay criterios más avanzados para
seleccionar a λ. A los valores de los parámetros α, β, λ se
les llama parámetros de escala, forma y umbral, respectiva-
mente

Proposición 2.5 Si X ∼ Weibull (α, β, λ), entonces,

x −λ β
1. F ( x ) = 1 − e−( α)

2. Si F ( x ) = p, entonces,
1
x = F −1 ( p) = λ + α[− ln(1 − p)] β , 0 < p < 1

Ejemplo 2.9 Ver el ejemplo 6.24 del libro Walpole página 204

61
Figura 2.14: Distribución Weibull (α = 1; β = 1, 2, 3.5; λ = 3)

62
2.11. Distribución logística

La distribución logística se considera a menudo como


una alternativa a la distribución normal. La distribución lo-
gística tiene una forma muy cercana a la de una distribu-
ción normal pero tiene colas más pesadas que la normal.
La distribución logística se utiliza en el modelado de datos
demográficos. También se utiliza como una alternativa a la
distribución de Weibull en las pruebas de vida.

Definición 2.17 Una variable aleatoria X absolutamente conti-


nua tiene una distribución logística con parámetros −∞ <
µ < ∞ y σ > 0 si su función de densidad tiene la forma:
x −µ
− √π ( σ )
π e 3
f (x) = √  2 − ∞ < x < ∞
σ 3 − √π (
x −µ
σ )
1+e 3

La notación es X ∼ Log(µ, σ ). Al parámetro µ se le llama pará-


metro de ubicación y al parámetro σ se le llama parámetro de
escala

Teorema 2.19 Si X ∼ Log(µ, σ), entonces,

π ( x −µ )
−√ σ
e 3
1. F ( x ) = P( X ≤ x ) = π

σ 3
"
π ( x −µ ) 2
# −∞ < x < ∞
−√ σ
1+ e 3

2. E( X ) = µ
3. V ( X ) = σ2

63
Figura 2.15: Distribución Logística con µ = 5

64
Daremos otra definición de distribución logística que
utilizan la mayoría de libros, y la que usa matlab

Definición 2.18 Una variable aleatoria X absolutamente conti-


nua tiene una distribución logística con parámetros −∞ <
µ < ∞ y σ > 0 si su función de densidad tiene la forma:
x −µ
e− σ
f (x) = x −µ −∞ < x < ∞
σ [1 + e − σ ]
La notación es X ∼ Log(µ, σ ). Al parámetro µ se le llama pará-
metro de ubicación y al parámetro σ se le llama parámetro de
escala

Teorema 2.20 Si X ∼ Log(µ, σ), entonces,

1. F ( x ) = P( X ≤ x ) = 1
x −µ −∞ < x < ∞
1+ e − σ

2. P( X > x ) = 1
x −µ −∞ < x < ∞
1+ e σ
 
p
3. Si p = P( X ≤ x ), entonces, x = µ + σ ln 1− p , 0<
p<1
 
1− p
4. Si p = P( X > x ), entonces, x = µ + σ ln p , 0<
p<1
5. E( X ) = µ
6. La moda de X es Mo = µ
7. La mediana de X es Medi = µ
π2 2
8. V ( X ) = 3 σ

65
2.12. Distribuciones de valores extremos

Las distribuciones de valores extremos para máximos y


mínimos se utilizan a menudo para describir la distribución
límite de el máximo o mínimo de n observaciones seleccio-
nadas de una familia exponencial de distribuciones como
normal, gamma y exponencial. La distribución valor extre-
mo de Gumbel se aplicó originalmente a la estimación de
los niveles de inundación, actualmente tiene diferentes apli-
caciones como son:

Estimación de la magnitud de los terremotos

Se aplica al estudio de atletismo y otros récords

Modelan las distribuciones de resistencia a la rotura


de metales, rotura de condensadores

Modelan voltaje y velocidades de ráfagas encontradas


por los aviones.

Para precisar la información consideremos el siguiente


teorema.

Teorema 2.21 Sea X1 , X2 , · · · , Xn una muestra de una variable


aleatoria X con función de distribución acumulada desconocida,
y sea la variable aleatoria:

Mn = máx{ X1 , X2 , · · · , Xn }

66
Entonces, bajo ciertas condiciones asintóticas, la función de dis-
tribución acumulada de Mn es,
−1
(
e−(1+εx) ε , si ε ̸= 0, 1 + εx > 0
G ( x ) = P ( Mn ≤ x ) = −x
e−e , si ε = 0.

donde ε es un parámetro desconocido (por estimar a partir de la


muestra)

A la función G ( x ) se le conoce como la función de Dis-


tribución de Valores Extremos Generalizada (DVEG). Si
ε > 0, la función G ( x ) se llama función de Fréchet; si ε = 0,
la función G ( x ) se llama función de Gumbel, y si ε < 0, la
función G ( x ) se llama función de Weibull. Estas distribu-
ciones se pueden apreciar mejor en el siguiente teorema.

Teorema 2.22 (De Fisher y Tippet)

1. La distribución de tipo I o de Gumbel tiene la forma:


x −µ
− σ
G ( x ) = e−e , −∞ < x < ∞

donde −∞ < µ < ∞, y σ > 0

2. La distribución de tipo II o de Fréchet tiene la forma:


(
0, si x ≤ µ
G(x) = x −µ − β
e−( σ ) , si x > µ.

donde −∞ < µ < ∞, y σ > 0, β > 0.

67
3. La distribución de tipo III o de Weibull tiene la forma

x −µ β
(
e( σ) , si x < µ
G(x) =
1, si x ≥ µ.

donde −∞ < µ < ∞, y σ > 0, β > 0.

2.12.1. Distribución de Gumbel para valores má-


ximos

Enseguida mostraremos la información básica para la


distribución de Gumbel. La distribución de valor extremo
más grande o de Gumbel se define por sus parámetros de
ubicación y escala. La distribución de valor extremo más
grande se utiliza para modelar el valor máximo de una dis-
tribución de observaciones aleatorias. La distribución de va-
lor extremo más grande describe fenómenos extremos, tales
como valores extremos de velocidad eólica y grandes pér-
didas en empresas de seguros. La distribución de valor ex-
tremo más grande es asimétrica a la derecha. Por ejemplo,
la distribución de los niveles de agua en un río con el paso
del tiempo suele ser asimétrica a la derecha con pocos casos
de niveles extremos de agua hacia la derecha y la mayoría
de los niveles de agua en la cola inferior.

Definición 2.19 La variable aleatoria Mn absolutamente conti-


nua tiene una distribución Gumbel para valores máximos
con parámetro −∞ < µ < ∞ de localización y parámetro σ > 0
de escala (escribimos Mn ∼ Gumbelmax (µ, σ)) si su función de

68
distribución acumulativa es:
x −µ
− σ
F ( x ) = P ( Mn ≤ x ) = e − e , −∞ < x < ∞

69
Proposición 2.6 Si Mn ∼ Gumbelmax (µ, σ ), entonces,

1. La función de distribución acumulativa de Mn es:


x −µ
− σ
F ( x ) = P ( Mn ≤ x ) = e − e , −∞ < x < ∞

2. La función de densidad de Mn es:

1 − x−µ −e− x−σ µ


f (x) = e σ e , −∞ < x < ∞
σ

3. Si P( Mn ≤ x ) = p, entonces,

x == µ − σ ln[− ln( p)], 0 < p < 1

4. Si P( Mn > x ) = p, entonces,

x = µ − σ ln[− ln(1 − p)], 0 < p < 1

5. E( Mn ) = µ + γσ, donde, γ ≈ 0.5772156649 es la cons-


tante de Euler.

6. La moda de Mn es Mod = µ

7. La mediana de Mn es Medi = µ − σ ln[ln(2)]


π2 2
8. La varianza de Mn es V ( Mn ) = 6 σ

70
Figura 2.16: Distribución valor extremo máximo de Gumbel
con µ = 0; σ = 1, 2, 3

71
2.12.2. Distribución de Gumbel para valores mí-
nimos

La distribución de valor extremo más pequeño se defi-


ne por sus parámetros de ubicación y escala. Utilice la dis-
tribución de valor extremo más pequeño para modelar el
valor mínimo de una distribución de observaciones aleato-
rias. La distribución de valor extremo más pequeño se utili-
za generalmente para modelar el tiempo de falla de un sis-
tema que falla cuando falla su componente más débil. La
distribución de valor extremo más pequeño describe fenó-
menos extremos, tales como la temperatura mínima y los
niveles de pluviosidad durante una sequía. La distribución
de valor extremo más pequeño es asimétrica a la izquierda.
Por ejemplo, la distribución de la resistencia de una cadena
a la rotura suele ser asimétrica a la izquierda, porque la ca-
dena se rompe cuando se rompe el eslabón más débil. Esta
distribución tiene pocas muestras débiles hacia la izquierda
y la mayoría de las resistentes en la cola superior.

Para precisar la información consideremos el siguiente


teorema.

Teorema 2.23 Sea X1 , X2 , · · · , Xn una muestra de una variable


aleatoria X con función de distribución acumulada desconocida,
y sea la variable aleatoria:

mn = mı́n{ X1 , X2 , · · · , Xn }

Entonces, bajo ciertas condiciones asintóticas, la función de dis-

72
tribución acumulada de mn es,
−1
(
1 − e−(1−εx) ε , si ε ̸= 0, 1 − εx > 0
H ( x ) = P(mn ≤ x ) = −x
1 − e−e , si ε = 0.

donde ε es un parámetro desconocido (por estimar a partir de la


muestra)

A la función G ( x ) se le conoce como la función de Dis-


tribución de Valores Extremos Generalizada (DVEG). Si
ε > 0, la función G ( x ) se llama función de Fréchet; si ε = 0,
la función G ( x ) se llama función de Gumbel, y si ε < 0, la
función G ( x ) se llama función de Weibull. Estas distribu-
ciones se pueden apreciar mejor en el siguiente teorema.

Definición 2.20 La variable aleatoria mn absolutamente conti-


nua tiene una distribución Gumbel para valores mínimos con
parámetro −∞ < µ < ∞ de localización y parámetro σ > 0 de
escala (escribimos Mn ∼ Gumbelmin(µ, σ )) si su función de dis-
tribución acumulativa es:
x −µ
− σ
F ( x ) = P (mn ≤ x ) = 1 − e−e , −∞ < x < ∞

73
Proposición 2.7 Si mn ∼ Gumbelmin(µ, σ), entonces,

1. La función de distribución acumulativa de Mn es:


x −µ
− σ
F ( x ) = P (mn ≤ x ) = 1 − e−e , −∞ < x < ∞

2. La función de densidad de mn es:


x −µ
1 x −µ −
f ( x ) = − e− σ e−e σ , − ∞ < x < ∞
σ

3. Si P(mn ≤ x ) = p, entonces,

x = µ − σ ln[− ln(1 − p)], 0 < p < 1

4. Si P(mn > x ) = p, entonces,

x = µ − σ ln[− ln( p)], 0 < p < 1

5. E(mn ) = µ − γσ, donde, γ ≈ 0.5772156649 es la cons-


tante de Euler.
π2 2
6. La varianza de mn es V (mn ) = 6 σ

74
Figura 2.17: Distribución valor extremo mínimo de Gumbel
con µ = 0; σ = 1, 2, 3

75
Hay una relación entre la distribución de valores máxi-
mos y mínimos.

Teorema 2.24 Sea X1 , X2 , · · · , Xn una muestra de una variable


aleatoria X, y,

Mn = máx{ X1 , X2 , · · · , Xn }

mn = mı́n{ X1 , X2 , · · · , Xn }
Si Y = − X, entonces, Mn = −mn .

76
2.13. Distribución de Pareto

Esta distribución clásica de Pareto ha encontrado apli-


cación en problemas de modelado que involucran distribu-
ciones. de los ingresos cuando los ingresos superan un cier-
to límite x0 . La distribución de Pareto lleva el nombre del
economista italiano Vilfredo Pareto. Algunos ejemplos en
los que la distribución de Pareto proporciona un modelo de
buen ajuste incluyen la distribución de la riqueza, tamaño
de los asentamientos humanos, visitas a la enciclopedia y
páginas en el internet, y el modelado del tráfico de Internet
entre otras aplicaciones. La distribución de Pareto a menu-
do se describe como la base de la regla 80/20. Por ejemplo,
el 80 % de las quejas de los clientes con respecto a una mar-
ca de vehículo generalmente surgen del 20 % de los compo-
nentes.

2.13.1. Distribución de Pareto clásica

Definición 2.21 (Distribución de Pareto clásica). La variable


aleatoria absolutamente continua X tiene una distribución de
Pareto clásica o tipo I con parámetros α > 0 y x0 > 0, y en tal
caso se escribe X ∼ Pareto (α, x0 ) si su función de densidad es:

αx0α
(
x α +1
, si x ≥ x0
f (x) =
0, si x < x0 .

Teorema 2.25 Si X ∼ Pareto (α, x0 ), entonces,

77
1. La función de distribución acumulativa de X es:
 x α
0
F ( x ) = P( X ≤ x ) = 1 − , x ≥ x0
x
2. La función de distribución Survival es:
 x α
0
P( X > x ) =
x
3. Si p = P( X ≤ x ), entonces,
1
x = x0 (1 − p ) − α

4. Si p = P( X > x ), entonces,
1
x = x0 p − α
αx0
5. La media de X, es E( X ) = α −1 para α > 1
αx02
6. La varianza de X es V ( X ) = ( α −1)2 ( α −2)
para α > 2

7. La moda de X es Mod = x0
1
8. La mediana de X es Medi = 2 α x0

2.13.2. Distribución de Pareto generalizada

Hay tres formas de distribución de Pareto, en la sección


anterior presentamos la versión clásica, ahora presentamos
la versión generalizada de Pareto. La distribución de Pareto
generalizada se utiliza para modelar las colas de otra dis-
tribución. Veamos primero la definición de distribución de
Pareto.

78
Definición 2.22 (Distribución de Pareto generalizada). La
variable aleatoria absolutamente continua X tiene una distribu-
ción de Pareto generalizada o tipo II con parámetro de ubi-
cación (umbral) −∞ < µ < ∞, parámetro de escala σ > 0
y parámetro de forma −∞ < k < ∞, y en tal caso se escribe
X ∼ Pareto (µ, k, σ) si su función de distribución es:
 h  i− 1
x −µ k
1− 1+k σ , si k ̸= 0

F ( x ) = P( X ≤ x ) = x − µ
1 − e− σ , si k = 0.

donde, x ≥ µ para k ≥ 0, y µ ≤ x ≤ µ − σ
k si k < 0.

Teorema 2.26 Si X ∼ Pareto (µ, k, σ ), entonces,

1. La función de densidad de X es:


 h  i−1− 1
1 x −µ k
1+k σ , si k ̸= 0
f (x) = σ
x − µ
1 − σ
σe , si k = 0.

donde, x ≥ µ para k ≥ 0, y µ ≤ x ≤ µ − σ
k si k < 0.
σ
2. La media de X, es E( X ) = µ + 1− k , para k < 1

σ2 1
3. La varianza de X es V ( X ) = (1−k)2 (1−2k)
para k < 2

σ (2k −1)
4. La mediana de X es Medi = µ + k

79
Figura 2.18: Distribución generalizada de Pareto

80
Capítulo 3

Teorema del Límite central

En este capítulo describimos el teorema del límite cen-


tral y algunas consecuencias de grán importancia.

Definición 3.1 Sea X una variable aleatoria con función de den-


sidad f ( x ). Una muestra aleatoria de tamaño n de la variable
aleatoria X es una colección de variables

X1 , X2 , · · · , X n

independientes con la misma distribución de X. Por tanto si la


media y varianza de X son respectivamente µ y σ2 , entonces para
cada i = 1, 2, · · · , n
E ( Xi ) = µ

y
V ( Xi ) = σ 2

81
Definición 3.2 Sea

X1 , X2 , · · · , X n

una muestra aleatoria de una variable aleatoria X. La media mues-


tral de la muestra es la variable aleatoria

∑in=1 Xi
X=
n

Proposición 3.1 Sea

X1 , X2 , · · · , X n

una muestra aleatoria de la variable aleatoria X, con media y va-


rianza µ y σ2 , respectivamente. Si
n
Y= ∑ Xi
i =1

entonces

1. µY = E(Y ) = nµ

2. σY2 = V (Y ) = nσ2

3. σY = σ n

4. µ X = E( X ) = µ

σ2
5. σX2 = V ( X ) = n

6. σX = √σ
n

82
Demostración. Trivial.

Teorema 3.1 Sea


X1 , X2 , · · · , X n
una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ2 ),
entonces,

1. La variable aleatoria
∑in=1 Xi
X=
n
σ2
tiene una distribución normal con media µ y varianza n.
Más precisamente hablando,
σ2
 
X ∼ N µ,
n

2. Al aplicar el teorema de estandarización al inciso anterior


se obtiene
X − µX
Z= ∼ N (0, 1),
σX
es decir,
X−µ
Z= ∼ N (0, 1),
√σ
n

Teorema 3.2 (Del Límite central). Sea X1 , X2 , · · · , Xn una mues-


tra aleatoria de tamaño n de la variable aleatoria X, con función
de densidad f ( x ). Supongamos que la media y varianza de X son
µ, y σ2 , respectivamente. Sea
n
Y= ∑ Xi
i =1

83
la variable aleatoria. Entonces,

1. La variable Y tiene aproximadamente un distribución nor-


mal con media nµ, y varianza nσ2 , es decir,
 
Y ∼ N nµ, nσ2 , n → ∞.

O de otra forma,
Y − nµ
√ ∼ N (0, 1), n → ∞.

2. La variable aleatoria X tiene una distribución aproximada-


2
mente normal con media µ, y varianza σn . Es decir,
σ2
 
X ∼ N µ, , n → ∞.
n
O de otra forma,
X−µ
∼ N (0, 1), n → ∞.
√σ
n

NOTA. Si la variable aleatoria


n
Y= ∑ Xi
i =1
es discreta y con valores enteros consecutivos (por ejemplo
la binomial o Poisson), entonces
P(Y = k ) ≈ P(k − 0.5 ≤ Y ≤ k + 0.5)
y
P( a ≤ Y ≤ b) ≈ P( a − 0.5 ≤ Y ≤ b + 0.5)
El ajuste se llama factor de corrección por continuidad.

84
Ejemplo 3.1 Ver los siguientes vídoes de apoyo sobre el teorema
del límite central:

1. https: // www. youtube. com/ watch? v= 46DgBP9VwtE


2. https: // www. youtube. com/ watch? v= tFCk_ lAYKmk&
list= RDCMUCMLQ_ dQirjjwPjR8skwX3gA& index= 3
3. https: // www. youtube. com/ watch? v= o2afi9BKRIM&
list= RDCMUCMLQ_ dQirjjwPjR8skwX3gA& index= 2
4. https: // www. youtube. com/ watch? v= z2V1LX8tK7U
5. https: // www. youtube. com/ watch? v= A9trCnsFT_ 4
6. https: // www. youtube. com/ watch? v= u7Dnl2QWimU
7. https: // www. youtube. com/ watch? v= 3vin2OLq3JQ
8. https: // www. youtube. com/ watch? v= NbuTwb0xiqI
9. https: // www. youtube. com/ watch? v= 2OqYYao3iWg
10. https: // www. youtube. com/ watch? v= 4XEZZcvpkiY

Ejemplo 3.2 Leer el ejemplo 8.5, página 352 del libro Córdova.

3.1. Aproximaciones a la distribución


normal

En esta sección daremos algunas aproximaciones a la


distribución normal como consecuencia de la aplicación del
teorema del límite central.

85
3.1.1. Aproximación de la binomial a la normal

Proposición 3.2 Sea


X1 , X2 , · · · , X n
una muestra aleatoria Bernoulli con parámetro p, es decir, E( Xi ) =
p, y V ( Xi ) = pq, donde p es la probabilidad de éxito y q = 1 − p
la probabilidad de fracaso. Entonces

1. La variable aleatoria
n
Y= ∑ Xi
i =1

tiene una distribución binomial con parámetros n y p, es


decir,
Y ∼ B(n, p)
2.
Y − np
Z= √ ∼
˙ N (0, 1) (3.1)
npq

Ejemplo 3.3 Leer el ejemplo 7.35, página 330 del libro Córdova.

3.1.2. Aproximación de la Poisson a la normal

Proposición 3.3 Sea


X1 , X2 , · · · , X n
una muestra aleatoria Poisson con parámetro λ, es decir, E( Xi ) =
λ, y V ( Xi ) = λ. Entonces

86
1. La variable aleatoria
n
Y= ∑ Xi
i =1

tiene una distribución Poisson con parámetros nλ. Y por


tanto E(Y ) = nλ y V (Y ) = nλ.
2.
Y − nλ
Z= √ ∼˙ N (0, 1) (3.2)

NOTA. La aproximación es ’buena’ si nλ > 5.

Ejemplo 3.4 Leer el ejemplo 7.37, página 333 del libro Córdova.

3.1.3. Distribución muestral de una proporción

Proposición 3.4 Sea


X1 , X2 , · · · , X n
una muestra aleatoria Bernoulli con parámetro p, es decir, E( Xi ) =
p, y V ( Xi ) = pq, donde p es la probabilidad de éxito (porcentaje
de éxitos en la población) y q = 1 − p la probabilidad de fracaso.
n
Entonces p̂ = X = ∑i=n1 i representa la proporción de éxitos en
X

la muestra. Y además:

1. La media muestral
∑in=1 Xi
p̂ =
n
pq
tiene una media E( p̂) = p y una varianza V ( p̂) = n.

87
2.
p̂ − p
Z= q ∼ ˙ N (0, 1) (3.3)
pq
n

NOTA. En este tipo de aproximaciones para tener me-


jor aproximación es preferible utilizar el factor de correc-
1
ción por continuidad 2n . Por ejemplo

1 1
P( p̂ = k) ≈ P(k − ≤ p̂ ≤ k + )
2n 2n

Ejemplo 3.5 Leer el ejemplos 8.6 y 8.7, páginas 355-357 del li-
bro Córdova.

nS2 X −µ
3.1.4. Distribución muestral de σ2
y √S
n

Definición 3.3 Sea X1 , X2 , · · · , Xn una muestra aleatoria de una


variable aleatoria X. La varianza muestral es definida como

∑in=1 ( Xi − X )2
S2 = . (3.4)
n−1
Algunos autores definen la varianza muestral como

∑in=1 ( Xi − X )2
S∗2 = . (3.5)
n
Observar que

( n − 1) S2 nS∗2 ∑in=1 ( Xi − X )2
= =
σ2 σ2 σ2

88
Teorema 3.3 (Distribución de X cuando a σ2 se desconoce)
Si X1 , X2 , · · · , Xn es una muestra aleatoria escogida de una dis-
tribución normal N (µ, σ2 ), y si,

∑in=1 ( Xi − X )2
S2 = (3.6)
n−1
es la varianza muestral, entonces

1. E(S2 ) = σ2
( n −1) S2 ∑in=1 ( Xi − X )2
2. σ2
= σ2
∼ χ2 ( n − 1)
X −µ
3. √S
∼ t ( n − 1)
n

Teorema 3.4 (Distribución de X cuando a σ2 se desconoce)


Si X1 , X2 , · · · , Xn es una muestra aleatoria escogida de una dis-
tribución normal N (µ, σ2 ), y si,

∑in=1 ( Xi − X )2
S∗2 = . (3.7)
n
es la varianza muestral, entonces

n −1 2
1. E(S∗2 ) = n σ

nS∗2 ∑in=1 ( Xi − X )2
2. σ2
= σ2
∼ χ2 ( n − 1)
X −µ
3. √S∗
∼ t ( n − 1)
n −1

En estas notas trabajaremos generalmente con la va-


rianza S2 , mientras no se diga lo contrario.

89
3.1.5. Distribución muestral de la diferencia de
dos medias con varianzas poblacionales
conocidas

Teorema 3.5 Sean X1 , X2 , · · · , Xn y Y1 , Y2 , · · · , Ym dos mues-


tras aleatorias independientes con medias muestrales X y Y, res-
pectivamente. Supongamos que las muestras tienen medias µ1 y
µ2 respectivamente, y varianzas σ12 y σ22 respectivamente conoci-
das. Entonces

1. E( X − Y ) = E( X ) − E(Y ) = µ1 − µ2

σ12 σ22
2. V ( X − Y ) = V ( X ) + V (Y ) = n + m

X −Y −(µ1 −µ2 )
3. Z = r ∼
˙ N (0, 1)
σ2 σ22
1
n +m

Teorema 3.6 Sean X1 , X2 , · · · , Xn y Y1 , Y2 , · · · , Ym dos mues-


tras aleatorias independientes normales, con medias muestrales
X y Y, respectivamente. Supongamos que las muestras tienen me-
dias µ1 y µ2 respectivamente, y varianzas σ12 y σ22 respectivamente
conocidas. Entonces

1. E( X − Y ) = E( X ) − E(Y ) = µ1 − µ2

σ12 σ22
2. V ( X − Y ) = V ( X ) + V (Y ) = n + m

X −Y −(µ1 −µ2 )
3. Z = r ∼ N (0, 1)
σ2 σ22
1
n +m

90
3.1.6. Distribución muestral de la diferencia de
dos medias con varianzas poblacionales
desconocidas

Teorema 3.7 Sean X1 , X2 , · · · , Xn y Y1 , Y2 , · · · , Ym dos mues-


tras aleatorias independientes normales, con medias muestrales
X y Y, respectivamente. Supongamos que las muestras tienen me-
dias µ1 y µ2 respectivamente, y varianzas σ12 y σ22 respectivamente
desconocidas, pero iguales a σ2 . Entonces

1.
X − Y − ( µ1 − µ2 )
Z= q ∼ N (0, 1)
1 1
σ n+m

2.
X − Y − ( µ1 − µ2 )
T= q ∼ t ( n + m − 2)
Sc2 Sc2
n + m

donde
(n − 1)S12 + (m − 1)S22
Sc2 =
n+m−2
es la varianza común muestral, y,

∑in=1 ( Xi − X )2
S12 =
n−1
m
∑i=1 (Yi − Y )2
S22 =
m−1

son las varianzas muestrales de cada muestra.

91
Teorema 3.8 Sean X1 , X2 , · · · , Xn y Y1 , Y2 , · · · , Ym dos mues-
tras aleatorias independientes normales, con medias muestrales
X y Y, respectivamente. Supongamos que las muestras tienen me-
dias µ1 y µ2 respectivamente, y varianzas σ12 y σ22 respectivamente
desconocidas, y diferentes. Entonces

X − Y − ( µ1 − µ2 )
T= q ∼ t( g)
S12 S22
n + m

donde
2
S12 S22

n + m
g=  2 2 2
S22

S
1
n m
n −1 + m −1

son los grados de libertad, y,

∑in=1 ( Xi − X )2
S12 =
n−1
m
∑i=1 (Yi − Y )2
S22 =
m−1

son las varianzas muestrales de cada muestra.

3.1.7. Distribución muestral de la diferencia de


dos proporciones

Teorema 3.9 Sean X1 , X2 , · · · , Xn y Y1 , Y2 , · · · , Ym dos mues-


tras aleatorias independientes de tipo Bernoulli, con Xi ∼ Ber ( p1 )
y Yi ∼ Ber ( p2 ), donde p1 y p2 son las proporciones poblaciones

92
de éxito respectivos. Sean las proporciones muéstrales

∑in=1 Xi ∑m Y
pˆ1 = , y pˆ2 = i=1 i
n m

Entonces

1. E( pˆ1 − pˆ2 ) = E( pˆ1 ) − E( pˆ2 ) = p1 − p2

p1 (1− p1 ) p2 (1− p2 )
2. V ( pˆ1 − pˆ2 ) = V ( pˆ1 ) + V ( pˆ2 ) = n + m

pˆ − pˆ2 − ( p1 − p2 )
3. Z = q1 ∼
˙ N (0, 1)
p1 (1− p1 ) p2 (1− p2 )
n + m

Ejemplo 3.6 Dos programas de televisión A y B tienen como


ratings (porcentaje de hogares donde se ve el programa ) de 40 y
20 respectivamente. Se toma una muestra aleatoria de 300 hogares
con T.V. durante la transmisión del programa A y otra de 100
hogares durante la transmición de B, ¿cuál es la probabilidad de
que los resultados muestren que el programa A tiene un rating
mayor a la de B en 10 %?.

Solución. Sean pˆ1 , pˆ2 las proporciones muestrales de las


dos muestras, respectivamente. Se sabe que p1 = 0.40 y
p2 = 0.20 son las probabilidades poblacionales, respecti-
vamente, es decir, 0.40 es la probabilidad de que una per-
sona prefiera el programa A, y 0.20 es la probabilidad de
que una persona prefiera el programa B. Se desea hallar
P( pˆ1 − pˆ2 < 0.10):

93
Estandarizando el problema y utilizando la propiedad
3 del teorema precedente, obtenemos:
 
0.10 − (0.40 − 0.20) 
P( pˆ1 − pˆ2 < 0.10) = P  Z < q
(0.40)(0.60) (0.80)
300 + 0.20100
−0.10
 
= P Z<
0.0490
= P ( Z < −2.0408)
= ϕ(−2.0408)
= 0.0206354

es decir,
P( pˆ1 − pˆ2 < 0.10) = 0.0206354.

Ejemplo 3.7 Ver el ejemplo 8.11 página 367 del libro Córdova.

S12
3.1.8. Distribución muestral de la razón S22

Teorema 3.10 Si S12 y S22 son las varianzas muestrales de dos


muestras aleatorias independientes de tamaños n y m selecciona-
das de dos poblaciones normales N (µ1 , σ12 ) y N (µ2 , σ22 ) respecti-
vas, entonces, la variable aleatoria

S12
σ12
S22
σ22

94
tiene distribución F de Fisher con n − 1 grados de libertad en el
numerador y m − 1 grados de libertad en el denominador, es decir,

S12
σ12
∼ F (n − 1, m − 1)
S22
σ22

95
Capítulo 4

ESTIMACION PUNTUAL
DE PARAMETROS

Al realizar una investigación estadística a menudo se


sabe o se supone que la población (discreta o continua), de
la cual se selecciona una muestra aleatoria, tiene una for-
ma funcional específica f ( x ) cuyo(s) parámetro(s) se inten-
ta determinar. Si el parámetro a determinar es denotado por
θ, entonces, la distribución de la población será denotada
por f ( x, θ ), donde θ = (θ1 , θ2 , · · · , θ p ) puede ser un vector
de parámetros reales. Los métodos de inferencia estadística
consisten en seleccionar una muestra aleatoria de la pobla-
ción, de manera que a partir de la información que se ob-
tenga de la muestra:

1. Determinar el valor del parámetro desconocido θ, o

2. Decidir si θ ó alguna función de θ, es igual a algún

97
valor preconcebido θ0 de θ.

El primero de estos dos procedimientos se denomina


estimación del parámetro θ. El segundo procedimiento se
conoce como prueba de hipótesis del parámetro θ. El méto-
do de estimación de un parámetro puede ser puntual o por
intervalo. En el primer caso, la estimación del parámetro θ
es un número o un vector de números reales. Mientras que
en el segundo caso la estimación incluye un intervalo [ a, b]
en el que están comprendidos los valores del parámetro θ.

En este capítulo describimos algunas técnicas para ha-


llar estimadores puntuales.

Definición 4.1 Sea X1 , X2 , · · · , Xn una muestra aleatoria de ta-


maño n seleccionada de una población cuya distribución es f ( x, θ ),
siendo θ el parámetro. Se denomina estimador puntual del pará-
metro θ a cualquier estadística (función) Θ̂ = Θ̂( X1 , X2 , · · · , Xn )
que dependa de la muestra. Al valor de la función en la mues-
tra con valores X1 = x1 , X2 = x2 , · · · , Xn = xn , es decir,
θ̂ = θ̂ ( x1 , x2 , · · · , xn ) se le llama una estimación puntual del
parámetro θ en cuestión.

Un estimador puntual del parámetro θ es pues, una va-


riable aleatoria (función de la muestra) Θ, mientras que una
estimación puntual es el valor numérico θ del estimador.

98
4.1. Estimador insesgado

No toda función de la muestra es un buen estimador


del parámetro, un buen estimador, es aquel que está más
cerca del parámetro que se estima. Para que un estimador
puntual sea bueno debe tener ciertas propiedades. Una de
estas propiedades es que sea insesgado, propiedad conoci-
da también como no sesgado, imparcial, o sin vicio.

Definición 4.2 Sea X1 , X2 , · · · , Xn una muestra aleatoria de ta-


maño n seleccionada de una población cuya distribución es f ( x, θ ),
(discreta o continua). Un estimador Θ̂ = Θ̂( X1 , · · · , Xn ) es un
estimador insesgado de θ si

E(Θ̂) = θ

En caso contrario decimos que el estimador Θ̂ es sesgado.

Ejemplo 4.1 Sea X1 , X2 , · · · , Xn una muestra aleatoria de ta-


maño n seleccionada de una población cuya distribución es f ( x, µ, σ2 ),
(discreta o continua).

1. La media muestral X es un estimador insesgado de la media


poblacional µ ya que E( X ) = µ

2. La varianza muestral

∑in=1 ( Xi − X )2
S2 =
n−1

es un estimador insesgado de σ2 pues E(S2 ) = σ2

99
Definición 4.3 Sea X1 , X2 , · · · , Xn una muestra aleatoria de ta-
maño n seleccionada de una población cuya distribución es f ( x, θ ),
(discreta o continua). Un estimador Θ̂ = Θ̂( X1 , · · · , Xn ) es un
estimador asintóticamente insesgado de θ si

lı́m E(Θ̂) = θ
n→∞

n
( X − X )2
Ejemplo 4.2 Si S∗2 = ∑i=1 ni entonces se tiene E(S∗2 ) =
n −1 2
n σ , lo que indica que el estimador es sesgado. Observar que

n−1 2
lı́m E(S∗2 ) = lı́m σ = σ2 .
n→∞ n→∞ n
Esto significa que el estimador S∗2 en un estimador asintóticamen-
te insesgado del parámetro σ2 .

Ejemplo 4.3 Si X1 , X2 , · · · , Xn es una muestra aleatoria de ta-


maño n seleccionada de una población Bernoulli con parámetro p,
la probabilidad de éxito, entonces la proporción de éxitos

∑in=1 Xi
p̂ =
n
es un estimador insesgado de p pues E( p̂) = p.

4.2. Estimador eficiente

Definición 4.4 Si hay dos o más estimadores puntuales insesga-


dos de un parámetro θ se denomina estimador más eficiente a
aquel estimador que tenga menor varianza.

100
Ejemplo 4.4 Ver el ejeplo 9.3 página 382 del libro Córdova.

Definición 4.5 Sea X1 , X2 , · · · , Xn una muestra aleatoria de ta-


maño n seleccionada de una población cuya distribución es f ( x, θ ),
(discreta o continua).

Un estimador lineal del parámetro θ es un estimador de la


forma:
θ̂ = a1 X1 + a2 X2 + · · · + an Xn

donde los coeficientes ai son reales.

Ejemplo 4.5 Sea X1 , X2 , · · · , Xn una muestra aleatoria de ta-


maño n seleccionada de una población cuya distribución es f ( x, µ),
(discreta o continua).

Un estimador lineal del parámetro θ = µ es la media mues-


tral
∑in=1 Xi 1 1 1
X= = X1 + X2 + · · · + X n
n n n n

Proposición 4.1 Sea X1 , X2 , · · · , Xn una muestra aleatoria de


tamaño n seleccionada de una población cuya distribución es f ( x, µ),
(discreta o continua). De los estimadores lineales de µ, el estima-
dor con menor varianza es X, es decir, X es un estimador lineal y
eficiente.

Ejemplo 4.6 Ver el ejemplo 9.3 página 382 del libro Córdova.

101
4.3. Estimador de máxima verosimili-
tud

Uno de los mejores métodos para obtener un estimador


puntual es el de maxima verosimilitud o similitud.

Definición 4.6 Sea X1 = x1 , X2 = x2 , · · · , Xn = xn una


muestra aleatoria de tamaño n seleccionada de una población cu-
ya distribución es f ( x, θ ), (discreta o continua). La función de
probabilidad de la muestra es
L ( θ ) = f ( x1 , θ ) f ( x2 , θ ) · · · f ( x n , θ ).

Nótese que la función de probabilidad es ahora función úni-


camente del parametro desconocido θ. El estimador de máxima
verosimilitud o similitud de θ es el valor de θ que maximiza
la función de probabilidad L(θ ). En esencia, el estimador de má-
xima similitud es el valor de θ que maximiza la probabilidad
de ocurrencia de los resultados de la muestra.

Cuando se halla el máximo de la función L(θ ) los cálcu-


los son algo tediosos, por ello por las propiedades de la fun-
ción logaritmo, tenemos la siguiente alternativa más prácti-
ca para hallar el máximo de L(θ ).

Proposición 4.2 Sea X1 = x1 , X2 = x2 , · · · , Xn = xn una


muestra aleatoria de tamaño n seleccionada de una población cuya
distribución es f ( x, θ ), (discreta o continua). Y sea la función de
probabilidad de la muestra es
L ( θ ) = f ( x1 , θ ) f ( x2 , θ ) · · · f ( x n , θ ).

102
Si f ( x1 , θ ) > 0, f ( x2 , θ ) > 0, · · · f ( xn , θ ) > 0, entonces el
valor de θ que maximiza a L(θ ) es el mismo que maximiza la
función ln( L(θ ))

Ejemplo 4.7 Ver los ejemplos 10.3, 10.4, y 10.6 del libro Mont-
gomery páginas 290-292.

Ejercicios 4.3.1 Sea X1 , X2 , · · · , Xn una muestra aleatoria de


una distribución exponencial con parámetro α, es decir, la función
de densidad de esta distribución es f ( x ) = αe−αx , para x ≥ 0, y
cero de otra forma. Hallar el estimador de máxima verosimilitud
de α.

103
Capítulo 5

Intervalos de confianza

En esta sección describimos otra alternativa para ha-


llar parámetros desconocidos en una distribución. Esto lo
haremos construyendo un intervalo de la forma ( a, b) que
contenga al parámetro θ con una confianza cercana a uno, y
de tal manera que el intervalo sea de mínima longitud. Más
precisamente hablando tenemos la siguiente.

Definición 5.1 Sea X1 , X2 , · · · , Xn una muestra aleatoria de una


distribución con función de densidad f = f ( x, θ ), donde θ es
un parámetro real desconocido. Sea α ∈ (0, 1). Un intervalo de
confianza bilateral del (100)(1 − α) por ciento para el paráme-
tro desconocido θ es un intervalo de la forma ( a, b) que satisface
las siguientes propiedades:

1. P( a < θ < b) = 1 − α
2. La longitud del intervalo ( a, b) debe ser lo más cercana a

105
cero.

Definición 5.2 Sea X1 , X2 , · · · , Xn una muestra aleatoria de una


distribución con función de densidad f = f ( x, θ ), donde θ es
un parámetro real desconocido. Sea α ∈ (0, 1). Un intervalo de
confianza superior del (100)(1 − α) por ciento para el pará-
metro desconocido θ es un intervalo de la forma (−∞, b), con la
propiedad
P(θ < b) = 1 − α

Definición 5.3 Sea X1 , X2 , · · · , Xn una muestra aleatoria de una


distribución con función de densidad f = f ( x, θ ), donde θ es
un parámetro real desconocido. Sea α ∈ (0, 1). Un intervalo de
confianza inferior del (100)(1 − α) por ciento para el parámetro
desconocido θ es un intervalo de la forma ( a, ∞), con la propiedad

P( a < θ ) = 1 − α

106
5.1. Intervalos de confianza para la me-
dia con varianza conocida

Teorema 5.1 (Intervalo de confianza bilateral de una media


con varianza conocida) Sea X1 , ..., Xn una muestra aleatoria
normal o supongamos que n ≥ 30 (muestras grandes), suponga-
mos que µ, σ son la media desconocida y la desviación conocida,
entonces
 
σ σ
P X − z α2 √ < µ < X + z α2 √ = 1−α (5.1)
n n
donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el
número (cuantil)  α
z α2 = ϕ−1 1 −
2
.

Ejemplo 5.1 Ver ejemplo 7.1 de la página 327 del libro Mont-
gomery.

5.1.1. Selección del tamaño de la muestra

Definición 5.4 Supongamos que Θ̂ = Θ̂( X1 , X2 , · · · , Xn ) es


un estimador de un parámetro desconocido θ, el error de aproxi-
mación de Θ̂ = Θ̂( X1 , X2 , · · · , Xn ) hacia θ es
E = ∥Θ̂ − θ ∥.
Cuando el parámetro θ es real, entonces
E = |Θ̂ − θ |

107
La fórmula (5.1) es equivalente a
 
σ
P | X − µ| < z α2 √ = 1 − α. (5.2)
n

Luego si deseamos conocer el tamaño mínimo de la muestra


para que el error de aproximación

E = | X − µ|

sea menor que una tolerancia prefijada ε, entonces seleccio-


nemos un natural n de tal forma que
σ
z α2 √ < ε
n

que es equivalente a escoger n tal que


2
z α2 σ

n> .
ε

Lo anterior lo expresamos en la siguiente.

Proposición 5.1 Sea X1 , ..., Xn una muestra aleatoria normal o


supongamos que n ≥ 30 (muestras grandes), supongamos que
µ, σ son la media desconocida y la desviación conocida. Si n es un
natural con  α 2
z2σ
n> (5.3)
ε
entonces
E = | X − µ| < ε
con una confianza del (100)(1 − α) por ciento.

108
Ejemplo 5.2 Ver el ejemplo 7.2 página 329 del libro Montgo-
mery.

Ejemplo 5.3 Hacer el ejercicio 7.4 de la página 334 del libro


Montgomery.

Definición 5.5 El error estándar se define como


σ
e.e.( X ) = σX = √ .
n

Cuando la varianza es conocida, entonces la ecuación


(5.2) es equivalente a
 
P | X − µ| < z α2 e.e.( X ) = 1 − α. (5.4)

109
Teorema 5.2 (Intervalo de confianza superior de la media
conociendo varianza). Sea X1 , ..., Xn una muestra aleatoria nor-
mal o supongamos que n ≥ 30 (muestras grandes), supongamos
que µ, σ son la media desconocida y la desviación conocida, en-
tonces  
σ
P µ < X + zα √ = 1−α (5.5)
n
donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el
número (cuantil)
z α = ϕ −1 (1 − α ).
Al intervalo  
σ
−∞, X + zα √
n
se le llama un intervalo de confianza superior de 100(1 − α)
por ciento de confianza para la media µ, conociendo la varianza
σ2

Teorema 5.3 (Intervalo de confianza inferior de la media


conociendo varianza). Sea X1 , ..., Xn una muestra aleatoria nor-
mal o supongamos que n ≥ 30 (muestras grandes), supongamos
que µ, σ son la media desconocida y la desviación conocida, en-
tonces  
σ
P X − zα √ < µ = 1 − α (5.6)
n
donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el
número (cuantil)
z α = ϕ −1 (1 − α ).
Al intervalo  
σ
X − zα √ , ∞
n

110
se le llama un intervalo de confianza inferior de 100(1 − α)
por ciento de confianza para la media µ, conociendo la varianza
σ2

Ejemplo 5.4 Hacer el ejercicio 7.1 de la página 333 del libro


Montgomery.

111
5.2. Intervalos de confianza para la me-
dia con varianza desconocida

Teorema 5.4 (Intervalo de confianza bilateral de una media


con varianza desconocida.)

Sea X1 , ..., Xn una muestra aleatoria normal o supongamos


que n ≥ 30 (muestras grandes), supongamos que µ, σ son la me-
dia y la desviación ambas desconocidas, entonces
 
S S
P X − t α2 √ < µ < X + t α2 √ = 1−α (5.7)
n n

donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, el


número (cuantil)
−1
 α
t2 = F
α 1−
2
siendo F −1 la función acumulativa inversa de la distribución t-
student con n − 1 grados de libertad, y
s
∑in=1 ( Xi − X )2
S=
n−1

es la desviación estándar muestral.

Ejemplo 5.5 Hacer el ejemplo 7.4 de la página 337 del libro


Montgomery.

112
5.2.1. Selección del tamaño de la muestra

La fórmula (5.7) es equivalente a


 
S
P | X − µ| < t α2 √ = 1 − α. (5.8)
n
Luego si deseamos conocer el tamaño mínimo de la muestra
para que el error de aproximación
E = | X − µ|
sea menor que una tolerancia prefijada ε, entonces seleccio-
nemos un natural n de tal forma que
S
t α2 √ < ε
n
que es equivalente a escoger n tal que
 α 2
t2S
n> .
ε
Lo anterior lo expresamos en la siguiente.

Proposición 5.2 Sea X1 , ..., Xn una muestra aleatoria normal o


supongamos que n ≥ 30 (muestras grandes), supongamos que
µ, σ son la media y la desviación estándar ambas desconocidas. Si
n es un natural con
t 2
α
S
n> 2  (5.9)
 
ε

entonces
E = X−µ < ε
con una confianza del (100)(1 − α) por ciento.

113
Teorema 5.5 (Intervalo de cofianza superior de la media des-
coconociendo varianza).

Sea X1 , ..., Xn una muestra aleatoria normal o supongamos


que n ≥ 30 (muestras grandes), supongamos que µ, σ son la me-
dia y la desviación ambas desconocidas, entonces
 
S
P µ < X + tα √ = 1−α
n
donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el
número (cuantil)
t α = F −1 (1 − α )
donde F −1 es la función acumulativa inversa de la distribución
t-student con n − 1 grados de libertad. Al intervalo
 
S
−∞, X + tα √
n
se le llama un intervalo de confianza superior de 100(1 − α)
por ciento de confianza para la media µ, desconociendo la varianza
σ2

Teorema 5.6 (Intervalo de cofianza inferior de la media des-


coconociendo varianza). Sea X1 , ..., Xn una muestra aleatoria
normal o supongamos que n ≥ 30 (muestras grandes), supon-
gamos que µ, σ son la media y la desviación ambas desconocidas,
entonces  
S
P X − tα √ < µ = 1 − α
n
donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el
número (cuantil)
t α = F −1 (1 − α )

114
donde F −1 es la función acumulativa inversa de la distribución
t-student con n − 1 grados de libertad. Al intervalo
 
S
X − tα √ , ∞
n

se le llama un intervalo de confianza inferior de 100(1 − α)


por ciento de confianza para la media µ, desconociendo la varianza
σ2

Ejemplo 5.6 Hacer el ejercicio 7.15 de la página 345 del libro


Montgomery.

115
5.3. Intervalos de confianza para la di-
ferencia de medias con varianzas
conocidas

En esta sección describimos los intervalos bilaterales o


de un lado, que estiman la diferencia de dos medias de po-
blaciones normales o de poblaciones con muestras grandes.
Supondremos que las varianzas son conocidas.

Teorema 5.7 (Intervalo de confianza de la diferencia de me-


dias conociendo varianzas).

Sean X1 , ..., Xn ; Y1 , ..., Ym dos muestras aleatorias normales


o supongamos que n ≥ 30, m ≥ 30 (muestras grandes). Supon-
gamos además que µ1 , µ2 , σ1 , σ2 , son la medias desconocidas y las
desviaciones conocidas de las muestras (independientes) respecti-
vamente. Entonces
 
P X − Y − z α2 r < µ1 − µ2 < X − Y + z α2 r = 1 − α (5.10)
q
σ2 σ2
n + m , (1 − α ) ∈ (0, 1) es el grado de confianza
1 2
donde r =
del intervalo, y el número (cuantil)
 α
z α2 = ϕ−1 1 − .
2
Con X, Y las medias muestrales de las muestras

X1 , ..., Xn ; Y1 , ..., Ym

respectivamente.

116
Ejemplo 5.7 Hacer el ejercicio 7.3 de la página 331 del libro
Montgomery.

117
5.3.1. Selección del tamaño de la muestra

Si suponemos que las muestras son del mismo tamaño


n, la fórmula (5.10) es equivalente a
 s 
2
σ1 σ 2
P  ( X − Y ) − (µ1 − µ2 ) < z α2 + 2  = 1 − α.
n n
(5.11)
Luego si deseamos conocer el tamaño mínimo de la muestra
para que el error de aproximación
E = ( X − Y ) − ( µ1 − µ2 )
sea menor que una tolerancia prefijada ε, entonces seleccio-
nemos un natural n de tal forma que
s
σ12 σ22
z α2 + <ε
n n
que es equivalente a escoger n tal que
 α 2
z2
n> (σ12 + σ22 ).
ε
Lo anterior lo expresamos en la siguiente.

Proposición 5.3 Sean X1 , ..., Xn ; Y1 , ..., Yn dos muestras aleato-


rias normales del mismo tamaño, o supongamos que n ≥ 30
(muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 , son
la medias desconocidas y las desviaciones conocidas de las mues-
tras (independientes) respectivamente. Sí n es un natural con
 α 2
z2
n> (σ12 + σ22 ). (5.12)
ε

118
Entonces
E = ( X − Y ) − ( µ1 − µ2 ) < ε
con una confianza del (100)(1 − α) por ciento.

119
Teorema 5.8 (Intervalo superior de confianza de la diferen-
cia de medias conociendo varianzas).

Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y las desviaciones conocidas, de las
muestras (independientes) respectivamente. Entonces
 s 
σ12 σ22
P  µ1 − µ2 < X − Y + z α +  = 1−α (5.13)
n m

donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el


número (cuantil)
z α = ϕ −1 (1 − α ).
Con X, Y las medias muestrales de las muestras

X1 , ..., Xn ; Y1 , ..., Ym

respectivamente.

120
Teorema 5.9 (Intervalo inferior de confianza de la diferen-
cia de medias conociendo varianzas).

Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y las desviaciones conocidas, de las
muestras (independientes) respectivamente. Entonces
 s 
σ12 σ22
P  X − Y − zα + < µ1 − µ2  = 1 − α (5.14)
n m

donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el


número (cuantil)
z α = ϕ −1 (1 − α ).
Con X, Y las medias muestrales de las muestras

X1 , ..., Xn ; Y1 , ..., Ym

respectivamente.

Ejemplo 5.8 Hacer el ejercicio 7.2 de la página 333 del libro


Montgomery.

121
5.4. Intervalos de confianza para la di-
ferencia de medias con varianzas
desconocidas pero iguales

En esta sección describimos los intervalos bilaterales o


de un lado, que estiman la diferencia de dos medias de po-
blaciones normales o de poblaciones con muestras grandes.
Supondremos que las varianzas son desconocidas.

Teorema 5.10 (Intervalo de confianza de la diferencia de me-


dias, con varianzas desconocidas iguales).

Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas pero
iguales, de las muestras (independientes) respectivamente. En-
tonces
 
P X − Y − t α2 Sr < µ1 − µ2 < X − Y + t α2 Sr = 1 − α
q (5.15)
1 1
Con r = n + m , y (1 − α ) ∈ (0, 1) el grado de confianza del
intervalo, y el número (cuantil)
α
t α2 = F −1 (1 − ),
2
siendo F −1 la inversa de la distribución t-student con m + n − 2
grados de libertad, y X, Y las medias muestrales de las muestras
X1 , ..., Xn ; Y1 , ..., Ym

122
respectivamente, y
n
1   ( Xi − X ) 2
S2 =
n+m−2
(n − 1)S12 + (m − 1)S22 , S12 = ∑ n−1 ,
1

m
(Yi − Y )2
S22 = ∑ m−1
1

Ejemplo 5.9 Hacer el ejemplo 7.5 de la página 340 del libro


Montgomery.

123
Teorema 5.11 (Intervalo de confianza superior de la dife-
rencia de medias, con varianzas desconocidas iguales).

Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas pero
iguales, de las muestras (independientes) respectivamente. En-
tonces
r !
1 1
P µ1 − µ2 < X − Y + t α S + = 1−α (5.16)
n m

donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el


número (cuantil)
t α = F −1 (1 − α ),
siendo F −1 la inversa de la distribución t-student con m + n − 2
grados de libertad, y X, Y las medias muestrales de las muestras

X1 , ..., Xn ; Y1 , ..., Ym

respectivamente, y
n
1   ( Xi − X ) 2
2
S =
n+m−2
(n − 1)S1 + (m − 1)S2 , S12 =
2 2
∑ n−1
,
1

m
(Yi − Y )2
S22 = ∑ m−1
1

124
Teorema 5.12 (Intervalo de confianza inferior de la diferen-
cia de medias, con varianzas desconocidas iguales).

Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas igua-
les, de las muestras (independientes) respectivamente. Entonces
r !
1 1
P X − Y − tα S + < µ1 − µ2 = 1 − α (5.17)
n m

donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el


número (cuantil)
t α = F −1 (1 − α ),
siendo F −1 la inversa de la distribución t-student con m + n − 2
grados de libertad, y X, Y las medias muestrales de las muestras

X1 , ..., Xn ; Y1 , ..., Ym

respectivamente, y
n
1   ( Xi − X ) 2
S2 =
n+m−2
(n − 1)S12 + (m − 1)S22 , S12 = ∑ n−1 ,
1

m
(Yi − Y )2
S22 = ∑ m−1
1

125
5.5. Intervalos de confianza para la di-
ferencia de medias con varianzas
desconocidas distintas

En esta sección describimos los intervalos bilaterales o


de un lado, que estiman la diferencia de dos medias de po-
blaciones normales o de poblaciones con muestras grandes.
Supondremos que las varianzas son desconocidas distintas.

Teorema 5.13 (Intervalo de confianza de la diferencia de me-


dias con varianzas desconocidas distintas).

Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas con-
sideradas distintas, de las muestras (independientes) respecti-
vamente. Entonces
 
P X − Y − t α2 r < µ1 − µ2 < X − Y + t α2 r = 1 − α (5.18)
q
S12 S22
donde r = n + m , y (1 − α ) ∈ (0, 1) el grado de confianza
del intervalo, el número (cuantil)
α
t α2 = F −1 (1 − ),
2
− 1
F la función acumulativa inversa de la distribución t-student
con v grados de libertad, siendo
n m
( Xi − X ) 2 2 (Yi − Y )2
S12 = ∑ n−1 2 ∑ m−1 , S =
1 1

126
2
S12 S22

n + m
v=  2 2 2 −2
S22

S
1
n m
n +1 + m +1

X, Y son las medias muestrales de las muestras

X1 , ..., Xn ; Y1 , ..., Ym

respectivamente.

127
Teorema 5.14 (Intervalo de confianza superior de la dife-
rencia de medias con varianzas desconocidas distintas).

Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas con-
sideradas distintas, de las muestras (independientes) respecti-
vamente. Entonces
 s 
2
S1 S2 2
P  µ1 − µ2 < X − Y + t α +  = 1−α (5.19)
n m

donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el


número (cuantil)
t α = F −1 (1 − α ),
con F −1 la función acumulativa inversa de la distribución t-student
con v grados de libertad, y
n m
( Xi − X ) 2 2 (Yi − Y )2
S12 = ∑ n−1 2 ∑ m−1 , S =
1 1
2
S12 S22

n + m
v=  2 2 2 −2
S22

S
1
n m
n +1 + m +1
X, Y son las medias muestrales de las muestras
X1 , ..., Xn ; Y1 , ..., Ym
respectivamente.

128
Teorema 5.15 (Intervalo de confianza inferior de la diferen-
cia de medias con varianzas desconocidas distintas).

Sean
X1 , ..., Xn ; Y1 , ..., Ym
dos muestras aleatorias normales o supongamos que n ≥ 30, m ≥
30 (muestras grandes). Supongamos además que µ1 , µ2 , σ1 , σ2 ,
son la medias desconocidas y la desviaciones desconocidas con-
sideradas distintas, de las muestras (independientes) respectiva-
mente. Entonces
 s 
S12 S22
P  X − Y − tα + < µ1 − µ2  = 1 − α (5.20)
n m

donde (1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el


número (cuantil)
t α = F −1 (1 − α ),
siendo F −1 la función acumulativa inversa de la distribución t-
student con v grados de libertad, y
n m
( Xi − X ) 2 2 (Yi − Y )2
S12 = ∑ n−1 2 ∑ m−1 , S =
1 1
2
S12 S22

n + m
v=  2 2 2 −2
S22

S
1
n m
n +1 + m +1

X, Y son las medias muestrales de las muestras

X1 , ..., Xn ; Y1 , ..., Ym

respectivamente.

129
Ejemplo 5.10 Hacer el ejercicio 7.22 de la página 346 del libro
Montgomery.

Observaciones:

1. Si a < µ1 − µ2 < b < 0, entonces µ1 − µ2 < 0, lo que


implica que µ1 < µ2 estadísticamente hablando.

2. Si 0 < a < µ1 − µ2 < b, esto sgnifica que 0 < µ1 − µ2 ,


lo que implica que µ2 < µ1 estadísticamente hablando

3. Si el intervalo de confianza [ a, b] de la diferencia µ1 −


µ2 contiene al cero, entonces no hay suficientes da-
tos (estadísticamente hablando) para suponer que hay
una diferencia de las medias; es decir; pueden ser igua-
les.

5.6. Ejercicios

Resolver los siguientes problemas ocupando sólo Mini-


tab. El libro de los ejercicios es Montgomery.

1. Páginas 333-335. Ejercicios: 7.2, 7.3, 7.5, 7.7, 7.8, 7.9,


7.13, 7.14

2. Páginas 345-348. Ejercicios: 7.15, 7.16, 7.17, 7.18, 7.21,


7.23, 7.24, 7.25, 7.26, 7.27, 7.30

130
5.7. Intervalos de confianza para una pro-
porción

En esta sección describiremos los intervalos de confian-


za de una proporción.

Teorema 5.16 (Intervalo de confianza bilateral de una pro-


porción). Sea X1 , ..., Xn una muestra Bernoulli con parámetro p,
es decir, p es la probabilidad de éxito. Entonces

" r r #
p̂(1 − p̂) p̂(1 − p̂)
P p̂ − z α2 < p < p̂ + z α2 = 1−α
n n
(5.21)
donde p̂ es el número de éxitos en la muestra sobre el tamaño de
la muestra, es decir la frecuencia relativa; (1 − α) ∈ (0, 1) es el
grado de confianza del intervalo, y el número (cuantil)
 α
z α2 = ϕ−1 1 − .
2
Es decir, el intervalo donde el parámetro desconocido p está con
una confianza 1 − α, es
r r !
p̂(1 − p̂) p̂(1 − p̂)
p̂ − z α2 , p̂ + z α2
n n

Ejemplo 5.11 Ver ejemplo 7.9 de la página 356 del libro Mont-
gomery.

131
5.7.1. Selección del tamaño de la muestra

La fórmula (5.21) es equivalente a


r !
p̂(1 − p̂)
P | p̂ − p| < z α2 = 1 − α. (5.22)
n

Luego si deseamos conocer el tamaño mínimo de la muestra


para que el error de aproximación

E = | p̂ − p|

sea menor que una tolerancia prefijada ε, entonces seleccio-


nemos un natural n de tal forma que
r
p̂(1 − p̂)
z α2 <ε
n
que es equivalente a escoger n tal que
2
z α2

n > p̂q̂ . (5.23)
ε

donde q̂ = 1 − p̂.

132
Lo anterior lo podemos resumir en el siguiente resulta-
do

 z α 2
Proposición 5.4 Sea ε > 0, si n > p̂q̂ ε2 , donde q̂ = 1 − p̂,
entonces,
P (| p̂ − p| < ε) = 1 − α.
 z α 2
Si desconocemos la muestra, entonces, si n > 14 ε2 , entonces,

P (| p̂ − p| < ε) = 1 − α.

Proposición 5.5 Si p̂ es la proporción muestral de éxitos en la


realización de una muestra aleatoria de tamaño n(n > 30), y
a < p < b es un intervalo del (1 − α)100 % de confianza para el
parámetro p, entonces,
 
n
r
1 − α = 2ϕ (b − p̂) −1
p̂(1 − p̂)

Ejemplo 5.12 Ver ejemplo 7.10 de la página 357 del libro Mont-
gomery.

Ejemplo 5.13 Ver el ejemplo 3.37 página 159 del libro Eduardo.

Teorema 5.17 (Intervalo de confianza superior de una pro-


porción). Sea X1 , ..., Xn una muestra Bernoulli con parámetro p,
es decir, p es la probabilidad de éxito. Entonces
" r #
p̂(1 − p̂)
P p < p̂ + zα = 1−α (5.24)
n

133
donde p̂ es el número de éxitos en la muestra sobre el tamaño de
la muestra, es decir la frecuencia relativa; (1 − α) ∈ (0, 1) es el
grado de confianza del intervalo, y el número (cuantil)

z α = ϕ −1 (1 − α ).

Es decir, el intervalo superior donde el parámetro desconocido p


está con una confianza 1 − α, es
r !
p̂(1 − p̂)
−∞, p̂ + zα
n

Teorema 5.18 (Intervalo de confianza inferior de una pro-


porción). Sea X1 , ..., Xn una muestra Bernoulli con parámetro p,
es decir, p es la probabilidad de éxito. Entonces
" r #
p̂(1 − p̂)
P p̂ − zα < p = 1−α (5.25)
n

donde p̂ es el número de éxitos en la muestra sobre el tamaño de


la muestra, es decir la frecuencia relativa; (1 − α) ∈ (0, 1) es el
grado de confianza del intervalo, y el número (cuantil)

z α = ϕ −1 (1 − α ).

Es decir, el intervalo inferior donde el parámetro desconocido p


está con una confianza 1 − α, es
r !
p̂(1 − p̂)
p̂ − zα ,∞
n

134
NOTA.

1. Los datos como la media muestral, la varianza nues-


tral, etc, para datos no resumidos (es decir datos que
no se dan explicitamente) se calculan a mano con las
fórmulas conocidas que se indican o por medio de Mi-
nitab. Las instrucciones son con las secuencias en or-
den: Estadísticas, estadísticas básicas, mostrar estadís-
ticas descriptivas, llenar los espacios, etc.

2. Para calcular los cuantiles se utilizan tablas o minitab.


En minitab las instrucciones son en el orden: cálculo,
distribuciones de probabilidad, nombre de la distribu-
ción, probabillidad acumulativa inversa, constante de
entrada (Aquí se pone la confianza por ejemplo 90,95
por ciento ).

3. El cálculo del intervalo de confianza se puede tam-


bién calcular directamente con minitab, las instruccio-
nes son en el orden: Eatadísticas, estadísticas básicas,
preba z, prueba t, etc.

135
5.8. Ejercicios

Hacer los siguientes ejercicios del libro Motgomery: 7-


40, 7-41, 7-42, 7-44. Página 360

5.9. Intervalos de confianza para la di-


ferencia de proporciones

En esta sección describiremos los intervalos de confian-


za de la diferencia de proporciones.

Teorema 5.19 (Intervalo de confianza bilateral de la dife-


rencia de proporciones). Sean X1 , ..., Xn ; Y1 , ..., Ym dos mues-
tras de Bernoulli con parámetros p1 , p2 respectivamente, es decir,
p1 es la probabilidad de éxito en la primera nuestra y p2 es la
probabilidad de éxito de la segunda muestra. Si X, Y representan
el número de éxitos en la primera y segunda muestra, respecti-
vamente, y pˆ1 = Xn , pˆ2 = m Y
son las frecuencias relativas de la
primera y segunda muestra, respectivamente, entonces
 
P pˆ1 − pˆ2 − z r < p1 − p2 < pˆ1 − pˆ2 + z r = 1 − α
α
2
α
2
(5.26)
donde r
pˆ1 (1 − pˆ1 ) pˆ (1 − pˆ2 )
r= + 2 ,
n m

136
(1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el núme-
ro (cuantil)  α
z α2 = ϕ−1 1 − .
2
Es decir, el intervalo donde el parámetro desconocido p1 − p2 está
con una confianza 1 − α, es
 
pˆ1 − pˆ2 − z α2 r, pˆ1 − pˆ2 + z α2 r

Ejemplo 5.14 Ver ejemplo 7.11 de la página 359 del libro Mont-
gomery.

Teorema 5.20 (Intervalo de confianza superior de la dife-


rencia de proporciones). Sean X1 , ..., Xn ; Y1 , ..., Ym dos mues-
tras de Bernoulli con parámetros p1 , p2 respectivamente, es decir,
p1 es la probabilidad de éxito en la primera nuestra y p2 es la
probabilidad de éxito de la segunda muestra. Si X, Y representan
el número de éxitos en la primera y segunda muestra, respecti-
vamente, y pˆ1 = Xn , pˆ2 = m Y
son las frecuencias relativas de la
primera y segunda muestra, respectivamente, entonces
P ( p1 − p2 < pˆ1 − pˆ2 + zα r ) = 1 − α (5.27)
donde r
pˆ1 (1 − pˆ1 ) pˆ (1 − pˆ2 )
r= + 2 ,
n m
(1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el núme-
ro (cuantil)
z α = ϕ −1 (1 − α ).
Es decir, el intervalo superior donde el parámetro desconocido
p1 − p2 está con una confianza 1 − α, es
r !
pˆ1 (1 − pˆ1 ) pˆ2 (1 − pˆ2 )
−∞, pˆ1 − pˆ2 + zα +
n m

137
Teorema 5.21 (Intervalo de confianza inferior de la diferen-
cia de proporciones). Sean X1 , ..., Xn ; Y1 , ..., Ym dos muestras de
Bernoulli con parámetros p1 , p2 respectivamente, es decir, p1 es la
probabilidad de éxito en la primera nuestra y p2 es la probabilidad
de éxito de la segunda muestra. Si X, Y representan el número
de éxitos en la primera y segunda muestra, respectivamente, y
Y
pˆ1 = Xn , pˆ2 = m son las frecuencias relativas de la primera y
segunda muestra, respectivamente, entonces

P ( pˆ1 − pˆ2 − zα r < p1 − p2 ) = 1 − α (5.28)

donde r
pˆ1 (1 − pˆ1 ) pˆ (1 − pˆ2 )
r= + 2 ,
n m
(1 − α) ∈ (0, 1) es el grado de confianza del intervalo, y el núme-
ro (cuantil)
z α = ϕ −1 (1 − α ).
Es decir, el intervalo inferior donde el parámetro desconocido p1 −
p2 está con una confianza 1 − α, es
r !
pˆ1 (1 − pˆ1 ) pˆ2 (1 − pˆ2 )
pˆ1 − pˆ2 − zα + , +∞
n m

138
Proposición 5.6 (Tamaño de la muestra). Sea ε > 0, α ∈
(0, 1), y sean X1 , ..., Xn ; Y1 , ..., Yn dos muestras de Bernoulli con
parámetros p1 , p2 respectivamente, es decir, p1 es la probabilidad
de éxito en la primera nuestra y p2 es la probabilidad de éxito de
la segunda muestra. Supongamos que X, Y representan el núme-
ro de éxitos en la primera y segunda muestra, respectivamente,
y pˆ1 = Xn , pˆ2 = Yn son las frecuencias relativas de la primera y
segunda muestra, respectivamente.

1. Si n es un número natural que satisface:


"  #
z α2 2
n≥ ( pˆ1 (1 − pˆ1 ) + pˆ2 (1 − pˆ2 ))
ε

entonces,
P[|( p1 − p2 ) − ( pˆ1 − pˆ2 )| < ε] = 1 − α
  2 

1
2. Si n ≥ 2
2
ε , entonces,

P[|( p1 − p2 ) − ( pˆ1 − pˆ2 )| < ε] = 1 − α

Aquí z α2 = ϕ−1 1 − α

2 .

Proposición 5.7 Si p1 , p2 son las proporciones de éxitos de las


realizaciones de dos muestras aleatorias independientes de tamaño
n1 y n2 (n1 , n2 ≥ 30), y a < p1 − p2 < b es un intervalo del
(1 − α)100 % de confianza para la diferencia p1 − p2 , entonces:
 
b − ( pˆ1 − pˆ2 )
1 − α = 2ϕ  q −1
pˆ1 (1− pˆ1 ) pˆ2 (1− pˆ2 )
n + m

139
Ejemplo 5.15 Ver el ejemplo 3.39 página 161 del libro Eduardo.

NOTA:

1. Si el intervalo de confianza de p1 − p2 es ( a, b), y si


tenemos a < p1 − p2 < b < 0, entonces p1 − p2 < 0, lo
que implica que estadísticamente hablando p1 < p2

2. Si el intervalo de confianza de p1 − p2 es ( a, b), y si


tenemos 0 < a < p1 − p2 < b, entonces 0 < p1 − p2 , lo
que implica que estadísticamente hablando p2 < p1

3. Si el intervalo de confianza de p1 − p2 es ( a, b), y si


tenemos que el intervalo contiene al cero, entonces no
hay evidencias estadísticas para argumentar que hay
diferencia en las proporciones

5.10. Ejercicios

Hacer los siguientes ejercicios del libro Motgomery: 7-


46, 7-47. Página 361

140
5.11. Intervalos de confianza de una va-
rianza

En esta sección describimos los resultados de los inter-


valos de confianza de una varianza.

Teorema 5.22 (Intervalo de confianza bilateral de una va-


rianza). Sea X1 , ..., Xn una muestra aleatoria normal con media
µ, y varianza σ2 , ambas desconocidas entonces
" #
( n − 1) S2 ( n − 1 ) S 2
P 2
< σ2 < 2 = 1 − α, (5.29)
χ α ,n−1 χ1− α ,n−1
2 2

es decir, el intervalo bilateral de (1 − α) por ciento de la varianza


σ2 es !
( n − 1) S2 ( n − 1) S2
, 2
χ2α ,n−1 χ1− α ,n−1
2 2

Aquí (1 − α) es la confianza del intervalo, α ∈ (0, 1),


n
( Xi − X ) 2
S2 = ∑ n−1 ,
i =1

y los números
χ2α ,n−1 , χ21− α ,n−1
2 2

satisfacen las relaciones


 α
χ2α ,n−1 = F −1 1 −
2 2
y α
χ21− α ,n−1 = F −1
2 2

141
siendo F −1 la función acumulativa inversa de la distribución χ2
con n − 1 grados de libertad.

Ejemplo 5.16 Una máquina produce piezas metálicas en forma


cilíndrica. Para estimar la variabilidad de los diámetros, se toma
una muestra aleatoria de 10 piezas producidas por la máquina
encontrando los siguientes diámetros en centímetros:
10.1, 9.7, 10.3, 10.4, 9.9, 9.8, 9.9, 10.1, 10.3, 9.9
encuentre el intervalo de confianza del 95 por ciento para la va-
rianza de los diámetros de todas las piezas producidas por la má-
quina. Suponga que los diámetros de las piezas tienen una distri-
bución normal.

Solución:

Aquí tenemos
1 − α = 0.95; α = 0.025; n = 10; n − 1 = 9; S2 = 0.056.
Al aplicar minitab (se utiliza la F inversa acumulativa de la
χ2 con 9 grados de libertad) se obtiene:

χ2α ,n−1 = χ20.025,9 = F −1 (1 − 0.025) = F −1 (0.975) = 19.02


2

χ21− α ,n−1 = χ21−0.025,9 = χ20.975,9 = F −1 (1 − 0.975) = 2.70.


2

Finalmente se reemplazan los datos en la fórmula del teore-


ma precedente para obtener
 
9(0.056) 2 9(0.056)
0.95 = 1 − α = P <σ <
19.02 2.70

142
equivalente a
h i
2
0.95 = P 0.0265 < σ < 0.1867

es decir, el intervalo de confianza de σ2 es


(0.0265, 0.1867),
o sea, se tiene que
0.0265 < σ2 < 0.1867.
Si obtenemos raiz cuadrada a la desigualdad anterior, tene-
mos
0.1628 < σ < 0.432
un intervalo de confianza para la desviación estándar (con
la misma confianza que el de la varianza)

Teorema 5.23 (Intervalo de confianza superior de una va-


rianza). Sea X1 , ..., Xn una muestra aleatoria normal con media
µ, y varianza σ2 , ambas desconocidas entonces
" #
( n − 1 ) S 2
P σ2 < 2 = 1 − α, (5.30)
χ1−α,n−1

es decir, el intervalo superior de (1 − α) por ciento de la varianza


σ2 es !
( n − 1) S2
−∞, 2 .
χ1−α,n−1
Aquí (1 − α) es la confianza del intervalo, α ∈ (0, 1),
n
( Xi − X ) 2
S2 = ∑ n−1 ,
i =1

143
y el número χ21−α,n−1 satisface la relación

χ21−α,n−1 = F −1 (α)

siendo F −1 la función acumulativa inversa de la distribución χ2


con n − 1 grados de libertad.

Teorema 5.24 (Intervalo de confianza inferior de una va-


rianza). Sea X1 , ..., Xn una muestra aleatoria normal con media
µ, y varianza σ2 , ambas desconocidas entonces
" #
( n − 1) S2
P 2
< σ2 = 1 − α, (5.31)
χα,n−1

es decir, el intervalo inferior de (1 − α) por ciento de la varianza


σ2 es !
( n − 1) S2
, +∞ .
χ2α,n−1
Aquí (1 − α) es la confianza del intervalo, α ∈ (0, 1),
n
( Xi − X ) 2
S2 = ∑ n−1 ,
i =1

y el número χ2α,n−1 satisface la relación

χ2α,n−1 = F −1 (1 − α)

siendo F −1 la función acumulativa inversa de la distribución χ2


con n − 1 grados de libertad.

Ejemplo 5.17 Ver ejemplo 7.7 de la página 350 del libro Mont-
gomery.

144
5.12. Ejercicios

Hacer los siguientes ejercicios del libro Motgomery: 7-


31, 7-32, 7-35. Página 354

5.13. Intervalo de confianza de un coci-


ciente de varianzas

En esta sección describiremos el intervalo bilateral, su-


perior e inferior del cociente de dos varianzas. Este interva-
lo sirve para comparar las varianzas de dos muestras. Pero
antes definiremos la distribución F de Fisher que esta rela-
cionada con estos intervalos.

Teorema 5.25 (Intervalo de confianza bilateral del cociente


de varianzas) Sean X1 , ..., Xn1 ; Y1 , ..., Yn2 dos muestras norma-
les independientes con medias µ1 , µ2 respectivamente; y varianzas
σ12 y σ22 . Entonces
" #
S12 σ12 S12
P 2 F1− α2 ,n2 −1,n1 −1 < 2 < 2 Fα2 ,n2 −1,n1 −1 = 1 − α
S2 σ2 S2
(5.32)
donde
n1 n2
( Xi − X̄ )2 (Yi − Ȳ )2
S12 = ∑ n1 − 1 , S22 = ∑ n2 − 1 ,
i =1 i =1
y donde
α  α
F1− α2 ,n2 −1,n1 −1 = F −1 , Fα2 ,n2 −1,n1 −1 = F −1 1 − .
2 2

145
Aquí F es la función acumulativa de la distribución F de Fisher
con n2 − 1 grados de libertad en el numerador, y n1 − 1 grados de
libertad en el denominador. Al valor 1 − α se le llama la confianza
del intervalo
!
S12 S12
F1− α2 ,n2 −1,n1 −1 , 2 Fα2 ,n2 −1,n1 −1
S22 S2

bilateral del cociente de varianzas


σ12
σ22
.

OBSERVACIÓN. Sea ( a, b) el intervalo de confianza


σ12
del cociente de varianzas σ22
.

σ12 σ12
1. Si a < σ22
< b < 1, entonces σ22
< 1, lo cual implica
que σ12 < σ22
2.
σ12 σ12
3. Si 1 < a < σ22
< b, entonces 1 < σ22
, lo cual implica
que σ22 < σ12
σ12
4. Si el intervalo ( a, b) de confianza del cociente σ22
con-
tiene al uno, entonces no podemos concluir estadisti-
camente que haya diferencia entre las varianzas.

Ejemplo 5.18 Ver ejemplo 7.8 de la página 353 del libro Mont-
gomery.

146
Teorema 5.26 (Intervalo de confianza superior del cociente
de varianzas.) Sean X1 , ..., Xn1 ; Y1 , ..., Yn2 dos muestras norma-
les independientes con medias µ1 , µ2 respectivamente; y varianzas
σ12 y σ22 . Entonces
" #
σ12 S12
P 2 < 2 Fα,n2 −1,n1 −1 = 1 − α, (5.33)
σ2 S2

donde
n1 n2
( Xi − X̄ )2 (Yi − Ȳ )2
S12 =∑ , S22 =∑ ,
i =1
n1 − 1 i =1
n2 − 1

y donde
Fα,n2 −1,n1 −1 = F −1 (1 − α) .
Aquí F es la función acumulativa de la distribución F de Fisher
con n2 − 1 grados de libertad en el numerador, y n1 − 1 grados de
libertad en el denominador. Al valor 1 − α se le llama la confianza
del intervalo !
S12
−∞, 2 Fα,n2 −1,n1 −1
S2
superior del cociente de varianzas

σ12
σ22
.

Teorema 5.27 (Intervalo de confianza inferior del cociente


de varianzas.) Sean X1 , ..., Xn1 ; Y1 , ..., Yn2 dos muestras norma-
les independientes con medias µ1 , µ2 respectivamente; y varianzas

147
σ12 y σ22 . Entonces
" #
S12 σ12
P 2 F1−α,n2 −1,n1 −1 < 2 = 1 − α, (5.34)
S2 σ2

donde
n1 n2
( Xi − X̄ )2 (Yi − Ȳ )2
S12 = ∑ n1 − 1 , S22 = ∑ n2 − 1 ,
i =1 i =1

y donde
F1−α,n2 −1,n1 −1 = F −1 (α) .
Aquí F es la función acumulativa de la distribución F de Fisher
con n2 − 1 grados de libertad en el numerador, y n1 − 1 grados de
libertad en el denominador. Al valor 1 − α se le llama la confianza
del intervalo !
S12
F1−α,n2 −1,n1 −1 , +∞
S22
inferior del cociente de varianzas

σ12
σ22
.

Ejemplo 5.19 Supongamos que tenemos dos muestras

X1 , ..., Xn1 ; Y1 , ..., Yn2

independientes con desviaciones muestrales

S1 = 0.85, S2 = 0.98,

148
respectivamente; y con n1 = 12, n2 = 15. Calcular el intervalo
bilateral del cociente
σ12
σ22
con una confianza del 90 por ciento.

Solución: Aquí 1 − α = 0.90, por tanto


α α
α = 0.10, = 0.05, 1− = 0.95
2 2
Luego por la fórmula del intervalo de confianza bilateral de

σ12
,
σ22

y considerando que en ejemplo precedente se calculó que

F1− α2 ,n2 −1,n1 −1 = F0.95,14,11 = F −1 (1 − 0.95) = 0.389788;

y tambien,

Fα2 ,n2 −1,n1 −1 = F0.05,14,11 = F −1 (1 − 0.05) = 2.73865,

entonces

(0.85)2 σ12 (0.85)2


(0.389788) < 2 < (2.73865)
(0.98)2 σ2 (0.98)2
o sea,
σ12
0.29 < 2 < 2.06,
σ2

149
es decir, el intervalo con la confianza del 90 por ciento para
el cociente
σ12
σ22
es (0.29, 2.06).

Como el intervalo (0.29, 2.06) contiene al uno, enton-


ces no podemos inferir estadisticamente hablando que las
varianzas sean distintas a una confianza del 90 por ciento.

150
NOTA.

En algunos textos se encuentra que el intervalo de con-


fianza para el cociente de varianzas tiene la forma:
!
S12 1 S12
, Fα ,n −1,n1 −1
S22 Fα2 ,n1 −1,n2 −1 S22 2 2

donde
−1
 α
Fα2 ,n1 −1,n2 −1 = F 1− ,
2
con F −1 la función acumulativa inversa de la F de Fisher con
n1 − 1 grados de libertad en el numerador, y n2 − 1 grados
de libertad en el denominador; y
 α
Fα2 ,n2 −1,n1 −1 = F −1 1 − ,
2
con F −1 la función acumulativa inversa de la F de Fisher con
n2 − 1 grados de libertad en el numerador, y n1 − 1 grados
de libertad en el denominador.

5.14. Ejercicios

Hacer los siguientes ejercicios del libro Motgomery: 7-


36, 7-37, 7-38, 7-39. Página 354

151
Capítulo 6

Prueba de hipótesis

El objetivo de este capítulo es dar algunos métodos que


se usan para tomar decisiones sobre poblaciones, a partir
de los resultados de una muestra aleatoria escogida de esa
población. Para llegar a tomar decisiones estadísticas se de-
be partir de afirmaciones o conjeturas con respecto a la po-
blación en el que estamos interesados. Tales suposiciones,
pueden ser verdaderas o no. Una conjetura hecha sobre una
población o sobre sus parámetros deberá ser sometida a
comprobación experimental con el propósito de saber si los
resultados de una muestra aleatoria extraída de esa pobla-
ción, contradicen o no tal conjetura.

153
6.1. Hipótesis estadísticas

Definición 6.1 Se denomina hipótesis estadística a cualquier


afirmación o conjetura que se hace acerca de la distribución de una
o más poblaciones.

La afirmación o conjetura puede referirse bien a la for-


ma o tipo de distribución de probabilidad de la población
o bien referirse al valor o valores de uno o más paráme-
tros de la distribución conocida su forma. En las aplicacio-
nes básicas, se supone dada la forma de la distribución de la
población. En este caso, las hipótesis estadísticas consisten
en suponer que los parámetros, que definen a la población,
toman determinados valores numéricos. Por ejemplo, son
hipótesis estadísticas :

1. La longitud media de un tipo de objetos es 10 centí-


metros.

2. La proporción de objetos defectuosos producidos por


cierto proceso nunca es superior al 8 %.

3. La varianza de la longitud de cierto tipo de objetos es


0.25cm2

4. Son iguales las medias de dos tipos de mediciones in-


dependientes X e Y que se distribuyen normalmente
con varianza común a σ2 .

Definición 6.2 Se denomina hipótesis simple a cualquier hi-


pótesis estadística que especifica completamente la distribución de

154
la población, es decir, especifica la forma de la distribución y el va-
lor de su(s) parámetro(s). Si una hipótesis no especifica completa-
mente la distribución de la población ae dice que es una hipótesis
compuesta.

Ejemplo 6.1 La hipótesis que establece que el ingreso mensual


promedio de los empleados de cierta ciudad es µ = $500, supo-
niendo que los ingresos mensuales se distribuyen según la normal
con desviación estándar conocida σ = $30, es una hipótesis sim-
ple, pues, especifica completamente la distribución de la población.
En cambio, si se supone que los ingresos mensuales se distribuyen
según la normal con desviación estándar conocida σ = $30 y se
afirma que el ingreso promedio mensual es µ = $500 ó µ < $500
ó µ > $500, entonces, la hipótesis referente a la media es una hi-
pótesis compuesta, pues, no especifica la media de la distribución
de la población de los ingresos.

Definición 6.3 Se denomina hipótesis nula y se representa por


H0 , a la hipótesis que es aceptada provisionalmente como verda-
dera y cuya validez será sometida a comprobación experimental.
Los resultados experimentales nos permitirán seguir aceptándola
como verdadera o si, por el contrario, debemos rechazarla como
tal.

Toda hipótesis nula va acompañada de otra hipótesis


alternativa.

Definición 6.4 Se denomina hipótesis alternativa y se repre-


senta por H1 , o por Ha a la hipótesis que se acepta en caso de que
la hipótesis nula H0 sea rechazada. La hipótesis alternativa Ha , es
pues una suposición contraria a la hipótesis nula.

155
Por ejemplo, si se asume que θ0 es un valor del pará-
metro desconocido θ de una población cuya distribución se
supone conocida, entonces son hipótesis nulas y alternati-
vas respectivamente las siguientes afirmaciones:

1. H0 : θ = θ0 y H1 : θ ̸= θ0

2. H0 : θ ≤ θ0 y H1 : θ > θ0

3. H0 : θ ≥ θ0 y H1 : θ < θ0

Definición 6.5 En general un contraste de hipótesis sobre un


parámetro θ desconocido tiene la forma:

H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1

donde Θ0 ∩ Θ1 = ∅.

Para tomar decisiones estadísticas, se requieren de las


dos hipótesis: la hipótesis nula y la hipótesis alternativa re-
feridas a un parámetro θ. La prueba de una hipótesis esta-
dística es un proceso que nos conduce a tomar la decisión
de aceptar o rechazar la hipótesis nula H0 , en contraposi-
ción de la hipótesis alternativa H1 y en base a los resultados
de una muestra aleatoria seleccionada de la población en
estudio.

La hipótesis nula H0 es la primera hipótesis que se plan-


tea, y debe ser establecida de manera que especifique un
valor θ0 del parámetro θ en estudio.

156
La aceptación de una hipótesis significa que los datos
de la muestra no proporcionan evidencia suficiente para re-
futarla. El rechazo significa que los datos de la muestra lo
refutan.

El tipo de prueba depende básicamente de la hipóte-


sis alternativa H1 . Se denomina prueba de una cola a toda
prueba de hipótesis donde la alternativa H1 es unilateral. Si
la alternativa es bilateral, la prueba se denomina prueba de
dos colas:

1. La prueba H0 : θ = θ0 y H1 : θ ̸= θ0 se llama prueba


de dos colas

2. H0 : θ = θ0 y H1 : θ > θ0 se llama prueba de cola


derecha

3. H0 : θ = θ0 y H1 : θ < θ0 se llama prueba de cola


izquierda

Al tomar la decisión de aceptar o rechazar la hipótesis


nula H0 : θ ∈ Θ en base a los resultados obtenidos de una
muestra aleatoria seleccionada de la población en estudio;
hay cuatro posibles situaciones que determinan si la deci-
sión tomada es correcta o incorrecta.

Definición 6.6 Se denomina error tipo I, al error que se comete


al rechazar una hipótesis nula H0 cuando esta realmente es ver-
dadera. La probabilidad de cometer un error tipo I se denota por α.
Entonces

α = P[error tipo I] = P[rechazarH0 | H0 es verdadera]

157
Definición 6.7 Se denomina error tipo II, al error que se comete
al aceptar una hipótesis nula H0 cuando en realidad es falsa. La
probabilidad de cometer un error tipo II se denota por β. Entonces

β = P[error tipo II] = P[aceptarH0 | H0 es falsa]

La siguiente tabla describe los cuatro casos posibles:

Desición H0 verdadera H0 falsa


Error tipo I Desición correcta
Rechazar H0
Probab:α Probab:1 − β
Desición correcta Error tipo II
Aceptar H0
Probab:1 − α Probab:β

Definición 6.8 Se denomina nivel de significación de una prue-


ba de hipótesis a la probabilidad de cometer un error de tipo I, es
decir, al valor α.

Definición 6.9 La potencia de una prueba es la probabilidad de


tomar la decisión acertada de, rechazar H0 cuando ésta es falsa o
de aceptar H1 cuando ésta es verdadera La potencia de una prueba
es calculada por 1 − β.

Para una muestra aleatoria de tamaño n seleccionada


de la población en estudio, si α aumenta, entonces β dismi-
nuye, y si β aumenta, entonces α disminuye. Por supuesto,
en todo proceso de toma de decisiones sobre hipótesis es-
tadísticas, es deseable disminuir las probabilidades de co-
meter esos dos tipos de errores.

158
Después de plantear la hipótesis nula H0 y su corres-
pondiente alternativa H1 , referentes a un parámetro θ, y es-
pecificado el tamaño α del nivel de significación de la prue-
ba de H0 contra H1 , se deberá determinar una estadística
de prueba correspondiente al parámetro, cuya distribución
muestral se conozca.

En la distribución de probabilidad fijada por la hipóte-


sis H0 : θ ∈ Θ0 se establece la regla de decisión de acuerdo
con la cual se rechazará o por el contrario se aceptará la
hipótesis H0 . El rechazo de la hipótesis nula H0 implica la
aceptación de H1 .

La regla de decisión implica la división de la distribu-


ción muestral del estadístico de la prueba en dos partes mu-
tuamente excluyentes: La región de rechazo o región crítica
(R.C.) de H0 , y la región de aceptación (R.A.) o no rechazo
de H0 . Esta división depende de la hipótesis alternativa H1 ,
del nivel de significación α y de la distribución muestral del
estadístico.

Definición 6.10 (Valor p). El valor p de una prueba de hipó-


tesis es el mínimo valor de los niveles de significancia a la
cual la hipótesis nula se rechaza; por tanto, se tiene el siguiente
criterio:

1. Si p ≤ α, entonces se rechaza la hipótesis nula, donde α es


el nivel de la prueba
2. Si p > α, entonces no se rechaza la hipótesis nula, donde α
es el nivel de la prueba. En la práctica no es sencillo calcular
el valor p; los paquetes de estadística ya tienen incluido un
programa para calcular el valor p.

159
6.1.1. Procedimiento de la prueba de hipótesis

Previamente debe formularse el problema estadístico,


determinar la variable en estudio y el método estadístico
adecuado para la solución del problema. El procedimiento
general de la prueba de una hipótesis de parámetro θ se re-
sume en los siguientes pasos:

1. Formular la hipótesis nula y la alternativa:

H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1

donde Θ0 ∩ Θ1 = ∅.

2. Especificar el tamaño α del nivel de significación.

3. Seleccionar la estadística apropiada a usar en la prue-


ba.

4. Establecer la regla de decisión, determinando la re-


gión crítica de la prueba.

5. Calcular e1 valor del estadístico de la prueba a partir


de los datos de la muestra

6. Tomar la decisión de rechazar la hipótesis H0 si el va-


lor del estadístico de la prueba está en la región crítica.
En caso contrario, no rechazar H0 .

160
6.2. Prueba de una media

En esta sección describimos las diferentes pruebas para


una media poblacional.

Teorema 6.1 (Prueba Z de un media con varianza conoci-


da). Supongamos que X1 , . . . , Xn es una muestra Xi ∼ N (µ , σ2 )
ó supongamos que n ≥ 30 , donde σ2 es conocida. Si

X − µ0
Z0 =
√σ
n

y
α ∈ (0 , 1)
un nivel de confianza, con

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero],

y  α
Z α2 = ϕ−1 1 − , Zα = ϕ−1 (1 − α).
2
Entonces:

H0 : µ = µ0
1. Sea
Ha : µ ̸ = µ 0

a) Si | Z0 | ≤ Z α2 ⇒ H0 no se rechaza
b) Si | Z0 | > Z α2 ⇒ H0 se rechaza

H0 : µ = µ0
2. Sea
Ha : µ < µ 0

161
a) Si Z0 ≥ − Zα ⇒ H0 no se rechaza
b) Si Z0 < − Zα ⇒ H0 se rechaza
H0 : µ = µ0
3. Sea ,
Ha : µ > µ 0

a) Si Z0 ≤ Zα ⇒ H0 no se rechaza
b) Si Z0 > Zα ⇒ H0 se rechaza

Ejemplo 6.2 Ver de la página 344 el ejemplo 11.1 del libro Mont-
gómery.

162
Teorema 6.2 (Prueba t de un media con varianza descono-
cida). Sea X1 , X2 , . . . , Xn una muestra aleatoria normal N (µ , σ2 )
o supongamos que n ≥ 30 . Si tanto µ como σ2 son desconocidas,
y si α ∈ (0, 1) es el nivel de confianza, con
α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero],
∑in=1 ( Xi − X )2 X − µ0
S2 = , t0 = ,
n−1 √S
n
t α2 = F −1 (1− α
2 ), t α
= F −1 (1
− α), donde F −1 es la inversa
de la función acumulativa de la distribución t-estudent con n − 1
grados de libertad. Entonces,

H0 : µ = µ0
1. Sea
Ha : µ ̸ = µ 0 ,
a) Si |t0 | ≤ t α2 ⇒ H0 no se rechaza
b) Si |t0 | > t α2 ⇒ H0 se rechaza

H0 : µ = µ0
2. Sea
Ha : µ < µ 0 ,
a) Si t0 ≥ −tα ⇒ H0 no se rechaza
b) Si t0 < −tα ⇒ H0 se rechaza
H0 : µ = µ0
3. Sea
Ha : µ > µ 0 ,
a) Si t0 ≤ tα ⇒ H0 no se rechaza
b) Si t0 > tα ⇒ H0 se rechaza

Ejemplo 6.3 Ver de la página 356 el ejemplo 11.7 del libro Mont-
gómery.

163
6.3. Prueba de diferencia de medias

En esta sección describimos las diferentes pruebas de la


diferencia de medias poblacionales de dos muestras.

Teorema 6.3 (Prueba Z de diferencia de dos medias con va-


rianzas conocidas) Sean X1 , X2 , . . . , Xn1 y Y1 , Y2 , . . . , Yn2
dos muestras aleatorias independientes, con N (µ1 , σ12 ) y N (µ2 , σ12 )
respectivamente, o supongamos que n1 ≥ 30 y n2 ≥ 30. Si asu-
mimos que σ12 y σ22 son conocidas, α ∈ (0 , 1) es un nivel de con-
fianza,

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero],


 α
Z α2 = ϕ−1 1 − ,
2
n n
∑ 1 Xi ∑ 2 Yi
Zα = ϕ−1 (1 − α), X = i=1 , Y = i=1 ,
n1 n2
X − Y − µ0
Z0 = r .
σ12 σ22
n1 + n2

Entonces,

H0 : µ1 − µ2 = µ0
1.
Ha : µ 1 − µ 2 ̸ = µ 0

a) Si | Z0 |≤ Z α2 ⇒ H0 no se rechaza
b) Si | Z0 |> Z α2 ⇒ H0 se rechaza

H0 : µ1 − µ2 = µ0
2.
Ha : µ 1 − µ 2 < µ 0

164
a) Si Z0 ≥ − Zα ⇒ H0 no se rechaza
b) Si Z0 < − Zα ⇒ H0 se rechaza
H0 : µ1 − µ2 = µ0
3.
Ha : µ 1 − µ 2 > µ 0

a) Si Z0 ≤ Zα ⇒ H0 no se rechaza
b) Si Z0 > Zα ⇒ H0 se rechaza

Ejemplo 6.4 Ver de la página 352 el ejemplo 11.5 del libro Mont-
gómery.

165
Teorema 6.4 (Prueba t de diferencia de dos medias con va-
rianzas iguales pero desconocidas). Sean X1 , X2 , . . . , Xn1 y
Y1 , Y2 , . . . , Yn2 dos muestras aleatorias independientes, con N (µ1 , σ12 )
y N (µ2 , σ12 ), respectivamente, y con σ12 = σ22 = σ2 desconocida.
Si α ∈ (0 , 1) es un nivel de confianza,

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero],


n
∑i=1 1 ( Xi − X )2
S12 = ,
n1 − 1
n
∑i=2 1 (Yi − Y )2
S22 = ,
n2 − 1
s
(n1 − 1)S12 + (n2 − 1)S22
Sp = ,
n1 + n2 − 2

X − Y − µ0
t0 = q ,
1 1
S p n1 + n2
α
t α2 = F −1 (1 − ),
2
t α = F −1 (1 − α ),
donde F −1 es la inversa de la función acumulativa de la distribu-
ción t-estudent con n1 + n2 − 2 grados de libertad. Entonces

H0 : µ1 − µ2 = µ0
1. Sea
Ha : µ 1 − µ 2 ̸ = µ 0

a) Si | t0 |≤ t α2 ⇒ H0 no se rechaza
b) | t0 |> t α2 ⇒ H0 se rechaza

166
H0 : µ1 − µ2 = µ0
2. Sea
Ha : µ 1 − µ 2 < µ 0

a) Si t0 ≥ −tα ⇒ H0 no se rechaza
b) Si t0 < −tα ⇒ H0 se rechaza
H0 : µ1 − µ2 = µ0
3. Sea
Ha : µ 1 − µ 2 > µ 0

a) Si t0 ≤ tα ⇒ H0 no se rechaza
b) Si t0 > tα ⇒ H0 se rechaza

Ejemplo 6.5 Ver de la página 360 el ejemplo 11.9 del libro Mont-
gómery.

167
Teorema 6.5 (Prueba t de diferencia de dos medias con va-
rianzas distintas desconocidas). Sean

X1 , X2 , . . . , X n 1

y
Y1 , Y2 , . . . , Yn2
dos muestras aleatorias independientes, con N (µ1 , σ12 ) y N (µ2 , σ12 ),
respectivamente, y con σ12 ̸= σ22 desconocidas. Si α ∈ (0 , 1) es
un nivel de confianza,

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero],


n
∑i=1 1 ( Xi − X )2
S12 = ,
n1 − 1
n
∑i=2 1 (Yi − Y )2
S22 = ,
n2 − 1
 2 2
s1 s22
n1 + n2
v= 2 2
s2 s22
 
1
n1 n2
n1 −1 + n2 −1

X − Y − µ0
t0 = r ,
s21 s22
n1 + n2

α
t α2 = F −1 (1 − ),
2
t α = F −1 (1 − α ),
donde F −1 es la inversa de la función acumulativa de la distribu-
ción t-estudent con v grados de libertad. Entonces,

168
H0 : µ1 − µ2 = µ0
1.
Ha : µ 1 − µ 2 ̸ = µ 0

a) Si | t0 |≤ t α2 ⇒ H0 no se rechaza
b) Si | t0 |> t α2 ⇒ H0 se rechaza

H0 : µ1 − µ2 = µ0
2.
Ha : µ 1 − µ 2 < µ 0

a) Si t0 ≥ −tα ⇒ H0 no se rechaza
b) Si t0 < −tα ⇒ H0 se rechaza
H0 : µ1 − µ2 = µ0
3.
Ha : µ 1 − µ 2 > µ 0

a) Si t0 ≤ tα ⇒ H0 no se rechaza
b) Si t0 > tα ⇒ H0 se rechaza

Ejemplo 6.6 Ver el ejemplo 11.10 de la página 361 del libro


Montgomery.

169
6.4. Prueba de hipótesis para la dife-
rencia de medias de observaciones
pareadas

En esta sección describimos las pruebas para la dife-


rencia de medias de observaciones pareadas de la forma
( X1 , Yi ), donde las variables Xi y Yi son dependientes.

Sean ( X1 , Y1 )( X2 , Y2 ), · · · , ( Xn , Yn ) las parejas de varia-


bles aleatorias X y Y con µ X , µY , y σX2 , σY2 , respectivamente,
denotemos por D a la variable aleatoria de la diferencia en-
tre las variables X y Y, de manera que las Di = Xi − Yi , i =
1, 2, · · · , n, representan la variable aleatoria resultante de la
diferencia entre las variables Xi y Yi . Suponga que las Di
tienen distribución normal con media µ D y varianza σD 2 des-

conocida y son independientes (es decir, las variables alea-


torias entre parejas diferentes son independientes, pero las
variables dentro del mismo par son dependientes), enton-
ces, µ D = µ X − µY , y σD 2 = σ2 − σ2 − COV ( X, Y ). Por tanto,
X Y

X D − µ0
SD

n

tiene una distribución t-student con n − 1 grados de liber-


tad. Donde,
1 n 1 n
XD = ∑ ( Xi − Yi ) = ∑ Di
n i =1 n i =1
es la media muestral de las diferencias, y donde
n
1
n − 1 i∑
S2D = [ Di − X D ] 2
=1

170
es la varianza muestral de las diferencias.

De acuerdo a los argumentos anteriores, tenemos el si-


guiente.

Teorema 6.6 (Prueba de hipótesis para la diferencia de me-


dias pareadas). Sea una muestra aleatoria de observaciones pa-
readas, es decir,

( X1 , Y1 )( X2 , Y2 ), · · · , ( Xn , Yn ).

Asumamos:

1. Las muestras X1 , X2 , · · · , Xn y Y1 , Y2 , · · · , Yn son depen-


dientes (correlacionadas) seleccionadas respectivamente de
dos poblaciones normales X ∼ N (µ1 , σ12 ) y Y ∼ N (µ2 , σ22 ).

2. Supongamos que la variable aleatoria D = X − Y tiene una


distribución normal. Y que

1 n 1 n
n i∑ n i∑
XD = ( X i − Yi ) = Di
=1 =1

es la media muestral de las diferencias, y,


n
1
S2D = ∑ [ D − X D ]2
n − 1 i =1 i

es la varianza muestral de las diferencias.

3. α ∈ (0 , 1) es el nivel de significancia, es decir,

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]

171
4. Supongamos además que

X D − µ0
t0 = SD

n

es el estadístico de prueba, y tγ = F −1 (1 − γ) es el cuantil


de la distribución t-student con n − 1 grados de libertad,
γ ∈ (0, 1).

Entonces,

H0 : µ D = µ0
1.
Ha : µ D ̸ = µ 0

a) Si t1− α2 ≤ t0 ≤ t α2 , entonces H0 no se rechaza


b) Si t0 < t1− α2 ó t0 > t α2 entonces H0 se rechaza

H0 : µ D = µ0
2.
Ha : µ D < µ 0

a) Si t0 ≥ t1−α , entonces H0 no se rechaza


b) Si t0 < t1−α , entonces H0 se rechaza

H0 : µ D = µ0
3.
Ha : µ D > µ 0

a) Si t0 ≤ tα , entonces H0 no se rechaza
b) Si t0 > tα , entonces H0 se rechaza

Ejemplo 6.7 Hacer el ejemplo 10.22 de la página 474 del libro


Córdova.

172
Ejemplo 6.8 Hacer el ejemplo 4.25 de la página 219 del libro
Eduardo.

Ejemplo 6.9 Hacer el ejercicio 17 de la página 227 del libro


Eduardo.

6.5. Prueba de una proporción

En esta sección describimos la prueba de una propor-


ción.

Teorema 6.7 (Prueba Z de una proporción). Sea X1 , X2 , . . . , Xn


una muestra aleatoria Bernoulli, con p = P[éxito]. Supongamos
que n ≥ 30,

∑in=1 Xi número de éxitos en las n repeticiones


p̂ = = ,
n n
p̂ − p0
Z0 = q ,
p0 (1− p0 )
n

α ∈ (0 , 1) es un nivel de confianza,

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]

y  α
Z α2 = ϕ−1 1 − , Zα = ϕ−1 (1 − α).
2
Entonces,

173
H0 : p = p0
1.
Ha : p ̸ = p 0

a) si | Z0 |≤ Z α2 ⇒ H0 no se rechaza
b) si | Z0 |> Z α2 ⇒ H0 se rechaza

H0 : p = p0
2.
Ha : p < p 0
a) si Z0 ≥ − Zα ⇒ H0 no se rechaza
b) si Z0 < − Zα ⇒ H0 se rechaza
H0 : p = p0
3.
Ha : p > p 0
a) si Z0 ≤ Zα ⇒ H0 no se rechaza
b) si Z0 > Zα ⇒ H0 se rechaza

Ejemplo 6.10 Ver de la página 374 el ejemplo 11.18 del libro


Montgómery.

Ejemplo 6.11 Ver de la página 478 el ejemplo 10.13 del libro


Córdova.

6.6. Prueba de diferencia de proporcio-


nes

En esta sección describimos la prueba de la diferencia


de proporciones.

174
Teorema 6.8 (Prueba Z de la diferencia de proporciones).
Sean X1 , X2 , . . . , Xn1 y Y1 , Y2 , . . . , Yn2 dos muestras aleatorias
independientes de tipo Bernoulli, con

p1 = P[éxito I]

p2 = P[éxito II],
respectivamente. Supongamos además que

n1 ≥ 30 , n2 ≥ 30,
n
∑i=1 1 Xi número de éxitos I
p̂1 = = ,
n1 n1
n
∑i=2 1 Yi número de éxitos II
p̂2 = = ,
n2 n2
E1 = número de éxitos de la muestra I,
E2 = número de éxitos de la muestra II,
E1 + E2
pˆ0 = , qˆ0 = 1 − pˆ0 ,
n1 + n2
p̂1 − p̂2
Z0 = q ,
pˆ0 qˆ0 ( n11 + 1
n2 )

α ∈ (0 , 1) es un nivel de confianza,

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]

y  α
Z α2 = ϕ−1 1 − , Zα = ϕ−1 (1 − α).
2
Entonces,

175
H0 : p1 − p2 = p0
1.
Ha : p 1 − p 2 ̸ = p 0

a) Si | Z0 |≤ Z α2 ⇒ H0 no se rechaza
b) Si | Z0 |> Z α2 ⇒ H0 se rechaza

H0 : p1 − p2 = p0
2.
Ha : p 1 − p 2 < p 0

a) Si Z0 ≥ − Zα ⇒ H0 no se rechaza
b) Si Z0 < − Zα ⇒ H0 se rechaza
H0 : p1 − p2 = p0
3.
Ha : p 1 − p 2 > p 0

a) Si Z0 ≤ Zα ⇒ H0 no se rechaza
b) Si Z0 > Zα ⇒ H0 se rechaza

Ejemplo 6.12 Ver de la página 377 el ejemplo 11.20 del libro


Montgómery.

176
6.7. Prueba de una varianza

En esta sección describimos la prueba de una varianza.

Teorema 6.9 (Prueba χ2 de la varianza de una muestra nor-


mal). Sea X1 , X2 , . . . , Xn una muestra aleatoria normal con Xi ∼
N (µ , σ2 ). Si
∑n ( X − X̄ )2
S 2 = i =1 i ,
n−1
α ∈ (0 , 1) es un nivel de confianza,

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero],

( n − 1) s2
χ20 =
σ02
es el estadístico de prueba y

χ2α = F −1 (1 − α),

χ21−α = F −1 (α),
α
χ21− α = F −1 ,
2 2
y F −1 es la función acumulativa inversa de la distribución χ2 con
n − 1 grados de libertad. Entonces,

H0 : σ2 = σ02
1.
Ha : σ2 ̸= σ02

a) Si χ21− α ≤ χ20 ≤ χ2α , entonces H0 no se rechaza


2 2

177
b) Si χ20 < χ21− α ó χ20 > χ2α entonces H0 se rechaza
2 2

H0 : σ2 = σ02
2.
Ha : σ2 < σ02

a) Si χ20 ≥ χ21−α , entonces H0 no se rechaza


b) Si χ20 < χ21−α , entonces H0 se rechaza

H0 : σ2 = σ02
3.
Ha : σ2 > σ02

a) Si χ20 ≤ χ2α , entonces H0 no se rechaza


b) Si χ20 > χ2α , entonces H0 se rechaza

Ejemplo 6.13 Ver de la página 368 el ejemplo 11.13 del libro


Montgómery.

Teorema 6.10 (Prueba Z de la varianza de una muestra gran-


de no necesariamente normal. Sea X1 , X2 , . . . , Xn una mues-
tra aleatoria no necesariamente normal, con n ≥ 30. Si

∑in=1 ( Xi − X̄ )2
S2 = ,
n−1

α ∈ (0 , 1) es un nivel de confianza,

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero],



2n(S − σ0 )
Z0 =
σ0

178
es el estadístico de prueba,
 α
Z α2 = ϕ−1 1 − ; Zα = ϕ−1 (1 − α),
2
y ϕ−1 es la función acumulativa inversa de la distribución Z.
Entonces,

H0 : σ2 = σ02
1.
Ha : σ2 ̸= σ02

a) si | Z0 |≤ Z α2 ⇒ H0 no se rechaza
b) si | Z0 |> Z α2 ⇒ H0 se rechaza

H0 : σ2 = σ02
2.
Ha : σ2 < σ02

a) si Z0 ≥ − Zα ⇒ H0 no se rechaza
b) si Z0 < − Zα ⇒ H0 se rechaza
H0 : σ2 = σ02
3.
Ha : σ2 > σ02

a) si Z0 ≤ Zα ⇒ H0 no se rechaza
b) si Z0 > Zα ⇒ H0 se rechaza

Ejemplo 6.14 Ver de la página 370 el ejemplo 11.15 del libro


Montgómery.

179
6.8. Prueba de cociente de varianzas

En esta sección describimos la prueba de un cociente de


varianzas.

Teorema 6.11 (Prueba F del cociente de dos varianzas con


muestras normales o grandes). Sean

X1 , X2 , . . . , X n 1

y
Y1 , Y2 , . . . , Yn2
dos muestras aleatorias independientes, con N (µ1 , σ12 ) y N (µ2 , σ12 )
respectivamente, ó supongamos que n1 ≥ 30 y n2 ≥ 30.

Si n
∑i=1 1 ( Xi − X̄ )2
S12 = ,
n1 − 1
n
∑i=2 1 (Yi − Ȳ )2
S22 = ,
n2 − 1
α ∈ (0 , 1) es un nivel de confianza,

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero],

S12
F0 =
S22
es el estadístico de prueba,
 α
Fα2 = F −1 1 − ,
2
Fα = F −1 (1 − α),

180
α
F1− α2 = F −1 ,
2
F1−α = F −1 (α)
y F −1 es la función acumulativa inversa de la distribución F de
Fisher, con n1 − 1 grados de libertad en el numerador, y n2 − 1
grados de libertad en el denominador. Entonces,

H0 : σ12 = σ22
1.
Ha : σ12 ̸= σ22

a) Si F1− α2 ≤ F0 ≤ Fα2 , entonces H0 no se rechaza


b) Si F0 > Fα2 , o F0 < F1− α2 , entonces H0 se rechaza

H0 : σ12 = σ22
2.
Ha : σ12 < σ22

a) Si F0 ≥ F1−α , entonces H0 no se rechaza


b) Si F0 < F1−α , entonces H0 se rechaza

H0 : σ12 = σ22
3.
Ha : σ12 > σ22

a) Si F0 ≤ Fα , entonces H0 no se rechaza
b) Si F0 > Fα , entonces H0 se rechaza

Ejemplo 6.15 Ver de la página 371 el ejemplo 11.16 del libro


Montgómery.

Observaciones:

181
1. Utilizamos la notación corta Fα en lugar de la notación
Fα,n1 ,n2 que la mayoría de libros utilizan.

2. Algunos libros utilizan la propiedad

1
F1− β,n1 ,n2 = ,
Fβ,n2 ,n1

invirtiendose los grados de libertad y cambiando 1 −


β, por β. Con estos cambios, las fórmulas precedentes
son equivalentes a otras fórmulas.

6.9. Ejercicios

Hacer los siguientes ejercicios del libro Probabilidad Mont-


gomery página 395-403:

1. 11-1 a)

2. 11-7 a)

3. 11-8

4. 11-16 a)

5. 11-20

6. 11-21 a)

7. 11-27 a)

8. 11-29 a)

182
9. 11-31

10. 11-32 a)

11. 11-31, 11-32, 11-33, 11-34, 11-35, 11-36, 11-37, 11-40, 11-
41, 11-42.

183
6.10. Pruebas de bondad de ajuste

En las secciones anteriores revisamos algunos métodos


de estimación de parámetros por medio de estimadores pun-
tuales, intervalos de confianza y pruebas de hipótesis. En la
mayoria de los métodos revisados utilizamos el hecho de
que los datos provenían de una distribución normal, ahora
surgen las preguntas: ¿cómo saber cuándo un conjunto de
datos proviene de una de una distribución normal?. O en
general, ¿cómo determinar el tipo de distribución del que
proviene un conjunto de datos? El problema para establecer
la procedencia de los datos, x1 , x2 , · · · , xn , se puede resolver
formulando una hipótesis estadística, donde:

H0 : Los datos x1 , · · · , xn provienen de una distribución f

Ha : Los datos x1 , · · · , xn no provienen de una distribución f

No hay una prueba que sea considerada como la ”me-


jor”. Por ello hay varios métodos para resolver este tipo de
pruebas de hipótesis llamadas de bondad de ajuste.

Los siguientes resultados proporcionan de manera geo-


métrica cuando la muestra X1 , X2 , · · · , Xn proviene de una
variable aleatoria X con función acumulativa

F ( x; θ1 , θ2 , · · · , θ p ) = P( X ≤ x )

donde, los parámetros θ1 , θ2 , · · · , θ p de la distribución son


conocidos. Estos resultados comparan los cuantiles de los
datos de la muestra con los cuantiles de la distribución F ( x ).
Por tal motivo, a los resultados se les conoce como una grá-
fica de probabilidad o una prueba Q-Q, respectivamente.

184
Proposición 6.1 (Gráfica de probabilidad). Supongamos que
X1 , X2 , · · · , Xn es una muestra ordenada en forma creciente de
una variable aleatoria X con función acumulativa
F ( x; θ1 , θ2 , · · · , θ p ) = P( X ≤ x )
donde, los parámetros θ1 , θ2 , · · · , θ p de la distribución son cono-
cidos. Definamos la función acumulativa empírica: Gn : R →
[0, 1]
número de Xi ≤ x
Gn ( x ) =
n
Es claro que,
i
Gn ( Xi ) = , i = 1, 2, · · · , n
n
Si la muestra X1 , X2 , · · · , Xn tiene como función acumulativa
F ( x ), entonces, los puntos
   
1 2  n
X1 , , X2 , , · · · , Xn ,
n n n
están aproximadamente ”alineados”. Algunos autores consideran
la gráfica de los puntos
    n
1 2 
, X1 , , X2 , · · · , , Xn
n n n

Como Gn ( Xn ) = 1, no conviene (teoricamente hablando)


tener una función de distribución empírica que es igual a 1 para
un valor finito de x. Por tanto, para tener una mejor aproximación
a la función F ( x ) conviene seleccionar (entre otras) la función
acumulativa empírica: Fn : R → [0, 1]
0.5 (número de Xi ≤ x ) − 0.5
Fn ( x ) = Gn ( x ) − =
n n

185
Es claro que,

i − 0.5
Fn ( Xi ) = , i = 1, 2, · · · , n
n
Si la muestra X1 , X2 , · · · , Xn tiene como función acumulativa
F ( x ), entonces, los puntos

1 − 0.5 2 − 0.5 n − 0.5


     
X1 , , X2 , , · · · , Xn ,
n n n

están aproximadamente ”alineados”. Algunos autores consideran


la gráfica de los puntos

1 − 0.5 2 − 0.5 n − 0.5


     
, X1 , , X2 , · · · , , Xn
n n n

186
Proposición 6.2 (Prueba Q-Q). Supongamos que X1 , X2 , · · · , Xn
es una muestra ordenada en forma creciente de una variable alea-
toria X con función acumulativa

F ( x; θ1 , θ2 , · · · , θ p ) = P( X ≤ x )

donde, los parámetros θ1 , θ2 , · · · , θ p de la distribución son cono-


cidos. Definamos la función acumulativa empírica: Gn : R →
[0, 1]
número de Xi ≤ x
Gn ( x ) =
n
Es claro que,

i
Gn ( Xi ) = , i = 1, 2, · · · , n
n
Si la muestra X1 , X2 , · · · , Xn tiene como función acumulativa
F ( x ), entonces, los puntos ( X1 , z1 ), ( X2 , z2 ), · · · , ( Xn , zn ) es-
tán aproximadamente ”alineados”. Algunos autores consideran la
gráfica de los puntos (z1 , X1 ), (z2 , X2 ), · · · , (zn , Xn ); donde los
puntos z1 , z2 , · · · , zn son los cuantiles de la variable aleatoria X.
Más precisamente hablando, zi deben satisfacer,

i
= F ( zi )
n
es decir,  
−1 i
zi = F
n

Como Gn ( Xn ) = 1, no conviene (teoricamente hablando) te-


ner una función de distribución empírica que es igual a 1 para
un valor finito de x. Por tanto, para una mejor aproximación a

187
la función F ( x ) conviene seleccionar (entre otras) la función acu-
mulativa empírica: Fn : R → [0, 1]
0.5 (número de Xi ≤ x ) − 0.5
Fn ( x ) = Gn ( x ) − =
n n
Es claro que,
i − 0.5
Fn ( Xi ) = , i = 1, 2, · · · , n
n
Si la muestra X1 , X2 , · · · , Xn tiene como función acumulativa
F ( x ), entonces, los puntos ( X1 , z1 ), ( X2 , z2 ), · · · , ( Xn , zn ) es-
tán aproximadamente ”alineados”. Algunos autores consideran la
gráfica de los puntos (z1 , X1 ), (z2 , X2 ), · · · , (zn , Xn ); donde los
puntos z1 , z2 , · · · , zn son los cuantiles de la variable aleatoria X.
Más precisamente hablando, zi deben satisfacer,
i − 0.5
= F ( zi )
n
es decir,
i − 0.5
 
−1
zi = F
n

Observación. Es importante notar que si los paráme-


tros θ1 , θ2 , · · · , θ p son desconocidos en la proposición pre-
dedente, entonces, para hacer la gráfica de los puntos, es
necesario primero estimar los parámetros; esto se hace apli-
cando el método de máxima verosimilitud.

Ejemplo 6.16 Ver el ejemplo 8-25 del libro Montgomery 2, pá-


gina 449.

Ejemplo 6.17 Ver el ejemplo 15.10 del libro Meyer, página 441.

188
6.10.1. Pruebas de bondad de ajuste ji cuadra-
da

En esta sección describimos la prueba de bondad de


ajuste ji cuadrada. Esta prueba por lo general es práctica
para distribuciones discretas, aunque sea válida para cual-
quier tipo de distribuciones. La prueba se basa en una com-
paración de las funciones de densidad de las observaciones
con la densidad teórica propuesta. También en el método de
esta prueba se construyen una serie de categorías (clases o
eventos) para los posibles valores de la muestra aleatoria.

Antes de describir la prueba de bondad de ajuste χ2


recordemos la distribución multinomial.

189
Definición 6.11 Consideremos un experimento E, su espacio mues-
tra1 Ω y una partición de Ω en k eventos mutuamente excluyen-
tes A1 , A2 , · · · , Ak . Es decir, cuando se efectúa E uno y sólo uno
de los eventos Ai ocurre). Considérese n repeticiones independien-
tes de E. Sea pi = P( Ai ) > 0 y supóngase que pi permane-
ce constante durante todas las repeticiones. Desde luego tenemos
que (por definición de partición) ∑ik=1 pi = 1. Definamos sobre Ω
las siguientes variables aleatorias discretas X1 , X2 , · · · , Xk como
sigue: Xi es el número de veces que ocurre Ai entre las n repeti-
ciones de E, para i = 1, 2, · · · , k. Las variables Xi no son inde-
pendientes, puesto que ∑ik=1 pi = 1. Entonces, tan pronto como
el valor de cualquiera de las k − 1 variables aleatorias es conocido,
se determina el valor de la otra. La distribución anterior de las va-
riables Xi se conoce como distribución multinomial de proba-
bilidades; y es una generalización de la distribución binomial. La
notación de esta distribución es X ∼ Multi (n, p1 , p2 , · · · , pk )

190
Teorema 6.12 Si Xi , i = 1, 2, · · · , k están definidas como antes,
tenemos:

1. P( X1 = n1 , · · · , Xk = nk ) = n! n1
n1 ···nk ! p1 · · · pnk k , donde,
∑ik=1 pi = 1.
2. E( Xi ) = npi , i = 1, 2, · · · , k
3. V ( Xi ) = npi (1 − pi ), i = 1, 2, · · · , k
4. Cov( Xi , X j ) = −npi p j , i ̸= j

Ejemplo 6.18 Ver el ejemplo 8.13 página 234 del libro Meyer.
También ver el ejemplo 5.30 página 280 del libro Mendenhall.

Teorema 6.13 Consideremos un experimento E, su espacio mues-


tra1 Ω y una partición de Ω en k eventos mutuamente excluyen-
tes A1 , A2 , · · · , Ak . Es decir, cuando se efectúa E uno y sólo uno
de los eventos Ai ocurre). Considérese n repeticiones independien-
tes de E. Sea pi = P( Ai ) > 0 y supóngase que pi permane-
ce constante durante todas las repeticiones. Desde luego tenemos
que (por definición de partición) ∑ik=1 pi = 1. Definamos sobre Ω
las siguientes variables aleatorias discretas X1 , X2 , · · · , Xk como
sigue: Xi es el número de veces que ocurre Ai entre las n repeti-
ciones de E, para i = 1, 2, · · · , k. Es decir, el vector
X = ( X1 , X2 , · · · , Xk ) ∼ Multi (n, p1 , p2 , · · · , pk )
tiene una distribución multinomial. Asumamos además que ni , i =
1, 2, · · · , k es el número de elementos de la muestra que están o
satisfacen el evento Ai , i = 1, 2, · · · , k, Entonces,
k
(ni − npi )2
D02 = ∑ npi
i =1

191
tiene una distribución aproximada χ2 con k − 1 grados de liber-
tad, cuando el tamaño de la muestra es ”grande”.

Como una consecuencia del teorema precedente, tene-


mos el siguiente criterio de bondad de ajuste para una dis-
tribución multinomial.

Teorema 6.14 Prueba de bondad de ajuste de una multi-


nomial. Consideremos un experimento E, su espacio muestra1
Ω y una partición de Ω en k eventos mutuamente excluyentes
A1 , A2 , · · · , Ak . Es decir, cuando se efectúa E uno y sólo uno de
los eventos Ai ocurre). Considérese n repeticiones independien-
tes de E. Sea pi = P( Ai ) > 0 y supóngase que pi permane-
ce constante durante todas las repeticiones. Desde luego tenemos
que (por definición de partición) ∑ik=1 pi = 1. Definamos sobre
Ω las siguientes variables aleatorias discretas X1 , X2 , · · · , Xk co-
mo sigue: Xi es el número de veces que ocurre Ai entre las n re-
peticiones de E, para i = 1, 2, · · · , k. Es decir, el vector X =
( X1 , X2 , · · · , Xk ) tiene una distribución multinomial
X ∼ Multi (n, p1 , p2 , · · · , pk )
Asumamos además que ni , i = 1, 2, · · · , k es el número de ele-
mentos de la muestra que están o satisfacen el evento Ai , i =
1, 2, · · · , k. Consideremos el contraste de hipótesis:
H0 : p1 = p01 , p2 = p02 , · · · , pk = p0k
Ha : Algún pi ̸= pi0
Aquí p01 , p02 , · · · , p0k son arbitrarios. Entonces, el estadístico de
prueba
k
(n − npi )2
D02 = ∑ i
i =1
npi

192
tiene una distribución aproximada χ2 con k − 1 grados de liber-
tad, cuando el tamaño de la muestra es ”grande”. Además,

1. Si D02 > χ2α , entonces, H0 se rechaza al nivel significativo


α.

2. Si D02 ≤ χ2α , entonces, H0 no se rechaza al nivel significa-


tivo α

donde,
χ2α = F −1 (1 − α)
y F −1 es la función acumulativa inversa de la distribución χ2 con
k − 1 grados de libertad.

Ejemplo 6.19 Ver el ejemplo 14.1 página 716 libro Mendenhall

193
El siguiente teorema de bondad de ajuste es aplicable a
cualquier distribución y es llamada prueba de bondad de
ajuste de Karl Pearson (1900).

Teorema 6.15 (Prueba de bondad de ajuste χ2 ). Supongamos


que tenemos los valores x1 , x2 , · · · , xn de una variable aleatoria
X. Deseamos probar la pareja de hipótesis:

H0 : Los datos x1 , · · · , xn provienen de una distribución f

Ha : Los datos x1 , · · · , xn no provienen de una distribución f


donde,
f = f ( x; θ1 , θ2 , · · · , θr )
es la función de densidad de la variable aleatoria X, y donde θi , i =
1, 2, · · · , θr son los valores propuestos de los parámeros, conside-
rados como constantes y conocidos. Supongamos que los posibles
valores de la muestra

X1 = x 1 , X2 = x 2 , · · · X n = x n

satisfacen k categorías (eventos ó clases) A1 , A2 , · · · , Ak mutua-


mente excluyentes, es decir, los datos de la muestra sólo pueden
satisfacer una y sólo una de las k categorías. Asumamos además
que bajo el supuesto de que la hipótesis nula H0 es verdadera que
pi = P( X ∈ Ai ), i = 1, 2, · · · , k, y que ni , i = 1, 2, · · · , k
es el número de elementos de la muestra que están o satisfacen el
evento Ai , i = 1, 2, · · · , k, Entonces,

1. El estadístico de prueba
k
(ni − npi )2
D02 = ∑ npi
i =1

194
tiene una distribución aproximada χ2 con k − 1 grados de
libertad, cuando el tamaño de la muestra es ”grande”.

2. a) Si D02 ≤ χ2α , entonces, H0 no se rechaza al nivel sig-


nificativo α
b) Si D02 > χ2α , entonces, H0 se rechaza al nivel signifi-
cativo α.
Donde,
χ2α = F −1 (1 − α)

y F −1 es la función acumulativa inversa de la distribución


χ2 con k − 1 grados de libertad.

Observacion.

1. La prueba de bondad de ajuste χ2 de Pearson es prác-


tica para distribuciones discretas, y no lo es tanto para
el caso de distribuciones continuas, pues en este caso,
las categorías deben ser intervalos de clases.

2. No analizaremos como se deben escoger los categorías


Ai ; o cuántas deberían escogerse. Establezcamos sólo
la regla siguiente: Si tenemos una clase Ai con npi < 5,
combinar los datos con las clases adyacentes Ai−1 o
Ai+1 , de tal manera que se tengan clases Ai tal que,
el valor esperado npi de cada clase satisfaga npi ≥ 5.
Es decir, no deseamos subdividir el espacio muestral
de la variable aleatoria con partes tales que el núme-
ro esperado de ocurrencias en cualquier subdivisión
particular sea menor que 5.

195
3. La prueba de bondad de ajuste χ2 se aplica a muestras
”grandes”, n ≥ 40, y de preferencia para un número
de clases k ≥ 2
4. Si los parámetros θi , i = 1, 2, · · · , θr no se especifican,
entonces, es necesario considerarlos como variables.
Una forma de estimar estos parámetros es con el mé-
todo de máxima verosimilitud. Por tanto, el estadísti-
co de prueba
k
(ni − npi )2
D02 = ∑ npi
i =1

deberá considerado con una distribución aproximada


χ2 , con k − 1 − r grados de libertad, cuando r < k.
5. El número de datos ni , i = 1, 2, · · · , k, se les llama da-
tos observados y a los valores ε i = npi , i = 1, 2, · · · , k,
se les llama valores esperados.
6. Si la variable aleatoria X es discreta, entonces, pi =
P( X ∈ Ai ) = ∑ x j ∈ Ai ∩ RX P( X = x j ), mientras que si
R aleatoria continua, entonces, pi =
X es una variable
P( X ∈ Ai ) = A f ( x )dx, i = 1, 2, · · · , k. En el caso
i
discreto se eligen por lo general los eventos Ai como
conjuntos finitos o infinitos numerables; mientras que
el caso continuo se eligen como intervalos finitos aco-
tados o no acotados.

Ejemplo 6.20 Ver los siguientes vídeos sobre prueba de bondad


de ajuste χ2 :

1. https: // www. youtube. com/ watch? v= eEvTWmoVi6k

196
2. https: // www. youtube. com/ watch? v= 8mvBmAoja_ g&
t= 1201s

Ejemplo 6.21 Ver los ejemplos 21.3-21.5 páginas 663-665 del


libro Sahoo Probability and Mathematical Estatistics.

Ejemplo 6.22 Ver los ejemplos 15.8 página 438, 15.9 página
440 y 15.10 página 441 del libro Meyer.

Ejemplo 6.23 Ver el ejemplo 14.2 página 717 libro Mendenhall

197
6.10.2. Prueba de Kolmogorov Smirnov (K-S)

En esta sección describimos la prueba de bondad de


ajuste de Kolmogorov Smirnov, llamada una prueba K-S.
Este tipo de prueba se aplica para todo tamaño de muestras
de variables aleatorias continuas, en particular para mues-
tras de tamaño pequeño donde la prueba χ2 no es aplicable.

La prueba de Kolmogorov Smirnov se basa en la com-


paración de la función acumulativa que se obtiene con los
datos de la muestra ordenada, y la función acumulativa pro-
puesta en la hipótesis nula.

Antes de describir la prueba de bondad de ajuste K-S


presentemos nuevamente la definición de función de distri-
bución empírica y describamos más propiedades de la fun-
ción.

Definición 6.12 (Función de distribución empírica). Sea

x1 , x2 , · · · , x n

una muestra de una variable aleatoria X. Si x(1) , x(2) , · · · , x(n)


es la muestra ordenada de menor a mayor, la función de distri-
bución empírica es definida de la siguiente manera: Sn : R →
[0, 1]
número de Xi ≤ x
Sn ( x ) =
n
Es claro que,

i
Sn ( X(i ) ) = , i = 1, 2, · · · , n
n

198
También, 
0, x < x(1)

Sn ( x ) = nk , x(k) ≤ x < x(k+1)

1, x(n) ≤ x

para todo x ∈ R.

Observación. Algunos autores (por ejemplo Rao) pre-


sentan la definición de función de distribución empírica de
la siguiente manera:

número de Xi < x
Sn ( x ) =
n
Es claro que,

0, x ≤ x(1)

Sn ( x ) = nk , x(k) < x ≤ x(k+1)

1, x(n) < x

La función de distribución empírica Sn ( x ) es una función


escalonada y da la proporción de observaciones de la mues-
tra menores o iguales que x. Las imágenes de Sn ( x ) son
0 = n0 , n1 , · · · , nn = 1. La función de distribución empírica
se aproxima a la distribución F ( x ) de la variable aleatoria
X. Algunas propiedades importantes se exponen en el si-
guiente teorema.

Teorema 6.16 Sea x1 , x2 , · · · , xn una muestra aleatoria de una


variable aleatoria X continua con función de distribución acumu-
lada F ( x ). Si x(1) , x(2) , · · · , x(n) es la muestra ordenada de menor

199
a mayor, la función de distribución empírica:

0, x < x(1)

Sn ( x ) = nk , x(k) ≤ x < x(k+1)

1, x(n) ≤ x

para todo x ∈ R. Tiene las siguientes propiedades:

1. Sn ( x ) es una función no decreciente en R

2. lı́mx→−∞ Sn ( x ) = 0

3. lı́mx→∞ Sn ( x ) = 1

4. P [lı́mn→∞ Sn ( x ) = F ( x )] = 1, para todo x ∈ R.

5. La función Sn ( x ) es continua por la derecha

6. Si
Dn = sup x∈R [Sn ( x ) − F ( x )] , n ∈ N
entonces, h i
P lı́m Dn = 0 = 1
n→∞

La función de distribución empírica para el caso n = 4 se


describe en la siguiente gráfica.

200
Figura 6.1: Función de distribución empírica

201
Teorema 6.17 (Prueba de bondad de ajuste de Kolmogorov-
Smirnov). Supongamos que tenemos los valores ordenados en for-
ma creciente x1 , x2 , · · · , xn de una variable aleatoria X continua.
Consideremos el contraste de hipótesis:
H0 : F ( x ) = F0 ( x ), ∀ x
Ha : F ( x ) ̸= F0 ( x ), para algún x
donde,
F = F(x)
es la función acumulativa de la variable aleatoria X. Y donde,
F0 = F0 ( x; θ1 , θ2 , · · · , θr )
es la función acumulativa de cierta distribución propuesta, siendo
θi , i = 1, 2, · · · , θr los parámeros de dicha distribución. Conside-
remos la función acumulativa empírica:

0, x < x(1)

Sn ( x ) = nk , x(k) ≤ x < x(k+1)

1, x(n) ≤ x

para todo x ∈ R. Definamos el estadístico de prueba de Kolmogorov-


Smirnov:
Dn = máx[Sn ( xi ) − F0 ( xi ), i = 1, 2, · · · , n]
Si α es una significancia de la prueba, entonces,

1. Si Dn > Dα , entonces, H0 se rechaza al nivel α,


2. Si Dn ≤ Dα , entonces, H0 no se rechaza al nivel α.

donde Dα es el valor que se encuentra tabulado en la tabla K-S


que se muestra abajo.

202
Otra forma práctica de presentar la prueba de K-S es la
siguiente.

Teorema 6.18 (Prueba de bondad de ajuste de Kolmogorov-


Smirnov). Sea x1 , x2 , · · · , xn una muestra de una variable alea-
toria X continua. Supongamos que
x (1) , x (2) , · · · , x ( n )
es la muestra ordenada de menor a mayor. Consideremos el con-
traste de hipótesis:
H0 : F ( x ) = F0 ( x ), ∀ x
Ha : F ( x ) ̸= F0 ( x ) para algún x
donde,
F = F(x)
es la función acumulativa de la variable aleatoria X. Y donde,
F0 = F0 ( x; θ1 , θ2 , · · · , θr )
es la función acumulativa de cierta distribución propuesta, siendo
θi , i = 1, 2, · · · , θr los parámeros de dicha distribución. Defina-
mos la función acumulativa empírica:

0, x < x(1)

Sn ( x ) = nk , x(k) ≤ x < x(k+1)

1, x(n) ≤ x

para todo x ∈ R. Definamos el estadístico de prueba de Kolmogorov-


Smirnov:
i−1
  
i
Dn = máx máx − F0 ( x(i) ), F0 ( x(i) ) −
1≤ i ≤ n n n
Si α es una significancia de la prueba, entonces,

203
1. Si Dn > Dα , entonces, H0 se rechaza al nivel α,

2. Si Dn ≤ Dα , entonces, H0 no se rechaza al nivel α.

donde Dα es el valor que se encuentra tabulado en la tabla K-S


que se muestra abajo.

Observación.

q
ln( α2 )
1. Una aproximación de Dα = − 2n

2. Si en la función acumulativa propuesta F no supone-


mos conocidos sus parámetros , los estimaremos por
algún método de estimación, por ejemplo el método
de máxima verosimilitud.

Ejemplo 6.24 Ver los ejemplos 21.1 y 21.2 páginas 658-660 del
libro Sahoo Probability and Mathematical Estatistics

Ejemplo 6.25 Ver el ejemplo 21.5 de una muestra exponencial


Libro Sahoo página 665.

Ejemplo 6.26 Ver los ejercicios 6, 7 y 8 de la página 668 del li-


bro Sahoo Probability and Mathematical Estatistics. Sugerencia.
Estimar primero por el método de máxima verosimilitud a los pa-
rámetros de la función de densidad.

204
Figura 6.2: Tabla de valores K-S

205
6.11. Test de bondad de ajuste de Anderson-
Darling

Describiremos la prueba de bondad de ajuste de Anderson-


Darling para distribuciones absolutamente continuas. En par-
ticular, describimos el caso normal.

Teorema 6.19 (Prueba de Anderson-Darling). Sea X1 , X2 , · · · , Xn


una muestra aleatoria de una variable aleatoria X absolutamente
continua cuya función de distribución es F ( x; θ ). Si ordenamos la
muestra en forma ascendente

X (1) , X (2) , · · · , X ( n )

el estadístico de prueba de Anderson-Darling es definido de la si-


guiente manera:

1 n
n i∑
A2n = −n − (2i − 1)[ln( F ( X(i) )) + ln(1 − F ( X(n+1−i) ))]
=1

Consideremos el contraste de hipótesis:

H0 : F ( x ) = F0 ( x; θ ), ∀ x

Ha : F ( x ) ̸= F0 ( x; θ ) para algún x
donde,
F = F ( x; θ )
es la función acumulativa de la variable aleatoria X, y donde,

F0 = F ( x; θ ) = F0 ( x; θ1 , θ2 , · · · , θr )

206
es la función acumulativa de cierta distribución propuesta, siendo
θi , i = 1, 2, · · · , θr los parámeros de dicha distribución.

De acuerdo al conocimiento de los parámetros θ hay dos ca-


sos para el rechazo de la hipótesis nula del contraste de hipótesis.
Estos casos se presentan en la siguiente tabla para algunas dis-
tribuciones. El primer caso, es cuando todos los parámetros son
conocidos; el segundo caso, es cuando algún parámetro es estima-
do (por ejemplo mediante un estimador de máxima verosimilitud).
En el segundo caso, el estadístico de prueba se modifica, ajustán-
dolo a un nuevo estadístico como se presenta en la tabla.

Figura 6.3: Tabla de Anderson-Darling

207
En particular si la muestra X(1) , X(2) , · · · , X(n) es nor-
mal con media µ y varianza σ2 , el estadístico de prueba lo
podemos expresar en términos de los valores de la distribu-
ción normal estándar:

1 n
n i∑
A2 = − n − (2i − 1)[ln(zi ) + ln(1 − zn+1−i )]
=1

con zi = Φ(wi ), y donde wi se define en los siguientes casos:

1. Si se conocen todos los parámetros de la distribución


X(i ) − µ
normal wi = σ y z i = Φ ( wi ).

X(i ) − X
2. Si σ2 se conoce y µ se desconoce, usamos wi = σ
y z i = Φ ( wi ).

X(i ) − µ
3. Si se conoce µ y se desconoce σ2 , usamos wi = S1 ,
donde, S12 = n1 ∑in=1 ( X(i) − µ)2 , y zi = Φ(wi ).

4. Si se desconocen µ y σ2 , ambos serán estimados por X


1 n −1
y S2 = n − 2
1 ∑i =1 ( X(i ) − X ) respectivamente, y zi =
X(i ) − X
Φ(wi ), donde wi = S

Las estimaciones de los parámetros µ y σ2 para otras dis-


tribuciones distintas a la normal pueden ser estimados con
los estimadores muestrales que se mostraron para el caso
normal.

208
6.12. Bandas de confianza de F ( x )

También hay un resultado que nos describe la banda de


la función de distribución F ( x ), donde los parámetros de F
son desconocidos.

Teorema 6.20 (Banda de F ( x )). Sea x1 , x2 , · · · , xn una mues-


tra de una variable aleatoria X continua con función de distribu-
ción F ( x ). Supongamos que

x (1) , x (2) , · · · , x ( n )

es la muestra ordenada de menor a mayor. Consideremos la fun-


ción acumulativa empírica:

0, x < x(1)

Sn ( x ) = nk , x(k) ≤ x < x(k+1)

1, x(n) ≤ x

para todo x ∈ R. Si α ∈ [0, 1] es un nivel de confianza, y,

Ln ( x ) = máx{Sn ( x ) − Dn,α , 0}

Un ( x ) = mı́n{Sn ( x ) + Dn,α , 1}
entonces,

P[ Ln ( x ) < F ( x ) < Un ( x )] = 1 − α

es decir, una banda de 100(1 − α) por ciento de confianza de


la distribución F ( x ) es ( Ln ( x ), Un ( x )), x ∈ R.

209
Ejemplo 6.27 Calcule la banda para F (20) con un nivel de con-
fianza α = 0.05 de la muestra

X = [18.2, 21.4, 22.6, 17.4, 17.6, 16.7, 17.1, 21.4, 20.1, 17.9, 16.8, 23.1]

del ejemplo 21.1 de una normal, Libro Sahoo página 658.

Ejemplo 6.28 Ver el siguiente vídeo de bondad de ajuste K-S:

https: // www. youtube. com/ watch? v= 21PMVmszpZQ

Ejemplo 6.29 Ver los siguientes vídeos sobre bondad de ajuste:

1. Prueba Chi cuadrada:


https: // www. youtube. com/ watch? v= ikNk4dwh8Vk

2. Prueba Chi cuadrada:


https: // www. youtube. com/ watch? v= ZyPrsSR7Abc

3. Prueba Chi cuadrada:


https: // www. youtube. com/ watch? v= XQ9tJzcMqMs

4. Prueba Chi cuadrada:


https: // www. youtube. com/ watch? v= pXKqhls394Y

5. Distribución binomial:
https: // www. youtube. com/ watch? v= RfjRCobrLAM

6. Prueba de una igualdad de proporciones:


https: // www. youtube. com/ watch? v= Xp5j1aKZIcU

210
7. Prueba de normalidad:
https: // www. youtube. com/ watch? v= BoEemfgzuBQ
8. Prueba de normalidad:
https: // www. youtube. com/ watch? v= w4HbIgEQ654
9. Prueba de normalidad:
https: // www. youtube. com/ watch? v= nDgIKGMAn0Y
10. Prueba de normalidad:
https: // www. youtube. com/ watch? v= 27K7gwu5o-4
11. Prueba de normalidad:
https: // www. youtube. com/ watch? v= AmQ2XWj4Chs
12. Prueba de normalidad con A. Darling:
https: // www. youtube. com/ watch? v= chzzq8N07ws
13. Prueba de normalidad con A. Darling:
https: // www. youtube. com/ watch? v= v9jU6ZH3nuA

Ejemplo 6.30 Ver el ejemplo de la página 264 del libro MATLAB


PROBABILIDAD.

211
6.13. Prueba de independencia

Supongamos que tenemos una muestra de n individuos


o conceptos clasificados según dos factores o criterios, A
y B, de modo que hay r categorías A1 , A2 , · · · , Ar de tipo
A y s categorías B1 , B2 , · · · , Bs de tipo B, y que cada indi-
viduo de la muestra sólo puede tener una y sólo una de
las categorías Ai y Bj , para algún i = 1, 2, · · · , r y algún
j = 1, 2, · · · , s. Nos interesa analizar si las categorías A y B
son independientes. Más precisamente, queremos probar el
contraste de hipótesis donde la hipótesis nula H0 represen-
te ”que cada categoría Ai , i = 1, 2, · · · , r de un individuo
con respecto al factor A es independiente de cada categoría
Bj , j = 1, 2, · · · , s con respecto al factor B”, contra la hipóte-
sis alternativa Ha : ”Hay dependencia de algún Ai con algún
Bj ”. Los datos se pueden resumir en la siguiente tabla, lla-
mada tabla de contingencia.

B1 B2 B3 ··· Bs Total
A1 n11 n12 n13 ··· n1s n1.
A2 n21 n22 n23 ··· n2s n2.
A3 n31 n32 n33 ··· n3s n3.
..
.
Ar nr1 nr2 nr3 ··· nrs nr.
Total n.1 n.2 n.3 ··· n.s

Tabla 6.1: Tabla de contingencia

Aquí nij es el número de elementos de la muestra que


tienen la categoría Ai y Bj ; ni. = ∑sj=1 nij es el número de
elementos de la muestra que tienen la categoría Ai , es decir,

212
ni. es la suma de los elementos de la fila i-ésima de la tabla
de contingencia; y n.j = ∑ri=1 nij es el número de elementos
de la muestra que tienen la categoría Bj , es decir, n j. es la
suma de los elementos de la columna j-ésima de la tabla de
contingencia

213
Teorema 6.21 (Prueba de independencia χ2 ). Supongamos que
tenemos una muestra de n individuos o conceptos clasificados se-
gún dos factores o criterios, A y B, de modo que hay r clasifica-
ciones (categorías) A1 , A2 , · · · , Ar de tipo A y s clasificaciones
(categorías) B1 , B2 , · · · , Bs de tipo B, y que cada individuo de la
muestra sólo puede tener una y sólo una de las categorías Ai y Bj ,
para algún i = 1, 2, · · · , r y algún j = 1, 2, · · · , s. Supongamos
que pij es la probabilidad de que un elemento de la muestra esté
en la categoría Ai y la categoría Bj ; que pi sea la probabilidad de
que un individuo de la muestra esté en la categoría Ai del factor
A, que p j sea la probabilidad de que un individuo de la muestra
esté en la categoría Bj del factor B. Supongamos que nij es el nú-
mero de elementos de la muestra que tienen la categoría Ai y Bj ;
ni. = ∑sj=1 nij es el número de elementos de la muestra que tienen
la categoría Ai , y que n.j = ∑ri=1 nij es el número de elementos de
la muestra que tienen la categoría Bj

Consideremos el contraste de hipótesis:

H0 : Los factores A y B son independientes


Ha : Los factores A y B no son independientes

equivalente a:

H0 : pij = pi p j , i = 1, 2, · · · , r; j = 1, 2, · · · , s
Ha : Algún pij ̸= pi p j

Si n i2
i. n.j
h
r s nij − n
χ20 = ∑∑ n n
i. .j

i =1 j =1 n

es el estadístico de prueba, y α es un nivel de confianza; entonces,


H0 se rechaza si χ20 > χ2α ; en caso contrario H0 no se rechaza.

214
Aquí χ2α = F −1 (1 − α), donde F −1 es la función acumulativa de
la distribución χ2 con (r − 1)(s − 1) grados de libertad.

Ejemplo 6.31 Ver el ejemplo 14.3 página 724 del libro Men-
denhall. Hacer el ejercicio 47 página 374 del libro Mood en es-
pañol

Ejemplo 6.32 Ver los siguientes vídeos sobre independencia.

1. https: // www. youtube. com/ watch? v= 96R6RbcRYks

2. https: // www. youtube. com/ watch? v= HwLl6NMCKJo

3. https: // www. youtube. com/ watch? v= lUxiNyfmZqQ

4. https: // www. youtube. com/ watch? v= 9cI4nUl0rLc

215
Capítulo 7

Análisis multivariable

En esta unidad describiremos algunos métodos de aná-


lisis de datos multivariable. Empezaremos describiendo pri-
mero algunos preliminares.

Definición 7.1 Una matriz A de orden n × n es simétrica si


A′ = A, donde la matriz A′ es la transpuesta de A.

Las formas cuadráticas están relacionadas con una dis-


tancia en estadística inferencial.

Definición 7.2 Si A es una matriz cuadrada de orden p × p, y


x es un vector columna de orden p × 1, al producto
p p

x Ax = ∑ ∑ aij xi x j
i =1 j =1

se le llama una forma cuadrática.

217
Toma más interés para las aplicaciones el caso donde la
matriz A es una matriz simétrica. En tal caso,
p

x Ax = ∑ aii xi + 2 ∑ aij xi x j
i =1 i̸= j

Definición 7.3 Sea A una matriz simétrica de orden n × n.

1. Una matriz A simétrica es definida positiva denotada por


A > 0 si,
x′ Ax > 0
para todo x ̸= 0 vector columna en Rn

2. Una matriz A simétrica es semidefinida positiva denota-


da por A ≥ 0 si,
x′ Ax ≥ 0
para todo x ̸= 0 vector columna en Rn

3. Una matriz A simétrica es definida negativa denotada por


A < 0 si,
x′ Ax < 0
para todo x ̸= 0 vector columna en Rn

4. Una matriz A simétrica es semidefinida negativa deno-


tada por A ≤ 0 si,
x′ Ax ≤ 0
para todo x ̸= 0 vector columna en Rn

5. Una matriz A simétrica es indefinida si x′ Ax > 0 para


algún x, y y′ Ay < 0 para algún y, x ̸= y

218
Observar que una matriz definida positiva es semidefi-
nida positiva, y una matriz definida negativa es semidefini-
da negativa.

Definición 7.4 Sea A una matriz de orden n × n. Un escalar


λ ∈ C es un valor propio o eigenvalor si existe un vector
x ̸= 0 columna en Rn con la propiedad,

Ax = λx.

Al vector x se le llama vector propio o eigenvector de A corres-


pondiente al valor propio λ.

Proposición 7.1 1. λ es un valor propio de la matriz A, si y


solo si satisface la ecuación (sistema lineal de ecuaciones),

( A − λI ) x = 0

donde I es la matriz identidad de orden n × n.

2. λ es un valor propio de la matriz A, si y solo si satisface la


ecuación algebraica,

det( A − λI ) = 0

donde I es la matriz identidad de orden n × n.

Teorema 7.1 Si A es una matriz cuadrada de orden n × n con


eiegenvalores λ1 , · · · , λn , entonces,

1. tr ( A) = ∑in=1 λi

219
2. det( A) = ∏in=1 λi

Definición 7.5 El rango de una matriz A de orden m × n es el


número máximo de filas linealmente independientes. Al rango de
A lo denotaremos por rank ( A)

Proposición 7.2 Si A es una matriz de orden m × n con rank( A) =


r, entonces, r ≤ mı́n(m, n), y r es el número máximo de colum-
nas o filas linealmente independientes de la matriz A.

Proposición 7.3 Si A es una matriz simétrica y tiene r eigenva-


lores distintos de cero, entonces, rank ( A) = r

Proposición 7.4 Sea A ∈ Rnn una matriz simétrica, es decir,


una matriz de orden n × n y simétrica, con eigenvalores λ1 , · · · , λn .

1. A > 0 si y solo si λi > 0, i = 1, · · · , n

2. Si A es una matriz simétrica con orden n × n, A > 0 si


y solo si todos los menores det( Ak ), k = 1, · · · , n son
positivos

3. A ≥ 0 si y solo si λi ≥ 0, i = 1, · · · , n, y con al menos un


λi > 0 y un λ j = 0. El número de eigenvalores positivos
igual a el rango de la matriz A.

4. A < 0 si y solo si λi < 0, i = 1, · · · , n

5. A ≤ 0 si y solo si λi ≤ 0, i = 1, · · · , n, y con al menos un


λi < 0 y un λ j = 0. El número de eigenvalores negativos
igual a el rango de la matriz A.

220
6. La matriz A es indefinida si y solo si existe un eigenvalor
λi > 0 y un eigenvalor λ j < 0.

7. La matriz identidad es una matriz definida positiva

8. Si A > 0 entonces, A′ > 0

9. Si A ≥ 0 entonces, A′ ≥ 0

10. Si A < 0 entonces, A′ < 0

11. Si A ≤ 0 entonces, A′ ≤ 0

12. A > 0, entonces, aii > 0, i = 1, · · · , n

13. A ≥ 0, entonces, aii ≥ 0, i = 1, · · · , n

14. Si A es indefinida, entonces, A′ es indefinida.

Definición 7.6 1. Un vector columna x ∈ Rn es unitario,


si ∥ x ∥ = 1

2. Dos vectores columna x, y son ortogonales o perpendi-


culares , si,
xy′ = 0

3. Dos vectores columna x, y son ortogonormales, si son or-


togonales y si son unitarios, es decir, si satisfacen las pro-
piedades,
xy′ = 0, ∥ x ∥ = 1 = ∥y∥

Definición 7.7 Una matriz cuadrada A de orden n × n es or-


togonal si AA′ = A′ A = I, donde I es la matriz identidad de
orden n × n. Es decir, A es ortogonal si A−1 = A′

221
Definición 7.8 Los eigenvectores de una matriz A de orden n ×
n simétrica son mutuamente ortogonales, es decir, si,

C = ( x1 , x2 , · · · , x n )

son los n eigenvectores de A, entonces,

xi x ′j = 0, i ̸= j

Definición 7.9 Sea A una matriz de orden n × n simétrica, y


C = ( x1 , x2 , · · · , xn ) la matriz de orden n × n formada por los
eigenvectores columna de A, entonces, la matriz C es una matriz
ortogonal, es decir,
CC ′ = C ′ C = I
donde I es la matriz identidad de orden n × n.

Teorema 7.2 (Descomposición espectral). Sea S una matriz


de orden n × n simétrica, y H = ( x1 , x2 , · · · , xn ) la matriz de
orden n × n formada por los eigenvectores columna y normaliza-
dos de S , entonces,
S = HDH ′
es decir, H es una matriz ortonormal, donde,
 
λ1 0 · · · 0
 0 λ2 · · · 0 
D =  ..
 
.. . . .. 
 . . . . 
0 0 · · · λn

La matriz D la denotaremos por D = diag(λ1 , λ2 , · · · , λn ), y


está formada por los eigenvalores λi , i = 1, 2, · · · , λn de la mariz
S.

222
Nota. Algunos autores escriben S = H ′ DH en lugar de
S = HDH ′ .

Otra forma de presentar el teorema de descomposición


espectral es la siguiente.

Teorema 7.3 (Descomposición espectral). Si S una matriz de


orden n × n simétrica, y, (λi , ei ) son sus n iegenvalores y eigen-
vectores, respectivamente, entonces,
n
S= ∑ λi ei ei′
i =1

Otra versiones más generales son las siguientes.

Teorema 7.4 (Descomposición espectral versión general). Si


A es una matriz de orden m × n de números reales, entonces,
existe una matriz ortonormal U, de orden m × m y una matriz
ortonormal V , de orden n × n tal que,
A = UΛV ′
donde la matriz Λ de orden m × n, es tal que Λii > 0, i =
1, · · · , mı́n(m, n) y sus restantes elementos son ceros.

Teorema 7.5 (Descomposición espectral versión general). Si


A es una matriz de orden m × n de números reales y de rank( A) =
r, entonces, existen r constantes positivas λi , i = 1, · · · , r; r vec-
tores unitarios ortogonales u1 , · · · , ur de orden m × 1, y, r vecto-
res unitarios ortogonales v1 , · · · , vr de orden n × 1, tal que,
r
A= ∑ λi ui vi′ = U r Λr V r′
i =1

223
donde, U r = [u1 , · · · , ur ], V r = [v1 , · · · , vr ], y, Λr , es una
matriz diagonal de orden r × r, con Λr = diag(λ1 , · · · , λr ).

No es difícil verificar la siguiente,

Proposición 7.5 Si la matriz S es de orden n × n y


D = diag(λ1 , λ2 , · · · , λn )
es una matriz diagonal, con,
S = BDB′
donde la matriz B es de orden n × n, entonces, S es una matriz
simétrica. Más aún, si la matriz B es ortogonal, entonces, los ei-
genvalores de S son los mismos que los de la matriz diagonal D, y
det(S) = λ1 · · · λn .

Definición 7.10 (Raíz cuadrada de una matriz).

1. Si la matriz S es semidefinida positiva, la raíz cuadrada de


la matriz S se define y denota como:
1 1
S 2 = CD 2 C ′
donde,
 √ 
λ1 √0 ··· 0
1
 0 λ2 · · · 0 
D2 = 
 
.. .. ... .. 
 . . √.

0 0 ··· λn
y donde, C es la matriz formada por los eigenvectores co-
lumna de S, es decir,
C = ( x1 , x2 , · · · , x n )

224
2. Si la matriz S es definida positiva, entonces todos sus eigen-
valores son positivos, por tanto, definimos,
1 1
S− 2 = CD − 2 C ′

donde,

√1
 
λ1
0 ··· 0
0 √1 ··· 0
 
− 12
 λ2

D = .. .. .. ..

. . . .
 
 
0 0 ··· √1
λn

y donde, C es la matriz formada por los eigenvectores co-


lumna de S, es decir,

C = [ x1 , · · · , x n ]

Proposición 7.6 1. Si S ≥ 0, entonces, det(S) ≥ 0

2. Si S > 0, entonces, det(S) > 0, y por tanto, S es no singu-


lar

3. Si S ≥ 0 de orden n × n, entonces, existe una matriz A de


orden n × n, tal que, S = AA′

4. Si S ≥ 0 de orden n × n, entonces, existe una matriz B ≥ 0


1
de orden n × n, tal que, S = B2 , es decir, B = S 2 .

5. Toda matriz de la forma B′ B, donde B es de orden n × p,


con rank ( B) = p < n es definida positiva

6. Toda matriz de la forma B′ B, donde B es de orden n × p,


con rank ( B) < mı́n( p, n) es semidefinida positiva

225
7. Toda matriz de la forma BB′ , donde B es de orden n × p,
con rank ( B) = p < n es definida positiva

8. Toda matriz de la forma BB′ , donde B es de orden n × p,


con rank ( B) < mı́n( p, n) es semidefinida positiva

9. Toda matriz S > 0 de orden n × n, se puede expresar en la


forma S = T ′ T, donde la matriz T es una matriz de orden
n × n y triangular superior no singular (descomposición de
Cholesky)
1 1
10. Si S > 0, entonces, S 2 > 0, y por tanto, det(S 2 ) > 0 es
1
decir, S 2 es no singular.
1 1
11. Si S > 0, entonces, S− 2 > 0, y por tanto, det(S− 2 ) > 0
1
es decir, S− 2 es no singular.
1 1
12. Si S ≥ 0, entonces, S 2 ≥ 0, y por tanto, det(S 2 ) ≥ 0.

Proposición 7.7 Si S ≥ 0, es decir, es una matriz semidefinida


positiva, entonces,

1 1
1. S 2 S 2 = S
1
2. |S 2 |2 = |S|
1 1
3. |S 2 | = |S| 2

4. Si la matriz S > 0, es decir, es una matriz definida positiva,


1 1 1
entonces, (S− 2 )2 = S−1 y | S− 2 |=| S |− 2 .
1 1
5. Si S > 0, entonces, S 2 > 0 y S− 2 > 0 existen, y,

226
1 1 1
a) (S 2 )′ = S 2 , es decir, S 2 es simétrica
1 1
b) S 2 S 2 = S
1 1
c) (S 2 )−1 = ∑in=1 √1 ei e′
λi i = CD − 2 C ′ , donde,

√1
 
λ1
0 ··· 0
0 √1 ··· 0
 
− 12
 λ2

D = .. .. ... ..

. . .
 
 
0 0 ··· √1
λn

y donde, C es la matriz formada por los eigenvectores


columna de S, es decir,

C = [ e1 , · · · , e n ]

d)
1 1 1 1
S 2 S− 2 = S− 2 S 2 = I

7.1. Distribuciones de probabilidad de


vectores aleatorios

En esta sección describimos las funciones de distribu-


ción para vectores aleatorios.

Definición 7.11 Sean x1 , x2 , · · · , x p variables del espacio mues-


tral Ω a los números reales.

227
1. El vector columna x : Ω → R p ,
 
x1
 x2 
x =  ..
 

 . 
xp

es llamado un vector aleatorio, si el conjunto

x−1 (B) = {ω ∈ Ω : ( x1 (ω ), · · · , x p (ω )) ∈ B}

es un evento, para cualquier conjunto B de borel en el espa-


cio R p .
La función de probabilidad conjunta es denotada y defi-
nida de la siguiente manera:

PX1 X2 ··· ,X p [B] = P[ X ∈ B]


= P[{ω ∈ Ω : ( X1 (ω ), · · · , X p (ω )) ∈ B}]

donde, B es cualquier conjunto de borel en el espacio R p .


Se demuestra que el vector X es aleatorio si y solo si cada
variable Xi , i = 1, 2, · · · , p es una variable aleatoria.

2. La distribución acumulativa conjunta

FX1 X2 ··· ,X p : R p → [0, 1]

es definida como:

FX1 X2 ··· ,X p [ x ] = PX1 X2 ··· ,X p [ X1 ≤ x1 , · · · , X p ≤ x p ]

para todo x = ( x1 , · · · , x p ) ∈ R p .

228
3. La distribución de probabilidad marginal para la variable
Xi , i = 1, 2, · · · , p, es definidida como:

PXi (B) = PX1 X2 ··· ,X p [R × · · · × B × · · · R]

para todo B conjunto de borel en R

4. Si  
X1
 X2 
X=
 
.. 
 . 
Xp
es un vector aleatorio y toda Xi , i = 1, 2, · · · , p es una
variable aleatoria discreta, entonces, al vector X le llamamos
un vector aleatorio discreto.

5. Si la función de distribución acumulativa conjunta FX1 X2 ···X p


es una función continua sobre R p , entonces, el vector X se
llama un vector aleatorio continuo.

6. El vector aleatorio X se dice absolutamente continuo, si


existe una función (llamada función de densidad) f :
R p → [0, ∞), que satisface la propiedad:
Z
P[ X ∈ B] = f ( x )dx
B

para todo conjunto de borel en R p . No es difícil verificar las


siguientes propiedades:

a)
f (x) ≥ 0
para todo, x ∈ R p

229
b)
Z Z ∞ Z ∞
f ( x )dx = ··· f ( x1 , · · · , x p )dx1 · · · dx p = 1
Rp −∞ −∞

c)

FX1 X2 ···X p [ x ] = PX1 X2 ···X p [ X1 ≤ x1 , · · · , X p ≤ x p ]


Z x1 Z xp
= ··· f ( x1 , · · · , x p )dx1 · · · dx p
−∞ −∞

d)

P[ a1 ≤ X1 ≤ b1 , · · · , a p ≤ X1 ≤ b p ]
Z b1 Z bp
= ··· f ( x1 , · · · , x p )dx1 · · · dx p
a1 ap

7. Si el p vector aleatorio x es absolutamente continuo con


función de densidad f , la esperanza, o media poblacional de
la función continua de valores reales g( x) es definida como:
Z
g( x) = g(t ) f (t )dt
Rp

Definimos a continuación de manera más general los


conceptos de la definición precedente.

Definición 7.12 Consideremos vectores aleatorios xi ∼ Fi sobre


Rni , i = 1, 2, · · · , k

1. 
x1 k
x =  ...  ∼ F sobre Rn , donde n = ∑ ni
 
xk i =1

230
es llamado el vector adjunto aleatorio de los vectores
xi , i = 1, 2, · · · , k; y estos últimos vectores son llamados
vectores aleatorios marginales de x.

2. La función acumulativa de x satisface,

F ( t ) = F ( t1 , · · · , t k ) = P [ t1 ≤ x 1 , · · · , t1 ≤ x k ]
 
t1
para toda t =  ... 
 
tk

3.
Fi (s) = F (∞, · · · , s, · · · , ∞), ∀s ∈ Rni
se le llama la distribución acumulativa marginal del
vector aleatorio xi , i = 1, 2, · · · , k

Definición 7.13 Toda función f : R p → [0, ∞) que satisface la


propiedad:
Z Z ∞ Z ∞
f ( x )dx = ··· f ( x1 , · · · , x p )dx1 · · · dx p = 1
Rp −∞ −∞

se llama función de densidad.

Proposición 7.8 Si F esla función  acumulativa de un p vector


x1
 .. 
aleatorio columna x =  . , entonces, para cada xi , i =
xp
1, · · · , p, y las restantes variables fijas,

1. lı́mxi →∞ F ( x) = 1

231
2. lı́mxi →−∞ F ( x) = 0

Definición 7.14 Cualquier función F : R p → [0, ∞) que satis-


face:

1. lı́mxi →∞ F ( x) = 1
2. lı́mxi →−∞ F ( x) = 0

se llama una función acumulativa

Proposición 7.9 Si F es una función acumulativa, entonces exis-


te un espacio de probabilidad (Ω, A, P), y un p vector aleatorio
columna x sobre dicho espacio, tal que, F es la función acumulati-
va de x. En particular, si f es una función de densidad, entonces,
existe un espacio de probabilidad (Ω, A, P), y un p vector alea-
torio columna x sobre dicho espacio, tal que, f es la función de
densidad de x.

Teorema 7.6 Si el vector aleatorio


 
x1 k
 .. 
x =  .  ∼ F sobre R , donde n = ∑ ni
n

xk i =1

con xi ∼ Fi sobre Rni , i = 1, 2, · · · , k, es absolutamente con-


tinuo con función de densidad adjunta f (t ) = f (t1 , · · · , tk ),
entonces,

1. La función de densidad marginal de xi es,


Z ∞ Z ∞
f i (s) = ··· f (∞, · · · , s, · · · , ∞) ∏ dt j , ∀s ∈ Rni
∞ ∞ i̸= j

232
2. Z
P [ xi ∈ A ] = f i (s)ds, ∀ A ∈ B ni
A

3. Z s
Fi (s) = f i (u)du, ∀s ∈ Rni

Definición 7.15 Para i = 1, 2, · · · , k, sean xi : Ω → Rni vec-


tores aleatorios. Decimos que los vectores son independientes si
P [ x1 ∈ A1 , · · · , x k ∈ A k ] = P [ x1 ∈ A1 ] · · · P [ x k ∈ A k ]
para todo Ai ∈ B ni .

Proposición 7.10 Los vectores aleatorios xi : Ω → Rni , para


i = 1, 2, · · · , k son independientes si y solo si
E[ g1 ( x1 ) · · · gk ( xk )] = E[ g1 ( x1 )] · · · E[ gk ( xk )]
para toda g1 , · · · , gk funciones continuas de valores reales.

Proposición 7.11 Los vectores aleatorios xi : Ω → Rni , para


i = 1, 2, · · · , k son independientes si y solo si
F (t) = F1 [t1 ] · · · Fk [tk ]

para toda t ∈ Rn , y, n = ∑ik=1 ni .

Proposición 7.12 Los vectores aleatorios xi : Ω → Rni , para


i = 1, 2, · · · , k son independientes si y solo si
f ( t ) = f 1 [ t1 ] · · · f k [ t k ]

para toda t ∈ Rn , y, n = ∑ik=1 ni .

233
Uno de los resultados del cálculo avanzado que es ne-
cesario en la estadística inferencial es el teorema de cambio
de variable.

Teorema 7.7 (Teorema de cambio de variable). Sea A un con-


junto abiero en Rn y g : A → Rn una función inyectiva derivable
con continuidad (todas sus derivadas parciales de primer orden
son continuas en Rn ). Si f : g(A) → R es una función integra-
ble, entonces,
Z Z
f ( x)dx = f ( g(y))|det( g′ (y))|dy
g( A) A

Al aplicar el teorema de cambio de variable, se obtiene


el siguiente resultado que calcula la función de densidad de
una función y = ϕ( x).

Teorema 7.8 Si el p vector aleatorio x tiene una función de den-


sidad f ( x) sobre R p y C = { x : f ( x) > 0} es un conjunto
abierto en R p . Para cualquier ϕ : C → R p función inyectiva con
derivadas parciales de segundo orden continuas, sea y = ϕ( x).
Entonces, la función de densidad de y es g, donde,

g(y) = f (ϕ−1 (y))|det[(ϕ−1 )′ (y)]|

Una consecuencia del teorema anterior es la siguiente.

Proposición 7.13 Si el p vector aleatorio x tiene una función


de densidad f ( x) sobre R p y y = Ax, donde A es una matriz

234
constante de orden p × p, entonces, la función de densidad de y
es g:
1
g ( y ) = f ( A −1 y )
| det( A)|

La covarianza de dos variables aleatorias miden la re-


lación entre las variables.

Definición 7.16 Sea X, Y dos variables aleatorias, la covarian-


za poblacional de X y Y es,

cov( X, Y ) = σXY = E[( X − µ X )(Y − µY )]

Proposición 7.14 Sean X, Y dos variables aleatorias, entonces,

1.
cov( X, Y ) = E( XY ) − µ X µY = µ XY − µ X µY
es decir,
µ XY = σXY + µ X µY ,

2. cov( X, Y ) = cov(Y, X )

3. cov( X, X ) = var ( X )

4. cov(C, X ) = 0, para toda constante C

5. cov(cX, Y ) = ccov( X, Y ), para toda constante c

6. cov(c1 X, c2 Y ) = c1 c2 cov( X, Y ), para todas constantes c1 , c2

235
7. cov( X1 + X2 , Y ) = cov( X1 , Y ) + cov( X2 , Y ), y en gene-
ral,
cov( X1 + · · · + Xn , Y ) = cov( X1 , Y ) + · · · + cov( Xn , Y )

8. cov(Y, X1 + X2 ) = cov(Y, X1 ) + cov(Y, X2 ), y en gene-


ral,
cov(Y, X1 + · · · + Xn ) = cov(Y, X1 ) + · · · + cov(Y, Xn )

9. cov(c1 X1 + c2 X2 , Y ) = c1 cov( X1 , Y ) + c2 cov( X2 , Y ), y


en general,
cov(c1 X1 + · · · + cn Xn , Y ) = c1 cov( X1 , Y ) + · · · + cn cov( Xn , Y )
para toda constante ci , i = 1, · · · , n
10. cov(Y, c1 X1 + c2 X2 ) = c1 cov(Y, X1 ) + c2 cov(Y, X2 ), y
en general,
cov(Y, c1 X1 + · · · + cn Xn ) = c1 cov(Y, X1 ) + · · · + cn cov(Y, Xn )
para toda constante ci , i = 1, · · · , n. De acuerdo a este
resultado y al inciso anterior, tenemos que la covarianza es
una forma bilineal, es decir,
!
m n m n
cov ∑ ai Xi , ∑ bj Yi = ∑ ∑ ai bj cov(Xi , Yj )
i =1 j =1 i =1 j =1

donde Xi , Yj son variables aleatorias, y, ai , b j son constantes


arbitrarias.
11. Si las variables X y Y son independientes, entonces, cov( X, Y ) =
0. La recíproca en general no es cierta. Se puede ver más
adelante, que en el caso de la normal multivariable los con-
ceptos son equivalentes.

236
12. var ( aX + bY ) = a2 var ( X ) + b2 var (Y ) + 2abcov( X, Y ),
donde, a y b son constantes arbitrarias. En particular, si
las variables aleatorias X y Y son independientes, entonces,
cov( X, Y ) = 0, y por tanto,
var ( aX + bY ) = a2 var ( X ) + b2 var (Y )

Definición 7.17 Sean X, Y dos variables aleatorias, y considere-


mos que x1 , x2 , · · · , xn y y1 , y2 , · · · , yn son muestras de las va-
riables aleatorias X y Y respectivamente, la covarianza mues-
tral es definida como,
∑in=1 ( xi − X )(yi − Y )
SXY =
n−1

Proposición 7.15 Sean X, Y dos variables aleatorias, y conside-


remos que x1 , x2 , · · · , xn y y1 , y2 , · · · , yn son muestras de las va-
riables aleatorias X y Y respectivamente, entonces,

1.
∑in=1 xi yi − X Y
SXY =
n−1
2. E(SXY ) = σXY

es decir, la covarianza muestral es un estimador insesgado del pa-


rámetro poblacional σXY .

Definición 7.18 (Coeficiente de correlación poblacional). Sean


X, Y dos variables aleatorias. El coeficiente de correlación po-
blacional se define como,
σXY E[( X − µ X )(Y − µY )]
ρ XY = corr ( X, Y ) = =p
σX σY E ( X − µ X ) 2 E (Y − µ Y ) 2

237
Definición 7.19 (Coeficiente de correlación muestral). Sean
X, Y dos variables aleatorias, y consideremos que x1 , x2 , · · · , xn
y y1 , y2 , · · · , yn son muestras de las variables aleatorias X y Y
respectivamente, entonces, el coeficiente de correlación pobla-
cional se define como,

SXY ∑in=1 xi yi − X Y
r XY = =q
SX SY
∑in=1 ( xi − X )2 ∑in=1 (yi − Y )2

Proposición 7.16 El coeficiente de correlación r XY varia en el


intervalo [−1, 1], es decir,
−1 ≤ r XY ≤ 1

Definición 7.20 (Media poblacional y media muestral).

1. Si definimos el p vector de variables aleatorias como,


 
x1
 x2 
x =  .. 
 
 . 
xp
la media poblacional de x es,
   
E ( x1 ) µ1
 E ( x2 )   µ2 
µ = E (x) =  =
   
.. .. 
 .   . 
E( x p ) µp
En general, definimos la esperanza de una matriz aleatoria
como la matriz de esperanzas de cada variable de la matriz.

238
2. Sea x = [ x1 , x2 , · · · , x p ]′ un p vector columna de varia-
bles aleatorias. Consideremos x1 , x2 , · · · , xn una muestra
de tamaño n del vector x, y supongamos que,
xi′ = [ xi1 , xi2 , · · · , xip ], i = 1, 2, · · · , n
por tanto, los vectores
 
x1j

 x2j 

 .. 
 . 
xnj
representan los valores de cada variable aleatoria x j , j =
1, 2, · · · , p en la muestra. La media muestral de x1 , x2 , · · · , xn ,
es:  
x1
1 n  x2 
x = ∑ xi =  ..  (7.1)
 
n i =1  . 
xp

Observar que xi , i = 1, 2, · · · , p es la media muestral de


la muestra de la variable aleatoria xi , i = 1, 2, · · · , p .

Como el tamaño de las muestras suele ser mayor que el


número de variables, entonces, conviene escribir la matriz
de datos de la siguiente forma:
 ′ 
x1
 x2′   
 .  x11 x12 · · · x1p
 .  
 .  x21 x22 · · · x2p 
X= ′ = 
 xi   · · · · · · · · · · · · 
 . 
 ..  xn1 xn2 · · · xnp
x′n

239
donde los vectores xi′ , i = 1, 2, · · · , n son vectores renglón
de la forma:
xi′ = [ xi1 , xi2 , · · · , xip ]
y donde la j-ésima columna de X son los valores de la varia-
ble x j , j = 1, 2, · · · , p en la muestra. No es difícil comprobar
la siguiente proposición.

Proposición 7.17 Bajo las suposiciones de la definición prece-


dente, tenemos:

1.  
x1
 x2  1
x=  = X′j
 
..
 .  n
xp
donde,
x1′
 
 x2′  
x11 x12 · · · x1p

 .. 
.   x21 x22 · · · x2p 
  
X= =

xi′

  ··· ··· ··· ··· 
 .. 
xn1 xn2 · · · xnp
 . 
x′n
y donde, j es la matriz unos de orden n × 1.
2.
     
x1 E ( x1 ) µ1
 x2   E ( x2 )   µ2 
E( x) = E  = = =µ
     
.. .. ..
 .   .   . 
xp E( x p ) µp

240
es decir, x es un estimador insesgado de µ.

Ejemplo 7.1 Ver el ejemplo 3.5 de la página 56 del libro Alvin.

Proposición 7.18 Si x, y y z son p vectores aleatorios columna,


entonces,

1. E[C ] = C, para todo p vector columna constante.

2. E[ x + y] = E[ x] + E[y]

3. E[αx] = αE[ x], para todo α escalar

4. E[α1 x + α2 y] = α1 E[ x] + α2 E[y], para todo α1 , α2 escala-


res

5. E[Cz] = CE[z], para toda matriz constante C de orden


n × p.

6. E[zC ] = E[z]C, para toda matriz constante C de orden


1 × n.

7. Si X, Y y Z son matrices aleatoria de orden m × n, y, A, B,


C son matrices constantes de orden 1 × m, n × q, 1 × q,
respectivamente, entonces,

a) E[C ] = C, para todo matriz constante C.


b) E[ X + Y ] = E[ X ] + E[Y ]
c) E[ AZB] = AE( Z ) B
d) E[ AZB + C ] = AE( Z ) B + C, para toda matriz cons-
tante C.

241
Definición 7.21 (Matriz de covarianzas muestral y pobla-
cional). Sea x un p vector aleatorio columna y sea x1 , · · · , xn
una muestra de tamaño n de este vector, a saber,
xi′ = [ xi1 , xi2 , · · · , xip ], i = 1, 2, · · · , n
Si los datos de la muestra los disponemos en la matriz
 ′ 
x1
 x2′   
 .  x11 x12 · · · x1p
 .  
 .  x21 x22 · · · x2p 
X= ′ = 
 xi   · · · · · · · · · · · · 
 . 
 ..  xn1 xn2 · · · xnp
x′n
entonces,

1. Si definimos el vector de variables aleatorias como,


 
x1
 x2 
x =  .. 
 
 . 
xp
La matriz de covarianzas poblacional o también llama-
da varianza de x es definida como
 
σ11 σ12 · · · σ1p
 σ21 σ22 · · · σ2p 
∑ = var ( x ) = cov ( x ) =
 
 .. .. .. .. 
 . . . . 
σp1 σ2 · · · σpp
donde, σij es la covarianza poblacional de la variable xi con
la variable x j . En particular, σjj = σj2 es la varianza pobla-
cional de la variable x j .

242
2. La matriz de covarianzas muestral o matriz de disper-
sión es la matriz de covarianzas muestrales de los valores
(de la muestra) de las p variables aleatorias, es decir,
 
s11 s12 · · · s1p
 s21 s22 · · · s2p 
S = (s jk ) =  ..
 
.. .. .. 
 . . . . 
s p1 s2 · · · s pp
donde,
n
1
n − 1 i∑
s jk = ( xij − x j )( xik − xk )
=1
!
n
1
n − 1 i∑
= xij xik − nx j xk
=1

en particular,
n
1
s jj = s2j = ∑
n − 1 i =1
( xij − x j )2
!
n
1
=
n−1 ∑ xij2 − nx j 2
i =1

Observar que la matriz de covarianzas poblacional y la


matriz de covarianzas muestral son matrices simétricas.

Proposición 7.19 Si
 
x1
 x2 
x=
 
.. 
 . 
xp

243
es un p vector de variables aleatorias, entonces,

1. La varianza poblacional ∑ es una matriz semidefinida posi-


tiva, es decir, ∑ ≥ 0. Esto es consecuencia de la bilinialidad
de la covarianza de variables aleatorias. En efecto. Si ∑ es
la covarianza del p vector aleatorio columna
 
x1
 x2 
x =  .. 
 
 . 
xp
y,  
a1
 a2 
a=
 
.. 
 . 
ap
es cualquier vector en R p , entonces,
! !
p p p
a′ ∑ a = cov ∑ ai xi , ∑ ai xi = var ∑ ai xi ≥0
i =1 i =1 i =1

2.
∑ = E[(x − µ)(x − µ)′ ] = E(xx′ ) − µµ′
3. E[ Ax] = Aµ, para toda A ∈ Rm
p matriz constante.

4. var [ Ax] = A ∑ A′ , para toda A ∈ Rm


p matriz constante.

5. E[t ′ x] = t ′ µ, para todo t ∈ R p vector columna constante.


6. var [t ′ x] = t ′ ∑ t, para todo t ∈ R p vector columna cons-
tante.

244
7. cov(s′ x, t ′ x) = s′ ∑ t, para todo s, t ∈ R p vectores co-
lumna constantes.

8. Si Z es una matriz aleatoria de orden m × n, y, A, B,C


son matrices constantes de orden 1 × m, n × q, 1 × q,
respectivamente, entonces,

E[ AZB + C ] = AE( Z ) B + C

9. Si x es un vector aleatorio de orden p × 1, y, A, C son ma-


trices constantes de orden m × p, m × 1, respectivamente,
entonces,
E[ Ax + C ] = AE( x) + C
y,
cov( Ax + C ) = Acov( x) A′

Definición 7.22 Sea y un p vector aleatorio (columna), y x un q


vector aleatorio (columna). La covarianza de los vectores de define
de la siguiente manera:
p
cov(y, x) = (cov(yi , x j )) ∈ Rq

es decir, la covarianza cov(y, x) es una matriz de orden p × q.

Proposición 7.20 Sean y un p vector aleatorio (columna), y x


y
un q vector aleatorio. Si z = , entonces,
x
 
var (y) cov(y, x)
var (z) =
cov( x, y) var ( x)

Obsevar que esta matriz es de orden ( p + q) × ( p + q).

245
Proposición 7.21 Bajo las consideraciones de la definición pre-
cedente, si para cada i = 1, 2, · · · , n, definimos los p vectores

xi′ = [ xi1 , xi2 , · · · , xip ]

entonces, para j = 1, · · · , p los vectores


 
x1j

 x2j 

 .. 
 . 
xnj

representan los valores de cada variable aleatoria x j en la muestra,


y, si los datos de la muestra los disponemos en la matriz

x1′
 
 x2′  
x11 x12 · · · x1p

 .. 
.   x21 x22 · · · x2p 
  
X= =

xi′

  ··· ··· ··· ··· 
 .. 
xn1 xn2 · · · xnp
 . 
x′n

y además,
 
x1
 x2 
x=
 
.. 
 . 
xp

representa el vector de variables aleatorias, entonces,

246
1.
n
1
S = ∑
n − 1 i =1
( xi − x)( xi − x)′
!
n
1
n − 1 i∑
= xi xi′ − nx x′
=1

y S es una matriz simétrica.

2.  
1 1
S= X′ I− J X
n−1 n
donde, la matriz I es la matriz identidad de orden n × n, y
la matriz J es la matriz de unos de orden n × n.

3.
E(S) = ∑
es decir, S la matriz de covarianzas muestral es un estima-
dor insesgado de la matriz simétrica de covarianzas pobla-
cional ∑.

Ejemplo 7.2 Ver el ejemplo 3.6 de la página 60 del libro Alvin.

Proposición 7.22 Sea y un p vector aleatorio (columna) y x un


q vector aleatorio (columna),
  y formemos el vector aleatorio co-
y
lumna de la forma .
x

Si      
y1 y2 yn
, ,··· ,
x1 x2 xn

247
es una muestra de tamaño n de tales vectores, donde,

yi1
 
 yi2 
 . 
 .. 
   
yi  yip 
 
=  , i = 1, 2, · · · , n
xi  xi1 
 xi2 
 
 . 
 .. 
xiq

entonces,

1.  
y1

 y2 

 .. 

   . 

y  yp 
= 
x 
 x1 


 x2 

 .. 
 . 
xq

2.  
Syy Syx
S=
Sxy Sxx
donde Syy es la matriz de covarianzas de las y’s, de orden
p × p; Sxx es la matriz de covarianzas de las x’s de orden
q × q; Syx es la matriz de covarianzas entre las y’s y las x’s,
de orden p × q; Sxy es la matriz de covarianzas entre las x’s
y las y’s, de orden q × p. Notar que Sxy = Syx′ .

248
Definición 7.23 (Matriz de correlación muestral y pobla-
cional). Sean x un p vector columna aleatorio y consideremos
una muestra de tamaño n, x1 , · · · , xn del vector x, a saber,

xi′ = [ xi1 , xi2 , · · · , xip ], i = 1, 2, · · · , n

Si los datos de la muestra los disponemos en la matriz

x1′
 
 x2′
 
x11 x12 · · · x1p

  ..
.x21 x22 · · · x2p 
  
X= ′ =
  
 xi   ··· ··· ··· ··· 
 . 
 ..  xn1 xn2 · · · xnp
x′n

entonces,

1. Si
 
x1
 x2 
x=
 
.. 
 . 
xp

representa el p vector de variables aleatorias, entonces, la


matriz de correlación poblacional es definida de la si-

249
guiente manera:
 
ρ11 ρ12 · · · ρ1p
 ρ21 ρ22 · · · ρ2p 
Pρ = (ρ jk ) = 
 
.. .. .. .. 
 . . . . 
ρ p1 ρ2 · · · ρ pp
 
1 ρ12 · · · ρ1p
 ρ21 1 · · · ρ2p 
= 
 
.. .. .. .. 
 . . . . 
ρ p1 ρ2 · · · 1

donde,

σjk E[( x j − µ x j )( xk − µ xk )]
ρ jk = =q q
σj σk E ( x j − µ x j ) E ( x k − µ x k )2
2

2. La matriz de correlación muestral se define como:


 
r11 r12 · · · r1p
 r21 r22 · · · r2p 
R = (r jk ) =  ..
 
.. .. .. 
 . . . . 
r p1 r2 · · · r pp
 
1 r12 · · · r1p
 r21 1 · · · r2p 
=  ..
 
.. .. .. 
 . . . . 
r p1 r2 ··· 1

donde,
s jk
r jk =
s j sk

250
y
n
1
s jk = ∑ ( x − x j )( xik − xk )
n − 1 i=1 ij
!
n
1
n − 1 i∑
= xij xik − nx j xk
=1

en particular,
n
1
n − 1 i∑
s jj = s2j = ( xij − x j )2
=1
!
n
1
=
n−1 ∑ xij2 − nx j 2
i =1

Observar que la matriz de correlación poblacional y la


matriz de correlación muestral son matrices simétricas.

Proposición 7.23 La matriz de correlación muestral es una ma-


triz simétrica y se obtiene de la matriz de covarianzas muestral.
Más precisamente, si definimos la matriz
√ √ √
D S = diag( s11 , s22 , · · · , s pp )
= diag(s1 , s2 , · · · , s p )
 
s1 0 · · · 0
 0 s2 · · · 0 
=  .. ..
 
.. 
 . . . 
0 0 · · · sp
entonces,
R = DS−1 SDS−1

251
es decir,
S = DS RDS

Ejemplo 7.3 Ver el ejemplo 3.7 de la página 61 del libro Alvin.

252
7.2. Distribución normal multivariada

En esta sección definimos las distribución normal mul-


tivarada y algunas de sus propiedades básicas.

Definición 7.24 (Distribución normal multivariada). Sea


 
x1
 x2 
x =  .. 
 
 . 
xp

un p vector aleatorio. Supongamos que


 
µ1
 µ2 
µ =  .. 
 
 . 
µp

es un vector en R p y supongamos que ∑ es una matriz semidefi-


nida positiva de orden p × p, es decir, ∑ ≥ 0.

Decimos que x tiene una distribución normal multivaria-


da con parámetros µ y ∑ ≥ 0, y escribimos x ∼ Np (µ, ∑) si y
solo si,
a′ x ∼ N ( a′ µ, a′ ∑ a)
para todo p vector columna constante a ∈ R p .

Proposición 7.24 Si x ∼ Np (µ, ∑), entonces,

1. E[ x] = µ

253
2. cov( x) = ∑

Proposición 7.25 Si x ∼ Np (µ, ∑) y ∑ es definida positiva, es


decir, ∑ > 0, entonces, existe la función de densidad de x:
1 1 ′ −1
f ( x) = √ 1
e− 2 ( x−µ) ∑ ( x−µ) (7.2)
( 2π ) p |∑| 2

Hay otra definición alternativa.

Definición 7.25 Un p vector aleatorio


 
x1
 x2 
x =  .. 
 
 . 
xp
sobre un espacio muestral Ω tiene una distibución normal mul-
tivariada si existe una matriz A definida positiva de orden p × p
y un vector columna b de orden p × 1, tal que la función de den-
sidad de x es:
p
| A | − 1 ( x−b)′ A( x−b)
f ( x) = √ e 2 (7.3)
( 2π ) p

Proposición 7.26 Si el vector


 
x1
 x2 
x=
 
.. 
 . 
xp
tiene una distribución normal multivariada según 7.3, entonces,

254
1. La media µ del vector x es b, es decir, E( x) = b

2. A = ∑−1

3. Si µ es un p vector columna y ∑ es una matriz definida po-


sitiva de orden p × p, entonces existe un p vector columna
aleatorio  
x1
 x2 
x =  .. 
 
 . 
xp

cuya función de densidad es

1 1 ′ −1
f ( x) = √ 1
e− 2 ( x−µ) ∑ ( x−µ)
( 2π ) p |∑| 2

Proposición 7.27 Sea


 
x1
 x2 
x=
 
.. 
 . 
xp

un vector de p variables aleatorias con media


 
µ1
 µ2 
µ=
 
.. 
 . 
µp

255
y matriz de covarianzas poblacional:
 
σ11 σ12 · · · σ1p
 σ21 σ22 · · · σ2p 
∑ = cov(x) = 
 
. .. .. ..
 ..

. . . 
σp1 σ2 · · · σpp

donde, σij es la covarianza poblacional de la variable xi con la


variable x j . En particular, σjj = σj2 es la varianza poblacional de
la variable x j . Y si x ∼ Np (µ, ∑), entonces,

1. Normalidad de combinaciones lineales:

a) Si  
a1
 a2 
a=
 
.. 
 . 
ap
es un vector de constantes, entonces la función lineal

a ′ x = a1 x1 + a2 x2 + · · · + a p x p

tiene una distribución normal univariada. Más preci-


samente, si x ∼ Np (µ, ∑), entonces,

a′ x ∼ N ( a′ µ, a′ ∑ a)

b) Si A es una matriz constante de orden q × p de rango


q, donde q ≤ p, entonces, las q combinaciones lineales
en Ax tienen una distribución multivariada. Es decir,
si x ∼ Np (µ, ∑), entonces, Ax ∼ Nq ( Aµ, A ∑ A′ )

256
2. Normalidad de las distribuciones marginales:
Cualquier subconjunto de las xi en el vector
 
x1
 x2 
x =  .. 
 
 . 
xp
tienen una distribución normal cuyo vector de medias es-
tá formado por las medias respectivas del subconjunto de
variables; y cuya matriz de covarianzas es la submatriz de
∑ correspondiente al subconjunto de variables considerado.
En particular, si x ∼ Np (µ, ∑), entonces, xi ∼ N (µi , σi2 ),
para i = 1, 2, · · · , p
3. Independencia:
Las variables aleatorias xi y x j son independientes si σij =
0. Por tanto, si x ∼ Np (µ, ∑), entonces, las variables xi y
x j para i ̸= j son independientes si y solo si σij = 0.
4. Distribución normal de la suma de subvectores:
Si x y y son vectores de p × 1 variables aleatorias indepen-
dientes, con x ∼ Np (µ x , ∑ x ), y, y ∼ Np (µy , ∑y ), enton-
ces,
!
x + y ∼ Np µ x + µy , ∑ + ∑
x y
!
x − y ∼ Np µ x − µy , ∑ + ∑
x y

5. Si los
 subvectores
 y y x, son tales que el vector aleato-
y
rio tiene una distribución normal multivariada, con
x

257
Syx ̸= 0, entonces, la distribución de y dado x, f (y | x) tie-
ne una distribución normal multivariada con media,
−1
E[y | x] = µy + ∑ ∑( x − µ x )
yx xx

y covarianza,
−1
cov[y | x] = ∑−∑∑∑
yy yx xx xy

En particular, si los subvectores y y x tienen el mismo ta-


maño (por ejemplo p × 1) y Syx = 0, entonces,
!
x + y ∼ Np µ x + µy , ∑ + ∑
x y
!
x − y ∼ Np µ x − µy , ∑ + ∑
x y

g(y,x)
Nota. Recordar que f (y | x) = h( x) , donde, g(y, x) es la
función de densidad conjunta de los vectores y y x, y donde,
h( x) es la función de densidad marginal de x.

Terminaremos la sección describiendo las curvas de ni-


vel de la función de densidad de un vector aleatorio normal.

Definición 7.26 Un hiperelipsoide o un elipsoide de p di-


mensiones con centro en el punto
 
x01
 x02 
x0 =  ..  ∈ R p
 
 . 
x0p

258
es el conjunto de puntos
 
x1
 x2 
x=  ∈ Rp
 
..
 . 
xp

que satisfacen la ecuación:

( x1 − x01 )2 ( x p − x0p )2
+ · · · + =1
a21 a21

donde ai > 0, i = 1, · · · , p. Estos valores son llamados las


longitudes de los semiejes del elipsoide. En el caso p = 1,
el hiperelipsoide sólo consta de dos puntos en R; en el caso p =
2, el hiperelipsoide coincide con la elipse conocida en geometría
analítica, y en el caso p = 3, el hiperelipsoide coincide con el
elipsoide de tres dimensiones que se describe en cálculo avanzado.

Proposición 7.28 Sea


 
x1
 x2 
x=
 
.. 
 . 
xp

un p vector aleatorio normal con media µ y matriz de covarianzas


∑ > 0, es decir, la función de densidad de x es:

1 1 ′ −1
f ( x) = √ 1
e− 2 ( x−µ) ∑ ( x−µ)
( 2π ) p |∑| 2

259
Las curvas de nivel de la función de densidad del vector x constan
del conjunto de puntos que satisfacen la ecuación
−1
( x − µ)′ ∑( x − µ) = c (7.4)

donde c es una constante positiva arbitraria. La ecuación (7.4)


representa un elipsoide de p dimensiones que tiene la forma
p
( y i − v i )2
∑ p 2 = 1 (7.5)
j =1 cλ j

donde, y = H ′ x y v = H ′ µ, siendo H la matriz ortonormal cu-


yas columnas sonplos eigenvectores de la matriz ∑. La longitud de
sus semiejes es cλ j , j = 1, · · · , p, y λ j reprenta los eigenva-
lores de la matriz ∑. Las direcciones de los semiejes del elipsoide
son las direcciones de los eigenvectores de la matriz ∑.

Las curvas de nivel para el caso p = 2 vienen descritas


en la siguiente.

Proposición 7.29 Sea


 
x
x=
y
 
µ1
un 2 vector aleatorio normal con media µ = y matriz de
 µ2 
h11 h12
covarianzas ∑ > 0. Supongamos que H = es la
h21 h22
matriz cuyas
 columnas
 son los eigenvectores de la matriz ∑ > 0 y
d1
que d = es el vector de eigenvalores de la matriz ∑ > 0,
d2

260
entonces, las curvas de nivel de la función de densidad f del vector
x tienen la siguiente forma paramétrica :
 √

  
x d 1 sin θ
= µ + cH √
y d2 cos θ
donde 0 ≤ θ ≤ 2π y c es una constante positiva arbitraria.

 
1
Ejemplo 7.4 Supongamos que x ∼ N2 (µ, ∑), donde, µ =
  2
2 1
y, ∑ = . ¿ La matriz ∑ es definida positiva?. Si la res-
1 4
puesta es afirmativa hacer la gráfica de la función de densidad del
vector aleatorio x y bosquejar sus curvas de nivel.

Solución.

1. La matriz de eigenvectores de la matriz ∑ es:


 
−0.923879532511287 0.382683432365090
H=
0.382683432365090 0.923879532511287
y la matriz de eigenvalores es:
   
d1 1.585786437626905
d= =
d2 4.414213562373095
por tanto, la forma paramétrica de las elipses o curvas
de nivel f ( x) = C del vector aleatorio f ( x) son:
 √

  
x √ d1 sin θ
= µ + cH
y d2 cos θ
Al graficar con Matlab para c = 2 se obtiene:

261
Figura 7.1: Curva de nivel de una normal bivariada

262
2. La matriz ∑ es definida positiva pues sus eigenvalores
son 1.585786437626905 > 0 y 4.414213562373095 > 0.
Por tanto, el vector x tiene como función de densidad:
1 1 ′ −1
f ( x) = √ 1
e− 2 ( x−µ) ∑ ( x−µ)
( 2π ) p |∑| 2
Graficando la función en Matlab, se obtiene la siguien-
te gráfica:

Figura 7.2: Función de densidad de una normal bivariada

263
Las curvas de nivel para el caso p = 3 vienen descritas
en la siguiente.

Proposición 7.30 Sea



x
x= y 
z
 
µ1
un 3 vector aleatorio normal con media µ =  µ2  y matriz de
 µ3 
h11 h12 h13
covarianzas ∑ > 0. Supongamos que H =  h21 h22 h23 
h31 h32 h33
es la matriz cuyascolumnas son los eigenvectores de la matriz
d1
∑ > 0 y que d =  d2  es el vector de eigenvalores de la ma-
d3
triz ∑ > 0, entonces, las curvas de nivel de la función de densidad
f del vector x tienen la siguiente forma paramétrica :
   √ 
x √ √d1 sin θ1 sin θ2
 y  = µ + cH  d2 sin θ1 cos θ2 

z d3 cos θ1
donde 0 ≤ θ1 ≤ π, 0 ≤ θ2 ≤ 2π y c es una constante positiva
arbitraria.
 
0
Ejemplo 7.5 Supongamos que x ∼ N3 (µ, ∑), donde, µ =  0 
  0
13 −4 2
y, ∑ =  −4 13 −2 . ¿ La matriz ∑ es definida positiva?.
2 −2 10

264
Si la respuesta es afirmativa bosquejar las curvas de nivel del vec-
tor aleatorio x.

Solución. La matriz de eigenvectores de la matriz ∑ es:


 
0.7424 0.0660 0.6666
H =  0.5543 0.4982 −0.6666 
−0.3761 0.8645 0.3333

y la matriz de eigenvalores es:


   
d1 9.0000
d =  d2  =  9.0000 
d3 17.9999

por tanto, como todos los eigenvalores son positivos, enton-


ces la matriz de covarianzas es definida positiva, y por con-
siguiente invertible. La forma paramétrica de los elipsoides
o curvas de nivel de la función de densidad f del vector
aleatorio x son de la forma:
   √ 
x √ √d1 sin θ1 sin θ2
 y  = µ + cH  d2 sin θ1 cos θ2 

z d3 cos θ1

donde 0 ≤ θ1 ≤ π, 0 ≤ θ2 ≤ 2π y c es una constante posi-


tiva arbitraria. Al graficar con Matlab para c = 2 se obtiene:

265
Figura 7.3: Curva de nivel de una normal trivariada

266
Capítulo 8

Distribuciones muestrales

En este capítulo describimos algunos resultados impor-


tantes sobre las distribuciones de algunos vectores aleato-
rios importantes.

Proposición 8.1 (Estandarización).

1. Si x es p vector columna aleatorio con media µ y varian-


za ∑ > 0, entonces, el p vector columna aleatorio z =
1
(∑ 2 )−1 ( x − µ), es tal que, E(z) = 0 y var (z) = I

1
2. Si x ∼ N p (µ, ∑) y si z = (∑ 2 )−1 ( x − µ), entonces, z ∼
N p (0, I )

267
Teorema 8.1 Sea
 
x1
 x2 
x=
 
.. 
 . 
xp

un vector de p variables aleatorias con media

 
µ1
 µ2 
µ=
 
.. 
 . 
µp

y matriz de covarianzas poblacional:

 
σ11 σ12 · · · σ1p
 σ21 σ22 · · · σ2p 
∑ = cov ( x ) =
 
 .. .. .. .. 
 . . . . 
σp1 σ2 · · · σpp

donde, σij es la covarianza poblacional de la variable xi con la


variable x j . En particular, σjj = σj2 es la varianza poblacional de
la variable x j .

Consideremos x1 , · · · , xn una muestra aleatoria de tamaño


n del p vecctor x, a saber, sea,

xi′ = [ xi1 , xi2 , · · · , xip ], i = 1, 2, · · · , n

268
Si los datos de la muestra los disponemos en la matriz X, tenemos:

x1′
 
 x2′  
x11 x12 · · · x1p

 .. 
.   x21 x22 · · · x2p 
  
X= =

xi′

  ··· ··· ··· ··· 
 .. 
xn1 xn2 · · · xnp
 . 
x′n

y si suponemos que x ∼ Np (µ, ∑). Entonces,

1. E( x) = µ, es decir, x es estimador insesgado del parámetro


µ.

2. E(S) = ∑, es decir, S es estimador insesgado del parámetro


∑.

3.

 
x ∼ Np µ, (8.1)
n

4. El estimador de máxima verosimilitud de µ es x, es decir,


b = x, y el estimador de máxima verosimilitud de ∑ es
µ
n −1 n −1
n S, es decir, ∑ = n S. Más aún el estimador de má-
b
xima verosimilitud de la matriz de correlación poblacional
Pρ es R, es decir, P
cρ = R. Aquí,

a)  
x1
1 n  x2 
x = ∑ xi = 
 
..
n i =1

 . 
xp

269
b)  
s11 s12 · · · s1p
 s21 s22 · · · s2p 
S = (s jk ) = 
 
.. .. .. .. 
 . . . . 
s p1 s2 · · · s pp
donde,
n
1
n − 1 i∑
s jk = ( xij − x j )( xik − xk )
=1
!
n
1
n − 1 i∑
= xij xik − nx j xk
=1

en particular,
n
1
n − 1 i∑
s jj = s2j = ( xij − x j )2
=1
!
n
1
=
n−1 ∑ xij2 − nx j 2
i =1

c)
 
ρ11 ρ12 · · · ρ1p
 ρ21 ρ22 · · · ρ2p 
Pρ = (ρ jk ) = 
 
.. .. .. .. 
 . . . . 
ρ p1 ρ2 · · · ρ pp
 
1 ρ12 · · · ρ1p
 ρ21 1 · · · ρ2p 
= 
 
.. .. .. .. 
 . . . . 
ρ p1 ρ2 · · · 1

270
donde,
σjk E[( x j − µ x j )( xk − µ xk )]
ρ jk = =q q
σj σk E ( x j − µ x j )2 E ( x k − µ x k )2

d)
 
r11 r12 · · · r1p
 r21 r22 · · · r2p 
R = (r jk ) = 
 
.. .. .. .. 
 . . . . 
r p1 r2 · · · r pp
 
1 r12 · · · r1p
 r21 1 · · · r2p 
= 
 
.. .. .. .. 
 . . . . 
r p1 r2 · · · 1

donde,
s jk
r jk =
s j sk

Teorema 8.2 (Teorema del límite central). Si x1 , · · · , xn es


una muestra aleatoria de un p vector aleatorio columna x, en-
tonces,

 
x ∼ N p µ, , n→∞ (8.2)
n

Proposición 8.2 (Distribución χ2 ). Si x ∼ Np (µ, ∑), enton-


ces, ( x − µ)′ ∑−1 ( x − µ) la distancia de Mahalanobis de x
a µ tiene una distribución χ2p . Es decir,
 −1
( x − µ)′ ∑ ( x − µ) ∼ χ2p (8.3)

271
 
En particular, si hacemos x = x, y consideramos que x ∼ N p µ, ∑n ,
obtenemos,
 −1
n( x − µ)′ ∑ ( x − µ) ∼ χ2p (8.4)

La distribución de S será dada en la siguiente sección.


Antes definamos algunos conceptos.

8.1. Distribución de Wishart

La distribución de Wishart es una genaralización de la


distribución χ2 .

Definición 8.1 La distribución adjunta de las variables aleato-


rias de la matriz W de orden p × p tiene una distribución Wishart
con parámetros n grados de libertad y covarianza ∑, y escribimos,
Wp (n, ∑), si y solo si,

n
W= ∑ (xi − x)(xi − x)′ .
i =1

donde x1 , · · · , xn es una muestra aleatoria de un p vector aleato-


rio columna
x ∼ N p µ, ∑


es decir,
xi ∼ N p µ, ∑ , i = 1, · · · , n


272
Si en la definición anterior, hacemos zi = xi − x, enton-
ces, E(zi ) = 0, y var (zi ) = ∑. Más aún, cada zi ∼ Np (0, ∑).
Por tanto,
n
W = ∑ (xi − x)(xi − x)′
i =1
n
= ∑ zi zi′
i =1
= Z′ Z

donde,
z1′


Z =  ... 
 
z′n
Así pues, la matriz W de orden p × p tiene una distribución
Wp (n, ∑) si y solo si,
n
W= ∑ zi zi′ = Z′ Z
i =1

con,
z1′


Z =  ... 
 
z′n
y donde, los p vectores aleatorios columna zi ∼ Np (0, ∑).

Proposición 8.3 Si W1 ∼ Wp (n1 , ∑) y W2 ∼ Wp (n2 , ∑) con


W1 y W2 independientes, entonces,

W1 + W2 ∼ Wp (n1 + n2 , ∑)

273
Teorema 8.3 Sea
 
x1
 x2 
x=
 
.. 
 . 
xp

un vector de p variables aleatorias con media

 
µ1
 µ2 
µ=
 
.. 
 . 
µp

y matriz de covarianzas poblacional:

 
σ11 σ12 · · · σ1p
 σ21 σ22 · · · σ2p 
∑ = cov ( x ) =
 
 .. .. .. .. 
 . . . . 
σp1 σ2 · · · σpp

donde, σij es la covarianza poblacional de la variable xi con la


variable x j . En particular, σjj = σj2 es la varianza poblacional de
la variable x j .

Consideremos x1 , · · · , xn una muestra aleatoria de tamaño


n del p vecctor x, a saber, sea,

xi′ = [ xi1 , xi2 , · · · , xip ], i = 1, 2, · · · , n

274
Si los datos de la muestra los disponemos en la matriz X, tenemos:

x1′
 
 x2′  
x11 x12 · · · x1p

 .. 
. x x22 · · · x2p 
  
  21
X= =

xi′

  ··· ··· ··· ··· 
 .. 
xn1 xn2 · · · xnp
 . 
x′n

y si suponemos que x ∼ Np (µ, ∑). Entonces, los p vectores alea-


torios x, y,
n
1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′

son independientes. Y además,


 
x ∼ Np µ, , (8.5)
n

y,
(n − 1)S ∼ Wp n − 1, ∑

(8.6)

8.2. Distribución de Hotelling

En esta sección describimos la distribución de Hote-


lling. Esta distribución nos servira para probar la prueba de
hipótesis de una media con varianza desconocida. La distri-
bución de Hotelling es una generalización de la distribución
t de student.

275
Definición 8.2 Supongamos que z ∼ N p (0, ∑) y W ∼ W p (v, ∑),
con z y W independientes. Decimos que la variable aleatoria uni-
dimensional T 2 tiene una distribución Hotelling con p dimensio-
2 = T 2 ( p, v ) si y solo
nes y v grados de libertad, y escribimos Tp,v
si,
  −1
2 ′ W
T =z z
v
Recordar que z es un p vector aleatorio columna y W es una ma-
triz aleatoria de orden p × p.

2 está relacionado con la distribución F


El estadístico Tp,v
de Fisher.

Teorema 8.4 El estadístico Tp,v2 está relacionado con la distribu-

ción F de Fisher de la siguiente manera:

v− p+1 2
T ( p, v) = Fp,v− p+1
vp

es decir,
vp
T 2 ( p, v) = Fp,v− p+1
v− p+1
2 = t2 , donde t es la distribución t student con
En particular, T1,v v v
v grados de libertad.

Teorema 8.5 Sea  


x1
 x2 
x=
 
.. 
 . 
xp

276
un vector de p variables aleatorias con media
 
µ1
 µ2 
µ =  .. 
 
 . 
µp

y matriz de covarianzas poblacional:


 
σ11 σ12 · · · σ1p
 σ21 σ22 · · · σ2p 
∑ = cov(x) = 
 
. .. .. ..
 ..

. . . 
σp1 σ2 · · · σpp

donde, σij es la covarianza poblacional de la variable xi con la


variable x j . En particular, σjj = σj2 es la varianza poblacional de
la variable x j .

Consideremos x1 , · · · , xn una muestra aleatoria de tamaño


n del p vecctor x, a saber, sea,

xi′ = [ xi1 , xi2 , · · · , xip ], i = 1, 2, · · · , n

Si los datos de la muestra los disponemos en la matriz X, tenemos:


 ′ 
x1
 x2′   
 .  x11 x12 · · · x1p
 .  
 .  x21 x22 · · · x2p 
X= ′ = 
 xi   · · · · · · · · · · · · 
 . 
 ..  xn1 xn2 · · · xnp
x′n

y si suponemos que x ∼ Np (µ, ∑). Entonces,

277
1. Si n → ∞, entonces,

n( x − µ)′ S−1 ( x − µ) ∼ χ2p

2.
(n − 1)( x − µ)′ S−1 ( x − µ) ∼ T 2 ( p, n − 1)
con,
n
1
n − 1 i∑
S= ( xi − x)( xi − x)′
=1
o  
1 1
S= X′ I− J X
n−1 n
donde, la matriz I es la matriz identidad de orden n × n, y
la matriz J es la matriz de unos de orden n × n.

278
Capítulo 9

Prueba de hipótesis de
medias de vectores
aleatorios

En esta capítulo describimos algunas pruebas de hipó-


tesis para las medias de vectores aleatorios.

9.1. Prueba de un vector de medias co-


nociendo matriz de covarianzas

En esta sección describimos el criterio para la prueba de


hipótesis de una igualdad de un vector de medias contra la
diferencia de este vector; asumimos que la matriz de cova-
rianza es conocida. Primero veamos la región de confianza

279
del vector de medias con matriz de covarianza conocida.

9.1.1. Región de confianza de una media con


matriz de covarianza conocida

En esta sección describimos la región de confianza de


un vector de medias poblacional cuando se conoce la matriz
de covarianzas.

Proposición 9.1 Sea 0 < α < 1 y sea x1 , · · · , xn una muestra


aleatoria de un p vector columna x ∼ Np (µ, ∑) con µ descono-
cida y ∑ > 0 conocida. La región de 100(1 − α) % de confianza
para µ es el conjunto:
 −1
RC = {µ ∈ R p : n( x − µ)′ ∑ ( x − µ) ≤ χ2α }

donde χ2α es el cuantil que satisface la propiedad

χ2α = F −1 (1 − α)

siendo F −1 la función inversa acumulativa de una distribución


χ2p . La región de confianza para µ es el interior y la frontera del
hiperelipsoide:
 −1
n( x − µ)′ ∑ ( x − µ) = χ2α

RC satisface la propiedad:

P[µ ∈ RC ] = 1 − α

280
Proposición 9.2 Sea 0 < α < 1 y sea x1 , · · · , xn una muestra
aleatoria de un 2 vector columna x ∼ N2 (µ, ∑ ) con µ descono-

h11 h12
cida y ∑ > 0 conocida. Supongamos que H = es
h21 h22
la matrizcuyascolumnas son los eigenvectores de la matriz ∑ y
d1
que d = es el vector de eigenvalores de la matriz ∑.
d2

La región de confianza RC de 100(1 − α) % de confianza


para µ es la frontera y el interior de la elipse con ecuaciones para-
métricas:
r  √
χ2α
  
x d 1 sin θ
= x+ H √
y n d2 cos θ

donde 0 ≤ θ ≤ 2π, y, χ2α es el cuantil que satisface la propiedad

χ2α = F −1 (1 − α)

siendo F −1 la función inversa acumulativa de una distribución


χ2p . RC satisface la propiedad:

P[µ ∈ RC ] = 1 − α

281
Ejemplo 9.1 Representa la región
 de
 confianza, al nivel del 95 %,
µ1
para el vector de medias µ = en base a los siguientes da-
µ2
tos de las extremidades de diez animales:

Longitud: 65, 46, 53, 57, 71, 49, 58, 68, 54, 53

Anchura: 21.5, 18.5, 20.6, 24.5, 26.3, 17.8, 22.2, 24.9, 21.2,
21.0
 
2.5 1
Supóngase que la matriz de covarianzas ∑ =
1 2

Solución. Ver la solución en COMPILACIONDEPRUE-


BASDEHIPOTESIS en Matlab. La región de confianza se re-
presenta en la siguiente figura:

Figura 9.1: Región de confianza para µ

282
Veamos ahora la región de confianza para el caso p = 3.

Proposición 9.3 Sea 0 < α < 1 y sea x1 , · · · , xn una muestra


aleatoria de un 3 vector columna x ∼ N3 (µ,  ∑) con µ desconoci-
h11 h12 h13
da y ∑ > 0 conocida. Supongamos que H =  h21 h22 h23 
h31 h32 h33
es la matrizcuyascolumnas son los eigenvectores de la matriz ∑
d1
y que d =  d2  es el vector de eigenvalores de la matriz ∑.
d3

La región de confianza RC de 100(1 − α) % de confianza


para µ es la frontera y el interior del elipsoide con ecuaciones pa-
ramétricas:
   √ 
x r
2 √ d1 sin θ1 sin θ2
 y  = x + χα H  d2 sin θ1 cos θ2 
n √
z d3 cos θ1

donde 0 ≤ θ1 ≤ π, 0 ≤ θ2 ≤ 2π y, χ2α es el cuantil que satisface


la propiedad
χ2α = F −1 (1 − α)
siendo F −1 la función inversa acumulativa de una distribución
χ2p . RC satisface la propiedad:

P[µ ∈ RC ] = 1 − α

Ejemplo 9.2 Se ha observado, después de varios estudios en ni-


ños de alrededor dos años de edad, que la estatura x1 , la longi-
tud toráxica x2 y la circunferencia media del antebrazo x3 , tienen

283
aproximadamente una distribución normal N3 (µ, ∑), donde,
 
29.64 8.59 0.38
∑ =  8.59 3.47 1.22 
0.38 1.22 2.04

es conocida. Las siguientes mediciones fueron realizadas en seis de


estos niños.

284
Describa la región de confianza del vector de medias pobla-
cional a un nivel de confianza α = 0.01.

Solución. Ver la solución en COMPILACIONDEPRUE-


BASDEHIPOTESIS en Matlab. La región de confianza se
muestra en la siguiente figura:

Figura 9.2: Región de confianza para µ

285
Veamos ahora el resultado sobre la prueba de hipótesis
de una media con matriz de covarianza conocida.

Teorema 9.1 (Prueba de un vector de medias conociendo ma-


triz de covarianzas). Sea
 
x1
 x2 
x =  .. 
 
 . 
xp

un vector de p variables aleatorias con media poblacional desco-


nocida,  
µ1
 µ2 
µ =  .. 
 
 . 
µp
y matriz de covarianzas poblacional conocida:
 
σ11 σ12 · · · σ1p
 σ21 σ22 · · · σ2p 
∑ = cov(x) = 
 
. .. .. ..
 ..

. . . 
σp1 σ2 · · · σpp

donde, σij es la covarianza poblacional de la variable xi con la


variable x j . En particular, σjj = σj2 es la varianza poblacional de
la variable x j .

Consideremos x1 , · · · , xn una muestra aleatoria de tamaño


n del p vecctor x, a saber, sea,

xi′ = [ xi1 , xi2 , · · · , xip ], i = 1, 2, · · · , n

286
Si los datos de la muestra los disponemos en la matriz X, tenemos:

x1′
 
 x2′  
x11 x12 · · · x1p

 .. 
.   x21 x22 · · · x2p 
  
X= =

xi′

  ··· ··· ··· ··· 
 .. 
xn1 xn2 · · · xnp
 . 
x′n

y si suponemos que x ∼ Np (µ, ∑). Entonces, la media muestral


de x1 , x2 , · · · , xn , es:
 
x1
1 n  x2  1
x = ∑ xi =  ..  = X ′ j
 
n i =1  .  n
xp

donde, j es la matriz unos de orden n × 1.

Consideremos el contraste de hipótesis:

H0 : µ = µ0 Prueba de dos colas


Ha : µ ̸ = µ 0
Son vectores

Si Z2 = n( x − µ0 )′ (∑)−1 ( x − µ0 ) es el estadístico de
prueba, y, α ∈ (0 , 1) es un nivel de confianza, con

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]

Entonces,

1. Si Z2 > χ2α , entonces, H0 se rechaza al nivel de confianza α


Chi-cuadrada

287
2. Si Z2 ≤ χ2α , entonces, H0 no se rechaza al nivel de confian-
za α

Aquí, χ2α = F −1 (1 − α), donde, F −1 es la función acumu-


lativa inversa de una distribución χ2 con p grados de libertad, es
decir, χ2p .

Ejemplo 9.3 En la siguiente tabla se registra la estatura x1 (en


pulgadas) y el peso x2 (en libras) para una muestra de 20 estu-
diantes de educación media. Se asume que esta muestra es gene-
rada en una población normal bivariada N2 (µ, ∑), donde,
 
20 100
∑ = 100 1000
es conocida.

288
Probar el contraste de hipótesis:

H0 : µ = [70, 170]′
Ha : µ ̸= [70, 170]′

utilizando el nivel de confianza α = 0.05

Solución. Ver la solución en COMPILACIONDEPRUE-


BASDEHIPOTESIS en Matlab. Como Z2 = 8.402600000000032 >
5.991464547107981 = χ2α , entonces, H0 se rechaza al nivel de
confianza α = 0.05. La región de confianza se presenta en la
siguiente figura:

Figura 9.3: Región de confianza para µ

289
Ejemplo 9.4 Se ha observado, después de varios estudios en ni-
ños de alrededor dos años de edad, que la estatura x1 , la longi-
tud toráxica x2 y la circunferencia media del antebrazo x3 , tienen
aproximadamente una distribución normal N3 (µ, ∑), donde,
 
29.64 8.59 0.38
∑ =  8.59 3.47 1.22 
0.38 1.22 2.04

es conocida. Las siguientes mediciones fueron realizadas en seis de


estos niños.

290
Probar el contraste de hipótesis:

H0 : µ = [90, 58, 16]′


Ha : µ ̸= [90, 58, 16]′

utilizando el nivel de confianza α = 0.01

Solución. Ver la solución en COMPILACIONDEPRUE-


BASDEHIPOTESIS en Matlab. Como Z2 = 464.574 > 11.344 =
χ2α , entonces, H0 se rechaza al nivel de confianza α = 0.01.
La región de confianza se presenta en la siguiente figura:

Figura 9.4: Región de confianza para µ

291
9.2. Prueba de un vector de medias con
matriz de covarianzas desconocida

En esta sección describimos el criterio para la prueba


de hipótesis de una igualdad de un vector de medias con-
tra la diferencia de este vector; asumimos que la matriz de
covarianza es desconocida.

Primero veamos la región de confianza de un vector de


medias con matriz de covarianza desconocida.

9.2.1. Region de confianza de medias con cova-


rianza desconocida

En esta sección describimos la región de confianza de


un vector de medias poblacional cuando se desconoce la
matriz de covarianzas.

Veamos ahora la región de confianza de µ para el caso


de dos dimensiones.

Proposición 9.4 Sea 0 < α < 1 y sea x1 , · · · , xn una muestra


aleatoria de un 2 vector columna x ∼N2 (µ, ∑) con  µy∑>0
h11 h12
desconocidas. Supongamos que H = es la matriz
h21 h22
cuyas
 columnas son los eigenvectores de la matriz S y que d =

d1
es el vector de eigenvalores de la matriz S.
d2

La región RC de confianza de 100(1 − α) % de confianza

292
para µ es la frontera y el interior de la elipse con ecuaciones para-
métricas:
s  √
( n − 1) p
  
x d 1 sin θ
= x+ Fα H √
y n(n − p) d2 cos θ

donde 0 ≤ θ ≤ 2π, y, F0 es el cuantil que satisface la propiedad

Fα = F −1 (1 − α)

siendo F −1 la función inversa acumulativa de una distribución F


de Fisher con p grados de libertad en el numerador y n − p grados
de libertad en el denominador. RC satisface la propiedad:

P[µ ∈ RC ] = 1 − α

Ejemplo 9.5 El departamento de control de calidad de un fabri-


cante de hornos de microondas es requerido por el gobierno federal
para monitorear la cantidad de radiación emitida cuando las puer-
tas de los hornos están cerradas o abiertas. Las observaciones de la
radiación emitida a través de puertas cerradas de n = 42 hornos
seleccionados aleatoriamente son los siguientes:

293
Figura 9.5: Radiación de hornos con puertas cerradas

294
y las observaciones de la radiación emitida a través de puertas
abiertas de n = 42 hornos seleccionados aleatoriamente son los
siguientes:

Figura 9.6: Radiación de hornos con puertas abiertas

295
Halle la región de confianza para µ de las raíces cuartas de
los datos de la matriz X formada por dos columnas; la primera son
las radiaciones a puerta cerrada, y la segunda son las radiaciones
a puerta abierta. Use α = 0.05.

Solución. Ver la solución en COMPILACIONDEPRUE-


BASDEHIPOTESIS en Matlab. La región de confianza se
muestra en la siguiente figura:

Figura 9.7: Región de confianza de radiación.

296
Veamos ahora la región de confianza para el caso p = 3.

Proposición 9.5 Sea 0 < α < 1 y sea x1 , · · · , xn una muestra


aleatoria de un 3 vector columna x ∼  N3 (µ, ∑) con µ y ∑>0
h11 h12 h13
desconocidas. Supongamos que H =  h21 h22 h23  es la
h31 h32 h33
matriz
 cuyas
 columnas son los eigenvectores de la matriz S y que
d1
d =  d2  es el vector de eigenvalores de la matriz S.
d3

La región de confianza RC de 100(1 − α) % de confianza


para µ es la frontera y el interior del elipsoide con ecuaciones pa-
ramétricas:
   √ 
x d sin sin
s
√ 1 θ 1 θ 2
 y  = x + (n − 1) p Fα H  d2 sin θ1 cos θ2 
n(n − p) √
z d3 cos θ1

donde 0 ≤ θ1 ≤ π, 0 ≤ θ2 ≤ 2π y, Fα es el cuantil que


satisface la propiedad

Fα = F −1 (1 − α)

siendo F −1 la función inversa acumulativa de una distribución F


de Fisher con p grados de libertad en el numerador y n − p grados
de libertad en el denominador. RC satisface la propiedad:

P[µ ∈ RC ] = 1 − α

297
Ejemplo 9.6 El Director de Mercadotecnia de una cadena de ci-
nes desea medir el grado de evocación o recuerdo que tiene el con-
sumidor sobre esta cadena de cines. Este concepto es medido a tra-
vés de tres variables dependientes: Marca, Slogan y Logotipo. Pa-
ra que los potenciales consumidores recuerden la cadena de cines
cuando se utiliza la PRENSA ESCRITA como medio masivo para
la campaña de publicidad en los consumidores los valores medios
de las variables deben ser por lo menos de (7,9,7). Para comprobar
si se logró este objetivo, una vez lanzada la campaña en la PREN-
SA ESCRITA, se tomó una muestra de 7 potenciales clientes y se
les pidió que calificarán su grado de evocación o recuerdo sobre
la cadena de cines en una escala de 0 a 10 puntos donde el 0 nos
indica baja evocación o recuerdo y el 10 alta evocación o recuerdo.
Los resultados son los siguientes: Considere la siguiente muestra
de tamaño n = 7 extraída de una población normal multivariada
donde x1 representa la evocación de la marca , x3 representa la
evocación del Slogan y x3 representa la evocación del logotipo:
 
4 8 3

 6 7 3 


 5 9 4 

X=
 5 9 6 


 5 7 4 

 6 6 7 
7 7 6

Probar el contraste de hipótesis:

H0 : µ = [7, 9, 7]′
Ha : µ ̸= [7, 9, 7]′

Y halle la regíon de confianza para µ. Usar el nivel de confianza


α = 0.05.

298
Solución. Ver la solución en COMPILACIONDEPRUE-
BASDEHIPOTESIS en Matlab. Como T 2 = 68.1672 > 29.6612 =
Fα , entonces, H0 se rechaza al nivel de confianza α = 0.05.
La región de confianza se muestra en la siguiente figura:

Figura 9.8: Región de confianza al 95 % para µ

299
Teorema 9.2 (Prueba de un vector de medias con matriz de
covarianzas desconocida). Sea
 
x1
 x2 
x=
 
.. 
 . 
xp

un vector de p variables aleatorias con media poblacional desco-


nocida,
 
µ1
 µ2 
µ =  .. 
 
 . 
µp

y matriz de covarianzas poblacional desconocida:


 
σ11 σ12 · · · σ1p
 σ21 σ22 · · · σ2p 
∑ = cov ( x ) =
 
 .. .. .. .. 
 . . . . 
σp1 σ2 · · · σpp

donde, σij es la covarianza poblacional de la variable xi con la


variable x j . En particular, σjj = σj2 es la varianza poblacional de
la variable x j .

Consideremos x1 , · · · , xn una muestra aleatoria de tamaño


n del p vecctor x, a saber, sea,

xi′ = [ xi1 , xi2 , · · · , xip ], i = 1, 2, · · · , n

300
Si los datos de la muestra los disponemos en la matriz X, tenemos:

x1′
 
 x2′  
x11 x12 · · · x1p

 .. 
.   x21 x22 · · · x2p 
  
X= =

xi′

  ··· ··· ··· ··· 
 .. 
xn1 xn2 · · · xnp
 . 
x′n

y si suponemos que x ∼ Np (µ, ∑). Entonces, la media muestral


de x1 , x2 , · · · , xn , es:
 
x1
1 n  x2  1
x = ∑ xi =  ..  = X ′ j
 
n i =1  .  n
xp

donde, j es la matriz unos de orden n × 1. Más aún, la matriz de


covarianza muestral es:
 
s11 s12 · · · s1p
 s21 s22 · · · s2p 
S = (s jk ) =  ..
 
.. .. .. 
 . . . . 
s p1 s2 · · · s pp

donde,
n
1
n − 1 i∑
s jk = ( xij − x j )( xik − xk )
=1
!
n
1
n − 1 i∑
= xij xik − nx j xk
=1

301
en particular,
n
1
n − 1 i∑
s jj = s2j = ( xij − x j )2
=1
!
n
1
=
n−1 ∑ xij2 − nx j 2
i =1

o bién,
n  
1 1 1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′ =
n−1
X′ I− J
n
X

donde, la matriz I es la matriz identidad de orden n × n, y la


matriz J es la matriz de unos de orden n × n.

Consideremos el contraste de hipótesis:

H0 : µ = µ0
Ha : µ ̸ = µ 0

Si T 2 = n( x − µ0 )′ S−1 ( x − µ0 ) es el estadístico de prue-


ba, y, α ∈ (0 , 1) es un nivel de confianza, con

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]

Entonces,

1. T 2 tiene una distribución T 2 de Hotelling con p dimensio-


nes y n − 1 grados de libertad.
( n −1) p
2. Si T 2 > (n− p) α
F, entonces, H0 se rechaza al nivel de con-
fianza α

302
( n −1) p
3. Si T 2 ≤ (n− p) Fα , entonces, H0 no se rechaza al nivel de
confianza α

Aquí, Fα = F −1 (1 − α), donde, F −1 es la función acumu-


lativa inversa de una distribución F de Fisher con p grados de
libertad en el numerador, y n − p grados de libertad en el denomi-
nador.

Ejemplo 9.7 El departamento de control de calidad de un fabri-


cante de hornos de microondas es requerido por el gobierno federal
para monitorear la cantidad de radiación emitida cuando las puer-
tas de los hornos están cerradas o abiertas. Las observaciones de la
radiación emitida a través de puertas cerradas de n = 42 hornos
seleccionados aleatoriamente son los siguientes:

Figura 9.9: Radiación de hornos con puertas cerradas

303
y las observaciones de la radiación emitida a través de puertas
abiertas de n = 42 hornos seleccionados aleatoriamente son los
siguientes:

Figura 9.10: Radiación de hornos con puertas abiertas

304
Halle la región de confianza para µ de las raíces cuartas de
los datos de la matriz X formada por dos columnas; la primera son
las radiaciones a puerta cerrada, y la segunda son las radiaciones
a puerta abierta. Pruebe la docemasia de hipótesis:

H0 : µ = µ0
Ha : µ ̸ = µ 0
 
0.562
donde µ0 = . Use α = 0.05.
0.589

Solución. Ver la solución en COMPILACIONDEPRUE-


BASDEHIPOTESIS en Matlab. Como T 2 = 1.2573 ≤ 6.6250 =
Fα entonces, H0 no se rechaza al nivel de confianza α = 0.05.
La región de confianza se muestra en la siguiente figura:

Figura 9.11: Región de confianza de radiación.

305
Ejemplo 9.8 El Director de Mercadotecnia de una cadena de ci-
nes desea medir el grado de evocación o recuerdo que tiene el con-
sumidor sobre esta cadena de cines. Este concepto es medido a tra-
vés de tres variables dependientes: Marca, Slogan y Logotipo. Pa-
ra que los potenciales consumidores recuerden la cadena de cines
cuando se utiliza la PRENSA ESCRITA como medio masivo para
la campaña de publicidad en los consumidores los valores medios
de las variables deben ser por lo menos de (7,9,7). Para comprobar
si se logró este objetivo, una vez lanzada la campaña en la PREN-
SA ESCRITA, se tomó una muestra de 7 potenciales clientes y se
les pidió que calificarán su grado de evocación o recuerdo sobre
la cadena de cines en una escala de 0 a 10 puntos donde el 0 nos
indica baja evocación o recuerdo y el 10 alta evocación o recuerdo.
Los resultados son los siguientes: Considere la siguiente muestra
de tamaño n = 7 extraída de una población normal multivariada
donde x1 representa la evocación de la marca , x3 representa la
evocación del Slogan y x3 representa la evocación del logotipo:
 
4 8 3

 6 7 3 


 5 9 4 

X=
 5 9 6 


 5 7 4 

 6 6 7 
7 7 6

Probar el contraste de hipótesis:

H0 : µ = [7, 9, 7]′
Ha : µ ̸= [7, 9, 7]′

Y halle la regíon de confianza para µ. Usar el nivel de confianza


α = 0.05.

306
Solución. Ver la solución en COMPILACIONDEPRUE-
BASDEHIPOTESIS en Matlab. Como T 2 = 68.1672 > 29.6612 =
Fα , entonces, H0 se rechaza al nivel de confianza α = 0.05.
La región de confianza se muestra en la siguiente figura:

Figura 9.12: Región de confianza al 95 % para µ

307
Ejemplo 9.9 Se analizó la transpiración de 20 mujeres sanas.
Tres componentes se midieron, x1 = tasa de sudoración, x2 = con-
tenido de sodio y x3 = contenido de potasio. Los resultados, que
llamamos datos de sudor, se presentan en la siguiente tabla:

308
Probar el contraste de hipótesis:

H0 : µ = [4, 50, 10]′


Ha : µ ̸= [4, 50, 10]′

Y halle la regíon de confianza para µ. Usar el nivel de confianza


α = 0.10.

Solución. Ver la solución en COMPILACIONDEPRUE-


BASDEHIPOTESIS en Matlab. Como T 2 = 9.7388 > 8.1726 =
Fα , entonces, H0 se rechaza al nivel de confianza α = 0.10.
La región de confianza se muestra en la siguiente figura:

Figura 9.13: Región de confianza al 90 % para µ

309
9.3. Intervalos de confianza de Bonfe-
rroni para ai′ µ

En esta sección describimos los intervalos de confianza


de combinaciones lineales ai′ µ, para cada i = 1, 2, · · · , k

Proposición 9.6 Sea 0 < α < 1 y sea X1 , · · · , Xn una muestra


aleatoria normal Np (µ, ∑) con µ y ∑ > 0 ambas desconocidas.
Supongamos además que para cada i = 1, 2, · · · , k, tenemos que

ai′ = ( ai1 , ai2 , · · · , aip )

es un p vector renglón constante. Entonces un intervalo de alme-


nos 100(1 − α) % de confianza para cada combinación lineal

ai′ µ = ai1 µ1 + ai2 µ2 + · · · + aip µ p

viene descrito de la siguiente forma:


r r
′ ai′ Sai ′ ′ ai′ Sai
ai X − t ,n−1
α < ai µ < ai X + t 2k ,n−1
α
2k n n
donde t α ,n−1 = F −1 (1 − 2k α
), y F −1 es la funcíón acumulativa
2k
inversa de la distribución t-estudent con n − 1 grados de libertad.

310
Como una consecuencia práctica tenemos el siguiente
resultado sobre el intervalo de confianza de cada una de las
medias µi , con una confianza de almenos 100(1 − α) % (se
aumenta la confianza). Más aún este tipo de intervalos re-
duce la probabilidad de cometer un error tipo I, es decir,
rechazar una hípótesis nula cuando esta es verdadera; en
nuestro caso se reduce la probabilidad de que alguna me-
dia µi no esté en el intervalo indicado. Esto nos indica que
los intervalos de confianza tienen más estabilidad o que las
pruebas tienen más estabilidad. Este tipo de intervalos se
les conoce como intervalos simultáneos de Bonferroni.

Corolario 9.1 (Intervalos simultáneos de Bonferroni). Sea


0 < α < 1 y sea X1 , · · · , Xn una muestra aleatoria normal
Np (µ, ∑) con µ y ∑ > 0 ambas desconocidas. Entonces un in-
tervalo de almenos 100(1 − α) % de confianza para cada µi , i =
1, 2, · · · , p viene descrito de la siguiente forma:
" r r #
Sii Sii
P X i − t 2pα ,n−1 < µi < X i + t 2pα ,n−1 ≥ 1−α
n n

donde t 2pα ,n−1 = F −1 (1 − 2p


α
), y F −1 es la funcíón acumulativa
inversa de la distribución t-estudent con n − 1 grados de liber-
tad. Aquí Sii es el i-ésimo elemento de la diagonal principal de la
matriz S y X i es la media muestral de la i-ésima variable de X

311
Ejemplo 9.10 LIBRO JAVIER MECH PÁGINA 369. El Direc-
tor de Mercadotecnia de una cadena de cines desea medir el grado
de evocación o recuerdo que tiene el consumidor sobre esta cade-
na de cines. Este concepto es medido a través de tres variables
dependientes: Marca, Slogan y Logotipo. Para que los potencia-
les consumidores recuerden la cadena de cines cuando se utiliza
la PRENSA ESCRITA como medio masivo para la campaña de
publicidad en los consumidores los valores medios de las variables
deben ser por lo menos de (7, 9, 7). Para comprobar si se logró este
objetivo, una vez lanzada la campaña en la PRENSA ESCRITA,
se tomó una muestra de 7 potenciales clientes y se les pidió que
calificarán su grado de evocación o recuerdo sobre la cadena de
cines en una escala de 0 a 10 puntos donde el 0 nos indica baja
evocación o recuerdo y el 10 alta evocación o recuerdo. Conside-
re la siguiente muestra de tamaño n=7 extraída de una población
normal multivariada donde X1 = Evocación de la marca , X2 =
Evocación del Slogan y X3 = Evocación del logotipo:

 
4 8 3

 6 7 3 


 5 9 4 

X=
 5 9 6 


 5 7 4 

 6 6 7 
7 7 6

1. Desarrolle el procedimiento de inferencia correspondiente


para las medias de los tres vectores suponiendo la siguiente
hipótesis nula MU0 = [7, 9, 7]′
2. Utilice el método del intervalo de confianza de Bonferroni
para probar la hipótesis nula para cada variable en forma

312
aislada y verifique si existen diferencias significativas entre
las medias muestrales y las hipotéticas e interprete.

Solución.

1. Invoquemos el programa PRUEBADEUNAMEDIAVA-


RIANZADESCONOCIDA. Como T 2 = 68.167224080
y F0 = 29.66121952, entonces la hipótesis nula se re-
chaza. Luego existe evidencia suficiente para decir que
estadísticamente al menos uno de los parámetros de
las tres variables estudiadas X1 = Evocación de la
marca, X2 = Evocación del Slogan y X3 = Evocación
del logotipo es diferente

2. Invoquemos el programa INTERVDEBONFERRONI-


DEMEDIAS. Aquí se muestran los tres intervalos de
confianza para las respectivas mediciones X1, X2, X3:

4.2160 6.6412
6.1625 8.9803
2.7218 6.7068

313
9.4. Análisis de perfiles de una mues-
tra

Muchas situaciones experimentales son conducidas de


manera que a una misma unidad experimental se le apli-
can sucesivamente varios tratamientos; de donde resultan
valores repetidos de una respuesta sobre la misma unidad
u objeto. Los tratamientos pueden ser dietas, dosis de un
fármaco, diferentes estímulos, entre otros. Por ejemplo:

1. A un animal se le aplican varios medicamentos en di-


ferentes ocasiones o tiempos, luego se le registra su
tiempo de pastoreo.
2. En pacientes, la tensión arterial sistólica es medida en
intervalos de tiempo fijos, como respuesta a un fárma-
co desde la administración del mismo hasta que aqué-
lla se estabilice.
3. Pruebas sobre lectura son administradas a estudiantes
en diferentes estadios de su educación, se registran los
respectivos puntajes de desempeño.
4. Medidas tales como la alzada y el peso es registrado
sobre un tipo de bovino en diferentes edades.
5. Medidas sobre la composición del suelo se toman a di-
ferentes profundidades, sobre un terreno experimen-
tal.

Así, otra generalización del estadístico t de student univa-


riante apareado surge en situaciones en las que p tratamien-

314
tos se comparan con respecto a una sola variable de respues-
ta. Cada tema o unidad experimental recibe cada tratamien-
to una vez en periodos de tiempo sucesivos. Más precisa-
mente hablando, si x ∼ Np (µ, ∑) y las variables en x son
medidas en la misma escala con aproximadamente la mis-
ma varianza, entonces, a veces es necesario (por ejemplo en
test de Psicología) comparar las medias µ1 , µ2 , · · · , µ p de µ
de cada variable de x. Conectaremos los puntos,

(1, µ1 ), (2, µ2 ), · · · , ( p, µ p )

en el plano. A la unión de estos segmentos se le llama un


análisis de perfiles.

Figura 9.14: Perfiles de un vector de medias

315
Una hipótesis básica es analizar si las medias tienen el
mismo nivel o planitud, es decir, si la hipótesis nula

H0 : µ1 = µ2 = · · · = µ p

no se rechaza, contra la hipótesis alterna:

Ha : µi ̸= µ j , para alguna i ̸= j

Este tipo de contraste no lo podemos resolver con alguno de


los criterios precedentes pués las variables del vector x no
tienen que ser independientes, es decir, en general, pueden
estar correlacionadas.

Teorema 9.3 (Prueba del perfil de paralelismo en una mues-


tra).

Sea x11 , · · · , x1n una muestra normal de un vector x, es de-


cir, x ∼ Np (µ, ∑), y supongamos que las variables del vector x
tienen las mismas unidades (mismas escalas).

Sea,
 
−1 1 0 ··· 0 0
 0 −1 1 ··· 0 0 
C=
 
.. .. .. .. .. 
 . . . . . 
0 0 0 ··· −1 1

la matriz de contraste de orden ( p − 1) × p, y consideremos la


hipótesis nula del paralelismo:

H0 : Cµ = 0

316
equivalente a la igualdad de matrices:
   
µ2 − µ1 0
 µ3 − µ2   0 
=
   
 ..  .. 
 .   . 
µ p − µ p −1 0
equivalente a:
H0 : µ1 = µ2 = · · · = µ p
Supongamos el contraste de hipótesis:
H0 : Cµ = 0
Ha : Cµ ̸= 0

Y sea, T 2 = n(Cx)′ [CSC ′ ]−1 (Cx) el estadístico de prueba, y,


α ∈ (0 , 1) un nivel de confianza, con
α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]
Entonces,

1. T 2 tiene una distribución Tp2−1,n−1 si H0 es verdadero

2. Si T 2 > Tα , entonces, H0 se rechaza al nivel de confianza α


3. Si T 2 ≤ Tα , entonces, H0 no se rechaza al nivel de confianza
α

Aquí, Tα = F −1 (1 − α), donde, F −1 es la función acumulativa


inversa de la distribución T 2 de Hotelling con p − 1 grados de
libertad en el numerador, y, n − 1 grados de libertad en el deno-
minador, y donde,
n
x1i
x=∑
i =1
n

317
y,
n  
1 1 1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′ =
n−1
X′ I− J
n
X

es la matriz de covarianzas muestrales.

Ejemplo 9.11 Ver el ejemplo del calcio página 84 del libro Al-
vin Multivariable estadística inferencial. Los datos fueron obteni-
dos de la tabla 3.3 del libro Alvin Métodos multivariable segunda
edición página 56

El teorema anterior se puede generalizar de la siguiente


manera.

Teorema 9.4 (Prueba del perfil de combinaciones lineales


en una muestra).

Sea x11 , · · · , x1n una muestra normal de un vector x, es de-


cir, x ∼ Np (µ, ∑), y supongamos que las variables del vector x
tienen las mismas unidades (mismas escalas).

Sea, C una matriz constante (matriz contraste) de orden k ×


p, y, φ una matriz columna constante de orden k × 1. Suponga-
mos el contraste de hipótesis:
H0 : Cµ = φ
Ha : Cµ ̸= φ
Y sea, T 2 = n(Cx − φ)′ [CSC ′ ]−1 (Cx − φ) el estadístico de
prueba, y, α ∈ (0 , 1) un nivel de confianza, con
α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]
Entonces,

318
1. T 2 tiene una distribución Tk,n
2
−1 si H0 es verdadero

2. Si T 2 > Tα , entonces, H0 se rechaza al nivel de confianza α

3. Si T 2 ≤ Tα , entonces, H0 no se rechaza al nivel de confianza


α

4. Una región del 100(1 − α) % de confianza para el valor de


Cµ es el conjunto:

{φ ∈ Rk : n(Cx − φ)′ [CSC ′ ]−1 (Cx − φ) ≤ Tα }

5. Si elegimos un renglón ci′ , i = 1, · · · , k de la matriz C, los


intervalos simultáneos de 100(1 − α) % de confianza para
el valor de la combinación lineal ci′ µ tienen la forma:
r
ci′ Sci
ci′ x ± Tα
n

Aquí, Tα = F −1 (1 − α), donde, F −1 es la función acumulativa


inversa de la distribución T 2 de Hotelling con k grados de libertad
en el numerador, y, n − 1 grados de libertad en el denominador, y
donde,
n
x1i
x=∑
i =1
n

y,
n  
1 1 1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′ =
n−1
X′ I− J
n
X

es la matriz de covarianzas muestrales.

319
En base al teorema precedente, tenemos los siguientes
casos particulares de regiones de confianza.

Corolario 9.2 (Región de confianza de perfiles de una mues-


tra en 2D). Sea x11 , · · · , x1n una muestra normal de un vector
x, es decir, x ∼ Np (µ, ∑), y supongamos que las variables del
vector x tienen las mismas unidades (mismas escalas). Sea, C una
matriz constante (matriz contraste) de orden 2 × p.

Si 0 < α < 1, entonces la región de 100(1 − α) % de con-


fianza para para las combinaciones lineales Cµ es el conjunto con
coordenadas paramétricas:
  r  √ 
x Tα d 1 sin θ
= Cx + H √
y n d2 cos θ
donde, 0 ≤ θ ≤ 2π, Tα = F −1 (1 − α) es la función acumulativa
inversa de la distribución T 2 de Hotelling, con k grados de libertad
 y, n − 1 grados
en el numerador,  de libertad en el denominador; y,
h11 h12
donde, H = es la matriz cuyas columnas son los
h21 h22  
′ d1
eigenvectores de la matriz CSC y, d = es el vector de
d2
eigenvalores de la matriz CSC ′ . También aquí,
n
x1i
x= ∑ n
i =1

y,
n  
1 1 1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′ =
n−1
X′ I− J
n
X

es la matriz de covarianzas muestrales.

320
Corolario 9.3 (Región de confianza de perfiles de una mues-
tra en 3D). Sea x11 , · · · , x1n una muestra normal de un vector
x, es decir, x ∼ Np (µ, ∑), y supongamos que las variables del
vector x tienen las mismas unidades (mismas escalas). Sea, C una
matriz constante (matriz contraste) de orden 3 × p.

Si 0 < α < 1, entonces la región de 100(1 − α) % de con-


fianza para las combinaciones lineales Cµ es el conjunto con coor-
denadas paramétricas:
   √ 
x r
√ d 1 sin θ 1 sin θ 2
 y  = Cx + Tα H  d2 sin θ1 cos θ2 
n √
z d3 cos θ1
donde, 0 ≤ θ1 ≤ π, 0 ≤ θ2 ≤ 2π, Tα = F −1 (1 − α) es la
función acumulativa inversa de la distribución T 2 de Hotelling,
con k grados de libertad en el numerador, y, n − 1 grados de
liber-
h11 h12 h13
tad en el denominador; y, donde, H =  h21 h22 h23  es la
h31 h32 h33
matriz cuyas
 columnas
 son los eigenvectores de la matriz CSC ′
d1
y, d =  d2  es el vector de eigenvalores de la matriz CSC ′ .
d3
También aquí,
n
x1i
x=∑
i =1
n

y,
n  
1 1 1
S= ∑
n − 1 i =1
( xi − x)( xi − x)′ =
n−1
X′ I− J
n
X

es la matriz de covarianzas muestrales.

321
Ejemplo 9.12 Ver el ejemplo del calcio página 84 del libro Al-
vin Multivariable estadística inferencial. Los datos fueron obteni-
dos de la tabla 3.3 del libro Alvin Métodos multivariable segunda
edición página 56

Ejemplo 9.13 Ver el ejemplo 6.2 página 280 libro Richard o


ejemplo 3.5.5 página 126 del libro Monrroy.

322
9.5. Pruebas de diferencia de medias de
dos muestras con varianzas desco-
nocidas iguales

En esta sección estudiaremos el concepto de Igualdad


de medias con varianzas desconocidas iguales.

Proposición 9.7 Sean X11 , · · · , X1n1 y X21 , · · · , X2n2 dos mues-


tras normales independientes. Supongamos que X1 ∼ Np (µ1 , ∑1 )
y X2 ∼ Np (µ2 , ∑2 ) y que además, ∑1 = ∑2 = ∑ es desconoci-
da. La región de confianza RC de 100(1 − α) % de confianza para
µ1 − µ2 es el conjunto:
n1 n2
{δ ∈ R p : M ( x1 − x2 − δ ) ′ S − 1
pl ( x1 − x2 − δ ) ≤ Fα }
n1 + n2
n + n − p −1
donde M = p1(n +2 n −2) . Aquí, Fα = F −1 (1 − α), donde, F −1 es
1 2
la función acumulativa inversa de una distribución F de Fisher
con p grados de libertad en el numerador, y n1 + n2 − p − 1 gra-
dos de libertad en el denominador, y donde,
n1
X1i
X1 = ∑ n
i =1 1

n2
X2i
X2 = ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2

323
Veamos ahora la región de confianza de µ1 − µ2 para el
caso de dos dimensiones.

Proposición 9.8 Sean X11 , · · · , X1n1 y X21 , · · · , X2n2 dos mues-


tras normales independientes con X1 ∼ N2 (µ1 , ∑1 ) y X2 ∼ N2 (µ2 , ∑2 ).
Asumamos que∑1 = ∑2 =  ∑ es desconocida. Supongamos ade-
h11 h12
más que H = es la matriz cuyas columnas son los
h21 h22  
d1
eigenvectores de la matriz S pl y que d = es el vector de
d2
eigenvalores de la matriz S pl . Donde,

1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2

La región RC de confianza de 100(1 − α) % de confianza para


µ1 − µ2 es la frontera y el interior de la elipse con ecuaciones
paramétricas:
s  √
(n1 + n2 ) p(n1 + n2 − 2) Fα
  
x
= x1 − x2 + H √ d1 sin θ
y n1 n2 ( n1 + n2 − p − 1) d2 cos θ

donde 0 ≤ θ ≤ 2π, y, Fα es el cuantil que satisface la propiedad

Fα = F −1 (1 − α)

Aquí Fα = F −1 (1 − α), donde, F −1 es la función acumulativa


inversa de una distribución F de Fisher con p grados de libertad
en el numerador, y n1 + n2 − p − 1 grados de libertad en el deno-
minador. RC satisface la propiedad:

P[µ ∈ RC ] = 1 − α

324
Ejemplo 9.14 EJEMPLO 5.4.2 DEL LIBRO METHODS OF
MULTIVARIATE ANALYSIS Third Edition ALVIN PÁGINA
137.

Ejemplo 9.15 Usando la tabla 5.5 DEL LIBRO METHODS


OF MULTIVARIATE ANALYSIS Third Edition ALVIN página
162, halle la región de confianza de dos muestras en dos dimen-
siones.

Ejemplo 9.16 Ver el ejemplo 6.3 del libro Richard quinta edi-
ción página 286. También ver la compilación de este problema en
el programa COMPILACIONDEPRUEBASDEHIPÓTESIS de
matlab.

Veamos ahora la región de confianza de µ1 − µ2 para el


caso de tres dimensiones.

Proposición 9.9 Sean X11 , · · · , X1n1 y X21 , · · · , X2n2 dos mues-


tras normales independientes con X1 ∼ N3 (µ1 , ∑1 ) y X2 ∼ N3 (µ2 , ∑2 ).
Asumamos que ∑1 = ∑2 = ∑ es desconocida. Supongamos ade-
h11 h12 h13
más que H =  h21 h22 h23  es la matriz cuyas columnas
h31 h32 h33  
d1
son los eigenvectores de la matriz S pl y que d =  d2  es el
d3
vector de eigenvalores de la matriz S pl . Donde,

1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2

325
La región RC de confianza de 100(1 − α) % de confianza para
µ1 − µ2 es la frontera y el interior del elipsoide con ecuaciones
paramétricas:
 
x
 y =
z
 √ 
d sin sin
s
1 θ 1 θ 2
(n1 + n2 ) p(n1 + n2 − 2) Fα  √
x1 − x2 + H √d2 sin θ1 cos θ2

n1 n2 ( n1 + n2 − p − 1)
d3 cos θ1

0 ≤ θ1 ≤ π, 0 ≤ θ2 ≤ 2π. Aquí Fα = F −1 (1 − α), siendo F −1


la función acumulativa inversa de la distribución F de Fisher con
p grados de libertad en el numerador, y n1 + n2 − p − 1 grados
de libertad en el denominador. RC satisface la propiedad:

P[µ ∈ RC ] = 1 − α

Ejemplo 9.17 Usando la tabla 5.5 DEL LIBRO METHODS


OF MULTIVARIATE ANALYSIS Third Edition ALVIN página
162, halle la región de confianza de dos muestras en tres dimen-
siones. Vea la compilación del problema en el programa COMPI-
LACIONDEPRUEBASDEHIPÓTESIS de matlab.

Teorema 9.5 (Igualdad de medias con varianzas desconoci-


das iguales). Sean X11 , · · · , X1n1 y X21 , · · · , X2n2 dos muestras
normales independientes con X1 ∼ Np (µ1 , ∑1 ) y X2 ∼ Np (µ2 , ∑2 ).
Supongamos que ∑1 = ∑2 = ∑ es desconocida. Consideremos el
contraste de hipótesis:

H0 : µ1 − µ2 = δ0
Ha : µ1 − µ2 ̸= δ0

326
Sea T 2 = nn11+nn22 ( X1 − X2 − δ0 )′ S− 1
pl ( X1 − X2 − δ0 ) el estadís-
tico de prueba, y, α ∈ (0 , 1) es un nivel de confianza, con

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]

Entonces,

1. T 2 tiene una distribución Tp,n


2
1 + n2 −2

p ( n + n −2)
2. Si T 2 > (n +1n −2p−1) Fα , entonces, H0 se rechaza al nivel de
1 2
confianza α
p ( n + n −2)
3. Si T 2 ≤ (n +1n −2p−1) Fα , entonces, H0 no se rechaza al nivel
1 2
de confianza α

Aquí, δ0 es un vector columna de p valores, Fα = F −1 (1 − α),


donde, F −1 es la función acumulativa inversa de una distribución
F de Fisher con p grados de libertad en el numerador, y n1 + n2 −
p − 1 grados de libertad en el denominador, y donde,
n1
X1i
X1 = ∑ n
i =1 1

n2
X2i
X2 = ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2

Como un caso particular, tenemos el siguiente corola-


rio.

327
Corolario 9.4 (Igualdad de medias con varianzas descono-
cidas iguales). Sean X11 , · · · , X1n1 y X21 , · · · , X2n2 dos mues-
tras normales independientes con X1 ∼ Np (µ1 , ∑1 ) y X2 ∼ Np (µ2 , ∑2 ).
Supongamos que ∑1 = ∑2 = ∑ es desconocida. Consideremos el
contraste de hipótesis:

H0 : µ1 − µ2 = 0
Ha : µ 1 − µ 2 ̸ = 0

equivalente al contraste:

H0 : µ1 = µ2
Ha : µ 1 ̸ = µ 2

Sea T 2 = nn11+nn22 ( X1 − X2 )′ S− 1
pl ( X1 − X2 ) el estadístico de prue-
ba, y, α ∈ (0 , 1) es un nivel de confianza, con

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]

Entonces,

1. T 2 tiene una distribución Tp,n


2
1 + n2 −2

p ( n + n −2)
2. Si T 2 > (n +1n −2p−1) Fα , entonces, H0 se rechaza al nivel de
1 2
confianza α
p ( n + n −2)
3. Si T 2 ≤ (n +1n −2p−1) Fα , entonces, H0 no se rechaza al nivel
1 2
de confianza α

Aquí, 0 es un vector columna de p ceros, Fα = F −1 (1 − α),


donde, F −1 es la función acumulativa inversa de una distribución

328
F de Fisher con p grados de libertad en el numerador, y n1 + n2 −
p − 1 grados de libertad en el denominador, y donde,
n1
X1i
X1 = ∑ n
i =1 1

n2
X2i
X2 = ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2

Ejemplo 9.18 Ver el ejemplo 5.4.2 del libro METHODS OF


MULTIVARIATE ANALYSIS Third Edition ALVIN página 137.
Compilar el programa

[C1, T2, T, C2] = IGU ALDADDEMEDI AS( X, Y, [0, 0, 0, 0]′ , 0.01)

que está en el programa COMPILACIONDEPRUEBASDEHI-


PÓTESIS de matlab.

Ejemplo 9.19 Con los datos de la tabla 5.5 DEL LIBRO METHODS
OF MULTIVARIATE ANALYSIS Third Edition ALVIN página
162, pruebe el contraste de hipótesis H0 : µ1 − µ2 = 0 contra la
hipótesis Ha : µ1 − µ2 ̸= 0

329
9.6. Prueba de hipótesis de combinacio-
nes lineales de diferencia de dos
medias

En esta sección describimos los intervalos simultáneos


de las componentes del vector de medias µ1 − µ2 . Estos in-
tervalos se obtienen a partir de las dos muestras multivaria-
bles.

Proposición 9.10 Sean X11 , · · · , X1n1 y X21 , · · · , X2n2 dos mues-


tras normales independientes. Supongamos que X1 ∼ Np (µ1 , ∑1 )
y X2 ∼ Np (µ2 , ∑2 ) y que además, ∑1 = ∑2 = ∑ es desconoci-
da. Consideremos además un p vector columna arbitrario de va-
lores contantes a. El intervalo de 100(1 − α) % de confianza para
a′ (µ1 − µ2 ) es:
s 
′ 1 1
a ( X1 − X2 ) ± c + a′ S pl a
n1 n2

donde
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
s
p ( n1 + n2 − 2)
c= Fα
n1 + n2 − p − 1
con Fα = F −1 (1 − α); siendo, F −1 la función acumulativa in-
versa de la distribución F de Fisher con p grados de libertad en el
numerador y n1 + n2 − p − 1 grados de libertad en el denomina-
dor.

330
En particular, un intervalo de 100(1 − α) % de confianza
para cada diferencia medias µ1i − µ2i , i = 1, 2, · · · , p es:
s 
1 1
X1i − X2i ± c + S pl,ii
n1 n2

donde S pl,ii es el i-ésimo elemento de la diagonal principal de la


matriz S pl .

331
Teorema 9.6 (Prueba de hipótesis de una combinación li-
neal de diferencia de medias). Supongamos que X11 , · · · , X1n1
y X21 , · · · , X2n2 son dos muestras normales independientes con
X1 ∼ Np (µ1 , ∑1 ) y X2 ∼ Np (µ2 , ∑2 ). Asumamos que ∑1 =
∑2 = ∑ es desconocida y que además a es un p vector colum-
na arbitrario de valores contantes . Consideremos el contraste de
hipótesis:
H0 : a′ (µ1 − µ2 ) = a′ δ0
Ha : a′ (µ1 − µ2 ) ̸= a′ δ0
donde δ0 es un p vector columna arbitrario de valores contantes .

Sea
a′ ( X1 − X2 − δ0 )
T 2 = r 
1 1
n1 + n2 S pl

el estadístico de prueba, y, α ∈ (0 , 1) es un nivel de confianza,


con
α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]
Entonces,

1. T 2 tiene una distribución Tp,n


2
1 + n2 −2

p ( n + n −2)
2. Si | T 2 | > (n +1n −2p−1) Fα , entonces, H0 se rechaza al nivel
1 2
de confianza α
p ( n + n −2)
3. Si | T 2 | ≤ (n +1n −2p−1) Fα , entonces, H0 no se rechaza al
1 2
nivel de confianza α

Aquí, Fα = F −1 (1 − α), donde, F −1 es la función acumulativa


inversa de una distribución F de Fisher con p grados de libertad

332
en el numerador, y n1 + n2 − p − 1 grados de libertad en el deno-
minador, y donde,
n1
X1i
X1 = ∑
n
i =1 1
n2
X2i
X2 = ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2

333
Corolario 9.5 (Prueba de igualdad de dos medias de un vec-
tor de medias). Supongamos que X11 , · · · , X1n1 y X21 , · · · , X2n2
son dos muestras normales independientes con X1 ∼ Np (µ1 , ∑1 )
y X2 ∼ Np (µ2 , ∑2 ). Asumamos que ∑1 = ∑2 = ∑ es descono-
cida. Para i = 1, 2, · · · p consideremos el contraste de hipótesis:

H0 : µ1i − µ2i = 0
Ha : µ1i − µ2i ̸= 0

Sea
X 1i − X 2i
T 2 = r 
1 1
n1 + n2 S pl,ii

el estadístico de prueba, y, α ∈ (0 , 1) es un nivel de confianza,


con

α = P[error tipo I] = P[Rechazar H0 | H0 es verdadero]

Entonces,

1. T 2 tiene una distribución Tp,n


2
1 + n2 −2

p ( n + n −2)
2. Si | T 2 | > (n +1n −2p−1) Fα , entonces, H0 se rechaza al nivel
1 2
de confianza α
p ( n + n −2)
3. Si | T 2 | ≤ (n +1n −2p−1) Fα , entonces, H0 no se rechaza al
1 2
nivel de confianza α

Aquí, Fα = F −1 (1 − α), donde, F −1 es la función acumulativa


inversa de una distribución F de Fisher con p grados de libertad

334
en el numerador, y n1 + n2 − p − 1 grados de libertad en el deno-
minador, donde,
n1
X1i
X1 = ∑
n
i =1 1
n2
X2i
X2 = ∑ n
i =1 2
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2
y donde S pl,ii es el i-ésimo elemento de la diagonal principal de la
matriz S pl .

En particular, si para algún i = 1, 2, · · · , p el contraste de


hipótesis:
H0 : µ1i − µ2i = 0
Ha : µ1i − µ2i ̸= 0
se rechaza al nivel α, entonces, la prueba p vectorial:
H0 : µ1 − µ2 = 0
Ha : µ 1 − µ 2 ̸ = 0
equivalente al contraste:
H0 : µ1 = µ2
Ha : µ 1 ̸ = µ 2
se rechazará también al mismo nivel de confianza α.

Ejemplo 9.20 Usando la tabla 5.5 DEL LIBRO METHODS


OF MULTIVARIATE ANALYSIS Third Edition ALVIN página
162, halle la región de confianza de dos muestras en dos dimen-
siones. El programa se llama
NTERVALOSSI MULTANEOSDIFMEDI AS3

335
Ejemplo 9.21 Con los datos de la tabla 5.5 DEL LIBRO METHODS
OF MULTIVARIATE ANALYSIS Third Edition ALVIN página
162. Halle los intervalos de confianza simultáneos de la combina-
ción lineal de medias de la diferencia de medias de las dos mues-
tras. El programa se llama

NTERVALOSSI MULTANEOSDIFMEDI AS1

Ejemplo 9.22 Ejemplo. Con los datos de la tabla 5.5 DEL LI-
BRO METHODS OF MULTIVARIATE ANALYSIS Third Edi-
tion ALVIN página 162, pruebe el contraste de hipótesis H0 :
µ1i − µ2i = 0 contra Ha : µ1i − µ2i ̸= 0 para todo i = 1, 2, · · · , p

336
También existen los intervalos de confianza simultá-
neos de Bonferroni para estimar la diferencia de medias de
cada componente de la diferencia de dos vectores.

Teorema 9.7 (Intervalos de confianza simultáneos de Bon-


ferroni de diferencia de medias). Supongamos que X11 , · · · , X1n1
y X21 , · · · , X2n2 son dos muestras normales independientes con
X1 ∼ Np (µ1 , ∑1 ) y X2 ∼ Np (µ2 , ∑2 ). Asumamos que ∑1 =
∑2 = ∑ es desconocida. Los intervalos de (1 − α) % de confian-
za de los valores µ1i − µ2i para i = 1, 2, · · · , p tienen la forma
siguiente:

" s  #
1 1
P X1i − X2i ± t 2pα + S pl,ii = 1 − α
n1 n2

donde, S pl,ii es el i-ésimo elemento de la diagonal principal de la


matriz S pl :

1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2

t 2pα = F −1 (1 − 2p
α
), es la función inversa acumulativa de la dis-
tribución t con n1 + n2 − 2 grados de libertad

Ejemplo 9.23 Ver el ejemplo 6.1 del libro Richard página 275.
También ver su solución en compilación de prueba de hipótesis.

337
9.7. Prueba de la diferencia de dos vec-
tores de medias con covarianzas des-
conocidas y distintas

En esta sección describiremos un resultado para la prue-


ba de la diferencia de dos vectores de medias con covarian-
zas desconocidas y distintas.

Teorema 9.8 (Región de confianza de la diferencia de dos


vectores de medias con covarianzas desconocidas y distin-
tas). Supongamos que x = [ x1 , x2 , · · · , x p ] y y = [y1 , y2 , · · · , y p ]
son dos vectores de p variables aleatorias y que tenemos una mues-
tra de tamaño n1 del vector x y una muestra n2 del vector y. Las
muestras del vector x y del vector y se suponen independientes y
se describen en las siguientes matrices:
 
x11 x12 · · · x1p
 x21 x22 · · · x2p 
X=  ··· ··· ··· ··· 

xn1 ,1 xn1 ,2 · · · xn1 ,p


 
y11 y12 · · · y1p
 y21 y22 · · · y2p 
Y=  ··· ··· ··· ··· 

yn2 ,1 yn2 ,2 · · · yn2 ,p


Supongamos que las dos muestras son Np (µ x , ∑ x ) y Np (µy , ∑y )
con matrices de covarianzas desconocidas y supuestas distintas.
Supongamos además que n1 − p y n2 − p son ’grandes’.

1. Si α ∈ (0, 1) es un nivel de confianza, una región de 100(1 −


α) % por ciento de confianza para la diferencia µ x − µy es

338
el conjunto {δ ∈ R p } que satisfacen la desigualdad:
  −1
′ 1 1
[ x − y − δ] S1 + S2 [ x − y − δ] < χ2p (α)
n1 n2

donde χ2p (α) = F −1 (1 − α), siendo F −1 la función acumu-


lativa inversa de la distribución χ2 con p grados de libertad.

2. Si a es un p vector columna constante, entonces un inter-


valo de 100(1 − α) % por ciento de confianza para la com-
binación lineal de medias a′ (µ x − µy ) es:
s  

q
2 ′ 1 1
a ( x − y) ± χ p (α) a S1 + S2 a
n1 n2

3. Consideremos el contraste de hipótesis:

H0 : µ x − µy = δ
Ha : µ x − µ y ̸ = δ

Si el estadístico de prueba
  −1
2 ′ 1 1
χ = [ x − y − δ] S1 + S2 [ x − y − δ] > χ2p (α)
n1 n2
entonces, H0 se rechaza al nivel α; en caso contrario no se
rechaza, donde χ2p (α) = F −1 (1 − α), siendo F −1 la función
acumulativa inversa de la distribución χ2 con p grados de
libertad.

4. Consideremos el contraste de hipótesis:

H0 : µ x = µy
Ha : µ x ̸ = µ y

339
Si el estadístico de prueba
  −1
2 ′ 1 1
χ = [ x − y] S1 + S2 [ x − y] > χ2p (α)
n1 n2

entonces, H0 se rechaza al nivel α; en caso contrario no se


rechaza, donde χ2p (α) = F −1 (1 − α), siendo F −1 la función
acumulativa inversa de la distribución χ2 con p grados de
libertad.

340
Corolario 9.6 (Región de confianza para la diferencia de me-
dias de dos vectores con matrices de covarianzas supuestas
desconocidas y distintas, caso 2D).

Supongamos que x = [ x1 , x2 ] y y = [y1 , y2 ] son dos vectores


de 2 variables aleatorias y que tenemos una muestra de tamaño n1
del vector x y una muestra n2 del vector y. Las muestras del vector
x y del vector y se suponen independientes y se describen en las
siguientes matrices:
 
x11 x12
 x21 x22 
X=
 ···

··· 
xn1 ,1 xn1 ,2
 
y11 y12
 y21 y22 
Y=
 ···

··· 
yn2 ,1 yn2 ,2
Supongamos que las dos muestras son N2 (µ x , ∑ x ) y N2 (µy , ∑y )
con matrices de covarianzas desconocidas y supuestas distintas.
Supongamos además que n1 − 2 y n2 − 2 son ’grandes’. Entonces,
si 0 < α < 1, la región de 100(1 − α) % de confianza para la
diferencia µ x − µy es el conjunto con coordenadas paramétricas:
   √ 
x √ d1 sin θ
q
= x−y+ χ22 (α) H
y d2 cos θ

donde 0 ≤ θ ≤ 2π, χ22 (α) = F −1 (1 − α) es la función acumu-


lativa inversade la distribución
 χ2 con 2 grados de libertad , y,
h11 h12
donde, H = es la matriz cuyas columnas son los
h21 h22

341
 
h
1 1
i d1
eigenvectores de la matriz n1 S1
+ n2 S2
y, d =
d2
es el
h i
1 1
vector de eigenvalores de la matriz n1 S1 + n2 S2 .

342
Corolario 9.7 (Región de confianza para la diferencia de me-
dias de dos vectores con matrices de covarianzas supuestas
desconocidas y distintas, caso 3D).

Supongamos que x = [ x1 , x2 , x3 ] y y = [y1 , y2 , y3 ] son dos


vectores de 3 variables aleatorias y que tenemos una muestra de
tamaño n1 del vector x y una muestra n2 del vector y. Las mues-
tras del vector x y del vector y se suponen independientes y se
describen en las siguientes matrices:
 
x11 x12 x13
 x21 x22 x23 
X=  ··· ···

··· 
xn1 ,1 xn1 ,2 xn1 ,3
 
y11 y12 y13
 y21 y22 y23 
Y=  ··· ···

··· 
yn2 ,1 yn2 ,2 yn2 ,3
Supongamos que las dos muestras son N3 (µ x , ∑ x ) y N3 (µy , ∑y )
con matrices de covarianzas desconocidas y supuestas distintas.
Supongamos además que n1 − 3 y n2 − 3 son ’grandes’. Entonces,
si 0 < α < 1, la región de 100(1 − α) % de confianza para la
diferencia µ x − µy es el conjunto con coordenadas paramétricas:
   √ 
x q √ d1 sin θ1 sin θ2
 y  = x − y + χ2 (α) H  d2 sin θ1 cos θ2 
2 √
z d3 cos θ1
donde 0 ≤ θ1 ≤ π, 0 ≤ θ2 ≤ 2π, χ22 (α) = F −1 (1 − α) es la
función acumulativa inversade la distribuciónχ2 con 3 grados
h11 h12 h13
de libertad , y, donde, H =  h21 h22 h23  es la matriz cu-
h31 h32 h33

343
h i
yas columnas son los eigenvectores de la matriz n11 S1 + n12 S2 y,
 
d1 h i
d =  d2  es el vector de eigenvalores de la matriz n11 S1 + n12 S2 .
d3

Ejemplo 9.24 Ver el ejemplo 6.5 página 292 del libro Richard.
Los datos fueron seleccionados de la página 288 del ejemplo 6.4
del mismo libro.

344
9.8. Prueba de observaciones pareadas

Supongamos que dos muestras no son independientes


porque existe un emparejamiento natural entre la i-ésima
observación en la primera muestra y la i-ésima observa-
ción en la segunda muestra para todo i , como, por ejemplo,
cuando se aplica un tratamiento dos veces al mismo indivi-
duo o cuando los sujetos se emparejan de acuerdo con algún
criterio, como IQ o antecedentes familiares. Con tal empare-
jamiento, las muestras a menudo se denominan observacio-
nes emparejadas o pares emparejados. En esta sección des-
cribimos la prueba de hipótesis de muestras emparejadas.

Teorema 9.9 (Prueba de observaciones pareadas). Suponga-


mos que x = [ x1 , x2 , · · · , x p ] y y = [y1 , y2 , · · · , y p ] son dos
vectores de p variables aleatorias y que tenemos una muestra de
tamaño n del vector x y del vector y. La muestra del vector x y del
vector y se describen en las siguientes matrices y no tienen que
ser independientes necesariamente:
 
x11 x12 · · · x1p
 x21 x22 · · · x2p 
X=  ··· ··· ··· ··· 

xn1 xn2 · · · xnp


 
y11 y12 · · · y1p
 y21 y22 · · · y2p 
Y=  ··· ··· ··· ··· 

yn1 yn2 · · · ynp


Para cada i = 1, 2, · · · , n, definamos Di′ como el vector de la i-
ésima fila de X menos la i-ésima fila de Y, es decir,
Di′ = X (i, :) − Y (i, :)

345
o sea
 
X (i, 1) − Y (i, 1)
 X (i, 2) − Y (i, 2) 
Di = [ X (i, :) − Y (i, :)]′ =  
 ··· 
X (i, p) − Y (i, p)
Supongamos que D1 , D2 , · · · , D n son vectores independientes y
cada Di ∼ Np (µd , ∑d ), donde, µd = µ x − µy (Para el caso en
que n − p es largo no necesitamos suponer la normalidad). Si de-
finimos
1 n
D = ∑ Di = x − y
n i =1
n
1
Sd = ∑
n − 1 i =1
( Di − D )( Di − D )′

y,
T 2 = n( D − µd )′ Sd−1 ( D − µd )
Entonces

( n −1) p
1. T 2 tiene una distribución F
(n− p) p,n− p

2. Consideremos el contraste de hipótesis:


H0 : µ x = µy
Ha : µ x ̸ = µ y
Si el estadístico de prueba
′ ( n − 1 ) p −1
T 2 = nD Sd−1 D > F (1 − α )
(n − p)
entonces, H0 se rechaza al nivel α; en caso contrario no se
rechaza. Aquí F −1 es la función acumulativa inversa de la
distribución F de Fisher con p grados de libertad en el nu-
merador y n − p grados en el denominador.

346
Proposición 9.11 (Región confianza de observaciones pa-
readas). Supongamos que x = [ x1 , x2 , · · · , x p ] y y = [y1 , y2 , · · · , y p ]
son dos vectores de p variables aleatorias y que tenemos una mues-
tra de tamaño n del vector x y del vector y. La muestra del vector
x y del vector y se describen en las siguientes matrices y no tienen
que ser independientes necesariamente:
 
x11 x12 · · · x1p
 x21 x22 · · · x2p 
X=  ··· ··· ··· ··· 

xn1 xn2 · · · xnp


 
y11 y12 · · · y1p
 y21 y22 · · · y2p 
Y=  ··· ··· ··· ··· 

yn1 yn2 · · · ynp


Para cada i = 1, 2, · · · , n, definamos Di′ como el vector de la i-
ésima fila de X menos la i-ésima fila de Y, es decir,

Di′ = X (i, :) − Y (i, :)

o sea
 
X (i, 1) − Y (i, 1)
 X (i, 2) − Y (i, 2) 
Di = [ X (i, :) − Y (i, :)]′ =  
 ··· 
X (i, p) − Y (i, p)
Supongamos que D1 , D2 , · · · , D n son vectores independientes y
cada Di ∼ Np (µd , ∑d ), donde, µd = µ x − µy (Para el caso en
que n − p es largo no necesitamos suponer la normalidad). Si de-
finimos
1 n
D = ∑ Di = x − y
n i =1

347
n
1
n − 1 i∑
Sd = ( Di − D )( Di − D )′
=1
Entonces, si 0 < α < 1 entonces la región de 100(1 − α) % de
confianza para µd es el conjunto:

( n − 1 ) p −1
 
p ′ −1
µ d ∈ R : ( D − µ d ) Sd ( D − µ d ) ≤ F (1 − α )
n(n − p)

Aquí F −1 es la función acumulativa inversa de la distribución F


de Fisher con p grados de libertad en el numerador y n − p grados
en el denominador.

348
Corolario 9.8 (Región confianza de observaciones pareadas
en dos dimensiones). Supongamos que x = [ x1 , x2 ] y y =
[y1 , y2 ] son dos vectores de 2 variables aleatorias y que tenemos
una muestra de tamaño n del vector x y del vector y. La muestra
del vector x y del vector y se describen en las siguientes matrices
y no tienen que ser independientes necesariamente:
 
x11 x12
 x21 x22 
X=  ··· ··· 

xn1 xn2
 
y11 y12
 y21 y22 
Y=  ··· ··· 

yn1 yn2
Para cada i = 1, 2, · · · , n, definamos Di′ como el vector de la i-
ésima fila de X menos la i-ésima fila de Y, es decir,
Di′ = X (i, :) − Y (i, :)
o sea
 
′ X (i, 1) − Y (i, 1)
Di = [ X (i, :) − Y (i, :)] =
X (i, 2) − Y (i, 2)
Supongamos que D1 , D2 , · · · , D n son vectores independientes y
cada Di ∼ N2 (µd , ∑d ), donde, µd = µ x − µy (Para el caso en
que n − 2 es largo no necesitamos suponer la normalidad). Si de-
finimos
1 n
D = ∑ Di = x − y
n i =1
n
1
n − 1 i∑
Sd = ( Di − D )( Di − D )′
=1

349
Entonces, si 0 < α < 1 entonces la región de 100(1 − α) % de
confianza para µd es el conjunto con coordenadas paramétricas:
s  √
2 ( n − 1 ) −1
  
x √ d1 sin θ
= D+ F (1 − α ) H
y n ( n − 2) d2 cos θ

donde 0 ≤ θ ≤ 2π, F −1 es la función acumulativa inversa de la


distribución F de Fisher con 2 grados de libertad enel numerador

h11 h12
y n − 2 grados en el denominador, y, donde, H =
h21 h22
es la matriz  columnas son los eigenvectores de la matriz Sd
 cuyas
d1
y, d = es el vector de eigenvalores de la matriz Sd .
d2

350
Corolario 9.9 (Región confianza de observaciones pareadas
en tres dimensiones). Supongamos que x = [ x1 , x2 , x3 ] y y =
[y1 , y2 , y3 ] son dos vectores de 3 variables aleatorias y que tenemos
una muestra de tamaño n del vector x y del vector y. La muestra
del vector x y del vector y se describen en las siguientes matrices
y no tienen que ser independientes necesariamente:
 
x11 x12 x13
 x21 x22 x23 
X=  ··· ··· ··· 

xn1 xn2 xn3


 
y11 y12 y13
 y21 y22 y23 
Y=
 ···

··· ··· 
yn1 yn2 yn3
Para cada i = 1, 2, · · · , n, definamos Di′ como el vector de la i-
ésima fila de X menos la i-ésima fila de Y, es decir,

Di′ = X (i, :) − Y (i, :)

o sea
 
X (i, 1) − Y (i, 1)
Di = [ X (i, :) − Y (i, :)]′ =  X (i, 2) − Y (i, 2) 
X (i, 3) − Y (i, 3)

Supongamos que D1 , D2 , · · · , D n son vectores independientes y


cada Di ∼ N3 (µd , ∑d ), donde, µd = µ x − µy (Para el caso en
que n − 3 es largo no necesitamos suponer la normalidad). Si de-
finimos
1 n
D = ∑ Di = x − y
n i =1

351
n
1
n − 1 i∑
Sd = ( Di − D )( Di − D )′
=1
Entonces, si 0 < α < 1 entonces la región de 100(1 − α) % de
confianza para µd es el conjunto con coordenadas paramétricas:
   √ 
x √ √ d 1 sin θ 1 sin θ 2
 y  = D + F0H  d2 sin θ1 cos θ2 

z d3 cos θ1

3( n −1) −1
0 ≤ θ1 ≤ π, 0 ≤ θ2 ≤ 2π, donde F0 = n ( n −3)
− α ),
F (1
F −1 es la función acumulativa inversa de la distribución F de
Fisher con 3 grados de libertad en el numerador
 y n − 3 gra-
h11 h12 h13
dos en el denominador, y, donde, H =  h21 h22 h23  es
h31 h32 h33
la matriz
 cuyas columnas son los eigenvectores de la matriz Sd y,
d1
d =  d2  es el vector de eigenvalores de la matriz Sd .
d3

352
Proposición 9.12 (Intervalos simultáneos para la diferen-
cia de medias pareadas). Supongamos que x = [ x1 , x2 , · · · , x p ]
y y = [y1 , y2 , · · · , y p ] son dos vectores de p variables aleatorias y
que tenemos una muestra de tamaño n del vector x y del vector y.
La muestra del vector x y del vector y se describen en las siguien-
tes matrices y no tienen que ser independientes necesariamente:
 
x11 x12 · · · x1p
 x21 x22 · · · x2p 
X=  ··· ··· ··· ··· 

xn1 xn2 · · · xnp


 
y11 y12 · · · y1p
 y21 y22 · · · y2p 
Y=  ··· ··· ··· ··· 

yn1 yn2 · · · ynp


Para cada i = 1, 2, · · · , n, definamos Di′ como el vector de la i-
ésima fila de X menos la i-ésima fila de Y, es decir,

Di′ = X (i, :) − Y (i, :)

o sea
 
X (i, 1) − Y (i, 1)
 X (i, 2) − Y (i, 2) 
Di = [ X (i, :) − Y (i, :)]′ =  
 ··· 
X (i, p) − Y (i, p)
Supongamos que D1 , D2 , · · · , D n son vectores independientes y
cada Di ∼ Np (µd , ∑d ), donde, µd = µ x − µy (Para el caso en
que n − p es largo no necesitamos suponer la normalidad). Si de-
finimos
1 n
D = ∑ Di = x − y
n i =1

353
n
1
n − 1 i∑
Sd = ( Di − D )( Di − D )′
=1
Entonces, para 0 < α < 1, y para cada i = 1, 2, · · · , p, los
intervalos simultáneos de 100(1 − α) % de confianza para la di-
ferencia de medias µ xi − µyi de cada componente de la matriz Di ,
son respectivamente:
s r
( n − 1 ) p −1 Sdi
Di ± F (1 − α )
(n − p) n

Aquí F −1 es la función acumulativa inversa de la distribución F


de Fisher con p grados de libertad en el numerador y n − p grados
en el denominador, y donde, Sdi , i = 1, 2, · · · , p es la coordenada
(i, i ) de la diagonal principal de la matriz Sd

354
Proposición 9.13 (Intervalos simultáneos de Bonferroni pa-
ra la diferencia de medias pareadas). Supongamos que x =
[ x1 , x2 , · · · , x p ] y y = [y1 , y2 , · · · , y p ] son dos vectores de p
variables aleatorias y que tenemos una muestra de tamaño n del
vector x y del vector y. La muestra del vector x y del vector y se
describen en las siguientes matrices y no tienen que ser indepen-
dientes necesariamente:
 
x11 x12 · · · x1p
 x21 x22 · · · x2p 
X=  ··· ··· ··· ··· 

xn1 xn2 · · · xnp


 
y11 y12 · · · y1p
 y21 y22 · · · y2p 
Y=  ··· ··· ··· ··· 

yn1 yn2 · · · ynp


Para cada i = 1, 2, · · · , n, definamos Di′ como el vector de la i-
ésima fila de X menos la i-ésima fila de Y, es decir,
Di′ = X (i, :) − Y (i, :)
o sea
 
X (i, 1) − Y (i, 1)
 X (i, 2) − Y (i, 2) 
Di = [ X (i, :) − Y (i, :)]′ =  
 ··· 
X (i, p) − Y (i, p)
Supongamos que D1 , D2 , · · · , D n son vectores independientes y
cada Di ∼ Np (µd , ∑d ), donde, µd = µ x − µy (Para el caso en
que n − p es largo no necesitamos suponer la normalidad). Si de-
finimos
1 n
D = ∑ Di = x − y
n i =1

355
n
1
n − 1 i∑
Sd = ( Di − D )( Di − D )′
=1
Entonces, para 0 < α < 1, y para cada i = 1, 2, · · · , p, los in-
tervalos simultáneos de almenos 100(1 − α) % de confianza para
la diferencia de medias µ xi − µyi de cada componente de la matriz
Di , son respectivamente:
 r
α Sdi
Di ± t − 1 1 −
2p n

Aquí t−1 es la función acumulativa inversa de la distribución t de


student con n − 1 grados de libertad, y donde, Sdi , i = 1, 2, · · · , p
es la coordenada (i, i ) de la diagonal principal de la matriz Sd

Ejemplo 9.25 Ver el ejemplo 6.1 página 275 del libro Richard y
el resultado en compilación prueba de hipótesis.

Ejemplo 9.26 Ver el ejemplo 5.7.2 del libro Métodos de análisis


multivariable Alvin segunda edición página 135 y el resultado en
compilación prueba de hipótesis.

356
9.9. Análisis de perfiles de dos mues-
tras

Suponga que dos grupos o muestras independientes re-


ciben el mismo conjunto de p pruebas o mediciones, es de-
cir, si todas las respuestas de los tratamientos de la mues-
tra son expresadas en las mismas unidades, entonces los
valores de cada muestra son comparables y a menudo pro-
porcionales. En esta sección describimos las pruebas del aná-
lisis de perfil de dos muestras.

Hay tres hipótesis de interés en la comparación los per-


files de dos muestras. La primera de estas hipótesis respon-
de a la pregunta, ¿Los dos perfiles son similares en aparien-
cia o, más precisamente, son paralelos?. Para responder esta
pregunta, lo haremos con el siguiente resultado.

Teorema 9.10 (Prueba del perfil de paralelismo).

Sean x11 , · · · , x1n1 y y11 , · · · , y1n2 dos muestras normales


independientes con las mismas unidades en cada muestra (mismas
escalas), y supongamos que,
x1i ∼ Np µ x , ∑


y,
y1i ∼ Np µy , ∑


Sea,  
−1 1 0 ··· 0 0
 0 −1 1 ··· 0 0 
C=
 
.. .. .. .. .. 
 . . . . . 
0 0 0 ··· −1 1

357
la matriz de contraste de orden ( p − 1) × p, y consideremos la
hipótesis nula del paralelismo:

H01 : Cµ x = Cµy

equivalente a la igualdad de matrices:


   
µ x2 − µ x1 µy2 − µy1
 µ x3 − µ x2   µy3 − µy2 
=
   
 .. .. 
 .   . 
µ xp − µ x,p−1 µyp − µy,p−1

Supongamos el contraste de hipótesis:

H01 : Cµ x = Cµy
Ha01 : Cµ x ̸= Cµy

Sea T 2 = nn11+nn22 ( x − y)′ C ′ [CS pl C ′ ]−1 C ( x − y) el estadístico de


prueba, y, α ∈ (0 , 1) un nivel de confianza, con

α = P[error tipo I] = P[Rechazar H01 | H01 es verdadero]

Entonces,

1. T 2 tiene una distribución Tp2−1,n1 +n2 −2 si H01 es verdadero

2. Si T 2 > Tα , entonces, H01 se rechaza al nivel de confianza


α
3. Si T 2 ≤ Tα , entonces, H01 no se rechaza al nivel de con-
fianza α

Aquí, Tα = F −1 (1 − α), donde, F −1 es la función acumulativa


inversa de la distribución T 2 de Hotelling con p − 1 grados de

358
libertad en el numerador, y, n1 + n2 − 2 grados de libertad en el
denominador, y donde,
n1
x1i
x= ∑ n
i =1 1

n2
y1i
y= ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2

359
El segundo perfil está basado en la siguiente pregunta,
¿ son las dos poblaciones o grupos del mismo nivel?. Es-
ta pregunta es equivalente a preguntar si la hipótesis nula
siguiente no se rechaza:

µ x1 + µ x2 + · · · + µ xp µy1 + µy2 + · · · + µyp


H02 : =
p p

equivalente a:

H02 : µ x1 + µ x2 + · · · + µ xp = µy1 + µy2 + · · · + µyp

equivalente a:
H02 : 1′ µ x = 1′ µy

Teorema 9.11 (Prueba de los perfiles coincidentes o igual-


dad de niveles).

Sean x11 , · · · , x1n1 y y11 , · · · , y1n2 dos muestras normales


independientes con las mismas unidades en cada muestra (mismas
escalas), y supongamos que,

x1i ∼ Np µ x , ∑


y,
y1i ∼ Np µy , ∑


Sea,  
1
 1 
1=
 
.. 
 . 
1

360
la matriz de contraste de orden p × 1, y consideremos el contraste
de hipótesis de los perfiles de coincidencia:
H02 : 1′ µ x = 1′ µy
Ha02 : 1′ µ x ̸= 1′ µy
1′ ( x − y )
Sea t = r  el estadístico de prueba, y, α ∈ (0 , 1) un
n
1
+ n
1
1′ S pl 1
1 2
nivel de confianza, con
α = P[error tipo I] = P[Rechazar H02 | H02 es verdadero]
Entonces,

1. t tiene una distribución t student con n1 + n2 − 2 grados


de libertad si H02 es verdadero
2. Si |t| > t α2 , entonces, H02 se rechaza al nivel de confianza
α
3. Si |t| ≤ t α2 , entonces, H02 no se rechaza al nivel de confian-
za α

Aquí, t α2 = F −1 1 − α2 , donde, F −1 es la función acumulativa




inversa de la distribución t student con n1 + n2 − 2 grados de


libertad, y donde,
n1
x1i
x=∑
n
i =1 1
n2
y1i
y= ∑ n
i =1 2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2

361
La tercera prueba de interés, correspondiente al efecto
principal de la prueba (o variable), es, ¿los perfiles son pla-
nos?, es decir, ¿el promedio de las medias de los dos gru-
pos es el mismo para cada prueba?. Esta última pregunta
es equivalente a preguntar si la hipótesis siguiente no se re-
chaza:
1 1 1
H03 : (µ x1 + µy1 ) = (µ x2 + µy2 ) = · · · = (µ xp + µyp )
2 2 2

equivalente a:

1
H03 : C (µ x + µy ) = 0
2

donde C es la matriz de orden ( p − 1) × p:


 
−1 1 0 ··· 0 0
 0 −1 1 ··· 0 0 
C=
 
.. .. .. .. .. 
 . . . . . 
0 0 0 ··· −1 1

Esta hipótesis nula también es equivalente a:

H03 : C (µ x + µy ) = 0

equivalente a:

H03 : Cµ x = 0, Cµy = 0

es decir,

H03 : µ x1 = µ x2 = · · · = µ xp , µy1 = µy2 = · · · = µyp

362
Teorema 9.12 (Prueba de planitud).

Sean x11 , · · · , x1n1 y y11 , · · · , y1n2 dos muestras normales


independientes con las mismas unidades en cada muestra (mismas
escalas), y supongamos que,

x1i ∼ Np µ x , ∑


y,
y1i ∼ Np µy , ∑


Sea,  
−1 1 0 ··· 0 0
 0 −1 1 ··· 0 0 
C=
 
.. .. .. .. .. 
 . . . . . 
0 0 0 ··· −1 1
la matriz de contraste de orden ( p − 1) × p, y consideremos el
contraste de hipótesis de planitud:
1
H03 : 2 C (µ x + µy ) = 0

1
Ha03 : 2 C (µ x + µy ) ̸= 0

Sea T 2 = (n1 + n2 )(Cz)′ (CS pl C ′ )−1 Cz el estadístico de prue-


ba, y, α ∈ (0 , 1) un nivel de confianza, con

α = P[error tipo I] = P[Rechazar H03 | H03 es verdadero]

Entonces,

1. T 2 tiene una distribución T 2 de Hotelling con p − 1 grados


de libertad en el numerador y n1 + n2 − 2 grados de libertad
en el denominador si H01 y H03 son verdaderos.

363
2. Si T 2 > Tα , entonces, H03 se rechaza al nivel de confianza
α

3. Si T 2 ≤ Tα , entonces, H03 no se rechaza al nivel de con-


fianza α

Aquí, Tα = F −1 (1 − α), donde, F −1 es la función acumulativa


inversa de la distribución T 2 de Hotelling con p − 1 grados de
libertad en el numerador y n1 + n2 − 2 grados de libertad en el
denominador, y donde,
n1
x1i
x= ∑ n
i =1 1

n2
y1i
y= ∑ n
i =1 2
n1 x + n2 y
z= , la grán media
n1 + n2
y,
1
S pl = [(n1 − 1)S1 + (n2 − 1)S2 ]
n1 + n2 − 2

364
9.10. Bibliografía
1. ALVIN RENCHER INFERENCIAL:
https://drive.google.com/file/d/1KKAj-5bdhCFdp4weYrwgVj
view?usp=sharing

2. ALVIN RENCHER ANÁLISIS MULTIVARIABLE TER-


CERA EDICIÓN:
https://drive.google.com/file/d/19U_2zgWXlUDU8dz2H6pyq9
G79kMb/view?usp=sharing

3. HUMBERTO PULIDO:
https://drive.google.com/file/d/1xHXExqwP1zETDAFHzvsv22
kJZMXke/view?usp=sharing

4. LUIS GUILLERMO:
https://drive.google.com/file/d/1YTvUUXGViK_nSANQn2X9IL
5yC/view?usp=sharing

5. RICHARD:
https://drive.google.com/file/d/1y65BRqXx6ePm7ugvJ1-
8PViAFo-htg9M/view?usp=sharing

6. SOLUCIONARIO RICHARD:

7. https://drive.google.com/file/d/144UiL3GToh2NJmUWClLr-
CD0KCjoxhlt/view?usp=sharing

8. ANDERSON:
https://drive.google.com/file/d/1xB5boLc0Qv9EKFW7doWSoU
xY6/view?usp=sharing

365
9. CÓRDOVA:
https://drive.google.com/file/d/1t-6XvRfosvYUQL_
WBy1R3vX4kJvNh5jy/view?usp=sharing

10. MENDENHALL:
https://drive.google.com/file/d/100g_kwGCpNX3Uf0YWBcBDo-
GU_EOrAAl/view?usp=sharing

11. MONTGOMERY 2:
https://drive.google.com/file/d/1_TIt8v3H1vu47yUjwEHnkgm
view?usp=sharing

12. MONTGOMERY:
https://drive.google.com/file/d/1ZmAgnDetmOYGubsA958z5Ya
view?usp=sharing

13. Matlab probabilidad: https://drive.google.com/file/


d/1Jl1BnS-BP6H5wPqFuxLepfjWc5P-Dpwg/view?usp=sharing

14. Probability and Mathematical Estatistics SAHOO: https:


//drive.google.com/file/d/1T8mVmwt1uKyji-f4lcYs1y6-
s7JgwAOI/view?usp=sharing

15. Minitab.
https://drive.google.com/drive/folders/1-FfqJYZ8t4dFYm3W
Z-Rho3qle-?usp=sharing

16. Paul. Estadística no paramétrica con aplicaciones a la


Ingeniería con Matlab:
https://drive.google.com/file/d/1mS7qTNB35y5hn_
NScGoXHxtVDAta0D5P/view?usp=sharing

366
17. Corder. Estadística no parámetrica:
https://drive.google.com/file/d/1mW22eSfJU5_g0GJnlKDwl-
ZzRaAOWHh5/view?usp=sharing
18. Gibbson. Estadística no paramétrica inferencial:
https://drive.google.com/file/d/1objElNy6tLV3zzki-
TLj-vwCiLrjnd3-/view?usp=sharing
19. Ejercicios de aplicaciones de pruebas de hipótesis:
https://drive.google.com/file/d/1Rrl8CtuHDeDXi9XhDj8tyG
view?usp=sharing
20. Larry. Estadística no parámetrica:
https://drive.google.com/file/d/1PgUUAwNFROuRJK6ipNFczk
view?usp=sharing
21. Estadística no paramétrica, teoría y métodos:
https://drive.google.com/file/d/1VoPsJp7beeMjiPao3xyHTo
view?usp=sharing
22. Handbook de Estadística no paramétrica:
https://drive.google.com/file/d/10sDR8w-yx_p7i_
s5VanKFMg6_y6Paex6/view?usp=sharing
23. K. krishnamoorthy. Handbook de distribuciones está-
disticas con aplicaciones:
https://drive.google.com/file/d/1JtSyAMn1KEHuhyiVpSGcdR
view?usp=sharing
24. Evans. Estadística no paramétrica:
https://drive.google.com/file/d/1DQLsUaX63pxdRhqyTOy2lk
view?usp=sharing

367
25. Exploración de datos con matlab:
https://drive.google.com/file/d/1_HuIR4nXkfz63ZXam6qBqNd
view?usp=sharing
26. Fisz. Teoría de Probabilidad:
https://drive.google.com/file/d/1FDkOLtILmX9ZqIFmA_
E4RtuYLn3wPEL1/view?usp=sharing
27. Eduardo Gutiérrez. Estadística inferencial:
https://drive.google.com/file/d/1gDwxol2PzapkVZeuvRE6knp
2/view?usp=sharing

368

También podría gustarte