Está en la página 1de 49

Índice general

1 Distribuciones Muestrales 3
1 Función Característica . . . . . . . . . . . . . . . . . . . . . 3
2 Propiedades de la función característica: . . . . . . . . . . . 4
3 Distribución muestral de un Estadístico . . . . . . . . . . . . 11
4 Muestreo de una población normal . . . . . . . . . . . . . . 13
5 Distribuciones exactas:χ2 , t, y F . . . . . . . . . . . . . . . . 18
6 Matriz de Helmert . . . . . . . . . . . . . . . . . . . . . . . 30
7 Distribuciones de X para algunas
poblaciones no normales . . . . . . . . . . . . . . . . . . . . 38
7.1 Distribución de X de la distribución
Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 38
7.2 Distribución de X de la distribución Poisson . . . . . 39
8 Muestreo en poblaciones normales:
Distribución de la diferencia de medias muestrales con va-
rianza conocidas . . . . . . . . . . . . . . . . . . . . . . . . . 41
8.1 Distribución de la diferencia de medias muestrales en
Poblaciones normalmente distribuidas con varianzas
desconocidas . . . . . . . . . . . . . . . . . . . . . . . 44

1
2 Cirilo alvarez R.
Capítulo 1

Distribuciones Muestrales

Para estudiar las características de la muestra existen varias posibilidades.


Si la distribución muestral exacta es necesaria, entonces los métodos de
transformación de variables aleatorias pueden ser utilizados. Aquí usaremos
la técnica de la función característica ya que esta función siempre existe.

1 Función Característica
La Función Característica se que se define como la esperanza matemática
de una variable aleatoria compleja, desempeña un papel importante en el
cálculo de probabilidades, como instrumento analítico en las demostraciones
de los teoremas de límites.

La Función Característica de una variable aleatoria es una función de varia-


ble real que toma valores complejos, que permite la aplicación de métodos
analíticos, es decir, de análisis funcional en el estudio de la probabilidad.
En este marco si se identifica la distribución de la variable aleatoria con-
siderada con una medida positiva, la Función Característica se denomina

3
4 Cirilo alvarez R.

transformada de Fourier de la medida correspondiente.

La Función Característica de una variable aleatoria, así como la función


generadora de momentos, la función de distribución acumulada, la función
de densidad o de masa definen la distribución de probabilidad de dicha
variable aleatoria.

El uso de las propiedades de la Función Característica fue introducido en


las probabilidades por Lyapunov en 1904 para la demostración del Teorema
Central del Límite que hoy lleva su nombre. La versión definitiva de este
teorema fue obtenida posteriormente por Lindeberg.

La Función Característica de una variable aleatoria se define como la espe-


ranza matemática de la variable compleja eiXt .

Definición 1.1. Sea X una v.a.. La función característica de X es la


función Φ : R −→ C definida por Φ(t) = ΦX (t) = E(eitX ).

donde se define

E eitX = E[cos(tX)] + iE[sen(tX)],



t∈R

Observación:
Z ∞ Z ∞
ΦX (t) = cos(tX)dFX (x) + i sen(tX)dFX (x)
Z−∞

−∞

= eitX dFX (x), t∈R


−∞

donde la última igualdad se deduce de la integral de Stieljes para el caso de


integrandos complejos.

2 Propiedades de la función característica:


1. ΦX (0) = 1
Cirilo alvarez R. 5

Prueba. De la definición se sabe que,

ΦX (0) = E[cos(0X)] + iE[sen(0X)] = E[1] + iE[0] = 1

2. La función característica está limitada por 1.


|ΦX (t)| ≤ 1, ∀t ∈ R

Prueba. Recordemos que, si Y es una v.a. con una esperanza finita


entonces V ar(Y ) = E(Y 2 ) − {E(Y )}2 ≥ 0, entonces se tiene que
{E(Y )}2 ≤ E(Y 2 ). Como t ∈ R y las variables cos(tX) y sen(tX) son
acotadas y en particular se tiene:

{E[cos(tX)]}2 ≤ E[cos2 (tX)] (2.1)


{E[sen(tX)]}2 ≤ E[sen2 (tX)] (2.2)

al sumar la ecuación (2.1) con la ecuación (2.2) se obtiene que:

{E[cos(tX)]}2 + {E[sen(tX)]}2 ≤ E[cos2 (tX)] + E[sen2 (tX)]


= E[cos2 (tX) + sen2 (tX)]
= E[1] = 1

por consiguiente como


p
|ΦX (t)| = {E[cos(tX)]}2 + {E[sen(tX)]}2

de la desigualdad anterior se concluye que |ΦX (t)| ≤ 1

3. ∀t ∈ R : ΦX (t) = ΦX (−t)

Prueba. Sabemos que las funciones trigonométrica sen(·) y cos(·) son


funciones impar y par respectivamente, desarrollando directamente
6 Cirilo alvarez R.

resulta:

∀t ∈ R : ΦX (t) = E[cos(tX)] − iE[sen(tX)]


= E[cos(−tX)] + iE[sen(−tX)]
= ΦX (−t)

4. Si X y Y son variables aleatorias independientes, entonces ΦX+Y (t) =


ΦX (t)ΦY (t); ∀t ∈ R

Prueba. Recordando las identidades trigonométricas:

cos(α + β) = cos(α) cos(β) − sen(α) sen(β)


sen(α + β) = sen(α) cos(β) + cos(α) sen(β)

se tiene que (∀t ∈ R) :

cos[t(X + Y )] = cos(tX) cos(tY ) − sen(tX) sen(tY ) (2.3)


sen[t(X + Y )] = sen(tX) cos(tY ) + cos(tX) sen(tY ) (2.4)

Por otro lado dado que t ∈ R como X y Y son variables aleatorias


independientes, entonces por propiedad “hereditaria” de familias de
variables aleatorias independientes, las funciones cos(tX) y cos(tY ),
sen(tX) y sen(tY ) son funciones independientes y por consiguiente
tienen esperanzas finitas. Así

E[cos(tX) cos(tY )] = E[cos(tX)]E[cos(tY )] (2.5)

Análogamente se deduce que:

E[sen(tX) sen(tY )] = E[sen(tX)]E[sen(tY )] (2.6)


E[sen(tX) cos(tY )] = E[sen(tX)]E[cos(tY )] (2.7)
E[cos(tX) sen(tY )] = E[cos(tX)]E[sen(tY )] (2.8)
Cirilo alvarez R. 7

Tomando esperanza en las ecuaciones (2.3), (2.4) y luego usando las


igualdades (2.5),(2.6), (2.7) y (2.8) se botiene (∀t ∈ R) :

ΦX+Y (t) = E{cos[t(X + Y )]} + iE{sen[t(X + Y )]}


= E[cos(tX)]E[cos(tY )] − E[sen(tX)]E[sen(tY )]
+ iE[sen(tX)]E[cos(tY )] + iE[cos(tX)]E[sen(tY )]
= E[cos(tX)] {E[cos(tY )] + iE[sen(tY )]}
+ iE[sen(tX)] {E[cos(tY )] + iE[sen(tY )]}
= E[cos(tX)]ΦY (t) + iE[sen(tX)]ΦX (t)
= {E[cos(tX)] + iE[sen(tX)]} ΦY (t)
= ΦX (t)ΦY (t)
∴ ΦX+Y (t) = ΦX (t)ΦY (t)

Observación 2.1.Inductivamente se puede demuestra que, si X1 ,. . . ,Xn


son variables aleatorias independientes entonces

(∀t ∈ R) : ΦX1 ,...,Xn (t) = ΦX1 (t) · · · ΦXn (t)

Observación 2.2. si X1 ,. . . ,Xn son variables aleatorias independien-


tes y además se distribuyen idénticamente (iid) entonces
n
Y
(∀t ∈ R) : ΦX1 ,...,Xn (t) = ΦX (t) · · · ΦX (t) = ΦX (t) = [ΦX (t)]n
j=1

5. Si Y = aX + b entonces ΦY (t) = eitb ΦX (t)

Prueba. Definamos las variables aleatorias X1 = aX y X2 = b como


X2 es una variable aleatoria constante es independiente de cualquier
8 Cirilo alvarez R.

otra v.a., en particular de X1 . Aplicando la propiedad 4, obtenemos


que,
ΦX1 +X2 (t) = ΦX1 (t)ΦX2 (t)

Pero dado que t ∈ R es evidente que

ΦX1 (t) = E[cos(t.aX)] + iE[sen(t.aX)]


= E[cos(at.X)] + iE[sen(at.X)]
= ΦX (at)

y además

ΦX2 (t) = E[cos(t.b)] + iE[sen(t.b)]


= E[cos(tb)] + iE[sen(tb)]
= eitb

luego

ΦaX+b (t) = eitb ΦX (at)

6. Si E(|X|n ) < ∞ entonces ΦX posee n derivadas continuas y


Z
(k)
ΦX (t) = (ix)k eitx dFX (x), k = 1, 2, . . . , n.

(k)
En particular, ΦX (0) = ik E(X k ), de modo la función caracteristica
es una especie de la función generadora de momentos.

Observación 2.3.

(k) dk ΦX (t)
ΦX (0) =
dtk t=0
Cirilo alvarez R. 9

es la k-ésima derivada evaluada en el punto t = 0

Teorema 2.1. [Fórmula de la Inversión] Si x − h y x + h son cualesquiera


puntos de continuidad de F (x),el incremento sobre el intervalo entre ellos
está dado por la fórmula:
1 T sen(ht) −itx
Z
F (x + h) − F (x − h) = lim e ΦX (t)dt
x−→∞ π −T t

Teorema 2.2. [Teorema de la Unicidad de la Función Característica] A


cada función característica le corresponde una función de distribución única
que tiene aquella función característica. En símbolos,

FY = FX ⇔ ΦX = ΦY

Teorema 2.3. [Teorema de Helly-Bray] Sean F , F1 ,F2 ,. . . funciones de dis-


tribuciones. Si Fn converge débilmente para F , entonces
Z Z
g(x)dFn (x) −−−→ g(x)dF (x)
n→∞

para toda función g continua y limitada (g : R −→ R)


D
Observación 2.4. Si Xn → X, entonces se deduce del teorema que,
R R
g(x)dFn (x) → g(x)dF (x) para toda función g continua y limitada, es
decir, E[g(Xn )] → E[g(X)]. En particular, como las funciones cos(tx) y
sen(tx) son funciones continuas y limitadas para t fijo, se tiene E[cos(tXn )] −−−→
n→∞
E[cos(tX)] y E[sen(tXn )] −−−→ E[sen(tX)], de modo que ΦXn (t) → ΦX (t) ∀t ∈
n→∞
R.

Teorema 2.4. [Teorema de la Continuidad de Paul Lévy] Sean F1 ,F2 ,. . . funciones


de distribuciones y Φ1 , Φ2 . . . respectivamente sus funciones características.
Si Φn converge puntualmente para un límite Φ y si Φ es continua en el punto
cero, entonces
10 Cirilo alvarez R.

(a) existe una función de distribución F tal que Fn → F débilmente y

(b) Φ es la función característica de F .

Observación 2.5. Cabe aclarar que los teoremas 2.3 y 2.4 implican que
Xn → X ⇔ ΦXn → ΦX . Pero el Teorema de la Continuidad es más fuerte
que el de la suficiencia de esa proposición, porque afirma que el límite de una
sucesión de funciones características también es una función característica,
con tal de que sea continua en el punto cero.

Corolario 2.1. (a) Sean X1 , X2 , . . . variables aleatorias . Si ΦXn (t) →


Φ(t) ∀t ∈ R y si Φ es continua en el punto cero, entonces Φ es función
D
característica de alguna variable, digamos Φ = ΦX , y Xn − → X.
t2 D
→ N (0, 1).
(b) Si ΦXn (t) → e− 2 ∀t, entonces Xn −
D
Notación. “Xn − → N (0, 1)” indica que Xn converge en distribución pa-
ra una variable aleatoria X que posee distribución normal N (0, 1). Pero
no es necesario que X sea explícitamente definida, y se puede interpretar
la expresión “Xn → N (0, 1)′′ como que indica la convergencia débil de
FXn para Φ, la función distribución de la normal estándar, N (0, 1). Es
conveniente decir, en este caso, que Xn converge en distribución para la
(distribución)normal -estándar. Vale una interpretación análoga para las
D D
expresiones “Xn −→ Poisson(λ)”, “Xn −→ χ2 (1)”, etc..

Teorema 2.5. [Teorema Central del Límite para variables aleatorias in-
dependientes e idénticamente distribuidas] Sean X1 , X2 , . . .independientes e
idénticamente distribuidas, con media común µ y varianza común σ 2 , donde
0 < σ 2 < ∞. Sea Sn = nj=1 Xj . Entonces
P


Sn − E(Sn ) Sn − nµ n(X − µ) D
p = √ = → N (0, 1).

V ar(Sn ) σ n σ
Cirilo alvarez R. 11

Corolario 2.2. [Teorema Central del Limite de De Moivre y Laplace] Sea


Sn el número de éxitos en n ensayos de Bernoulli, con de probabilidad éxito
θ en cada ensayo, donde 0 < θ < 1. Entonces

S − nθ D
p n → N (0, 1)

nθ(1 − θ)

3 Distribución muestral de un Estadístico


Un estadístico T = T (X1 , . . . , Xn ), como una función de observaciones
muestrales que son variables aleatorias, es también una variable aleatoria.
Su valor varía de muestra a muestra. El comportamiento de la variabilidad
en sus valores está dado por su distribución de probabilidad. La distribución
de probabilidad de T se llama distribución muestral de T .

La deducción teórica de la distribución muestral de T puede ser fácil o difícil


(o tal vez imposible de hallar). A veces, lo más que se puede hacer es obtener
una distribución empírica de T mediante simulación.

Dos de los estadísticos más importantes en inferencia estadística son la


media, X y la varianza S 2 muestrales.

Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria que proviene de una dis-
tribución poblacional para la cual la función característica existe, entonces
la función característica de la media muestral está dada por
" n #   n
h 1 Pn
it( n j=1 Xj )
i Y t
i n Xj t
ΦX (t) = E e =E e = ΦX
J=1
n

Ejemplo 3.1. Sean X1 , . . . , Xn una m.as. de una población con función


de distribución Γ(α, 1). Hallamos la fdp de X como sigue: sabemos que si
X ∼ Γ(α, 1), entonces su función característica es ΦX (t) = (1 − it)−α , luego
12 Cirilo alvarez R.

la función característica de X resulta


  n " −α #n  −nα
t it it
ΦX (t) = ΦX = 1− = 1− ,
n n n

así, por el Teorema de la unicidad de la función característica concluimos,


que X ∼ Γ(nα, n) ■

Si se requiere utilizar distribución asintótica, se puede recurrir ya sea al


uso del Teorema Central del límite o corolario del Teorema de Slutsky o el
Teorema de Cramér.

Consideremos por ejemplo, n observaciones independientes, X1 , . . . , Xn de


una variable aleatoria X. Sea k entero y positivo y suponga que E(|X|2k ) <
∞. Entonces, cada variable Xik tiene media mk = E(Xik ) y varianza
Var(Xik ) = m2k − {mk }2 .

Por Teorema Central de Límite resulta que, si ak es el k-ésimo momento


muestral, entonces

P k
X − nmk ak − m k D
p i = np −→ Z (3.1)
2 2
n(m2k − mk ) (m2k − mk )
donde Z ∼ N (0, 1). Así, ak se distribuye en forma normal asintótica, es
asin m2k − mk asin
decir ak ∼ N (mk , ). En particular, la media muestral, X ∼
n
σ2
 
N µ, .
n
De una manera similar, pero con la ayuda de un argumento algo más difícil,
es posible demostrar que el momento muestral central de orden k también se
distribuye en forma asintótica normal. Consultar Cramer,[18]pág.365, pa-
ra mayor detalle. De hecho se puede demostrar según ciertas condiciones,
cualquier característica de la muestra basada en momentos (muestrales) es
asintóticamente normal con parámetros que son idénticos con la caracterís-
tica de la población correspondiente; ver Cramer [18]pág.366-367.
Cirilo alvarez R. 13

Ejemplo 3.2. Sea X1 ,X2 ,. . . variables aleatorias normales iid, (µ, σ 2 ). Tam-
bién sea X, la media muestral y S 2 la varianza muestral. Consideremos la
variable aleatoria √
n(X − µ)/σ Un
Tn = =
S/σ Vn
donde Un ∼ N (0, 1). Más adelante se determinará la distribución de Tn .
Aquí usamos el corolario ítem (c) del Teorema Slutsky para demostrar que
D P
Tn −→ Z, donde Z ∼ N (0, 1). Se sabe que S 2 −→ σ 2 , de manera que
S P D
σ
−→ 1. Luego podemos concluir que Tn −→ Z.

El siguiente resultado de la distribución asintótica del r-ésimo estadístico


de orden, 1 ≤ r ≤ n, en el muestreo de una población con función de
distribución F absolutamente continua con función de densidad f .
 1/2
n D
f (ζp )(X(r) − ζp ) −→ Z, cunado n −→ ∞
p(1 − p)
de modo que r/n permanece fijo, r/n = p, donde Z ∼ N (0, 1), y ζp es la
única solución de F (ζp ) = p (esto, es ζp es el único cuantil poblacional de
orden p) ■

Observación 3.1. El cuantil muestral de orden p, Zp , es asintóticamente


normal,  
asin 1 p(1 − p)
Zp ∼ N ζp , ,
[f (ζp )]2 n
donde ζp es el cuantil poblacional correspondiente, y f es la función de
densidad de probabilidad de la función de distribución poblacional. Resulta
p
que Zp −→ ζp .

4 Muestreo de una población normal


Supongamos que X1 , . . . , Xn es una m.a.s. de una población normal con
media µ y varianza σ 2 , esto es X ∼ N (µ, σ 2 ). El objetivo es obtener las
14 Cirilo alvarez R.

distribuciones de algunos estadísticos que son funciones de X y S 2 .

Lema 4.1. Si una función característica bivariada se factoriza de modo que


un factor es una función característica marginal:

ΦU ;V (s, t) = ΦU (s)ΨV (t)

entonces el otro factor es la otra función característica marginal. Esto es


ΨV (t) es la función característica de V , y U y V son independientes. (Cual-
quiera o ambos U y V pueden ser vectores)

Teorema 4.1. (Teorema fundamental de muestreo de una población nor-


mal) Sea X1 , . . . , Xn , n ≥ 2, una m.a.s. de una distribución normal N (µ, σ 2 ).
Entonces

(a) La media muestral, X se distribuye


 en forma normal con media µ y
σ2 σ2
varianza n , esto es, X ∼ N µ, n .

n(X − µ)
(b) Z = ∼ N (0, 1).
σ
(c) X y S 2 son independientes.

(n − 1)S 2
(d) tiene distribución Ji-cuadrado con (n-1) grados de libertad;
σ2
(n − 1)S 2
esto es, ∼ χ2 (n − 1)
σ2

n(X − µ)
(e) t = ∼ t(n − 1)
S

Prueba. (1) Prueba del item (a): Utilizando la función característica


se sabe que , si X ∼ N (µ, σ 2 ) entonces su función característica
σ 2 t2
es ΦX (t) = eµit− 2 . Luego la función característica de la media
Cirilo alvarez R. 15

muestral es  n
t σ 2 t2
 µi − σ 2 t2
ΦX (t) = e n 2n2  = eitµ− n 2

y por el teorema de la unicidad de la función característica concluimos


2
que X ∼ N (µ, σn )

(2) Prueba del item (b): Se sabe que si X ∼ N (0, 1) entonces su


t2
función característica es ΦX (t) = e− 2 (prueba ejercicio). Utilizando
este resultado tenemos:
√ √
n(X − µ) n √ µ
Z= = X− n
σ σ σ
y utilizando la propiedad 5 de la función característica tenemos
√ 
√ µ n
−it n
ΦZ (t) = Φ n X−√n µ (t) = e
√ σΦ
X t
σ σ σ
y como
√  √ √
n 2 2
i σn tµ− σn n2 t2
2
i σn tµ− t2
ΦX t =e σ =e
σ
obtenemos
√ √ 2
n n t2
tµ− t2
ΦZ (t) = e−i σ

ei σ = e− 2
y otra vez, utilizando la propiedad de la unicidad de la función carac-
terística se concluye que

n(X − µ)
Z= ∼ N (0, 1).
σ

(3) Prueba de item (c): Primero demostremos que X es independiente


de (Xj −X) para todo j. Para esto calculamos la función característica
conjunta de X y del vector (X1 −X), (X2 −X), . . . , (Xn −X); tenemos
 Pn 
ΦX,X1 −X,...,Xn −X (t, t1 , t2 , . . . , tn ) = E eitX+i j=1 tj (Xj −X) (4.1)
16 Cirilo alvarez R.

Para continuar, desarrollemos el exponente de e en la ecuación (4.1),


así tenemos,

n n n n n
X t X X X 1X
itX + i tj (Xj − X) = i Xj + i tj Xj − i tj Xj
j=1
n J=1 J=1 j=1
n J=1
n n  X n
t X X 1
=i Xj + i tj Xj − ti Xj
n J=1 J=1
n J=1
n n
t X X
=i Xj + i Xj (tj − t)
n J=1 J=1
n  
X t
=i Xj + (tj − t)
J=1
n

luego la ecuación (4.1) queda como sigue

h Pn i
ΦX,X1 −X,...,Xn −X (t, t1 , t2 , . . . , tn ) = E ei J=1 Xj { n +(tj −t)}
t

" n #
eiXj { n +(tj −t)}
Y t
=E
j=1

como las variables Xj son iid (variables muestrales) resulta

n h i
E eiX { n +(tj −t)}
Y t
ΦX,X1 −X,...,Xn −X (t, t1 , t2 , . . . , tn ) =
j=1
n  
Y t
= ΦX + (tj − t)
j=1
n
Cirilo alvarez R. 17

y como X ∼ N (µ, σ 2 ) tenemos


n 2
t σ t 2
ei( n +(tj −t))µ− 2 ( n +(tj −t))
Y
ΦX,X1 −X,...,Xn −X (t, t1 , t2 , . . . , tn ) =
j=1
2 2
Pn h i
i( nt +(tj −t))µ− σ2 ( nt +(tj −t))
=e j=1

σ 2 t2 2 Pn 2
− σ2 (tj −t)
ΦX,X1 −X,...,Xn −X (t, t1 , t2 , . . . , tn ) = eitµ− n 2 j=1

σ 2 t2 σ2 Pn 2
ΦX,X1 −X,...,Xn −X (t, t1 , t2 , . . . , tn ) = e|itµ− n 2 e|− 2 j=1(tj −t)
{z } {z }
ΦX (t) ΨX (t1 ,t2 ,...,tn )
1 −X,...,Xn −X

es decir, la función característica conjunta se factoriza

ΦX,X1 −X,...,Xn −X (t, t1 , t2 , . . . , tn ) = ΦX (t).ΨX1 −X,...,Xn −X (t1 , t2 , . . . , tn )

y como el primer factor de lado derecho de la última igualdad es


la función característica de la media muestral, X, que proviene de
la N (µ, σ 2 ), según el lema el otro factor es función característica del
vector X1 −X, . . . , Xn −X y X y por el mismo lema X1 −X, . . . , Xn −
X, entonces, la función característica conjunta de X y del vector X1 −
X, . . . , Xn − X y X y por el mismo lema X1 − X, . . . , Xn − X, se
factoriza, luego por el lema 4.1 ellos son independientes.

Como la varianza muestral, S 2 es función del vector (X1 −X, . . . , Xn −


X) que es independientes de Xy por la propiedad “hereditaria de va-
riables independientes”( Proposición 2.8 barry r. james, pag. 72 ) se
concluye que X y S 2 son independientes.

(4) Prueba del item (d): En la prueba utilizamos la independencia de


X y de S 2 . Tenga en cuenta que,
2 n 2
(n − 1)S 2 X
 
X −µ Xi − µ
n + =
σ σ2 i=1
σ
18 Cirilo alvarez R.

 2
X −µ
De las propiedades de la distribuciones normales, se sabe que n
σ
2 −1/2
tiene distribución χ (1) cuya función característica es (1 − 2it) y
 2
Pn Xi − µ
i=1 tiene distribución chi2 (n) cuya función característi-
σ
ca es (1 − 2it)−n/2 . Por independencia de X yS 2 , la función caracte-
rística de (n − 1)S 2 /σ 2 es

(n − 1)
(1 − 2it)−n/2 −
Φ(n−1)S 2 /σ2 (t) = = (1 − 2it) 2
(1 − 2it)−1/2

Esta es la función característica de la distribución χ2 (n − 1). por lo


tanto, el resultado está completo.

n(X − µ)
(5) Prueba del item (e): como ∼ N (0, 1), y
σ
(n − 1)S 2
∼ χ2 (n − 1) y X y S 2 son independientes , entonces por
σ2
definición resulta

n(X − µ) q
n(X − µ)
s σ = ∼ t(n − 1)
(n − 1)S 2
 S
/(n − 1)
σ2

5 Distribuciones exactas:χ2, t, y F
En esta sección se investiga las distribuciones que surgen en el muestreo de
una población normal. Consideremos una muestra aleatoria simple X1 , . . . , Xn
extraída de una población normal N (µ, σ 2 ). Entonces sabemos que X ∼
√ 2
N (µ, σ 2 /n), probaremos que n(X − µ)/σ ∼ χ2 (1).
Cirilo alvarez R. 19

La primera distribución de interés es la distribución chi-cuadrado, que tam-


bién se puede definir como un caso especial de la distribución Gamma.

Definición 5.1. Una variable aleatoria X tiene una distribución chi -


cuadrado (distribución -χ2 ) con n grados de libertad si su función de den-
sidad de probabilidad está dado por
 n
−1 − 1 x
 x 2 n e n 2 , si x > 0,

2 2 Γ( 2 )
f (x; n) =
si x ≤ 0

 0,

Notación: X ∼ χ2 (n) que se lee: la variable aleatoria X se distribuye


como una v.a. Chi-cuadrado con n grados de libertad.

Nota: Si X ∼ χ2 (n), entonces

Media: E(X) = n

Varianza: V ar(X) = 2n
p
Asimetría: β1 = 2 2/n

12
Curtosis: β2 = 3 + n
n
Función Característica (F.C.) ΦX (t) = (1 − 2it)− 2

Teorema 5.1. Sean X1 , . . . , Xn variables aleatorias independientes e idén-


ticamente distribuidas y sea Sn = nj=1 Xj . Entonces
P

(a) Sn ∼ χ2 (n) ⇐⇒ X1 ∼ χ2 (1) y


n
X
(b) X1 ∼ N (0, 1) =⇒ Xj ∼ χ2 (n)
j=1

Prueba. (1) Prueba del item (a):


20 Cirilo alvarez R.

=⇒ Supongamos que Sn ∼ χ2 (n), entonces la función característica de


n 1
Sn es ΦSn (t) = (1 − 2it)− 2 = nJ=1 (1 − 2it)− 2 , entonces cada factor
Q

es una función característica de una variable Xj , esto es ΦXj (t) =


1
(1 − 2it)− 2 para j = 1, 2, . . . , n y así por el teorema de la unicidad de
la función característica X1 ∼ χ2 (1)

⇐= si X1 ∼ χ2 (1), entonces la función característica de X1 es ΦX1 (t) =


1
(1 − 2it)− 2 y como las variables X1 , . . . , Xn son iid se tiene que,
n
1 n
Y
ΦSn (t) = ΦPnj=1 Xj (t) = (1 − 2it)− 2 = (1 − 2it)− 2
j=1

y nuevamente por el teorema de la unicidad de la función característica


se concluye que Sn ∼ χ2 (n).

(2) Prueba del (b): Si X1 ∼ N (0, 1) =⇒ X12 ∼ χ2 (1), y como las va-
riables aleatorias X1 , X2 , . . . , Xn son independientes e idénticamente
distribuidas, por el ítem (a) se concluye que nj=1 Xj2 ∼ χ2 (n).
P

Corolario 5.1. Si X1 , . . . , Xn es una muestra aleatoria simple de tamaño


n de una población con distribución normal,N (µ, σ 2 ). Entonces la variable
aleatoria
Xn

n  2 (Xj − µ)2
X Xj − µ
Z= = J=1 2 ∼ χ2 (n)
J=1
σ σ

es decir tiene una distribución chi-cuadrado con n grados de libertad.

La distribución χ2 (n) está tabulado para valores de n = 1, 2, 3, . . .. Las


tablas por lo general están hechas por hasta n = 30, puesto que para n > 30
se puede usar la aproximación normal.
Cirilo alvarez R. 21

Teorema 5.2. [Fisher] Si X ∼ χ2 (n), entonces


√ √  Z z
1 t2
lim P 2X − 2n − 1 ≤ z = √ e− 2 dt. (5.1)
n−→∞ −∞ 2π

Prueba. Puesto que, X es la suma de n variables aleatorias independientes


e idénticamente distribuidas como χ2 (1), aplicamos el Teorema Central de
Límite para ver que
X −n
Zn = √
2n
es normal asintótico, esto es,
  Z z
X −n 1 t2
lim P (Zn ≤ z) = lim P √ ≤z = √ e− 2 dt.
n−→∞ n−→∞ 2n −∞ 2π
Entonces,
√ √ √
lim P ( 2X 2 − 2n − 1 ≤ z) = lim P (2X 2 ≤ (z + 2n − 1)2 )
n→∞ n→∞
z 2 + 2n − 1 √
 
2
= lim P X ≤ + z 2n − 1
n→∞ 2
 √ 
= lim P X 2 ≤ n + z 2n
n→∞
 2 
X −n
= lim P √ ≤z
n→∞ 2n
Z z −t2 /2
e
= √ dt
−∞ 2π

Observación 5.1. Resulta que para z > 0, si X ∼ χ2 (n) se cumple


√ √
P (X ≤ z) = P (2X ≤ 2z) = P ( 2X ≤ 2z)
√ √ √ √
= P ( 2X − 2n − 1 ≤ 2z − 2n − 1)
Z √2z−√2n−1 −t2 /2
e
= √ dt (5.2)
−∞ 2π
22 Cirilo alvarez R.

Se escribirá χ2 ()n, α para el punto porcentual α superior de la distribución


χ2 (n), es decir
P (χ2 (n) > χ2 (n, α)) = α.

Ejemplo 5.1. Sea n = 25 y X ∼ χ2 (25), entonces a partir de una tabla


estadística chi -cuadrado o usando el aplicativo se tiene

P (X ≤ 34.4) = 0.90.

aproximemos esta probabilidad por tablas normales usando el teorema de


Fisher y lo comparamos con la aproximación del TCL. De la ecuación (5.2)
tenemos
√ √
P (X ≤ 34.4) ≈ P (Z ≤ 2 × 34.382 − 2 × 25 − 1)
√ √
P (X ≤ 34.4) ≈ P (Z ≤ 68.764 − 50 − 1)
= P (Z ≤ 8.287 − 7)
= P (Z ≤ 1.29) = 0.9015; done Z ∼ N (0, 1).

Para usar el TCL. vemos que E(X) = 25 y Var(X) = 50 de modo que

X − 25 34.38225
P (X ≤ 34.384) = P ( √ ≤ √ )
50 50
= P (Z ≤ 1.33)
= 0.9066.

Ejercicios

1. Usando una aproximación normal, estimar:


(a) El percentil 80 de una distribución chi con 60 grados de libertad
(b) P(χ2 > 60) donde χ2 tiene la distribución chi-cuadrado con 50
grados de libertad.
Cirilo alvarez R. 23

2. Suponga que σY2 tiene una distribución chi-cuadrado con 10 grados de


libertad. Determine la función de densidad, la media y varianza de
Y.
3. Demuestre que una suma de variables independientes de chi-cuadrado
tiene nuevamente la distribución de chi-cuadrado, siendo el número
de grados de libertad de la suma la suma de los números de grados de
libertad de los sumandos.
4. Demuestre que sí U es una variable uniforme en el intervalo [0, 1], la
variable −2 log U tiene una distribución chi-cuadrado con 2 grados de
libertad.

Definición 5.2. Sean X1 , . . . , Xn variables aleatorias normales indepen-


dientes con E(Xj ) = µj y varianza Var(Xj ) = σ 2 , j = 1, 2, . . . , n. Tam-
bién, sea Y = nj=1 Xi /σj2 . La variable aleatoria Y se dice que se distri-
P

buye en forma chi -cuadrado no -central con parámetro de no -centralidad


Pn 2 2
j=1 µj /σ y n grados de libertad. Se escribe como Y ∼ χ (n, δ), donde
Pn
δ = j=1 µj /σ 2 .

La función de densidad de probabilidad de una variable aleatoria χ2 (n, δ)


se puede demostrar que ses igual a


1 (δy)j (Γ(j+1/2))
 π − 2 2−n/2 exp − 12 (δ + y) y (n−2)/2
 P
; y>0


(2j)!Γ(j1/2n)
fn (y, δ) = j=0

0 ; y≤0


(5.3)

donde δ = nj=1 µj /σ 2 . Haciendo δ = 0, observamos que ecuación (5.3) se


P

reduce a la función de densidad de probabilidad χ2 (n) central.

Definición 5.3. Considere que la variable aleatoria X se distribuye en


forma normal estándar (X ∼ N (0, 1)) y la variable aleatoria Y se distribuye
en forma de distribución chi -cuadrado con n grados de libertad (Y ∼ χ2 (n))
24 Cirilo alvarez R.

y además, las variables X y Y son independientes. Entonces el estadístico


X
T =p (5.4)
Y /n
se dice que tiene una distribución -t con n grados de libertad y se escribe
T ∼ t(n).

Para encontrar la función de densidad de la variable aleatoria T , una de


las técnicas que se usa es una transformación bivariada de la distribución
conjunta de X e Y e integrar la variable adicional. Como X e Y son
independientes, la parte diferente de cero de su distribución conjunta es
2
e−x /2 y n/2−1 e−y/2
f (x, y) = √ · .
2π Γ( n2 )2n/2
La transformación es
x
t = py
n

w=y

con la inversa
r
w
x=t
n
y=w
∂(x,y) pw
el Jacobiano es ∂(t,w)
= n
. Entonces la función de densidad conjunta de
(T, W ) es
p  rw
g(t, w) = f t w/n, w · , ∀t ∈ IR y w > 0
n
2
e−t w/2n w(n/2−1) e−w/2 w
r
g(t, w) = √
2π 2n/2 Γ n2

n
2
w(n+1)/2−1 e−w(1+t /n)/2
= √
2πn 2n/2 Γ n2

Cirilo alvarez R. 25

La función de densidad marginal de la variable T se obtiene integrando la


función de densidad conjunta respecto a la variable W , esto es
Z ∞
fT (t) = g(t, w)dw
0
Z ∞ (n+1)/2−1 −w(1+t2 /n)/2
w e
= √  dw
0 2πn 2n/2 Γ n2

La integral se evalúa haciendo el siente cambio de variable z = w(1+t2 /n)/2


para producir la función de densidad gamma.
Z ∞
1 2
fT (t) = √ n
 w(n+1)/2−1 e−w(1+t /n)/2 dw
2πn 2n/2 Γ 2 0
n1 Z ∞
1 22 n+2
−1 −z
=√ n
 n+1 z 2 e dz
n/2
2πn 2 Γ 2 t2 0

1+ n 2
Γ n+1
  − 1 (n+1)
2 t2 2
=√ n
 1+ n
πn Γ 2

Teorema 5.3. La función de densidad de probabilidad del estadístico defi-


nido en la ecuación (5.4) está dado por
− 12 (n+1)
t2

Γ((n + 1)/2)
fn (t) = √ 1+ −∞<t<∞ (5.5)
Γ(n/2) nπ n

Observación 5.2. Para n = 1, T es una variable aleatoria Cauchy. Por


consiguiente se asumirá n > 1. Para cada n, se tendrá una función de
densidad de probabilidad diferente. Análogo a la distribución normal,la
distribución -t es importante en la en la teoría del estudio de los estadísticos
y en consecuencia está tabulada.

Observación 5.3. La función de densidad de probabilidad fn es simé-


trico en t, y cuando fn (t) −→ 0 cuando t −→ +∞. Para n grande, la
26 Cirilo alvarez R.

distribución -t es bastante cercano a la distribución normal. En efecto,


2
(1 + t2 /n)−(n+1)/2 −→ e−t /2 cuando n −→ ∞. Sin embargo, para n pe-
queño, la variable T se desvía considerablemente de la normal. De hecho,
P (|T | ≥ t0 ) ≥ P (|Z| ≥ t0 ), Z ∼ N (0, 1), esto es, existe mayor probabili-
dad en la cola de la distribución -t que en la cola de la distribución normal
estándar. En lo que sigue se escribirá t(n, α/2) para el valor de T para la
cual
P (|T | > t(n, α/2)) = α. (5.6)

Ejercicio
R∞
(a) Verificar 0 fT (t) = 1 directamente.
(b) Demuestre que la media no existe para n = 1.
(c) Demuestre que para n > 2, las medias de estas distribuciones es cero
y cada varianza es n/(n − 1).
(d) Demuestre que para cada x ∈ IR,
1 x2
fT (x) → √ e− 2 , cuando n → ∞

Teorema 5.4. Considere que X ∼ t(n), n > 1. Entonces E(X r ) existe
para r < n y está dado por

0 si r < n es impar


r
E(X ) = (r+1) (n−r)
(5.7)
 n r2 Γ[ 2 1 ]Γ[ n 2 ] . si r < n es par

Γ( )Γ( )
2 2

Corolario 5.2. Si n > 2, E(X) = 0 y Var(X) = n/(n − 2).

Observación 5.4.Si en la definición (5.3) tomamos que X ∼ N (µ, σ 2 ), Y /σ 2 ∼


χ2 (n), además X y Y son independientes
X
T =q
Y
n
Cirilo alvarez R. 27

se dice que tiene una distribución -t no -central con parámetro (llamado


también parámetro de no -centralidad) δ = µ/σ y n grados de libertad. La
función de densidad de probabilidad de una distribución -t no -central está
dado por

2 ∞ s/2
nn/2 e−δ /2
 s
2t2

X n+s+1 δ
fn (t, δ) = √ Γ
πΓ( n2 )(n + t2 )(n+1)/2 s=0 2 s! n + t2
(5.8)
si hacemos δ = 0 en la ecuación (5.8), obtenemos la función de densidad de
probabilidad fn de una distribución -t central dada en la ecuación (5.5).

Si T tiene una distribución -t no -central, con n grados de libertad y pará-


metro de no -centralidad δ, entonces, la esperanza y la varianza están dadas
por
h i
(n−1)
Γ 2
r
n
E(T ) = δ n , n>1 (5.9)
Γ 2
2

 h (n−1) i 2
n(1 + δ ) δ n  Γ 2
2
2
Var(T ) = − n  , n>2 (5.10)
n−2 2 Γ 2

Definición 5.4. Sean X y Y variables aleatorias independientes chi -cuadras


con m y n grados de libertad respectivamente. Entonces se dice que la va-
riable aleatoria
X/m
F = (5.11)
Y /n

tiene distribución -F con (m, n) grados de libertad, y se escribe F ∼


F (m, n).
28 Cirilo alvarez R.

Teorema 5.5. La función de densidad de probabilidad del estadístico -F


dada en la ecuación (5.11) está dada por,
 (m+n)  (m+n)
 Γ[m 2 n] m m f 2 −1 1 + m f − 2
 m

Γ( 2 )Γ( 2 ) n n n
f > 0,
g(f ) = (5.12)
f ≤0

 0,

Observación 5.5. Si X ∼ F (m, n), entonces 1/X ∼ F (n, m). Si hacemos


m = 1, entonces F = [t(n)]2 de modo que F (1, n) y t2 (n) tienen la misma
distribución. También se continúa, que si Z ∼ C [la cual es la misma como
t(1)], Z 2 ∼ F (1, 1).

Observación 5.6. Como es natural, escribimos F (m, n; α) para el porcen-


taje de puntos supriores de la distribución F (m, n), esto es,

P (F (m, n) > F (m, n; α)) == α (5.13)

De la observación 5.5, se tiene la siguiente relación

1
F (m, n; 1 − α) = (5.14)
F (n, m; α)

Por tanto es suficiente tabular valores de F que sean mayores o iguales a 1


(F ≥).

Teorema 5.6. Si X ∼ F (m, n). Entonces, para k > 0, entero,


 n k Γ k + m  Γ  n − k 
E(X k ) =  2   n2  n > 2k (5.15)
m Γ m 2
Γ 2

En particular,
n
E(X) = , n > 2, (5.16)
m
Cirilo alvarez R. 29

n2 (2m + 2n − 4)
Var(X) = , n > 4. (5.17)
m(n − 2)2 (n − 4)

Teorema 5.7. Si X ∼ F (m, n), entonces, entonces Y = 1/[1 + (m/n)X]


es B(n/2, m/2). Consecuentemente, para cada x > 0
 
1
FX (x) = 1 − FY
1 + (m/n)x

Prueba. Se deja como ejercicio

Si en la definición (5.4) hacemos que X ∼ χ2 (n, δ) se obtiene la variable


aleatoria F no -central.

Definición 5.5. Sea X ∼ χ2 (n, δ) y Y ∼ χ2 (n), y sean X yY independien-


tes. Entonces la variable aleatoria
X/m
F = (5.18)
Y /n
se dice que tiene un a distribución -F no -central con grados de libertad
(m, n) y parámetro de no -centralidad δ.

Se puede demostrar que la función de densidad de probabilidad de la variable


aleatoria F definida en la relación (5.18) está dada por

mm/2 nn/2 −δ/2 (m/2)−1


Γ( n
e f
2)


 ∞
(δmf )j Γ[ (m+n)

 X
2
+ j]
g(f, m, n, δ) = × m (m+n)/2+j
si f > 0 (5.19)

 j=0
j!Γ( 2 + j)(mf + n)




 0, si f ≤ 0.

Substituyendo δ = 0, obtenemos la función de densidad de F (m, n) central


dada en la ecuación (5.12).
30 Cirilo alvarez R.

6 Matriz de Helmert

En álgebra lineal y teoría de matrices hay muchas matrices especiales e


importantes. Por ejemplo, la conocida matriz de Helmert es una de ellas.
Una matriz de Helmert de orden n es una matriz cuadrada que fue intro-
ducida por H. O. Lancaster en 1965. Por lo general, la matriz de Helmert
se usa en estadísticas matemáticas para el análisis de varianza (ANOVA).
También se puede utilizar en procesos estocásticos. De hecho, sabe que en
la teoría moderna de la probabilidad y los sistemas dinámicos, las matrices
estocásticas son matrices reales no negativas que se utilizan para mostrar
las probabilidades de transición.

 
√1 √1 √1 ··· √1
 n n n n 
 
√1 − √12 0 ··· 0
 
2
 
 
 
A= √1 √1 2
− √2×3 ··· 0 
 2×3 2×3 
.. .. ..
 
..
.
 

 . . . 0 

 
√ 1 √ 1 √ 1
· · · − √(n−1)
(n−1)n (n−1)n (n−1)n (n−1)n
  
√1 √1 √1 ··· √1
 n n n n   X1 
  
√1 − √12 0 ··· 0
  
 2
  X2 
  
  
AX =  √1 √1 2
− √2×3 ··· 0  X 
 2×3 2×3   3
.. .. ..
  
..   .. 
.


 . . . 0  . 
 
  
(n−1)
√ 1 √ 1 √ 1
··· −√ Xn
(n−1)n (n−1)n (n−1)n (n−1)n
Cirilo alvarez R. 31

lo que resulta
 

 nX 
 
X −X
 1 2

 2

AX = 
 
X1 +X .
2 −2X3 .

√ .
 

 2×3 

 X1 +X2 +···+Xn−1 −(n−1)Xn 

(n−1)n

denotando los componentes de ASX por



U0 = n X
X 1 − X2
U1 =
2
..
.
X1 + X2 + · · · + Xn−1 − (n − 1)Xn
Un−1 = p
(n − 1)n
El vector aleatorio U se puede escribir como
 
 U0 
 
U
 
 1 
U =  = AX
.
 .. 

 
 
Un−1

El vector aleatorio U ∼ N( In µ, σ 2 In ), donde In es la matriz identidad de


orden n y µ = E(Xj ), j = 1, 2, . . . , n.
Definiendo
j
X Xk − jXj+1
Uj = p , j = 1, 2, . . . , (n − 1).
k=1
j(j + 1)
32 Cirilo alvarez R.

Ejercicio 1.
Teniendo en cuenta la matriz A, el vector X, y U definidas como antes

(a) Escriba U = AX para n = 4.


(b) Demuestre directamente que para j ≥ 1, Uj ∼ N (0, σ 2 ). sugerencia
Encuentre la función característica de Uj .

Ejercicio 2.
En este ejercicio solo use las propiedades algebraicas de S 2 ,A, X, U ; no use
la distribución normal.

(a) Demuestre A′ A = I = AA′



(b) Demuestre que A(1,1,. . . , 1)′ In = ( n, 0, . . . , 0)′ .

(c) Demuestre que


n
X
Xj2 = X ′ X = XA′ AX
j=1
n−1
X
′ 2
= U U = n(X) + UJ2 .
j=1

sugerencia: intente para n = 4 primero

d Demuestre que
n
X
(n − 1)S 2 = (Xj − X)2
j=1
n n−1
X 2 X
= Xj2 − nX = UJ2 .
j=1 j=1

La derivación de la distribución de (n − 1)S 2 se completará si demuestra


Cirilo alvarez R. 33

Uj
que U1 , U2 . . . , Un−1 sean independientes y luego tome Zj = σ

Ejercicio 3.
Demuestre que los Uj , j = 0, 1, 2, . . . , (n − 1), son independientes. Luego
n
X
(Xj − X)2
U0 j
X=√ y S2 =
n n−1
son funciones de variables aleatorias independientes y por lo tanto son in-
dependientes uno del otro.

Ejercicio 4.
Encuentre la función característica de de U

para todo a, b ∈ R : a ≤ b y para toda variable aleatoria X continua se


tiene:

P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b)


= FX (b) − FX (a), donde FX es la fd

n(X − µ)
Si X ∼ N (µ, σ ) entonces se sabe que
2
∼ N (0, 1). Por lo que:
σ
P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b)
√  √ 
n(b − µ) n(a − µ)
=Φ −Φ
σ σ
donde Φ es la distribución normal estándar.

Ejemplo 6.1. Sea X1 , X2 , . . . , X16 una muestra aleatoria de una distribu-


ción normal, N (77, 25): Calcular:

(a) P (77 < X < 79.5)


(b) P (74.2 < X < 78.4)
34 Cirilo alvarez R.

Solución 4.
item (a)
√ ! √ !
16(79.5 − 77) 16(77 − 77)
P (77 < X < 79.5) = Φ −Φ
5 5
= Φ(2) − Φ(0)
= 0.97725 − 0.50000 = 0.47725

Solución 4.
item (b)
√ ! √ !
16(78.4 − 77) 16(74.2 − 77)
P (74.2 < X < 78.4) = Φ −Φ
5 5
= Φ(1.12) − Φ(−2.24)
= 0.86864 − 0.01255 = 0.85609

Ejercicio 5.
El número de libros encuadernados diariamente por una máquina automáti-
ca es una variable aleatoria cuya distribución se desconoce, con una desvia-
ción típica de 16 libros por día. Si se selecciona una muestra aleatoria de 49
días, hallar la probabilidad de que el número medio de libros encuadernados
durante esos días (la media muestral) se encuentre a lo más 3 libros de la
verdadera media poblacional.

Solución 5.
Como no se especifica la distribución del número de libros y n = 49 > 30,
podemos utilizar el TCL. para hallar la probabilidad solicitada. Tenemos
σ2
 
X ∼ N µ,
n
Cirilo alvarez R. 35

La probabilidad que pide es el siguiente

P ( X − µ ≤ 3) = P (−3 ≤ X − µ ≤ 3)
 
−3 X −µ 3
=P √ ≤ √ ≤ √
16/ 49 σ/ n 16/ 49
= Φ(1.3125) − Φ(−1.3125)
= 0.81064

Ejercicio 6.
Con referencia al ejercicio 5. Determinar el tamaño de la muestra para que
la media muestral se encuentre a lo más a 3 libros de la media poblacional
con una probabilidad de 0.95.

Solución 6.
Ahora se tiene que verificar que

P ( X − µ ≤ 3) = P (−3 ≤ X − µ ≤ 3) = 0.95

Estandarizando se tiene

√ √
 
−3 X −µ 3
P √ ≤ √ ≤ √ = P (−0.1875 n ≤ Z ≤ 0.1857 n) = 0.95
16/ 49 σ/ n 16/ 49
√ √
= Φ(0.1875 n) − Φ(−0.1875 n) = 0.95

= 2Φ(0.8175 n) − 1 = 0.95

= Φ(0.1875 n) = 0.975

= 0.1875 n = Φ−1 (0.975)

= 0.1875 n = 1.95996
= n ≈ 110
36 Cirilo alvarez R.

Ejercicios propuestos
1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de N (µ, σ 2 ) y X y S 2 , res- 
pectivamente, la media muestral y la varianza muestral. Sea (X√n+1 −X)
S/ n/(n+1)

2. Sean X1 , X2 , . . . , Xm y Y1 , Y2 , . . . , Yn muestras aleatorias independien-


tes de N (µX , σX 2
) y N (µY , σY2 ), respectivamente. Además, sean α y
β dos números reales fijos. Si X, Y denotan las medias muestrales
correspondientes, ¿cuál es la distribución muestral de

α(X − µX ) + β(Y − µY )
q 2 +(n−1)S 2
q
(m−1)SX α2 2
m+n−2
Y
m
+ βn

2
donde SX y SY2 respectivamente denotan las varianzas muestrales de ls
X ′ s y de las Y ′ .

3. Sea X1 , X2 , . . . , Xn una muestra aleatoria de N (µ, σ 2 ) y sea k es un


número entero entero positivo. Encuentra E(S 2k ). En particular,
encuentre E(S 2 ) y Var(S 2 ).

4. Se toma una muestra aleatoria de 5 de una población normal con una


media de 2.5 y una varianza σ 2 = 36.

(a) Encuentre la probabilidad de que la varianza muestral se encuen-


tre entre 30 y 44.

(b) Encuentre la probabilidad de que la media muestral se encuentre


entre 1.3 y 3.5, mientras que la varianza muestral se encuentra
entre 30 y 44.

5. Se observó que la vida media de una muestra de 10 bombillas era de


1327 horas con una desviación estándar de 425 horas. Una segunda
muestra de 6 bombillas elegidas de un lote diferente mostró una vida
Cirilo alvarez R. 37

media de 1215 horas con una desviación estándar de 375 horas. Si se


supone que las medias de los dos lotes son las mismas, ¿qué tan pro-
bable es la observación? diferencia entre las dos medias de muestra?

2
6. Sean SX y SY2 las varianzas muestrales de dos muestras independientes
de tamaños nx = 5 y nY = 4 de dos poblaciones que tienen la misma
varianza desconocida σ 2 . Encuentre (aproximadamente) la probabili-
S2
dad de que SX2 < 1/5.2 o > 6.25.
Y

7. Sean X1 , X2 , . . . , Xn variables aleatorias iid que tienen un E(|X1 |4 )


finito y sean X y S 2 la media y la varianza de la muestra. Expre-
3
se E(X ), Cov(X, S 2 ) y Var(S 2 ) en términos de µk = E(X1k ), k =
1, 2, 3, 4. Encuentre una condición bajo la cual X y S 2 sean no corre-
lacionados

8. Sean X1 , X2 , . . . , Xn variables aleatorias iid que tienen la distribución


gamma Γ(α, βX ) y Y1 , Y2 , . . . , Yn . variables aleatorias iid que tienen
la distribución gamma Γ(α, βY ), donde α > 0, βX > 0 y βY > 0.
Suponga que las Xi y las Yi son independientes. Derive la distribución
X
del estadístico , donde X y Y son las medias muestrales basadas en
Y
las Xi y en las Yi respectivamente.

9. Sean X1 , X2 , . . . , Xn variables aleatorias iid que tienen la distribución


exponencial exp(µ, θ), µ ∈ R y θ > 0. Demuestre que el estadístico de
orden más mínimo, X(1) , tiene la distribución exponencial exp(µ, θ/n)
y que 2 nI=1 (Xi − X(1) )/θ tiene la distribución chi-cuadrado χ2 (2n −
P

2).
38 Cirilo alvarez R.

7 Distribuciones de X para algunas


poblaciones no normales
Hasta ahora hemos considerado estadísticas que eran funciones de variables
aleatorias con las mismas distribuciones normales. Ahora investigamos al-
gunas de la distribución de medias muestrales de muestras que provienen
de poblaciones que no son normales.

7.1 Distribución de X de la distribución


Binomial
Sea X1 , X2 , . . . , Xm una muestra aleatoria de una población con distribución
Binomial de parámetros n y θ. La función de probabilidad de la variable
Xj es

r = 0, 1, 2, . . . , n
 
n r
P(Xj = r) = θ (1 − θ)n−r ,
r
j = 1, 2, . . . , m.

donde 0 < θ < 1. Se desea determinar la distribución de la media muestral


de estas variables aleatorias.
m
1 X
X= Xj
m j=1

Para ello utilizamos la función característica; se sabe que la función carac-


terística de la X, de una muestra de tamaño n está dada por
  n
t
ΨX (t) = ΨX
n
donde ΨX es la función característica de la población. En caso, la binomial.
La función característica de esta población es

ΨX (t) = (1 − θ + θeit )n
Cirilo alvarez R. 39

Luego, la función característica de X es


t
ΨX (t) = (1 − θ + θei m )nm (7.1)

La expresión (7.1) es la función característica de una variable aleatoria con


función de distribución binomial modificado: X puede tomar los valores
1 2 nm
X = 0, , ,..., = n,
m m m
y la función de probabilidad de la media muestra , X, es
 
k nm k
P(X = ) = θ (1 − θ)nm−k , k = 0, 1, 2, . . . , nm
m k
de donde obtiene que
 
k 1 1
E(X) = E = E(k) = nmθ = nθ
m m m
y
 
k 1 1 nθ(1 − θ)
Var(X) = Var = 2
Var(k) = 2 nmθ(1 − θ) =
m m m m

7.2 Distribución de X de la distribución Poisson


Ahora considere variables aleatorias independientes con la misma Xj (j =
1, 2, . . . , m) con la misma distribución de Poisson dada por

λr r = 0, 1, 2, . . . ,
P(Xj = r) = e−λ ,
r!
j = 1, 2, . . . , m.

donde λ > 0.

Para hallar la distribución del estadístico X definido en la relación (7.1),


observe que la función característica de la población Poisson es,
it −1)
ΨX (t) = eλ(e .
40 Cirilo alvarez R.

Entonces la función característica de X es


t
im
−1)
ΨX (t) = emλ(e

La expresión anterior, es la función característica de una variable aleatoria


con una modificación de la distribución Poisson; X puede tomar los valores
1 2 3
X = 0, , , ,···
m m m

y la función de probabilidad de la media muestra , X, es

(mλ)k
 
k
P X= = e−mλ , k = 0, 1, 2, . . .
m k!

La media y varianza se puede hallar utilizando directamente la función


característica. Así
i t
h ti

ΨX (t) = λiemλ(e m −1) ei m

y
Ψ′X (0) = λi = iE(X) ⇒ E(X) = λ

Ejercicio 7.
Encuentre la distribución de la media muestral X de una muestra aleatoria
simple de tamaño n extraída de una población en la que característica X
tiene la distribución Gamma con parámetros α y β.

Ejercicio 8.
Sea X la media muestral de una muestra aleatoria simple de tamaño n
extraída de una población en la cual la característica X tiene la distribución
uniforme dada por 
 1 si x ∈ [0, 1]

f (x) =
 0 si x ∈

/ [0, 1]
Cirilo alvarez R. 41

Pruebe la función de densidad g(x) de X es para j = 0, 1, 2, . . . , n − 1 es de


la forma
j n−1 
nn X
  
k n k j j+1
gX (x) = (−1) x− , ≤x≤
(n − 1)! k=0 k n n n

8 Muestreo en poblaciones normales:


Distribución de la diferencia de medias mues-
trales con varianza conocidas
En muchas situaciones surge la necesidad de comparar las medias mues-
trales de dos poblaciones distintas. Por ejemplo supongamos que estamos
interesados en comparar los tiempos medios de duración de dos tipos de tu-
bos fluorescente. La fabricación de ambos tipos de tubos de fluorescentes se
realiza por empresas distintas y con diferentes procesos de fabricación. Por
lo tanto, los tubos producidos por cada empresa tendrán una distribución
diferente, una de la otra, de los tiempos de duración de los tubos.

Teorema 8.1. Sean X1 , X2 , . . . , Xm y Y1 , Y2 , . . . , Yn dos muestras aleato-


rias, cada una de distribuciones normales independientes con medias desco-
nocidas µx y µy , pero varianzas conocidas σx2 y σy2 , respectivamente. Enton-
ces
σx2 σy2
 
X − Y ∼ N µx − µy , +
m n
Es decir, la diferencia de medias muestrales, X − Y , se distribuye en forma
2 σ2
normal con E(X − Y ) = µx − µy y varianza. Var(X − Y ) = σx−y 2
= σmx + ny .

Además,
(X − Y ) − (µx − µy )
Z= q ∼ N (0, 1).
σx2 σy2
m
+ n
42 Cirilo alvarez R.

Prueba. Como las muestras son independientes, también lo son las medias
muestrales X, Y . Luego por la propiedad del función característica resulta
ΨX−Y (t) = ΨX+(−Y ) (t) = ΨX (t)Ψ−Y (t) = ΨX (t)ΨY (−t) = ΨX (t)ΨY (t)
2 2
σX 2 2
σY
t t
y como ΨX (t) = eitµX − m 2 y ΨY (t) = e−itµY − n 2 . Entonces la función
característica de la diferencia de medias muestrales resulta
 2
σ2

2 2 2 2 σX 2
itµX −
σX t
−itµY −
σY t it(µX −µY )− m + nY t2
ΨX−Y (t) = e m 2 e n 2 =e .
Luego por el teorema de la unicidad de la función característica se concluye
que
2
σY2
 
σX
X − Y ∼ N µX − µY , + .
m n

Ejemplo 8.1. Analizando los sueldos de los empleados de dos empresas se


deduce que en la empresa A el salario medio mensual es de 2900 nuevos soles
con una varianza de 250 (nuevos soles)2 , y en la empresa B el salario medio
es de 2508 nuevos soles con una con una varianza de 300 (nuevos soles)2 .
Si se toma una muestra aleatoria de 25 personas de la empresa A y de 36
personas de la empresa B. Determinar la probabilidad de que la muestra
procedente de la empresa A tenga un salario medio que sea al menos 400
nuevos soles superior al salario medio de la empresa B.
Solución:
La información que se tiene es la siguiente:
Población A: µx = 2900 σx2 = 250 m = 25
Población B: µy = 2508 σy2 = 300 m = 36

Por Teorema 1, se sabe que


 
250 300
X −Y ∼N 2900 − 2508, +
25 36
X − Y ∼ N (392, 18.33)
Cirilo alvarez R. 43

Luego, tenemos

 
(X − Y ) − (µx − µy ) 400 − 392 
P (X − Y > 400) = P  q > √
σx2 σ
+ ny
2
18.33
m
 
8
=P Z>
4.2814
= P (z > 1.8685) = 1 − P (z > 1.8685) = 1 − Φ(1.8685)
= 0.03085

0.03085

400

Figura 1.1: Representación gráfica de la muestral de la diferencia de medias


muestrales.

P (X − Y > 400) = 0.03085 ■


44 Cirilo alvarez R.

8.1 Distribución de la diferencia de medias muestra-


les en Poblaciones normalmente distribuidas con
varianzas desconocidas

Ahora se desea encontrar la distribución la diferencia de dos medias muestra-


les cuando las varianzas poblacionales son desconocidas. Sean X1 , X2 , . . . , Xm
y Y1 , Y2 , . . . , Yn dos muestras aleatorias, cada una de distribuciones normales
independientes con medias desconocidas µx y µy y varianzas desconocidas
σx2 y σy2 , respectivamente. Se puede considerar dos casos, y a continuación
tomar cada uno por turno:

(a) Ambas varianzas poblacionales son iguales, σx2 = σy2 = σ 2 . En este


caso, se asume que ambas muestras provienen de poblaciones que pue-
den tener varianzas iguales. Esto significa que se puede usar ambas
muestras combinadas para estimar σ 2 .
(b) Ambas varianzas poblacionales son desiguales, σx2 ̸= σy2 . En este ca-
so, se asumimos que ambas muestras provienen de poblaciones que
no tienen varianzas iguales, por lo que se debe estimar σx2 y σy2 por
separado.

Caso (a) :σx2 = σy2 = σ 2 :


2
Sea SX la varianza muestral de X1 , X2 , . . . , Xm , y sea SY2 la varianza mues-
2
tral de Y1 , Y2 , . . . , Yn . Sabemos que SX es un estimador insesgado para
2
σx y que SY es un estimador insesgado para σy2 . Como se asume que
2

σx2 = σy2 = σ 2 , entonces tanto SX 2


como SY2 son estimadores insesgados
de σ 2 .

La razón por la que este caso es interesante radica principalmente en la


siguiente idea. Tenemos dos estimadores insesgados de σ 2 . ¿Podríamos
combinar estos estimadores de alguna manera para obtener otro estimador
insesgado, que sea mejor que cualquiera de los dos estimadores insesgados
Cirilo alvarez R. 45

originales? La respuesta a ésta pregunta es sí. Pero, ¿a qué nos referimos


con mejor?

En esta situación, nos referimos a obtener otro estimador insesgado que


tenga una varianza menor que cualquiera de los dos estimadores insesgados
originales. Se sabe que

2
(m − 1)SX (n − 1)SY2
2
∼ χ2 (m − 1) y 2
∼ χ2 (n − 1)
σx σy

y por la propiedad de la distribución χ2 se tiene que,

2
(m − 1)SX (n − 1)SY2
+ ∼ χ2 (n − 1) ∼ χ2 (m + n − 2)
σx2 σy2

y como las varianzas son iguales resulta

2
(m − 1)SX (n − 1)SY2
+ ∼ χ2 (n − 1) ∼ χ2 (m + n − 2) (∗)
σ2 σ2

Por otro lado, se sabe que

(X − Y ) − (µx − µy )
Z= q ∼ N (0, 1).
σx2 σy2
m
+ n

Nuevamente cono las varianzas son iguales resulta,

(X − Y ) − (µx − µy )
Z= q ∼ N (0, 1). (∗∗)
1 1
σ m+n

y teniendo en cuenta, que las medias muestrales son independientes de las


varianzas muestrales, por definición del estadístico “t” student, efectuando
la división del de relación de (∗∗) entre la relación de (∗) se obtiene
46 Cirilo alvarez R.

(X − Y ) − (µx − µy )
r
1 1
σ +
m n
T =v ∼ t(m + n − 2)
u (m − 1)S 2 (n − 1)SY2
X
u +
σ2 σ2
t
m+n−2
(X − Y ) − (µx − µy )
= r ∼ t(m + n − 2)
1 1
S +
m n

donde
2
(m − 1)SX + (n − 1)SY2
S2 =
m+n−2

se llama varianza ponderada y es un estimador insesgado de σ 2 .

Ejemplo 8.2. Se midió la proporción de consumo de oxígeno de dos gru-


pos de hombres. Un grupo (X) entrenó regularmente durante un período
de tiempo, y el otro (Y ) entrenó de forma intermitente. Las estadísticas
calculadas a partir de los datos registrados se dan a continuación: Supo-
niendo

Grupo X : m = 9 µx = 43.71 s2X = 34.5744

Grupo Y : n = 7 µY = 39.63 s2Y = 58.9824

distribuciones normales independientes para las lecturas, y que las varianzas


de las poblaciones son iguales, encuentre la P (X > Y ).

Solución:
Cirilo alvarez R. 47

P (X > Y ) = P (X − Y > 0)
 
0 − (43.71 − 39.63)
= P T > q 
(9−1)(34.5744)+(7−1)(58.9824)
9+7−2
 
−4.08
=P T >
6.71.08
= P (T > −0.60796)
= 0.72328

La probabilidad de que la media muestral del grupo mX sea mayor a la


media muestral del grupo Y es 0.72328. ■

Caso (b): σx2 ̸= σy2 :


2
Sea SX la varianza muestral de X1 , X2 , . . . , Xm y sea SY2 la varianza muestral
de Y1 , Y2 , . . . , Yn . Si σx2 ̸= σy2 entonces

(X − Y ) − (µX − µY )
T = r (8.1)
2
SX §2
+ Y
m n

se puede demostrar que tiene una distribución “t” de Student con algu-
nos grados de libertad, que se denota por ν. Actualmente, no existe una
fórmula exacta para los grados de libertad ν en el caso de que ambas va-
rianzas poblacionales sean desconocidas y no se puedan asumir iguales. La
denominada ecuación de Welch-Satterthwaite se utiliza para calcular una
aproximación a los grados de libertad efectivos de una combinación lineal
de varianzas muestrales independientes, también conocidas como grados de
48 Cirilo alvarez R.

libertad agrupados. Esta ecuación está dada por


 2 2
SX SY2
+
m n
ν =  2 2  2 2
SX SY
m n
+
m−1 n−1
y se usa comúnmente en escenarios en los que se desconocen dos variaciones
de población y no hay evidencia para suponer que son iguales.

En consecuencia, en esta situación, se puede construir un intervalo de con-


fianza del 100(1 − α)% para µX − µY como
r
2
SX S2
I[µX − µY : 100(1 − α)%] = (X − Y ) ± t(ν, 1 − α/2) + Y.
m n

Ejemplo 8.3. Los siguientes resultados se obtuvieron de un experimento


que comparó los tiempos de absorción (en minutos) de dos medicamentos
administrados por vía oral. El científico que realiza el experimento tiene
fuertes sospechas de que las variaciones de los tiempos de absorción de
ambos medicamentos no son iguales.

x2 = 8120.20
P P
Druga X : m = 14 x = 301.6

y 2 = 5207.49
P P
Druga Y : n = 10 y = 210.0

Encuentre un intervalo de confianza del 95% para la diferencia entre los


tiempos medios de absorción de los dos medicamentos.

Solución:
El intervalo de confianza del 95% para la diferencia entre la media Los
tiempos de absorción de los dos fármacos están dados por
r
2
SX S2
I[µX − µY : 100(1 − α)%] = (X − Y ) ± t(ν, 1 − α/2) + Y.
m n
Cirilo alvarez R. 49

Las varianzas muestrales para cada medicamento están dadas por


 !2 
m m
2 1  X 1 X 1 1
SX = Xi2 − Xi  = [8120.72 − (3o1.6)2 ]
m − 1 i=1 m i=1 13 14

= 124.8764835
 !2 
n n
1 X 2 1 X
 = 1 [5207.49 − 1 (210.0)2 ]
SY2 = Y − Yi
n − 1 i=1 i n i=1
9 10

= 88.61

y la aproximación de Welch-Satterthwaite viene dada por


2
2 2
SY2
 
SX 124.8764835 88.61
+ +
m n 14 10
ν =  2 2  2 2 =  2  2
SX SY 124.8764835 88.61
m n 14 10
+ +
m−1 n−1 13 9
= 21.29808397 = 21.

Por lo tanto, el intervalo de confianza del 95% para la diferencia entre los
tiempos medios de absorción de los dos fármacos es
r
2
SX S2
I[µX − µY : 100(1 − α)%] = (X − Y ) ± t(ν, 1 − α/2) + Y.
m n

r
124.8764835 88.61
= (21.54285714 − 21) ± t(21, 0, 975) +
14 10
= 0.54285714 ± 8.770782844

I[µX − µY : 95%] = [−8.2279, 9.3136]


con cuatro decimales donde t0.975(21) = 2.080. ■

También podría gustarte