Está en la página 1de 260

Notas Curso de Estadística (Parte I)

Maikol Solís y Luis A. Barboza

Actualizado el 25 November, 2021


2
Índice general

1. Introducción 7

2. Inferencia estadística 9
2.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Modelo estadístico . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1. Tipos de inferencia . . . . . . . . . . . . . . . . . . . . 13
2.3. Estadístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3. Densidades previas conjugadas y estimadores de Bayes 15


3.1. Distribución previa (distribución a priori) . . . . . . . . . . . . 15
3.2. Densidad posterior . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.1. Proceso de modelación. . . . . . . . . . . . . . . . . . . 19
3.3. Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . 20
3.4. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5. Densidades previas impropias . . . . . . . . . . . . . . . . . . 25
3.6. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . . . . 26
3.6.1. Función de pérdida cuadrática . . . . . . . . . . . . . . 27
3.6.2. Función de pérdida absoluta . . . . . . . . . . . . . . . 28
3.6.3. Otras funciones de pérdida . . . . . . . . . . . . . . . . 28
3.7. Efecto de muestras grandes . . . . . . . . . . . . . . . . . . . 28
3.8. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.9. Laboratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.9.1. Distribución previa . . . . . . . . . . . . . . . . . . . . 30
3.9.2. Distribución conjunta . . . . . . . . . . . . . . . . . . . 31
3.9.3. Distribución posterior . . . . . . . . . . . . . . . . . . 32
3.9.4. Agregando nuevos datos . . . . . . . . . . . . . . . . . 33
3.9.5. Familias conjugadas normales . . . . . . . . . . . . . . 35

3
4 ÍNDICE GENERAL

3.9.6. Funciones de pérdida . . . . . . . . . . . . . . . . . . . 41


3.9.7. Caso concreto . . . . . . . . . . . . . . . . . . . . . . . 42

4. Estimación por máxima verosimilitud 47


4.1. Propiedades del MLE . . . . . . . . . . . . . . . . . . . . . . . 54
4.1.1. Propiedad de invarianza . . . . . . . . . . . . . . . . . 54
4.1.2. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2. Temas adicionales . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.1. Método de los momentos . . . . . . . . . . . . . . . . . 56
4.2.2. Método Delta . . . . . . . . . . . . . . . . . . . . . . . 59
4.3. Laboratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5. Estadísticos Suficientes y Criterio de Factorización 65


5.1. Estadísticos suficientes . . . . . . . . . . . . . . . . . . . . . . 65
5.2. Teorema de Factorización de Fisher . . . . . . . . . . . . . . . 66
5.3. Estadístico suficiente multivariado. . . . . . . . . . . . . . . . 69
5.4. Estadísticos minimales . . . . . . . . . . . . . . . . . . . . . . 70
5.5. Mejorando estimadores . . . . . . . . . . . . . . . . . . . . . . 72

6. Distribución muestral de un estadístico 77


6.1. Distribución muestral . . . . . . . . . . . . . . . . . . . . . . . 77
6.2. Distribución χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.2.1. Ilustración de la distribución χ2 . . . . . . . . . . . . . 83
6.3. Distribución t . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3.1. Ilustración de distribución t. . . . . . . . . . . . . . . . 86

7. Intervalos de confianza 89
7.1. Intervalos de confianza para la media de una distribución normal 89
7.2. Intervalos de confianza abiertos . . . . . . . . . . . . . . . . . 94
7.3. Intervalos de confianza en otros casos . . . . . . . . . . . . . . 95
7.3.1. Intervalos de confianza aproximados. . . . . . . . . . . 98
7.3.2. Transformaciones estabilizadoras de la varianza . . . . 100

8. Estimación Bayesiana bajo normalidad 103


8.1. Precisión de una distribución normal . . . . . . . . . . . . . . 103
8.2. Distribución marginal de µ . . . . . . . . . . . . . . . . . . . . 106
8.3. Intervalos de credibilidad. . . . . . . . . . . . . . . . . . . . . 114
8.4. Efecto de previas no informativas (Opcional) . . . . . . . . . . 116
ÍNDICE GENERAL 5

9. Estimación insesgada 119


9.1. Estimadores insesgados . . . . . . . . . . . . . . . . . . . . . . 119
9.2. Estimación insesgada de la varianza . . . . . . . . . . . . . . . 122
9.3. Información de Fisher . . . . . . . . . . . . . . . . . . . . . . . 126
9.4. Desigualdad de Cramér-Rao . . . . . . . . . . . . . . . . . . . 133
9.5. Estimadores eficientes . . . . . . . . . . . . . . . . . . . . . . 140
9.6. Comportamiento asintótico del MLE . . . . . . . . . . . . . . 141

10.Pruebas de hipótesis 145


10.1. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . 145
10.2. Regiones críticas y estadísticos de prueba . . . . . . . . . . . . 149
10.3. Función de potencia y tipos de error . . . . . . . . . . . . . . 153
10.4. Valor p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
10.5. Dualidad entre pruebas de hipótesis y regiones de confianza . . 169
10.5.1. Dualidad en pruebas unilaterales . . . . . . . . . . . . 172
10.5.2. Pruebas de cociente de verosimilitud (LRT) . . . . . . 174

11.Pruebas con hipótesis simples 179


11.1. Hipótesis simples . . . . . . . . . . . . . . . . . . . . . . . . . 179
11.2. Criterio de Neyman-Pearson . . . . . . . . . . . . . . . . . . . 184
11.3. Pruebas insesgadas . . . . . . . . . . . . . . . . . . . . . . . . 187
11.4. Prueba t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
11.4.1. Propiedades de las pruebas t . . . . . . . . . . . . . . . 193
11.4.2. Prueba t pareada . . . . . . . . . . . . . . . . . . . . . 196
11.4.3. Pruebas t de dos colas . . . . . . . . . . . . . . . . . . 197

12.Prueba de comparación de medias en 2 poblaciones 199


12.1. Comparación de medias normales . . . . . . . . . . . . . . . . 199
12.2. Prueba t de dos muestras . . . . . . . . . . . . . . . . . . . . . 199
12.2.1. Prueba de 2 colas . . . . . . . . . . . . . . . . . . . . . 202
12.3. Prueba F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
12.3.1. Prueba de 2 colas (prueba de homocedasticidad) . . . . 208

13.Bondad de ajuste 211


13.1. Prueba χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
13.2. Pruebas χ2 con hipótesis parametrizadas . . . . . . . . . . . . 219

14.Tablas de contingencia 229


6 ÍNDICE GENERAL

14.1. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . 230


14.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . 233
14.3. Similitudes entre las pruebas de independencia y homogeneidad234
14.4. Comparación de dos o más proporciones . . . . . . . . . . . . 235
14.5. Paradoja de Simpson . . . . . . . . . . . . . . . . . . . . . . . 236
14.5.1. ¿Cómo evitamos esta paradoja? . . . . . . . . . . . . . 238

15.Pruebas de Kolmogorov-Smirnov 241


15.1. Prueba de Kolmogorov-Smirnov para una muestra . . . . . . . 245
15.2. Prueba de 2 muestras . . . . . . . . . . . . . . . . . . . . . . . 248

16.Pruebas no-paramétricas: pruebas de signo y rango 251


16.1. Prueba de signo . . . . . . . . . . . . . . . . . . . . . . . . . . 251
16.2. Prueba de Wilconxon-Mann-Whitney . . . . . . . . . . . . . . 256
Capítulo 1

Introducción

7
8 CAPÍTULO 1. INTRODUCCIÓN
Capítulo 2

Inferencia estadística

Definición: Hacer afirmaciones probabilísticas respecto a (acerca de) canti-


dades desconocidas.

2.1. Ejemplo
Pregunta: ¿Será posible modelar el tiempo de fallo de un componente
electrónico con fines de predicción?
Solución: Podemos responder esta pregunta dividiéndola en dos partes:
1. Modelo probabilístico: Asuma que el tiempo de vida del componente
es exponencial (en años).
2. Parámetro: Sea θ > 0 la tasa de fallo (unidades: 1/Tiempo(años)).
Es decir, tenemos un modelo (exponencial) y buscaremos hacer una escogencia
del parámetro θ de manera que el modelo refleje la realidad de la información
disponible.
Nota: ¿Cómo obtendríamos la información disponible?
Muestra: Secuencia (sucesión) de variables aleatorias independientes
X1 , X2 , . . . , Xn , . . ..
i.i.d
En nuestro ejemplo, tomemos una muestra X1 , X2 , . . . , Xn , . . . ∼ Exp(θ).
Objetivos

9
10 CAPÍTULO 2. INFERENCIA ESTADÍSTICA

Estimar Xm , Xm+1 , . . . si se observa X1 , . . . , Xm (Predicción).


Estimar θ usando la muestra observada X1 , . . . , Xm (Estimación).
Datos: Realizaciones de variables aleatorias X1 , . . . , Xm pertenecientes a la
muestra.
Estimación de θ
1
Asumiendo que θ es una constante (enfoque frecuentista) y dado que E(X) =
θ
con X ∼ Exp(θ), por la Ley de Grandes Números se tiene que

1X 1
Xi −−−→ E(X) =
P
n i=1 n→∞ θ
| {z }
X̄n

Por propiedades de convergencia en probabilidad, un posible candidato para


1
estimar θ es .
X̄n
Bajo un enfoque bayesiano, θ no necesariamente es determinístico (incer-
tidumbre adicional debido a factores externos, por la naturaleza propia del
fenómeno).
Asumimos un modelo probabilístico para θ (tasa siempre positiva):

θ ∼ Γ(α0 , β0 )
Supongamos que antes de observar los datos la tasa esperada es 0.5/año
(según estudios previos). Como
1 α0
E(θ) = = .
2 β0

entonces un primer intento para definir la distribución de θ sería definir por


ejemplo α0 = 1 y de β0 = 2.

2.2. Modelo estadístico


Un modelo estadístico es una estructura compuesta por los siguientes
factores:
2.2. MODELO ESTADÍSTICO 11

1. Variables aleatorias observables / hipotéticamente observables:

X t = Yt + |{z}

|{z} |{z}
Observable Hip. observable Ruido

En otras palabras Yt sería la el dato “verdadero” que pasó exactamente


en el fenómeno analizado. Esta observación es afectada por muchos
factores no observables (por ejemplo: errores de medición, cambio de
las condiciones de la economía, etc.). La variable  captura toda esa
aleatoriedad que no es parte del fénomeno asumiendo una relación
aditiva con respecto a la variable hipotética.
Claramente ni Yt ni  se pueden observar directamente y la mejor
representación de nuestro fenómeno en este caso sería a partir de Xt .
Otro caso de una variable hipóteticamente observable es aquella que se
define usando un número infinito de observaciones, por ejemplo:

Yt =
X
Xt
i=1

y Xt es observable.
2. Distribución conjunta de una muestra de variables observables.
Es decir cuál es el supuesto general que estoy usando para describir mis
observaciones. La distribución debe estar indexada por el conjunto de
parámetros de interés.
3. Parámetros que son hipotéticamente observables (desconocidos).
Permiten calibrar la distribución conjunta de modo que el modelo
estadístico se ajuste a los datos.
4. (Opcional) Distribución conjunta de los parámetros.
Caso bayesiano: los parámetros dejan de ser determinísticos y se con-
vierten en variables aleatorias. En este caso la distribución conjunta de
la muestra es condicional en θ.
Inferencia estadística: procedimiento que genera afirmaciones probabilísti-
cas de un modelo estadístico.
12 CAPÍTULO 2. INFERENCIA ESTADÍSTICA

Ejemplos de inferencias estadísticas:


1
1. Estimar θ a través de .
X̄n
2. ¿Qué tan probable es que el promedio de las siguientes 10 observaciones
sea al menos 2?
1 m+10
Xi > 2
X
10 i=m+1

3. ¿Qué tan cierto es que θ ≤ 0,4 después de observar la muestra?


Parámetro: característica (s) que determinan la distribución conjunta de
las variables aleatorias de interés. Especifica el comportamiento general de
cualquier muestra o subconjunto de la población (conjunto total de posibles
muestras).
Espacio paramétrico Ω (espacio de parámetros, puede ser de probabilidad)
Ejemplos:
θ > 0 (ejemplo anterior); Ω = (0, +∞).
X1 , . . . , Xn ∼ N (µ, σ 2 ), (µ, σ 2 ) parámetros; Ω = R × [0, +∞).
Ejemplo: Clientes de un banco
¿Qué tan probable es que un cliente no pague su crédito hoy?

1 el cliente #i no pagó
Datos: Xi = .
0 el cliente #i pagó

Muestra: X1 , . . . , X10000 (realización al día de hoy).


i.i.d
Modelos: X1 , . . . , X10000 ∼ Ber(p) con p ∈ [0, 1].
Parámetro: p, Ω = [0, 1].
Inferencias:
• Estimar p (probabilidad de impago).
• Suponga que L(Xi ) es el saldo en la cuenta del cliente #i.

10000
!
L(Xi ) > u = Probabilidad de ruina
X
P
i=1
2.3. ESTADÍSTICO 13

2.2.1. Tipos de inferencia


Predicción: predicción de variables aleatorias no observadas o bien la
predicción es sobre cantidades fijas que indexan el modelo estadístico
(parámetros). A este último caso se le llama también estimación.
Problemas de decisión estadística: Después de que los datos se han
analizado, se tiene que tomar una(s) decisión(es) en función de los
parámetros del modelo. Por ejemplo una vez que se observa la muestra
de pago de clientes se puede decidir si θ > 1/2 con un cierto nivel de
confianza. A este caso se le llama Prueba de hipótesis.
Diseño experimental: construcción de estructuras de recolección de dato.
A estas estructuras se les llama experimentos. El diseño del experimento
depende de la pregunta de investigación y del tipo de modelo que se le
quiere aplicar a los datos una vez estos estén disponibles.

2.3. Estadístico
Definición. Si X1 , . . . , Xn es una muestra observable. Sea r una función real
de n variables:
T = r(X1 , . . . , Xn )
es un estadístico.
Nota: T también es aleatorio y representa una síntesis o resumen de la
información disponible.
Ejemplos:
1 10000 # no pagan
p̂ = Xi = = r(X1 , . . . , X10000 )
X
10000 i=1 Total
Lm = máx L(Xi ) (saldo del cliente más riesgoso).
Rm = máx L(Xi ) − mı́n L(Xi ), 1 ≤ i ≤ 10000
14 CAPÍTULO 2. INFERENCIA ESTADÍSTICA
Capítulo 3

Densidades previas conjugadas


y estimadores de Bayes

3.1. Distribución previa (distribución a pri-


ori)
Suponga que tenemos un modelo estadístico con parámetro θ. Si θ es una
variable aleatoria entonces su densidad (antes de observar cualquier muestra)
se llama densidad previa: π.
α β
Ejemplo: X1 , . . . , Xn ∼ Exp(θ) y θ es aleatorio tal que θ ∼ Γ(1, 2) entonces

1 α α−1 βθ
π(θ) = β θ e = 2e−2θ , θ>0
Γ(α)

Ejemplo: Sea θ la probabilidad de obtener cara al tirar una moneda.


Supongamos que tenemos dos tipos de moneda:
1
Moneda justa: θ = con probabilidad previa 0,8 (π( 21 ) = 0,8).
2
Moneda con solo una cara: θ = 1 con probabilidad previa 0,2 (π(1) =
0,2).

15
16CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

En este ejemplo si tuviéramos 100 monedas con probabilidad previa π entonces


se esperaría que 20 tuvieran solo una cara y las 80 restantes serían monedas
justas.
Notas:
π está definida en Ω (espacio paramétrico).
π es definida sin conocimiento de la muestra.
Ejemplo (Componentes eléctricos) Supoga que se quiere conocer el tiempo
de vida de cierto componente eléctrico. Sabemos que este tiempo se puede
modelar con una distribución exponencial con parámetro θ desconocido. Este
parámetro asumimos que tiene una distribución previa Gamma.
Un experto en componentes eléctricos conoce mucho de su área y sabe que el
parámetro θ tiene las siguientes características:

q
E[θ] = 0,0002, Var(θ) = 0,0001.

Como sabemos que la previa π es Gamma, podemos deducir lo siguiente:

α α
E[θ] = , Var(θ) = 2
β β


α
β = 2 × 10−4



=⇒ s
α =⇒ β = 20000, α = 4


 β2
 = 1 × 10−4

Notación:
X = (X1 , . . . , Xn ): vector que contiene la muestra aleatoria.
Densidad conjunta de X: fθ (x).
Densidad de X condicional en θ: fn (x|θ).
Supuesto: X viene de una muestra aleatoria si y solo si X es condicionalmente
independiente dado θ.
3.2. DENSIDAD POSTERIOR 17

Consecuencia:

fn (X|θ) = f (X1 |θ) · f (X2 |θ) · · · f (Xn |θ)

Ejemplo
Si X = (X1 , . . . , Xn ) es una muestra tal que Xi ∼ Exp(θ),

Q
 n θe−θXi si Xi > 0
fn (X|θ) = i=1
0 si no
 Pn
θ n e−θ i=1 Xi Xi > 0
=
0 si no

independientemente si asumimos o no que θ es una variable aleatoria.

3.2. Densidad posterior


Definición. Considere un modelo estadístico con parámetro θ y muestra
aleatoria X1 , . . . , Xn . La densidad condicional de θ dado X1 , . . . , Xn se llama
densidad posterior: π(θ|X)
Teorema. Bajo las condiciones anteriores:

f (X1 |θ) · · · f (Xn |θ)π(θ)


π(θ|X) =
gn (X)

para θ ∈ Ω, donde gn es una constante de normalización.


Prueba:
π(θ, X) π(θ, X) P (X|θ) · π(θ)
π(θ|X) = =R = R
marginal de X π(θ, X) dθ π(θ, X) dθ
fn (X|θ) · π(θ) f (X1 |θ) · · · f (Xn |θ)π(θ)
=
gn (X) gn (X)
18CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

Siguiendo el último ejemplo:

fn (X|θ) = θn e−θy

donde y = Xi es función exclusivamente de la muestra (Estadístico). El


P

numerador en este caso sería:

2000004 3 −20000·θ 200004 n+3 −(20000+y)θ


fn (X|θ)π(θ) = θ| n e{z−θy} · θ e = θ e
fn (X|θ) | 3! {z } 3!
π(θ)

y el denominador sería proporcional a:

Z +∞
Γ(n + 4)
gn (x) = θn+3 e−(20000+y)θ dθ =
0 (20000 + y)n+4

Entonces la posterior corresponde a

θn+3 e−(20000+y)θ
π(θ|X) = (20000 + y)n+4
Γ(n + 4)

que es una Γ(n + 4, 20000 + y).

Por otro lado, si tuviéramos 5 observaciones (en horas): 2911, 3403, 3237,
3509, 3118. Entonces:

5
y= Xi = 16478, n=5
X

i=1

por lo que θ|X ∼ Γ(9, 36178)


3.2. DENSIDAD POSTERIOR 19

Densidad
Posterior
Previa

0 250000 500000 750000 1000000

Es sensible al tamaño de la muestra (una muestra grande implica un efecto


de la previa menor).
Hiperparámetros: parámetros de la previa o posterior.

3.2.1. Proceso de modelación.


Recuerden que un modelo está compuesto por:
1. El conjunto de los datos X1 , . . . , Xn .
2. La función de densidad f .
3. El parámetro de la densidad θ.
Con el fin de identificar este modelo estadístico requiere las siguientes fuentes
de información:
1. La información previa π(θ) es la información fuera de los datos que
puede incluir criterio de investigaciones anteriores o bien información
vaga.
2. Los datos es la información observada. En este contexto la función de
densidad f filtra y mejora la información de la previa.
3. La densidad posterior es la “mezcla” entre la información previa y los
20CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

datos observados. Es una versión más informada de la distribución del


parámetro.

3.3. Función de verosimilitud


Bajo el modelo estadístico anterior a fn (X|θ) se le llama verosimilitud o
función de verosimilitud.
Observación. En el caso de una función de verosimilitud, el argumento es
θ. Además, la fórmula de Bayes puede escribirse ignorando la constante de
normalización:
π(θ|X) ∝ fn (X|θ)π(θ)

Ejemplo.
Sea θ la proporción de aparatos defectuosos, con θ ∈ [0, 1]. Defina:

0
falló
Xi = 
1 no falló

Note que {Xi }ni=1 es una muestra aleatoria y Xi ∼ Ber(θ).


Verosimilitud
 P P
n θ Xi (1 − θ)n− Xi Xi = 0, 1 ∀i
fn (X|θ) = f (Xi |θ) =
Y
0 si no
i=1

Previa:
π(θ) = 1{0≤θ≤1}

Posterior:
Por el teorema de Bayes,
α β
z }| { z }| {
π(θ|X) ∝ θ (1 − θ)
y n−y
· 1 = θy + 1 −1 (1 − θ)n − y + 1 −1

entonces θ|X ∼ Beta(y + 1, n − y + 1).


3.3. FUNCIÓN DE VEROSIMILITUD 21

Predicción.
Supuesto: los datos son secuenciales, es decir se observan uno a la vez siguiendo
el orden de su índice.
Calculamos la distribución posterior usando el supuesto anterior:

π(θ|X1 ) ∝ π(θ)f (X1 |θ)


π(θ|X1 , X2 ) ∝ π(θ)f (X1 , X2 |θ)
= π(θ)f (X1 |θ)f (X2 |θ) (por independencia condicional)
= π(θ|X1 )f (X2 |θ)
..
.
π(θ|X1 , . . . , Xn ) ∝ f (Xn |θ)π(θ|X1 , . . . , Xn−1 )

Por lo tanto bajo independiencia condicional la densidad posterior se actualiza


de manera secuencial usando la densidad de la nueva observación.
Luego, la densidad marginal de la muestra es:

Z
gn (X) = f (Xn |θ)π(θ|X1 , . . . , Xn−1 ) dθ

= P (Xn |X1 , . . . , Xn−1 ) (Predicción para Xn )

por lo tanto la constante de normalización de la densidad posterior es la


densidad predictiva del proceso secuencial.
Continuando con el ejemplo de los artefactos, suponga que se quiere
calcular P (X6 > 3000|X1 , X2 , X3 , X4 , X5 ). Para esto se necesita calcular
f (X6 |X1 , . . . , X5 ). Dado que
π(θ|X) = 2,6 × 1036 θ8 e−36178θ

se tiene

Z 1
9,55 × 1041
f (X6 |X) = 2,6 × 1036 θe −θX6
θ8 e−36178θ dθ =
0 | {z } (X6 + 36178)10
Densidad de X6
22CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

Entonces,

Z ∞
9,55 × 1041
P (X6 > 3000|X1 , . . . , X5 ) = dX6 = 0,4882
3000 (X6 + 36178)10

Usando el mismo razonamiento anterior se puede calcular la vida media


resolviendo la ecuación 12 = P (X6 > u|X).

3.4. Familias conjugadas


Definición. Sea X1 , . . . , Xn una muestra condicionalmente independiente
dado θ con densidad f (X|θ). Sea ψ la familia de posibles densidades previas
sobre Ω. Si, sin importar los valores observados de la muestra, la posterior
pertenece a ψ, entonces decimos que ψ es una familia conjugada de previas.
Ejemplos:
La familia Beta es familia conjugada para muestras según una Bernoulli.
La familia Gama es familia conjugada para muestras exponenciales.
Para el caso Poisson, si X1 , . . . , Xn ∼ P oi(λ), entonces la familia Gam-
ma es familia conjugada:
λk
La función de densidad de una Poisson es P (Xi = k) = e−λ . La verosimili-
k!
tud corresponde a
n
λXi e−n λy
fn (X|λ) = e−λ = Qn
Y
.
i=1 Xi ! i=1 Xi

donde y = i Xi . Asuma que la previa de λ está definida por π(λ) ∝ λα−1 e−βλ .
P

Por lo tanto, la posterior es


π(λ|X) ∝ λy+α−1 e−(β+n)λ =⇒ λ|X ∼ Γ(y + α, β + n)
En el caso normal, si X1 , . . . , Xn ∼ N (θ, σ 2 ),entonces la familia normal
es conjugada si σ 2 > 0 es conocido.
Si θ ∼ N (µ0 , V02 ) =⇒ θ|X ∼ N (µ1 , V12 ) donde,
σ 2 µ0 + nV02 X̄n σ2 nV02
µ1 = = µ 0 + X̄n
σ 2 + nV02 σ 2 + nV02 σ 2 + nV02
3.4. FAMILIAS CONJUGADAS 23

Combina de manera ponderada la previa y la de los datos.


Ejemplo
Considere una verosimilitud Poisson(λ) y una previa

2e−2λ λ>0
π(λ) =
0 λ≥0

es decir λ ∼ Γ(1, 2). Supongamos la muestra tiene tamaño n. ¿Cuál es el


tamaño de muestra necesario para reducir la varianza, a lo sumo, a 0.01?
Por teorema de Bayes, la posterior es λ|x ∼ Γ(y + 1, n + 2). Luego, la varianza
de la Gamma es
xi + 1 1 xi + 1
P P
α
= ≤ 0,01 =⇒ ≤ ≤ 0,01 =⇒ 100 ≤ (n+2)2 =⇒ n ≥ 8
β2 (n + 2)2 (n + 2)2 (n + 2)2
Teorema. Si X1 , . . . , Xn ∼ N (θ, σ 2 ) con σ 2 conocido y la previa es θ ∼
N (µ0 , V02 ), entonces θ|X ∼ N (µ1 , V12 ) donde
σ 2 µ0 + nV02 X̄n σ 2 V02
µ1 = , V12 =
σ 2 + nV02 σ 2 + nV02

Prueba:
Verosimilitud:

1 Xn
" #
fn (X|θ) ∝ exp − 2 (Xi − θ)2
2σ i=1
Luego,
n n
(Xi − θ)2 = (Xi − X̄ + X̄ − θ)2
X X

i=1 i=1
n n
= n(X̄ − θ)2 + (Xi − X̄)2 + 2 (Xi − X̄)(X̄ − θ)
X X

i=1 i=1
| {z
P }
=0 pues Xi=nX̄

Entonces
n
 
fn (X|θ) ∝ exp − (X̄ − θ)2 .
2σ 2
24CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

Previa:

1
" #
π(θ) ∝ exp − 2 (θ − µ0 )2 .
2V0
Posterior:

1
" #
n
π(θ|X) ∝ exp − 2 (X̄ − θ)2 − (θ − µ0 )2 .
2σ 2V02

Con µ1 y V12 definidos anteriormente, se puede comprobar la siguiente identi-


dad:

n 1 1 n
(X̄ − θ)2 + 2 (θ − µ0 )2 = 2 (θ − µ1 )2 + 2 (X̄n − µ0 )2
σ 2 V0 V1 σ + nV02
| {z }
Constante con respecto a θ

Por lo tanto,
1
" #
π(θ|X) ∝ exp − 2 (θ − µ1 )2
2V1

Media posterior:

σ2 nV02
µ1 = 2 µ0 + 2 X̄n
σ + nV02 σ + nV02
| {z } | {z }
W1 W2

Afirmaciones:
1) Si V02 y σ 2 son fijos, entonces W1 −−−→ 0 (la importancia de la media
n→∞
empírica crece conforme aumenta el tamaño de muestra).
2) Si V02 y n son fijos, entonces W2 −−2−−→ 0 (la importancia de la media
σ →∞
empírica decrece conforme la muestra es menos precisa).
3) Si σ 2 y n son fijos, entonces W2 −−2−−→ 1 (la importancia de la media
V0 →∞
empírica crece conforma la previa es menos precisa).
3.5. DENSIDADES PREVIAS IMPROPIAS 25

Ejemplo (determinación de n)
Sean X1 , . . . , Xn ∼ N (θ, 1) y θ ∼ N (µ0 , 4). Sabemos que

σ 2 V02
V12 = .
σ 2 + nV02
Buscamos que V1 ≤ 0,01, entonces
4
≤ 0,01 =⇒ n ≥ 99,75 (al menos 100 observaciones)
4n + 1

3.5. Densidades previas impropias


Como la constante de normalización no es necesaria para hacer una identifi-
cación de la densidad posterior, entonces no es necesario que una densidad
sea integrable. Para incluir estos casos, se extiende el concepto de densidad:
Definición. Sea π una función positiva cuyo dominio está en Ω. Suponga
que π(θ) dθ = ∞. Entonces decimos que π es una densidad impropia.
R

Ejemplo: θ ∼ Unif(R), λ ∼ Unif(0, ∞).


Nota: Una posible manera para formular una distribución impropia es susti-
tuyendo los hiperparámetros previos por 0.
Ejemplo:
Se presenta el número de muertes de soldados prusianos producto de una
patada de caballo, a través de una cantidad definida de conteos (280 en total)
en un periodo de 20 años. Los conteos se realizaron sobre un cierto número
de unidades del ejército prusiano.

Conteos Ocurrencias
144 0
91 1
32 2
11 3
2 4

Se asume que la muestra de conteos es Poisson: X1 = 0, X2 = 1, X3 =


26CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

1, . . . , X280 = 0 ∼ Poi(λ).
Previa: λ ∼ Γ(α, β).
Posterior: λ|X ∼ Γ(y + α, n + β) = Γ(196 + α, 280 + β).
Sustituyendo, α = β = 0
1 α α−1 βλ
π(λ) = β λ e
Γ(α)

1
∝ λα−1 e−λβ =
λ
1
Z ∞
y recuerden que dλ = ∞.
0 λ
Por teorema de Bayes,
λ|X ∼ Γ(196, 280)

Las previas impropias se utilizan en casos en donde los daatos observados


contienen mucha más infomación que lo que contiene la densidad previa.

3.6. Funciones de pérdida


Definición. Sean X1 , . . . , Xn datos observables cuyo modelo está indexado
por θ ∈ Ω. Un estimador de θ es cualquier estadístico δ(X1 , . . . , Xn ).
Notación:
Estimador → δ(X1 , . . . , Xn ).
datos
Estimación o estimado: δ(X1 , . . . , Xn )(ω) = δ(x1 , . . . , xn )
z }| {

El principal objetivo de un estimador es que esté relativamente cerca del


valor verdadero de parámetro de interés, es decir del que ha sido seleccionado
por la naturaleza como generador de los datos bajo el modelo asumido. Para
introducir la noción de cercanía del estimador al valor real se define:
Definición. Una función de pérdida es una función de dos variables:

L(θ, a), θ∈Ω


3.6. FUNCIONES DE PÉRDIDA 27

con a un número real.


Interpretación: es lo que pierde un analista cuando el parámetro es θ y el
estimador es a.
Asuma que θ tiene una previa π. La pérdida esperada es
Z
E[L(θ, a)] = L(θ, a)π(θ) dθ

la cual es una función de a, que a su vez podemos asumir que es función


de X1 , . . . , Xn . Asuma que a se selecciona el minimizar esta esperanza y sea
δ ∗ (X1 , . . . , Xn ) = δ ∗ (X) el valor donde alcanza el mínimo. En este caso a es
un estimador de θ bajo el criterio de pérdida esperada mínima.
Si calculamos el estimador anterior usando la densidad posterior de θ dados los
datos en lugar de la previa, entonces a este estimador se le llama estimador
bayesiano. Es decir, cumple que:
Z
E[L(θ, δ ∗ )|X] = L(θ, δ ∗ (X))π(θ|X) dθ = mı́n E[L(θ, a)|X].
Ω a

para un conjunto de datos X = x. Noten que el estimador bayesiano depende


de la función de pérdida seleccionada así como la densidad posterior de θ.

3.6.1. Función de pérdida cuadrática


Se define:
L(θ, a) = (θ − a)2

En el caso en que θ es real y E[θ|X] es finita, entonces se puede comprobar


que:
δ ∗ (X) = δ ∗ (X1 , . . . , Xn ) = E[θ|X]
en el caso de una función de pérdida cuadrática.
Ejemplo: X1 , . . . , Xn ∼ Ber(θ), θ ∼ Beta(α, β) =⇒ θ|X ∼ Beta(α + y, β +
n − y).
donde y = Xi . El estimador bayesiano de θ bajo pérdida cuadrática sería:
P

Esperanza previa X̄
α+y α+β
z }| { z}|{
α y n
δ ∗ (X1 , . . . , Xn ) = = · + · .
α+β+n α+β α+β+n n α+β+n
28CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

3.6.2. Función de pérdida absoluta


Se define como:
L(θ, a) = |θ − a|

En este caso la pérdida esperada es:


Z +∞ Z +∞ Z a
E[L(θ, a)|X] = |θ−a|π(θ|X) dθ = (θ−a)π(θ|X) dθ+ (a−θ)π(θ|X) dθ
−∞ a −∞

y buscar el punto a que minimice la pérdida esperada posterior es equivalente


a resolver para a (Ejercicio):
Z a
1
π(θ|X) dθ =
−∞ 2
es decir es equivalente a encontrar la mediana de la distribución posterior de
θ.
Corolario. Bajo la función de pérdida absoluta, el estimador bayesiano es la
mediana posterior.
Ejemplo: En el caso Bernoulli.
1 Z X0,5
1
θα+y−1 (1 − θ)β+n−y−1 dθ =
Beta(α + y, β + n − y) −∞ 2
se puede resolver numéricamente. A prueba y error en R, resuelva para X0,5 .

3.6.3. Otras funciones de pérdida


L(θ, a) = |θ − a|k , k 6= 1, 2 y 0 < k < 1.
L(θ, a) = λ(θ)|θ − a|2 (λ(θ) penaliza la magnitud del parámetro).

3(θ − a)2 θ ≤ a (sobreestima)
L(θ, a) =
(θ − a)2 θ ≥ a (subestima)

3.7. Efecto de muestras grandes


Ejemplo: ítems malos (proporción: θ), θ ∈ [0, 1]. Función de pérdida cuadráti-
ca. El tamaño de muestra son n = 100 ítemes, de los cuales y = 10 están
malos.
3.8. CONSISTENCIA 29

X1 , . . . , Xn ∼ Ber(θ)
Primer previa. Distribución Beta con α = β = 1 (uniforme). El esti-
mador bayesiano corresponde a

α+y 1 + 10
E[θ|X] = = = 0,108
α+β+n 2 + 100
Segunda previa. α = 1, β = 2 =⇒ π(θ) = 2(1 − θ), θ > 0.

1 + 10 11
E[θ|X] = = = 0,107
1 + 2 + 100 103

Los dos estimadores bayesianos anteriores son muy similares entre sí, y son
10
similares a la media empírica que es X̄n = = 0,1, debido a que el tamaño
100
de muestra n = 100 es relativamente grande.

3.8. Consistencia
Definición. Un estimador δ(X1 , . . . , Xn ) de θ es consistente si

δ(X1 , . . . , Xn ) −−−→ θ.
P
n→∞

Note que en los ejemplos anteriores y bajo el supuesto de pérdida cuadrática,


el estimador bayesiano cumple que: E[θ|X] = W1 E[θ] + W2 X̄n = δ ∗ . Sabemos,
por la ley de grandes números, que X̄n − −−→ θ. Además, W1 − −−→ 0 y
P
n→∞ n→∞
W2 −−−→ 1.
n→∞

Por lo tanto en este caso:


δ∗ −
P
−−→ θ
n→∞

Teorema. Bajo condiciones generales, los estimadores bayesianos son consis-


tentes.
Estimador. Si X1 , . . . , Xn es una muestra en un modelo indexado por θ,
θ ∈ Ω (k-dimensiones), sea
30CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

h : Ω → H ⊂ Rd .
Sea ψ = h(θ). Un estimador de ψ es un estadístico δ ∗ (X1 , . . . , Xn ) ∈ H.
Ejemplo. X1 , . . . , Xn ∼ Exp(θ), θ|X ∼ Γ(α, β) = Γ(4, 8,6). La característica
1
de interés es ψ = , es decir el valor esperado del tiempo de fallo.
θ
Es estimador se calcula de la siguiente manera:

Z ∞
1
δ ∗ (x) = E[ψ|x] = π(θ|x) dθ
0 θ
Z ∞
1 8,64 3 −8,6θ
= θ e dθ
0 θ Γ(4)
8,64 Z ∞ 2 −8,6θ
= θ e dθ
6 |0 {z }
Γ(3)
8,63

8,64 2
= = 2,867 unidades de tiempo.
6 8,63

4
Por otro lado, note que E(θ|X) = . El estimador plug-in correspondería a
8,6
1 8,6
ψ(E(θ|X)) = = = 2,15.
E(θ|X) 4

3.9. Laboratorio
Lo primero es cargar los paquetes necesarios que usaremos en todo el curso
library(tidyverse)

3.9.1. Distribución previa


En nuestro ejemplo se tenía que E[θ] = 0,0002 y Var(θ) = 0,001. Suponiendo
que θ es gamma se puede resolver el sistema de ecuaciones obtenemos que
β = 20000 y α = 4.
3.9. LABORATORIO 31

alpha_previa <- 4
beta_previa <- 20000

ggplot(data = data.frame(x = c(0, 1e6)), aes(x)) +


stat_function(fun = dgamma, args = list(shape = alpha_previa,
scale = beta_previa)) +
ylab("") +
scale_y_continuous(breaks = NULL) +
theme_minimal()

0 250000 500000 750000 1000000


x

3.9.2. Distribución conjunta


Asumiendo que tenemos algunos datos X1 , ..., Xn , asumimos que estos son
exponencial recordando que E[X] = 1/θ, entonces una aproximación de esta
densidad es
x <- c(2911, 3403, 3237, 3509, 3118)

theta <- 1 / mean(x)


32CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

ggplot(data = data.frame(x = c(0, 1e5)), aes(x)) +


stat_function(fun = dexp, args = list(rate = theta)) +
ylab("") +
scale_y_continuous(breaks = NULL) +
theme_minimal()

0 25000 50000 75000 100000


x

3.9.3. Distribución posterior


Según los contenidos del curso, se puede estimar los parámetros de la densidad
posterior de la forma
(y <- sum(x))

## [1] 16178
(n <- length(x))

## [1] 5
(alpha_posterior <- n + alpha_previa)

## [1] 9
3.9. LABORATORIO 33

(beta_posterior <- beta_previa + y)

## [1] 36178
ggplot(data = data.frame(x = c(0, 7.5e5)), aes(x)) +
stat_function(fun = dgamma,
args = list(shape = alpha_previa,
scale = beta_previa), aes(color = "Previa")) +
stat_function(fun = dgamma,
args = list(shape = alpha_posterior,
scale = beta_posterior), aes(color = "Posterior")) +
stat_function(fun = dexp, args = list(rate = theta),
aes(color = "Verosimilitud")) +
ylim(0, 1.5e-5) +
theme_minimal()

1.5e-05

1.0e-05

colour
Posterior
y

Previa
Verosimilitud

5.0e-06

0.0e+00

0e+00 2e+05 4e+05 6e+05


x

3.9.4. Agregando nuevos datos


Si tenemos un 6to dato, y queremos ver cual es su distribución posterior. Lo
primero es estimar la densidad posterior de este 6to dato, pero asumiendo
que la previa es la densidad que obtuvimos en el caso anterior.
34CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

Suponga que X6 = 3000


(alpha_previa <- alpha_posterior)

## [1] 9
(beta_previa <- beta_posterior)

## [1] 36178
(alpha_posterior <- alpha_previa + 1)

## [1] 10
(beta_posterior <- beta_previa + 3000)

## [1] 39178
ggplot(data = data.frame(x = c(0, 1e6)), aes(x)) +
stat_function(fun = dgamma,
args = list(shape = 4, scale = 20000),
aes(color = "Previa #1")) +
stat_function(
fun = dgamma,
args = list(shape = alpha_previa, scale = beta_previa),
aes(color = "Previa #2")
) +
stat_function(
fun = dgamma,
args = list(shape = alpha_posterior, scale = beta_posterior),
aes(color = "Posterior")
) +
ylim(0, 1.5e-5) +
theme_minimal()
3.9. LABORATORIO 35

1.5e-05

1.0e-05

colour
Posterior
y

Previa #1
Previa #2

5.0e-06

0.0e+00

0 250000 500000 750000 1000000


x

3.9.5. Familias conjugadas normales


Si tenemos pocos datos, la información previa es la que “prevalece”.
x <- rnorm(n = 3, mean = 10, sd = 1)

(mu <- mean(x))

## [1] 8.774957
(sigma <- sd(x))

## [1] 1.220284
(n <- length(x))

## [1] 3
(mu_previa <- 0)

## [1] 0
36CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

(sigma_previa <- 1)

## [1] 1
(mu_posterior <-
((sigmaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu_previa +
((n * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu)

## [1] 5.864185
(sigma2_posterior <-
(sigmaˆ2 * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2))

## [1] 0.3317135
ggplot(data = data.frame(x = c(-5, 15)), aes(x)) +
stat_function(
fun = dnorm,
args = list(mean = mu_previa, sd = sigma_previa),
aes(color = "Previa")
) +
stat_function(
fun = dnorm,
args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)),
aes(color = "Posterior")
) +
stat_function(fun = dnorm,
args = list(mean = mu, sd = sigma),
aes(color = "Verosimilitud")) +
theme_minimal()
3.9. LABORATORIO 37

0.6

0.4
colour
Posterior
y

Previa
Verosimilitud

0.2

0.0

-5 0 5 10 15
x

Con más datos, la distribución se ajusta a esto y le quita importancia a la


información previa.
x <- rnorm(n = 100, mean = 10, sd = 1)

(mu <- mean(x))

## [1] 9.955318
(sigma <- sd(x))

## [1] 0.9811633
(n <- length(x))

## [1] 100
(mu_previa <- 0)

## [1] 0
(sigma_previa <- 1)

## [1] 1
38CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

(mu_posterior <- ((sigmaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu_previa +


((n * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu)

## [1] 9.860393
(sigma2_posterior <- (sigmaˆ2 * sigma_previaˆ2) /
(sigmaˆ2 + n * sigma_previaˆ2))

## [1] 0.009535022
ggplot(data = data.frame(x = c(-5, 15)), aes(x)) +
stat_function(
fun = dnorm,
args = list(mean = mu_previa, sd = sigma_previa),
aes(color = "Previa")
) +
stat_function(
fun = dnorm,
args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)),
aes(color = "Posterior")
) +
stat_function(fun = dnorm,
args = list(mean = mu, sd = sigma),
aes(color = "Verosimilitud")) +
theme_minimal()
3.9. LABORATORIO 39

2 colour
Posterior
y

Previa
Verosimilitud

-5 0 5 10 15
x

Si los datos por si solo son muy variable, la posterior tiende a parecerse a la
distribución previa en lugar que a la verosimilitud.
x <- rnorm(n = 10, mean = 10, sd = 5)

(mu <- mean(x))

## [1] 10.34527
(sigma <- sd(x))

## [1] 4.396509
(n <- length(x))

## [1] 10
(mu_previa <- 0)

## [1] 0
(sigma_previa <- 1)

## [1] 1
40CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

(mu_posterior <- ((sigmaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu_previa +


((n * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu)

## [1] 3.527283
(sigma2_posterior <- (sigmaˆ2 * sigma_previaˆ2) /
(sigmaˆ2 + n * sigma_previaˆ2))

## [1] 0.6590439
ggplot(data = data.frame(x = c(-5, 15)), aes(x)) +
stat_function(
fun = dnorm,
args = list(mean = mu_previa, sd = sigma_previa),
aes(color = "Previa")
) +
stat_function(
fun = dnorm,
args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)),
aes(color = "Posterior")
) +
stat_function(fun = dnorm,
args = list(mean = mu, sd = sigma),
aes(color = "Verosimilitud")) +
theme_minimal()
3.9. LABORATORIO 41

0.5

0.4

0.3 colour
Posterior
y

Previa
0.2 Verosimilitud

0.1

0.0

-5 0 5 10 15
x

3.9.6. Funciones de pérdida


Lo más importante acá es que dependiendo de la función de pérdida podemos
construir una estimador para θ. En el caso de los componentes electrónicos
recordemos que la posterior nos daba
alpha <- 9
beta <- 36178

Pérdida cuadrática: Recoremos que la media de una gamma es α/β


entonces
(theta <- alpha / beta)

## [1] 0.00024877

Y por lo tanto el tiempo promedio del componente electrónico es


1/θ=4019.7777778.

Pérdidad absoluta: La distribución Gamma no tiene una forma cer-


rada para la mediana, por que se puede aproximar así,
42CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

m <- rgamma(n = 1000, scale = beta, shape = alpha)


(theta <- median (m))

## [1] 313469.4
Y por lo tanto el tiempo promedio del componente electrónico es
1/θ=3,1901041 × 10−6 .
OJO: En este caso la pérdida cuadrática ajusta mejor ya que la
distribución que la pérdida absoluta ya que la distribución NO es
simétrica. En el caso simétrico los resultados serían muy similares.

3.9.7. Caso concreto


Suponga que se que quiere averiguar si los estudiantes de cierto colegio
duermen más de 8 horas o menos de 8 horas.
Para esto primero cargaremos el siguiente paquete,
library(LearnBayes)

Suponga que se hace una encuesta a 27 estudiantes y se encuentra que 11


dicen que duermen más de 8 horas diarias y el resto no. Nuestro objetivo es
inferir la proporción p de estudiantes que duermen al menos 8 horas diarias.
Un posible modelo es

f (x|p) ∝ ps (1 − p)f

donde s es la cantidad de estudiantes que duermen más de 8 horas y f los


que duermen menos de 8 horas.
Una primera aproximación para la previa es usar una distribución discreta.
En este caso, el investigador asigna una probabilidad a cierta cantidad de
horas de sueño, según su experiencia. Así, por ejemplo:
p <- seq(0.05, 0.95, by = 0.1)
prior <- c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0)
prior <- prior / sum(prior)
plot(p, prior, type = "h", ylab = "Probabilidad Previa")
3.9. LABORATORIO 43
0.25
0.20
Probabilidad Previa

0.15
0.10
0.05
0.00

0.2 0.4 0.6 0.8

El paquete LearnBayes tiene la función pdisc que estima la distribución


posterior para una previa discreta binomial. Recuerde que el valor 11 repre-
senta la cantidad de estudiantes con más de 8 horas de sueño y 16 lo que no
duermen esa cantidad.
data <- c(11, 16)
post <- pdisc(p, prior, data)
round(cbind(p, prior, post), 2)

## p prior post
## [1,] 0.05 0.03 0.00
## [2,] 0.15 0.18 0.00
## [3,] 0.25 0.28 0.13
## [4,] 0.35 0.25 0.48
## [5,] 0.45 0.16 0.33
## [6,] 0.55 0.07 0.06
## [7,] 0.65 0.02 0.00
## [8,] 0.75 0.00 0.00
## [9,] 0.85 0.00 0.00
## [10,] 0.95 0.00 0.00
44CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

Y podemos ver la diferencia entre la previa (negro) y la posterior (roja),


plot(p, post, type = "h", col = "red")
lines(p + 0.01, prior, type = "h")
0.4
0.3
post

0.2
0.1
0.0

0.2 0.4 0.6 0.8

¿Qué se puede deducir de estos resultados?

Ejercicio: Suponga que se tiene la base de datos studentdata. Realice los


cálculos anteriores con esos datos,
data("studentdata")
horas_sueno <- studentdata$WakeUp - studentdata$ToSleep
horas_sueno <- na.omit(horas_sueno)
summary(horas_sueno)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 2.500 6.500 7.500 7.385 8.500 12.500
hist(horas_sueno, main = "")
3.9. LABORATORIO 45
150
Frequency

100
50
0

2 4 6 8 10 12

horas_sueno

Ahora supongamos que se tiene quiere ajustar una previa continua a este
modelo. Para esto usaremos una distribución Beta con parámetros α y β, de
la forma

π(p|α, β) ∝ p1−α (1 − p)1−β .

El ajuste de los paramétros de la Beta depende mucho de la información


previa que se tenga del modelo. Una forma fácil de estimarlo es a través
de cuantiles con los cuales se puede reescribir estos parámetros. Para una
explicación detallada revisar https://stats.stackexchange.com/a/237849
En particular, suponga que se cree que el 50 % de las observaciones la propor-
ción será menor que 0.3 y que el 90 % será menor que 0.5.
Para esto ajustaremos los siguientes parámetros
quantile2 <- list(p = .9, x = .5)
quantile1 <- list(p = .5, x = .3)
(ab <- beta.select(quantile1, quantile2))

## [1] 3.26 7.19


46CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES

a <- ab[1]
b <- ab[2]
s <- 11
f <- 16

En este caso se obtendra la distribución posterior Beta con paramétros α + s


y β + f,
curve(dbeta(x, a + s, b + f), from = 0, to = 1,
xlab = "p", ylab = "Densidad", lty = 1, lwd = 4)
curve(dbeta(x, s + 1, f + 1), add = TRUE, lty = 2, lwd = 4)
curve(dbeta(x, a, b), add = TRUE, lty = 3, lwd = 4)
legend(.7, 4, c("Previa", "Verosimilitud", "Posterior"),
lty = c(3, 2, 1), lwd = c(3, 3, 3))
5
4

Previa
Verosimilitud
Posterior
Densidad

3
2
1
0

0.0 0.2 0.4 0.6 0.8 1.0

p
Capítulo 4

Estimación por máxima


verosimilitud

¿Será posible estimar sin una densidad previa y sin una función de pérdida?
i.i.d
Recuerde que, para X1 , . . . , Xn ∼ f (X|θ) con θ fijo, la función de
verosimilitud se define como
n
L(θ|X) := fn (X|θ) = f (Xi |θ).
Y

i=1

Si θ1 , θ2 ∈ Ω y además asumimos que θ es el valor real del parámetro. Si la


muestra es observada y si observamos que:

L(θ1 |X) > L(θ2 |X)

Entonces decimos que es θ1 es más verosímil (realista) que θ2 en el sentido de


que el verdadero parámetro estaría más cercano a θ1 que a θ2 dada la muestra.
(principio de verosimilitud)
Definición. Para cada X ∈ X (espacio muestral), sea δ(X) ∈ δ estimador
de θ tal que L(θ|X) es máximo. A δ(X) se le llama MLE (estimador de
máxima verosimilitud).
Ejemplo. Si X1 , . . . , Xn ∼ Exp(θ), estime θ.

47
48 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

Determinamos la función de verosimilitud,

n
1 −Xi /θ 1 1X n
!
L(θ|X) = fn (X|θ) = = n exp Xi = θ−n e−y/θ .
Y
e
i=1 θ θ θ i=1

Considere la log-verosimilitud
y
`(θ|X) = log L(θ|X) = −n log θ −
θ

Como es una transformación monótona creciente, la función de verosimilitud


se maximiza si la log-verosimilitud es máxima. Entonces,

∂ −n y
`(θ|X) = + 2 =0
∂θ θ θ
1 y
 
=⇒ −n + =0
θ θ
y
=⇒ θ̂ = = X̄n .
n

Para verificar que es un máximo:

2y 1 2y
" #
∂ 2` n −n

= − = n − y = < 0.
∂θ2 θ2 θ3 θ= ny

θ̂2 n θ̂2

Entonces θ̂ = X̄n es el MLE de θ.


Laboratorio:
Suponga que se tiene 100 valores con distribución exponencial con parámetro
θ = 1.
x <- rexp(n = 100, rate = 1)
n <- length(x)
y <- sum(x)
theta <- seq(0.5, 1.5, length.out = 1000)
49

L <- thetaˆ(-n) * exp(-y / theta)


plot(theta, L)
8e-49
6e-49
L

4e-49
0e+00 2e-49

0.6 0.8 1.0 1.2 1.4

theta

l <- -n * log(theta) - y / theta


plot(theta, l)
50 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

-110
-120
-130
l

-140
-150

0.6 0.8 1.0 1.2 1.4

theta

Ejemplo. Una prueba sobre alguna enfermedad es confiable al 90 %, en el sen-


tido de que si una persona tiene la enfermedad entonces hay una probabilidad
del 90 % de que la prueba dé un resultado afirmativo (enfermo) y por otro lado
hay un 10 % de probabilidad de que la prueba dé un resultado afirmativo si la
persona está sana. Considere una variable aleatoria Bernoulli(θ),θ ∈ {0,9, 0,1}
que indica el resultado de la prueba, donde θ = 0,9 significa que la persona
está efectivamente enferma y θ = 0,1 significa que no. Es decir un elemento x
del espacio muestral cumple que:

1 si la prueba es positiva
x=
0 si no

0,9 si θ = 0,1
Si x = 0, entonces f (0|θ) =  .
0,1 si θ = 0,9

0,1 si θ = 0,1
Si x = 1, entonces f (1|θ) =  .
0,9 si θ = 0,9
El MLE corresponde a 
0,1 si x = 0
θ̂ =
0,9 si x = 1
51

Ejemplo. Para el caso normal, X1 , . . . , Xn ∼ N (µ, σ 2 ), σ 2 conocida, estime


µ.

n
1 (xi − µ)2 1 Xn
! !
L(µ|x) = exp − = (2πσ ) 2 −n/2
exp − 2 (xi − µ)2 .
Y

i=1 2πσ 2 2σ 2 2σ i=1

La log-verosimilitud es de la forma

−n 1 Xn
`(µ|x) = log(2πσ 2 ) − 2 (xi − µ)2 .
2 2σ i=1

Basta con minimizar Q(µ) = i=1 (xi − µ)2 .


Pn

n n
∂Q
= −2 (xi − µ) =⇒ nµ = xi =⇒ µ̂ = x̄n .
X X
∂µ i=1 i=1

No hace falta verificar la condición de segundo orden, pues Q es una función


cuadrática de µ y tiene un único máximo.

µ̂M LE = x̄n (∗)

Ahora, si X1 , . . . , Xn ∼ N (µ, σ 2 ), θ = (µ, σ 2 ) desconocido, por (∗),

n 1 Xn
`(σ 2 |X1 , . . . , Xn ) = log(2πσ 2 ) − − 2 (xi − x̄n )2
2 2σ i=1

∂` n 1 1 X n
=− + (xi − x̄n )2 = 0
∂σ 2 2 2πσ 2 2(σ ) i=1
2 2

Entonces
1X n
σ̂ =
2
(xi − µ)2 (varianza muestral)
n i=1

Las condiciones de segundo orden quedan como ejercicio.


Nota. Si θM LE de θ, entonces h(θM LE ) es el MLE de h(θ).
52 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

√ √
Por ejemplo: h(x, y) = y (es inyectiva), entonces h(x̄n , σ̂ 2 ) = σ̂ 2 = σ̂.

σ σ̂
Otro ejemplo: el MLE de = .
µ x̄n

Laboratorio:
library(scatterplot3d)

x <- rnorm(100)
n <- length(x)

mu <- seq(-0.5, 0.5, length.out = 50)


sigma <- seq(0.5, 1.5, length.out = 50)

ms <- expand.grid(sigma, mu)

l <- -(n / 2) * log(2 * pi / ms[, 1]ˆ2) -


(1 / (2 * ms[, 1]ˆ2) * sum((x - ms[, 2])ˆ2))

scatterplot3d(ms[, 1], ms[, 2], l, angle = 45)


0
-6000-5000-4000-3000-2000-1000

ms[, 2]

0.6
l

0.4
0.2
0.0
-0.2
-0.4
-0.6
0.4 0.6 0.8 1.0 1.2 1.4 1.6

ms[, 1]
53

i.i.d
Ejemplo. Suponga que X1 , . . . , Xn ∼ Unif(0, θ), con (θ > 0). Estime θ.
Suponga que xi > 0, ∀i.

1
f (X|θ) = · 1[0,θ] (X)
θ

La verosimilitud es

n
1 Y n
L(θ|x) = f (xi |θ) = 1{0≤xi ≤θ} 0 ≤ xi ≤ θ
Y
∀i
i=1 θn i=1

Lo cual es equivalente a escribir:

1
L(θ|x) = 1{x ≤θ}
θn (n)

donde x(n) := máxi xi . En general x(i) corresponde al i-ésimo valor ordenado


de la muestra, cuando los datos son ordenados de menor a mayor (estadístico
de orden). Entonces θ̂M LE = x(n) .

Laboratorio:
x <- runif(100, 0, 2)
n <- length(x)

theta <- seq(1.5, 2.5, length.out = 1000)

L <- numeric(1000)
for (k in 1:1000) {
L[k] <- 1 / theta[k]ˆn * prod(x < theta[k])
}

plot(theta, L)
54 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

1.5e-30
1.0e-30
L

5.0e-31
0.0e+00

1.6 1.8 2.0 2.2 2.4

theta

4.1. Propiedades del MLE


4.1.1. Propiedad de invarianza
Teorema. Si θ̂ es el MLE de θ y si g es una función biyectiva, entonces g(θ̂)
es el MLE de g(θ).
Prueba:
Sea Γ ls imagen del espacio paramétrico Ω bajo g, es decir g(Ω). Como g es
biyectiva defina h como su inversa, es decir: θ = h(ψ), ψ ∈ Γ.
Reparametrizando la verosimilitud,

fn (x|θ) = fn (x|h(ψ)).

El MLE de ψ : ψ̂ satisface que fn (x|h(ψ̂)) es máximo.


Como fn (x|θ) se maximiza cuando θ = θ̂, entonces fn (x|h(ψ)) se maximiza
cuando θ̂ = h(ψ) para algún ψ.
Se concluye que θ̂ = h(ψ̂) =⇒ ψ̂ = g(θ̂).
4.1. PROPIEDADES DEL MLE 55

1
Ejemplo: g(θ) = es biyectiva si θ > 0. Así,
θ

1 1
= 1 = X̄n es parámetro de la tasa, bajo un modelo Exp(θ).
θ̂ X̄n

¿Qué pasa si h no es biyectiva?


Definicion (Generalización del MLE). Si g es una función de θ y G la
imagen de Ω bajo g. Para cada t ∈ G defina

Gt = {θ : g(θ) = t}

Defina L∗ (t) = máx log fn (x|θ). El MLE de g(θ)(= t̂) se define como el valor
θ∈Gt
t̂ que cumple: L (t̂) = máx L∗ (t).

t∈G

Teorema. Si θ̂ es el MLE de θ entonces g(θ̂) es el MLE de g(θ) (g es


arbitraria).

Prueba. Basta probar L∗ (t̂) = ln fn (x|θ̂). Se cumple que θ̂ ∈ Gt̂ . Como θ̂


maximiza fn (x|θ) ∀θ, también lo hace si θ ∈ Gt̂ . Entonces t̂ = g(θ̂) (no
pueden existir 2 máximos en un conjunto con la misma imagen).
Ejemplos.X1 , . . . , Xn ∼ N (µ, σ 2 ).

Si h(µ, σ 2 ) = σ (no es biyectiva) =⇒ h(X̄n , σ̂ 2 ) = σ̂ 2 es el MLE de
σ.
σ σ̂
h(µ, σ 2 ) = (coeficiente de variación). es el MLE de CV.
µ X̄n
h(µ, σ 2 ) = µ2 + σ 2 . E[X 2 ] − µ2 = σ 2 =⇒ E[X 2 ] = µ2 + σ 2 . El MLE de
E[X 2 ] es X̄n2 + σ̂ 2 .

4.1.2. Consistencia
Como se afirmó anteriormente, bajo ciertas condiciones un estimador bayesiano
es un estimador consistente de θ. Por lo tanto si un MLE fuera consistente de
θ tanto el MLE como el estimador bayesiano tendrían como límite el mismo
valor θ.
56 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

Por ejemplo en el caso de una muestra X1 , . . . , Xn ∼ Ber(θ) con una previa


Beta entonces el estimador bayesiano bajo pérdida cuadrática se puede escribir
como:
EB = W1 E[Previa] + W2 X̄n .
es decir:

|θ̂M LE − EB| = |(1 − W2 )X̄n − W1 E[Previa]|


n→∞
−→ 0

Afirmación. Bajo “condiciones usuales”,


P
θ̂M LE −−−→ θ.
n→∞

4.2. Temas adicionales


La estimación por máxima verosimilitud constituye un problema de opti-
mización matemática. Por lo tanto se puede utilizar métodos numéricos
clásicos (Newton-Raphson por ejemplo) para resolver el problema de esti-
mación. Una forma de obtener valores iniciales de los algoritmos anteriores es
a través del método de momentos, que por sí mismo también constituye un
método de estimación.

4.2.1. Método de los momentos


Ejemplo. X1 , . . . , Xn ∼ Γ(α, 1). Estime α.
1 α−1 −x
fn (x|α) = x e .
Γ(α)

1 Q P
Verosimilitud: fn (x|α) = ( x i )e xi
.
Γ(α)n

" #
∂ ∂
L(α|x) = − n ln Γ(α) + (α − 1) ln(πxi ) −
X
xi
∂α ∂α
1 d
= −n Γ(α) + ln( xi ) = 0
Y
Γ(α) dα
4.2. TEMAS ADICIONALES 57

i.i.d.
Definición. Asumimos que X1 , . . . , Xn ∼ F indexada con un parámetro
θ ∈ Rk y que al menos tiene k momentos finitos. Para j = 1, . . . , k sea
µj (θ) = E[X1j |θ]. Suponga que µ(θ) = (µ1 (θ), . . . , µk (θ)) es biyectiva. Sea M
la inversa de µ,
M (µ(θ)) = θ = M (µ1 (θ), . . . , µ2 (θ))
y defina los momentos empíricos
1X n
mj = Xj, j = 1, . . . , k.
n i=1 i

El estimador según el método de los momentos es

θ̂ = M (m1 , . . . , mk ).

Nota: Del ejemplo anterior, µ1 (α) = E[x1 |α] = α.Dado que m1 = x̄n , el
sistema por resolver es

µ1 (α) = m1 ⇐⇒ α = x̄n

El estimador por método de momentos es α̂ = X̄n .


i.i.d
Ejemplo. X1 , . . . , Xn ∼ Γ(α, β). La varianza de X es

α α2
= VarX = E[X 2
] − E[X] 2
= E[X 2
] − .
β2 β2
Se debe resolver el sistema
 α
µ1 (θ) =
= X̄n = m1 (1)

β

α(α + 1)
µ2 (θ) = = m2 (2)


β2

De (1), α = m1 β. Sustituyendo en (2),

m1 β(m1 β + 1) m1 m1
m2 = 2
= m21 + = m2 =⇒ m2 − m21 = .
β β β
De esta manera,
m1 m21
β̂ = , α̂ =
m2 − m21 m2 − m21
58 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

Teorema. Si X1 , X2 , . . . es i.i.d con distribución indexada por θ ∈ Rk . Supon-


ga que los k momentos teóricos son finitos ∀θ y suponga que M es continua.
Entonces el estimador por el método de momentos es consistente.
¿Cuál es el comportamiento en la distribución de θ̂ cuando la muestra es
grande?
Del teorema del límite central,

X̄n − θ n(X̄n − θ) d
σ = − N (0, 1)

√ σ
n

1 X σ2
Var(X̄n ) = Var(X 1 ) =
n2 n

Implica que se debe multiplicar la media muestral por una constante para
hacer la desviación de X̄n con respecto a θ visible y, con ello, hacer inferencia
del parámetro θ.
Caso general. Si f (X|θ) es “suficientemente suave” como función de θ, es
puede comprobar que la verosimilitud tiende a una normal conforme n → ∞.
Es decir,  
−1
f (X|θ) ∝ exp  (θ − θ̂)2 , n → ∞ (∗)
2 Vnn(θ)

donde θ̂ es el MLE de θ y Vn (θ) cumple que:

Vn (θ) −−−→ V∞ (θ) < ∞


n→∞

Notas:
1) En el caso bayesiano, ninguna previa en θ puede anular el efecto en la
verosimilitud cuando n → ∞.
2) Por (∗) el MLE se distribuye asintóticamente como

V∞ (θ)
!
N θ, ,
n
4.2. TEMAS ADICIONALES 59

En general si Xn es un proceso estocástico que cumple: V ar(Xn ) −−−→ 0 y


n→∞
además E[Xn ] = X entonces Xn −
P
−−→ X
n→∞

En el ejemplo anterior, se confirma entonces que el MLE es consistente.

4.2.2. Método Delta


Si Y1 , Y2 , . . . es una sucesión de variables aleatorias y sea F ∗ su c.d.f. continua.
Sea θ ∈ R y {an } sucesión de números positivos tal que an % ∞. Suponga
d
que an (Yn − θ) → − F ∗ . Si α es una función tal que α0 (θ) 6= 0, entonces
an d
[α(Yn ) − α(θ)] →
− F∗
α (θ)
0

Ejemplo. Sean X1 , X2 , . . . variables i.i.d. con media µ y varianza σ 2 . Sea α


una función tal que α0 (µ) 6= 0. Por el T.L.C,

n d
(X̄n − µ) →
− N (0, 1)
σ

Entonces por el método Delta


n d
[α(X̄n ) − α(µ)] →
− N (0, 1)
σα0 (µ)

1 1
Si α(µ) = (µ 6= 0) =⇒ − 2 = α0 (µ). Entonces por el método Delta
µ µ

n 2 1 1 d
" #
µ − − N (0, 1)

σ X̄n µ

Ejemplo
i.i.d 1
Si X1 , X2 . . . ∼ Exp(θ). Sea Tn = Xi entonces el MLE de θ es θ̂ = =
P
X̄n
n
.
Tn
60 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

1
Note que = X̄n y
θ̂
√ "
1
#
n d
X̄n − −−−→ N (0, 1).
σ θ n→∞

1
La varianza de una exponencial es σ 2 = Var(X1 ) = , entonces
θ2
√ 1
" #
d
θ n X̄n − −−−→ N (0, 1).
θ n→∞
1 0 1
El método Delta nos dice, con α(µ) = , α (µ) = − 2 , el comportamiento
µ µ
asintótico de MLE:

√ " √ "
1 θ n 1
 # #
θ n d
ᾱ(Xn ) − α = 2 − θ −−−→ N (0, 1)
α (1/θ)
0 θ θ X̄n n→∞
√ "
n 1
#
d
= −θ − − −→ N (0, 1)
θ X̄n n→∞

1
Por lo tanto el MLE θ̂ = es asintóticamente normal con media θ y varianza
X̄n
Vn (θ) θ2
= .
n n
Caso bayesiano. En el ejemplo anterior, tome una previa θ ∼ Γ(α, β). La
distribución posterior es θ ∼ Γ(α + n, β + y), y = Xi . Supongamos que α
P

es entero positivo. Note que la distribución posterior de θ se puede expresar


como:
α+n
Γ(α + n, β + y) ∼ Exp(β + y)
X

i=1
y las variables exponenciales son independientes. Por lo tanto, por el T.L.C.,
la distribución posterior θ|X se distribuye asintóticamente como una normal
α+n α+n
con media y varianza . Tomando una previa poco informativa,
β+y (β + y)2
(α, β son cercanos a cero), la media es
n 1
= = θ̂M LE
y X̄1
4.3. LABORATORIO 61

y la varianza
1 θ2 Vn (θ̂)
2
= = .
y /n n n

que son los mismos obtenidos por la distribución asintótica del MLE de θ.

4.3. Laboratorio
Suponga que tenemos una tabla con los siguientes datos, los cuales representan
la cantidad de giros hacia la derecha en cierta intersección.
(X <- c(rep(0, 14), rep(1, 30), rep(2, 36), rep(3, 68), rep(4, 43), rep(5, 43),
rep(6, 30), rep(7, 14), rep(8, 10), rep(9, 6), rep(10, 4), rep(11, 1), rep(12, 1)))

## [1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1
## [26] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2
## [51] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
## [76] 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
## [101] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
## [126] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4
## [151] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
## [176] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5
## [201] 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
## [226] 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
## [251] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7
## [276] 7 7 7 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 10 10 10 10 11 12
Queremos ajustar esta tabla a una distribución Poisson con función de densi-
dad

λx e−λ
P(X = x) =
x!

Se puede comprobar que el MLE para λ es X̄n (Ejercicio). Queremos estimar


este parámetro alternativamente maximizando la función de verosimilitud.
Primero veamos la forma de los datos,
62 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

hist(X, main = "histograma del número de giros a la derecha",


right = FALSE, prob = TRUE)

histograma del número de giros a la derecha


0.20
0.15
Density

0.10
0.05
0.00

0 2 4 6 8 10 12

Definamos la función correspondiente a − log(P(X = x))


n <- length(X)
negloglike <- function(lambda) {
n * lambda - sum(X) * log(lambda) + sum(log(factorial(X)))
}

Para encontrar el parámetro deseado, basta minimizar la función negloglike


usando la rutina de optimización no lineal nlm.
lambda.hat <- nlm(negloglike, p = 0.5, hessian = TRUE)

Aquí el valor p = 0.5 representa un valor inicial de búsqueda y hessian


= TRUE determina que el cálculo de la segunda derivada se puede extraer
directamente.

Compare el resultado de lambda.hat$estimate con mean(X).


lambda.hat$estimate
4.3. LABORATORIO 63

## [1] 3.893331
mean(X)

## [1] 3.893333
Un resultado similar se puede obtener a través de la función mle2 del paquete
bbmle:
library(bbmle)
lambda.hat2 <- mle2(negloglike, start = list(lambda = 0.5))
lambda.hat2

##
## Call:
## mle2(minuslogl = negloglike, start = list(lambda = 0.5))
##
## Coefficients:
## lambda
## 3.893333
##
## Log-likelihood: -667.18
64 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
Capítulo 5

Estadísticos Suficientes y
Criterio de Factorización

5.1. Estadísticos suficientes


En las secciones anteriores, nos enfocamos en utilizar la densidad posterior
de un parámetro o bien a través de la verosimilitud. No siempre es posible
hacerlo de esa forma, o bien las propiedades estadísticas de esos estimadores
no son las óptimas en algunos casos. Bajo este escenario, podemos asumir
que un buen estimador es capaz de sintetizar la información disponible en la
muestra, y por lo tanto, generaríamos un estimador competitivo si al asumir
un valor del estadístico uno es capaz de “simular” la muestra de manera
aceptable, independientemente del valor del parámetro θ.

Si un estadístico cumple la condición anterior vamos a decir que es un


estadístico “suficiente” para generar la muestra:

Definición. Sea X1 , . . . , Xn una muestra según una distribución indexada


por θ. Sea T un estadístico, suponga que para cada θ ∈ Ω y para cada t en la
imagen de T , la distribución conjunta condicional X1 · · · Xn |T = t depende
solamente de t y no de θ. Entonces T es un estadístico suficiente del parámetro
θ.

65
66CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN

5.2. Teorema de Factorización de Fisher


La principal interrogante que se plantea en este momento es cómo se compara
la inferencia de un parámetro usando un criterio de suficiencia con respecto a
usar la verosimilitud o la densidad posterior. El siguiente teorema lo contesta:
Teorema. Si X1 , . . . , Xn es una muestra aleatoria de f (X|θ), donde el
parámetro θ es desconocido. Un estadístico T = r(X1 , . . . , Xn ) es suficiente
para θ si y solo si

fn (x|θ) = u(x)v(r(x), θ) ∀x ∈ Rn , ∀θ ∈ R.

Prueba (Discreta). fn (x|θ) = P(X = x|θ)


“⇐” Sea A(t) = {x ∈ R|r(x) = t}. Para θ ∈ R, x ∈ A(t),

P(X = x ∩ T = t)
Pθ (X = x|T = t) =
P(T = t)
fn (x|θ, T = t)
= X
fn (y|θ)
y∈A(t)
u(x)v(r(x), θ)
= X
u(y)v(r(y), θ)
y∈A(t)
u(x)v(t, θ)
= X (Como y ∈ A(t) entonces r(y) = t que es constante.)
v(t, θ) u(y)
y∈A(t)
u(x)
= X
u(y)
y∈A(t)

no depende de θ.
Si x ∈
/ A(t) =⇒ P(X = x|T = t) = 0 no depende de θ.
“⇒” Si T es un estadístico suficiente, u(x) = P(X = x|T = t) no depende de
θ. Sea v(t, θ) = Pθ (T = t). Entonces
5.2. TEOREMA DE FACTORIZACIÓN DE FISHER 67

P(X = x|θ)
fn (x|θ) = P(X = x|θ) = Pθ (T = t) = u(x)v(t, θ).
Pθ (T = t)

Consecuencia: fn (x|θ) ∝ v(r(x), θ) (u(x) es una constante con respecto a


θ). Aplicando el teorema de Bayes,

π(θ|x) ∝ π(θ)v(r(x), θ).

Por lo tanto la inferencia realizada usando la posterior o verosimilitud es


equivalente a la realizada a través del principio de suficiencia.
Corolario. Un estadístico r(x) es suficiente si y solo si la posterior depende
solamente de r(x) a través de los datos, sin importar cuál previa de θ se use.
Ejemplo. X1 , . . . , Xn ∼ Poi(λ),

P
n
e−λ λxi e−λn λ xi ( =r(x))
1
fn (x|θ) = = = Qn e| −λn{zλr(x)}
Y
xi ! xi ! !
Q
i=1 x
i=1 i
| {z } v(r(x),λ)
u(x)

Si xi < 0 para al menos un i, entonces fn (x|θ) = 0. Tome u(x) = 0. Por el


teorema de factorización, r(x) = xi es un estadístico suficiente para λ.
P

Ejemplo. X1 , . . . , Xn ∼ f (x|θ)

θxθ−1 0<x<1
f (x|θ) =
0 otro caso

Verosimilitud: (0 < xi < 1 ∀i)

" #θ−1
fn (x|θ) = θ n
= θn (r(x))θ−1 · |{z}
1
Y
xi
| {z } | {z }
v(r(x),θ) u(x)
r(x)

Por el teorema de factorización r(x) = xi es un estadístico suficiente.,


Q

Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ) (σ 2 conocido).


68CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN

1 Xn
" #
fn (x|θ) = (2πσ )2 −n/2
exp − 2 (Xi − µ)2
2σ i=1
1 Xn n
" #
µ X µ2 n
= (2πσ 2 )−n/2 exp − 2 Xi2 + 2 Xi − 2
2σ i=1 σ i=1 2σ
| {z } | {z }
r2 (x) r1 (x)

Tome
1 Xn
" #
u(x) = (2πσ ) 2 −n/2
exp − 2 Xi2 ,
2σ i=1
" #
µ nµ2
v(r1 (x), µ) = exp 2 r1 (x) − 2 .
σ 2σ

Por teorema de factorización, r1 (x) = Xi es un estadístico suficiente para


P

µ.
Con σ 2 desconocido, θ = (µ, σ 2 ), tome u(x) = 1,

−r2 (x) µr1 (x) nµ2


" #
v(r1 (x), r2 (x), θ) = (2πσ )
2 −n/2
exp + − 2
2σ 2 σ2 2σ

Entonces X 
r(x) = (r1 (x), r2 (x)) = x2i
X
xi ,
es un estadístico suficiente para (µ, σ 2 ).
i.i.d 1
Ejemplo. X1 , . . . , Xn ∼ Unif(0, θ), θ > 0, f (x|θ) = 1[0,θ] (x) .
θ
n
1
 
fn (x|θ) = 1[0,θ] (xi )
Y

i=1 θ

Nota: si al menos uno de los xi < 0 o xi > θ, u(x) = 0 (f (x|θ) = 0) (Trivial).


1
 n
Si 0 < xi < θ ∀i =⇒ fn (x|θ) = 1[0,θ] (máx{xi }) .
θ
Si T = r(x) = X(n) =⇒ fn (x|θ) = u(x)v(r(x), θ), u(x) = 1. Por teorema de
factorización, r(x) = x(n) es un estadístico suficiente para θ.
5.3. ESTADÍSTICO SUFICIENTE MULTIVARIADO. 69

5.3. Estadístico suficiente multivariado.


Si θ ∈ Rk , k ≥ 1 se necesita al menos k estadísticos (T1 , . . . , Tk ) en donde
para cada i = 1, . . . , k: Ti = ri (X1 , . . . , Xn ), con el fin de definir un estadístico
suficiente para θ en el siguiente sentido:
Definición. Suponga que para cada θ y para cada (t1 , . . . , tk ) en la ima-
gen del estadístico (T1 , . . . , Tk ), la distribución condicional de X1 , . . . , Xn
dado (T1 , . . . , Tk ) = (t1 , . . . , tk ) no depende de θ, entonces (T1 , . . . , Tk ) es un
estadístico suficiente para θ.
Criterio de factorización:
Para todo x ∈ Rn y para todo θ ∈ Ω: fn (x|θ) = u(x)v(r1 (x), . . . , rk (x), θ) si
y sólo si T = (r1 (x), . . . , rk (x)) es un estadístico suficiente.
Nota: Si (T1 , . . . , Tk ) es suficiente para θ y si (T10 , . . . , Tk0 ) = g(T1 , . . . , Tk )
donde g es biyectiva, entonces (T10 , . . . , Tk0 ) es suficiente para θ. Ya que:

u(x)v(r(x)|θ) = u(x)v(g −1 (g(r(x))), θ).

Ejemplo. Considere los siguientes estadísticos en el caso normal con media y


varianza desconocidas.

n
T1 =
X
Xi
i=1
n
T2 = Xi2
X

i=1
1X n
T10 = Xi
n i=1
1X n
T20 = (Xi − X n )2
n i=1

Entonces defina la siguiente función

1 1 1
 
(T10 , T20 ) = g(T1 , T2 ) = T1 , T2 − 2 T12 .
n n n
70CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN

De la primera entrada,
1
T10 = T1 =⇒ T1 = nT10 .
n
De la segunda,

1 1 1X 2 1X 2  
T20 = T2 − 2 T12 = Xi − Xi
n n n n
1X 2
= Xi − 2Xi X̄n2 + X̄n
n
1X
= (Xi − X̄n )2 = σ̂n2
n
y además T2 = n(T20 + T102 ).
Como g es biyectiva entonces (X̄n , σn2 ) es un estadístico suficiente para (µ, σ 2 ).
Ejemplo. X1 , . . . , Xn ∼ Unif(a, b), a < b. Encuentre un estadístico suficiente.
1. Si xi ≤ a o xi > b, tome u(x) = 0.
2. Si a < xi < b ∀i,
a. xi > a ∀i ⇔ x(1) > a.
b. xi < b ∀i ⇔ x(n) < b.
La verosimilitud es de la forma

n
1
fn (x|(a, b)) = 1[a,b] (xi ) = 1{(z,w):z>a,w<b} (X(1) , X(n) ) · |{z}
1
Y

i=1 (b − a)n
| {z } u(x)
v(r1 (x),r2 (x),(a,b))

Por teorema de factorización (r1 (x), r2 (x)) = (X(1) , X(n) ) es un estadístico


suficiente para (a, b).

5.4. Estadísticos minimales


Idea: un estadístico suficiente que garantice una partición de X (espacio
muestral) de la manera más simple posible.
5.4. ESTADÍSTICOS MINIMALES 71

i.i.d
Definición (Estadístico de orden). Sean X1 , . . . , Xn ∼ f . Al ordenar los
datos

(Y1 , . . . , Yn ) = (X(1) , . . . , X(n) ) tal que Y1 < . . . < Yn

a (X(1) , . . . , X(n) ) se les llama estadísticos de orden de la muestra X1 , . . . , Xn .


Nota: (X(1) , . . . , X(n) ) es un estadístico suficiente de θ.
Ejemplo. X1 , . . . , Xn ∼ Cauchy(α).

1
f (x|α) = [1 + (x − α)2 ]−1 , x ∈ R
π

Busque un estimador suficiente para α ∈ R.

n n
1 1 Y n
fn (x|α) = f (xi |α) = [1 + (xi − α)2 ]−1 = n [1 + (x(i) − α)2 ]−1
Y Y

i=1 i=1 π π
|{z} i=1 | {z }
u(x)
v(y,α)

donde y = (X(1) , . . . , X(n) ) es suficiente para α.


Ejercicio: estime α usando el método de momentos o MLE (use R).
Definición. Un estadístico T es suficiente minimal si T es suficiente y es
función de cualquier otro estadístico suficiente. La misma definición aplica
para el caso multivariado.
Ejercicio: en el ejemplo anterior de una Cauchy(α), pruebe que los estadísticos
de orden son un estadístico minimal multivariado.
Teorema. Si T = r(X1 , . . . , Xn ) es un estadístico suficiente para θ, entonces
el MLE θ̂ de θ depende de X1 , . . . , Xn solamente a través de T . Además, si θ̂
es suficiente entonces θ̂ es minimal.
Prueba. Por teorema de factorización, fn (x|θ) = u(x)v(r(x), θ) ya que T = r(x)
es suficiente y además:

θ̂ = argmax fn (x|θ) = argmax v(r(x), θ), (∆)


θ θ
72CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN

Por lo tanto el MLE depende solamente de T = r(x). Lo anterior se puede


escribir como: θ̂ = g(T ) para cualquier T estadístico suficiente, entonces θ̂ es
minimal.
Teorema. Si T = r(X1 , . . . , Xn ) es un estadístico suficiente para θ entonces
el estimador bayesiano (bajo una escogencia de L) depende de X1 , . . . , Xn
solamente a través de T . Además, si el estimador bayesiano es suficiente
entonces el estimador bayesiano es minimal.
Prueba. Sustituya (∆) por π(θ|x) ∝ v(r(x), θ)·π(θ). Como cualquier estimador
bayesiano depende de π(θ|x), cualquier estimador bayesiano es función de
cualquier estadístico suficiente T = r(x) y por lo tanto es minimal.

5.5. Mejorando estimadores


Pregunta: ¿Será posible mejorar un estimador que no es suficiente?
Asuma que queremos estimar el parámetro θ. Considere una función de
riesgo o pérdida de la forma:

R(θ, δ) = E[(δ(x) − θ)2 ]


A esta expresión se le llama “Error cuadrático medio” (MSE). Si δ(x) estima
una característica de F :

R(θ, δ) = E[(δ(x) − h(θ))2 ]

donde h es la característica.
Nota: como no estamos asignando una previa sobre θ entonces lo que se
busca es un estimador δ(x) para el cual el MSE sea pequeño para cada valor
de θ ∈ Ω.
Definición.
Decimos que δ es inadmisible si ∃δ0 (otro estimador) tal que R(θ, δ0 ) ≤
R(θ, δ) ∀θ ∈ Ω y al menos hay un θ ∈ Ω es donde la desigualdad es estricta.
En este caso específico decimos que δ0 “domina” a δ. Por otro lado decimos
que δ0 es admisible si no existe otro estimador que domine a δ0 .
5.5. MEJORANDO ESTIMADORES 73

Teorema (Rao-Blackwell). Sea δ(X) un estimador y T un estadístico


suficiente para θ y sea δ0 = Eθ [δ(X)|T ] = E[δ(X)|T ]. Entonces

R(θ, δ0 ) ≤ R(θ, δ) ∀θ ∈ Ω

Prueba. Por la desigualdad de Jensen,

Eθ [(δ(X) − θ)2 ] ≥ (Eθ [(δ(X) − θ)])2 .

También,

Eθ [(δ(X) − θ)2 |T ] ≥ (Eθ [(δ(X)|T )] − θ)2 = (δ0 (T ) − θ)2 .

Entonces,

R(θ, δ0 )=Eθ [{δ0 (T ) − θ}2 ] ≤ E[E[(δ(X) − θ)2 |T ]] = E[(δ(X) − θ)2 ] = R(θ, δ).

Notas:

Hay desigualdad estricta en el teorema anterior si δ(X) es función de T


Si cambiamos a R(θ, δ) = E[|δ(x) − θ|] (error medio absoluto), el
resultado anterior es cierto.
i.i.d
Ejemplo. Sean X1 , . . . , Xn ∼ Poisson(θ) donde θ es la tasa de “visitas” de
clientes por hora.

Numericamente podemos hacer el ejemplo con θ = 2 y una muestra de


n = 10000,
X <- rpois(n = 10000, lambda = 2)
head(X, 20)

## [1] 1 3 3 0 3 4 1 1 2 2 1 3 4 2 3 3 3 4 0 2
hist(X)
74CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN

Histogram of X
1000 1500 2000 2500
Frequency

500
0

0 2 4 6 8 10

A partir de la verosimilitud,
P
e−θn θ Xi
fn (X|θ) = Q
Xi !

se tiene que T = Xi es un estadístico suficiente para θ.


P

1 si Xi = 1
Sea Yi = .
0 si Xi =
6 1
Esta Y se calcula de la forma
Y <- X == 1
head(Y, 10)

## [1] TRUE FALSE FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE
El objetivo es estimar p donde p es la probabilidad de que Xi = 1 (solo llegue
un cliente por hora). Un estimador de p (MLE) es
P
Yi
δ(x) =
n
5.5. MEJORANDO ESTIMADORES 75

(delta <- mean(Y))

## [1] 0.2663
¿Es el óptimo?
Calculamos
1X n
E[δ(x)|T ] = E(Yi |T )
n i=1
Vea que
P(Xi = 1, T = t)
E[Yi |T = t] = P(Xi = 1|T = t) =
P(T = t)
P(Xi = 1, j6=i Xj = t − 1)
P
=
P(T = t)
P(Xi = 1)P( j6=i Xj = t − 1)
P
= =∆
P(T = t)
P(Xi = 1) = θe−θ
((n − 1)θ)t−1
j6=i Xj = t − 1) = e
P −(n−1)θ
P(
(t − 1)!
(nθ)t
P(T = t) = e−nθ
t!
Entonces,
((n − 1)θ)t−1
θe−nθ
(t − 1)! t 1 t−1
 
∆= = 1 −
(nθ)t n n
e−nθ
t!
y este último término no depende de i. Por lo tanto el estimador con MSE
mínimo es δ0 = ∆.
T <- sum(X)
n <- length(X)
(delta_0 <- (T / n) * (1 - 1 / n)ˆ(T - 1))

## [1] 0.2690194
En este caso δ0 es mejor que δ bajo una pérdida cuadrática.
76CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
Capítulo 6

Distribución muestral de un
estadístico

6.1. Distribución muestral


Definición. Suponga que X1 , . . . , Xn es una muestra con parámetro θ (de-
sconocido). Sea T = r(X1 , . . . , Xn , θ). La distribución de T dado θ se llama
distribución muestral.
Ejemplo. Si X1 , . . . , Xn ∼ N (µ, σ 2 ). El MLE de µ es

1X n
X̄n = Xi .
n i=1

La distribución muestral del estadístico X̄n es

!
σ2
X̄n ∼ N µ,
n
1X n
1
E[X̄n ] = E[Xi ] = · nE[X1 ] = µ.
n i=1 n
1X n
1
!
σ2
Var(X̄n ) = Var Xi = 2 · n · Var(X1 ) = .
n i=1 n n

77
78 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO

i.i.d
Ejemplo. Sea Xi : tiempo de vida de un aparato. Suponga que X1 , . . . , Xn ∼
Exp(θ) y que la previa de θ es Γ(1, 2). Solamente observamos n = 3 tiempos.
La posterior sería

3
θ|X ∼ Γ(1 + 3, 2 + Xi ).
X

i=1

El estimador bayesiano, bajo pérdida cuadrática, es


4
E[θ|X] = = θ̂
2+
P
Xi

Problema: estimar P(|θ̂ − θ| < 0,1).


Note que

P(|θ̂ − θ| < 0,1) = E[1|θ̂−θ|<0,1|θ) ]


= E[E[1|θ̂−θ|<0,1|θ) |θ]]
= E[P(|θ̂ − θ| < 0,1|θ)]

Debemos definir primero cuál es la función de distribución de θ̂.

4
!

Fθ̂ (t|θ) = P(θ̂ ≤ t|θ) = P ≤ t θ
2+T
4
!
= P 2 + T ≥ θ
t
4
!

= P T ≥ − 2 θ

t

Nota: Recuerde que sumas de exponenciales es una gamma. (Ver


teorema 5.7.7 deñ DeGroot)
4
 
Entonces T = i=1 Xi ∼ Γ(3, θ), por lo que F (t|θ) = 1 − GΓ(3,θ) −2 .
P3
t
Aqui denotamos como G a la distribución de T .
6.1. DISTRIBUCIÓN MUESTRAL 79

De esta manera,

P[|θ̂ − θ| < 0,1|θ] = P[−0,1 + θ < θ̂ < 0,1 + θ|θ]


4 4
! !
= GΓ(3,θ) − 2 − GΓ(3,θ) −2
−0,1 + θ 0,1 + θ

y la esperanza se calcula al integrar con respecto a la dendidad previa de


θ. Esta esperanza no se puede estimar de forma cerrada, sino que se podría
aproximar mediante una simulación sobre θ. El valor aproximado de la integral
es 0.478 aproximadamente.

Otra solución es estimar θ usando el MLE θ̂ = 3


T
. Se podría construir esa
probabilidad de forma que no dependa de θ.

 
3
!
 θ̂M LE 
−1 < 0,1 θ =P − 1 < 0,1 θ =∆
 
P 
| θ {z
  θT
}
Cambio relativo
80 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO

Si T ∼ Γ(3, θ) =⇒ θT ∼ Γ(3, 1).


Por lo tanto,

3 3 3
! !

∆ = P 0,9 < < 1,1 θ = P < θT < = 13, 4 %

θT 1,1 0,9

6.2. Distribución χ2
Definición. Para m > 0 definimos
m 1
 
χ2m ∼Γ ,
2 2

la distribución chi-cuadrado con m grados de libertad.


Propiedades:
E[X] = m.
Var(X) = 2m.
Para Xi ∼ χ2mi , i = 1, . . . , k, independientes, entonces

k
Xi ∼ χ2P mi
X

i=1

Si X ∼ N (0, 1) =⇒ Y = X 2 ∼ χ21 .
i.i.d
Si Xi ∼ N (0, 1) =⇒ Xi2 = χ2m .
Pm
i=1

Xi − µ
Ejemplo. Si X1 , . . . , Xn ∼ N (µ, σ 2 ) =⇒ Z = ∼ N (0, 1) ∀i.
σ
Entonces
Zi2 ∼ χ2n
X

P (Xi −µ)2
es decir σ2
∼ χ2n (∗).
Por otro lado si µ es conocido y σ 2 desconocido, entonces el MLE de σ 2 es

1X n
σ̂02 = (Xi − µ)2
n i=1
6.2. DISTRIBUCIÓN χ2 81

De esta manera, observe que, de (∗),

n 1X n
σ̂02
(X i − µ)2
= n ∼ χ2n
σ 2 n i=1 σ2

La principal limitación del cálculo anterior es que µ es conocida. Al asumir


que µ es desconocida: ¿Cuál es la distribución muestral de (X̄n , σ̂ 2 )?
Teorema (++) . Bajo las condiciones anteriores,
1. X̄n y σ̂n2 son independientes aunque σ̂n2 es función de X̄n .
!
σ2
2. La distribución muestral de X̄n es N µ, .
n
σ̂n2 Pn (Xi − X̄n )2
3. n = i=1 ∼ χ2n−1 .
σ2 σ2
Nota: De álgebra lineal, recuerde que una matriz An×n es ortogonal si cumple
que A−1 = A0 . Como consecuencias:
1. det(A) = 1.
2. Si X, Y ∈ Rn , Y = AX y A ortogonal, entonces

kY k22 = kXk22 (∆∆)

i.i.d.
Teorema. Si X1 , . . . , Xn ∼ N (0, 1), A es una matriz ortogonal n × n y
i.i.d.
Y = AX donde X = (X1 , . . . , Xn )T entonces Y1 , . . . , Yn ∼ N (0, 1) y

kY k22 = kXk22

.
Prueba. Ver Teorema 8.3.4 en el DeGroot.
Para justificar el Teorema (++), sea X1 , . . . , Xn ∼ N (0, 1). Usando el método
de Gram-Schmidt con vector inicial

1 1
" #
u = √ ,··· , √
n n
82 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
 
u
podemos generar una matriz A =  ..  ortogonal. Defina Y = AX. Entonces
.
1 X n √
Y1 = uX = √ Xi = nX̄n .
n i=1

n n
Por la propiedad (∆∆), Yi2 = Xi2 . Entonces,
X X

i=1 i=1
n n n n
Yi2 = Yi2 − Y12 = Xi2 − nX̄n2 = (Xi − X̄n )2 .
X X X X

i=2 i=1 i=1 i=1

1 Pn
Como Y12 y ni=2 Yi2 son independientes, entonces X̄n y i=1 (Xi − X̄n )
2
P
n
son independientes.
i.i.d
Note que Yi2 ∼ χ2n−1 ya que Yi ∼ N (0, 1).
Pn
i=2

Si X1 , . . . , Xn ∼ N (µ, σ 2 ), tome Zi = Xi −µ
σ
y repita todo lo anterior.
Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ) (µ, σ desconocidos). Los MLE son

#1
1X n
"
2
µ̂ = X̄n , σ̂ = (Xi − X̄n )2 .
n i=1

Encuentre n tal que

1
" #
σ σ
p = P |µ̂ − µ| < , |σ̂ − σ| < ≥ .
5 5 2

Por independencia de X̄n y σ̂n2 ,


" # " #
σ σ
p = P |µ̂ − µ| < P |σ̂ − σ| <
5 5

Por un lado,
" # " √ √ √ # √ ! √ !
σ n n(µ̂ − µ) n n n
P |µ̂ − µ| < =P − ≤ < =Φ −Φ − .
5 5 | σ
{z } 5 5 5
N (0,1)
6.2. DISTRIBUCIÓN χ2 83

Además,

" # " #
σ σ σ
P |σ̂ − σ| < =P − < σ̂ − σ <
5 5 5
" #
σ σ
=P − + σ < σ̂ < + σ
5 5
4 6
" #
=P − σ < σ̂ < σ
5 5
4 6
" #
σ̂
=P − < <
5 σ 5
4 6
" 2 2  2 #
σ̂
=P − < 2 <
5 σ 5
ˆ2
" #

=P 0,64n < 2 < 1,44n
σ
=Fχ2n−1 (1,44n) − Fχ2n−1 (0,64n).

Estime n de manera que


√ !#
1
"
n
1 − 2Φ − [Fχ2n−1 (1,44n) − Fχ2n−1 (0,64n)] ≥ .
5 2

Se resuelve numéricamente, y si n = 21 se cumple.

6.2.1. Ilustración de la distribución χ2


ggplot(data = data.frame(x = seq(0, 40, length.out = 1000)), aes(x)) +
stat_function(fun = dchisq,
args = list(df = 5),
aes(color = "05 grados de libertad")) +
stat_function(fun = dchisq,
args = list(df = 10),
aes(color = "10 grados de libertad")) +
stat_function(fun = dchisq,
args = list(df = 20),
84 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO

aes(color = "20 grados de libertad")) +


ylab("") +
scale_y_continuous(breaks = NULL) +
theme_minimal()

colour
05 grados de libertad
10 grados de libertad
20 grados de libertad

0 10 20 30 40
x

6.3. Distribución t
Definición. Sea Y y Z dos variables independientes tal que Y ∼ χ2m y
Z ∼ N (0, 1). Si
Z
X := s ,
Y
m
entonces decimos que X tiene una distribución t de Student con m grados
de libertad. La función de densidad de X es:
m+1
 
Γ ! m+1
2 − 2
fX (x) = √ 2  1 + x
, x ∈ R.
m m
mπΓ
2
6.3. DISTRIBUCIÓN T 85

Propiedades:
1. fX es simétrica.
2. La media de X no existe si m ≤ 1. Si la media existe, es 0.
3. Las colas de una t de Student son más pesadas que una N (0, 1).
4. Si m es entero, los primeros m − 1 momentos de X existen y no hay
momentos de orden superior.
m
5. Si m > 2, Var (X) = .
m−2
6. Si m = 1, X ∼ Cauchy.
7. Ejercicio: fx (x) −−−→ Φ(x) (sirve como aproximación). La discrepan-
m→∞
cia de ambas está principalmente en sus colas y se disipa cuando m es
grande.
nσ̂ 2
Recuerde que, por el teorema 8.3.1 (DeGroot), X̄n y Y = son v.a.
! σ
σ2
independientes, con X̄n ∼ N µ, y Y ∼ χ2n−1 . Además,
n

√ X̄n − µ
Z= n ∼ N (0, 1).
σ

Sea

√ X̄n − µ
Z n X̄n − µ
T =s = v σ =s
2
Y u nσ̂
u σ̂
n−1 n−1
u
t σ2
n−1
el cual no depende de σ.
i.i.d
Teorema. Si X1 , . . . , Xn ∼ N (µ, σ 2 ), defina
#1
1 X n
"
2
σ =
0
(Xi − X̄n )2 .
n − 1 i=1
86 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO

Entonces √
n(X̄n − µ)
∼ tn−1
σ0
1
n

2
Nota. σ 0 = σ̂ (si n es grande, σ 0 = σ̂).
n−1
Prueba. Sean
n √ X̄n − µ
Sn2 = (Xi − X̄n )2 , Z=
X
n .
i=1 σ
Sn2
Dado que Y = ∼ χ2n−1 , entonces
σ2


n
Z (X̄n − µ)
U= s = sσ
Y Sn2
n−1 σ 2 (n − 1)

n(X̄n − µ)
= s 2
Sn
n−1

n(X̄n − µ)
= ∼ tn−1 .
σ0

6.3.1. Ilustración de distribución t.


ggplot(data = data.frame(x = seq(-5, 5, length.out = 1000)), aes(x)) +
stat_function(fun = dnorm,
args = list(mean = 0, sd = 1),
aes(color = "Normal(0,1)")) +
stat_function(fun = dt,
args = list(df = 1),
aes(color = " t con 01 grados de libertad")) +
stat_function(fun = dt,
args = list(df = 5),
aes(color = " t con 05 grados de libertad")) +
stat_function(fun = dt,
args = list(df = 10),
6.3. DISTRIBUCIÓN T 87

aes(color = " t con 10 grados de libertad")) +


ylab("") +
scale_y_continuous(breaks = NULL) +
theme_minimal()

colour
t con 01 grados de libertad
t con 05 grados de libertad
t con 10 grados de libertad
Normal(0,1)

-5.0 -2.5 0.0 2.5 5.0


x
88 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Capítulo 7

Intervalos de confianza

7.1. Intervalos de confianza para la media de


una distribución normal
Dado θ un parámetro en R hemos estudiado procedimientos para encontrar
estadísticos T ∈ R que permitan estimarlo. Para incluir más información
acerca del parámetro podemos sustituir este estadístico T con otros dos
estadísticos T1 y T2 de modo que sepamos que

T1 ≤ θ ≤ T2

con una cierta probabilidad. En caso que θ ∈ Rk se puede construir un


conjunto de estadísticos T1 , . . . , Tk0 con k 0 = 2k tal que

θ ∈ [T1 , T2 ] × · · · × [Tk0 −1 , Tk0 ]

En el caso normal, X̄n es un estimador puntual de µ. ¿Será posible encontrar


un estimador por intervalo?

n(X̄n − µ)
Defina U = ∼ tn−1 . Si c > 0,
σ0

89
90 CAPÍTULO 7. INTERVALOS DE CONFIANZA

" √ #
n(X̄n − µ)
P[−c < U < c] = P − c < <c
σ0
cσ 0 cσ 0
" #
= P − √ < X̄n − µ < √
n n
0
cσ 0
" #

= P X̄n − √ < µ < X̄n + √
n n

El intervalo

cσ 0 cσ 0
" #
T = X̄n − √ , X̄n + √
n n

es un intervalo aleatorio que “contiene” a µ. Si queremos restringir la proba-


bilidad anterior, tome γ ∈ (0, 1):

P(µ ∈ T ) = γ.

Para que se cumpla lo anterior, seleccione c tal que

γ = P(µ ∈ T ) = Ftn−1 (c) − Ftn−1 (−c)


= Ftn−1 (c) − [1 − Ftn−1 (c)]
= 2Ftn−1 (c) − 1

Entonces

γ+1 γ+1
 
= Ftn−1 (c) =⇒ c = Ft−1 .
2 n−1
2

Definición. Si X es una variable aleatoria continua con distribución F


(monótona creciente), entonces x = F −1 (p) es el cuantil de orden p de F
(p-cuantil).
El intervalo aleatorio
7.1. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCIÓN NORMAL91

γ + 1 σ0 γ + 1 σ0
"     #
X̄n − Ft−1 √ , X̄n + Ft−1 √
n−1
2 n n−1
2 n

contiene a µ con probabilidad γ.

Definición. Sea X = (X1 , . . . , Xn ) una muestra con parámetro θ. Sea g(θ)


una característica de la distribución que genera la muestra. Sea A < B dos
estadísticos que cumplen (∀θ):

P[A < g(θ) < B] ≥ γ. (∗)

Al intervalo aleatorio (A, B) le llamamos intervalo de confianza con coe-


ficiente γ para g(θ) (intervalo de confianza al 100γ % para g(θ)). En el caso
que (∗) tenga una igualdad, decimos que el intervalo es exacto.

Nota. Si observamos X, calculamos A = a, B = b. Entonces (a, b) es el valor


observado de un intervalo de confianza.

Ejemplo. Se mide la lluvia con nubes inyectadas con “sulfato de plata” a


través de n = 26 observaciones bajo una transformación logarítmica. Se desea
hacer inferencia sobre µ, la cantidad de log-lluvia media. Para γ = 0,95, se
calcula

1+γ
 
c= Ft−1 = Ft−1 (0,975) = 2,060
25
2 25

Note que 1+γ


2
= 0,975 y el segundo valor se obtiene de una tabla de valor de
la t-student o de la expresión qt(p = 0.975, df = 26-1) = 2,06
92 CAPÍTULO 7. INTERVALOS DE CONFIANZA

1.00

(2.060,0.975)

0.75
t 25

0.50

0.25

0.00

-2 0 2

El intervalo de confianza para µ al 95 % es

X̄n ± 0,404 σ 0
| {z }
2,060

26

Si X̄n = 5,134 y σ 0 = 1,6 el valor observado del intervalo de confianza al 95 %


para µ corresponde a

[5,134 − 0,404 · 1,6, 5,134 + 0,404 · 1,6] = [4,47, 5,78]

Interpretación. El intervalo observado [4,48, 5,78] es una realización del


intervalo de confianza que contiene a µ con un nivel de confianza del 95 %.
cσ 0
Usualmente a √ se le llama margen de error (MOE).
n
Interpretación gráfica. Si se repitiera el experimento que genera la muestra
muchas veces, en el 100γ % (e.g, 95 % o 99 %) de la veces el intervalo observado
contendría al parámetro real de la población θ.
7.1. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCIÓN NORMAL93

Figura 7.1: Ejemplo interactivo sobre intervalos de confianza. Tomado de (R


Psycologist)[https://rpsychologist.com/d3/ci/]
94 CAPÍTULO 7. INTERVALOS DE CONFIANZA

7.2. Intervalos de confianza abiertos


Si γ √
es el nivel de confianza dado, sea γ1 < γ2 tal que γ2 − γ1 = γ. Sea
n
U = 0 (X̄n − µ).
σ
Si
σ0 σ0
A = X̄n − Tn−1
−1
(γ1 ) √ y B = X̄n + Tn−1−1
(γ2 ) √ ,
n n

entonces se cumple que (A, B) es un intervalo de confianza al 100γ % ya que

P[µ ∈ (A, B)] = P[Tn−1


−1
(γ1 ) < U < Tn−1
−1
(γ2 )] = γ2 − γ1 = γ.

Definición (Intervalos de confianza abiertos). Bajo las condiciones an-


teriores, si A es un estadístico que satisface ∀θ:

P[A < g(θ)] ≥ γ,

A A se le llama límite inferior de confianza al 100γ % para g(θ) y al


intervalo (A, ∞) es el intervalo de confianza inferior al 100γ % para
g(θ).
De forma análoga, si B satisface:

P[g(θ) < B] ≥ γ,

a (−∞, B) se le llama intervalo de confianza superior para g(θ), con


nivel 100γ %. Si hay igualdad, el intervalo es exacto.
Ejemplo. En el caso normal, encuentra B tal que P(µ < B) = γ. Se sabe
que

√ !
n(X̄n − µ)
Ftn−1 (c) = P(U > −c) = P −c < .
σ0

Entonces
σ0
!
γ = P µ < X̄n + √ c .
n
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 95

Tome c tal que


Ftn−1 (c) = γ =⇒ c = Ft−1
n−1
(γ)

Por lo tanto
σ0
B = X̄n + √ Ft−1 (γ).
n n−1

es un intervalo de confianza superior para µ al 100γ %.

7.3. Intervalos de confianza en otros casos


Ejemplo. Considere el ejemplo de los tiempos de vida Xi en donde n = 3 y
Xi ∼ Exp(θ).
Si T = Xi entonces θT ∼ Γ(3, 1).
P3
i=1

Queremos calcular un intervalo de confianza superior para θ al 100δ % (exacto),


es decir queremos encontrar B aleatorio tal que: P[θ < B] = γ.
Si G es la función de distribución de Γ(3, 1), sabemos que:

G−1 (γ)
" #
γ = P[θT < G−1 (γ)] = P θ < .
T

G−1 (γ)
El límite superior es .
T
theta <- 2
X <- rexp(3, rate = theta)
T <- sum(X)
G_inv <- qgamma(p = 0.95, shape = 3, rate = 1)

Entonces el intervalo de confianza observado para este caso es


c(0, G_inv / T)

## [1] 0.000000 6.401461


Definición. Sea X = (X1 , . . . , Xn ) una muestra de una distribución Fθ . Sea
V (X, θ) una variable aleatoria cuya distribución no depende de θ. Decimos
que V es una cantidad pivotal.
96 CAPÍTULO 7. INTERVALOS DE CONFIANZA

Un intervalo de confianza para g(θ) se determina a partir de un proceso de


inversión de la cantidad pivotal. Es decir, buscamos una función r(v, x) tal
que

r(V (X, θ), X) = g(θ) (∗)

En el ejemplo anterior, V (X, θ) = θT ,


V (X, θ)
r(V (X, θ), X) = = g(θ) = θ.
T

Teorema. Bajo las condiciones anteriores y si la cantidad pivotal V existe


sea G su c.d.f. y asuma que G es continua. Asuma que la función r existe
como en (*) y asuma que r(v, x) % en v para cada x. Sea 0 < γ < 1 y γ2 > γ1
tal que γ2 − γ1 = γ. Entonces los extremos del intervalo de confianza para
g(θ) al 100γ % son
A = r(G−1 (γ1 ), X), B = r(G−1 (γ2 ), X).

i.i.d
Ejemplo. Sea X1 , . . . , Xn ∼ N (µ, σ 2 ). Encuentre A, B tales que P[A < σ 2 <
B] = γ.
Se sabe que
nσ̂ 2
∼ χ2n−1 .
σ2
nσ̂ 2
Tome V (X, σ 2 ) = . Entonces
σ2
γ = P[χ2n−1,γ1 < V (X, σ 2 ) < χ2n−1,γ2 ]

donde γ = γ2 − γ1 . Tome
(Xi − X̄n )2 nσ̂ 2
P
r(v, X) = = .
v v

Invirtiendo el intervalo,
(Xi − X̄n )2 (Xi − X̄n )2
"P P #
γ=P 2
< σ2 <
χn−1,γ2 χ2n−1,γ1
| {z } | {z }
A B
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 97

Donde χ2n−1,γ = Fχ−1


2 (γ). El IC para σ 2 al 100γ % es
n−1

P 
(Xi − X̄n )2 (Xi − X̄n )2 
P
 , .
χ2n−1,γ2 χ2n−1,γ1

Por ejemplo
X <- rnorm(n = 1000, 0, 2)

gamma1 <- 0.025


gamma2 <- 0.975

gamma2 - gamma1

## [1] 0.95
(chi2_gamma1 <- qchisq(p = gamma1, df = 1000 - 1))

## [1] 913.301
(chi2_gamma2 <- qchisq(p = gamma2, df = 1000 - 1))

## [1] 1088.487
(diferencias <- sum((X - mean(X))ˆ2))

## [1] 3854.307

Finalmente el intervalo es
c(diferencias / chi2_gamma2, diferencias / chi2_gamma1)

## [1] 3.540976 4.220193

NOTA: Las cantidades pivotales no siempre existen. Esto ocurre principale-


mente con las distribuciones discretas
98 CAPÍTULO 7. INTERVALOS DE CONFIANZA

7.3.1. Intervalos de confianza aproximados.


i.i.d
Sean X1 , . . . , Xn ∼ Fµ donde E[Xi ] = µ y Var(Xi ) = σ 2 (conocida). Note
que
" √ #
n(X̄n − µ) T LC
D = P[A < µ < B] = P − z 1+γ < < z 1+γ ≈ γ.
2 σ 2

Así,    
D ≈ Φ z 1+γ − Φ −z 1+γ = γ.
n→∞ 2 2

Ejercicio. El intervalo de confianza correspondiente para µ es

σ
X̄n ± z 1+γ √ .
2 n

X̄n − µ
Considere U = √ . U es pivotal, pero no necesariamente una tn−1 .
σ0/ n
Como (σ 0 )2 = n
n−1
σ̂ 2 y además σ̂ 2 es el MLE de σ 2 y por lo tanto consistente:

σ̂ 2 →
− σ2
P

((σ 0 )2 →
− σ 2 ).
P

d d
Recuerde que si Xn →
− Z y Yn →
− a, entonces Xn Yn →
P
− aZ.
Por lo tanto, √
X̄n − µ σ/ n d
√ · √ →− N (0, 1)
σ/ n σ 0 / n
| {z } | {z }
d P

− N (0,1) →
−1
d
Entonces U →
− N (0, 1).
Como consecuencia
" #
X̄n − µ T LC
P − z 1+γ < 0 √ < z 1+γ ≈ γ.
2 σ/ n 2
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 99

y el IC aproximado para µ al 100γ %:

σ0
X̄n ± z 1+γ √ .
2 n

Ejemplo. Si X1 , . . . , Xn ∼ Poi(θ), µ = σ 2 = θ. Por TLC,

√ X̄n − θ d
n √ − N (0, 1).

θ

Entonces

"√ √ # √ !
n|X̄n − θ| c n c n
P[|X̄n − θ| < c] = P √ < √ ≈ 2Φ √ − 1.
θ θ θ

Nota: La probabilidad anterior depende del parámetro θ.


Explicación del fenómeno: En este caso recuerden que X̄n es una variable
aleatoria. Lo que dice el teorema del límite central es que conforme n es
grande, la distribución de X̄n (centrada y escalada apropiadamente) converge
a una normal estándar.
Xbar <- data.frame(n = numeric(), Z = numeric())

idx <- rep(x = c(10, 2000), times = 1000)


for (k in 1:length(idx)) {
muestra <- rpois(n = idx[k], lambda = 5)
Xbar[k, "Z"] <- sqrt(idx[k]) * (mean(muestra) - 5) / sqrt(5)
Xbar[k, "n"] <- idx[k]
}

ggplot(Xbar) +
geom_histogram(mapping = aes(x = Z, y = ..density..), color = "white") +
stat_function(fun = dnorm, args = list(mean = 0, sd = 1), color = "red") +
facet_wrap(. ~ n, scales = "free")
100 CAPÍTULO 7. INTERVALOS DE CONFIANZA

10 2000
0.6
0.4

0.3
0.4
density

0.2

0.2

0.1

0.0 0.0

-3 -2 -1 0 1 2 -2 0 2
Z

7.3.2. Transformaciones estabilizadoras de la varianza


[Ver página 365 del libro de texto.]
En el ejemplo anterior: ¿Cómo transformar X̄n para que tenga varianza
constante? Note que en el caso anterior se necesitó saber explícitamente el
valor exacto de θ para hacer el ejercicio.
Por el método Delta, la varianza “aproximada” de α(X̄n ) es
!2 !2
α0 (µ) α0 (µ)σ α0 (µ)2 σ 2 (µ)
= √ = .
an n n
Si se desea que la varianza sea constante con respecto a µ,

α0 (u)2 σ 2 (µ) = 1
1
=⇒ α0 (µ) = (σ(µ) > 0)
σ(µ)
Z µ
dx
=⇒ α(µ) = dx
a σ(x)
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 101

donde a es una constante arbitraria que hace la integral finita (y fácil de


calcular) y se está asumiendo que la varianza σ es función de µ.
Del ejemplo anterior (Poisson), recuerde que σ 2 = θ = µ, entonces se podría

tomar que σ(µ) = µ y por lo tanto:


Z µ
dx
α(µ) = √ =2 µ
0 x

Por el método Delta,


1
1
 
1
2X̄n ∼ N 2θ ,
2 2
n grande n
De esta manera

 1 1

1 1 |2X̄n2 − 2θ 2 | √ √
P[|2X̄n − 2θ | < c] = P
2 2  q < nc ≈ 2Φ( nc) − 1
1/n

Desarrollando,
1 1 1 √
P[−c + 2X̄n2 < 2θ 2 < c + 2X̄n2 ] ≈ 2Φ( nc) − 1

Se despeja c tal que


√ 1+γ 1
Φ( nc) = =⇒ c = √ z 1+γ .
2 n 2

1
El intervalo de confianza para 2θ 2 es
1 1
" #
1 1
2X̄n − √ z 1+γ , 2X̄n2 + √ z 1+γ
2

n 2 n 2

set.seed(42)
X <- rpois(n = 1000, lambda = 5)
Xbar <- mean(X)
z <- qnorm(p = 0.975)

c(2 * sqrt(Xbar) - 1 / sqrt(1000) * z, 2 * sqrt(Xbar) + 1 / sqrt(1000) * z)


102 CAPÍTULO 7. INTERVALOS DE CONFIANZA

## [1] 4.371529 4.495488


1 y2
Para estimar el IC para θ, note que si y = 2x 2 =⇒ x = . Aplicando esta
4
transformación al intervalo de confianza anterior, se obtiene

!2 !2 #
1 1 1 1
"
1 1
2X̄n2 − √ z 1+γ , 2X̄n2 + √ z 1+γ .
4 n 2 4 n 2
c((1 / 4) * (2 * sqrt(Xbar) - 1 / sqrt(1000) * z)ˆ2,
(1 / 4) * (2 * sqrt(Xbar) + 1 / sqrt(1000) * z)ˆ2)

## [1] 4.777567 5.052354


Capítulo 8

Estimación Bayesiana bajo


normalidad

8.1. Precisión de una distribución normal


Definición. La precisión τ de una variable aleatoria normal se define como
τ = σ12 .
Sean X1 , . . . , Xn ∼ N (µ, σ 2 ) = N (µ, τ −1 ). Su densidad corresponde a

1
1 1
 " #
2
f (x|µ, σ ) =
2
exp − 2 (x − µ)2
2πσ 2 2σ
1 " #
τ τ

2
= exp − (x − µ)2 = f (x|µ, τ ).
2π 2

La verosimilitud es por lo tanto:

n "n
#
τ τX

2
fn (x|µ, τ ) = exp − (xi − µ)2 .
2π 2 i=1

La previa conjunta de (µ, τ ) cumple que [µ, τ ] ∝ [µ|τ ] · [τ ] y la posterior


conjunta de la misma variable cumple que [µ, τ |x] ∝ [µ|τ, x] · [τ |x].

103
104 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD

Para el caso normal usaremos previas conjugadas: [µ|τ ] ∼ Normal y [τ ] ∼


Gamma.
Recuerde: La distribución Gamma tiene forma

( βα
xα−1 e−βx for x > 0
f (x | α, β) = Γ(α)
0 for x ≤ 0

Y la verosimilitud es

 !α−1
n
β nα Pn
e−β xi
for x > 0
 Y

xi i=1
fn (x | α, β) = Γ(α)n i=1
 0 for x ≤ 0

i.i.d
Teorema. Si X1 , . . . , Xn ∼ N (µ, τ −1 ), µ ∈ R, τ > 0 (precisión) y suponga
las siguientes dos densidades previas:
µ|τ ∼ N (µ0 , (λ0 τ )−1 ), µ ∈ R, λ0 > 0
τ ∼ Γ(α0 , β0 ), α0 , β0 > 0.
Entonces
[µ, τ |x] ∝ [µ|τ, x] · [τ |x]
donde µ|τ, x ∼ N (µ1 , (λ1 τ )−1 ) con

λ0 µ0 + nx̄n
λ1 = λ0 + n, µ1 = ,
λ0 + n
y τ |x ∼ Γ(α1 , β1 ),

n 1 nλ0 (X̄n − µ0 )2
α1 = α0 + , β1 = β0 + s2n + .
2 2 2(λ0 + n)

donde s2n = i=1 (xi − x̄n )2 .


Pn

Prueba.
Previa:
8.1. PRECISIÓN DE UNA DISTRIBUCIÓN NORMAL 105

[µ, τ ] ∝ [µ|τ ] · [τ ]
" #
1 λ0 τ
= τ exp −
2 (µ − µ0 ) · τ α0 −1 e−β0 τ
2
" #
α0 − 21 λ0 τ
=τ exp − (µ − µ0 ) − β0 τ
2
2

Por Bayes:

[µ, τ |x] ∝ [µ, τ ] · [x|µ, τ ]


n
" #
n τX
∝ [µ, τ ] · τ exp −
2 (xi − µ)2
2 i=1
" #
α0 + n+1 τ 
−1
exp − λ0 [µ − µ0 ]2 + (xi − µ)2 − β0 τ
X
∝τ 2
2

Además

n n
(xi − µ) =2
(xi − x̄n + x̄n − µ)2 = s2n + n(x̄n − µ)2 .
X X

i=1 i=1

Completando cuadrados (queda como ejercicio) se obtiene

nλ0 (x̄n − µ0 )
n(x̄n − µ)2 + λ0 (µ − µ0 )2 = (λ0 + n)(µ − µ1 )2 + .
λ0 + n

Entonces

n
nλ0 (x̄n − µ0 )
(xi − µ)2 + λ0 (µ − µ0 )2 = (λ0 + n)(µ − µ1 ) + s2n +
X

i=1
| {z } λ0 + n
λ1 | {z }
β1

Entonces
106 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD

α
z }|1 {
n
α0 + − 1
" #
λ1 τ
2
1
[µ, τ |x] ∝ τ exp[−β1 τ ] · τ 2 exp − (µ − µ1 )2
| {z } 2
[τ |x] | {z }
[µ|τ,x]

Por lo que [τ |x] ∼ Γ(α1 , β1 ) y [µ|τ, x] ∼ N (µ1 , λ1 τ ).


Definición Sean µ, τ dos variables aleatorias. Suponga que µ|τ ∼
N (µ0 , (λ0 τ )−1 ) y τ ∼ Γ(α0 , β0 ). Entonces decimos que

[µ, τ ] ∼ Normal - Gamma(µ0 , λ0 , α0 , β0 ).

Conclusión: la distribución previa Normal-Gamma conjuga con una


verosimilitud normal.
Limitación: µ y τ no son independientes. Si se quiere utilizar una
previa en donde µ y τ son independientes, al combinar la previa con la
verosimilitud, cualquier tipo de independencia entre los parámetros se
pierde.

8.2. Distribución marginal de µ


Teorema. Suponga que [µ, τ ] ∼ Normal-Gamma(µ0 , λ0 , α0 , β0 ). Entonces

!1
λ0 α 0 2
(µ − µ0 ) ∼ t2α0 .
β0

Prueba. Note que µ|τ ∼ N (µ0 , (λ0 τ )−1 ). Despejando la desviación estándar:

1 1
λ0 τ = 2
=⇒ σ = (λ0 τ )− 2 .
σ
Entonces
Z = (λ0 τ )1/2 (µ − µ0 )|τ ∼ N (0, 1).

La densidad conjunta de (Z, τ ) es

f (z, τ ) = π2 (τ ) · π1 (z|τ )
8.2. DISTRIBUCIÓN MARGINAL DE µ 107

Si g1 (µ|τ ) es la densidad de µ|τ , por teorema de cambio de variable

1 1
f (z, τ ) = π2 (τ ) · g1 ((λ0 τ )− 2 z + µ0 |τ )(λ0 τ )− 2 = π2 φ(z)
| {z }
φ(z)

Entonces Z y τ son independientes y Z ∼ N (0, 1).


Sea Y = 2β0 τ y τ ∼ Γ(α0 , β0 ), entonces

2α0 1
 
Y ∼Γ , =⇒ Y ∼ χ22α0
2 2
y Y es independiente de Z.
Por lo tanto,
Z
U=  12 ∼ t2α0 .
Y
2α0
Observe que
1 !1
(λ0 τ ) 2 (µ − µ0 ) λ0 α 0 2
U= !1 = (µ − µ0 ).
2β0 τ 2 β0
2α0

Consecuencia:

!1
β0 2
µ= U + µ0 , U ∼ t2α0 .
λ0 α0

Propiedades:
E(µ) = µ0 + 0 = µ0 .
β0 α0 β0
Var(µ) = · = .
α0 λ0 α0 − 1 λ0 (α0 − 1)
Ejemplo. Se hizo un experimento para determinar la relación del sabor del
queso con respecto a su composición química.
Vamos a cargar la base de datos que corresponde a este estudio.
108 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD

cheese <- read.table("./data/cheese_data.txt", header = TRUE)


head(cheese)

## Case taste Acetic H2S Lactic


## 1 1 12.3 4.543 3.135 0.86
## 2 2 20.9 5.159 5.043 1.53
## 3 3 39.0 5.366 5.438 1.57
## 4 4 47.9 5.759 7.496 1.81
## 5 5 5.6 4.663 3.807 0.99
## 6 6 25.9 5.697 7.601 1.09

El químico más importante en este estudio es el ácido láctico (Lactic).


hist(cheese$Lactic)

Histogram of cheese$Lactic
7
6
5
Frequency

4
3
2
1
0

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

cheese$Lactic

Intervalo t-student

Queremos construir un intervalo de confianza al 90 % para la media de esta


variable.

De acuerdo al histograma podemos asumir que las concentraciones de ácido


láctico en queso se comportan como: X1 , . . . , Xn ∼ N (µ, σ 2 )
8.2. DISTRIBUCIÓN MARGINAL DE µ 109

Primero calcularemos un intervalo de confianza frecuentista sobre µ con


cuantiles t-Student:
(Xbar <- mean(cheese$Lactic))

## [1] 1.442
(s <- sd(cheese$Lactic))

## [1] 0.30349
(s2 <- var(cheese$Lactic))

## [1] 0.09210621
(n <- length(cheese$Lactic))

## [1] 30
(gamma <- 0.9)

## [1] 0.9
(level <- (gamma + 1) / 2)

## [1] 0.95
(tquantile <- qt(p = level, df = n - 1))

## [1] 1.699127
c(Xbar - tquantile * s / sqrt(n), Xbar + tquantile * s / sqrt(n))

## [1] 1.347852 1.536148


Intervalo Gamma-Normal
Ahora supongamos que X1 , . . . , Xn es normal con media µ y precisión τ .
Suponga que

µ, τ ∼ Normal-Gamma(µ0 = 1, λ0 = 1, α0 = 1/2, β0 = 1/2)

Los hiperparámetros µ0 , λ0 , α0 , β0 son escogidos basados en la experiencia


previa (que puede ser ninguna).
110 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD

mu_0 <- lambda_0 <- 1


alpha_0 <- beta_0 <- 1 / 2

Los datos de este experimento son n = 30, x̄n = 1,442, s2n = 0,0921062.
Aplicando las fórmulas del teorema anterior:
(mu_1 <- (lambda_0 * mu_0 + n * Xbar) / (lambda_0 + n))

## [1] 1.427742
(lambda_1 <- lambda_0 + n)

## [1] 31
(alpha_1 <- alpha_0 + n / 2)

## [1] 15.5
(beta_1 <- beta_0 + 0.5 * (n - 1) * sˆ2 +
n * lambda_0 * (Xbar - mu_0) / (2 * (lambda_0 + n)))

## [1] 2.049411
µ1 = 1,4277419.
λ1 = 31.
α1 = 15,5.
β1 = 2,049411
La posterior es

[µ, τ |x] ∼ Normal - Gamma(µ1 , λ1 , α1 , β1 ).

library(NormalGamma)

previa <-
dnormgam(par = c(mu_0, sqrt(s2 / lambda_0), alpha_0, 1 / beta_0),
plot = FALSE)
posterior <-
dnormgam(par = c(mu_1, sqrt(s2 / lambda_1), alpha_1, 1 / beta_1),
plot = FALSE)
8.2. DISTRIBUCIÓN MARGINAL DE µ 111

df <-
rbind(
data.frame(
distribucion = "Previa",
x = previa$xout,
y = previa$dout
),
data.frame(
distribucion = "Posterior",
x = posterior$xout,
y = posterior$dout
)
)

ggplot(df, aes(x, y, color = distribucion)) +


geom_point() +
theme_minimal()

0.6

0.4
distribucion
Posterior
y

Previa

0.2

0.0

0 5 10 15 20
x

Podemos calcular inferencias sobre el σ usando el hecho que la posterior de τ


es Gamma.
112 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD

"s
1
#

P[σ > 0,3|x] = P > 0,3 x
τ
1
" #

=P > 0,32 x

τ
1
" #
=P τ < x
0,32
" #

=P τ < 11,11 x

= 0,9554296

dado que [τ |x] ∼ Γ(α1 , β1 ) = Γ(15,5, 2,049411).


En este caso observe que el cálculo es directo usando la función pgamma
pgamma(q = 0.3ˆ(-2), shape = alpha_1, rate = beta_1)

## [1] 0.9554296
Lo más importante es que basados en el resultado de la distribución marginal
de µ podemos construir un intervalo de confianza para µ. Para la distribución
posterior de µ sabemos que:

!1
λ1 α1 2
U= (µ − µ1 ) ∼ t2α1
β1

entonces

P (t2α1 ,γ1 ≤ U ≤ t2α1 ,γ2 ) = γ

Solo basta despejar µ con respecto a U . Como los cuantiles de la t son


simétricos, la solución es
 !1/2 !1/2 
β1 β1
P µ1 − t γ+1 ≤ µ ≤ µ1 + t γ+1 
λ1 α1 2α1 ,
2 λ1 α1 2α1 ,
2
8.2. DISTRIBUCIÓN MARGINAL DE µ 113

tquantile2alpha <- qt(p = level, df = 2 * alpha_1)


c(
mu_1 - tquantile2alpha * (beta_1 / (lambda_1 * alpha_1))ˆ(1 / 2),
mu_1 + tquantile2alpha * (beta_1 / (lambda_1 * alpha_1))ˆ(1 / 2)
)

## [1] 1.317011 1.538473


Noten que para este caso, encontramos un intervalo más pequeño
que en el caso frecuentista.
Ejemplo. Suponga que X1 , . . . , Xn son los días de hospitalización en 18
centros de salud. (ver ejemplo 8.6.3, pág 500). Asuma que

[µ, τ ] ∼ Normal-Gamma(µ0 = 200, λ0 = 2, α0 = 2, β0 = 6300).

Encuentre un intervalo para µ centrado en µ0 tal que la probabilidad que µ


esté en ese intervalo sea 0,95.

!1
α0 λ0 2
(µ − µ0 ) = 0,025(µ − 200) ∼ t2·2 = t4 .
β0
Entonces

0,95 = P[l < 0,025(µ − 200) < u] = 2Ft4 (u) − 1 =⇒ u = t4,0,975 = 2,776.

Así,
P[−2,776 < 0,025(µ − 200) < 2,776] = 0,95
y el intervalo es [89, 311].
Con datos: X̄n = 182,17 y s2n = 88678,5. Los hiperparámetros posteriores son
µ1 = 183,95, λ1 = 20, α1 = 11, β1 = 50925,37.
Resolvemos el mismo problema:

!1
α 1 λ1 2
(µ − µ0 ) = 0,0657(µ − 183,95) ∼ t2α1 =22 .
β1
114 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD

Se busca u:
0,95 + 1
Ft22 (u|x) = =⇒ u = t22,0,975 = 2,074
2
y
0,95 = P[−2,074 < 0,0657(µ − 183,95) < 2,074|x].

El intervalo de credibilidad o predicción es [152,38, 215,52].


Por otro lado si X1 , . . . , X18 ∼ N (µ, σ 2 ), µ, σ 2 fijos y desconocidos.

σ0
X̄n + t17,0,975 √ al 95 %.
18
El intervalo de confianza observado es [146,25, 218,09].
Ejercicio Usando los datos de la variable InPatientDays de la siguiente base
de datos.
load("./data/Nursing.rda")
head(Nursing$InPatientDays)

## [1] 128 155 281 291 238 180


Repita los cálculos númericos del ejercicio igual que el ejemplo pasado.

8.3. Intervalos de credibilidad.


El intervalo de credibilidad de una distribución posterior se define como los
valores A y B tal que

π(A ≤ θ ≤ B|x) = γ

para algún γ > 0.


Ejemplo: Supongamos que tenemos los tiempos de vida de unos aparatos
X1 , X2 , X3 ∼ Exp(θ). La previa de θ es Γ(1, 2). Sabemos desde antes que

3
θ|X ∼ Γ(4, 2 + Xi ).
X

i=1
8.3. INTERVALOS DE CREDIBILIDAD. 115

Y el estimador bayesiano bajo pérdida cuadrática es:

4
E[θ|X] = θ̂ =
2+
P3
i=1 Xi

# Valores dados con paramétro desconocido


X <- rexp(n = 3, rate = 2)
gamma <- 0.95
level <- (gamma + 1) / 2

alpha <- 4
beta <- 2 + sum(X)

(theta_hat <- alpha / beta)

## [1] 0.7848404
A <- qgamma(p = 0.025, shape = alpha, rate = beta)
B <- qgamma(p = 0.975, shape = alpha, rate = beta)

c(A, B)

## [1] 0.2138426 1.7202276


ggplot(data = data.frame(x = c(0, 4)), aes(x)) +
stat_function(fun = dgamma, args = list(shape = alpha, rate = beta)) +
geom_vline(xintercept = A, color = "red") +
geom_vline(xintercept = B, color = "red") +
geom_vline(xintercept = theta_hat, color = "blue") +
theme_minimal()
116 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD

0.9

0.6
y

0.3

0.0

0 1 2 3 4
x

Ejercicio Para hacer este ejercicio sin usar bayes, se debe resolver usando
una función estabilizadora de la varianza. Encuentre esa función y aplique el
procedimiento que vimos el capítulo anterior.

8.4. Efecto de previas no informativas (Op-


cional)
Considere una previa no informativa: [µ, τ ] ∝ [µ] · [τ ] (supuesto de inde-
1 1
pendencia), con [µ] ∝ 1, τ = 2 y [σ] ∝ .
σ σ
1
Dado que σ = (τ )− 2 , usando el teorema de cambio de variables,

1 3 1 1 1

dσ  
3
= − τ − 2 =⇒ τ − 2 fσ = τ −1 .
dτ 2 2 1
τ2 2

Entonces [µ, τ ] ∝ τ −1 .
Ejercicio. Verifique que [µ, τ ] ∼ Normal-Gamma(µ0 = 0, λ0 = 0, α0 =
−1/2, β0 = 0).
8.4. EFECTO DE PREVIAS NO INFORMATIVAS (OPCIONAL) 117

Usando Bayes, X1 , . . . , Xn ∼ N (µ, τ ).

π(µ, τ |x) ∝ [µ, τ ] · [x|µ, τ ]


1 X
" #
= τ (2πσ )
−1 2 −n/2
exp − 2 (Xi − µ)2

" #
τ nτ
∝ τ −1 τ n/2 exp − s2n − (µ − X̄n )2
2 2
" # " #
nτ n−1 s2n
= τ exp −
1/2
(µ − X̄n ) · τ 2
2 −1
exp − τ
2 2

Entonces

µ|τ ∼ N (X̄n , nτ )
n − 1 s2n
!
τ |x ∼ Γ ,
2 2
.
Por lo tanto,

µ, τ |x ∼ Normal-Gamma(µ1 = X̄n , λ1 = n, α1 = (n − 1)/2, β0 = s2n /2).

Ejemplo. Tomando X̄n = 5,134, s2n = 63,96 con una previa no informativa
para µ, τ . Entonces la posterior es Normal-Gamma con hiperparámetros:
25
µ1 = 5,134, λ1 = 26, α = , β1 = 31,98. Queremos hacer inferencia sobre µ:
2

0,95 = P[−t25,0,975 < U < t25,0,975 ]


!1
26 · 12,5
" #
2
= P − t25,0,975 < (µ − 5,134) < t25,0,975
31,98

El intervalo es [4,488, 5,78].


118 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD

!1
α1 λ1 2
Calculemos P[µ > 4|x]. Sea w = = 3,188.
β1

P[µ > 4|x] = P [w(µ − X̄n ) > w(4 − X̄n )] = 1 − Tt25 (−3,615) = 0,9993.

Generalizando:

!1 !1 !1
n(n − 1)/2 2
n(n − 1) 2
n 2
w= = = .
s2n /2 s2n (σ 0 )2

Entonces

" !1 #
n 2
γ = P − tn−1, 1+γ < (µ − X̄n ) < tn−1, 1+γ
2 (σ 0 )2 2

σ0 σ0
" #
= P X̄n − tn−1, 1+γ √ < µ < X̄n + tn−1, 1+γ √ .
2 n 2 n
Capítulo 9

Estimación insesgada

9.1. Estimadores insesgados


Definición. Un estimador δ(x) es un estimador insesgado de g(θ) si
Eθ [δ(X)] = g(θ), ∀θ. A Eθ [δ(X)] − g(θ) se le denomina sesgo.
i.i.d
Ejemplo. Si X1 , . . . , Xn ∼ Fθ , µ = E[X1 ], entonces

1X n
E[X̄n ] = E(Xi ) = µ
n i=1

X̄n es estimador insesgado de µ.


i.i.d
Ejemplo. X1 , X2 , X3 ∼ Exp(θ). El MLE de θ es

3 3
θ̂ = = P3
T i=1 Xi

¿Será θ̂ un estimador insesgado?


theta_real <- 5
X <- matrix(rexp(n = 1000 * 3, rate = theta_real), ncol = 3)

T <- apply(X = X, MARGIN = 1, FUN = sum)

119
120 CAPÍTULO 9. ESTIMACIÓN INSESGADA

theta_hat <- 3 / T

hist(theta_hat - theta_real, breaks = 100)

Histogram of theta_hat - theta_real


250
200
Frequency

150
100
50
0

0 50 100

theta_hat - theta_real

Teoricamente podemos ver que

3 1
" # " #
E[θ̂] = E = 3E , T ∼ Γ(3, θ)
T T

Como 1
T
∼ Gamma Inversa(3, θ)1 , se tiene que

1 3θ
" #
θ
E = =⇒ E[θ̂] = 6= θ
T 2 2

Por lo que θ̂ es un estimador sesgado, con sesgo

3θ θ
sesgo(θ̂) = −θ = .
2 2
1 β
La Gamma Inversa con paramétros α y β tiene media α−1 .
9.1. ESTIMADORES INSESGADOS 121

Si por ejemplo θ = 5, entonces la diferencia debería ser aproximadamente 52 .


mean(theta_hat - theta_real)

## [1] 2.252184
Si U = 2θ̂
3
= 2
3
· 3
T
= T2 ,

2 2 3
E[U ] = E(θ̂) = · θ = θ.
3 3 2

Entonces U es un estimador insesgado.


U <- 2 / T
mean(U - theta_real)

## [1] -0.1652107
Importante: El caso ideal es encontrar estimadores en donde Var(δ(x)) → 0
y además que sean insesgados.
¿Cómo controlar sesgo y varianza simultáneamente?
Defina la siguiente cantidad

Sesgo2 (δ(X)) + Var(δ(X)) = (Eθ [δ(X)] − θ)2 + E[[δ(X) − E[δ(X)]]2 ]


= E[(Eθ [δ(X)] − θ)2 + [δ(X) − E[δ(X)]]2 ]
| {z } | {z }
A2 B2
= E[A2 + B − 2(E[δ(X)] − θ)(δ(X) − E[δ(X)])]
2
=0
= E[(E[δ(X)] − θ − E[δ(X)] + δ(X))2 ]
= E[(δ(X) − θ)2 ] = M SE(δ(X))

Si δ tiene varianza finita, entonces el error cuadrático medio (MSE) de δ(x)


cumple que:

M SEθ (δ(X)) = Sesgo2 (δ(X)) + Var(δ(X)).

Ejemplo. Comparar θ̂ y U = 2
T
en términos del MSE.
122 CAPÍTULO 9. ESTIMACIÓN INSESGADA
 
θ2 2
Dado que Var 1
T
= 4
, se tiene
  2
MSE(U ) = Var 2
T
= 4 θ4 = θ2 .
var(U) + mean(U - theta_real)ˆ2

## [1] 23.42551
 
θ2 9θ2 5θ2
MSE(θ̂) = (Sesgo(θ̂))2 + Var 3
T
= 4
+ 4
= 2
.
var(theta_hat) + mean(theta_hat - theta_real)ˆ2

## [1] 57.71831
U es mejor estimador en términos de MSE que θ̂.
Nota: El estimado bayesiano es θBayes = 4
2+T
y este es mejor en términos de
MSE.
theta_bayes <- 4 / (2 + T)
var(theta_bayes) + mean(theta_bayes - theta_real)ˆ2

## [1] 11.89967

9.2. Estimación insesgada de la varianza


Teorema. Si X1 , . . . , Xn ∼ Fθ con varianza finita y g(θ) = Var(X1 ) entonces

1 X
σ̂12 = (Xi − X̄n )2
n−1

es un estimador insesgado de σ 2 .
Prueba. Recuerde que:

n n  2  2
(Xi − µ)2 = + n X̄n − µ (9.1)
X X
Xi − X̄n
i=1 i=1

 2
Por lo tanto si σ̂02 = Xi − X̄n , entonces:
1 Pn
n i=1

2 β2
Si X ∼ Gamma-Inversa(α, β) entonces Var(X) = (α−1)2 (α−2) .
9.2. ESTIMACIÓN INSESGADA DE LA VARIANZA 123


Pn  2 
Xi − X̄n 1X n−1 2
" #
σ2
 
i=1
E[σ̂02 ] = =E (Xi −µ)2 −E[(X̄n −µ)2 ] = σ 2 − = σ .
 
E
n n n n

Para que σ̂02 sea insesgado,

" #
n
E σ̂ 2 = E[σ̂12 ] = σ 2 .
n−1 0

Entonces σ̂12 es estimador insesgado de σ 2 .

i.i.d
Ejemplo. Sean X1 , . . . , Xn ∼ Poi(θ). E(Xi ) = Var(Xi ) = θ. Estimadores
insesgados de θ son:

1. X̄n .

2. σ̂12 .

3. Si α ∈ (0, 1), T = αX̄n + (1 − α)σ̂12 también es un estimador insesgado.


X <- matrix(rpois(n = 1000 * 100, lambda = 2), nrow = 100)

m <- apply(X, 1, mean)


v <- apply(X, 1, var)
a <- apply(X, 1, function(x, alpha) {
alpha * mean(x) + (1 - alpha) * var(x)
}, alpha = 1 / 3)

hist(m)
124 CAPÍTULO 9. ESTIMACIÓN INSESGADA

Histogram of m
20
15
Frequency

10
5
0

1.90 1.95 2.00 2.05 2.10

hist(v)

Histogram of v
35
30
25
Frequency

20
15
10
5
0

1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4

v
9.2. ESTIMACIÓN INSESGADA DE LA VARIANZA 125

hist(a)

Histogram of a
25
20
Frequency

15
10
5
0

1.8 1.9 2.0 2.1 2.2 2.3

Ejemplo. En el caso de una muestra normal con media µ y varianza σ 2


desconocidas, ¿Cuál estimador tiene menor MSE, σ̂02 o σ̂12 ?
 2
Defina Tc = c ni=1 Xi − X̄n . Si c = 1/n, Tc = σ̂0 y si c = 1/(n − 1),
P

Tc = σ̂1 . De esta manera,

M SEσ2 (Tc ) = E[(Tc − σ 2 )2 ] = (E(Tc ) − σ 2 )2 + Var(Tc ).

" n #
X 2
E[Tc ] = cE Xi − X̄n
i=1
" Pn  2 #
i=1 Xi − X̄n
= c(n − 1)E
n−1
= c(n − 1)σ 2 .
126 CAPÍTULO 9. ESTIMACIÓN INSESGADA

n 
!
2
Var(Tc ) = c Var
2
X
Xi − X̄n
i=1
 
(Xi − X̄n )2 
= c Varσ
2 2
X
2
| {zσ }
∼χ2n−1

= 2(n − 1)c2 σ 4 .

Entonces

MSEσ2 (Tc ) = [c(n−1)σ 2 −σ 2 ]2 +2c2 σ 4 (n−1) = [[c(n−1)−1]2 +2c2 (n−1)]σ 4 .

Optimizando,

mı́n
c
MSE(Tc ) = mı́n
c
[(n2 − 1)c2 − 2(n − 1)c + 1],

(Xi −X̄n )
Pn 2

se resuelve tomando ĉ = 1
n+1
.
Así, T 1 = n+1
es el mejor estimador
i=1
n+1
de σ en el sentido de MSE. Aunque se puede demostrar que este estimador
2

es inadmisible. (Stein, 1964)


Ejercicio. Calcule el MSE de σ̂02 y σ̂12 y compare los resultados.

9.3. Información de Fisher


¿Cómo cuantificar la información acerca de un parámetro contenida en la
muestra?
Sea X ∼ f (x|θ), θ ∈ Ω ⊂ R parámetro fijo.
Supuesto 1 : para cada x ∈ X (espacio muestral de X): f (x|θ) > 0
∀θ ∈ Ω. Esto quiere decir que el conjunto en donde f (x|θ) se anula no
depende de θ.
Supuesto 2 : f (x|θ) es dos veces diferenciable.
9.3. INFORMACIÓN DE FISHER 127

Ejemplo. En el caso de que X ∼ Unif[0, θ] se tiene que f (x|θ) = 1(0,θ) (x).


En este caso no aplica el supuesto, ya que si x > θ, f (x|θ) = 0.
Definición. Se define:

λ(x|θ) := log f (x|θ)

cuyas derivadas son



λ0 (x|θ) = log f (x|θ) (función Score)
∂θ
∂2
λ (x|θ) = 2 log f (x|θ)
00
∂θ

Definición. Bajo los supuestos 1 y 2, la información de Fisher (I(θ)) de


X es
I(θ) = E[(λ0 (X|θ))2 ]
donde la esperanza es integral o suma, dependiendo de la naturaleza de X.
Por ejemplo si X es una v.a. continua:
Z
2
I(θ) = [λ0 (x | θ)] f (x | θ)dx (9.2)
X

Supuesto 3: Las dos derivadas de f (x|θ)dx con respecto a θ se pueden


R
X
calcular de la siguiente forma:

d Z Z
d
f (x|θ)dx = f (x|θ)dx
dθ X X dθ
d2 Z Z
d2
f (x|θ)dx = f (x|θ)dx
dθ2 X X dθ 2

Teorema. Bajo los Supuestos 1,2 y 3 se cumple que:

I(θ) = −Eθ [λ00 (X|θ)] = Var[λ0 (X|θ)]


.
Prueba:
128 CAPÍTULO 9. ESTIMACIÓN INSESGADA

Z
E[λ (X|θ)] =
0
λ0 (x|θ)f (x|θ)dx
X
Z
f 0 (x|θ)
= f (x|θ)dx
X f (x|θ)
Z
= f 0 (x|θ)dx
X
d Z
= f (x|θ)dx (por supuesto 3.)
dθ X
d
= 1=0

En consecuencia,
Var(λ0 (X|θ)) = E[(λ0 (X|θ))2 ] − 0 = I(θ).

Además,
!0
f 0 (x|θ) f (x|θ)f 00 (x|θ) − f 0 (x|θ)2 f 00 (x|θ)
λ (x|θ) =
00
= = − (λ0 (x|θ))2
f (x|θ) f (x|θ)
2 f (x|θ)

Note que (por los supuestos 2 y 3),

f 00 (X|θ) f 00 (x|θ)
" Z #
E = f (x|θ)dx
f (X|θ) X f (x|θ)
" #
d d Z
= f (x|θ)dx
dθ dθ X
" #
d d
= 1 =0
dθ dθ

Entonces,
f 00 (X|θ)
" #
E[λ (X|θ)] = E
00
− E[(λ0 (X|θ))2 ] = −I(θ).
f (X|θ)

Consecuencia: λ0 (X|θ) es una variable aleatoria centrada y su varianza es


I(θ).
Ejemplo. Suponga que X ∼ Bernoulli(p).
9.3. INFORMACIÓN DE FISHER 129

f (x|p) = px (1 − p)1−x , x = 0, 1 satisface supuesto 1.


Z
f (x|p)dx = f (0|p) + f (1|p) satisface los supuestos 2 y 3.
X

Entonces,
λ(x|p) = ln[px (1 − p)1−x ] = x ln p + (1 − x) ln(1 − p).
λ0 (x|p) = x
p
− 1−x
1−p
.
λ00 (x|p) = − px2 − 1−x
(1−p)2
.
De esta manera,

1−X 1−p 1 1
" #
X p
I(p) = E + = + = = .
p (1 − p)2 p2 (1 − p)2 p(1 − p) Var(X)

Ejemplo. X ∼ N (µ, σ 2 ), µ desconocida, σ 2 conocida.


1 1
 
f (x|µ) = √ exp − 2 (x − µ)2
2πσ 2 2σ

Vea que
d Z Z
f (x|µ)dx = f 0 (x|µ)dx
dµ R R
1 2(x − µ) 1
Z  
= −√ exp − 2 (x − µ) dx
2
R 2πσ 2 2σ 2 2σ
1 Z u − u2 x−µ
=− 2 √ e 2 du = 0 usando el cambio de variable
σ R 2π σ
| {z }
E[N (0,1)]

por lo que cumple el tercer supuesto (Ejercicio: condición sobre segunda


derivada).
Entonces
λ(x|µ) = 12 ln(2πσ 2 ) − 1
2σ 2
(x − µ)2 .
λ0 (x|µ) = 1
2σ 2
2(x − µ) = x−µ
σ2
.
λ00 (x|µ) = − σ12 .
130 CAPÍTULO 9. ESTIMACIÓN INSESGADA

Por lo que

1
I(µ) = −E[λ00 (x|µ)] =
Var(X)

Definición. Suponga que X = (X1 , . . . , Xn ) es una muestra independiente


de f (x|θ) donde f satisface los tres supuestos anteriores. Defina λn (x|θ) =
log fn (x|θ). La información de Fisher de X es

In (θ) = E[(λ0n (X|θ))2 ] = −E[λ00n (x|θ)].

Nota. Observe que


n
λn (X|θ) = log fn (X|θ) =
X
λ(Xi |θ)
i=1

lo que implica que


n
λ00n (X|θ) = λ00 (Xi |θ).
X

i=1

De esta forma,
n
In (θ) = −E[λ00 (X|θ)] = − E[λ00 (Xi |θ)] = nI(θ).
X

i=1

Ejemplo. Suponga que una compañía quiere conocer como se comportan sus
clientes en sus tiendas. Hay dos propuestas para este modelo
Un modelo Poisson de parámetro tθ (t es cualquier valor) para deter-
minar la tasa promedio de llegada de clientes por unidad de tiempo θ.
Y ∼ Poisson(θt) y Y : número de clientes que llegan a la tienda a lo
largo de t unidades de tiempo.
Un modelo donde cada cliente es una v.a. exponencial con tasa de llegada
por unidad de tiempo θ y al final se sumará todas las variables para
obtener una Gamma(n, θ). X ∼ ni=1 Exp(θ) = Γ(n, θ) y X: tiempo
P

necesario (en unidades de tiempo) para que lleguen n clientes a la tienda.


9.3. INFORMACIÓN DE FISHER 131

Se asume que el tiempo de llegada de cada cliente es independiente.


¿Cuál variable contiene más información de θ: X o Y ?
Solución:
Para Y ,
y
f (y|θ) = e−tθ (tθ)
y!
.
λ(y|θ) = tθ + y ln(tθ) − ln y!.
λ0 (y|θ) = −t + ty

.
λ00 (y|θ) = − θy2 .
Entonces,
E[Y ] t
IY (θ) = −E[λ00 (y|θ)] = 2
= .
θ θ

Como ejercicio, verifique que IX (θ) = n


θ2
.
Ambas variables tienen la misma información si

t n θ2 t
IY (θ) = IX (θ) =⇒ = 2 =⇒ n = = tθ.
θ θ θ

lo cual es esperable en términos del problema. A partir de este ejercicio vamos


a hacer un pequeño ejemplo de simulación.
Suponga que t es el tiempo que se quiere medir la cantidad de clientes
(minutos), θ es la cantidad de clientes por minuto y n es el número de clientes
que entran.
t <- 20
theta <- 5
n <- t * theta

Y <- rpois(n = 1000, lambda = t * theta)


X <- rgamma(n = 1000, shape = n, rate = theta)

Ojo que según lo estimado ambas informaciones de Fisher debería dar aproxi-
madamente igualdad.
132 CAPÍTULO 9. ESTIMACIÓN INSESGADA

Para Y tenemos que


mean(Y / thetaˆ2)

## [1] 3.99104

Para X por otro lado la información de Fisher es constante (¿Por qué?)


n / thetaˆ2

## [1] 4

Entonces bajo este criterio, ambas variables contienen la misma información,


aunque modelen el problema desde ópticas diferentes.

El proceso Y (Poisson) modela cuántas personas en total entran a la tienda


en 20 minutos, asumiendo una tasa de entrada de 5 personas por minuto.
hist(Y)

Histogram of Y
200
150
Frequency

100
50
0

70 80 90 100 110 120 130

El proceso X (Gamma) modela cuánto tiempo se debe esperar para que 100
personas entren a la tienda, asumiendo una tasa de entrada de 5 por minuto.
hist(X)
9.4. DESIGUALDAD DE CRAMÉR-RAO 133

Histogram of X
200
150
Frequency

100
50
0

14 16 18 20 22 24 26 28

Ejercicio: Basado en los valores de la simulación, proponga dos valores de t


para que

X tenga más información de θ que Y .


Y tenga más información de θ que X.

9.4. Desigualdad de Cramér-Rao


Teorema. Si X = (X1 , . . . , Xn ) muestra aleatoria de f (x|θ). Asuma que los
tres supuestos anteriores son válidos para f . Sea T = r(X) un estadístico con
varianza finita. Sea m(θ) = Eθ [T ] y asuma que m es una función diferenciable
de θ. Entonces:
[m0 (θ)]2 [m0 (θ)]2
Varθ (T ) ≥ = .
In (θ) nI(θ)

La igualdad se da si y solo si existen funciones u(θ) y v(θ) que no dependen


de X tales que cumplen:

T = u(θ)λ0n (X|θ) + v(θ).


134 CAPÍTULO 9. ESTIMACIÓN INSESGADA

Prueba. Recuerden que para el caso univariado:


Z
f 0 (x|θ)dx = 0.
X

Para el caso multivariado, lo mismo aplica:

Z Z
fn0 (x|θ)dx1 · · · dxn = [f (x1 |θ) · · · f (xn |θ)]0 dx1 · · · dxn
Xn Xn
d Z
= f (x1 |θ) · · · f (xn |θ)dx1 · · · dxn
dθ X n
d
= 1

= 0.

Entonces

Z
fn0 (x|θ)
E[λ0n (X|θ)] = fn (x|θ)dx1 · · · dxn = 0
Xn f (x|θ)

Por lo tanto,

Covθ [T, λ0n (X | θ)] = Eθ [T λ0n (X | θ)]


Z
= r(x)λ0n (x | θ)fn (x | θ)dx1 . . . dxn
Xn
Z
fn0 (x|θ)
= r(x) fn (x|θ)dx1 · · · dxn
Xn fn (x|θ)
Z
= r(x)fn0 (x | θ)dx1 . . . dxn
Xn

Sea
Z
m(θ) = r(x)fn (x | θ)dx1 . . . dxn
Xn

Usando el supuesto de intercabio de integrales, tenemos que


Z
m0 (θ) = r(x)fn0 (x | θ)dx1 . . . dxn
Xn
9.4. DESIGUALDAD DE CRAMÉR-RAO 135

Entonces tenemos que

d Z
Cov[T, λ0n (X|θ)] = r(x)fn (x|θ)dx1 · · · dxn
dθ X n
d d
= Eθ [r(X)] = Eθ [T ] = m0 (θ)
dθ dθ

Considere el coeficiente de correlación


Cov[T, λ0n (X|θ)]
ρ= q q .
Var(T ) Var(λ0n (X|θ))

Dado que |ρ| ≤ 1 =⇒ ρ2 ≤ 1, se tiene que

Cov[T, λ0n (X|θ)]2 ≤ Var(T )Var(λ0n (X|θ)) =⇒ [m0 (θ)]2 ≤ Var(T )In (θ).
[m0 (θ)]2
Entonces Var(T ) ≥ In (θ)
.
Caso particular. Si T es un estimador insesgado de θ, entonces Varθ (T ) ≥
1
In (θ)
.
Ejemplo. X1 , . . . , Xn ∼ Exp(β), n > 2.
f (x|β) = βe−βx , x > 0.
λ(x|β) = ln f (x|β) = ln β − βx.
λ0 (x|β) = 1
β
− x.
λ00 = − β12 .
Vea que Z ∞
1= βe−βx dx = u→∞
lı́m F (u) = u→∞
lı́m [1 − e−βu ]
0

y el supuesto 3 se puede verificar por la diferenciabilidad de 1 − e−βu .


Así,
1 n
I(β) = −E[λ00 (x|β)] = , In (β) = .
β2 β2
136 CAPÍTULO 9. ESTIMACIÓN INSESGADA

Por ejemplo generemos una secuencia de valores de β de 1 hasta 5 para


observar el comportamiento de su información de Fisher.
beta <- seq(1, 5, length.out = 100)
n <- 100

lista_muestras <- lapply(


X = beta,
FUN = function(b) {
matrix(rexp(n = n * 500, rate = b), nrow = 500)
}
)

plot(beta, n / betaˆ2)
100
80
60
n/beta^2

40
20

1 2 3 4 5

beta

Considere el estadístico T = Pn−1


n
Xi
. Se puede comprobar que T es un
i=1
β2
estimador insesgado de β y la varianza de T es n−2
. (Ejercicio)

La cota de Cramér Rao, bajo cualquier estimador insesgado es


9.4. DESIGUALDAD DE CRAMÉR-RAO 137

1 β2
= ,
In (β) n

por lo que T no satisface la cota de Cramér Rao.

Este comportamiento podemos observarlo con nuestro ejemplo numérico.


estimador1 <- sapply(
X = lista_muestras,
FUN = function(x) {
apply(x, 1, function(xx) (n - 1) / sum(xx))
}
)

plot(beta, apply(X = estimador1, MARGIN = 2, FUN = mean))


apply(X = estimador1, MARGIN = 2, FUN = mean)

5
4
3
2
1

1 2 3 4 5

beta

plot(beta, apply(X = estimador1, MARGIN = 2, FUN = var))


lines(beta, betaˆ2 / n, col = "blue")
lines(beta, betaˆ2 / (n - 2), col = "red")
138 CAPÍTULO 9. ESTIMACIÓN INSESGADA

apply(X = estimador1, MARGIN = 2, FUN = var)

0.25
0.20
0.15
0.10
0.05

1 2 3 4 5

beta

Ahora, estime θ = 1
β
= m(β). Un estimador insesgado de θ es T = X̄n :

1 Var(X1 ) 1
E[X̄n ] = E[X1 ] = = θ, Var(X̄n ) = = .
β n nβ 2

La cota de Cramér es

(m0 (β))2 (−1/β 2 )2 β2 1


= = = .
In (β) n/β 2 nβ 4 nβ 2

X̄n satisface la cota de Cramér-Rao y además


n n 1 1
λ0 (X|β) = − nX̄n = − nT =⇒ T = − λ0n (X|β) + .
β β n
|{z} β
|{z}
u(β) v(β)

estimador2 <- sapply(


X = lista_muestras,
FUN = function(x) {
apply(x, 1, function(xx) mean(xx))
9.4. DESIGUALDAD DE CRAMÉR-RAO 139

}
)

plot(1 / beta, apply(X = estimador2, MARGIN = 2, FUN = mean))


apply(X = estimador2, MARGIN = 2, FUN = mean)

1.0
0.8
0.6
0.4
0.2

0.2 0.4 0.6 0.8 1.0

1/beta

plot(beta, apply(X = estimador2, MARGIN = 2, FUN = var))


lines(beta, 1 / (n * betaˆ2), col = "blue")
140 CAPÍTULO 9. ESTIMACIÓN INSESGADA

apply(X = estimador2, MARGIN = 2, FUN = var)

0.008
0.004
0.000

1 2 3 4 5

beta

9.5. Estimadores eficientes


Definición. T es un estimador eficiente de su esperanza m(θ) si su varianza
es la cota de CR.
Ejemplo. X1 , . . . , Xn ∼ Poi(θ). X̄n es un estimador eficiente.
nX̄n
Verosimilitud: fn (X|θ) = enθ Q
θ
Xi !
.

λn (X|θ) = −nθ + nX̄n ln θ − ln Xi !.


Q

λ0n (X|θ) = −n + cX̄n


θ
.

λ00n (X) = − nθX̄2n .


Entonces
n n
In (θ) = E[ X̄ n ] = .
θ2 θ

La cota de CR es nθ , pero

Var(X1 ) θ
Var(X̄n ) = = .
n n
9.6. COMPORTAMIENTO ASINTÓTICO DEL MLE 141

Por lo que X̄n es eficiente.


Los otros candidatos para estimar θ
1 X n  2
σ̂12 = Xi − X̄n
n − 1 i=1
y
αX̄n + (1 − α)σ̂12
no son lineales con respecto a λ0 (X|θ) por lo que tienen mayor varianza que
X̄n .

9.6. Comportamiento asintótico del MLE


Teorema. Bajo las mismas condiciones anteriores y si T es un estimador
eficiente de m(θ) y m0 (θ) 6= 0, entonces
1 d
√ [T − m(θ)] →
− N (0, 1)
CR

donde CR es la cota de Cramér-Rao.


Prueba. Recuerde que λ0n (X|θ) = λ0 (Xi |θ). Como X es una muestra,
Pn
i=1
λ0 (Xi |θ) son i.i.d, y

E[λ0 (Xi |θ)] = 0, Var(λ0 (Xi |θ)) = I(θ).

Como T es estimador eficiente de m(θ),

(m0 (θ))2
E[T ] = m(θ), Var(T ) =
nI(θ)

y existen u(θ) y v(θ) tal que

T = u(θ)λ0n (X|θ) + v(θ).


E[T ] = u(θ)E[λ0 (X|θ)] + v(θ) =⇒ v(θ) = m(θ).
m0 (θ)
Var(T ) = u2 (θ)In (θ) =⇒ u(θ) = nI(θ)
. (s.p.d.g.)
142 CAPÍTULO 9. ESTIMACIÓN INSESGADA

m0 (θ) 0
Entonces T = λ (X|θ)
nI(θ) n
+ m(θ). Por lo tanto,

#1 #1
1
" "
nI(θ) 2 2
[T − m(θ)] = λ0n (X|θ) −−−→ N (0, 1).
m0 (θ)2 nI(θ) n→∞

por el Teorema del Límite Central.


Teorema. Suponga que el MLE θ̂n se obtiene al resolver λ0 (x|θ) = 0. Además,
λ00 (x|θ) y λ000 (x|θ) existen y cumplen condiciones de regularidad (algo similar
a los tres supuestos sobre f ). Entonces:

[nI(θ)]1/2 (θ̂n − θ) → N (0, 1).

2 1/2
" #

Ejemplo. X1 , . . . , Xn ∼ N (0, σ ), con σ desconocida. σ̂n =
2 1 Pn
n i=1 Xi − X̄n
es MLE de σ y I(σ) = 2
σ2
. Usando el teorema anterior,
s
2n
(σ̂n − σ) ∼ N (0, 1) .
σ2 n→∞

O lo que es equivalente a
!
σ2
∼ N σ,
σ̂n n→∞ .
2n

Ejercicio: Verifique que s


σ2
σ̂n ± z 1+γ
2 2n
es un intervalo de confianza para σ al 100γ %.
Ejercicio: Suponga que se le da los siguientes datos
X <- rnorm(n = 1000, mean = 5, sd = 1)

Encuentre un intervalo de confianza observado para σ a través de una trans-


formación sobre el estadístico σ̂n .
Sugerencia: Note que la varianza de σ̂n depende del parámetro desconocido σ.
Aplique el método Delta para encontrar una función que estabilice la varianza.
9.6. COMPORTAMIENTO ASINTÓTICO DEL MLE 143

Consecuencia en estimación bayesiana. Suponga que la previa de θ es


positiva y diferenciable con respecto a θ. Bajo condiciones similares a la
condiciones de regularidad del teorema anterior:

1
!
∼ N θ̂n ,
θ|X n→∞ .
nI(θ̂n )

donde θ̂n es el MLE de θ.


Nota: un IC para θ en este caso tiene un error estándar que depende del
MLE.
144 CAPÍTULO 9. ESTIMACIÓN INSESGADA
Capítulo 10

Pruebas de hipótesis

10.1. Pruebas de hipótesis


Ejemplo: Suponga que se hace un experimento donde se seleccionan 52
nubes al azar y 26 se les inyecta nitrato de plata y a las otras 26 no. Estamos
interesados en saber cuál de los dos grupos produce más lluvia, o bien si en
uno de los grupos hay más de un cierto valor de lluvia.
Los datos de la cantidad de lluvia para este experimento están acá.
nubes <- read.table(file = "./data/clouds.txt", sep = "\t", header = TRUE)
head(nubes)

## Unseeded.Clouds Seeded.Clouds
## 1 1202.6 2745.6
## 2 830.1 1697.8
## 3 372.4 1656.0
## 4 345.5 978.0
## 5 321.2 703.4
## 6 244.3 489.1
Sin embargo usaremos los datos en escala logarítmica para facilitar el cálculo
lognubes <- log(nubes)
head(lognubes)

## Unseeded.Clouds Seeded.Clouds

145
146 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

## 1 7.092241 7.917755
## 2 6.721546 7.437089
## 3 5.919969 7.412160
## 4 5.844993 6.885510
## 5 5.772064 6.555926
## 6 5.498397 6.192567

Observe que el comportamiento es distinto en ambos casos.


df <- as.data.frame(nubes) %> %
pivot_longer(
cols = everything(),
names_to = "tratamiento", values_to = "lluvia"
) %> %
mutate(log_lluvia = log(lluvia))

ggplot(data = df) +
geom_histogram(aes(
x = lluvia,
y = ..density..,
fill = tratamiento
),
color = "black", bins = 10
) +
facet_wrap(. ~ tratamiento)
10.1. PRUEBAS DE HIPÓTESIS 147

Seeded.Clouds Unseeded.Clouds
0.0025

0.0020

0.0015
tratamiento
density

Seeded.Clouds
Unseeded.Clouds
0.0010

0.0005

0.0000

0 1000 2000 3000 0 1000 2000 3000


lluvia

ggplot(data = df) +
geom_histogram(aes(
x = log_lluvia,
y = ..density..,
fill = tratamiento
), color = "black", bins = 10) +
facet_wrap(. ~ tratamiento)
148 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

Seeded.Clouds Unseeded.Clouds

0.3

0.2 tratamiento
density

Seeded.Clouds
Unseeded.Clouds

0.1

0.0

0 2 4 6 8 0 2 4 6 8
log_lluvia

En este caso supondremos que la variable log_lluvia se puede modelar como


una N (µ, σ 2 ), donde µ, σ son desconocidos.

Ejercicio: Calcule P(µ > 4|X) usando un modelo bayesiano Normal-Gamma.


Seleccionen los hiperparámetros de su previa de manera subjetiva. Corrobore
que en este caso la probabilidad tiene que dar ≈ 99 %, independientemente
de la escogencia de sus hiperparámetros.

Nota: La afirmación: µ > 4 nace normalmente a partir de una pregunta de


investigación y esta afirmación permite formular una hipótesis con respecto
a la población de donde se obtienen los datos. Otra manera de formularlo es
asumiendo que θ = (µ, σ 2 ) y cuestionándose: ¿Será cierto que θ ∈ {(µ, σ 2 ) :
µ > 4}?

Note que para el caso bayesiano, es posible calcular directamente P[µ > 4|X],
pero

¿Cómo resolverlo en el caso frecuentista?

Suponga que Ω = Ω0 ∪ Ω1 son conjuntos disjuntos tales que


10.2. REGIONES CRÍTICAS Y ESTADÍSTICOS DE PRUEBA 149

H0 : hipótesis en donde θ ∈ Ω0 .
H1 : hipótesis en donde θ ∈ Ω1 .

Objetivo. Decidir si H0 o H1 es cierto, con los datos disponibles (problema


de pruebas de hipótesis). Si hacemos alguna de las dos afirmaciones posible-
mente vamos a incurrir en un error que más adelante trataremos de definir y
optimizar.
Definiciones. H0 : hipótesis nula. H1 : hipótesis alternativa. Una vez que
se ha realizado una prueba de hipótesis si afirmamos θ ∈ Ω1 decimos que
rechazamos H0 . Si θ ∈ Ω0 , decimos que no rechazamos H0 .
Suponga que X1 , . . . , Xn ∼ f (x|θ), θ ∈ Ω, Ω = Ω0 ∪ Ω1 y queremos probar la
hipótesis H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 .
Definición Para i = 0, 1:
1. Si Ωi contiene solamente un valor de θ decimos que Hi es una hipótesis
simple.
2. Si Ωi contiene más de un valor de θ decimos que Hi es una hipótesis
compuesta.
3. Hipótesis compuestas de una cola. Si Ω0 = (−∞, θ0 ] decimos que
H0 : θ ≤ θ0 es una hipótesis de una cola con hipótesis alternativa
H1 : θ > θ0 . Por otro lado si Ω0 = [θ0 , +∞) decimos que H0 : θ ≥ θ0 es
una hipótesis de una cola con hipótesis alternativa H1 : θ < θ0 .
4. Cuando la hipótesis nula es simple, es decir H0 : θ = θ0 con hipótesis
alternativa H1 : θ 6= θ0 decimos que H1 es una hipótesis de 2 colas.

10.2. Regiones críticas y estadísticos de prue-


ba
Ejemplo. Suponga que X1 , . . . , Xn ∼ N (µ, σ 2 ) con µ desconocido y σ 2
conocido.
150 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

Queremos probar H0 : µ = µ0 vs H1 : µ 6= µ0 . La lógica de la solución de


este problema es: rechace H0 si µ̂ está “muy alejado” de µ0 , donde µ̂ es un
estimador de µ, por ejemplo la media empírica.
Siguiendo la solución anterior, seleccionamos un número c tal que se rechaza
H0 si |X̄n − µ0 | > c.
Fin de ejemplo
En general, suponga que queremos probar las hipótesis H0 : θ ∈ Ω0 vs
H1 : θ ∈ Ω1 , lo anterior cuando tenemos una muestra X1 , . . . , Xn ∼ f (x|θ).
Sea
S0 ⊂ X : conjunto en donde no se rechaza H0 y S1 ⊂ X : conjunto en donde
se rechaza H0 . A S1 se le llama región crítica de la prueba de hipótesis.
En el ejemplo anterior en donde se rechaza H0 si T > c con T = |X̄n − µ0 |, T
es el estadístico de prueba y (c, ∞) es la región de rechazo.
X <- matrix(rnorm(1000 * 1000, mean = 2, sd = 3), ncol = 1000)

Xbar <- apply(X, 2, mean)

mu0 <- 2
T <- abs(Xbar - mu0)

c <- seq(-0.25, 0.5, length.out = 1000)

df <- data.frame(c = numeric(), test = logical(), region = character())


for (k in 1:length(c)) {
df <- rbind(df, data.frame(c = c[k], test = mean(T >= c[k]),
region = "S_1"))
}

df <- rbind(df, data.frame(c, test = 1 - df$test, region = "S_0"))

ggplot(df, aes(x = c, y = test, color = region)) +


geom_line(size = 2) +
ylab("Promedio de veces donde T >= c") +
theme_minimal()
10.2. REGIONES CRÍTICAS Y ESTADÍSTICOS DE PRUEBA 151

1.00
Promedio de veces donde T >= c

0.75

region
0.50 S_0
S_1

0.25

0.00

-0.25 0.00 0.25 0.50


c

En este caso el valor donde decrece la curva es cercano a 0. Eso quiere decir
que antes de ese valor, nos encontramos en la región de rechazo. Luego esa
región se va haciendo cada vez más pequeña |X − µ| ≈ 0.

¿Qué pasaría si cambiamos a µ = 4?


mu0 <- 4
T <- abs(Xbar - mu0)

c <- seq(-0.25, 3, length.out = 1000)

df <- data.frame(c = numeric(), test = logical(), region = character())


for (k in 1:length(c)) {
df <- rbind(
df,
data.frame(c = c[k], test = mean(T >= c[k]), region = "S_1")
)
}

df <- rbind(df, data.frame(c, test = 1 - df$test, region = "S_0"))


152 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

ggplot(df, aes(x = c, y = test, color = region)) +


geom_line(size = 2) +
ylab("Promedio de veces donde T >= c") +
theme_minimal()

1.00
Promedio de veces donde T >= c

0.75

region
0.50 S_0
S_1

0.25

0.00

0 1 2 3
c

El valor donde comienza a crecer la curva se desvía a un valor cercano a 2.


Nota. En la mayoría de los casos, la región crítica se define en términos de
un estadístico T = r(x).
Definición. Sea X una muestra aleatoria con distribución f (x|θ), T = r(X)
un estadístico y R ⊂ R. Suponga que se puede verificar las hipótesis al
afirmar “rechazamos H0 si T ∈ R”, entonces definimos T como el estadístico
de prueba y R como la región de rechazo de la prueba.
Continuación del Ejemplo: Para el caso del ejemplo de la lluvia formulamos
las hipótesis:

H0 : µ ≤ 4 versus H1 : µ > 4

En este caso podríamos decir que rechazamos H0 si la media empírica es “más


10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 153

grande” que 4 y no rechazamos H0 si la media empírica es “más pequeña”


que 4.

El problema acá es que “más grande” y “más pequeña” no son términos


precisos. EN términos relativos, podemos usar el estadístico:

n1/2 (X̄n − 4)
U=
σ0

y rechazar H0 si U “es grande”.

10.3. Función de potencia y tipos de error


Sea δ un procedimiento de prueba (basado en una región crítica o en un
estadístico de prueba). Sea π(θ|δ) (función de potencia) la probabilidad
de que se rechace H0 a través de δ para θ ∈ Ω.

Si S1 es la región crítica de δ entonces π(θ|δ) = P(X ∈ S1 |θ) para θ ∈ Ω.

Si δ se describe a través de un estadístico de prueba T con región de rechazo


R, entonces π(θ|δ) = P(T ∈ R|θ) para θ ∈ Ω.

Nota. Función de potencia ideal: π(θ|δ) = 0 si θ ∈ Ω0 , y π(θ|δ) = 1 si θ ∈ Ω1 .

Ejemplo. En el caso de X1 , . . . , Xn ∼ N (µ, σ 2 ), µ desconocido, σ 2 conocido,


y tomando:

Estadístico de prueba: T = |X̄n − µ0 |.

Región de rechazo: R = (c, ∞).


!
σ2
Debido a que: X̄n ∼ N µ,
n

Función de potencia:
154 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

π(θ|δ) = P[T ∈ R|µ] = P[|X̄n − µ0 | > c|µ]


= P[X̄n > µ0 + c|µ] + P[X̄n < µ0 − c|µ]
√ (X̄n − µ) (µ0 + c − µ) √ √ (X̄n − µ) (µ0 − c − µ) √
" # " #
=P n > n µ + P n < n µ
σ σ σ σ
√ (µ0 + c − µ) √ (µ0 − c − µ)
! !
=1−Φ n +Φ n
σ σ

mu0 <- 4
c <- 2
n <- 100
sigma <- 3

mu <- seq(0, 8, length.out = 1000)

funcion_de_poder <- 1 -
pnorm(sqrt(n) * (mu0 + c - mu) / sigma) +
pnorm(sqrt(n) * (mu0 - c - mu) / sigma)

df <- data.frame(mu, funcion_de_poder, tipo = "Función de poder")

df <- rbind(df, data.frame(mu,


funcion_de_poder = 1 - df$funcion_de_poder,
tipo = "1 - Función de poder"
))

ggplot(df, aes(mu, funcion_de_poder, color = tipo)) +


geom_line(size = 2) +
theme_minimal()
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 155

1.00

0.75
funcion_de_poder

tipo
0.50 1 - Función de poder
Función de poder

0.25

0.00

0 2 4 6 8
mu

mu <- seq(0, 8, length.out = 100)


c <- seq(0, 4, length.out = 100)

mu_c <- expand.grid(mu, c)

funcion_de_poder_n_c <- 1 -
pnorm(sqrt(n) * (mu0 + mu_c[, 2] - mu_c[, 1]) / sigma) +
pnorm(sqrt(n) * (mu0 - mu_c[, 2] - mu_c[, 1]) / sigma)

library(scatterplot3d)

scatterplot3d(mu_c[, 2], mu_c[, 1], funcion_de_poder_n_c,


type = "p", angle = 60,
xlab = "c", ylab = "mu", zlab = "Función de poder"
)
156 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

1.0
0.8
Función de poder

0.6

mu
8
0.4

6
4
0.2

2
0.0

0
0 1 2 3 4

Tipos de error:
Al igual que en el proceso de estimación puntual, el proceso de inferencia
estadística involucrado en una prueba de hipótesis tiene un error asociado.
En este caso se puede cometer dos tipos de errores:
Error Tipo I : error de rechazar H0 si θ ∈ Ω0 .
Error Tipo II : error de no rechazar H0 si θ ∈ Ω1 .
En términos de la función de potencia tenemos que:
Si θ ∈ Ω0 : π(θ|δ) es el error tipo I.
Si θ ∈ Ω1 : 1 − π(θ|δ) es el error tipo II.
El objetivo es seleccionar una procedimiento de prueba o regla de decisión
δ que tenga un error pequeño. Es decir buscamos que π(θ|δ) sea pequeño
cuando θ ∈ Ω0 y al mismo tiempo requerimos que π(θ|δ) sea grande cuando
θ ∈ Ω1 . Una forma de alcanzar ese balance es seleccionar α0 ∈ (0, 1) tal que

π(θ|δ) ≤ α0 ∀θ ∈ Ω0 (∗)
y entre todas las pruebas que cumplan (∗) se selecciona aquella que maximice
la potencia para θ ∈ Ω1 .
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 157

En nuestro ejemplo suponga que elegimos α0 = 0,1. La región roja indica


donde estaría ubicado π(θ|δ) ≤ α0 .
ggplot() +
geom_line(
data = df,
mapping = aes(x = mu, y = funcion_de_poder, color = tipo), size = 2
) +
geom_rect(
data = data.frame(xmin = 0, xmax = 8, ymin = 0, ymax = 0.10),
mapping = aes(xmin = xmin, xmax = xmax, ymin = ymin, ymax = ymax),
alpha = 0.5, fill = "red"
) +
geom_hline(yintercept = 0.05) +
theme_minimal()

1.00

0.75
funcion_de_poder

tipo
0.50 1 - Función de poder
Función de poder

0.25

0.00

0 2 4 6 8
mu

Otra forma es minimizar;

w1 · Error I + w2 · Error II;


w1 , w2 constantes.
158 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

Nota. Bajo la primera solución se produce una asimetría entre las hipótesis,
ya que resulta difícil (o muy costoso) que ambas condiciones se cumplan. Por
lo general, se le da más énfasis a (∗), ya que se trata de controlar el error
más serio (Error tipo I). En este caso es importante anotar que un científico
puede seleccionar su hipótesis nula de manera que el error tipo I sea el más
deseable de controlar.
Definición. Una prueba que satisface (∗) se llama una prueba de nivel
α0 y decimos que la prueba tiene un nivel de significancia α0 . Además el
tamaño α(δ) de una prueba δ se define como:

α(δ) = sup π(θ|δ).


θ∈Ω0

Corolario. Una prueba δ es una prueba de nivel α0 si y solo si su tamaño


es a lo sumo α0 (α(δ) ≤ α0 ). En el caso de una hipótesis nula simple:
α(δ) = π(θ0 |δ).
Ejemplo. Suponga X1 , . . . , Xn ∼ Unif(0, θ), θ > 0 desconocido. Se quiere
probar las siguientes hipótesis:

H0 : 3 ≤ θ ≤ 4 H1 : θ < 3 o θ > 4.

El MLE de θ es Yn = X(n) . Si n es grande, Yn es muy cercano a θ.


Suponga que definimos que la prueba δ no rechaza H0 si 2,9 < Yn < 4 y
rechaza H0 si Yn ≥ 4 o Yn ≤ 2,9. Entonces R = (−∞, 2,9] ∪ [4, +∞) y la
función de potencia

π(θ|δ) = P[Yn ≤ 2,9|θ] + P[Yn ≥ 4|θ]

π(θ|δ) se calcula en varios casos:


Si θ ≤ 2,9 =⇒ P[Yn ≤ 2,9|θ] = 1 y P[Yn ≥ 4|θ] = 0.
2,9
 n
Si 2,9 < θ ≤ 4 =⇒ P[Yn ≤ 2,9|θ] = i=1 P[Xi ≤ 2,9|θ] = y
Qn
θ
P[Yn ≥ 4|θ] = 0.
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 159

2,9 n
 n
Si θ > 4 =⇒ P[Yn ≤ 2,9|θ] = y P[Yn ≥ 4|θ] = 1 −
Y
P[Xi <
θ i=1
4
 n
4|θ] = 1 − .
θ

Entonces



1 si θ ≤ 2,9
 2,9 n

 

π(θ|δ) =  si 2,9 < θ ≤ 4
θ  n
2,9 4
  n
1 + si θ > 4




θ θ

theta <- seq(1, 6, length.out = 1000)


n <- 5

funcion_poder <- numeric()

for (k in 1:length(theta)) {
if (theta[k] < 2.9) {
funcion_poder[k] <- 1
} else if (theta[k] > 2.9 & theta[k] <= 4) {
funcion_poder[k] <- (2.9 / theta[k])ˆn
} else if (theta[k] > 4) {
funcion_poder[k] <- (2.9 / theta[k])ˆn + 1 - (4 / theta[k])ˆn
}
}

plot(theta, funcion_poder, type = "l")


160 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

1.0
0.8
funcion_poder

0.6
0.4
0.2

1 2 3 4 5 6

theta

Note, además, que el tamaño de prueba es

2,9 2,9
 n  n
α(δ) = sup π(θ|δ) = sup = .
3≤θ≤4 3≤θ≤4 θ 3

n <- 1:100

plot(n, (2.9 / 3)ˆn)


10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 161
1.0
0.8
0.6
(2.9/3)^n

0.4
0.2
0.0

0 20 40 60 80 100

2,9
 68
Si n = 68 =⇒ α(δ) = = 0,0997.
3
Entonces si n = 68, entonces δ es una prueba con nivel de significancia
α0 ≥ 0,0997.
Pregunta importante: ¿Cómo diseñar una prueba para que tenga un cierto
nivel de significancia?
Suponga que queremos probar H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 . Sea T un estadístico
de prueba y suponga que si T ≥ c, c constante, entonces rechazamos H0 .
Si queremos que nuestra prueba tenga nivel de significancia α0 entonces:

π(θ|δ) = P(T ≥ c|θ) y sup P[T ≥ c|θ] ≤ α0 (∗)


θ∈Ω0

Note que π(θ|δ) es función no-creciente de c, entonces (∗) se cumple para


valores grandes de c, si θ ∈ Ω0 . Si θ ∈ Ω1 , debemos escoger c pequeño para
maximizar π(θ|δ).
Ejemplo. En el caso normal, donde H0 : µ = µ0 y rechazamos H0 si |X̄n −
µ0 | ≥ c. Entonces:
162 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

sup P[T ≥ c|θ] = Pµ0 [|X̄n − µ0 | ≥ c] ≤ α0 .


θ∈Ω0

!
σ2
Como bajo H0 : Y = X̄n − µ0 ∼ N 0, , entonces podemos encontrar c tal
n
que
P[|X̄n − µ0 | ≥ c] = α0 ,
y cualquier c mayor va a cumplir (∗).
De esta manera el problema se convierte en encontrar c∗ tal que P[|Z| > c∗ ] =
X̄n − µ0
α0 , donde Z = √ .
σ/ n
Note que

α0 = P(|Z| > c∗ )
= P(Z > c∗ ) + P(Z < −c∗ )
= 1 − P(Z ≤ c∗ ) + P(Z < −c∗ )
= 1 − P(Z ≤ c∗ ) + 1 − P(Z < c∗ )
= 2 − 2P(Z ≤ c∗ )

Entonces

α0
P(Z ≤ c∗ ) = 1 −
2

Por lo tanto el c∗ que se busca es

α0
 
c∗ = FZ−1 1 −
2

En el caso particular de la normal denotaremos F como Φ. Entonces,

α0
Φ(c∗ ) = 1 − =⇒ c∗ = z1− α20 .
2
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 163

Procedimiento: rechazamos H0 si


X̄ − µ
n 0
|Z| = √ ≥ z1− α20 .
σ/ n

n <- 10
alpha0 <- 0.05
X <- rnorm(n = n, mean = 5, sd = 1)
Xbar <- mean(X)
mu0 <- 5

Z <- sqrt(n) * (Xbar - mu0) / 1

(q <- qnorm(1 - alpha0 / 2))

## [1] 1.959964
dnorm_limit <- function(x, q) {
y <- dnorm(x)
y[-q <= x & x <= q] <- NA
return(y)
}

ggplot(data.frame(x = c(-3, 3)), aes(x)) +


stat_function(
fun = dnorm_limit, geom = "area", args = list(q = q),
fill = "blue", alpha = 0.2
) +
stat_function(fun = dnorm) +
theme_minimal()
164 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

0.4

0.3

0.2
y

0.1

0.0

-2 0 2
x

La pregunta que debemos siempre responder es ¿Rechazamos H0 ?


abs(Z) > q

## [1] FALSE

Si repetimos el ejercicio anterior, pero los datos tiene media igual a 1 y


dejamos que µ0 = 5, entonces
n <- 10
alpha0 <- 0.05
X <- rnorm(n = n, mean = 1, sd = 1)
Xbar <- mean(X)
mu0 <- 5

Z <- sqrt(n) * (Xbar - mu0) / 1

Si preguntamos ¿Rechazamos H0 ?
abs(Z) > q

## [1] TRUE
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 165

mu0 <- 5
n <- 10
sigma <- 1
alpha0 <- 0.05
c <- qnorm(1 - alpha0 / 2) * sigma / sqrt(n)

mu <- seq(3, 7, length.out = 1000)

funcion_de_poder <- 1 -
pnorm(sqrt(n) * (mu0 + c - mu) / sigma) +
pnorm(sqrt(n) * (mu0 - c - mu) / sigma)

plot(mu, funcion_de_poder, type = "l", lwd = 2)


abline(h = 0.05, col = "red", lwd = 2)
1.0
0.8
funcion_de_poder

0.6
0.4
0.2

3 4 5 6 7

mu

Ejemplo. Suponga que X1 , . . . , Xn ∼ Ber(p) y se quiere probar las hipótesis:


H0 : p ≤ p0 vs H1 : p > p0

Sea Y = ni=1 Xi ∼ Binomial(n, p). Es trivial concluir que entre más grande
P

es p entonces más grande esperamos que sea Y . Podemos definir la regla que
166 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

rechaza H0 si Y ≥ c para alguna constante c.


La potencia de prueba es:

n
! n
! !y
n y n p
P[Y ≥ c|p] = p (1 − p)n−y = (1 − p)n
X X

y=c y y=c y 1−p


| {z }
g(p)

y además note que g(p) es monótona con respecto a p. Entonces:

sup P[Y ≥ c|p] = P[Y ≥ c|p0 ] ≤ α0 .


p≤p0

Si n = 10, p0 = 0,3, α0 = 10 %, entonces

c 0 1 2 3 4 5 6
P[Y ≥ c|p0 ] 1 0.97 0.85 0.62 0.35 0.15 0.05

Para que el tamaño sea menor que 10 % seleccione c > 5. Si c ∈ [5, 6] entonces
el nivel de significancia es a lo sumo 0,15 y la prueba no cambia (ya que Y es
una variable discreta).
c <- 5
n <- 10
alpha0 <- 0.05
p <- seq(0, 1, length.out = 1000)

funcion_de_poder <- 1 - pbinom(q = c, size = n, prob = p)

plot(p, funcion_de_poder, type = "l", lwd = 2)


abline(h = 0.05, col = "red", lwd = 2)
10.4. VALOR P 167
1.0
0.8
funcion_de_poder

0.6
0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Procedimiento: rechazamos H0 : p ≤ 0,3 si Y ≥ c, c ∈ (5, 6] con un nivel de


significancia de 10 % a lo sumo.

10.4. Valor p
Restricción. El procedimiento de prueba depende de α0 .
Pregunta. ¿Será posible construir un estadístico que resuma el grado de
evidencia en los datos en contra de H0 ?
Respuesta. Cualquier procedimiento usa las siguientes dos fuentes:
1. El valor observado del estadístico de prueba.
2. Todos los valores de α0 en donde rechazamos la nula.
Ejemplo (Caso Normal). Se rechaza H0 : µ = µ0 si |Z| > z1− α20
Ahora si α0 = 0,05 y z1− α20 = 1,96, entonces para Z = 1,97 y Z = 2,78 y
Z = 6,97 todos cumplen esa condición.
Entonces la preguntas son:
168 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

¿Bajo cuál escogencia de Z estamos más alejados (o más cerca) de no


rechazar H0 bajo un α0 fijo?
Si otro investigador toma una α0 distinto, ¿cómo se compara la decisión
que toma al observar Z con la que hizo el primer investigador?
Solución: no reportar el valor α0 sobre el cual se determina la decisión δ, sino
reportar todos los valores α0 para los cuales habria rechazo de H0 bajo una
realización de Z.
Por ejemplo, si se observa Z = z entonces reportamos todos los α0 que
cumplen:

α0
 
z>Φ −1
1−
2
α0
Φ(z) > 1 −
2
α0 > 2(1 − Φ(z))
Si Z = 1,97 entonces α0 > 0,0488384
Si Z = 2,78 entonces α0 > 0,0054359
Si Z = 6,97 entonces α0 > 3,1694647 × 10−12
Nota: En cada caso se estimó usando el comando 2*(1-pnorm(Z)).
Definición. El valor-p es el nivel más pequeño de significancia en donde
rechazaríamos H0 bajo los datos observados.
Nota. El valor-p es un estadístico.
Si valor-p < α0 , rechazo H0 . (El valor-p es muy pequeño).
Si valor-p > α0 , no rechazo H0 . (El valor-p es muy grande).
Cálculo del valor-p
En los casos en donde la región de rechazo tiene la forma T ≥ c se puede
calcular el valor-p fácilmente. Para cada t, sea δt la prueba que rechaza H0 si
T ≥ t. Note que el valor-p cuando se observa T = t se calcula a partir de la
regla de decisión de rechazo (θ ∈ Ω0 ):

t ≥ Fθ−1 (1 − α0 )
10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA169

lo cual es equivalente a:

Fθ (t) ≥ 1 − α0 =⇒ α0 ≥ Pθ [T ≥ t] =⇒ α0 ≥ sup Pθ [T ≥ t]
θ∈Ω0

El cual es el tamaño de la prueba cuando c = t.


Ejemplo. Retomando el ejemplo con las variables aleatorias Bernoulli, rec-
hazamos H0 : p ≤ p0 si Y ≥ c. Así el valor-p cuando Y = y es observado
es:

valor-p = sup Pp [Y ≥ y] = Pp0 [Y ≥ y]


p∈Ω0

Si p0 = 0,3, n = 10, y = 6, entonces el valor correspondiente es Pp0 [Y ≥


6] = 0,047349. El código R es pbinom(q = 5, size = 10, prob = 0.3,
lower.tail = FALSE)

10.5. Dualidad entre pruebas de hipótesis y


regiones de confianza
Teorema. Sea X = (X1 , . . . , Xn ) una muestra con distribución Fθ . Sea g(θ)
una función tal que para cada valor g0 de g(θ), existe una prueba δg0 con
nivel α0 de las hipótesis:

H0,g0 : g(θ) = g0 vs H1,g0 : g(θ) 6= g0 .

Defina para cada x ∈ X

ω(x) = {g0 : δg0 no rechaza H0,g0 si X = x es observado} (∗)

Sea γ = 1 − α0 . Entonces ω(X) cumple que:

P[g(θ0 ) ∈ ω(X)|θ = θ0 ] ≥ γ, ∀θ0 ∈ Ω.

Definición. Si ω(X) satisface (∗) ∀θ0 ∈ Ω, entonces ω(X) es un conjunto


de confianza con coeficiente γ donde γ = 1 − α0 .
170 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

Teorema. Bajo las condiciones anteriores, si ω(X) es un conjunto de confianza


para g0 , entonces construimos δg0 : no rechazo H0,g0 si y solo si g0 ∈ ω(X),
entonces δg0 es una prueba con nivel α0 = 1 − γ para las hipótesis H0,g0 y
H1,g0 .
Ejemplo. En el caso en que X1 , . . . , Xn ∼ N (µ, σ 2 ), θ = (µ, σ 2 ) (descono-
cidos). Considere g(θ) = µ. El intervalo de confianza con nivel γ para µ
es

σ0
X̄n ± tn−1, 1+γ √ .
2 n
 1/2
donde σ 0 = n−1
1
i=1 (Xi − X̄n )
n 2
. Para cada µ0 , podemos usar el intervalo
P

anterior para encontrar una prueba a las hipótesis:

H0 : µ = µ0 vs H1 : µ 6= µ0 .

Por los teoremas anteriores, H0 se rechaza si µ0 no está en el IC, es decir, si


y solo si

σ0 σ0
µ0 > X̄n + tn−1, 1+γ √ o µ0 < X̄n − tn−1, 1+γ √ ,
2 n 2 n
que se puede resumir como

X̄ − µ
n 0
0 √ > tn−1, 1+γ
σ/ n 2

es decir 1+γ
2
=1− α
2
es el nivel de confianza en el cálculo del cuantil de la t
de Student.
n <- 1000
gamma <- 0.95
alpha <- 0.95
X <- rnorm(n = n, mean = 1, sd = 2)
mu0 <- 1

Xbar <- mean(X)


10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA171

sigma_prima <- sd(X)

t_quantil <- qt(p = (1 + gamma) / 2, df = n - 1)

El intervalo de confianza es
c(Xbar - t_quantil * sigma_prima / sqrt(n), Xbar + t_quantil * sigma_prima / sqrt(n))

## [1] 0.8097168 1.0572793

H0 : µ = 1 vs H1 : µ 6= 1.

Para probar esta prueba se debe comprobar que


Z <- abs ((Xbar - mu0) / (sigma_prima / sqrt(n)))

Preguntamos ¿Rechazamos H0 ?
Z > t_quantil

## [1] FALSE
Si tuvieramos otros datos con otra media, el resultado será diferente.
n <- 1000
gamma <- 0.95
alpha <- 0.95
X <- rnorm(n = n, mean = 5, sd = 2)
mu0 <- 1

Xbar <- mean(X)


sigma_prima <- sd(X)

t_quantil <- qt(p = (1 + gamma) / 2, df = n - 1)

c(Xbar - t_quantil * sigma_prima / sqrt(n),


Xbar + t_quantil * sigma_prima / sqrt(n))

## [1] 4.828233 5.081358


172 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

¿Rechazamos H0 ?
Z <- abs ((Xbar - mu0) / (sigma_prima / sqrt(n)))

Z > t_quantil

## [1] TRUE
Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ), µ desconocido, σ 2 conocido. Construya un
intervalo de confianza con nivel γ a partir de

H0 : µ = µ0 vs H1 : µ 6= µ0 .

Rechazamos H0 si
X̄ − µ
n 0
√ ≥ z1− α20 .
σ/ n

al nivel α0 . Usando los teoremas anteriores, una región de confianza con nivel
γ = 1 − α0 satisface:
( )
X̄ − µ
n
µ∈ X: √ < z1− α20 = ω(X)
σ/ n

Por tanto,


X̄ − µ σ σ
n
√ < z1− α20 ⇔ − √ z1− α20 < X̄n − µ < √ z1− α20
σ/ n n n
σ σ
⇔ X̄n − √ z1− α20 < µ < X̄n + √ z1− α20
n n
que es el IC con nivel de confianza γ = 1 − α0 para µ.

10.5.1. Dualidad en pruebas unilaterales


Si X = (X1 , . . . , Xn ) es una muestra según Fθ y g(θ) es una función de
variable real, suponga que para cada g0 ∈ Im(g) existe una prueba δg0 con
nivel α0 de las hipótesis:

H0,g0 : g(θ) ≤ g0 H1,g0 : g(θ) > g0


10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA173

Si
ω(x) = {g0 : δg0 no rechaza H0,g0 si X = x}

y si γ = 1 − α0 , entonces ω(X) es una región de confianza para g(θ) con nivel


γ.
Ejemplo (Bernoulli).

H0 : p ≤ p0 vs H1 : p > p0 , p0 ∈ (0, 1)

El criterio de rechazo al nivel α0 es

n
Y = Xi ≥ c(p0 )
X

i=1

donde

sup Pp [Y ≥ c] = Pp0 [Y ≥ c] ≤ α0 .
p≤p0

Entonces

ω(X) = {X : Y < c(p0 )} = {p0 : valor-p > α0 }.

es una región de confianza para p al (1 − α0 ) %.


Si n = 10, Y = 6, α0 = 10 %,

ω(x) = {p0 : Pp0 [Y ≥ 6] > 0,1}.

Numéricamente, si p0 > 35,42 % =⇒ p0 ∈ ω(x), entonces ω(x) = (0,3542, 1]


si α0 = 10 % y es un IC observado para p0 con nivel de 90 %.
Ejemplo. X = (X1 , . . . , Xn ) ∼ N (µ, σ 2 ), θ = (µ, σ 2 ) desconocido. Queremos
probar
H0 : µ ≤ µ0 vs H1 : µ > µ0 .
Por dualidad, basta con conocer un IC unilateral para µ:
174 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

σ0
!
X̄n − tn−1,γ √ , ∞ .
n

para rechazar H0 al nivel de confianza γ si:

σ0 X̄n − µ0
µ0 ≤ X̄n − tn−1,γ √ ⇔ T = 0 √ ≥ tn−1,γ
n σ/ n

(rechazando en la cola derecha de T).

10.5.2. Pruebas de cociente de verosimilitud (LRT)


Si H0 : θ ∈ Ω0 vs H1 : θ ∈ Ωc0 = Ω1 . El estadístico LRT o estadístico de
cociente de verosimilitud se define como

supθ∈Ω0 fn (x|θ)
Λ(x) = .
supθ∈Ω fn (x|θ)

Una prueba de cociente de verosimilitud rechaza H0 si Λ(x) ≤ k, para una


constante k.
Ejemplo. Supongamos que se observa Y : el número de éxitos en el experi-
mento Bernoulli(θ) con tamaño de muestra n. Considere las hipótesis:

H0 : θ = θ0 vs H1 : θ 6= θ0 .
 
Verosimilitud: f (y|θ) = n
y
θy (1 − θ)n−y .
Ω0 = {θ0 }, Ω1 = [0, 1] \ {θ0 }.
Numerador: f (y|θ0 ).
!
n y
Denominador: f (y|ȳ) = ȳ (1 − ȳ)n−y .
y
!y !n−y
f (y|θ0 ) nθ0 n(1 − θ0 )
Λ(y) = = , y = 0, . . . , n.
f (y|ȳ) y n−y

Si n = 10, θ0 = 0,3, y = 6, α0 = 0,05.


10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA175

n <- 10
p0 <- 0.3
y <- 0:10
alpha0 <- 0.05

p <- choose(n, y) * p0ˆy * (1 - p0)ˆ(n - y)

Lambda <- numeric(n)


Lambda[y == 0] <- (1 - p0)ˆn
ym1 <- y[y != 0]
Lambda[y != 0] <- (n * p0 / ym1)ˆym1 * ((n * (1 - p0)) / (n - ym1))ˆ(n - ym1)

plot(y, Lambda, type = "l", col = "blue")


lines(y, p, type = "l", col = "red")
1.0
0.8
0.6
Lambda

0.4
0.2
0.0

0 2 4 6 8 10

knitr::kable(cbind(y, Lambda, p))


176 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS

y Lambda p
0 0.0282475 0.0282475
1 0.3124791 0.1210608
2 0.7731201 0.2334744
3 1.0000000 0.2668279
4 0.7978583 0.2001209
5 0.4182119 0.1029193
6 0.1465454 0.0367569
7 0.0337359 0.0090017
8 0.0047906 0.0014467
9 0.0003556 0.0001378
10 0.0000059 0.0000059
ix <- order(p)
knitr::kable(cbind(y[ix], cumsum(p[ix])))

10 0.0000059
9 0.0001437
8 0.0015904
7 0.0105921
0 0.0388396
6 0.0755965
5 0.1785159
1 0.2995767
4 0.4996976
2 0.7331721
3 1.0000000
Rechazamos H0 con nivel α0 = 0,05 en y ∈ {10, 9, 8, 7, 0} y k ∈ [0,028, 0,147)
si rechazo cuando Λ(y) ≤ k. El tamaño de prueba es

P0,3 [Rechazo] = P0,3 [Y ∈ {10, 9, 8, 7, 0}] = 0,039.

Teorema. Sea Ω un abierto en Rp y suponga que H0 especifica k coordenadas


de θ, igualándolas a valores fijos. Asuma que H0 es cierto y que todas las
condiciones de regularidad sobre el MLE de θ son ciertas para que este sea
asintóticamente normal y eficiente. Entonces:
d
−2 ln Λ(X) −→ χ2k .
H0
10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA177

Ejemplo. Del ejemplo anterior, k = 1, α0 = 5 %. Rechazamos H0 :

−2 ln Λ(y) > χ21,1−0,05 = Fχ−1


2 (0,95) = 3,841.
1

Rechazamos H0 bajo la misma región del ejemplo anterior.


-2 * log(Lambda)

## [1] 7.1334989 2.3264351 0.5146418 0.0000000 0.4516484 1.7435339


## [7] 3.8408399 6.7783829 10.6822162 15.8832009 24.0794561
qchisq(p = 0.95, df = 1)

## [1] 3.841459
¿Rechazamos H0 ?
knitr::kable(data.frame(y, test = -2 * log(Lambda) > qchisq(p = 0.95, df = 1)))

y test
0 TRUE
1 FALSE
2 FALSE
3 FALSE
4 FALSE
5 FALSE
6 FALSE
7 TRUE
8 TRUE
9 TRUE
10 TRUE
178 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
Capítulo 11

Pruebas con hipótesis simples

11.1. Hipótesis simples


Ejemplo. Sea X1 , . . . , Xn : tiempos de servicio a clientes en un sistema. El
administrador del sistema no está seguro si la distribución conjunta con que
se atienden a los clientes es:

2(n!)

Xi > 0


f1 (x) =  (2 + Xi )n+1
P

0 si no

O bien si es una Exp(1/2):

1 − 1 P Xi

e 2 si Xi > 0


f0 (x) = 2n
0

si no

Si H0 : f = f0 vs H1 : f = f1 , ¿Cuál hipótesis es cierta?


n <- 1
x <- seq(0, 10, length.out = 1000)

f1 <- 2 / (2 + x)ˆ2

179
180 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES

f0 <- 1 / 2 * exp(-1 / 2 * x)

df <- data.frame(x = c(x, x), f = c(f0, f1),


`Distribución` = c(rep("f_0", 1000), rep("f_1", 1000)))

ggplot(df, aes(x, f, color = `Distribución`)) +


geom_line() +
theme_minimal()

0.5

0.4

0.3
Distribución
f_0
f

f_1
0.2

0.1

0.0

0.0 2.5 5.0 7.5 10.0


x

Podemos redefinir las hipótesis si Ω = {θ0 , θ1 } donde si θ = θi , seleccionamos


f = fi y se prueba H0 : θ = θ0 vs H1 : θ = θ1 .
Asuma que X1 , . . . , Xn ∼ fi (X) donde se pueden tener dos posibilidades
(i = 0, 1). Sea Ω = {θ0 , θ1 } donde θ1 es el parámetro que indica a cuál
densidad se selecciona como hipótesis.

H0 : θ = θ0 vs H1 : θ = θ1

Si δ es un procedimiento de prueba, se denota los errores tipo I y II:


α(δ) = P[Rechazo H0 |θ = θ0 ].
11.1. HIPÓTESIS SIMPLES 181

β(δ) = P[No rechazo H0 |θ = θ1 ].


Del ejemplo anterior, se nota que f1 da probabilidades más altas que f0
cuando los tiempos de servicio son altos. Entonces un criterio de rechazo
puede ser X1 > 4 si se observa solo n = 1.
En este caso,

α(δ) = P[X1 > 4|θ = θ0 ] = 1 − (1 − e−0,5·4 ) = 0,135

1 - pexp(q = 4, rate = 1 / 2)

## [1] 0.1353353

Z 4
2
β(δ) = P[X1 < 4|θ = θ1 ] = dx1 = 0,667.
0 (2 + x1 )2

Observación: Para densidades no usuales, hay dos formas de calcular los


valores
Teóricamente calculando la integral directamente.
Si la integral es muy díficil y solo se necesita una aproximación númerica
se puede usar integrate:
densidad_f1 <- function(x) {
2 / (x + 2)ˆ2
}

integrate(densidad_f1, lower = 0, upper = 4)

## 0.6666667 with absolute error < 2.9e-12


Nota: Esta distribución se debe estimar teóricamente ya que no hay fórmula
predefinida en R.
Objetivo. Encontrar un procedimiento de prueba δ tal que α(δ) y β(δ) se
reduzcan simultáneamente o al menos si a, b > 0, que aα(δ) + bβ(δ) sea
mínimo.
Teorema. Sea δ ∗ un procedimiento de prueba tal que no se rechaza H0 : θ = θ0
si af0 (x) > bf1 (x) y se rechaza H0 si af0 (x) < bf1 (x). Si af0 (x) = bf1 (x)
182 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES

se puede rechazar o no H0 . Entonces para cualquier otro procedimiento de


prueba δ
aα(δ ∗ ) + bβ(δ ∗ ) ≤ aα(δ) + bβ(δ).

Prueba. Caso discreto solamente.


Sea S1 región crítica de una prueba arbitraria δ. Entonces:

aα(δ) + bβ(δ) = a f0 (x) + b f1 (x)


X X

x∈S1 x∈S1c
" #
=a f0 (x) + b 1 − f1 (x)
X X

x∈S1 x∈S1

=b+ (af0 − bf1 (x))


X

x∈S1

y lo anterior es mínimo si seleccionamos S1 de manera que af0 (x) − bf1 (x) < 0
dentro de S1 y S1 que no tiene puntos x en donde af0 (x) − bf1 (x) > 0.
Definición. Defina el Cociente de verosimilitud como:
f1 (x)
.
f0 (x)

Note que el estadístico del cociente de verosimilitud (LR) está relacionado


con el anterior de la siguiente forma:

f0 (x) supΩ0 f (x|θ)


Λ(x) = = .
máx{f0 (x), f1 (x)} supΩ f (x|θ)

Corolario. Bajo las condiciones del teorema anterior, si a, b > 0 entonces la


prueba δ para la cual aα(δ) + bβ(δ) es un mínimo rechaza H0 si el cociente
a
de verosimilitud es mayor a .
b
Ejemplo: Continuando con el ejemplo de los tiempos de servicio al cliente.
En lugar de rechazar H0 : θ = θ0 si X1 > 4 hay que encontrar a y b que
puedan balancear ambos tipos de errores.
11.1. HIPÓTESIS SIMPLES 183

Supogamos que tomamos a = b, entonces basado en el colorario anterior


rechazamos H0 si

f1 (x) 4 X1
 
>1⇔ exp > 1 (∗)
f0 (x) (2 + X1 )2 2

1
g(X 1 )

1 2 3 4 5 6
x

Entonces (∗) es cierto si X1 > c. Se puede comprobar numéricamente que


c ≈ 5,03.
Por lo tanto, rechazamos H0 si X1 > 5,03.
En este caso α(δ ∗ ) es igual a
1 - pexp(q = 5.03, rate = 1 / 2)

## [1] 0.08086291
y β(δ ∗ )
densidad_f1 <- function(x) {
2 / (x + 2)ˆ2
}
184 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES

integrate(densidad_f1, lower = 0, upper = 5.03)

## 0.715505 with absolute error < 1.3e-10

11.2. Criterio de Neyman-Pearson


Queremos encontrar un procedimiento δ para hipótesis simples tal que:
1) α(δ) ≤ α0 (α0 : nivel de significancia).
2) β(δ) es mínimo.
La respuesta está en el siguiente resultado:
Lema de Neyman-Pearson. Suponga que δ 0 es un procedimiento de prueba
que tiene la siguiente forma para alguna constante k > 0: no rechaza H0 si
f1 (x) < kf0 (x), la hipótesis H0 es rechazada si f1 (x) > kf0 (x) y H0 puede
ser rechazada o no si f1 (x) = kf0 (x). Si δ es otro procedimiento de prueba
tal que α(δ) ≤ α(δ 0 ), entonces β(δ) ≥ β(δ 0 ). Específicamente, si α(δ) < α(δ 0 )
entonces β(δ) > β(δ 0 ).
Prueba. Tome a = k y b = 1 en el corolario y teoremas anteriores. Entonces
para cualquier procedimiento δ:

kα(δ 0 ) + β(δ 0 ) ≤ kα(δ) + β(δ),

por lo tanto si α(δ) ≤ α(δ 0 ) entonces necesariamente β(δ) ≥ β(δ 0 ).


Consecuencia. Si queremos encontrar una prueba δ 0 que satisfaga el criterio
de Neyman-Pearson, debemos encontrar k tal que α(δ 0 ) = α0 , y se rechace
f0 (x)
H0 si f1 (x) > kf0 (x) ⇔ < k −1 .
f1 (x)
Ejemplo. Suponga que X1 , . . . , Xn ∼ N (θ, 1) y se quiere probar H0 : θ = 0
vs H1 : θ = 1 usando una prueba según el criterio de Neyman-Pearson con
α = 0,05.
Note que
1 Pn
" #
f0 (x) = (2π) −n/2
exp − i=1 Xi .
2
2
11.2. CRITERIO DE NEYMAN-PEARSON 185

1 Pn
" #
f1 (x) = (2π) −n/2
exp − (Xi − 1)2 .
2 i=1
Entonces

f1 (x) 1X n
" #
= exp − (Xi2 − 2Xi + 1 − X12 )
f0 (x) 2 i=1
" #
n
= exp nX̄n −
2
1
"  #
= exp n X̄n −
2

Rechazamos H0 si

f1 (x) 1 1 ln k
"  #
= exp n X̄n − > k ⇔ X̄n > + .
f0 (x) 2 2 n
| {z }
k0

Entonces buscamos k 0 tal que


k0
" #
X̄n
P[X̄n > k 0 |θ = 0] = 0,05 ⇔ P √ > √ θ = 0 = 0,05
1/ n 1/ n
Despejando,
√ z0,95
k 0 n = z0,95 =⇒ k 0 = √ .
n

Entonces, entre todas las pruebas en donde α(δ) ≤ 0,05, la que tiene el error
tipo II más pequeño es la que rechaza H0 si

z0,95 1,645
X̄n > √ = √ .
n n

El error tipo II de esta prueba sería

β(δ 0 ) = P[X̄n < 1,645n−1/2 |θ = 1]


1,645n−1/2 − 1
" #
=P Z< = Φ(1,645 − n1/2 )
n−1/2
186 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES

Si n = 9, por ejemplo, β(δ 0 ) = Φ(1,645 − 3) = 0,0877.


Ejemplo. X1 , . . . , Xn ∼ Ber(p) y considere las hipótesis

H0 : p = 0,2 vs H1 : p = 0,4.

Queremos encontrar un procedimiento de prueba en donde α(δ) = 0,05 y β(δ)


es mínimo. Sea y = ni=1 Xi .
P

f0 (x) = 0,2y 0,8n−y


f1 (x) = 0,4y 0,6n−y

Entonces el cociente de verosimilitud es

f1 (x) 3 8
 n  y
=
f0 (x) 4 3

y se rechaza H0 si

f1 (x) 4 8
   
> k ⇔ −n ln + y ln > ln k
f0 (x) 3 3
ln k + n ln(4/3)
⇔y> = k0.
ln(8/3)

Entonces basta con encontrar k 0 tal que

P(Y > k 0 |p = 0,2) = 0,05,


pero como Y es una variable discreta (Binomial), no es posible encontrar ese
k 0 . Note que en el caso en que n = 10:

P(Y > 4|p = 0,2) = 0,0328

P(Y > 3|p = 0,2) = 0,1209

Por lo tanto, se puede especificar una prueba con nivel 0.05, y con tamaño
α(δ) = 0,0328 y potencia mínima si tiene como región de rechazo Y > 4.
11.3. PRUEBAS INSESGADAS 187

11.3. Pruebas insesgadas


Definición. Considere las hipótesis H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 . Decimos que
una prueba de hipótesis δ es insesgada si ∀θ ∈ Ω0 y ∀θ0 ∈ Ω1 :

π(θ|δ) ≤ π(θ0 |δ).

Esto quiere decir que la probabilidad de que la prueba δ rechace la hipótesis


nula es siempre más alta cuando la hipótesis alternativa es verdadera que
cuando la hipótesis nula es verdadera.
Una forma fácil de crear pruebas insesgadas es resolviendo númericamente
las ecuaciones

π (θ0 | δ) = α0

d
π(θ | δ) =0

θ=θ0

donde la segunda ecuación es la derivada con respecto al parámetro evaluada


en θ0 .
Ejemplo: Retomando el ejemplo del servicio al cliente, suponga que se quiere
ver si

1 1
H0 : θ = vs H1 : θ 6=
2 2
La pregunta sería cómo encontrar un test que sea insesgado?
Primero podemos hacer una prueba del cociente de verosimilitud para encon-
trar que tipo de prueba es más adecuada. Tomando t = ni=1 Xi :
P

(1/2)n exp(−t/2)
n
t

Λ(x) = = exp(n − t/2)
(n/t) exp(−n)
n 2n

Esta prueba rechaza H0 si Λ(x) ≤ c para algún c


Por ejemplo, poniendo n = 10 y c = 0,2, vemos que Λ(x) tiene esta forma.
188 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES

n <- 10

t <- 1:50

f <- (t / (2 * n))ˆn * exp(n - t / 2)

plot(t, f)
abline(h = 0.2, col = "red")
1.0
0.8
0.6
f

0.4
0.2
0.0

0 10 20 30 40 50

Para resolver correctamente el ejercicio se deben encontrar valores c1 y c2 de


modo que
n n
c1 c2
 
exp (n − c1 /2) = exp (n − c2 /2)
2n 2n
Además, recuerde que T = Xi es Γ(n, 21 ) bajo H0 .
Pn
i=1

Para obtener un nivel α (e.g. 5 %), c1 y c2 deben satisfacer

P(T ≤ c1 ) + P(T ≥ c2 ) = αG (c1 ; n, 1/2) + 1 − G (c2 ; n, 1/2) = α


11.3. PRUEBAS INSESGADAS 189

Donde G es la función de distribución de una gamma.

Se debe resolver esta dos ecuaciones simultáneamente para c1 y c2


fn <- function(c1, c2, n) {
zero <-
abs((c1 / (2 * n))ˆn * exp(n - c1 / 2) -
(c2 / (2 * n))ˆn * exp(n - c2 / 2))
alpha <- pgamma(q = c1,
shape = n,
rate = 1 / 2) +
pgamma(
q = c2,
shape = n,
rate = 1 / 2,
lower.tail = FALSE
)

return(c(zero, alpha))
}

fn2 <- function(x, n) {


crossprod(fn(x[1], x[2], n) - c(0, 0.05))
}

sol <- optim(c(1, 1), fn2, n = 3)

sol$par

## [1] 1.425302 15.895757

Entonces rechazamos H0 si T ≥ 15,895757 o T ≤ 1,4253018.

Ahora si se desea encontrar una prueba insesgada, lo que se debe considerar


es encontrar una prueba de modo que se cumplan las ecuaciones vistas en la
definición
190 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES

π(θ | δ) = G (c1 ; n, θ) + 1 − G (c2 ; n, θ) = α


⇐⇒ G (c1 ; 3, 1/2) + 1 − G (c2 ; 3, 1/2) = 0,05

Derivando (ver 9.4.13 del libro), se plantea la segunda ecuación del sistema:

∂ n
G(x; n, θ) = [G(x; n, θ) − G(x; n + 1, θ)]
∂θ θ
por lo tanto


d
π(θ | δ) =0

dθ θ=θ0
⇐⇒ G0 (c1 ; 3, 1/2) − G0 (c2 ; 3, 1/2) = 0

lo cual es equivalente a:

3 3
!
[G(c1 ; 3, 1/2) − G(c1 ; 4, 1/2)] − [G(c2 ; 3, 1/2) − G(c2 ; 4, 1/2)] = 0
1/2 1/2

fn <- function(c1, c2, n) {

zero <- n / 0.5 *


abs(
pgamma(q = c1, shape = n, rate = 1 / 2) -
pgamma(q = c1, shape = n + 1, rate = 1 / 2) -
pgamma(q = c2, shape = n, rate = 1 / 2) +
pgamma(q = c2, shape = n + 1, rate = 1 / 2)
)

alpha <- pgamma(q = c1, shape = n, rate = 1 / 2) +


pgamma(
11.4. PRUEBA T 191

q = c2,
shape = n,
rate = 1 / 2,
lower.tail = FALSE
)

return(c(zero, alpha))
}

fn2 <- function(x, n) {


crossprod(fn(x[1], x[2], n) - c(0, 0.05))
}

sol <- optim(c(1, 1), fn2, n = 3)

sol$par

## [1] 1.424926 15.896302


Que resulta en valores prácticamente iguales a los de la prueba anterior.

11.4. Prueba t
La prueba t se aplica cuando tanto la media µ como la desviación estándar σ
son desconocidas en el caso de una muestra normal, y se busca hacer inferencia
sobre µ.
Suponga que X1 , . . . , Xn ∼ N (µ, σ 2 ), con (µ, σ 2 ) desconocidos, y considere
las siguientes hipótesis:

H0 : µ ≤ µ0 vs H1 : µ > µ0 .

X̄n − µ0
Recuerde que si U = √ , entonces la prueba rechaza H0 si U ≥ c. Si
σ0/ n
µ = µ0 entonces U ∼ tn−1 .
Si H0 : µ ≥ µ0 vs H1 : µ < µ0 , entonces se rechaza H0 si U ≤ c.
192 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES

Ejemplo: Recordemos el ejemplo de los días que un paciente tarda en una


casa de cuido en Nuevo México
load("./data/Nursing.rda")
hist(Nursing$InPatientDays)

Histogram of Nursing$InPatientDays
12
10
8
Frequency

6
4
2
0

0 100 200 300 400 500

Nursing$InPatientDays

Se quiere probar la hipótesis de H0 : µ ≤ 200 versus H1 : µ > 200, es decir


queremos saber si los pacientes duran más de 200 días en cuidados.
El estadístico de prueba sería

√ (X − µ)
U= n
σ0

y el test rechaza H0 si U > tn−1,1−α .


x <- Nursing$InPatientDays
n <- length(x)
xbar <- mean(x)
sigma_prima <- sd(x)
alpha <- 0.1
mu0 <- 200
11.4. PRUEBA T 193

quantil_t <- qt(p = 1 - alpha, df = n - 1)

U <- sqrt(n) * (xbar - 200) / sigma_prima

¿Rechazamos H0 ?
U > quantil_t

## [1] FALSE
Entonces no tenemos suficiente evidencia en la muestra para rechazar la
hipótesis H0 con un nivel de significancia del 10 %.

11.4.1. Propiedades de las pruebas t


Teorema. Sea X1 , . . . , Xn ∼ N (µ, σ 2 ). Sea el estadístico U definido anterior-
mente y c = tn−1,1−α0 . Sea δ la prueba que rechaza H0 si U ≥ c. Entonces
i) π(µ, σ 2 |δ) = α0 si µ = µ0 .
ii) π(µ, σ 2 |δ) < α0 si µ < µ0 .
iii) π(µ, σ 2 |δ) > α0 si µ > µ0 .
iv) π(µ, σ 2 |δ) → 0 si µ → −∞.
v) π(µ, σ 2 |δ) → 1 si µ → +∞.
Entonces, la prueba δ tiene tamaño α0 y es insesgada.
Prueba. Ver en el libro.
En el caso en donde H0 : µ ≥ µ0 las desigualdades se intercambian y la prueba
también tiene tamaño α0 y es insesgada.
Teorema. Bajo cualquiera de los dos casos anteriores, sea u el valor observado
de U . Entonces, el valor-p de la prueba δ que rechaza H0 : µ ≤ µ0 es 1−Tn−1 (u)
donde Tn−1 es c.d.f de tn−1 y si la prueba rechaza H0 : µ ≥ µ0 entonces el
valor-p es Tn−1 (u).
Prueba. El caso H0 : µ ≤ µ0 es análogo al cálculo del valor-p que se hizo en el
capítulo anterior. El caso H0 : µ ≥ µ0 se rechaza si
−1
U ≤ Tn−1 (α0 ) ⇔ Tn−1 (u) ≤ α0 .
194 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES

Es decir, el nivel más pequeño de significancia observada es Tn−1 (u)

Ejemplo:

¿Cuál es el valor p del ejemplo de casas de cuido?


1 - pt(q = U, df = n - 1)

## [1] 0.9064029
t.test(x, alternative = "greater", mu = 200)

##
## One Sample t-test
##
## data: x
## t = -1.3369, df = 51, p-value = 0.9064
## alternative hypothesis: true mean is greater than 200
## 95 percent confidence interval:
## 163.6466 Inf
## sample estimates:
## mean of x
## 183.8654

entonces el mínimo valor de significancia en donde hay rechazo de H0 es


0.9064.

Considere el caso H0 : µ ≤ µ0 vs H1 : µ > µ0 .

X̄n − µ0
Región de rechazo: δ: U ≥ c con U = √ .
σ0/ n

Recuerden que δ es una prueba insesgada con nivel α0 si c = tn−1,1−α0 .

Valor-p: si observamos U = u, se rechaza H0 si u ≥ tn−1,1−α0 ,

Tn−1 (u) ≥ Tn−1 (tn−1,1−α0 ) = 1 − α0 =⇒ 1 − Tn−1(u) = T̄n−1 (u).

Función de potencia:
11.4. PRUEBA T 195

" #
X̄n − µ0
P[Rechazo|µ] = P √ ≥ tn−1,1−α0 µ

σ0/ n

X̄n + µ − µ − µ0
" #

== P √ ≥ tn−1,1−α0 µ

σ0/ n
" #
X̄n − µ µ − µ0
=P √ + √ ψ̂ ≥ t µ

0 0 n−1,1−α0
σ/ n σ/ n
| {z } | {z }

Observe que


n(X̄n − µ)
X̄n − µ σ σ N (0, 1)
∆= 0 √ · = 0 ∼s 2 ∼ tn−1 .
σ/ n σ σ χn−1
σ n−1

De igual forma, vea que

ψ
√ √ z√ }| {
n(X̄n − µ0 ) n n
(X̄n − µ) + (µ − µ0 ) N (ψ, 1)
U= σ = σ σ ∼s 2 .
0 0
σ σ χn−1
σ σ n−1

Definición. Si Y , W son independientes con W ∼ N (ψ, 1) y Y ∼ χ2m ,


entonces X se distribuye como una t-Student no centrada con parámetro
ψ si
W
X=s .
Y
m

Si Tm (t|ψ) es c.d.f de X, entonces

π(µ|δ) = T̄n−1 (tn−1,1−α0 , ψ̂).


196 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES

En el caso que la prueba sea H0 : µ ≥ µ0 vs H1 : µ < µ0 .

π(µ|δ) = P[U ≤ tn−1,1−α0 ] = Tn−1 (tn−1,α0 , ψ̂).

Conclusión: a partir del error tipo II se puede determinar un tamaño de


muestra dado, siempre y cuando existan restricciones sobre µ y σ 2 .
En el caso de las casas de cuido, suponga que queremos ver el poder cuando

µ = 200 + σ/2, entonces el parámetro de no centralidad queda en ψ̂ = 2n .
n <- length(x)

alpha0 <- 0.05


q <- qt(p = 1 - alpha0, df = n - 1)

parametro_no_central <- sqrt(n) / 2

(poder <- pt(q = q, df = n - 1, ncp = parametro_no_central))

## [1] 0.02792138

11.4.2. Prueba t pareada


A veces se quiere comparar la misma variable pero medida bajo dos condiciones
distintas o bien para cada individuo se midió una variable en donde momentos
distintos. Una de las posibles preguntas de interés es verificar si la media de
un experimento/condición /momento es menor o mayor que la otra.
Lo usual en estos casos es restar ambas medias y hacer una prueba de hipótesis
con µ0 = 0 y trabajar con una muestra compuesta por la diferencias de las
muestras ordenadas por individuos.
Ejemplo: Suponga que se tiene los datos de muñecos de prueba para probar
carros en simulaciones de accidentes de tránsito. Defina Dit1 el daño reportado
al conductor y Dit2 el daño al pasajero.
Defina el logaritmo !del daño como Yit1 = ln(Dit1 ) y Yit2 = ln(Dit2 ) Xi =
Dit1
Yi − Yi = ln
t1 t2
t2 =⇒ Dit2 · eXi = Dit1
Di
11.4. PRUEBA T 197

Evaluemos la prueba H0 : µ ≤ 0 vs H1 : µ > 0 al 1 %, donde µ: diferencia


media en el log-daño entre los muñecos. Si X1 , . . . , Xn ∼ N (µ, σ 2 ) ambos
parámetros desconocidos, y n = 164, X̄n = 0,2199, σ 0 = 0,5342, rechazamos
H0 si

0,2199 − 0
U= 0,5342 = 5,271 > t163,1−0,01 = 2,35.

164

El valor-p de la prueba es

1 − P[t163 < 5,271] = 1 × 10−6

Entonces rechazo H0 con cualquier nivel de significancia superior a 1 × 10−6 .


σ
Suponga que la diferencia media entre conductor y pasajero es . ¿Cuál es el
4
error tipo II?


σ µ − µ0 σ/4 − 0 164
µ= =⇒ ψ = √ = √ = = 3,2.
4 σ/ n σ/ 164 3

El error tipo II es T̄163 (2,35|ψ = 3,2) = 1 − 0,802 = 0,198.

11.4.3. Pruebas t de dos colas


Región de rechazo: |U | ≥ tn−1,1− α20 .
Función de potencia:

π(µ|δ) = P[U ≥ tn−1,1− α20 |µ]+P[U ≤ −tn−1,1− α20 |µ] = Tn−1 (−c|ψ)+1−Tn−1 (c|ψ).

Valor-p: si observamos U = u, rechazamos H0 si

α0
|u| ≥ tn−1,1− α20 ⇔ Tn−1 (|U |) ≥ 1 − ⇔ α0 ≥ 2[1 − Tn−1 (|u|)] .
2 | {z }
valor-p
198 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES

Propiedad. La prueba-t unilateral es equivalente a una prueba de cociente


de verosimilitud (LRT). (Ejercicio)
En general cualquier prueba t es una LRT.
Capítulo 12

Prueba de comparación de
medias en 2 poblaciones

12.1. Comparación de medias normales


i.i.d i.i.d
Asuma que X1 , . . . , Xm ∼ N (µ1 , σ 2 ) y Y1 , . . . , Yn ∼ N (µ2 , σ 2 ). Los parámet-
ros desconocidos son µ1 , µ2 , σ 2 . Asuma que (Xi , Yi ) son independientes y la
varianza es la misma (homocedasticidad).
Hipótesis: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 .
m n
Notación: X̄m , Ȳn , SX
2
= (Xi − X̄m )2 , SY2 = (Yi − Ȳn )2 .
X X

i=1 i=1

Teorema. Considere

(m + n − 2)1/2 (X̄m − Ȳn )


U= .
1 1 1/2 2

+ (SX + SY )
2 1/2
m n
Si µ1 = µ2 =⇒ U ∼ tm+n−2 .

12.2. Prueba t de dos muestras


Dada una región de rechazo U ≥ c,

199
200CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES

sup P[U ≥ c|µ1 , µ2 , σ 2 ] ≤ α0 =⇒ P[U ≥ c|µ1 = µ2 , σ 2 ] = 1 − Tn+m−2 (c) = α0


µ1 ≤µ2

=⇒ c = Tn+m−2
−1
(1 − α0 )

δ: Rechazo H0 si U > Tn+m−2


−1
(1 − α0 ).
Teorema. Si δ es la prueba definida anteriormente, entonces la función de
potencia π(µ1 , µ2 , σ 2 |δ) tiene las siguientes propiedades:
i. π(µ1 , µ2 , σ 2 |δ) = α0 si µ1 = µ2 .
ii. π(µ1 , µ2 , σ 2 |δ) < α0 si µ1 < µ2 .
iii. π(µ1 , µ2 , σ 2 |δ) > α0 si µ1 > µ2 .
Conclusión. δ es una prueba insesgada con tamaño α0 .
iv. Los límites cuando µ1 − µ2 → −∞(+∞) son los mismos del caso de
una muestra.
Observe que para el caso II: H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2 .

δ : Rechazo H0 si U < Tn+m−2


−1
(α0 ) = −Tn+m−2
−1
(1 − α0 ).

Los p-valores son:


Caso I: 1 − Tn+m−2 (u) si observamos U = u.
Caso II: Tn+m−2 (u).
Ejemplo: En el caso de las lluvia suponga que queremos probar

H0 : µcon trat. ≤ µsin trat. vs H1 : µcon trat. > µsin trat.

nubes <- read.table(


file = "./data/clouds.txt",
sep = "\t", header = TRUE
)
log_lluvia <- log(nubes)
12.2. PRUEBA T DE DOS MUESTRAS 201

n <- nrow(nubes)

con_tratamiento <- log_lluvia$Seeded.Clouds


sin_tratamiento <- log_lluvia$Unseeded.Clouds

(Xbar <- mean(con_tratamiento))

## [1] 5.134187
(Ybar <- mean(sin_tratamiento))

## [1] 3.990406
(S2_X <- (n - 1) * var(con_tratamiento))

## [1] 63.96109
(S2_Y <- (n - 1) * var(sin_tratamiento))

## [1] 67.39158
Entonces el estadístico que queremos construir para comparar la medias es
(OJO en este caso m = n porque tienen la misma cantidad de datos: )
(U <- sqrt(n + n - 2) * (Xbar - Ybar) /
(sqrt(1 / n + 1 / n) * sqrt(S2_X + S2_Y)))

## [1] 2.544369
Por tanto se debe comparar con una t-student con 26 + 26 − 2 = 50 grados
de libertad. Asuma un α = 0,01
(qnt <- qt(p = 1 - 0.01, df = n + n - 2))

## [1] 2.403272
¿ Rechazamos H0 ?
U > qnt

## [1] TRUE
¿Cuál es el p-valor?
202CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES

1 - pt(q = U, df = n + n - 2)

## [1] 0.007041329
Interpretación: rechazamos al nivel 1 % de significancia la hipótesis de que las
nubes irradiadas tienen una log-precipitación media menor a la de las nubes
no irradiadas. En general se rechaza la hipótesis nula ante cualquier nivel de
significancia superior a 0.007.

12.2.1. Prueba de 2 colas


Hipótesis. H0 : µ1 = µ2 vs H1 : µ1 6= µ2 (Prueba ANOVA con dos grupos).
α0
 
Prueba. δ : Rechazo H0 si |U | ≥ −1
Tm+n−2 1− .
2
Valor-p: 2[1 − Tm+n−2 (|u|)] donde U = u.
Ejemplo. Minas de cobre. Sean X1 , . . . , X8 la cantidad de cobre (gramos) en
8 minas en un lugar 1, y Y1 , . . . , Y10 en 10 minas en un lugar 2. Después de
recolectar los datos se obtiene lo siguiente
X̄8 = 2,6
Ȳ10 = 2,3
SX2
= 0,32 y
SY2 = 0,22
El ingeniero de la mina se pregunta: ¿Las dos localizaciones generan el mismo
nivel de cobre?
Entonces plantea hacer la prueba de hipótesis

H0 : µ1 = µ2 H1 : µ1 6= µ2

Con el supuesto que Xi ∼ N (µ1 , σ 2 ), Yj ∼ N (µ2 , σ 2 ) y las dos poblaciones


son independientes:
n <- 8
m <- 10

n + m - 2
12.3. PRUEBA F 203

## [1] 16
Xbar <- 2.6
Ybar <- 2.3

S2_X <- 0.32


S2_Y <- 0.22

(U <- sqrt(n + m - 2) * (Xbar - Ybar) /


(sqrt(1 / n + 1 / m) * sqrt(S2_X + S2_Y)))

## [1] 3.442652
Si α0 = 1 %
(qnt <- qt(p = 1 - 0.01 / 2, df = n + m - 2))

## [1] 2.920782
Entonces, ¿Rechazamos H0 ?
abs(U) > qnt

## [1] TRUE
El valor p es 2[1 − T16 (|3,442|)]
2 * (1 - pt(q = U, df = n + m - 2))

## [1] 0.003345064
Interpretación: Rechazamos al 1 % de significancia la hipótesis de una diferen-
cia no significativa entre las cantidades medias de cobre en cada localización.
En general, rechazamos la misma hipótesis para cualquier nivel de significancia
superior a 0.0033.
Ejercicio. La prueba t de 2 muestras es un LRT.

12.3. Prueba F
Definición Si Y y W son variables aleatorias independientes, Y ∼ χ2m y
W ∼ χ2n , m, n ∈ Z+ . Defina
204CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES

Y /m
X= ∼ Fm,n
W/n

X tiene una distribución F con m y n grados de libertad.


La función de densidad es
 h i
 Γ 1
2
(m + n) mm/2 nn/2 x(m/2)−1
x>0

·


f (x) = (mx + n)(m+n)/2 (12.1)
   
 Γ 1
2
m Γ 1
2
n
0 x ≤ 0.

Propiedades:
1. Si X ∼ Fm,n =⇒ 1/X ∼ Fn,m .
2. Si Y ∼ tn =⇒ Y 2 ∼ F1,n .
3. Los siguientes esquemas son equivalentes:

U ∼ tn−1 U 2 ∼ F1,n−1
H0 : µ = µ0 ⇔ H0 : µ = µ0
|U | ≥ |c| U 2 ≥ c∗

i.i.d i.i.d
Sean X1 , . . . , Xn ∼ N (µ1 , σ12 ) y Y1 , . . . , Yn ∼ N (µ2 , σ22 ). Si (X, Y ) son
independientes, considere:

H0 : σ12 ≤ σ22 vs H1 : σ12 > σ22


y tome α0 ∈ (0, 1). Defina el estadístico:

2
SX
V = m− 1
SY2
n−1

La siguiente prueba tiene sentido: δ : Rechazo H0 si V ≥ c. (Prueba F)


Propiedades de la prueba F:
12.3. PRUEBA F 205

Teorema. La distribución de V ∗ = (σ22 /σ12 )V ∼ Fm−1,n−1 y si σ1 = σ2


entonces V ∼ Fm−1,n−1 .
2
SX
La justificación de este teorema va en la línea de que como ∼ χ2m−1 y
σ12
SY2
∼ χ2n−1 , calculamos
σ22
2
SX /σ12
V ∗ = m2 − 12 ∼ Fm−1,n−1
SY /σ2
n−1
2
SX
y bajo el supuesto de homocedasticidad: V = m − 1 ∼F
m−1,n−1 .
SY2
n−1
Por otro lado, note que usando el procedimiento de prueba δ anterior:

sup P[V ≥ c|µ1 µ2 , σ12 , σ22 ] ≤ α0 ,


σ12 ≤σ22

y c se puede obtener resolviendo:

P[V ≥ c|µ1 , µ2 , σ12 = σ22 ] = α0 =⇒ c = Fm−1,n−1


−1
(1−α0 ) = G−1
m−1,n−1 (1−α0 ).

donde Gm−1,n−1 es el cdf cd una Fm−1,n−1 .


Teorema. Si δ se define según lo anterior,
i.
π(µ1 , µ2 , σ12 , σ22 |δ) = P[V ≥ G−1
m−1,n−1 (1 − α0 )]
" #
σ2
= P V ≥ 22 c

σ1
!
σ22
= 1 − Gm−1,n−1 c
σ12

ii. π(µ1 , µ2 , σ12 , σ22 , |δ) = α0 si σ12 = σ22 .


206CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES

iii. π(µ1 , µ2 , σ12 , σ22 |δ) < α0 si σ12 < σ22 .

iv. π(µ1 , µ2 , σ12 , σ22 |δ) > α0 si σ12 > σ22 .


σ12
v. → 0 =⇒ π(µ1 , µ2 , σ12 , σ22 |δ) → 0.
σ22
σ12
vi. → ∞ =⇒ π(µ1 , µ2 , σ12 , σ22 |δ) → 1.
σ22
Por (i)-(iv) δ es insesgada con tamaño α0 .

El valor-p es 1 − Gm−1,n−1 (v), donde V = v es el valor observado.

Ejemplo. X1 , . . . , X6 ∼ N (µ1 , σ12 ), SX


2
= 30, Y1 , . . . , Y21 ∼ N (µ2 , σ22 ), SY2 =
30.

La hipótesis nula es H0 : σ12 ≤ σ22 .


30/5
Se calcula V = = 3 y F5,20
−1
(1 − 0,05) = 2,71.
40/20
El valor-p corresponde a 1 − G5,20 (3) = 0,035.

Interpretación?

Ejemplo: Suponga que se tienen los siguientes datos


m <- 20
X <- rnorm(n = m, mean = 0, sd = sqrt(6))
head(X)

## [1] 0.1584997 -0.6609568 -0.8543737 0.2095187 -0.8134797 0.2113794


n <- 40
Y <- rnorm(n = n, mean = 10, sd = sqrt(2))
head(Y)

## [1] 8.210181 8.418592 12.318912 10.224731 9.214239 11.166383

Es decir tener 20 datos normales con σ12 = 6 y 40 datos normales con σ22 = 2.

En todo caso asuma que σ es desconocidos para cada caso y solo tenemos los
datos. Además queremos hacer la prueba de hipótesis
12.3. PRUEBA F 207

H0 : σ12 ≤ σ22
H1 : σ12 > σ22

Según la forma que planteamos el ejercicio, deberíamos de rechazar


H0 ya que σ12 = 6 > 2 = σ22

Calculamos el estadístico V
(S2_X_divido_m_1 <- var(X))

## [1] 7.319257
(S2_Y_divido_n_1 <- var(Y))

## [1] 1.712337
(V <- S2_X_divido_m_1 / S2_Y_divido_n_1)

## [1] 4.274424

Para calcular un cuantil te tamaño 1 − α = 0,95 se usa la siguiente función


(qnt <- qf(p = 1 - 0.05, df1 = m - 1, df2 = n - 1))

## [1] 1.85992

¿Rechazamos H0 ?
V > qnt

## [1] TRUE

y el valor-p de la prueba es
1 - pf(q = V, df1 = m - 1, df2 = n - 1)

## [1] 6.111004e-05

Interpretación: Rechazamos la hipótesis que σ12 ≤ σ22 con cualquier nivel


de significancia superior a 0.02.
208CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES

12.3.1. Prueba de 2 colas (prueba de homocedastici-


dad)
Bajo las hipótesis H0 : σ12 = σ22 vs H1 : σ12 =
6 σ22 , se rechaza si V ≥ c2 o V ≤ c1
con c1 , c2 tales que

α0 α0 α0 α0
   
P[V ≤ c1 ] = y P[V ≥ c2 ] = =⇒ c1 = G−1 y c2 = G−1 1−
2 2 m−1,n−1
2 m−1,n−1
2

Ejemplo. Mismo ejemplo de las nubes.

H0 : σcon
2
trat. = σsin trat.
2
vs H1 : σcon
2
trat. 6= σsin trat.
2

(m <- length(con_tratamiento))

## [1] 26
(n <- length(sin_tratamiento))

## [1] 26
(S2_X_divido_m_1 <- var(con_tratamiento))

## [1] 2.558444
(S2_Y_divido_n_1 <- var(sin_tratamiento))

## [1] 2.695663
(V <- S2_X_divido_m_1 / S2_Y_divido_n_1)

## [1] 0.9490963

63,96
25 = 0,9491
V = 67,39
25

Se tiene que c1 = G−1


25,25 (0,0025) = 0,4484 y c2 = G25,25 (0,975) = 2,23.
−1
12.3. PRUEBA F 209

(c1 <- qf(0.025, df1 = m - 1, df2 = n - 1))

## [1] 0.4483698
(c2 <- qf(0.975, df1 = m - 1, df2 = n - 1))

## [1] 2.230302
¿Rechazamos H0 ?
V < c1

## [1] FALSE
V > c2

## [1] FALSE
No rechazamos la hipótesis nula.
Si observamos V = v, podemos rechazar si
α0
 
v≤ G−1 =⇒ 2Gm−1,n−1 (v) ≤ α0
m−1,n−1
2
o tambien si

α0 α0
 
v≥ G−1 1− =⇒ Gm−1,n−1 (v) ≥ 1− =⇒ α0 ≥ 2Ḡm−1,n−1 (v)
m−1,n−1
2 2

Por lo tanto, el p-valor es


valor-p = 2 mı́n[1 − Gm−1,n−1 (v), Gm−1,n−1 (v)]

2 * min(1 - pf(q = V, df1 = m - 1, df2 = n - 1),


pf(q = V, df1 = m - 1, df2 = n - 1))

## [1] 0.8971154
Interpretación: La prueba de hipótesis rechaza la hipótesis de homocedas-
ticidad con niveles de significancia de al menos 0.897. Es decir no se rechaza
la hipótesis con un nivel de 0.05.
Propiedad. La prueba F es un LRT.
210CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
Capítulo 13

Bondad de ajuste

Hasta el momento, hemos necesitado una distribución indexada por un


parámetro para modelar los datos disponibles. Sin embargo, es posible que
ese supuesto no se cumpla. En estos casos aún es posible probar la hipótesis
de que los datos provienen de una distribución particular versus la hipótesis
alternativa de que no provienen de esa distribución.

13.1. Prueba χ2
Suponga que se tienen datos categóricos, es decir datos en los cuales el
rango de la variable asume un número finito de categorías o estados (niveles).
Ejemplo: Por ejemplo suponga que tenemos información del tipo de sangre
en la población de un lugar específico, entonces

Categoría Tipo de sangre


1 A
2 B
3 AB
4 O

en este caso la variable categórica es el Tipo de sangre con 4 niveles o


categorías.

211
212 CAPÍTULO 13. BONDAD DE AJUSTE

En general, suponga que tenemos k categorías para una variable categórica


en una población dada,

pi = P[Categoría i], i = 1, . . . , k

es la probabilidad de que un elemento de la población pertenezca a la categoría


i-ésima. Note que ki=1 pi = 1. Sea p01 , . . . , p0k probabilidades propuestas tal
P

que i=1 p0i .


Pk

Suponga que se consideran las siguientes alternativas:

H0 : pi = p0i para i = 1, . . . , k

H1 : pi 6= p0i para al menos un i

Ejemplo: Siguiendo con el ejemplo, suponga que se quiere hacer la siguiente


hipótesis de la población

Categoría Tipo de sangre Hipótesis (p0i )


1 A 1/3
2 B 1/8
3 AB 1/24
4 O 1/2

Suponga una muestra de n elementos. Suponga que Ni es el número de


elementos en la categoría i, ki=1 Ni = n. Note que
P

(N1 , . . . , Nk ) ∼ Multinomial(n, p1 , . . . , pk )

Nota: Una distribución multinomial tiene la siguiente forma:

(  
n
px1 1 · · · pxkk if x1 + · · · + xk = n
Pr (X1 = x1 , . . . , Xk = xk ) = x1 ,...,xk
0 otherwise.

donde
13.1. PRUEBA χ2 213

!
n n!
=
x1 , . . . , x k x1 !x2 ! · · · xk !

El número esperado de elementos del grupo (o celda) i es n · p0i . Si Ni − np0i es


cercano a 0 para todo i, entonces tendríamos evidencia a favor de la hipótesis
H0 .
El estadístico χ2 se define como

k
(Ni − np0i )2
Q=
X
.
i=1 np0i

En 1900, Karl Pearson probó que bajo H0 y conforme n → ∞, entonces:

Q −→ χ2k−1 .
H0

La prueba χ2 se define a partir de la decisión δ: Rechazo H0 si Q ≥ c. Dado


un nivel de significancia α0 ,

PH0 [Q ≥ c] ≤ α0 =⇒ c = Fχ−1
2 (1 − α0 )
k−1

A esta prueba también se le llama prueba de bondad de ajuste χ2 .


Nota: El estadístico Q se puede interpretar de la forma

k
(observadoi − esperadoi )2
Q=
X
.
i=1 esperadoi

Reglas empíricas
1. La aproximación (Q ∼ χ2k−1 ) funciona muy bien si np0i ≥ 5.
2. La aproximación es buena si np0i ≥ 1,5, i = 1, . . . , k.
Ejemplo: Continuando con el ejemplo, suponga que se observan 6004 personas
de raza blanca en California y tienen las siguientes estadísticas e hipótesis:
214 CAPÍTULO 13. BONDAD DE AJUSTE

Grupo Observado (ni ) Teórico (p0i )


A 2162 1/3
B 738 1/8
AB 228 1/24
O 2876 1/2

Queremos probar H0 : pi = p0i , i = 1, 2, 3, 4.


np01 = 6004 · 1/3 = 2001,3.
np02 = 6004 · 1/8 = 750,5.
np03 = 6004 · 1/24 = 250,2.
np04 = 6004 · 1/2 = 3002.

(2162 − 2001,3)2 (738 − 750,5)2 (228 − 250,2)2 (2876 − 3002)2


Q= + + + = 20,37.
2001,3 750,5 250,2 3002

El valor-p es F̄χ23 (20,37) = 1,42 × 10−4 .


En R el test se puede hacer con la función chisq.test:
observado <- c(2162, 738, 228, 2876)

probabilidad_hipotetica <- c(1 / 3, 1 / 8, 1 / 24, 1 / 2)

chisq.test(x = observado, p = probabilidad_hipotetica)

##
## Chi-squared test for given probabilities
##
## data: observado
## X-squared = 20.359, df = 3, p-value = 0.000143
Rechazamos la hipótesis de que las probabilidades teóricas de tipo de sangre
son iguales a los valores hipotéticos.
Ejemplo. Sean 0 < Xi < 1, i = 1, 2, . . . , 100. Asuma que Xi ∼ f donde f
una densidad continua. Considere las alternativas:
13.1. PRUEBA χ2 215

H0 : f = Unif(0, 1) vs H1 : f 6= Unif(0, 1).

Se definen 20 niveles, que corresponden a sub-intervalos de [0,1]. Una obser-


vación Xj está en el nivel i si

i−1 i
≤ Xj <
20 20
.

Nivel 1 2 ··· 20
Frecuencia N1 N2 ··· N20

donde Ni es el número de observaciones que están en el intervalo i.

i Xi Grupo
1 X1 2
2 X2 4
3 X3 17
.. .. ..
. . .
100 X100 20

La hipótesis nula anterior es equivalente a


1
H0 : pi = , i = 1, . . . , 20.
20

1
y además note que np0i = 100 · = 5, i = 1, . . . , 20.
20
Entonces el estadístico χ2 es:
20
(Ni − 5)2
Q=
X
.
i=1 5

Rechazamos la hipótesis H0 : f = Unif(0, 1) si Q > χ219 (1 − α0 ).


216 CAPÍTULO 13. BONDAD DE AJUSTE

Nota: Este método funciona para cualquier tipo de distribución. El siguiente


procedimiento se debe seguir para estos casos

i. Particione en k subintervalos disjuntos la recta real o cualquier intervalo


en el que la probabilidad de que los datos estén contenidos sea 1.
Generalmente k se selecciona de forma que el número esperado de
observaciones en cada intervalo sea al menos 5, bajo H0 .

ii. Determine las probabilidades p0i hipotéticas que se asignará cada subin-
tervalo. El valor teórico para cada subintervalo será np0i

iii. Cuente las observaciones que caen en cada subintervalo. Llame este
valor Ni

iv. Calcule Q según el procedimiento anterior y tome una decisión con


respecto a la hipótesis nula. La hipótesis nula deberá tener una distribu-
ción χ2 con k − 1 grados de libertad.

Ejemplo. Supongamos que tenemos 23 datos de tiempos de vida útil de


partes mecánicas para automóvil.

Se aplica una transformación logarítmica en los datos, y los datos transforma-


dos son:
x <- c(
17.88, 28.92, 33, 41.52, 42.12, 45.6, 48.8, 51.84, 51.96, 54.12, 55.56,
67.8, 68.44, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92,
128.04, 173.4
)

log_x <- log(x)

hist(x)
13.1. PRUEBA χ2 217

Histogram of x
8
6
Frequency

4
2
0

0 50 100 150

hist(log_x)

Histogram of log_x
7
6
5
Frequency

4
3
2
1
0

2.5 3.0 3.5 4.0 4.5 5.0 5.5

log_x

Suponga que se quiere hacer la prueba de hipótesis


218 CAPÍTULO 13. BONDAD DE AJUSTE

H0 : f = N (log(50); 0,25) vs H1 : f 6= N (log(50); 0,25)

Seleccione k tal que

5 1
p0i = P[log-tiempo pertenezca al i-ésimo intervalo] ≥ ≈ .
23 4

Es decir, podemos tomar k = 4 grupos (intervalos regulares) usando los


cuartiles de la distribución bajo H0 :
1. Grupo 1: (FH−10 (0), FH−10 (0,25)] = (−∞, 3,575].
2. Grupo 2: (FH−10 (0,25), FH−10 (0,5)] = (3,575, 3,912].
3. Grupo 3: (FH−10 (0,5), FH−10 (0,75)] = (3,912, 4,249].
4. Grupo 4: (FH−10 (0,75), FH−10 (1)) = (4,249, +∞).
Entonces solo para efectos de construir la partición
cortes <- qnorm(
p = c(0, 1 / 4, 2 / 4, 3 / 4, 1),
mean = log(50),
sd = sqrt(0.25)
)

(intervalos <- cut(c(0, 10), breaks = cortes))

## [1] (-Inf,3.57] (4.25, Inf]


## Levels: (-Inf,3.57] (3.57,3.91] (3.91,4.25] (4.25, Inf]
(conteos <- cut(log_x, breaks = cortes))

## [1] (-Inf,3.57] (-Inf,3.57] (-Inf,3.57] (3.57,3.91] (3.57,3.91] (3.57,3.91


## [7] (3.57,3.91] (3.91,4.25] (3.91,4.25] (3.91,4.25] (3.91,4.25] (3.91,4.25
## [13] (3.91,4.25] (3.91,4.25] (3.91,4.25] (4.25, Inf] (4.25, Inf] (4.25, Inf
## [19] (4.25, Inf] (4.25, Inf] (4.25, Inf] (4.25, Inf] (4.25, Inf]
## Levels: (-Inf,3.57] (3.57,3.91] (3.91,4.25] (4.25, Inf]
summary(conteos)
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS 219

## (-Inf,3.57] (3.57,3.91] (3.91,4.25] (4.25, Inf]


## 3 4 8 8

G1 G2 G3 G4
3 4 8 8

(3 − 23 · 1/4)2 (4 − 23 · 1/4)2 (8 − 23 · 1/4)2 (8 − 23 · 1/4)2


Q= + + + = 3,609.
23 · 1/4 23 · 1/4 23 · 1/4 23 · 1/4

El valor-p corresponde a Fχ23 (3,609) = 0,307.


conteos <- summary(conteos)

chisq.test(conteos)

##
## Chi-squared test for given probabilities
##
## data: conteos
## X-squared = 3.6087, df = 3, p-value = 0.3069
Nota: La función chisq.test si no se llama con ninguna hipótesis nula
p, esta asume que p = 1/n para cada categoría. En este caso como son 4
categorías sería 1/4.
Con un nivel de significancia de al menos un 31 % aproximadamente, se
rechazaría la hipótesis de normalidad con esa escogencia de parámetros.
Nota: Otra escogencia de paramétros podría dar un resultado distinto.

13.2. Pruebas χ2 con hipótesis parametrizadas


Ejemplo. En el caso anterior, probamos que la distribución Normal con media
log(50) = 3,912023 y desviación estándar 0,25 no tenía suficiente evidencia
bajo niveles usuales de significancia.
La pregunta es entonces, ¿Cuáles serían los parámetros más idóneos en este
caso? ¿Los datos pertenecen a una familia normal?
220 CAPÍTULO 13. BONDAD DE AJUSTE

En esta sección veremos una técnica para lidiar con este problema.
Escriba cada pi (i = 1, . . . , k) como

pi = πi (θ), θ = (θ1 , . . . , θs )

Es decir, cada probabilidad es igual a una función particular con respecto a


un vector de paramétros θ.
Asuma que s < k − 1. Y asuma que una entrada de θ no se puede escribir
como función de las s − 1 restantes. Además suponga que πi (θ) = 1. Las
P

hipótesis a probar son:

H0 : pi = πi (θ) para algún parámetro θ ∈ Ω, i = 1, . . . , k

H1 : lo anterior no es cierto

El estadístico de prueba es

k
[Ni − nπi (θ̂)]2
Q=
X

i=1 nπi (θ̂)

con θ̂ el MLE de θ usando la distribución de (N1 , . . . , Nk ). En 1924, Fisher


probó lo siguiente:
Teorema. Bajo H0 y bajo condiciones de regularidad, conforme n → ∞,
Q → χ2k−1−s .
Ejemplo. Suponga que se tienen 3 grupos para una variable categórica y
defina una parámetro 0 < θ < 1. El analista hace el siguiente supuesto:

p1 = θ2 = π1 (θ),
p2 = 2θ(1 − θ) = π2 (θ),
p3 = (1 − θ)2 = π3 (θ).

Se observa que p1 + p2 + p3 = θ2 + 2θ(1 − θ) + (1 − θ)2 = [θ + (1 − θ)]2 = 1.


13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS 221

s = 1, Ω = [0, 1].
Como la distribución de (N1 , . . . , Nk ) ∼ Multinomial(n, p1 , . . . , pk ), se obtiene
H0
la verosimilitud
!
n
L(θ|N1 , . . . , Nk ) = (π1 (θ))N1 · · · (πk (θ))Nk
N1 · · · Nk

` = log(L) ∝ N1 ln π1 (θ) + · · · + Nk ln πk (θ)

Retomando el ejemplo,

ln L(θ) ∝ N1 ln θ2 + N2 ln 2θ(1 − θ) + N3 ln(1 − θ)2


= (2N1 + N2 ) ln θ + (2N3 + N2 ) ln(1 − θ) + N2 ln 2

∂ ln L(θ) 2N1 + N2 2N3 + N2 2N1 + N2


= − = 0 =⇒ θ̂ =
∂θ θ 1−θ 2n

Con esto se calcula π1 (θ̂),π2 (θ̂),π3 (θ̂) y Q.


Ejemplo (Partes de automóvil). Sean X1 , . . . , Xn ∼ f , H0 : f = N (µ, σ 2 )
donde µ y σ 2 son desconocidos.
Vamos a construir las funciones π tratando de ajustar los cuartiles que
habíamos definido antes con los valores teóricos de µ y σ. Entonces,

1
!
Z bi
bi − µ ai − µ
   
πi (µ, σ ) =
2
(2πσ )
2 −1/2
exp − 2 (x − µ)2 dx = Φ −Φ
ai 2σ σ σ

Asumiendo que la i-ésima partición es (ai , bi ), los 4 intervalos son

(−∞, 3,575], (3,575, 3,912], (3,912, 4,249], (4,249, +∞).

La verosimilitud es
222 CAPÍTULO 13. BONDAD DE AJUSTE

ln L(µ, σ 2 ) = N1 ln π1 (µ, σ 2 ) + · · · + N4 ln π4 (µ, σ 2 )

y se optimiza numéricamente.
cortes <- qnorm(
p = c(0, 1 / 4, 2 / 4, 3 / 4, 1),
mean = log(50),
sd = sqrt(0.25)
)

log_versomilitud <- function(par, cortes, log_x) {


G <- length(cortes)
mu <- par[1]
sigma <- par[2]

pi <- numeric()
for (k in 1:(G - 1)) {
pi[k] <- pnorm(q = cortes[k + 1], mean = mu, sd = sigma) -
pnorm(q = cortes[k], mean = mu, sd = sigma)
}

conteos <- cut(log_x, breaks = cortes)


conteos <- summary(conteos)

l <- -sum(conteos * log(pi))

return(l)
}

sol <- optim(


par = c(0, 1),
fn = log_versomilitud,
cortes = cortes,
log_x = log_x
)

sol$par
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS 223

## [1] 4.0926455 0.4331326


Para otra solución, considere el siguiente teorema:
Teorema (Chernoff y Lehmann, 1954). Sea X1 , . . . , Xn ∼ Fθ , θ : p-
dimensional. Denote θ̂n como el MLE de θ (basado en X1 , . . . , Xn ). Tome
una partición de R con k > p + 1 intervalos disjuntos I1 , . . . , Ik . Sea Ni la
cantidad de Xi ’s que pertenecen a Ii y sea πi (θ) = Pθ [Xi ∈ Ii |θ]. Si
k
[Ni − nπi (θ̂n )]2
Q =
0
X

i=1 nπi (θ̂n )

Entonces, bajo las condiciones de regularidad del MLE, si n → ∞, el cdf de


Q0 bajo H0 está entre χ2k−p−1 y χ2k−1 .
Del ejemplo anterior (tiempo de vida de los dispositivos), tome µ̂ = X̄n =
S2
4,1506137 y σ̂ 2 = n = 0,5332049.
n
3,575 − 4,15
!
π1 (µ̂, σ̂ ) = Φ
2
− Φ(−∞) = 0,14.
0,28431/2
3,912 − 4,15 3,575 − 4,15
! !
π2 (µ̂, σ̂ ) = Φ
2
−Φ = 0,187.
0,28431/2 0,28431/2
4,249 − 4,15 3,912 − 4,15
! !
π3 (µ̂, σ̂ 2 ) = Φ −Φ = 0,246.
0,28431/2 0,28431/2
4,249 − 4,15
!
π4 (µ̂, σ̂ ) = 1 − Φ
2
= 0,4266.
0,28431/2
Es decir podemos calcular lo siguiente en R
G <- length(cortes)
mu <- mean(log_x)
sigma <- sd(log_x)

pi <- numeric()
for (k in 1:(G - 1)) {
pi[k] <- pnorm(q = cortes[k + 1], mean = mu, sd = sigma) -
pnorm(q = cortes[k], mean = mu, sd = sigma)
}
224 CAPÍTULO 13. BONDAD DE AJUSTE

pi

## [1] 0.1400819 0.1871877 0.2461242 0.4266062


chisq.test(conteos, p = pi)

##
## Chi-squared test for given probabilities
##
## data: conteos
## X-squared = 1.3381, df = 3, p-value = 0.7201
Entonces

(3 − 23 · 0,14)2 (4 − 23 · 0,187)2 (8 − 23 · 0,246)2 (8 − 23 · 0,4266)2


Q0 = + + + = 1,3381.
23 · 0,14 23 · 0,187 23 · 0,246 23 · 0,4266
valor-p1 = Fχ24−2−1 (1,3381) = 0,7526307.
valor-p2 = Fχ24−1 (1,3381) = 0,2798937.
Rechazamos H0 (hipótesis de normalidad) si α0 < 0,2798.
ggplot(data = data.frame(x = c(2.5, 6)), aes(x)) +
geom_histogram(
data = data.frame(x = log_x),
aes(x, y = ..density..),
color = "white"
) +
stat_function(
fun = dnorm,
args = list(mean = log(50), sd = sqrt(0.25)),
aes(color = "Hipótesis Manual"),
size = 2
) +
stat_function(
fun = dnorm,
args = list(mean = sol$par[1], sd = sol$par[2]),
aes(color = "Hipótesis con Optimización"),
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS 225

size = 2
) +
stat_function(
fun = dnorm,
args = list(mean = mean(log_x), sd = sd(log_x)),
aes(color = "Hipótesis con MLE"),
size = 2
) +
theme_minimal()
1.5

1.0

colour
density

Hipótesis con MLE


Hipótesis con Optimización
Hipótesis Manual

0.5

0.0

3 4 5 6
x

Ejemplo. Suponga que se tiene el número de muertes por patadas de caballo


en el ejercito Prusiano.

Conteos 0 1 2 3 ≥ 4 Total
Núm. de obs. 144 91 32 11 2 280

¿Será la variable Poisson?


226 CAPÍTULO 13. BONDAD DE AJUSTE

df <- data.frame(
conteos = c(0, 1, 2, 3, 4),
observaciones = c(144, 91, 32, 11, 2)
)

ggplot(df, aes(x = conteos, y = observaciones)) +


geom_col() +
theme_minimal()

150

100
observaciones

50

0 1 2 3 4
conteos

H0 : f = Poisson(θ), θ > 0.

El MLE de θ̂ es

0 · 144 + 1 · 91 + 2 · 32 + 3 · 11 + 2 · 4 196
= = 0,7
280 280

π1 (θ̂) = e−θ̂ = e−0,7 = 0,4966.

e−θ̂ θ̂
π2 (θ̂) = = 0,3476.
1!
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS 227

e−θ̂ θ̂2
π3 (θ̂) = = 0,1217.
2!

e−θ̂ θ̂3
π4 (θ̂) = = 0,0283.
3!

π5 (θ̂) = F̄Poisson(θ̂) (4) = 0,0058

(144 − 280 · 0,4966)2 (91 − 280 · 0,3476)2 (32 − 280 · 0,1217)2


Q0 = + +
280 · 0,4966 280 · 0,3476 280 · 0,1217
(11 − 280 · 0,0283)2
(2 − 280 · 0,0058)2
+ + = 1,979.
280 · 0,0283 280 · 0,0058

valor-p1 = Fχ25−1−1 (1,979) = 0,5768.

valor-p2 = Fχ25−1 (1,979) = 0,7396.

Interpretación: con un nivel de significancia del 5 % no rechazamos la hipótesis


Poisson en los datos. En general se rechaza H0 para niveles de signficancia
superiores a 0.576.
total <- sum(df$observaciones)

ggplot(data = data.frame(x = c(0, 4)), aes(x)) +


geom_col(data = df, aes(x = conteos, y = observaciones / total)) +
stat_function(
fun = dpois,
args = list(lambda = 0.7),
aes(color = "Hipótesis con MLE"),
size = 2,
geom = "col"
) +
theme_minimal()
228 CAPÍTULO 13. BONDAD DE AJUSTE

0.5

0.4
observaciones/total

0.3
colour
Hipótesis con MLE

0.2

0.1

0.0

0 1 2 3 4
x
Capítulo 14

Tablas de contingencia

En este capítulo veremos cómo hacer un prueba para determinar si dos


variables categóricas son independientes.
Ejemplo. Considere una muestra de 200 estudiantes de una población uni-
versitaria, según currículum (área de estudio) y candidato preferido en unas
elecciones universitarias (A, B o indeciso).

Área/Candidato A B Indeciso Totales


Ingeniería 24 23 12 59
Humanidades 24 14 10 48
Artes 17 8 13 38
Administración 27 19 9 55
Totales 92 64 44 200

Antes de continuar con este ejemplo, definimos lo siguiente:


Tabla de contingencia: arreglo en donde cada observación se puede
clasificar de dos o más formas (vías).
Declaramos la siguiente notación:
R = El número de filas en la tabla.

C = El número de columnas en la tabla.

229
230 CAPÍTULO 14. TABLAS DE CONTINGENCIA

Nij = número de individuos en la muestra clasificados en la fila i y


columna j.
C
Ni+ = Nij .
X

j=1

R
N+j = Nij .
X

i=1

R X
C
Nij = n.
X

i=1 j=1

pij = P[Individuo en la población pertenezca a la celda i, j], i =


1, . . . , R; j = 1, . . . , C.
C
pi+ = P[Individuo se clasifique en la fila i] = pij .
X

j=1

R
p+j = P[Individuo se clasifique en la columna j] = pij .
X

i=1

columna j.
C
R X
pij = 1.
X

i=1 j=1

Por ejemplo para la tabla anterior


N11 = 24 son los estudiantes de ingeniería que van a votar por el
candidato A.
N2+ = 48 son todos los estudiantes de Humanidades.
N+3 = 44 son todos los estudiantes indecisos para votar.
n = N++ = 200 es el número total de estudiantes en la muestra.

14.1. Prueba de independencia


La hipótesis nula que queremos probar es:

H0 : pij = pi+ · p+j , i = 1, . . . , R ; j = 1, . . . , C


14.1. PRUEBA DE INDEPENDENCIA 231

Es decir, que las probabilidades conjuntas de la tabla es el producto de las


probabilidades individuales, i.e., que ambas variables son independientes.
Vectorizando la tabla de contingencia se puede utilizar la hipótesis de distribu-
ción multinomial. El número de celdas es k = RC. El número de parámetros
bajo H0 es R − 1 + C − 1 = R + C − 2.
Ni+ N+j
El MLE corresponde a p̂i+ = y p̂+j = .
n n
El MLE del conteo en la celda i, j (valor esperado bajo H0 ) es

Ni+ N+j Ni+ N+j


Êij = np̂i+ p̂+j = n = .
n n n

El estadístico χ2 se calcula como

C
R X
(Nij − Êij )2
Q= χ2k−s−1
X

i=1 j=1 Êij n grande, H0

donde k − s − 1 = RC − (R + C − 2) − 1 = (R − 1)(C − 1).


Dado α0 , rechazamos H0 si Q > χ2(R−1)(C−1) (1 − α0 ).
Del ejemplo anterior,

59 · 92
Ê11 = = 27,14
200
38 · 64
Ê32 = = 12,165
200
La tabla de valores esperados bajo H0 es

Área/Candidato A B Indeciso Totales


Ingeniería 27.14 18.88 12.98 59
Humanidades 22.08 15.36 10.56 48
Artes 17.48 12.16 8.36 38
Administración 25.30 17.60 12.10 55
Totales 92 64 44 200
232 CAPÍTULO 14. TABLAS DE CONTINGENCIA

(24 − 27,14)2 (8 − 12,16)2


Q= + ··· + + · · · = 6,68
27,14 12,16

El valor-p es F̄χ26 (6,68) = 0,351. No rechazamos la hipótesis de independencia


entre el currículum y la preferencia electoral con un nivel de significancia
del 10 %, por ejemplo y en general se rechaza H0 con niveles de significancia
superiores a 0.35.
En R este análisis se hace con la función chisq.test
Primero definamos la tabla de datos
M <- as.table(rbind(
c(24, 23, 12),
c(24, 14, 10),
c(17, 8, 13),
c(27, 19, 9)
))

dimnames(M) <- list(


Carrera = c(
"Ingeniería",
"Humanidades",
"Artes",
"Administración"
),
Voto = c("A", "B", "Indeciso")
)

## knitr::kable(M)

Luego el test se ejecuta sobre la matriz de los datos


chisq.test(M)

##
## Pearson’s Chi-squared test
##
## data: M
## X-squared = 6.6849, df = 6, p-value = 0.351
14.2. PRUEBA DE HOMOGENEIDAD 233

14.2. Prueba de homogeneidad


Suponga que seleccionamos algunos individuos de distintas poblaciones y
observamos una variable aleatoria discreta para cada individuo. La pregunta
que nos interesa es ver si la distribución de esa variable discreta es la misma
para cada población.

Ejemplo: Siguiendo con el ejemplo anterior, se toma muestras de tamaño


59,48,38 y 55 de cada área. ¿La distribución de la variable preferencia es la
misma sin importar el área? Es decir, la forma en que votan los estudiantes
es homogénea sin importar la carrera que cursan?

Sean R el número de poblaciones y cada observación en cada muestra puede


ser clasificada en C tipos de celdas (categorías). Entonces podemos representar
los datos en una tabla R × C.

Definimos, para i = 1, . . . , R y j = 1, . . . , C:

pij = P[una observación pertenece a la i-ésima población y a la categoríaj]

Estas probabilidades cumplen pij = 1, para un i = 1, . . . , R fijo.


PC
j=1

La hipótesis de homogeneidad es

H0 : p1j = p2j = · · · = pRj para j = 1, . . . , C

es decir, bajo H0 las R distribuciones son la misma.

Con el fin de construir el estadístico de prueba, considere una población fija i


y probabilidades pij conocidas. Considere el estadístico de Pearson asumiendo
una muestra de tamaño Ni+ de la población i-ésima:

C
(Nij − Ni+ pij )2
Q(i) =
X

j=1 Ni+ pij

Por lo tanto si Ni+ es grande: Q(i) ∼ χ2C−1 .


234 CAPÍTULO 14. TABLAS DE CONTINGENCIA

Supuesto. Las R muestras son independientes. Esto implica que {Q(i) }i son
variables independientes y
R X
C
(Nij − Ni+ pij )2
Q= ∼ χ2R(C−1)
X

i=1 i=1 Ni+ p ij

para tamaños de muestra grandes.


Nota: Este resultado viene del hecho que la suma de variables χ2 independi-
entes es una variable χ2 con grados de libertad igual a la suma de los grados
de libertad de las variables individuales.
Como los valores pij no son conocidos, tenemos que estimarlos usando un
MLE sobre Nij como muestra y asumiendo H0 . Entonces los MLEs serían:
N+j
p̂ij = .
n
Sustituyendo,
R X C
(Nij − Êij )2
Q=
X

i=1 j=1 Êij


Ni+ · N+j
donde Êij = . Como estamos estimando C − 1 parámetros, entonces
n
los grados de libertad de Q para muestras grandes son
R(C − 1) − (C − 1) = (R − 1)(C − 1).

Se rechaza H0 bajo el mismo criterio de la prueba de independencia.

14.3. Similitudes entre las pruebas de inde-


pendencia y homogeneidad
La prueba de independencia y de homogeneidad se estiman exactamente igual.
Sin embargo la interpretación de ambos es ligeramente diferente.
Para la prueba de independencia, se analiza la hipótesis de que la distribución
condicional sobre las columnas dada una fila no depende de la fila.
Sin embargo, para la prueba de homogeneidad cada fila es considerada como
una subpoblación y se desea analizar si para cada una de esta subpoblaciones
la distribución de las columnas es la misma.
14.4. COMPARACIÓN DE DOS O MÁS PROPORCIONES 235

Por lo tanto en términos de muestreo dentro de cada subpoblación, asumiendo


independencia u homogeneidad, las distribuciones obtenidas de las distribu-
ciones condicionales en cada subpoblación es la misma que la distribución
obtenida sobre la población total.

14.4. Comparación de dos o más propor-


ciones
Ejemplo. Suponga que se hace una encuesta y se pregunta si vieron cierto
programa o no en varias ciudades (R ≥ 2). Entonces se tiene la siguiente
tabla.

Ciudad Vio el programa No lo vio


1 N11 N12
.. .. ..
. . .
R N R1 NR2

Pregunta: ¿La proporción de audiencia es la misma en todas las ciudades?


Esta pregunta equivale a la hipótesis de homogeneidad entre ciudades. Y el
estadístico de prueba es:

R X
2
(Nij − Êij )2
Q= ∼ χ2R−1
X

i=1 j=1 Êij H0

.
Ejemplo. 100 personas se seleccionan aleatoriamente en una ciudad. Se les
pregunta si los bomberos trabajan bien. Ocurre un incendio y después se les
pregunta lo mismo.

Satisfactoria No satisfactoria
Antes del incendio 80 20
Después del incendio 72 28

En este caso no es apropiado hacer una prueba de independencia u homo-


236 CAPÍTULO 14. TABLAS DE CONTINGENCIA

geneidad χ2 porque se sabe directamente que los datos son correlacionados


(tabla 2 × 2 correlacionada). Para sintetizar la información del problema, se
debe responder las siguientes preguntas:
¿Cuál es la proporción de personas en la ciudad cambió su opinión sobre
el servicio de bomberos después de un incendio?
¿Cuál cambio de opinión fue la más predominante entre los que cam-
biaron de decisión?
Se puede enfocar el análisis usando una tabla de confusión:

Después del incendio


Satisfactoria No satisfactoria
Antes del incendio Satisfactorio 70 10
No Satisfactorio 2 18

En este caso tenemos que el MLE θ̂ de la proporción de personas que cam-


12
biaron de opinión es = 0,12. Ya que 10+2 = 12 fueron las personas que
100
cambiaron de opinión y teniamos 100 personas encuestadas. De las personas
10 5
que cambiaron de opinión = = 0,83 fueron las que cambiaron la opinión
12 6
de satisfactoria insatisfactoria.
Esto nos permite dar inferencias sobre el comportamiento general de la
población.

14.5. Paradoja de Simpson


Cuando tabulamos datos discretos, hay que tener cuidado con la forma en
que se compara los datos agregados totales con respecto a la agregación en
grupos específicos.
Ejemplo Hacemos un experimento para comparar dos tratamientos (nuevo y
viejo). La muestra fue de 80 sujetos, a los cuales 40 se les aplicó el tratamiento
nuevo y a 40 el viejo. Se evalúa la evolución de cada paciente.
14.5. PARADOJA DE SIMPSON 237

Mejoró No mejoró % mejora


Nuevo 20 20 50
Viejo 24 16 60

Conclusión: el tratamiento viejo tiene un porcentaje de mejora mayor.


Si vemos estos resultados según el sexo, para hombres

Mejoró No mejoró % mejora


Nuevo 12 18 40
Viejo 3 7 30

y para mujeres

Mejoró No mejoró % mejora


Nuevo 8 2 80
Viejo 21 9 70

A este proceso de separar las tablas se le conoce como desagregación.


Paradoja de Simpson. Desagregar tablas de contingencia algunas veces
pone en evidencia variables “ocultas” dentro de los datos.
La variable “sexo” influye en la capacidad de recuperación. Las mujeres se
recuperan más rápido que los hombres en cualquiera de los procedimientos.
Además la mayoría de las mujeres recibieron la mayor parte del tratamiento
viejo, mientras que la mayoría de los hombres recibieron la mayor parte del
tratamiento nuevo.
Sin embargo, proporcionalmente el efecto total es mayor porque los hombres
tuvieron una mayor influencia globalmente con respecto a la efectividad del
tratamiento viejo.
Nota. La paradoja puede persistir en muestras grandes. Es decir, se puede
obtener este mismo resultado con bases de datos grandes o pequeñas. El
problema no es la escala de los datos pero si su proporción.
238 CAPÍTULO 14. TABLAS DE CONTINGENCIA

14.5.1. ¿Cómo evitamos esta paradoja?


Hay un par de condiciones que se deben cumplir para evitar problemas en
este caso
Considere los eventos:
“Hombre” si se selecciona a un hombre.
“Hombrec ” si se selecciona a una mujer.
“Nuevo” si es el tratamiento nuevo.
“Mejora” si hubo una mejora en el tratamiento.
La paradora de Simpson nos dice que es posible tener las siguientes desigual-
dades:

P[Mejora|Hombre ∩ Nuevo] > P[Mejora|Hombre ∩ Nuevoc ] (?)


P[Mejora|Hombre ∩ Nuevo] > P[Mejora|Hombre ∩ Nuevo ]
c c c
(??)
P[Mejora|Nuevo] < P[Mejora|Nuevo ] c
(? ? ?)

Si tenemos el supuesto que

P[Hombre|Nuevo] = P[Hombre|Nuevoc ] (4)

entonces

P[Mejora|Nuevo] = P[Mejora|Hombre ∩ Nuevo] · P[Hombre|Nuevo]


+ P[Mejora|Hombrec ∩ Nuevo] · P[Hombrec |Nuevo]
Usando (?) y (??), vemos que tenemos la desigualdad:
P[Mejora|Nuevo] > P[Mejora|Hombre ∩ Nuevoc ] · P[Hombre|Nuevo]
+ P[Mejora|Hombrec ∩ Nuevoc ] · P[Hombrec |Nuevo]
Usando el supuesto en (4), la igualdad se convierte en:
P[Mejora|Nuevo] > P[Mejora|Hombre ∩ Nuevoc ] · P[Hombre|Nuevoc ]
+ P[Mejora|Hombrec ∩ Nuevoc ] · P[Hombrec |Nuevoc ]
14.5. PARADOJA DE SIMPSON 239

Finalmente usando la propiedades de probabilidades condicionales, esta ex-


presión se puede escribir como:

P[Mejora|Nuevo] > P[Mejora|Nuevoc ]

por lo que no se cumple la paradoja.


Nota: Otra forma de que la paradoja nos se cumple es si P[Nuevo|Hombre] =
P[Nuevo|Hombrec ]. (Tarea)
240 CAPÍTULO 14. TABLAS DE CONTINGENCIA
Capítulo 15

Pruebas de
Kolmogorov-Smirnov

En capítulos anteriores, hicimos una prueba χ2 para determinar si cierto


conjunto de datos se ajustaba a una distribución continua o no.

Una mejor alternatva para este caso es la prueba Kolmogorov-Smirnov.

Sean X1 , . . . , Xn ∼ F , F una distribución continua. Asumimos por simplicidad


que los valores observados x1 , . . . , xn son diferentes (como la distribución es
continua la probabilidad de que eso pase es 0).

Definición. Sean x1 , . . . , xn los valores observados de la muestra aleatoria


X1 , . . . , Xn . Para cada x defina Fn (x) como la proporción de valores observados
en la muestra que son menores o iguales a x. Es decir, si hay k valores
observados menores o iguales a x,

k
Fn (x) = .
n

La función Fn (x) se conoce como la función de distribución de la muestra


1
(empírica). Fn es una distribución a pasos con salto de magnitud entre los
n
valores x1 , . . . , xn . Se puede expresar como

241
242 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV




 0 si x < x(1)
1 Xn


Fn (x) = 1{x ≤x} si x(1) ≤ x < x(n)


 n i=1 i
1 si x(n) ≥ x


Como {Xi }ni=1 son independientes, {1{Xi ≤x} }ni=1 son independientes. Entonces,
por la ley de grandes números

1X n
Fn (x) = 1{Xi ≤x} −−−→ E[1Xi ≤x ] = F (x)
P
n i=1 n→∞

por lo que Fn (x) es un estimador consistente de F (x).

Ejemplo Recuerden el ejemplo de los 23 tiempos de vida útil para una parte
mecánica de un automóvil.
x <- c(
17.88, 28.92, 33, 41.52, 42.12, 45.6, 48.8, 51.84, 51.96, 54.12, 55.56,
67.8, 68.44, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92,
128.04, 173.4
)
df <- as.data.frame(x)

Para este ejemplo tenemos que Fn (x) se ve de la forma:


ggplot() +
stat_ecdf(
data = df,
mapping = aes(x, color = "F_n(x)"),
size = 2
) +
theme_minimal()
243

1.00

0.75

colour
0.50
y

F_n(x)

0.25

0.00

50 100 150
x

Y en los capítulos anteriores hicimos una comprobación de que los parámetros


µ = 3,912 y σ 2 = 0,25 se ajustaban bien para los log-valores asumiendo un
modelo normal. En este caso podemos comprobar este ajuste
ggplot() +
stat_ecdf(
data = df,
mapping = aes(log(x), color = "F_n(x)"),
size = 2
) +
stat_function(
data = data.frame(x = c(3, 5)),
fun = pnorm,
aes(color = "F(x)"),
size = 2,
args = list(mean = 3.912, sd = sqrt(0.25))
) +
theme_minimal()
244 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV

1.00

0.75

colour
0.50 F_n(x)
y

F(x)

0.25

0.00

3.0 3.5 4.0 4.5 5.0


log(x)

La prueba de Kolmogorov-Smirnov está basada en el siguiente teorema.

Teorema (Lema de Glivenko-Cantelli)

Sea Fn (x) la distribución empírica de una muestra X1 , . . . , Xn provenientes


de la distribución F . Defina

Dn = sup |Fn (x) − F (x)|


−∞<x<∞

Entonces

− 0.
P
Dn →

Esto quiere decir que conforme el tamaño de muestra es grande, la distribución


empírica será muy cercana a la distribución poblacional sobre toda la recta
real. El principal inconveniente de Fn (x) como estimador de F (x) es su
comportamiento escalonado para muestras finitas.
15.1. PRUEBA DE KOLMOGOROV-SMIRNOV PARA UNA MUESTRA245

15.1. Prueba de Kolmogorov-Smirnov para


una muestra
La pregunta que responde esta prueba es
¿Será que F = F ∗ , donde F ∗ es una distribución hipotética?.
Las alternativas de interés son:

H0 : F = F ∗ vs H1 : F 6= F ∗

En este caso se define el estadístico

Dn∗ = sup |Fn (x) − F ∗ (x)|


−∞<x<∞

Nota: Si H0 es cierto, la distribución del estadístico Dn∗ no depende de F ∗ .


Note que si Zi = F ∗ (Xi ), i = 1, . . . , n (X1 , . . . , Xn ∼ F ):

P(Zi ≤ z) = P(F ∗ (Xi ) ≤ z) = P(Xi ≤ ((F ∗ )−1 (z))) = z

Entonces Z1 , . . . , Zn ∼ Unif(0, 1)
H0

Considere la hipótesis H0Z : G = Unif(0, 1) donde G es la distribución de Zi .


Entonces

Dn∗,G = sup |Gn (z)−G∗ (z)| = sup |Gn (z)−FUnif(0,1) (z)| = sup |Gn (z)−z|
0<z<1 0<z<1 0<z<1

Observe que

1X n
1X n
1X n
Gn (z) = 1{Zi ≤z} = 1{F ∗ (Xi )≤z} = 1{Xi ≤(F ∗ )−1 (z)} = Fn ((F ∗ )−1 (z))
n i=1 n i=1 n i=1

Entonces tomando x = (F ∗ )−1 (z):


246 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV

Dn∗,G = sup |Fn (x) − F ∗ (x)| = Dn∗


H0

por lo que Dn∗ no depende de F ∗ bajo H0 .

De manera práctica si la distribución Fn (x) es cercano a F ∗ entonces Dn∗ será


1
cercano a 0. Entonces podemos rechazar la hipótesis nula H0 si n 2 Dn∗ ≥ c,
para algún valor c particular.

Este valor en particular se debe estimar a partir de la distribución de


Kolmogorov-Smirnov.

Teorema (Kolmogorov-Smirnov (1930)). Si H0 es cierto, para t > 0,


2 t2
lı́m P(n1/2 Dn∗ ≤ t) = 1 − 2 (−1)i−1 e−2i =: H(t).
X
n→∞
i=1

Rechazamos H0 si n1/2 Dn∗ ≥ c, para n grande. Para un nivel de significancia


α0 seleccionamos c = H −1 (1 − α0 ).

La función H(t) es algo complicada de estimar, y sus cuantiles lo son aún


más. Estos normalmente son definidos a través de métodos númericos que
están fuera del alcance del este curso. La siguiente tabla muestra el conjunto
de valores estimados para cada t
15.1. PRUEBA DE KOLMOGOROV-SMIRNOV PARA UNA MUESTRA247

t H(t) t H(t)
0.30 0.0000 1.20 0.8878
0.35 0.0003 1.25 0.9121
0.40 0.0028 1.30 0.9319
0.45 0.0126 1.35 0.9478
0.50 0.0361 1.40 0.9603
0.55 0.0772 1.45 0.9702
0.60 0.1357 1.50 0.9778
0.65 0.2080 1.60 0.9880
0.70 0.2888 1.70 0.9938
0.75 0.3728 1.80 0.9969
0.80 0.4559 1.90 0.9985
0.85 0.5347 2.00 0.9993
0.90 0.6073 2.10 0.9997
0.95 0.6725 2.20 0.9999
1.00 0.7300 2.30 0.9999
1.05 0.7798 2.40 1.0000
1.10 0.8223 2.50 1.0000
1.15 0.8580
Los valores más comunes de cuantiles para las pruebas son

α H −1 (1 − α)
0.01 1.63
0.05 1.36
0.1 1.22

Ejemplo:
En el caso de las partes mecánicas quisiéramos saber si los log-valores siguen
o no una distribución normal.
02
Dado que queremos comparar estos valores con un N (µ̂, σ ), entonces
ks.test(
x = log(x),
y = "pnorm",
mean = mean(log(x)),
248 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV

sd = sd(log(x))
)

##
## One-sample Kolmogorov-Smirnov test
##
## data: log(x)
## D = 0.091246, p-value = 0.9815
## alternative hypothesis: two-sided
Note que estos parámetros de localización y escala son muy importantes
ya que si se quisiera comparar con una distribución N (0, 1) el resultado es
diferente.
ks.test(
x = log(x),
y = "pnorm",
mean = 0,
sd = 1
)

##
## One-sample Kolmogorov-Smirnov test
##
## data: log(x)
## D = 0.99803, p-value = 4.441e-16
## alternative hypothesis: two-sided

15.2. Prueba de 2 muestras


Suponga que se tiene X1 , . . . , Xm ∼ N (µ1 , σ 2 ) y Y1 , . . . , Yn ∼ N (µ2 , σ 2 ) y se
desea saber si ambas muestras tienen la misma distribución.
Una opción es probar que

H0 : µ1 = µ2 vs H1 : µ1 6= µ2

y mantener el supuesto fuerte de normalidad a la hora de realizar la prueba


de comparación de medias.
15.2. PRUEBA DE 2 MUESTRAS 249

Otra opción a analizar es comparar las distribuciones en general. Es decir,


para X1 , . . . , Xm ∼ F y Y1 , . . . , Ym ∼ G continuas, probar H0 : F (x) = G(x),
x ∈ R.
Considere
Dmn = sup |Fm (x) − Gn (x)|
−∞<x<∞

Se tiene por el teorema de Glivenko-Cantelli que Dmn →


− 0, m, n → ∞ cuando
P

H0 es verdadera
Para el caso de dos muestras se puede probar que si H(t) es la distribución
límite en el caso de una muestra y t > 0, entonces se cumple que

1 !
mn

2
lı́m P Dmn ≤ t = H(t)
m,n→∞ m+n
1
mn 2

En este caso se rechaza la hipótesis nula si Dmn ≥ H −1 (1 − α0 ).
m+n
Ejemplo Suponga que se tienen dos grupos de personas a las cuales a unas se
les dio un tratamiento para la presión arterial y al otro se le dio un placebo.
A cada persona en cada grupo se le midió las diferencias en las presiones
arteriales al inicio y al final de 12 semanas de tratamiento con un suplemento
con calcio.
Los resultados fueron estos
Medicina <- c(7, -4, 18, 17, -3, -5, 1, 10, 11, -2)
Placebo <- c(-1, 12, -1, -3, 3, -5, 5, 2, -11, -1, -3)

La pregunta es si ambos conjuntos de datos vienen de la misma distribución.


ks.test(Medicina, Placebo)

##
## Two-sample Kolmogorov-Smirnov test
##
## data: Medicina and Placebo
## D = 0.40909, p-value = 0.3446
## alternative hypothesis: two-sided
250 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV

En este caso rechazamos la hipótesis nula de que ambas distribuciones son


iguales con un nivel de α ≥ 0,346.
df <- rbind(
data.frame(x = Medicina, Tratamiento = "Medicina"),
data.frame(x = Placebo, Tratamiento = "Placebo")
)

ggplot(df) +
stat_ecdf(aes(x, color = Tratamiento)) +
theme_minimal()

1.00

0.75

Tratamiento
0.50 Medicina
y

Placebo

0.25

0.00

-10 0 10
x
Capítulo 16

Pruebas no-paramétricas:
pruebas de signo y rango

En este capítulo se explorará como hacer hipótesis sobre la distribución de


un conjunto de datos cuando no se sabe con exactitud la distribución teórica
a la cual pertenece.

16.1. Prueba de signo


Sean X1 , . . . , Xn una muestra aleatoria de una distribución desconocida con-
tinua. Recordemos que no toda distribución tiene media, por ejemplo la
distribución Cauchy1 . Sin embargo, toda distribución continua si tiene una
mediana µ2 definida.
La mediana es una popular medida de ubicación, que satisface

P(Xi ≤ µ) = 0, 5.
1
La densidad de una distribución Cauchy se define como f (x; x0 , γ) =
1 γ2
,, donde x0 y γ son parámetros de localización y escala respecti-
πγ (x − x0 )2 + γ 2
vamente. Esta distribución no tiene ningún momento definido y su mediana es x0 .
2
Importante: Aunque normalmente se denota µ como la media, en este capítulo µ es
la mediana.

251
252CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO

Suponga que queremos probar

H0 :µ ≤ µ0
H1 :µ > µ0

¿Por qué esta prueba? Note que esta se basa en el hecho de que µ ≤ µ0 si y
solo si P(Xi < µ0 ) ≥ 0, 5 para i = 1, . . . , n.

Es decir, que la mediana µ es menor que algún valor µ0 si y solo si, la


probabilidad de que los valores Xi sean menores que µ0 sea mayor de 0.5. De
forma más gráfica, si tiraramos una moneda, aproximadamente la mitad de la
veces un valor de X caería por debajo de µ0 y la otra mitad por encima de µ0

Usando esta última observación, para i = 1, . . . , n, sea Yi = 1 si Xi ≤ µ0 y


Yi = 0 si no. Defina p = P(Yi = 1). Entonces, probar que µ ≤ µ0 es equivalente
a probar p ≥ 0, 5. Como X1 , . . . , Xn son independientes, Y1 , . . . , Yn lo son,
entonces

Y1 , . . . , Yn ∼ Bernoulli(p).

Calculamos W = Y1 + · · · + Yn y decimos que rechazamos la hipótesis nula si


W es pequeño.

Para tener una prueba de tamaño α0 , escoja c tal que

c
1 n c+1
1 n
!  ! 
X n X n
≤ α0 <
w=0 w 2 w=0 w 2

Se rechaza H0 si W ≤ c.

La prueba descrita es llamada prueba de signo pues está basada en el


número de observaciones en las cuales Xi − µ0 es negativo.

Si se desea hacer una prueba de dos colas


16.1. PRUEBA DE SIGNO 253

1
 
H0 :µ 6= µ0 p=
2
1

H1 :µ 6= µ0 p 6=
2

Se rechaza H0 si W ≤ c o W ≥ n − c (simetría de Binomial(n, p)) y para


obtener un nivel de significacia del α0 seleccionamos c tal que

c
1 n c+1
1
n
!  ! 
X n α0 X n
≤ <
w=0 w 2 2 w=0 w 2

Note que la función de potencia en el caso unilateral es:

c
!
n
P(W ≤ c) = (1 − p)n−w pw
X

w=0 w

Ejemplo: En junio de 1986 la revista Consumer Reports reportó las calorías


de 20 marcas de salchichas. Estos son los datos reportados:
x <- c(
186, 181, 176, 149, 184, 190, 158,
139, 175, 148, 152, 111, 141, 153,
190, 157, 131, 149, 135, 132
)
ggplot(as.data.frame(x), aes(y = x)) +
geom_boxplot() +
theme_minimal()
254CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO

175
x

150

125

-0.4 -0.2 0.0 0.2 0.4

Suponga que se quiere probar la hipótesis de que la mediana es igual a 150


(µ = 150). Entonces se plantea la hipótesis

H0 :µ = 150
H1 :µ =
6 150

La prueba de signo cuenta cuantas veces Xi − 150 es negativo. Observe que


para estos datos tenemos que
M <- data.frame(
diferencias = x - 150,
signo_negativo = x - 150 < 0)
M

## diferencias signo_negativo
## 1 36 FALSE
## 2 31 FALSE
## 3 26 FALSE
## 4 -1 TRUE
## 5 34 FALSE
16.1. PRUEBA DE SIGNO 255

## 6 40 FALSE
## 7 8 FALSE
## 8 -11 TRUE
## 9 25 FALSE
## 10 -2 TRUE
## 11 2 FALSE
## 12 -39 TRUE
## 13 -9 TRUE
## 14 3 FALSE
## 15 40 FALSE
## 16 7 FALSE
## 17 -19 TRUE
## 18 -1 TRUE
## 19 -15 TRUE
## 20 -18 TRUE
summary(M$signo_negativo)

## Mode FALSE TRUE


## logical 11 9
Y el valor p correspondiente es:
2 * pbinom(q = 9, size = 20, prob = 1 / 2)

## [1] 0.8238029
Rechazamos la hipótesis nula con un nivel α0 ≥ 0,8238.
Este mismo problema se puede resolver con la función binom.test de R (x
es el número de signos negativos y n es el número total de datos).
binom.test(x = 9, n = 20)

##
## Exact binomial test
##
## data: 9 and 20
## number of successes = 9, number of trials = 20, p-value = 0.8238
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
256CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO

## 0.2305779 0.6847219
## sample estimates:
## probability of success
## 0.45

16.2. Prueba de Wilconxon-Mann-Whitney


i.i.d i.i.d
Dadas dos muestras independientes X1 , . . . , Xm ∼ F y Y1 , . . . , Yn ∼ G,
queremos verificar las alternativas:

H0 :F = G
H1 :F =
6 G

Esta hipótesis se puede hacer con las pruebas de Kolmogorov-Smirnov o la


prueba t (dependiendo de la naturaleza de F y G).
Otra forma de hacerlo es usando la prueba de Wilconxon-Mann-Whitney
(prueba de rango) descubierta por F. Wilcoxon, H. B. Mann y D. R. Whitney
en la década de 1940.
La lógica de la prueba reside en que si unimos los dos conjuntos de valores y
ambos tienen la misma distribución, entonces los datos agregados al ordenarse
estarían dispersos equitativamente entre las dos muestras.
Asumiendo que H0 es cierto y uniendo las dos muestras:

W = (W1 , . . . , Wn+m ) = (X1 , . . . , Xm , Y1 , . . . , Yn )

Sobre esta muestra agregada calculamos los estadísticos de orden (ordenamos


los datos agregados):

(W(1) , . . . , W(n+m) )

Para una muestra como X1 , . . . , Xm se tiene que las posiciones de cada uno
los datos se puede escribir como variables aleatorias
16.2. PRUEBA DE WILCONXON-MANN-WHITNEY 257

X1 , . . . , Xm → (XI1 , . . . , XIm ) = (X(1) , . . . , X(m) ).

Note que estas posiciones se pueden modelar como

(I1 , . . . , Im ) ∼ Unif. Discreta(1, . . . , m)

Por lo tanto, bajo H0 , W1 , . . . , Wn+m tiene índices de posición uniformemente


distribuidos sobre los enteros 1, . . . , m + n.
Defina S como la suma de todos los índices de posición (rangos) de la muestra
X = (X1 , . . . , Xm ) dentro de la muestra agregada W . Se puede probar que
m+n+1
 
H0
E[S] = m .
2
m+n+1
 
H
Var(S) =0 mn .
12
El resultado importante de Mann y Whitney en 1947 fue probar que si m, n
son grandes, entonces

m(m + n + 1) mn(m + n + 1)
!
S ∼N , .
H0 2 12

Por lo tanto la prueba se convierte en una prueba de normalidad sobre los


rangos de los datos.
Rechazamos la hipótesis nula si S se desvía mucho del valor de la media E[S].
En otra palabras rechazamos H0 si:

m(m + n + 1)


S − ≥c

2

bajo la aproximación normal de Mann y Whitney, el valor c es:


α
 
1
c = (Var(S)) 2 Φ−1 1 −
2

y de esta forma la prueba tendría nivel de significancia α.


258CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO

Ejemplo: Supongamos que tenemos estos dos conjuntos de datos y queremos


ver si tienen la misma distribución.
x <- c(2.183, 2.431, 2.556, 2.629,
2.641, 2.715, 2.805, 2.840)

y <- c(2.120, 2.153, 2.213, 2.240,


2.245, 2.266, 2.281, 2.336,
2.558, 2.587)

dfx <- data.frame(W = x, variable = "x")

dfy <- data.frame(W = y, variable = "y")

Lo primero sería unirlos


dfw <- full_join(dfx, dfy)

Y luego ordenarlos y calcular su rango


dfw <- dfw %> %
arrange(W) %> %
mutate(rango = 1:n())

dfw

## W variable rango
## 1 2.120 y 1
## 2 2.153 y 2
## 3 2.183 x 3
## 4 2.213 y 4
## 5 2.240 y 5
## 6 2.245 y 6
## 7 2.266 y 7
## 8 2.281 y 8
## 9 2.336 y 9
## 10 2.431 x 10
## 11 2.556 x 11
## 12 2.558 y 12
## 13 2.587 y 13
16.2. PRUEBA DE WILCONXON-MANN-WHITNEY 259

## 14 2.629 x 14
## 15 2.641 x 15
## 16 2.715 x 16
## 17 2.805 x 17
## 18 2.840 x 18
ggplot(dfw, aes(y = W, fill = variable)) +
geom_boxplot() +
theme_minimal()

2.7

variable
2.5
W

x
y

2.3

2.1
-0.2 0.0 0.2

(m <- length(x))

## [1] 8
(n <- length(y))

## [1] 10

Calculamos la media y varianza de S bajo H0 :


(media_S <- m * (m + n + 1) / 2)

## [1] 76
260CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO

(var_S <- m * n * (m + n + 1) / 12)

## [1] 126.6667
Tomamos la suma de todos los rangos de la muestra X:
S <- dfw %> %
filter(variable == "x") %> %
summarise (S = sum(rango))

(S <- as.numeric(S))

## [1] 104

La variable S sigue una distribución N (76, 126,67). Por lo tanto su p-valor
es
2 * (1 - pnorm(q = (S - media_S) / sqrt(var_S)))

## [1] 0.01285124
Rechazamos H0 si el nivel de significacia α0 > 0,0128
La función en R wilcox.test calcula la misma prueba, aunque esta hace
algunos ajustes adicionales a los rangos, por eso los valores son ligeramente
diferentes. Los detalles los pueden consultar en la ayuda de la función.
wilcox.test(x, y)

##
## Wilcoxon rank sum exact test
##
## data: x and y
## W = 68, p-value = 0.01166
## alternative hypothesis: true location shift is not equal to 0

También podría gustarte