Está en la página 1de 382

Jaime Vázquez Alamilla

Lizbeth Naranjo Albarrán


Ruth Fuentes Garcı́a
Margarita Chávez Cano

inferencia estadı́stica
para estudiantes de ciencias

Facultad de Ciencias, UNAM


519.5
Vázquez Alamilla, Jaime, autor.
Inferencia estadística para estudiantes de ciencias / Jaime
Vázquez Alamilla, Lizbeth Naranjo Albarrán, Ruth Fuentes García,
Margarita Chávez Cano. -- Ciudad de México : Universidad Nacio-
nal Autónoma de México, Facultad de Ciencias, 2019.
xv, 384 páginas: ilustraciones ; 22 cm
Incluye índice
Bibliografía: paginas 375-378
ISBN: 978-607-30-2477-8
1. Estadística matemática. 2. Probabilidades. I. Naranjo Al-
barrán, Lizbeth, autor. II. Fuentes García, Ruth, autor. III. Chávez
Cano, Margarita, autor. IV. Universidad Nacional Autónoma de Mé-
xico, Facultad de Ciencias, editor. V. Título.
Biblioteca Nacional de México scdd 22

Esta obra contó con el apoyo del proyecto PAPIME PE-107117

Inferencia estadística para estudiantes de ciencias


1a edición, 29 de septiembre de 2019

© D.R. 2019. Universidad Nacional Autónoma de México.


Facultad de Ciencias.
Ciudad Universitaria. Delegación Coyoacán,
C. P. 04510, Ciudad de México
Coordinación de servicios editoriales: editoriales@ciencias.unam.mx
Plaza Prometeo: tienda.fciencias.unam.mx

ISBN: 978-607-30-2477-8

Diseño de portada: Laura Uribe Hernández y Celia Ayala Escorza

Prohibida la reproducción parcial o total de la obra por cualquier medio,


sin la autorización por escrito del titular de los derechos patrimoniales.

Impreso y hecho en México.


Agradecimientos
A la Dirección General de Asuntos del Personal Académico por el apoyo
para la realización de esta obra a través del Proyecto Papime PE107117.

A nuestro maestro de Inferencia Estadı́stica, el Dr. Federico O’Reilly


Togno, por sus sugerencias y por haber accedido a escribir el prólogo de este
libro, pero sobre todo por habernos transmitido el gusto por esta materia.
Es un honor, siendo él uno de los pilares de la estadı́stica en México.

A los colegas profesores e investigadores que nos hicieron comentarios


acerca de las notas que antecedieron a este texto. En particular al Dr. Eduar-
do Gutiérrez Peña por sus valiosas observaciones.

A Rafael Reyes Sánchez por su extraordinario apoyo en la edición y


formato de este libro.

A los ayudantes (profesores adjuntos), quienes con su labor han sido


parte fundamental del éxito de los cursos de Inferencia Estadı́stica que hemos
impartido. Gracias también por sus aportaciones para la realización de este
documento.

A nuestros estudiantes de la Facultad de Ciencias de la Universidad Na-


cional Autónoma de México, porque ellos son la razón de nuestro trabajo y
quienes nos motivaron a escribir el libro.
Índice general

Prólogo XV

Introducción XVII

1. ¿Qué es la estadı́stica? 1
1.1. La probabilidad y la estadı́stica . . . . . . . . . . . . . . . . . 2
1.2. Enfoques de la estadı́stica . . . . . . . . . . . . . . . . . . . . 3
1.2.1. El concepto de muestra aleatoria . . . . . . . . . . . . 6
1.3. Familia de localización y escala . . . . . . . . . . . . . . . . . 8

2. Estadı́stica descriptiva 11
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Datos y variables . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Escalas de medición . . . . . . . . . . . . . . . . . . . 13
2.2.3. Formas de recolección . . . . . . . . . . . . . . . . . . 14
2.3. Los datos y R . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1. Cargando los datos . . . . . . . . . . . . . . . . . . . . 15
2.4. Representación gráfica de los datos . . . . . . . . . . . . . . . 16
2.4.1. Frecuencia, frecuencia relativa y frecuencia acumulada 17
2.4.2. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . 17
2.4.3. Gráficas de barras . . . . . . . . . . . . . . . . . . . . 18
2.4.4. Gráficas de pay o pastel . . . . . . . . . . . . . . . . . 18
2.4.5. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . 21
2.4.6. Histograma . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.7. Boxplot o diagrama de caja y brazos . . . . . . . . . . 24
2.5. Medidas muestrales de tendencia central . . . . . . . . . . . 27
2.5.1. La media muestral . . . . . . . . . . . . . . . . . . . . 27
2.5.2. La mediana muestral . . . . . . . . . . . . . . . . . . . 27
2.5.3. Porcentiles o percentiles . . . . . . . . . . . . . . . . . 28

v
vi Índice general

2.6. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . 29


2.6.1. Varianza y desviación estándar muestrales . . . . . . . 29
2.6.2. Rango muestral . . . . . . . . . . . . . . . . . . . . . . 31
2.6.3. Rango intercuartil . . . . . . . . . . . . . . . . . . . . 31
2.7. Otras medidas de resumen . . . . . . . . . . . . . . . . . . . . 32
2.8. Relaciones lineales entre variables . . . . . . . . . . . . . . . . 33
2.9. Anexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.10. Ejercicio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3. Estadı́sticas y distribuciones muestrales 39


3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2. Distribución de las estadı́sticas . . . . . . . . . . . . . . . . . 44
3.2.1. Distribución de la media muestral . . . . . . . . . . . 44
3.2.2. La distribución de la varianza muestral . . . . . . . . 45
3.2.3. La distribución F de Fisher y el cociente de varianzas
muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.4. La distribución t de Student y algunas estadı́sticas re-
lacionadas . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3. Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.1. r-ésima estadı́stica de orden (Yr ) . . . . . . . . . . . . 60
3.3.2. Distribución conjunta de las estadı́sticas de orden mı́ni-
ma y máxima . . . . . . . . . . . . . . . . . . . . . . . 61
3.4. Estadı́sticas suficientes . . . . . . . . . . . . . . . . . . . . . . 63
3.4.1. El concepto de suficiencia . . . . . . . . . . . . . . . . 65
3.4.2. El teorema de factorización . . . . . . . . . . . . . . . 70
3.4.3. La familia exponencial . . . . . . . . . . . . . . . . . . 76
3.4.4. Suficiencia minimal . . . . . . . . . . . . . . . . . . . . 78

3.5. Completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.6. Algunas generalizaciones . . . . . . . . . . . . . . . . . . . . . 88
3.7. Estadı́sticas auxiliares . . . . . . . . . . . . . . . . . . . . . . 90
3.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4. Estimación puntual 105


4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . 106
4.2.1. Método de momentos . . . . . . . . . . . . . . . . . . 108
4.2.2. Estimadores basados en verosimilitud . . . . . . . . . 112
4.2.3. Verosimilitud en el enfoque Bayesiano . . . . . . . . . 125
4.2.4. Otros métodos de estimación . . . . . . . . . . . . . . 133
4.3. Evaluación de estimadores . . . . . . . . . . . . . . . . . . . . 138
Índice general vii

4.3.1. Error cuadrático medio y estimadores insesgados . . . 139


4.3.2. Consistencia . . . . . . . . . . . . . . . . . . . . . . . 144
4.3.3. Funciones de pérdida y estimación . . . . . . . . . . . 146
4.4. Estimación insesgada . . . . . . . . . . . . . . . . . . . . . . . 148
4.4.1. La propuesta de Cramèr y Rao . . . . . . . . . . . . . 149
4.4.2. El teorema de Rao-Blackwell . . . . . . . . . . . . . . 159
4.4.3. El teorema de Lehmann-Scheffé . . . . . . . . . . . . . 160
4.5. Propiedades asintóticas de los estimadores . . . . . . . . . . . 167
4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

5. Estimación por intervalos 183


5.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . 183
5.1.1. Método pivotal para encontrar intervalos de confianza 189
5.1.2. El método de la cantidad pivotal para funciones de
distribución continuas . . . . . . . . . . . . . . . . . . 193
5.1.3. Método basado en estadı́sticas suficientes . . . . . . . 196
5.2. Intervalos para muestras de la distribución normal . . . . . . 200
5.2.1. Intervalos para la media . . . . . . . . . . . . . . . . . 201
5.2.2. Intervalo para la varianza . . . . . . . . . . . . . . . . 203
5.2.3. Región de confianza para (µ, σ 2 ) . . . . . . . . . . . . 204
5.2.4. Intervalo para la diferencia de medias de poblaciones
normales independientes . . . . . . . . . . . . . . . . . 204
5.2.5. Intervalo para el cociente de varianzas de poblaciones
normales independientes . . . . . . . . . . . . . . . . . 209
5.3. Intervalos de confianza para muestras grandes . . . . . . . . . 211
5.3.1. Intervalo de confianza para el parámetro p de una dis-
tribución binomial . . . . . . . . . . . . . . . . . . . . 214
5.4. Enfoque Bayesiano en la estimación por intervalos . . . . . . 216
5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

6. Pruebas de hipótesis 227


6.1. Conceptos fundamentales en pruebas de hipótesis . . . . . . . 227
6.1.1. Hipótesis estadı́sticas . . . . . . . . . . . . . . . . . . . 229
6.1.2. Tipos y tamaños de los errores . . . . . . . . . . . . . 232
6.1.3. La función potencia . . . . . . . . . . . . . . . . . . . 234
6.2. Hipótesis simples . . . . . . . . . . . . . . . . . . . . . . . . . 238
6.2.1. Pruebas más potentes y el lema de Neyman-Pearson . 240
6.3. Pruebas uniformemente más potentes . . . . . . . . . . . . . 248
6.3.1. Hipótesis simple contra compuesta . . . . . . . . . . . 248
6.3.2. La razón monótona de verosimilitudes y el teorema de
Karlin-Rubin . . . . . . . . . . . . . . . . . . . . . . . 251
viii Índice general

6.4. La razón de verosimilitudes generalizadas . . . . . . . . . . . 256


6.4.1. La prueba de la razón de verosimilitudes generalizadas 257
6.4.2. La distribución asintótica de la razón de verosimilitudes264
6.5. El valor p (p-value) . . . . . . . . . . . . . . . . . . . . . . . . 268
6.6. Algunas pruebas basadas en razón de verosimilitudes . . . . . 275
6.6.1. Prueba Ji-cuadrada para bondad de ajuste . . . . . . 276
6.6.2. La prueba de independencia en tablas de contingencia 286
6.7. Pruebas de hipótesis en el contexto Bayesiano . . . . . . . . . 296
6.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

A. Algunos conceptos y resultados de probabilidad 319


A.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . 319
A.2. Probabilidad condicional e independencia . . . . . . . . . . . 320
A.3. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 321
A.4. Distribuciones conjuntas y condicionales . . . . . . . . . . . . 322
A.4.1. Variables aleatorias discretas . . . . . . . . . . . . . . 324
A.4.2. Variables aleatorias continuas . . . . . . . . . . . . . . 325
A.4.3. Distribución condicional e independencia estocástica . 327
A.5. Momentos de variables aleatorias . . . . . . . . . . . . . . . . 328
A.5.1. Esperanza y varianza . . . . . . . . . . . . . . . . . . . 328
A.5.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 329
A.5.3. Función generadora de momentos . . . . . . . . . . . . 330
A.5.4. Esperanza de g (X1 , . . . , Xn ) . . . . . . . . . . . . . . 331
A.5.5. Coeficiente de correlación ρxy . . . . . . . . . . . . . . 332
A.5.6. Esperanza condicional . . . . . . . . . . . . . . . . . . 333
A.5.7. Función generadora de momentos conjunta y momentos 334
A.5.8. Independencia y esperanza . . . . . . . . . . . . . . . 334
A.6. Resumen de familias paramétricas . . . . . . . . . . . . . . . 336
A.6.1. Uniforme Discreta . . . . . . . . . . . . . . . . . . . . 336
A.6.2. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 336
A.6.3. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 337
A.6.4. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 337
A.6.5. Geométrica . . . . . . . . . . . . . . . . . . . . . . . . 338
A.6.6. Binomial negativa . . . . . . . . . . . . . . . . . . . . 338
A.6.7. Hipergeométrica . . . . . . . . . . . . . . . . . . . . . 339
A.6.8. Logarı́tmica . . . . . . . . . . . . . . . . . . . . . . . . 339
A.6.9. Uniforme continua . . . . . . . . . . . . . . . . . . . . 340
A.6.10. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 340
A.6.11. Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
A.6.12. Ji-cuadrada . . . . . . . . . . . . . . . . . . . . . . . . 342
A.6.13. Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
Índice general ix

A.6.14. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 343


A.6.15. t de Student . . . . . . . . . . . . . . . . . . . . . . . 343
A.6.16. F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 343
A.6.17. Log-Normal . . . . . . . . . . . . . . . . . . . . . . . . 343
A.6.18. Logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 344
A.6.19. Log-logı́stica . . . . . . . . . . . . . . . . . . . . . . . 344
A.6.20. Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
A.6.21. Gaussiana inversa . . . . . . . . . . . . . . . . . . . . 346
A.6.22. Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . 346
A.6.23. Makeham . . . . . . . . . . . . . . . . . . . . . . . . . 346
A.6.24. Benktander . . . . . . . . . . . . . . . . . . . . . . . . 347
A.6.25. Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . 347
A.6.26. Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . 348
A.6.27. Fréchet . . . . . . . . . . . . . . . . . . . . . . . . . . 348
A.7. Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
A.7.1. Convergencia puntual . . . . . . . . . . . . . . . . . . 348
A.7.2. Convergencia casi segura . . . . . . . . . . . . . . . . . 349
A.7.3. Convergencia! en probabilidad . . . . . . . . . . . . . 350
A.7.4. Convergencia en r-media (o r-ésima media) . . . . . . 350
A.7.5. Convergencia en distribución . . . . . . . . . . . . . . 350

B. Tablas de distribuciones de probabilidad 351


B.1. Cuantiles para la distribución normal estándar . . . . . . . . 351
B.2. Cuantiles para la distribución Ji-cuadrada . . . . . . . . . . . 353
B.3. Cuantiles para la distribución t de Student . . . . . . . . . . 354
B.4. Cuantiles para la distribución F de Fisher . . . . . . . . . . . 355

Bibliografı́a 357

Índice analı́tico 361


Índice de figuras

2.1. Gráfica de barras correspondiente a las especies B (blue) u O


(orange) de los cangrejos. . . . . . . . . . . . . . . . . . . . . 19

2.2. Gráfica de pay para las especies de cangrejos. . . . . . . . . . 19

2.3. Diagrama de pay para las 5 respuestas de una encuesta. . . . 20

2.4. Histogramas para la caracterı́stica ancho del caparazón de los


cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.5. Diagrama de caja y brazos para la caracterı́stica ancho del


caparazón de la base de datos de los cangrejos crabs. . . . . . 24

2.6. Diagramas de caja y brazos para la caracterı́stica ancho del


caparazón por especie y por sexo para los datos de los cangrejos. 25

2.7. Gráfica de caja y brazos para la caracterı́stica ancho del ca-


parazón para las diferentes variables asociadas a especie y sexo. 26

2.8. Gráfica de dispersión para la base crabs y que ilustra la rela-


ción entre las diferentes medidas morfológicas para los cangrejos. 33

2.9. Gráfica de correlación para las medidas morfológicas de los


cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.1. Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada


y estudió su distribución asintóntica. Se le considera el padre
de la estadı́stica. Imagen tomada de commons.wikipedia.org
(public domain). . . . . . . . . . . . . . . . . . . . . . . . . . 48

xi
xii Índice de figuras

3.2. Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesi-


tan sus héroes y Fisher fue sin duda el héroe de la estadı́stica
del siglo XX. Sus ideas transformaron nuestra disciplina de
tal forma que hasta un César o un Alejandro hubieran envi-
diado”: Efron (1998). “Lo que es y fue importante para mı́,
es cómo Fisher, en los 1920..., hizo que los estadı́sticos refle-
xionáramos acerca de las ideas fundamentales”: Egon Pear-
son (1974). Dos citas que hacen alusión a la importancia de
las contribuciones de Fisher en la estadı́stica. La distribución
que lleva su nombre fue producto del trabajo que realizó con
George Snedecor (1881-1974) de la Universidad de Iowa.
Imagen tomada de commons.wikipedia.org (public domain). . 55
3.3. William Sealy Gosset (1876-1937), quien usó el pseudónimo
de Student para publicar su trabajo, desarrolló la distribución
t como respuesta a problemas prácticos de variedades de ce-
bada, trabajando en la cervecerı́a Guiness. Imagen tomada de
commons.wikimedia.org (public domain). . . . . . . . . . . . 58

4.1. Karl Pearson con Francis Galton. Ambos fundaron la revista


Biometrika en 1901. Imagen tomada de commons.wikipedia.org
(public domain). . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2. Placa English Heritage dedicada a Fisher en la casa Inverforth.108
4.3. Gráfica de la función de verosimilitud para una muestra de
tamaño n de la distribución Uniforme continua en el intervalo
[0, θ]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.4. Estimación máximo verosı́mil para la familia Gama. . . . . . 125
4.5. Dulces smarties. Tomada de pixabay.com (imágenes gratuitas
de alta calidad). . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.6. Comportamiento de las funciones a priori, a posteriori y de
verosimilitud para la proporción de marcas defectuosas y dis-
tintos valores de la muestra en el ejemplo 4.22. . . . . . . . . 133
4.7. El estimador T1 = X es insesgado para µ en el ejemplo 4.26. . 142
4.8. El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado
para σ 2 , pero tiene un error cuadrático medio menor que T2
(ejemplo 4.26). . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.9. Ilustración de la consistencia de X en el contexto del ejemplo
4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.10. Ilustración de la consistencia de S 2 en el contexto del ejemplo
4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Índice de figuras xiii

5.1. Intervalos correspondientes a 100 muestras para tamaños de


muestra 10, 30 y 50, respectivamente y desviación estándar
de 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
5.2. Intervalos del 99 % de credibilidad para el ejemplo 5.10. . . . 217
5.3. Intervalos obtenidos por simulación para diferentes valores de
σ y distintos tamaños de muestra. . . . . . . . . . . . . . . . 219

6.1. Función potencia del ejemplo 6.1. . . . . . . . . . . . . . . . . 236


6.2. Funciones potencia del ejemplo 6.2. . . . . . . . . . . . . . . . 238
6.3. Funciones de densidad de la estadı́stica de prueba S = X bajo
ambas hipótesis y tamaños de los errores. . . . . . . . . . . . 246
6.4. Probabilidad posterior del modelo por tamaño de muestra. . 300
Prólogo

Es para mı́ un honor el que los autores me hayan pedido escribir el prólogo
a este libro. Lo es porque tengo un respeto muy grande por su trayectoria
académica y porque todos ellos fueron destacados estudiantes de la Maestrı́a
en Estadı́stica en la que tuve la suerte de participar desde su inicio; de hecho,
todos fueron mis alumnos del curso de Inferencia Estadı́stica que durante
muchos años he impartido. Es importante hacer notar que algunos de estos
autores obtuvieron posteriormente su doctorado mientras que otros atendie-
ron tareas académico-administrativas y de superación. Su participación en
el Departamento de Matemáticas de la Facultad de Ciencias es y ha sido de
enorme valor.
Me tocó estar en el inicio de la Maestrı́a en Estadı́stica e Investigación
de Operaciones, que se ubicó dentro del CCH con la participación muy des-
tacada de la Facultad de Ciencias y del ahora IIMAS. Esto, a principios de
los años 70, en que se inició formalmente un posgrado en estadı́stica.
Esa maestrı́a, junto con otros posgrados, en los 90’s se integraron en
el ahora Posgrado en Ciencias Matemáticas de la UNAM, siendo una de
sus áreas la estadı́stica y teniendo ya la posibilidad de ofrecer el nivel de
doctorado en ese campo particular.
En el posgrado, una materia central dentro de la estadı́stica sigue siendo
la inferencia. Pues bien, los autores de este libro cursaron la materia de
Inferencia Estadı́stica conmigo. Una de ellas la cursó en los inicios, durante
los 70’s, otros dos durante los 90’s, y la más reciente, cursó esa materia ya
entrado el 2000. Sus experiencias compartidas y el interés por hacer un libro
en estadı́stica los llevaron a escribir este tomo que yo califico como excelente.
Este libro, además de satisfacer sobradamente necesidades de los alum-
nos de la Facultad de Ciencias que quieran aprender estadı́stica, contiene
material de nivel de maestrı́a. El libro resulta una fuente de consulta y un
sólido texto para cursos serios introductorios y para cursos intermedios, in-
cluido, repito, el nivel de maestrı́a. Algunas discusiones hechas en el libro
rememoran discusiones en clase cuando he impartido el curso.

xv
xvi Prólogo

Mis felicitaciones por un libro muy necesitado; y me enorgullece como


universitario que un libro hecho por universitarios comprometidos tenga una
calidad que yo califico de internacional. Me siento muy afortunado también
por poder decir que con los autores he mantenido lazos académicos y de
amistad por muchos años.

Dr. Federico O’Reylli Togno


Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas
Universidad Nacional Autónoma de México
Introducción

Se puede decir que la estadı́stica es una disciplina reciente con relación a otras
ramas de las matemáticas, no obstante que desde la antigüedad existieron
actividades relacionadas con el manejo de cifras, tales como las cuentas y
datos vinculados con las poblaciones de las ciudades o, más generalmente,
de los estados; situación que posiblemente es la génesis del término “es-
tadı́stica”. En Rao (1997), el estadı́stico hindú Radhakrishna Rao menciona
que “la estadı́stica tiene gran antigüedad pero escasa historia”, frase que
refleja el hecho de que la estadı́stica es joven como área formal, pero que
prácticamente ha estado presente a lo largo de la historia de la humanidad.
Entre los cientı́ficos que más han aportado a la estadı́stica para conver-
tirla en la disciplina con el carácter matemático y de importante aplicación
para ayudar a explicar fenómenos del mundo real, sobresalen Francis Gal-
ton (1822-1911), Karl Pearson (1857-1936), Charles Spearman (1863-1945),
Ronald Fisher (1890-1962) y Jerzy Neyman (1894-1981), sólo por mencionar
algunos.
La inferencia estadı́stica es una disciplina que se basa en gran medida en
la probabilidad y que ayuda a resolver problemas haciendo conclusiones de
alguna caracterı́stica de la población, usando para ello datos muestrales de la
misma. Por ejemplo, los estadı́sticos pueden realizar estudios de opinión, en
donde a través del punto de vista de algunos ciudadanos que componen una
muestra suficientemente representativa, se puede medir el pulso de temas de
interés para el paı́s.
La estadı́stica involucra conceptos y resultados que pueden resumirse en
grandes temas: análisis exploratorio de datos, distribuciones muestrales, es-
timación puntual, estimación por intervalo y pruebas de hipótesis, los cuales
son fundamentales en el estudio y la aplicación de esta disciplina.
Para la lectura de este documento es importante contar con conocimien-
tos de teorı́a de la probabilidad, ası́ como de cálculo diferencial e integral en
una y varias variables.

xvii
Capı́tulo 1

¿Qué es la estadı́stica?

El progreso de la ciencia con frecuencia se adscribe a la experimentación.


El investigador lleva a cabo un experimento, una encuesta o un conjunto
de mediciones; obtiene datos y con base en ellos se busca sustentar una
hipótesis o responder a una pregunta de investigación. Es decir, a partir de
un experimento particular, es deseable generalizar hacia la clase de todos los
experimentos similares.
La estadı́stica no se refiere únicamente a la recolección de datos y a la
presentación de cuadros y tablas resumen. Actualmente se comprende co-
mo la ciencia que basa la inferencia en datos observados y toma decisiones
en términos de incertidumbre. Aunque en su estado actual no puede ma-
nejar todas las situaciones que se presentan alrededor de la incertidumbre,
constantemente se desarrollan nuevas técnicas de análisis.
La estadı́stica está presente en muchos ámbitos: el cientı́fico, el social y el
empresarial, sólo por mencionar algunos. Por ejemplo, tanto en la iniciativa
privada como en el ámbito gubernamental, es vital contar con un manejo
adecuado de la información y el análisis de grandes bases de datos que sirva
a los diferentes agentes de la economı́a y la polı́tica al momento de tomar
decisiones. Actualmente existen profesionales de la estadı́stica que utilizan
diversas técnicas de este campo en empresas privadas, tales como casas en-
cuestadoras que se dedican a hacer estudios de mercado, o bien en industrias
relacionadas con diversos campos de la actividad económica.
Ejemplos de instituciones en donde el uso de la estadı́stica es fundamen-
tal son: el INEGI, las secretarı́as de estado, el IMP, PEMEX, el Banco de
México y las aseguradoras, sólo por mencionar algunas, pues el análisis y mo-
delado de datos puede hacerse prácticamente en cualquier entidad en donde
se cuente con información de cierto fenómeno o proceso. Adicionalmente, la

1
2 1. ¿Qué es la estadı́stica?

estadı́stica juega un papel importante en los estudios de mercado y otros pro-


cesos en donde es necesario obtener datos para posteriormente analizarlos y
llegar a conclusiones mediante un modelo que dependerá de la naturaleza de
dicha información. Algunos estadı́sticos participan en el diseño y validación
de encuestas y conteos rápidos relacionados con procesos electorales.
Se puede decir entonces que la estadı́stica se ocupa de los métodos cientı́fi-
cos para recolectar, organizar, resumir, presentar y analizar datos usando
modelos, ası́ como de obtener conclusiones válidas y tomar decisiones con
base en ese análisis. Es la rama de la matemática que utiliza conjuntos de
datos para obtener inferencias basadas en el cálculo de probabilidades.
En los siguientes párrafos se pretende explicar la relación entre la proba-
bilidad y la estadı́stica, ası́ como establecer la diferencias entre los enfoques
para analizar un conjunto de datos.

1.1. La probabilidad y la estadı́stica


La teorı́a de probabilidad permite modelar ciertos fenómenos que ocurren en
la naturaleza, siendo el modelo básico un espacio de probabilidad (Ω, F, P) y
una variable aleatoria X definida en ese espacio. En el contexto paramétrico,
dada una variable aleatoria X, se tiene asociada una función de densidad
f (x; θ), la cual actúa en función de caracterı́sticas desconocidas llamadas
parámetros.
Gracias al conocimiento de la función de densidad de probabilidad, y
por lo tanto de la función de distribución de una variable aleatoria X, se
facilita la construcción de espacios de probabilidad adaptados a fenómenos
aleatorios concretos. Es decir, gracias a la teorı́a de la probabilidad se pue-
de construir un modelo para describir una determinada variable aleatoria
real a través de su función de distribución. Por ejemplo, gracias a la teorı́a
de la probabilidad se pueden hacer aseveraciones como “el número de ac-
cidentes que ocurren en una importante intersección vial de la Ciudad de
México durante un determinado periodo de tiempo se puede modelar como
una variable aleatoria X que tiene una distribución Poisson(λ)” o “la vida
(tiempo de supervivencia) de un cierto tipo de foco tiene una distribución
Exponencial (λ)”. Asimismo, se pueden contestar preguntas probabilı́sticas
relacionadas con la variable aleatoria como: ¿cuál es la probabilidad de que
no haya accidentes en ese cruce importante de avenidas en un dı́a determi-
nado? o ¿cuál es la probabilidad de que el foco dure más de un determinado
periodo de tiempo? Sin embargo, las respuestas a estas preguntas quedan
en términos de parámetros; por ejemplo, si X tiene distribución Poisson(λ),
P(X = 0) = e−λ , está en función de λ, donde λ > 0. Si se conociera el
1.2. Enfoques de la estadı́stica 3

valor de λ, serı́a posible obtener un valor numérico para las probabilidades


de interés asociadas a la variable aleatoria.
De esta manera, si se desea profundizar en la forma de adaptar un mo-
delo probabilı́stico a cada fenómeno concreto, serı́a necesario llevar a cabo
observaciones del fenómeno en cuestión con la finalidad de poder hacer con-
clusiones acerca de los parámetros de una población y llegar a resultados
numéricos en el cálculo de probabilidades.
Es aquı́ donde la estadı́stica juega un papel importante al analizar e in-
terpretar la información obtenida de una cierta población con la finalidad
de poder concluir sobre la ley de probabilidad que rige un fenómeno aleato-
rio. Este procedimiento se conoce como inferencia estadı́stica o estadı́stica
matemática.
Cuando se tiene un conjunto de observaciones acerca del fenómeno con-
siderado, se entra al terreno de la estadı́stica con la finalidad de obtener
información acerca de la población en estudio con base en un conocimien-
to parcial o no exhaustivo de dicha población, ya que en la mayorı́a de los
casos, una observación exhaustiva es imposible o muy costosa. Por ejemplo,
si se desea saber la intención del voto para una elección presidencial, no
se encuestará a todos los ciudadanos en edad de votar, sino a una muestra
representativa de la población (cómo elegir una muestra representativa, el
tamaño adecuado de la misma y la forma de hacer la encuesta es objeto de
estudio de otra materia), y con las observaciones obtenidas y los métodos
de inferencia estadı́stica se puede decir con cierta precisión el porcentaje de
la población que en ese momento votarı́a por cada uno de los candidatos
de la contienda electoral.
Con frecuencia el término estadı́stica se entiende como el proceso de reco-
lección de datos u observaciones, ası́ como el tratamiento numérico que se le
da a estos datos a través de gráficas y medidas que resumen la información,
pero es necesario recalcar que el objetivo de la inferencia estadı́stica es ob-
tener conclusiones acerca de alguna caracterı́stica de la población en estudio
a través del análisis e interpretación de las observaciones. Sin embargo, el
tratamiento numérico de los datos no es menos importante e idealmente un
procedimiento de inferencia va antecedido por un tratamiento descriptivo.

1.2. Enfoques de la estadı́stica


La estadı́stica se puede analizar desde dos enfoques: el descriptivo y el de
inferencia o inferencial.

Enfoque descriptivo: resumen y descripción de un conjunto de datos


mediante gráficas y medidas descriptivas.
4 1. ¿Qué es la estadı́stica?

Enfoque de inferencia: análisis e interpretación de la información


obtenida de una muestra de la población para hacer conclusiones ge-
nerales acerca de las caracterı́sticas desconocidas de dicha población.

De acuerdo a lo que se desea conocer del parámetro, la inferencia es-


tadı́stica puede abordarse de la siguiente manera:
1. Estimación puntual: consiste en obtener un valor numérico único
para el parámetro, que represente de la mejor manera el proceso que
generó las observaciones.
2. Estimación por intervalos: consiste en obtener un rango de valores
que el parámetro puede tomar, que represente de la mejor manera el
proceso que generó las observaciones.
3. Pruebas de hipótesis: consiste en contrastar dos aseveraciones acer-
ca de la distribución de una variable aleatoria (usualmente representa-
das en términos de valores que el parámetro puede tomar).
Asimismo, la inferencia estadı́stica se puede realizar desde una perspec-
tiva diferente (no clásica) conocida como método Bayesiano o estadı́stica
Bayesiana, el cual es un paradigma en el que se asocia una distribución ini-
cial al parámetro y, junto con las observaciones, se obtiene una distribución
final para dicho parámetro. Con base en este planteamiento, se hacen infe-
rencias desde la óptica de estimación puntual o por intervalos y de pruebas
Bayesianas.
También puede hablarse de inferencia estadı́stica paramétrica y no pa-
ramétrica. En el primer caso se conoce la forma de la distribución pero se
desconocen los parámetros y es sobre éstos que se realizará la inferencia. En
el segundo caso se desconocen la forma de la distribución y los parámetros
y las inferencias se hacen sobre ciertas caracterı́sticas que no tienen por qué
corresponder a parámetros de una distribución.

Definición 1.1 Al conjunto de valores que el parámetro θ puede tomar se


le llama espacio paramétrico (o parametral) y se le denota por Θ.

Ejemplos:

En el caso de la distribución Bernoulli Θ = [0, 1].


En el caso de la distribución Poisson Θ = (0, ∞).

La inferencia estadı́stica también suele denominarse estadı́stica inductiva


o inferencia inductiva, pues va de lo particular a lo general al hacer conclu-
siones de una población a partir de una muestra representativa de la misma.
1.2. Enfoques de la estadı́stica 5

La necesidad de trabajar con un conjunto reducido de la población está aso-


ciada a varios factores, siendo uno de los más importantes el económico. Se
puede decir que la población es el conjunto de observaciones o individuos
sobre los que se desea información y de ella se extrae un subconjunto al que
se denomina muestra. El procedimiento para obtener las observaciones con
las cuales se intenta disminuir el grado de desconocimiento de θ debe ser tal
que la recolección de datos se realice siempre bajo las mismas condiciones y
sin importar los resultados anteriores.
En un contexto experimental, la definición de la muestra puede depender
de cuáles son los tratamientos que se desea comparar, bajo qué condicio-
nes y si las comparaciones se harán con tamaños de muestra y repeticiones
iguales. En la literatura sobre diseño de experimentos se aborda este
tipo de planteamiento. Si se hace referencia al estudio de poblaciones, hay
diferentes formas de obtener una muestra representativa. Aunque la teorı́a
del muestreo requiere una asignatura aparte, a continuación se resumen las
principales caracterı́sticas de los muestreos probabilı́sticos más usuales.
Muestreo aleatorio simple: se trata de un procedimiento de muestreo (sin
remplazo), en el que se seleccionan n unidades de las N en la población,
de forma que cualquier posible muestra del mismo tamaño tenga la misma
probabilidad de ser elegida.
Muestreo por conglomerados: se divide la población en grupos de acuerdo
con su proximidad geográfica o de otro tipo (conglomerados). Se busca que
cada grupo sea heterogéneo y que tenga representadas todas las caracterı́sti-
cas de la población. Se selecciona una muestra de conglomerados al azar y
se toma el conglomerado completo o una muestra del mismo.
Muestreo estratificado: se divide la población en grupos homogéneos (es-
tratos) de acuerdo con las caracterı́sticas a estudiar. Por ejemplo, en un estu-
dio de las caracterı́sticas socioeconómicas de una ciudad los estratos pueden
ser las colonias de la misma, ya que las colonias suelen presentar carac-
terı́sticas diferenciales. Se selecciona una muestra aleatoria de cada estrato
tratando de que todos los estratos de la población queden representados.
En un muestreo estratificado se consideran todos los estratos y en cada
uno se considera una muestra de individuos. En el muestreo por conglome-
rados se seleccionan al azar los conglomerados que serán considerados y una
vez elegidos se estudian todos los individuos de cada conglomerado.
Existen otros tipos de muestreo, pero todo lo que se verá en los siguientes
capı́tulos está pensado para observaciones obtenidas con muestreo aleatorio
simple.
6 1. ¿Qué es la estadı́stica?

1.2.1. El concepto de muestra aleatoria


El muestreo aleatorio simple garantiza una muestra representativa de la po-
blación y la obtención de observaciones independientes. Esta terminologı́a de
muestreo puede entenderse si se considera una de las siguientes situaciones
que aparecen frecuentemente en la estadı́stica:

(1) Se extraen los objetos, uno cada vez, de una colección finita llamada
población y se determina una caracterı́stica particular de interés de ca-
da objeto extraı́do. Después de cada observación y antes de la siguiente
extracción, se devuelve el objeto extraı́do y se mezcla la población de
objetos.

(2) Se extraen los objetos de una población finita como en (1), excepto
que los objetos no se remplazan.

La población de objetos puede ser una colección de personas y la carac-


terı́stica observada puede ser el peso, color de ojos, preferencia polı́tica o
alguna otra.
Si se supone que cada selección es aleatoria, el muestreo en (1) recibe el
nombre de muestreo aleatorio con remplazo y en (2) muestreo aleatorio sin
remplazo o muestreo aleatorio simple.
En cierto sentido, el muestreo aleatorio sin remplazo es mejor que el
muestreo aleatorio con remplazo, ya que algunas veces la mezcla que se
requiere con el remplazo de los objetos no siempre es fácil de conseguir.
Considerando los casos extremos, suponga que hay solamente 2 objetos en la
población; cuando se extrae uno de ellos, la selección de un segundo objeto
proporciona la información completa acerca de la población original si el
primero no fue remplazado. Por otro lado, si una población es muy grande
con respecto al tamaño de la muestra que va a ser extraı́da, es prácticamente
lo mismo si los objetos extraı́dos son o no son remplazados; el muestreo sin
remplazo se convierte en muestreo con remplazo cuando el tamaño de la
población es infinito.
La diferencia básica entre los tipos de muestreo (1) y (2) no está en las
distribuciones marginales de las observaciones individuales, porque en ambos
casos estas observaciones son idénticamente distribuidas. Sin embargo, en el
caso (1) el resultado de cualquier observación no está afectado por los resul-
tados de cualesquiera otras observaciones; las observaciones son fenómenos
aleatorios independientes. En el caso (2) las observaciones no son indepen-
dientes.
Hay otro tipo de situación que ocurre continuamente, diferente de (1) y
(2), en la cual los resultados son matemáticamente del mismo tipo que (1):
1.2. Enfoques de la estadı́stica 7

(3) Las observaciones se obtienen como resultado de realizaciones indepen-


dientes repetidas de un experimento, bajo condiciones que son idénticas
con respecto a los factores que pueden ser controlados.

Esta descripción incluye a (1) como un caso especial, aunque no necesa-


riamente se refiere a una “población” tangible de la cual se va a seleccionar
un objeto. Sin embargo, es posible imaginar una población muy grande de
posibles resultados, en donde en cada repetición del experimento se cuen-
ta con la misma colección que estaba disponible en el primer ensayo. Esto
es, repetir el experimento bajo condiciones idénticas significarı́a que el pri-
mer resultado es “remplazado” y es nuevamente uno de los candidatos a
ser “extraı́dos” la siguiente vez. En ambos tipos de muestreo (1) y (3), las
observaciones son independientes e idénticamente distribuidas. El término
muestreo aleatorio sin más especificación se referirá a tal proceso.
Suponga que cuando se extrae un objeto la caracterı́stica a medir se
denota por X. A la distribución de X se le llama la distribución poblacional.

Ejemplo 1.1 Una urna contiene cuatro bolas numeradas del 1 al 4. Se ex-
traen 2 aleatoriamente, una cada vez. Sea X1 el número de la primera bola
extraı́da y X2 el número de la segunda bola extraı́da. Hay 12 posibles resul-
tados del experimento:

(1, 2) (1, 3) (1, 4) (2, 3) (2, 4) (3, 4)

(2, 1) (3, 1) (4, 1) (3, 2) (4, 2) (4, 3)

Cada uno de estos 12 resultados tiene probabilidad 1/12. A partir de esto,


se pueden calcular las distribuciones de X1 y X2 . Por ejemplo,

P(X1 = 1) = P[(1, 2), (1, 3) o (1, 4)]


1 1 1 1
= P[(1, 2)] + P[(1, 3)] + P[(1, 4)] = + + = .
12 12 12 4
Similarmente:

P(X2 = 1) = P[(2, 1), (3, 1) o (4, 1)]


1 1 1 1
= P[(2, 1)] + P[(3, 1)] + P[(4, 1)] = + + = .
12 12 12 4
De la misma forma se encuentra que para X1 cada uno de los valores posibles
1, 2, 3 y 4 tiene probabilidad 1/4 y que X2 tiene exactamente la misma
distribución, la distribución poblacional.
8 1. ¿Qué es la estadı́stica?

De esta manera, se diseña un experimento y se lleva a cabo para propor-


cionar la observación X1 de la caracterı́stica observable X. El experimento
se repite bajo las mismas condiciones proporcionando el X2 . El proceso con-
tinúa hasta tener n observaciones X1 , X2 , . . . , Xn de la caracterı́stica X;
a estas observaciones se les llaman los valores muestrales de X y se dice
que constituyen una muestra aleatoria. Note que cuando se ha obtenido una
muestra se tienen n observaciones numéricas (x1 , x2 , . . . , xn ), pero cuando
se está planificando el procedimiento de muestreo y diseñando el método
para obtener inferencias aún no se sabe qué valores numéricos se obtendrán
y deben considerarse n variables aleatorias; estas variables aleatorias serán,
en el contexto que se discute, independientes e idénticamente distribuidas.

Definición 1.2 Si X1 , . . . , Xn es un conjunto de variables aleatorias, inde-


pendientes e idénticamente distribuidas, entonces se dice que X1 , . . . , Xn es
una muestra aleatoria (m.a.).

Observación 1.1 Si X1 , . . . , Xn es una muestra aleatoria, entonces su fun-


ción de densidad conjunta está dada por
n
Y
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ).
i=1

Observación 1.2 La distribución de la muestra aleatoria (o simple-


mente distribución de la muestra) será la función de densidad conjunta
de las variables aleatorias que componen la muestra aleatoria y, por la obser-
vación anterior, se calculará como el producto de las densidades marginales
de dichas variables.

En el siguiente capı́tulo se estudiará el análisis exploratorio de datos


y en el capı́tulo 3 se analizarán funciones de la muestra aleatoria y sus
caracterı́sticas con la finalidad de usarlas posteriormente en el proceso de
estimación de parámetros.
Para cerrar este capı́tulo, se abordan brevemente los conceptos de paráme-
tros de localización y escala.

1.3. Familia de localización y escala


Una familia de localización y escala es una familia de distribuciones con
elementos obtenidos por traslación y cambio de escala de una familia de
elementos estándar.
1.3. Familia de localización y escala 9

Sea Z una variable aleatoria con distribución conocida. A las distribu-


ciones de probabilidad de la variable aleatoria X que se pueden definir de la
forma:
X = a + bZ, a, b ∈ R, b > 0
se le denomina familia de localización y escala construida a partir de la
distribución de Z.
En particular, si Z es una variable aleatoria continua con función de
densidad de probabilidad f (·), la familia de funciones de densidad:
   
1 x−a
f (x; a, b) = f , a ∈ R, b > 0
b b

forman la familia de localización y escala de f (x).


El parámetro de escala expande a la distribución si b > 1 y la contrae si
b < 1. El parámetro de localización a traslada a la densidad por |a| unidades
a la derecha si a > 0 o a la izquierda si a < 0.
• Si b = 1 se tiene una familia de localización: f (x; a) = f (x − a) .
• Si a = 0 se tiene una familia de escala: f (x; b) = 1b f xb .

Ejemplo 1.2 La familia de distribuciones normales:


 1/2  
1 1
f (x) = exp − x2
2π 2
 1/2  
1 1 2
f (x; a, b) = exp − 2 (x − a) , con a = µ y b = σ
2πb2 2b

Ejemplo 1.3 La familia de distribuciones exponenciales:

f (x) = e−x , x > 0


1 −(x−a)/b
f (x; a, b) = e ,x>a
b
f (x; a) = e−(x−a) , x > a

Ejemplo 1.4 La familia de distribuciones Cauchy:


1 1
f (x) = , x∈R
π 1 + x2
1 1
f (x; a, b) =  , x∈R
πb 1 + x−a 2
b
Capı́tulo 2

Estadı́stica descriptiva

Se ha planteado ya que la recolección de datos es un proceso que requiere


planeación. Una vez que los datos están disponibles, su complejidad puede
variar tanto en el número, como en el tipo de variables que se miden o regis-
tran. Un procedimiento de análisis comienza con la extracción de resúmenes
útiles; ası́, cualquier procedimiento inductivo acerca de una población en
estudio debe confirmar las hipótesis planteadas mediante el análisis explo-
ratorio. Es por ello que la estadı́stica descriptiva es el inicio de cualquier
procedimiento de análisis estadı́stico. En este capı́tulo se proporcionan los
elementos básicos para llevar a cabo un análisis exploratorio de datos.

2.1. Introducción
La estadı́stica descriptiva se distingue de la inferencia estadı́stica en que
la primera tiene como objetivo resumir un conjunto de datos en lugar de
utilizarlos para hacer inferencias de la población que se cree que dichos da-
tos representan. Esto generalmente significa que la estadı́stica descriptiva,
a diferencia de la inferencia estadı́stica, no se desarrolla sobre la base de
la teorı́a de la probabilidad. Su objetivo primario es entonces analizar un
grupo determinado, resumiendo los datos de manera que se pueda enfatizar
la información relevante que sea útil para el planteamiento de preguntas y
modelos.
Este tema se puede abordar desde diferentes ángulos, pero considerando
el objetivo del presente texto, que está más enfocado a la inferencia estadı́sti-
ca, sólo se hace una breve revisión de los conceptos más importantes de la
estadı́stica descriptiva. Se utilizan para ello datos que están disponibles en
el paquete estadı́stico R, con el fin de ilustrar también el uso y resultados de

11
12 2. Estadı́stica descriptiva

este software. La razón principal para usar R es que este paquete es asequi-
ble por ser de uso libre y que, además de la popularidad que ha adquirido
en los últimos años en el ámbito educativo, se utiliza ampliamente en otros
sectores.
También se exhiben los términos más importantes del análisis explorato-
rio de datos.

2.2. Datos y variables


Una premisa básica en el análisis estadı́stico es que el origen del conocimien-
to estadı́stico está en los datos. Cualquier procedimiento inductivo acerca de
una población en estudio debe confirmar la fuerza de las diferencias encon-
tradas mediante un procedimiento exploratorio. Es por ello que la estadı́stica
descriptiva debe anteceder a cualquier procedimiento de inferencia.
Una muestra es una parte de la población obtenida y se entiende por
datos a las mediciones u observaciones recolectadas de una muestra. Los
individuos son las personas, animales o cosas descritos en un conjunto de
datos; a veces se les llaman unidades experimentales. Una variable es cual-
quier caracterı́stica de un individuo. Las variables pueden tomar distintos
valores para distintos individuos.
Por ejemplo, los datos para un estudio del nivel socioeconómico y cultural
de los estudiantes de la Facultad de Ciencias tienen que hacer referencia a
todos los alumnos. Estos son los individuos descritos por el conjunto de
datos. Para cada individuo, los datos contienen los valores de variables como
la edad en años, el sexo (hombre o mujer), situación laboral (trabaja o no),
tipo de horario (matutino, vespertino, mixto), ingreso mensual del principal
sostén económico de su familia, tipo de entretenimientos (cine, TV, teatro,
otro), práctica de deportes (sı́, no), deporte preferido, entre otros.
No existe una única clasificación con respecto a la naturaleza de los datos.
A continuación se darán dos clasificaciones de los datos considerando dos
criterios: el tipo de escala en la que se miden los datos y la manera en la que
se recolectó la información.

2.2.1. Tipos de variables


De acuerdo a su tipo, se puede clasificar a las variables en cualitativas y
cuantitativas.
Los datos cuantitativos son aquellos en los que las observaciones se miden
en una escala numérica. Los datos no-numéricos que sólo se pueden clasificar
por categorı́as se conocen como datos cualitativos o datos categóricos.
2.2. Datos y variables 13

El número de hijos que tienen las familias en cierto poblado, el sueldo


que perciben los trabajadores de cierta empresa, son datos cuantitativos.
Sin embargo, el tipo de sangre (O, A, B, AB) de los pacientes de cierto
hospital y el estado civil de las personas (soltero, casado, divorciado) son
datos categóricos.

2.2.2. Escalas de medición


Para considerar la precisión con la que se evalúan los diferentes valores,
existen cuatro niveles de medición, los cuales se usarán de acuerdo al tipo
de variable que se esté usando.
Dato categórico en escala nominal. Como su nombre lo dice, este
tipo de variables hace referencia a “nombres”. Básicamente es una cla-
sificación de los datos con respecto a cierto criterio. En esta escala no
hay ningún tipo de orden entre los datos. Son simples identificadores y
son completamente arbitrarios. La única operación que se puede rea-
lizar con este tipo de escala es el de conteo de los datos con el mismo
identificador. Ejemplos de datos en esta escala son el tipo de sangre de
los pacientes de cierto hospital y el estado civil de las personas.
Dato categórico en escala ordinal. Desde un punto de vista formal no
tienen un orden; sin embargo, se le puede asignar uno que tenga sentido
ya sea “creciente” o “decreciente”. Por ejemplo, pequeño, mediano o
grande; o mucho, poco o nada. Los valores de esta escala representan
categorı́as con cierto orden asociado pero no en una cantidad especı́fica,
es decir, no se puede determinar la distancia entre las categorı́as, sólo es
interpretable el orden entre sus valores. Se pueden hacer operaciones
de igualdad y “orden de magnitud”. Generalmente representan una
cualidad que se está “midiendo” y establecen si una observación tiene
más de una cualidad que otra. Un ejemplo de datos en esta escala es
el nivel socio-económico de las personas en una ciudad.
Dato cuantitativo en escala de intervalo. Mediante esta escala se
puede medir exactamente la intensidad con la que se posee una ca-
racterı́stica. Para ello se usa una unidad de medición cuyo origen se
denomina “cero flotante” para enfatizar que cuando dicho origen
se alcanza no implica la ausencia del atributo. Esta escala representa
magnitudes, con la propiedad de igualdad de la distancia entre puntos
de escala de la misma amplitud. Aquı́ se puede determinar el orden
(formal) entre sus valores, hacerse comparaciones de igualdad, y medir
la distancia existente entre cada valor de la escala. La distancia igual
entre puntos de la escala significa que puede saberse cuántas unidades
14 2. Estadı́stica descriptiva

de más tiene una observación comparada con otra, con respecto a cier-
ta caracterı́stica analizada. El ejemplo por excelencia de este tipo de
escala es cualquier escala de temperatura, ya que el cero en ellas no
significa que no haya temperatura.

Dato cuantitativo en escala de razón. Se dice que esta escala es la más


completa. Tiene las mismas propiedades que la escala de intervalo, pero
sı́ existe la noción de cero “absoluto”, ya que se sitúa un punto cero fijo
que al ser alcanzado implica ausencia de un atributo. En este caso, es
posible realizar operaciones aritméticas de producto y cociente, y ası́
comparar mediante proporciones o razones. A iguales diferencias entre
los números asignados corresponden iguales diferencias en el grado de
atributo estudiado. Ejemplos de datos en esta escala son longitud, peso,
distancia, ingresos, precios, etc.

Ahora, suponga que se va a realizar un estudio médico y para ello se


dispone de un conjunto de variables referentes a un grupo de pacientes. Las
variables son:

(a) Género (hombre o mujer).

(b) Edad (en años).

(c) Raza (asiática, blanca, negra u otras).

(d) Fumador (sı́ o no).

(e) Presión sanguı́nea sistólica (milı́metros de mercurio).

(f) Nivel de calcio en la sangre (microgramos por mililitro).

(g) Practica algún deporte o actividad deportiva (1 a 4 dı́as de la semana;


5 a 7 dı́as de la semana; ningún dı́a de la semana).

Como variables categóricas se distinguen a género (en escala nominal),


raza (en escala nominal), fumador (en escala nominal) y actividad deportiva
(en escala ordinal). Como variables cuantitativas se tienen a edad (en escala
de razón), presión sanguı́nea (en escala de intervalo) y nivel de calcio (en
escala de razón).

2.2.3. Formas de recolección


También se puede clasificar a los datos con respecto a la manera en la que
se recolectaron.
2.3. Los datos y R 15

Los datos en sección cruzada son datos que se recolectan de diferentes


elementos o variables en el mismo punto del tiempo (o en el mismo
intervalo de tiempo).
Los datos en serie de tiempo o longitudes son datos que se recolectan
de un mismo elemento o variable en diferentes puntos en el tiempo (o
para diferentes periodos de tiempo).

2.3. Los datos y R


R es un lenguaje y entorno de programación para análisis estadı́stico y gráfi-
co. Se trata de un proyecto de software libre, resultado de la implementación
GNU del lenguaje S. R y S-Plus -versión comercial de S- son, probablemente,
los dos lenguajes más utilizados en investigación por la comunidad estadı́sti-
ca, siendo además muy populares en el campo de la investigación biomédica,
la bioinformática y las matemáticas financieras. R se puede descargar gra-
tuitamente en la página oficial del proyecto http://www.r-project.org/.
Para ilustrar los conceptos fundamentales de la estadı́stica descriptiva,
se considerará un conjunto de datos, crabs que se encuentra en la biblioteca
de R MASS. Los datos corresponden a un marco de datos (data frame) de
200 renglones y 8 columnas, describiendo 5 medidas morfológicas de 50 can-
grejos cada uno de dos colores y de ambos sexos, de la especie Leptograpsus
recolectada en Fremantle, W. Australia1 .

2.3.1. Cargando los datos


Se cargarán los datos desde R de la siguiente manera:
> library(MASS)
> data(crabs)
> help(crabs)
> attach(crabs)
Los datos cargados están en el formato data.frame que es un formato
que está compuesto de varios campos. La ventaja de este tipo de formato es
que se pueden agrupar variables de varios formatos en una sola. Para saber
los campos que contiene el data.frame se puede utilizar la instrucción ls()
de la siguiente manera:
> ls(crabs)
[1] "BD" "CL" "CW" "FL" "index" "RW" "sex" "sp"
1 Campbell, N.A. and Mahon, R.J. (1974). A multivariate study of variation in two

species of rock crab of genus Leptograpsus. Australian Journal of Zoology 22, 417-425.
16 2. Estadı́stica descriptiva

Este conjunto de datos contiene las siguientes columnas:

sp especie - “B” o “O” para blue u orange.

sex sexo del cangrejo.

index ı́ndice 1 a 50, dentro de cada unos de los cuatro grupos.

FL tamaño del lóbulo frontal (mm).

RW ancho trasero (mm).

CL longitud del caparazón (mm).

CW ancho del caparazón (mm).

BD profundidad del cuerpo (mm).

En este punto se tienen las variables listas para realizar el análisis des-
criptivo.

2.4. Representación gráfica de los datos


Una vez que se obtiene una muestra, para entender con más claridad el tipo
de información que se está analizando, es muy común representar dicha infor-
mación a través de tablas o gráficas. Estas representaciones gráficas son muy
útiles ya que dan un recurso visual que muchas veces facilita el análisis de la
información al mostrar algunos patrones con respecto al comportamiento de
las variables que se están estudiando. En un primer curso de estadı́stica se
estudian datos asociados a una sola variable. Las representaciones gráficas
más comunes son:

Tabla de frecuencias.

Gráfica de pastel.

Gráfica de barras.

Histograma.

La información categórica generalmente se resume en tablas o gráfica-


mente con gráficas de barras, diagramas de puntos y gráficas de pastel.
2.4. Representación gráfica de los datos 17

2.4.1. Frecuencia, frecuencia relativa y frecuencia


acumulada
Suponga que se tienen los n elementos de una muestra de tamaño n, obtenida
de una población, con k valores asociados a los eventos observados al realizar
el experimento aleatorio que define la muestra, x1 , x2 , x3 , . . . , xk , y que de
ésta hay fi resultados idénticos a xi (i ∈ {1, . . . , k}).
Los números f1 , f2 , f3 , . . . , fk se conocen como freciencias de ocurrencia
de los valores x1 , x2 , x3 , . . . , xk , respectivamente; y satisfacen

f1 + · · · + fk = n.

Al cociente de una frecuencia fi entre el total de observaciones n (el


tamaño de la muestra), se le conoce como frecuencia relativa de ocurrencia
del valor xi correspondiente. Representando la frecuencia relativa de xi con
fi∗ , se tiene que
fi
fi∗ = , i ∈ {1, . . . , k}.
n
A partir de la definición de frecuencia relativa se obtienen de inmediato
las condiciones para que un conjunto de números sean frecuencias relativas
de los valores de una muestra. Éstas son

0 ≤ f1∗ ≤ · · · ≤ fk∗ ≤ 1 y f1∗ + · · · + fk∗ = 1.

Se conoce como frecuencia relativa acumulada de un valor xi , a la suma


de frecuencias relativas de todos los valores anteriores o iguales al valor xi .
Si Fi representa la frecuencia relativa acumulada de xi entonces

Fi = f1∗ + · · · + fi∗ .

2.4.2. Tablas de frecuencias


Las tablas son muy usadas para resumir información. En R la función para
crear tablas es la función table(). En su uso más simple, table(x) en-
cuentra todos los valores únicos en el vector x y tabula las frecuencias y su
ocurrencia.
La variable sexo (sex) puede ser tabulada como

> table(sex)
sex
F M
100 100
18 2. Estadı́stica descriptiva

Si se quisieran tabular conjuntamente las variables sexo (sex) y la especie


del cangrejo (sp), se harı́a de la siguiente manera:
> table(sex,sp)
sp
sex B O
F 50 50
M 50 50

2.4.3. Gráficas de barras


Los datos categóricos también se pueden resumir de manera gráfica. La re-
presentación más común quizá sea la gráfica de barras. Una gráfica de barras
es un arreglo simple que acomoda los niveles de la variable en algún orden
y representa su frecuencia con una barra.
Una gráfica de barras es una gráfica en la que las “barras” representan
las frecuencias (o frecuencias relativas) de las diferentes categorı́as.
En R, las gráficas de barras se hacen con la función barplot(). Ésta
usa un resumen de la información, frecuentemente el que hace la función
table(). Los datos resumidos pueden estar en frecuencias o en proporciones.
El resultado gráficamente será el mismo, sin embargo, la escala del eje Y será
distinto.
> barplot(table(sp),xlab="Especie",ylab="Frecuencia")
En la figura 2.1 se presenta una gráfica de barras para la base de datos
de los cangrejos.

2.4.4. Gráficas de pay o pastel


La gráfica de pay o pastel se utiliza para representar las frecuencias relativas
o proporciones de las distintas posibles respuestas de una variable categórica.
Esta grafica, ası́ como la gráfica de barras es ampliamente utilizada en los
medios de difusión de información.
Para hacer una gráfica de pay en R se utiliza la función pie(), que utiliza
argumentos similares al histograma para cambiar colores y agregar nombres:
> pie(table(sp),radius = 0.68, cex=1.1,
col = c("cornflowerblue","coral4"),
labels=NA, main="Especies")
> text(0.1,-0.3,"50%", cex=1.2)
> text(0.1,0.3,"50%", cex=1.2)
> legend(-1.1,-0.56,c("Orange", "Blue"),
fill=c("cornflowerblue","coral4"),cex=0.8)
2.4. Representación gráfica de los datos 19

100

75
Frecuencia

Especie
50 Blue
Orange

25

B O

Figura 2.1: Gráfica de barras correspondiente a las especies B (blue) u O


(orange) de los cangrejos.

En la figura 2.2 se muestra una gráfica de pay correspondiente a la base


de los cangrejos.

Especie
Orange
Blue

Figura 2.2: Gráfica de pay para las especies de cangrejos.


20 2. Estadı́stica descriptiva

Para ejemplificar el caso de más categorı́as, considere una encuesta con


5 posibles respuestas A, B, C, D y E, codificadas, respectivamente como 1,
2, 3, 4 y 5. Las respuestas obtenidas fueron

4, 2, 3, 2, 1, 2, 3, 3, 3, 3, 4, 3, 5, 3, 3, 2, 2, 4, 3, 2

Para generar el diagrama de pay se realiza lo siguiente:


> respuesta<-scan()
1: 4 2 3 2 1 2 3 3 3 3 4 3 5 3 3 2 2 4 3 2
21:
Read 20 items
La tabla de los resultados obtenidos en la encuesta es:
> (Tabla=table(respuesta))
respuesta
1 2 3 4 5
1 6 9 3 1
> names(Tabla) = c("A","B","C","D","E")
> pie(Tabla, main="Encuesta")
Una gráfica para los datos de la encuesta descritos arriba, puede obser-
varse en la figura 2.3.

Respuesta
A
B
C
D
E

Figura 2.3: Diagrama de pay para las 5 respuestas de una encuesta.


2.4. Representación gráfica de los datos 21

2.4.5. Diagrama de tallo y hojas


El diagrama de tallo y hojas es una variante del histograma para desplegar
la información muestral, especialmente cuando las observaciones tienen dos
dı́gitos y no son conjuntos muy grandes de datos. Algo conveniente de este
diagrama es el hecho de que se conserva la información de las observaciones
en lugar de sólo agruparlas en intervalos. Esta manera de desplegar los datos
se obtiene al ordenar las observaciones de acuerdo a su dı́gito principal. Para
ilustrar mejor este diagrama, antes de hacerlo en R se construirá el siguiente
ejemplo. Supóngase que se tienen las siguientes observaciones:

75 98 42 75 84 87 65 59 63 86 78 37 99 66 90 79 80 89
68 57 95 55 79 88 76 60 77 49 92 83 71 78 53 81 77 58
93 85 70 62 80 74 69 90 62 84 64 73 48 72

Ordenando los datos se tiene lo siguiente:

37 42 48 49 53 55 57 58 59 60 62 62 63 64 65 66 68 69
70 71 72 73 74 75 75 76 77 77 78 78 79 79 80 80 81 83
84 84 85 86 87 88 89 90 90 92 93 95 98 99

Primero se listan los dı́gitos principales a la izquierda de la lı́nea vertical.


Después, para cada observación se anota el segundo dı́gito a la derecha de la
lı́nea vertical en el renglón de su dı́gito principal. Por último, se ordenan los
dı́gitos de cada renglón y a la derecha de la lı́nea para que estén en orden
ascendente. Ası́, el diagrama queda de la siguiente manera:
> stem(x)

3 7
4 289
5 35789
6 022345689
7 01234556778899
8 00134456789
9 0023589

2.4.6. Histograma
Un histograma es la representación visual de la distribución de un conjunto
de datos. Es decir, se intenta tener una idea acerca de cómo se comportan
pensando en una función de densidad empı́rica. El histograma tiene algunas
similitudes con la gráfica de barras (ver la función barplot()), en el sentido
22 2. Estadı́stica descriptiva

que también utiliza barras para indicar una frecuencia, pero a diferencia del
diagrama de barras, cada barra en el histograma representa la frecuencia
de un intervalo sobre el rango de las observaciones que se tienen. Cuando
se elabora un histograma, se toma una decisión acerca de cómo se va a
dividir el rango de la muestra en intervalos y cuán altas se dibujarán las
barras, dado que únicamente tienen que estar en la proporción correcta. R
tiene varios métodos para la selección de estos intervalos (Sturges, Scott y
Freedman–Diaconis). Las dos maneras de establecer la altura de las barras
son la frecuencia absoluta del intervalo y aquella que hace al área de la barra
igual a la frecuencia relativa del intervalo. Bajo este último método, el área
total de las barras sumará 1, lo cual es conveniente cuando se está pensando
en ajustar el modelo de una distribución de probabilidad.
En la función hist(), la longitud de los intervalos está controlada por el
parámetro breaks. Este puede ser especificado por el nombre de un algoritmo
que los genere, el número de intervalos deseados o la localización exacta de
los extremos de los intervalos deseados (breaks).
La siguiente instrucción imprime gráficas: 2 renglones, 2 columnas:

> par(mfrow=c(2,2))

O, un renglón y 2 columnas:

> par(mfrow=c(1,2))

Para graficar los histogramas la instrucción de R es:

> hist(CW,breaks="Sturges",freq=TRUE,col="lightgray",main=
"Ancho del caparazon", ylab="Frecuencia absoluta")
> hist(CW,breaks=30,probability=TRUE,col="gray",main="Ancho
del caparazon", ylab="Frecuencia relativa")

Los histogramas aparecen en la figura 2.4.


Puede notarse que los histogramas anteriores se graficaron de tal modo
que muestran la frecuencia absoluta (freq=TRUE o probability=FALSE) y
la frecuencia relativa (freq=FALSE o probability=TRUE) de los intervalos
dados, respectivamente.

Procedimiento y consideraciones para la construcción de una tabla


de frecuencias y un histograma
1. Determinar los valores mı́nimo y máximo de las observaciones y calcu-
lar la diferencia entre estos valores. A este número se le conoce como
rango.
2.4. Representación gráfica de los datos 23

Ancho del caparazón Ancho del caparazón

40 0.06
Frecuencia absoluta

Frecuencia relativa
30
0.04

20

0.02
10

0 0.00

20 30 40 50 20 30 40 50
CW CW

Figura 2.4: Histogramas para la caracterı́stica ancho del caparazón de los


cangrejos.

2. Seleccionar el número de clases M de tal forma que estas clases abar-


quen toda la información. Usualmente,
√ una forma aproximada para
elegir el número de clases es M = n ó M = log(n) + 1, donde n es
el número total de observaciones. La idea es utilizar suficientes clases
para mostrar la variación de los datos pero no tantas como para que
haya pocos datos en algunas de las clases. Una regla es que la longi-
tud de las clases debe ser ligeramente mayor que el cociente max−min
M
donde M es el número de clases.
3. El primer intervalo debe tener extremo inferior ligeramente menor que
el mı́nimo de los datos y el último intervalo debe tener extremo superior
ligeramente mayor que el máximo de los datos. Los lı́mites de la clase
son los valores mı́nimo y máximo en cada clase. La marca de clase es
el punto medio del intervalo de clase.
4. Ninguno de los datos debe estar en las fronteras de las clases.
5. Para una tabla de frecuencias se deben enlistar los intervalos de clase
y escribir el número de datos en cada clase, fi , y también la frecuencia
relativa fi∗ = fni .
24 2. Estadı́stica descriptiva

6. La base de cada barra será la longitud de la clase y la altura será la


correspondiente frecuencia de dicha clase (es decir, el número de datos
que pertenecen a dicha clase).

2.4.7. Boxplot o diagrama de caja y brazos


El boxplot o diagrama de caja y brazos es una manera de representar los
datos de una muestra a través de la información de sus cuartiles (ver sección
2.5). Estos diagramas tienen unas lı́neas que indican la variabilidad presente
fuera del intervalo intercuatil. Es una gráfica que suministra información
sobre los valores mı́nimo y máximo, los cuartiles Q1 , Q2 (mediana) y Q3 , y
sobre la existencia de valores atı́picos y la simetrı́a de la distribución.
Los diagramas de caja muestran la variación de una muestra sin hacer
suposiciones de la distribución probabilı́stica de la cual provienen, es decir,
tienen un enfoque no-paramétrico.
En R existe la instrucción boxplot() para dibujar este diagrama. En el
caso de los datos que se han estado utilizando (crabs):
> boxplot(CW,ylab="Ancho del caparazon")
La gráfica de caja y brazos para “ancho del caparazón” se muestra en la
figura 2.5.

50
Ancho del caparazón

40

30

20

Cangrejos

Figura 2.5: Diagrama de caja y brazos para la caracterı́stica ancho del ca-
parazón de la base de datos de los cangrejos crabs.

También se usan los diagramas de cajas y brazos cuando se busca com-


parar una variable cuantitativa con una variable cualitativa:
2.4. Representación gráfica de los datos 25

> par(mfrow=c(1,2))
> boxplot(CW~sp, xlab="Especie",ylab="Ancho del caparazon")
> boxplot(CW~sex, xlab="Sexo",ylab="Ancho del caparazon")
Para una gráfica de caja y brazos con estas caracterı́sticas, véase la
figura 2.6.

50 50
Ancho del caparazón

Ancho de caparazón
40 40
Especie Sexo
Blue Femenino
Orange Masculino

30 30

20 20

B O F M
Especie Sexo

Figura 2.6: Diagramas de caja y brazos para la caracterı́stica ancho del


caparazón por especie y por sexo para los datos de los cangrejos.

Inclusive se puede comparar una variable cuantitativa con más de una


variable cualitativa de manera simultánea:
> boxplot(CW~sp+sex, xlab="Especie y Sexo",ylab="Ancho del
caparazon")
Ver la figura 2.7.

Procedimiento para construir un diagrama de caja y brazos


1. Dibujar un eje de medida vertical y marcar Q1 , Q2 (la mediana) y Q3
en este eje.
2. Construir una caja rectangular cuya base inferior es el cuantil Q1 (pri-
mer cuartil) y su base superior es el cuantil Q3 (tercer cuartil).
26 2. Estadı́stica descriptiva

B O

50
Ancho del caparazón

40
Sexo
Femenino
Masculino

30

20

F M F M

Figura 2.7: Gráfica de caja y brazos para la caracterı́stica ancho del capa-
razón para las diferentes variables asociadas a especie y sexo.

3. Dibujar una lı́nea horizontal dentro de la caja a la altura de la mediana


Q2 .

4. Sea RI el rango intercuartil, es decir, RI = Q3 − Q1 . Dibujar un


segmento de recta del punto medio de la base inferior de la caja hacia
abajo de longitud 1.5 · RI .

5. Dibujar un segmento de recta del punto medio de la base superior de


la caja hacia arriba de longitud 1.5 · RI . A estos dos últimos segmentos
se les conoce como “brazos”.

6. Marcar en el diagrama con puntos aquellas observaciones que estén


por encima y por debajo en una distancia de a lo más 1.5 · RI . A estas
observaciones se les conoce como observaciones atı́picas moderadas.

7. Marcar en el diagrama con asteriscos aquellas observaciones que estén


por encima y por debajo en una distancia de al menos 1.5 · RI . A estas
observaciones se les conoce como observaciones atı́picas extremas.
2.5. Medidas muestrales de tendencia central 27

2.5. Medidas muestrales de tendencia central

Los métodos gráficos vistos en la sección anterior ayudan a visualizar los


patrones de un conjunto de observaciones. Para obtener un resumen más
objetivo, el siguiente paso será obtener valores numéricos para saber dónde
están centrados los datos y la variabilidad presente en ellos. Las dos medidas
de tendencia central más comúnmente utilizadas son la media y la mediana.

2.5.1. La media muestral


La media muestral de un conjunto de n observaciones x1 , x2 , . . . , xn es la
suma de estas observaciones divididas entre n. La media muestral se denota
como x. Es decir, Pn
xi
x = i=1 .
n
Para calcular la media muestral del ancho del caparazón en R, se puede
hacer de la siguiente manera
> (sumaCW=sum(CW))
[1] 7282.9
> nCW<-length(CW)
> (mediaCW<-sumaCW/nCW)
[1] 36.4145
Otra manera es utilizar la función mean() que calcula la media muestral
de un conjunto de datos
> mean(CW)
[1] 36.4145

2.5.2. La mediana muestral


Otra medida de tendencia central muestral utilizada es la mediana definida
de la siguiente manera.
La mediana muestral de un conjunto de n observaciones x1 , x2 , . . . , xn ,
es el valor mc definido en los siguiente dos casos:
Si n es impar, mc es el valor que ocupa la posición n+12 una vez que
los datos han sido ordenados, es decir, mc = x(n+1)/2 .
Si n es par, la mediana es la media aritmética de los dos valores cen-
trales. Cuando n es par, los datos que están en el centro de la muestra
x +x
ocupan las posiciones n2 y n2 + 1; ası́, mc = (n/2) 2((n/2)+1) .
28 2. Estadı́stica descriptiva

Para calcular la mediana muestral en R, se puede construir una función,


de acuerdo a la definición anterior, como se especifica a continuación:
mediana<-function(x){
n<-length(x)
x<-sort(x) # sort() ordena el conjunto de datos
if(n%%2==0){ # n%%2 es n modulo 2
med<-(x[n/2]+x[1+(n/2)])/2
}else{
med<-x[ceiling(n/2)]} # ceiling() es la funcion techo
return(med)
}
Aplicando esta función, se tiene lo siguiente:
> mediana(CW)
[1] 36.8
Existe una función predefinida en R para el cálculo de la mediana mues-
tral, que es median():
> median(CW)
[1] 36.8

2.5.3. Porcentiles o percentiles


Si el tamaño de la muestra es razonablemente grande, es útil muchas veces
extender el concepto de la mediana y dividir los datos ordenados en cuartos.
Ası́, el punto que divide a la muestra en dos partes es la mediana y los puntos
que dividen a la muestra en cuartos son llamados cuartiles. De manera aún
más general se tiene la siguiente definición.
El 100 × p percentil es el valor tal que, una vez que se han ordenado
los datos de menor a mayor, al menos una proporción del 100 × p % de las
observaciones son menores o iguales a este valor.
Aunque el término correcto es porcentil, por referirse a porcentaje, es
común usar el término percentil.
Existen varias maneras equivalentes de calcular los percentiles, aquı́ se
proporciona una de ellas:
1. Se ordena la muestra de menor a mayor.
2. Se calcula el producto (tamaño de la muestra) × (proporción) = np.
Si np no es entero, el percentil p × 100 será el valor x(dnpe) , donde d·e
es la función techo.
x(k) +x(k+1)
Si k = np es entero, el percentil p × 100 será el valor 2 .
2.6. Medidas de dispersión 29

Claramente, los cuartiles son los percentiles 25, 50 y 75.


Para el cálculo de los percentiles en R, existe la función quantile(), que
recibe la muestra, el valor de p y el método type, la definición dada aquı́
corresponde a type=2, ası́, para calcular el tercer cuartil CW, se hace de la
siguiente manera:

> quantile(CW,0.75,type=2)
75%
42

Pueden darse diversos valores de p, agrupándolo como un vector. Para


calcular los cuartiles 1, 2 y 3 de ambas series se hará de la siguiente manera:

> quantile(CW,c(0.25,0.5,0.75),type=2)
25% 50% 75%
31.5 36.8 42.0

2.6. Medidas de dispersión


Las medidas de dispersión, también llamadas medidas de variabilidad, mues-
tran la variabilidad de una distribución, indicando por medio de un número,
si las diferentes puntuaciones de una variable están muy alejadas de la media
o mediana, o alguna otra medida de tendencia central. Cuanto mayor sea ese
valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a
la media. Ası́ se sabe si todos los casos son parecidos o varı́an mucho entre
ellos.

2.6.1. Varianza y desviación estándar muestrales


Varianza muestral
Para calcular la variabilidad de una distribución respecto de su media, se
calcula la media de las desviaciones de las puntuaciones respecto a la media
aritmética. Pero la suma de las desviaciones es siempre cero, ası́ que lo que
usualmente se toma es un promedio de los cuadrados de las desviaciones. Es
decir, la varianza muestral para un conjunto de observaciones x1 , x2 , . . . , xn
está definida como:
n
2 1 X 2
s = (xi − x) .
n − 1 i=1

Para hacer el cálculo en R, se puede hacer lo siguiente:


30 2. Estadı́stica descriptiva

> difs.CW=CW-mediaCW # Diferencias respecto a la media


> difs.cuad.CW=difs.CW^2 # Diferencias cuadradas
> sum.difs.cuad.CW=sum(difs.cuad.CW) # Suma
> var.CW=(sum.difs.cuad.CW)/(nCW-1) # Varianza muestral
> var.CW # Imprime el resultado
[1] 61.96768
Haciendo el cálculo de la varianza muestral para CM con menos variables
auxiliares
> x=CW # Para hacer la notacion menos pesada
> var.CW=sum((x-mean(x))^2)/(length(x)-1) # Varianza muestral
> var.CW # Imprimir el resultado
[1] 61.96768
Ahora, utilizando la función var(), la cual calcula automáticamente la
varianza muestral
> var(CW)
[1] 61.96768

Desviación estándar muestral


La varianza a veces no se interpreta claramente, ya que se mide en unidades
cuadráticas. Para evitar ese problema se define otra medida de dispersión,
que es la desviación tı́pica, o desviación estándar, que se halla como la raı́z
cuadrada positiva de la varianza. La desviación tı́pica informa sobre la dis-
persión de los datos respecto al valor de la media en las mismas unidades
que los datos; cuanto mayor sea su valor, más dispersos estarán los datos.
Ası́, la desviación estándar muestral estará dada por
v

u n
u 1 X 2
s = s2 = t (xi − x) .
n − 1 i=1

Haciendo el cálculo en R. La función sqrt() calcula la raı́z cuadrada del


valor dado
> (desv.est.CW=sqrt(var.CW))
[1] 7.871955
También se puede utilizar la función sd():
> sd(CW)
[1] 7.871955
2.6. Medidas de dispersión 31

2.6.2. Rango muestral


Se denomina rango estadı́stico o recorrido estadı́stico al intervalo entre el
valor máximo y el valor mı́nimo, por ello tiene las mismas unidades que
los datos. El rango muestral es el tamaño del intervalo más pequeño que
contiene a todas las observaciones. Permite obtener una idea de la dispersión
de los datos: cuanto mayor es el rango, más dispersos están los datos de un
conjunto. Para un conjunto de observaciones {x1 , x2 , . . . , xn }, el rango está
definido por:

Rango = máx {x1 , x2 , . . . , xn } − mı́n {x1 , x2 , . . . , xn } .

Haciendo el cálculo en R,

> (rango.CW<-max(CW)-min(CW))
[1] 37.5

2.6.3. Rango intercuartil


El rango intercuartil es la diferencia entre el tercer y el primer cuartil de una
muestra. Es una medida de la dispersión estadı́stica; a diferencia del rango,
no se ve afectada de la misma manera por datos atı́picos. Sea Q1 y Q3 los
cuartiles 1 y 3 respectivamente de una muestra {x1 , x2 , . . . , xn }, entonces el
rango intercuartil estará dado por:

rango intercuartil = Q3 − Q1 .

Haciendo el cálculo en R:

> CW.Q1.Q3<-quantile(CW,c(0.25,0.75),type=2)
> (CW.R.I<-diff(CW.Q1.Q3))
10.5

Resumen de la información y comparativo

Se hace ahora un resumen de los resultados obtenidos para el ancho del


caparazón de los cangrejos (CW) estudiado. Las estadı́sticas muestrales son:
32 2. Estadı́stica descriptiva

CW
mı́n 17.1
Tendencia Q1 31.5
central x 36.4145
me 36.8
Q3 42.0
máx 54.6
Rango muestral 37.5
Dispersión Rango intercuartil 10.5
Desv. Estándar 7.871955
Varianza 61.96768

2.7. Otras medidas de resumen


Sesgo
Se habla de sesgo negativo o hacia la izquierda si la cola izquierda es
más larga, es decir, si la distribución está concentrada a la derecha.

Se habla de sesgo positivo o hacia la derecha si la cola derecha es más


larga, es decir, si la distribución está concentrada a la izquierda.

Se define el sesgo como:


µ3
Sesgo = .
σ3
En este caso, µ3 es el tercer momento alrededor de la media.
El sesgo muestral se define como:
1
Pn 3
m3 n i=1 (xi − x̄)
3/2
= 1
P n .
m2 ( n i=1 (xi − x̄)2 )3/2

Curtosis
La curtosis se define como:
µ4
,
σ4
donde µ4 es el cuarto momento alrededor de la media y σ es la desviación
estándar.
En ocasiones se mide con referencia a la distribución normal que tiene
una curtosis igual a 3,
µ4
γ2 = 4 − 3.
σ
2.8. Relaciones lineales entre variables 33

La distribución normal tiene entonces una medida γ2 = 0 y se llama me-


socúrtica. Las distribuciones con una curtosis positiva se llaman leptocúrti-
cas y son muy picudas y con colas pesadas. Las distribuciones con curtosis
negativa se llaman platicúrticas y tienen picos menores o son aplanadas y
con colas ligeras.
La curtosis muestral se define como:
1
Pn
m4 (xi − x̄)4
K = 2 − 3 = 1 Pni=1
n
− 3.
m2 ( n i=1 (xi − x̄)2 )2

2.8. Relaciones lineales entre variables


Considere las variables aleatorias continuas para la base crabs; si se observa
una gráfica de dispersión para ellas, se nota que existe una relación lineal
entre las parejas de variables.
> pairs(crabs[,4:8])
El resultado de esta instrucción se presenta en la gráfica de dispersión de
la figura 2.8.

6 10 14 18 20 30 40 50
● ●● ● ● ●●●●
● ●

●● ● ●●● ●●
● ●
● ●●●
●●● ●
● ●● ● ●●
●● ● ●●●
●●●●● ● ●●●●

●● ●
●●●
●● ● ● ●● ●

10 15 20
●●●● ●● ● ●● ●
●●● ● ●● ● ●
●●
●●●●
● ● ●
●● ●●
●●● ●
●●●


●●●●
●●
●●●●●
●●●●
● ●●●●
● ●●
●●

●●●●● ●
●●●

●●●
●●
●● ●● ● ●●● ●
● ●
●●

●●●●





●● ● ●●● ● ●●
● ●● ●
● ● ●
●●

●●


● ●●
●●
●● ●●● ●● ● ●●



● ●
●●

●●
●●
● ●●●● ●
●●
● ●



●●●●
●●●

● ●
● ●●●

●●
●●


●●●

●●●
● ● ●● ●● ●●
● ●
●● ● ● ●●●●●● ●● ●

●●●

FL
●●●●●
●●
● ●
●● ●● ●●
●●●
● ●●● ●●● ●
●●●
●● ●●
●●
●● ●●
●●● ●
●●
●●
●●●


●●
● ●● ●●
●●●



●●

●●


●●
●●
●● ● ●


●●

● ●

●●

●●

● ● ●
●●


●●






●●
●●
● ●
●●●●●●●●
●●
● ●●●
●●●
● ●●●
●● ●●
● ●●
●●
●●
●●●


●●


●●●● ●● ●●●
●●●

●● ●●
●●
●●●●● ●
●●●
●●
●●

● ●
●●● ●●● ●
●●●
● ●● ●
● ●●
●●●
●●●●





●●
●●
●●
● ● ●●●●●
●●●●●

●●
●●●
●● ●● ●
●●
●●●

●●
●●

● ●


●●





●●

●●
●●
●●
● ●


●●●
●●●●
● ●● ● ●●●
●● ●
●●
●● ●●● ●●
●●
●●●
● ●
●●
●●
●●●

●●●●●●
● ● ●●
●●
● ●●●●●● ● ●

●●●



●●●●●●

● ●●
●●

●●

● ●
● ●●

●●

● ●●
●●
●●

● ● ● ●
● ● ● ●

● ● ● ●

● ●● ● ● ● ●● ●
●●
●● ●●●● ●● ●●


● ● ●●● ●●●●●●●●● ● ●● ●

●● ●● ●
● ● ●● ● ●● ●
●● ●
16

● ● ● ● ●
● ●●●● ● ●●●● ●●
●●● ● ●● ●● ●●●●● ●● ●●●●●●●●●
●● ●●●● ● ● ●●●● ● ●
●●● ● ●●
● ●●
● ●●

●● ●●
●●●● ● ● ●●●●● ●● ● ●●●●
● ●●
● ● ●●● ●●● ●● ●●
●●●
● ● ●●●● ●●●●● ●●●
●● ●●● ●●

●●

●●
●●



●●





●●
●●
●●
●●
●●

● ●



●●















●●
●●



●●


●●
●●



●●●●
●●●
● ●

●●

●●
●●●●●●
●●
●●
RW ●●



●●●

●●
●●





●●


●●


●●●

●●
●●













●●●



●●
●●●● ●●●
●● ●
●●●



●●







●●
●●


●● ●●●●
●●

●●

●●●







●●



●●
●●

●●












●●●●
●● ●









●●●●●
● ●●
●●

●●
● ●●
●●●


●●● ●●●●


●●●
●●

●●







●●
●●
●●

●●●
●●
●●
●●
●●
●●
●●●



●●






●●
●●


●●●●
●●

●●●●

●●
●●


●●

●●
●●●


●●




●●

10

●● ●● ●
● ●
●● ●●
● ●●●●● ●
● ● ●●
●●
●●●●●

● ●●
● ● ●●

●● ● ●●● ●●●
●●●●
● ● ●
● ● ● ●●●
●●●

● ●
●●●●● ●●●
●●●
● ●●●
● ●●
● ●● ●●●●●
●●●
●●
● ●●●

●● ●
●●
● ●
●● ●●
●●
●● ●●
●● ●
●● ●
●●
●● ● ●●● ●●
● ● ●●
6

● ● ● ● ● ●● ● ● ●● ●
15 25 35 45

●●
● ● ●
●● ● ●●● ●●

● ● ● ● ● ●●● ●●
●● ●
●●●●●●●● ●
●●
● ●●
●● ● ●● ●

●●



●●


●●●
●●●●
● ●●●● ●● ●
● ●●●●
●●●● ●●

●●●
●●

●●● ●

●●

●●
● ●●●
●●●

●●●● ●● ●
●●
● ●● ●
● ●
● ●● ● ●●

●●●●
●●●●● ●
● ●●●●●●● ●
●●
● ●
●● ●●● ●●
●●●
●● ●
●●
●●●●●●

●● ●●●
● ●

● ● ●●
●●●●
● ●●●
● ●●
●●●●
●●●


●●

●●
● ● ●
●●●●


●●



●●● ●
●●
● ●●

● ● ● ●●








●● ●
●●
●●




● ●
●●●
●●●● ● ● ●● ●
● ●
●●●●●

CL
●●



●● ●● ●●
● ●●
●●
●● ●
●●

● ●

●●
●●●

●●●

●●●

●●
●●
● ● ●


●● ●
● ●
●●


●●
●●

● ●
●●




●●


●●
● ●
● ●

●●●


●●●
● ●
● ●
●●

●● ●●
● ●●● ●●●● ● ●●●
●●●
●●
●●●





●●● ●



●●●


●●●●●● ●
●●





●● ●●●
●●●●
●●


●●
●●
●●●
●●


●●●● ●●
● ●


● ●
●●●
●● ●●
●●

●●
● ●
●●

●●
●●
●●●
●●●
● ●● ● ●●
●● ●
● ●● ●
●● ●
●●



●● ●
● ●●●●
●● ●
●● ●●●

● ●


●●
●●●●


●●

●●●
● ●●●● ●
● ●
●●●●

● ● ●

●●●●●
●●
●●●● ●
● ●●●
●● ●●● ●●●
●●●●
● ●
●●●●●
●●




●●● ●
●●
● ●
●●● ●●

●● ●● ●● ●●
● ● ● ●

● ● ● ●

● ● ● ● ●
●● ●●●
● ●●●
●● ● ●
●●
● ●●●●

● ●● ●

●●
●●●

● ● ●● ● ●
●●●●
● ● ●
● ●● ●●● ●●

●●

● ● ●
●● ●●●●
●● ●●●●● ● ●●●
● ●
● ●● ● ●●
●●



●●
●●
● ●● ●
●●

●● ● ●●
●●
●●● ●●●●●

● ●
●●
●●

●●
●● ●●●●●●●
●●●
●●
●● ●
●● ●●

●●●● ●●●●● ● ●● ●●

●●

●●
●●
●● ●
● ●●
●●●


●●
●●● ●
●● ●●
40

● ●●●
● ●
●●● ●●

●●
● ●
●● ●








●●●
● ●

●●●
●●

● ●● ●


●●

● ●●●
● ●
●●
●●●

●●










●●

●● ●●

●●●●
●●

●●




● ●●●
●●●

CW
●●

●● ●●

● ●
●● ●● ●



●●
●● ●

●●

●●
●● ●
●●
●●● ●●●


●● ● ●● ● ●●
●● ●●
● ●
●●
●●●●●●●

●●
●●●● ●●
●●●●
●● ●●
●●



●● ●●●●


●●

●●

●●●
●●


● ●
●●

●●

●●
●● ●
●●●





●●

●●●
●●●●● ●

●●

●●
●●●
●●
● ●
●●

●●●●●●
●●●


●●

●●
●●
●●
●●
● ●●●
● ●●●


●●
●●
●●●
●● ●● ●
●●
●●
●●● ●
● ●
●●
●● ●●
●●
●●





●●● ●●●
●●

●●
●●
●●
●●●
● ●
●●

●●

●●●
● ●
●●●
●●
●●●

●●
● ● ●●● ●● ●
●● ●●
● ●●●

●●
●●●● ●
● ●●
●●





● ●


●●

●●●
● ●
● ●●●
●●

●●
●●
●●●●

●● ●●

●●●●●● ●●●
●●
●●
● ● ●●
●● ●●●
●● ● ● ●●
20

● ●● ●● ●
●● ●● ●● ●●
● ● ● ●


● ●
● ● ●
●● ●●
●●
● ● ● ● ● ●●●
10 15 20



●●●● ●●●

● ● ●


●● ● ●●●

● ●
●●●
● ●● ●●
●● ●●●●
● ●●


●● ● ●
● ●● ● ●
●●●● ●● ●●●●
●●●
●●


●●
●●
●●
●● ●
●●
●●● ●● ●
●●

● ●●
●● ●
●●



●●
●●● ●●●●●

●●●●●


●●
●●●● ●
●●
●●●●●●●● ●
● ●● ● ●
●●
●●
●●
●●●
●●●●
● ● ●●
●●
● ●● ● ● ●


●●
● ●●
●●●

●●●

● ●
●●● ●


●●

●●●
●●




●●
●● ● ● ●●


●●


● ●

● ●

●●● ●●





●●

●●● ●●


●●

● ●●●
●●

BD
●●●●●

●●●
● ●●●●●
● ●●●●
●● ●●●●
●●●● ● ●● ●
●●●●●●●
●●
●● ●●● ●●●●● ●●
● ●
● ●


●●●

●●

●●










●●●
● ●

● ●

●●


●●
●●● ●
●●
●●

●●
● ●●●●
●●
●●

●● ●
●●




●●
●●●●
● ●●●●


●●
●●




●●





●●
● ●
●●
●●
●● ●●●●●●●●●●
● ●●●● ●

●●● ●
●●●●●



●●●●

●● ● ●●●●
●●●●● ●
● ●●
●●
●● ●●● ●●●
●● ●●●

●●

●●

● ●● ●
●●● ●● ●
●●●

● ● ●●
●●●●●
●●

●●

●●
●●
●● ●
●●●

●●
●●●
●●
● ● ●●●

●●●●
●● ●●
●●●

●●
●●
●●●
●●●
●● ●
● ●
●●●●●● ●●
● ●●
●●● ●●●●●●


●●●●
●● ●●●●● ●●●
● ●● ●●●●●●
●●●● ●
● ●● ●●●● ●●●
●●

● ●●● ●
● ●●
●●
● ●●
●● ●
●●● ●●● ●●● ●●
● ● ● ●

10 15 20 15 25 35 45 10 15 20

Figura 2.8: Gráfica de dispersión para la base crabs y que ilustra la relación
entre las diferentes medidas morfológicas para los cangrejos.
34 2. Estadı́stica descriptiva

Coeficiente de correlación de Pearson


Para dos variables aleatorias continuas X y Y , se define el coeficiente de
correlación como:
Cov(X, Y )
ρXY = p 2 2 .
(σX σY )
Note que −1 ≤ ρXY ≤ 1, ası́ valores cercanos a −1 y 1 indican una fuerte
relación lineal con pendiente negativa y positiva, respectivamente.
Para una muestra aleatoria de variables (xi , yi ), i = 1, 2, . . . , n; se define
el coeficiente de correlación muestral (conocido como coeficiente de correla-
ción de Pearson) de la siguiente manera:
Pn
(xi − x̄)(yi − ȳ)
r = p Pn i=1 Pn .
[ i=1 (xi − x̄)2 ] [ i=1 (yi − ȳ)2 ]
La información muestral para las variables continuas en los datos crabs,
puede resumirse en la gráfica de la figura 2.9, obtenida con la instrucción:

FL 0.8

0.6

0.91 RW 0.4

0.2

0.98 0.89 CL 0

−0.2

0.96 0.9 1 CW −0.4

−0.6

0.99 0.89 0.98 0.97 BD −0.8

−1

Figura 2.9: Gráfica de correlación para las medidas morfológicas de los can-
grejos.
2.9. Anexo 35

>library(corplot)
>corrplot.mixed(cor(crabs[,4:8]),lower="number",upper="color")

Note que, como se ha observado en el diagrama o gráfica de dispersión,


la asociación lineal es fuerte entre las variables.

2.9. Anexo
A continuación se dan las instrucciones para elaborar algunas de las gráficas
de este capı́tulo a través de la biblioteca ggplot2 de R.
En la siguiente liga se puede encontrar una guı́a rápida para visualización
de datos usando ggplot2.
https://rstudio.com/wp-content/uploads/2016/12/
ggplot2-cheatsheet-2.1-Spanish.pdf

######## Estadistica descriptiva con ggplot2 para los ########


######## ejemplos del capı́tulo 2 ########
>library(MASS)
>library(ggplot2)
>data("crabs")
>help("crabs")
>ls(crabs)
>summary(crabs)

>crabplot = ggplot(data=crabs)

# GRAFICA DE BARRAS
# fill se utiliza para que los ponga de distinto colores de
# acuerdo a sp scale_fill_discrete es para modificar
# las leyendas
>barplot = crabplot + geom_bar(aes(x=sp, fill=sp), alpha=0.4)
+ labs(x=" ", y="Frecuencia") +
scale_fill_brewer(labels=c("Blue","Orange"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=-1)
>barplot
#Las escalas de colores se pueden ver en
#RColorBrewer::display.brewer.all()

# GRAFICA DE PAY para el ejemplo de los cangrejos


>pieplot = crabplot + geom_bar(aes(x=as.factor(1),
36 2. Estadı́stica descriptiva

fill=as.factor(sp)), width=1)
>pieplot = pieplot + coord_polar(theta ="y") + labs(x="",y="")+
scale_fill_brewer(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=1) + theme_void()
>pieplot
# Alternativa: scale_fill_discrete(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"))
# theme_void() para quitar las coordenadas

#Para el ejemplo de la encuesta


>respuesta = c(4,2,3,2,1,2,3,3,3,3,4,3,5,3,3,2,2,4,3,2)
>t_respuesta = as.data.frame(prop.table(table(respuesta)))
>t_respuesta$respuesta = c("A","B","C","D","E")

>pieplot_encuesta = ggplot(data=t_respuesta, aes(x=factor(1),


y=Freq, fill=as.factor(respuesta))) +
geom_bar(width=1, stat="identity")
>pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y")
+ guides(fill=guide_legend("Respuesta")) +
labs(x="", y="") + theme_void()
>pieplot_encuesta

# otra opción para el ejemplo de la encuesta


>pieplot_encuesta = ggplot(data=t_respuesta,
aes(x=factor(1),y=Freq, fill=as.factor(respuesta)))
+ geom_bar(width=1, stat="identity")
pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y") +
scale_fill_brewer(labels=c("A", "B","C","D","E"),
guide=guide_legend("Respuesta"), type = "seq",
palette="Accent", direction=1) +
labs(x="", y="") + theme_void()
>pieplot_encuesta

#+ guides(fill=guide_legend("Respuesta")) se
#sustituyo por scale_fill_brewer

# HISTOGRAMA
#Frecuencia absoluta
>histogram_abs = crabplot + geom_histogram(aes(x=CW),
binwidth = 4.755) + labs(title="Ancho del caparazón",
2.9. Anexo 37

y="Frecuencia absoluta")
>histogram_abs

#Frecuencia relativa
>histogram_rel = crabplot +
geom_histogram(aes(x=CW, y=..density..),bins=30) +
labs(title="Ancho del caparazón", y="Frecuencia relativa")
>histogram_rel
#Para que aparezcan juntas (ver nota al final de este anexo)
>ggplot2.multiplot(histogram_abs, histogram_rel, cols=2)

# BOXPLOT
>boxplot_cangrejos = crabplot +
geom_boxplot(aes(x="", y=CW),fill="blue", alpha=0.3) +
labs(x="Cangrejos", y="Ancho del caparazón") +
scale_fill_brewer(type = "seq", palette="Set1", direction=-1)
>boxplot_cangrejos

# Especie
>boxplot_especie = crabplot +
geom_boxplot(aes(x=as.factor(sp), y=CW, fill=as.factor(sp)),
alpha=0.3) + labs(x="Especie", y="Ancho del caparazón") +
scale_fill_brewer(labels=c("Blue", "Orange"),
guide=guide_legend("Especie"), type = "seq",
palette="Set1", direction=-1)
>boxplot_especie

#Sexo
>boxplot_sexo = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
labs(x="Sexo", y="Ancho de caparazón")+
scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_sexo

>ggplot2.multiplot(boxplot_especie,boxplot_sexo, cols=2)

#Sexo/Especie
>boxplot_espsex = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
38 2. Estadı́stica descriptiva

facet_grid(.~as.factor(sp))
+ labs(x="", y="Ancho del caparazón")
+ scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_espsex
# guides(fill=guide_legend("Sexo"))

# Nota: para gráficas múltiples usar easyGgplot2


>install.packages("devtools")
>library(devtools)
>install_github("easyGgplot2","kassambara")
>library(easyGgplot2)
# Usar este comando para gráficas múltiples en una
# figura ggplot2.multiplot(plot1,plot2,plot3,plot4,cols=2)

2.10. Ejercicio
Realice un análisis exploratorio para las variables de la base Cars93, incluida
en la biblioteca MASS de R. La base considera autos seleccionados aleato-
riamente de entre los autos de pasajeros disponibles en el mercado en 19932 ,
listados por el Consumer Reports issue y el PACE Buying Guide.

2 Lock, R. H. (1993). 1993 New Car Data. Journal of Statistics Education (1).
Capı́tulo 3

Estadı́sticas y
distribuciones muestrales

3.1. Introducción
De acuerdo a la definición 1.2, una muestra aleatoria representa un con-
junto de variables aleatorias X1 , . . . , Xn , las cuales son independientes e
idénticamente distribuidas. En este capı́tulo se estudiarán las propiedades
de funciones de la muestra aleatoria que serán fundamentales en el proceso
de inferencia.

Definición 3.1 El espacio de las muestras o espacio muestral es el


conjunto de valores que puede tomar la muestra aleatoria X1 , . . . , Xn y se
denotará por X.

Definición 3.2 Una estadı́stica es cualquier función T (X1 , . . . , Xn ) de la


muestra aleatoria que no depende de parámetros desconocidos.

Se denotará una estadı́stica por T (X1 , . . . , Xn ) o simplemente T (X),


donde X = X1 , . . . , Xn .

Observación 3.1 Note que una estadı́stica, al ser función de variables


aleatorias, es a su vez una variable aleatoria. De manera formal, se está
pidiendo implı́citamente que la función T : Rn → Rk sea Borel medible (me-
dible en la σ-álgebra B n ), donde k es la dimensión de la estadı́stica; no obs-
tante, la condición de medibilidad suele omitirse debido a que las funciones
de la muestra aleatoria que de manera habitual se utilizan, son claramente

39
40 3. Estadı́sticas y distribuciones muestrales

medibles. Pero la importancia de señalar la medibilidad en este momento


es enfatizar el hecho de que las estadı́sticas son variables aleatorias, puesto
que no es posible anticipar el valor que tomarán al obtener observaciones
concretas. Lo anterior tiene la implicación de que será necesario considerar
la función de densidad (o de distribución) de las estadı́sticas, lo que a su vez
permitirá calcular sus caracterı́sticas tales como la esperanza o la varian-
za. En este contexto, es común hablar de la distribución muestral de una
estadı́stica T (X) al referirse a la distribución de la variable aleatoria T (X).

Entre las estadı́sticas más comunes que se utilizarán en procedimientos de


inferencia destacan la media muestral, la varianza muestral y las estadı́sticas
de orden, las cuales se estudiarán con mayor detalle en este capı́tulo. A
continuación se enlistan algunas de estas funciones de la muestra aleatoria
con su respectiva notación.
Pn
Xi
T (X) = i=1
n := X̄ media muestral.
Pn 2
i=1 (Xi −X̄)
T (X) = n−1 := S 2 varianza muestral.

T (X) = mı́n {X1 , X2 , . . . , Xn } := X(1) mı́nima estadı́stica de orden.

T (X) = máx {X1 , X2 , . . . , Xn } := X(n) máxima estadı́stica de orden.


n
1
Xir := Mr
P
T (X) = n r-ésimo momento muestral.
i=1

A continuación se probará que, en general, la esperanza de la media mues-


tral es igual a la media poblacional, mientras que la varianza de la media
muestral es la varianza poblacional dividida entre el tamaño de la mues-
tra. Asimismo, la esperanza de la varianza muestral es igual a la varianza
poblacional.

Proposición 3.1 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que


E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces

σ2
E(X̄) = µ y Var(X̄) = .
n
Demostración.
 Pn  n
i=1 Xi 1X 1
E(X̄) = E = E(Xi ) = · nµ = µ.
n n i=1 n
3.1. Introducción 41

Ahora,

 Pn n
nσ 2 σ2

i=1 Xi 1 X
Var(X̄) = Var = 2
Var(Xi ) = 2 = .
n n i=1 n n

A continuación se da una identidad que será de utilidad más adelante.

Observación 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), enton-


ces
n
X n
X
(Xi − µ)2 = (Xi − X̄)2 + n(X̄ − µ)2 . (3.1)
i=1 i=1

Demostración. Ahora se comprobará (3.1):

n
X n
X
(Xi − µ)2 = (Xi − X̄ + X̄ − µ)2
i=1 i=1
n
X
(Xi − X̄)2 + 2(Xi − X̄)(X̄ − µ) + (X̄ − µ)2
 
=
i=1
n
X n
X
= (Xi − X̄)2 + 2(X̄ − µ) (Xi − X̄) + n(X̄ − µ)2
i=1 i=1
n
X
= (Xi − X̄)2 + n(X̄ − µ)2 .
i=1

En el siguiente resultado se probará que, en general, E(S 2 ) = σ 2 .

Proposición 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que


E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces

E(S 2 ) = σ 2 .
42 3. Estadı́sticas y distribuciones muestrales

Demostración.
" n #
2 1 X
2
E(S ) = E (Xi − X̄)
n−1 i=1
" n #
1 X
2 2
= E (Xi − µ) − n(X̄ − µ)
n−1 i=1
( n )
1 X 
2
  2

= E (Xi − µ) − nE (X̄ − µ)
n − 1 i=1
" n #
1 X
= Var(Xi ) − n · Var(X̄)
n − 1 i=1
nσ 2
 
1 2
= nσ −
n−1 n
= σ2 .

Ejemplo 3.1 Se quiere conocer la probabilidad θ de obtener sol con una


moneda, es decir, se está estudiando la variable aleatoria que toma valores
X = 1 si se obtiene sol y X = 0 si se obtiene águila, donde θ = P(X =
1), y para ello se realizarán tres lanzamientos de la moneda. En este caso,
f (x; θ) = θx (1 − θ)1−x con x = 0, 1; por lo tanto se está considerando una
muestra aleatoria de tamaño tres de la distribución Bernoulli(θ). En la tabla
siguiente se muestran los posibles resultados, la distribución de la muestra
especificada a través de su función de densidad, ası́ como los valores que
pueden tomar las estadı́sticas X y S 2 bajo los diferentes escenarios.

Resultados x1 , x2 , x3 Distribución x̄ s2
s,s,s 1,1,1 θ3 1 0
2
s,s,a 1,1,0 θ (1 − θ) 2/3 1/3
s,a,s 1,0,1 θ2 (1 − θ) 2/3 1/3
a,s,s 0,1,1 θ2 (1 − θ) 2/3 1/3
a,a,s 0,0,1 θ(1 − θ)2 1/3 1/3
a,s,a 0,1,0 θ(1 − θ)2 1/3 1/3
s,a,a 1,0,0 θ(1 − θ)2 1/3 1/3
a,a,a 0,0,0 (1 − θ)3 0 0
3.1. Introducción 43

Entonces, la función de densidad conjunta está dada por


3
Y 3
Y
fX1 ,X2 ,X3 (x1 , x2 , x3 ) = f (xi ; θ) = θxi (1 − θ)1−xi
i=1 i=1
3
P 3
P
xi 3− xi
= θi=1 (1 − θ) i=1 ,
y las funciones de densidad de la media y la varianza muestrales son:


 (1 − θ)3 si x̄ = 0;
3θ(1 − θ)2 si x̄ = 1/3;

fX̄ (x̄) =

 3θ2 (1 − θ) si x̄ = 2/3;
θ3 si x̄ = 1.

(
θ3 + (1 − θ)3 si s2 = 0;
fS 2 (s2 ) =
3θ(1 − θ) + 3θ (1 − θ) si s2 = 1/3.
2 2

Se obtendrán ahora las caracterı́sticas numéricas de X y S 2 para ilustrar las


propiedades que se presentaron previamente.
   
1 2
= θ3 (1) + 3θ(1 − θ)2 + 3θ2 (1 − θ) + (1 − θ)3 (0)

E X
3 3
= θ3 + θ 1 − 2θ + θ2 + 2θ2 (1 − θ)


= θ3 + θ − 2θ2 + θ3 + 2θ2 − 2θ3


= θ.
Por otro lado,
 2  2
 2
3 2 1 2 2
E X = θ (1) + 3θ(1 − θ) + 3θ (1 − θ) + (1 − θ)3 (0)
3 3
1  4 2
= θ3 + θ 1 − 2θ + θ2 + θ − θ3

3 3
3 1 2 2 1 3 4 2 4 3
= θ + θ− θ + θ + θ − θ
3 3 3 3 3
2 2 1
= θ + θ.
3 3
Y
2 2 1
θ + θ − θ2

Var X =
3 3
1 2 1
= − θ + θ
3 3
1
= θ (1 − θ) ,
3
44 3. Estadı́sticas y distribuciones muestrales

es decir, la varianza poblacional dividida entre el tamaño de muestra.


Finalmente,
 
2 1 
3θ(1 − θ)2 + 3θ2 (1 − θ)
 
E S =
3
= θ − 2θ2 + θ3 + θ2 − θ3
= θ − θ2
= θ (1 − θ) .

3.2. Distribución de las estadı́sticas muestra-


les bajo normalidad
Suponiendo ahora que las variables de la muestra aleatoria tienen una dis-
tribución
 normal, se analizará
 la distribución y las propiedades de la media
X̄ y la varianza S 2 muestrales.

3.2.1. Distribución de la media muestral


Proposición 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una población
con distribución N (µ, σ 2 ), entonces

X̄ ∼ N (µ, σ 2 /n).

Demostración. Se obtendrá la función generadora de momentos de X̄.


Para ello, se usará el hecho de que si Xi ∼ N (µ, σ 2 ), la función generadora
de momentos de Xi está dada por:
 
1 2 2
mXi (t) = exp tµ + t σ .
2

Ası́,
 Pn  n
!
Xi Y t
tX̄ t· i=1 X
mX̄ (t) =E(e )=E e n =E en i
i=1
n
Y  t 
= E e n Xi pues X1 , . . . , Xn son independientes
i=1
Yn
= mXi (t/n)
i=1
3.2. Distribución de las estadı́sticas 45

n
Y t 1 t2 2
= e n µ+ 2 · n2 σ pues X1 , . . . , Xn son idénticamente distribuidas
i=1
1 2 σ2
=etµ+ 2 t n ,

1 2 σ2
∴ mX̄ (t) = etµ+ 2 t n ,
 2

de donde se concluye que X̄ ∼ N µ, σn . 

3.2.2. La distribución de la varianza muestral


Enseguida se revisarán las distribuciones Gama y Ji-cuadrada, las cuales
serán de utilidad en los resultados que se analizarán más adelante.
La distribución Gama
Se dice que la variable aleatoria continua X tiene distribución Gama con
parámetros de forma r > 0 y de escala λ > 0, si su función de densidad de
probabilidad está dada por

λr r−1 −λx
f (x; r, λ) = x e , x > 0,
Γ(r)
R∞
donde Γ(r) = 0
xr−1 e−x dx es conocida como la función Gama, la cual
satisface:

Γ(r + 1) = rΓ(r) y si r ∈ N entonces Γ(r + 1) = r!.

La notación X ∼ Gama(r, λ), significa que X tiene esta distribución.


Las expresiones para su media, varianza y función generadora de momen-
tos se resumen a continuación:

E(X) = λr ,

r
V ar(X) = λ2 ,

 r
λ
mX (t) = λ−t .
46 3. Estadı́sticas y distribuciones muestrales

La distribución Ji-cuadrada es un caso particular de la distribución Ga-


ma, de tal manera que las propiedades de la segunda pueden utilizarse para
deducir las de la primera, la cual se presenta a continuación.
Distribución Ji-cuadrada
Se dice que la variable aleatoria continua X tiene distribución Ji-cuadrada
con k grados de libertad si su función de densidad de probabilidad está dada
por

1 k/2

k 1
f (x; k) = 2
k
 x 2 −1 e− 2 x , x > 0.
Γ 2

Se denota como X ∼ χ2(k) . Además:

k/2
E(X) = 1/2 = k,

k/2
Var(X) = 1/4 = 2k,

1/2 k 1
mx (t) = ( 1/2−t ) 2 = ( 1−2t )k/2 .

Estas propiedades pueden deducirse de las expresiones correspondientes


para la distribución Gama, notando que la distribución Ji-cuadrada es un
caso particular con r = k2 y λ = 12 .
El siguiente resultado establece una relación entre la distribución normal
y la distribución Ji-cuadrada.

Teorema 3.1 Sean X1 , . . . , Xn variables aleatorias independientes tales que


∀i ∈ {1, . . . , n}, Xi ∼ N (µi , σi2 ). Sea Zi = Xiσ−µ
i
i
, entonces:

1. Zi2 ∼ χ2(1) .

n
Zi2 ∼ χ2(n) .
P
2.
i=1

Demostración.

1. Como Zi ∼ N (0, 1), entonces


3.2. Distribución de las estadı́sticas 47

Z ∞

tZi2
 2 1 2
mZi2 (t) = E e = etzi √ e−zi /2 dzi
−∞ 2π
Z ∞
1 − 1 zi2 (1−2t)
= √ e 2 dzi
−∞ 2π
r Z ∞
1 1 1 2
= q e− 2 zi (1−2t) dzi
1 − 2t −∞ 2π( 1 )
1−2t
r Z ∞
1 1 1 1 2
= q e− 2 · 1/(1−2t) zi dzi
1 − 2t −∞ 2π( 1 )
1−2t
| {z }
1
 1/2
1
= ,
1 − 2t
la cual corresponde a la función generadora de momentos de una dis-
tribución χ2(1) .
2. Para la segunda parte se utilizará el hecho de que la suma de variables
aleatorias independientes con distribución Gama tiene también distri-
bución Gama con parámetro de forma igual a la suma de los parámetros
de forma de las variables que componen la suma, cuando el parámetro
de escala es el mismo para todas las variables aleatorias; además de
que la distribución Ji-cuadrada es un caso particular de la distribu-
ción Gama. OP bien, calculando directamente la función generadora de
n
momentos de i=1 Zi2 :
n n  1/2  n/2
Y Y 1 1
mPn Zi2 (t) = mZi2 (t) = = .
i=1
i=1 i=1
1 − 2t 1 − 2t

En el siguiente resultado se analizará la distribución de S 2 . La prime-


ra parte se refiere a la independencia entre X y el vector de desviaciones
(X1 − X̄, . . . , Xn − X̄), la cual se justificará de dos formas: usando la fun-
ción generadora de momentos y mediante una transformación. Otra manera
de abordar este resultado es a través de la independencia entre una forma
lineal y una forma cuadrática y las propiedades de la distribución normal
multivariada (ver Rencher y Schaalje (2008)); sin embargo, en este texto no
se estudiará ese enfoque.
48 3. Estadı́sticas y distribuciones muestrales

Teorema 3.2 Considere a X1 , . . . , Xn una muestra aleatoria de la distri-


bución N (µ, σ 2 ). Entonces

1. X̄ y el vector (X1 − X̄, . . . , Xn − X̄) son independientes.


2. X̄ y S 2 son independientes.
(n−1)S 2
3. σ2 ∼ χ2(n−1) .

2σ 4
4. E(S 2 ) = σ 2 y Var(S 2 ) = n−1 .

Figura 3.1: Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada y


estudió su distribución asintóntica. Se le considera el padre de la estadı́stica.
Imagen tomada de commons.wikipedia.org (public domain).
3.2. Distribución de las estadı́sticas 49

Demostración.

1. Se considera la distribución conjunta de Y1 , Y2 , . . . , Yn , donde:

Y1 = X̄, Y2 = X2 − X̄, Y3 = X3 − X̄, . . . , Yn = Xn − X̄.

Con este cambio de variable,


 
Y1 − Y2 − Y3 − · · · − Yn = X̄ − X2 − X̄ − · · · − Xn − X̄
= nX̄ − X2 − · · · − Xn
= X1 + X2 + · · · + Xn − X2 − · · · − Xn
= X1 .

Expresando las Xi ’s en términos de las Yi ’s se obtiene:

X1 = Y1 − Y2 − Y3 − · · · − Yn ,

X2 = Y1 + Y2 ,

X3 = Y1 + Y3 ,

.. ..
. .

Xn = Y1 + Yn .

 
∂Xi
El Jacobiano de esta transformación es igual a n, pues la matriz ∂Yj
tiene la forma:
 
1 −1 −1 −1 ··· −1

 1 1 0 0 ··· 0 

 1 0 1 0 ··· 0 
,
 

 1 0 0 1 ··· 0 
 .. .. .. .. .. .. 
 . . . . . . 
1 0 0 0 ··· 1

la cual se puede transformar mediante operaciones elementales de ren-


glones: para cada i, 2 ≤ i ≤ n, se suma el renglón i-ésimo al primer
50 3. Estadı́sticas y distribuciones muestrales

renglón, obteniendo la matriz:


 
n 0 0 0 ··· 0
 1 1
 0 0 ··· 0 

 1 0 1 0 ··· 0 
,
 
 1 0
 0 1 ··· 0 
 .. .. .. .. .. .. 
 . . . . . . 
1 0 0 0 ··· 1
cuyo determinante es:


1 0 0 ··· 0

0 1 0 ··· 0
n = n.

.. .. ..

. . .

0 0 0 ··· 1

Por otro lado, de acuerdo a (3.1):


n
X n
X
2 2
(xi − µ) = (xi − x̄ + x̄ − µ)
i=1 i=1

n
X 2 2
= (xi − x̄) + n (x̄ − µ) ,
i=1

la función de densidad conjunta  de X1 , X2 , . . . , Xn (la muestra aleato-


ria de la distribución N µ, σ 2 ) se puede escribir como:
 n  Pni=1 (xi −x̄)2 n(x̄−µ)2 
2
 1 − 2σ 2
− 2σ2
fX1 ,...,Xn x1 , . . . , xn ; µ, σ = √ e ,
2πσ
con −∞ < xi < ∞, i = 1, 2, . . . , n. Como y1 = x y, por lo tanto,
x1 − x = −y2 − y3 − · · · − yn , la función de densidad conjunta de
Y1 , Y2 , . . . , Yn es:

Xn 
2
n yi
 (−y2 − y3 − · · · − yn )2 n(y1 − µ)2 
  
1 i=2
(n) √ exp − − − ,
2πσ 
 2σ 2 2σ 2 2σ 2 

−∞ < yi < ∞, i = 1, 2, . . . , n. El resultado obtenido es producto de la


función de densidad de Y1 , es decir, de
(y1 − µ)2
 
1
exp − , −∞ < y1 < ∞,
2σ 2 /n
p
2πσ 2 /n
3.2. Distribución de las estadı́sticas 51

y una función de y2 , . . . , yn . De esta manera, Y1 es independiente de


las n − 1 variables aleatorias Y2 , Y3 , . . . , Yn y la función de y2 , . . . , yn
es la función de densidad de Y2 , Y3 , . . . , Yn . En conclusión, Y1 = X es
independiente de −Y2 −Y3 −· · ·−Yn = X1 −X, Y2 = X2 −X, . . . , Yn =
Xn − X.
Pn
(X −X̄)2
2. X̄ y S 2 son independientes porque S 2 = i=1n−1i es función de
(X1 − X̄, . . . , Xn − X̄). O bien, puede verificarse notando que la variable

n(X − µ)2 n(Y1 − µ)2


W1 = 2
=
σ σ2
es independiente de:
n
X n
X
(Xi − X)2 (−Y2 − · · · − Yn )2 + Yi2
i=1 i=2
W2 = = .
σ2 σ2

3. Observe que Pn
(n − 1)S 2 i=1 (Xi − X̄)2
=
σ2 σ2

Usando nuevamente la identidad


n
X n
X
(Xi − µ)2 = (Xi − X̄)2 + n(X̄ − µ)2
i=1 i=1

se tiene que
Pn Pn
i=1 (Xi − µ)2 i=1 (Xi − X̄)2 n(X̄ − µ)2
= + (3.2)
σ2 σ2 σ2
n
(Xi −µ)2
P
Pn  2 2
Pero note que i=1
σ2 = i=1 Xiσ−µ ∼ χ2(n) y también n(X̄−µ) σ2 =
 2
X̄−µ

σ/ n
∼ χ2(1) ; y como X̄ es independiente de X1 − X̄, . . . , Xn − X̄,
entonces Pn 2
i=1 (Xi − X̄)
2
∼ χ2(n−1) ,
σ
debido a que bajo el supuesto de independencia y por (3.2), la función
P n 2
i=1 (Xi −µ)
generadora de momentos de σ2 se puede escribir como el
52 3. Estadı́sticas y distribuciones muestrales
Pn 2
i=1 (Xi −X̄) n(X̄−µ)2
producto de las funciones generadoras de W = σ2 y σ2 ,
es decir:
−n/2 −1/2
(1 − 2t) = mW (t) × (1 − 2t) , t < 1/2
de donde,
−n/2+1/2 −(n−1)/2
mW (t) = (1 − 2t) = (1 − 2t) .
2
(n − 1)S
∴ ∼ χ2(n−1) .
σ2
4. Anteriormente se probó que E(S 2 ) = σ 2 , sin embargo conociendo ya
2
la distribución de (n−1)S
σ2 , se puede obtener de la siguiente manera,
además de deducir la varianza correspondiente.
2
Como (n−1)S
σ2 ∼ χ2(n−1) , entonces
(n − 1)S 2
 
(n − 1)
E S 2 = n − 1 ⇒ E S 2 = σ2 .
 
E 2
=n−1⇒ 2
σ σ
2
También, como (n−1)S
σ2 ∼ χ2(n−1) , se tiene que
(n − 1)S 2 (n − 1)2
 
Var 2
= 2(n − 1) ⇒ Var(S 2 ) = 2(n − 1)
σ σ4
2(n − 1)σ 4 2σ 4
⇒ Var(S 2 ) = 2
= .
(n − 1) n−1
2σ 4
∴ Var S 2 =

.
n−1


Demostración. Demostración alternativa para las partes 1, 2 y 3:


Se define la siguiente transformación:
1
Y1 = √ (X1 + · · · + Xn ),
n
1
Y2 = √ (X1 − X2 ),
2
1
Y3 = √ (X1 + X2 − 2X3 ),
6
..
.
1
Yn = p (X1 + X2 + · · · + Xn−1 − (n − 1)Xn ).
n(n − 1)
3.2. Distribución de las estadı́sticas 53

Para la cual, la matriz Jacobiana correspondiente es:


√1 √1 √1 √1
 
n n n
... n
√1 −1

 2

2
0 . . . 0 

√1 √1 −2
√ ··· 0
 
J =  6 6 6 .
 
 .. .. .. 
 . . . 
· · · √−(n−1)
 
√ 1 √ 1 √ 1
n(n−1) n(n−1) n(n−1) n(n−1)

Esta matriz es una matriz ortogonal, esto significa que JJ t = J t J = I,


por lo tanto es posible escribir:
| det(J)| = | det(J t )|
= | det(JJ t )1/2 | = 1.
Ahora, la función de densidad conjunta de X1 , X2 , . . . , Xn es:
n  
Y 1 1 2
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = √ exp − 2 (xi − µ)
i=1
2πσ 2σ
 n ( n
)
1 1 X 2
= √ exp − 2 (xi − µ)
2πσ 2σ i=1
 n ( n
)
1 1 X 2
= √ exp − 2 (x − 2µxi + µ2 ) ,
2πσ 2σ i=1 i

para −∞ < x1 , x2 , . . . , xn < ∞. Entonces la función de densidad conjunta


de Y1 , . . . , Yn es:
n ( n
!)


1 1 X
2 2
g(y1 , y2 , . . . , yn ) = √ exp − 2 yi − 2µ ny1 + nµ
2πσ 2σ i=1
n ( " n #)


1 1 X 2 2
= √ exp − 2 y + (y1 − nµ) ,
2πσ 2σ i=2 i
Pn 2
donde
Pn −∞ < y1 , y2 , . . . , yn < ∞. Además puede verse que i=1 xi =
2
i=1 yi , esto puede verificarse desarrollando para diferentes valores de n;
por ejemplo, para n = 2 :
1 1
Y12 + Y22 = (X1 + X2 )2 + (X1 − X2 )2
2 2
1 2 1 1 1
= X1 + X1 X2 + X22 + X12 − X1 X2 + X22
2 2 2 2
= X12 + X22 .
54 3. Estadı́sticas y distribuciones muestrales

Note que la función de densidad conjunta de Y1 , . . . , Yn puede reescribirse


como:
n−1 ( n
)

   
1 1 1 1 X
√ exp − 2 (y1 − nµ)2 √ exp − 2 y2 ,
2πσ 2σ 2πσ 2σ i=2 i

donde se observa que Y1 se distribuye como una N ( nµ, σ 2 ) y que Y1 , . . . , Yn
son variables aleatorias independientes con una distribución N (0, σ 2 ) para
Y2 , . . . , Yn . De la transformación definida, se puede escribir: X̄ = n−1/2 Y1 y
n
X n
X n
X n
X
(Xi − X̄)2 = Xi2 − nX̄ 2 = Yi2 − Y12 = Yi2 ,
i=1 i=1 i=1 i=2
Pn
concluyendo que X̄ es función de Y1 únicamente y que i=1 (Xi − X̄)2 depen-
de funcionalmentePnde Y2 , . . . , Yn . Pero Y1 y Y2 , . . . , Yn son independientes,
por lo que X̄ y i=1 (Xi − X̄)2 son independientes.

Como X̄ = n−1/2 Y1 donde Y1 ∼ N ( nµ, σ 2 ) entonces la distribución
2 2 Pn Y 2
de X̄ es N (µ, σn ). Ahora, i=1 (Xiσ−2X̄) = i=2 σi2 , que es una suma de
P n

(n − 1) variables Ji-cuadradas independientes, por lo tanto tiene distribución


χ2n−1 .


Ahora se presentarán dos distribuciones de probabilidad importantes en


la inferencia estadı́stica: la F de Fisher y la t de Student, ası́ como las
propiedades que serán de utilidad más adelante.

3.2.3. La distribución F de Fisher y el cociente de va-


rianzas muestrales
Distribución F de Fisher
Se dice que una variable aleatoria X tiene la distribución F de Fisher con
parámetros m y n (m y n grados de libertad), si su función de densidad está
dada por:
m−2
Γ( m+n
2 )
 m m/2 x 2
f (x; m, n) = x > 0, m, n ∈ N+ .
Γ( m
2 )Γ( n
2 ) n m
[1 + ( n )x]
m+n
2

Se denota como X ∼ F (m, n).


Teorema 3.3 Si U y V son variables aleatorias independientes tales que
U ∼ χ2(m) y V ∼ χ2(n) , entonces
U/m
∼ F (m, n).
V /n
3.2. Distribución de las estadı́sticas 55

Figura 3.2: Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesitan


sus héroes y Fisher fue sin duda el héroe de la estadı́stica del siglo XX. Sus
ideas transformaron nuestra disciplina de tal forma que hasta un César o
un Alejandro hubieran envidiado”: Efron (1998). “Lo que es y fue importan-
te para mı́, es cómo Fisher, en los 1920..., hizo que los estadı́sticos refle-
xionáramos acerca de las ideas fundamentales”: Egon Pearson (1974). Dos
citas que hacen alusión a la importancia de las contribuciones de Fisher en
la estadı́stica. La distribución que lleva su nombre fue producto del trabajo
que realizó con George Snedecor (1881-1974) de la Universidad de Iowa.
Imagen tomada de commons.wikipedia.org (public domain).

Demostración. Para probar este resultado se utilizará el teorema de cam-


bio de variable. Sean
U/m nU
X= = y Y = V.
V /n mV

La función de densidad conjunta de U y V está dada por


1 m/2 1 n/2
 
m 1 n 1
2 −1 − u 2 2 −1 e− 2 v
fU,V (u, v) = fU (u)fV (v) = u2 e 2 n v
Γ( m 2 ) Γ( 2 )
1 (m+n)/2

− 21 (u+v) m n
= 2
n e u 2 −1 v 2 −1 .
Γ( m2 )Γ( 2 )
56 3. Estadı́sticas y distribuciones muestrales

Como U = m n XY y además V = Y , entonces el Jacobiano de la trans-


formación está dado por
m
y mx m

J =
n n = y.
0 1 n

La función de densidad conjunta de (X, Y ) está determinada por


m+n
m (1) 2 − 12 ( m
 m  m2 −1 n
fX,Y (x, y) = y · 2m e n x+1)y xy y 2 −1
n Γ( 2 )Γ( n2 ) n
m+n
( 12 ) 2  m  m2 m+n m 1 m
= m n y 2 −1 x 2 −1 e− 2 ( n x+1)y .
Γ( 2 )Γ( 2 ) n

Y como la densidad marginal de X está dada por


Z ∞
fX (x) = fX,Y (x, y)dy,
−∞

se tiene que:
m+n
( 12 ) 2  m  m2 m Z ∞ m+n 1 m
fX (x) = x 2 −1 y 2 −1 e− 2 ( n x+1)y dy
Γ( m2 )Γ( n
2 ) n 0
1 m+n
(2) 2
 m
m 2 m −1
 Γ( m+n
2 )
= m n x2 m+n
Γ( 2 )Γ( 2 ) n 1 m
[ ( x + 1)] 2
2 n
m m−2
Γ( m+n
2 ) (mn) x
2 2
= · ,
Γ( m
2 )Γ( n
2)
m m+n
( n x + 1) 2

que corresponde a la función de densidad de una variable aleatoria con dis-


tribución F , es decir, X = U/m
V /n ∼ F (m, n). 

La distribución F en el marco del muestreo de la distribución nor-


mal
Sean X1 , X2 , . . . , Xm+1 una muestra aleatoria de la distribución N (µx , σx2 ) y
Y1 , Y2 , . . . , Yn+1 una muestra aleatoria de la distribución N (µy , σy2 ), de tal
manera que ambas muestras son independientes entre sı́.

1
Pm+1 1
Pn+1 1
Pm+1
En este caso X̄ = m+1 i=1 Xi , Ȳ = n+1 j=1 Yj , Sx2 = m i=1 (Xi −
1
Pn+1
X̄) y Sy = n j=1 (Yj − Ȳ )2 .
2 2
3.2. Distribución de las estadı́sticas 57

Entonces,
mSx2 2
nSy2
∼ χ (m) y ∼ χ2(n) .
σx2 σy2
Por el teorema anterior, se concluye que:

Sx2 /σx2
∼ F (m, n).
Sy2 /σy2

3.2.4. La distribución t de Student y algunas estadı́sti-


cas relacionadas
Distribución t de Student
Se dice que una variable aleatoria continua X tiene distribución t de Student
con k grados de libertad, si su función de densidad está dada por

Γ( k+1
2 ) 1 1
f (x; k) = √ , con k = 1, 2, . . .
Γ( k2 ) 2 k+1
kπ (1 + xk ) 2

Se denota como X ∼ t(k) .

Teorema 3.4 Si Z y U son variables aleatorias independientes tales que


Z ∼ N (0, 1) y U ∼ χ2(k) , entonces √Z ∼ t(k) .
U/k

Demostración. La prueba de este resultado es similar a la del teorema


3.3, definiendo las variables

Z
X=p y Y = U.
U/k

La distribución t a partir de una muestra con distribución normal



Si X1 , . . . , Xn es una muestra aleatoria de la distribución normal N µ, σ 2 ,
se sabe que
σ2
 
X ∼ N µ, ,
n
de donde:
X −µ
Z= √ ∼ N (0, 1) .
σ/ n
58 3. Estadı́sticas y distribuciones muestrales

Figura 3.3: William Sealy Gosset (1876-1937), quien usó el pseudónimo de


Student para publicar su trabajo, desarrolló la distribución t como respuesta
a problemas prácticos de variedades de cebada, trabajando en la cervecerı́a
Guiness. Imagen tomada de commons.wikimedia.org (public domain).

Por otra parte:


(n − 1) S 2
∼ χ2(n−1) .
σ2
Por el teorema 3.4,
X−µ

σ/ n X −µ
q = √ ∼ t(n−1) .
(n−1)S 2 S/ n
σ 2 (n−1)

Ahora considere a X1 , . . . , Xm una muestra aleatoria de la distribución


N µX , σ 2 y a Y1 , . . . , Yn una muestra aleatoria de la distribución N µY , σ 2 ,
tales que Xi es independiente de Yj , i {1, . . . , m} y j {1, . . . , n} . Por los
resultados vistos previamente, se puede concluir que

σ2 σ2
   
X ∼ N µX , y Y ∼ N µY , , (3.3)
m n
3.3. Estadı́sticas de orden 59

mientras que
2
(m − 1) SX (n − 1) SY2
∼ χ2(m−1) y ∼ χ2(n−1) (3.4)
σ2 σ2
De (3.3) se tiene que
σ2 σ2
 
X −Y ∼N µX − µY , + ,
m n
y por lo tanto,
X − Y − (µX − µY )
q ∼ N (0, 1) .
1
+ n1

σ2 m
De (3.4) y las propiedades de la distribución Ji-cuadrada se sabe que:
2
(m − 1) SX + (n − 1) SY2
∼ χ2(m+n−2) .
σ2
Ası́ que por el teorema 3.4 se concluye que
X−Y −(µX −µY )
q
σ2 ( m
1 1
+n ) X − Y − (µX − µY )
q 2 +(n−1)S 2
=q 2 +(n−1)S 2 ,
(m−1)SX (m−1)SX 1 1
σ 2 (m+n−2)
Y
(m+n−2)
Y
m + n

tiene distribución t de Student con m + n − 2 grados de libertad.

3.3. Estadı́sticas de orden


Sea X1 , . . . , Xn una muestra aleatoria de una población con función de den-
sidad f (x; θ). Considérese la muestra ordenada en forma ascendente X(1) ≤
X(2) ≤ . . . ≤ X(n) , sus elementos son llamados estadı́sticas de orden. Para
facilitar la notación, sea X(i) := Yi .
Las Yi0 s no son independientes, pues si Yj ≥ y entonces Yj+1 ≥ y, y
en general Yi no tiene por qué coincidir con Xi . Ası́, por ejemplo, Yn =
máx {X1 , . . . , Xn } puede ser cualquiera de las Xi0 s :


 X1 si X1 ≥ X2 , . . . , Xn .
 X2 si X2 ≥ X1 , X3 , . . . , Xn .

Yn = .. ..


 . .
Xn si Xn ≥ X1 , . . . , Xn−1 .

En los siguientes párrafos se deducirán las funciones de distribución y


densidad para las estadı́sticas de orden, únicamente para el caso continuo.
60 3. Estadı́sticas y distribuciones muestrales

3.3.1. r-ésima estadı́stica de orden (Yr )


Sea X1 , . . . , Xn una muestra aleatoria de una distribución continua con fun-
ción de densidad f (x; θ) y función de distribución F (x; θ).
Para obtener FYr (y) = P(Yr ≤ y), observe que el evento {Yr ≤ y} ocurre
si
Pn sólo si al menos r de las Xi ’s son menores o iguales a y, es decir si
y
i=1 Zi ≥ r, donde
(
1 si Xi ≤ y,
Zi =
0 si Xi > y.
Pn
Note que Zi ∼ Bernoulli[P(Xi ≤ y)], entonces i=1 Zi ∼ Bin(n, F (y)).
| {z }
F (y)
Por lo tanto,
n
! n  
X X n
FYr (y) = P(Yr ≤ y) = P Zi ≥ r = [F (y)]j [1 − F (y)]n−j .
i=1 j=r
j

n  
X n
∴ FYr (y) = [F (y)]j [1 − F (y)]n−j .
j=r
j

Usando este resultado se obtiene la distribución de Y1 , la mı́nima es-


tadı́stica de orden, de la siguiente manera:
n  
X n
FY1 (y) = [F (y)]j [1 − F (y)]n−j
j=1
j
=[F (y) + 1 − F (y)]n − [1 − F (y)]n
=1 − [1 − F (y)]n .

Y diferenciando se deduce la función de densidad correspondiente:

fY1 (y) = n[1 − F (y)]n−1 f (y).

De la misma forma, se obtiene la distribución de la máxima estadı́stica de


orden Yn :
FYn (y) = [F (y)]n . (3.5)

De donde:
fYn (y) = n[F (y)]n−1 f (y).
3.3. Estadı́sticas de orden 61

3.3.2. Distribución conjunta de las estadı́sticas de orden


mı́nima y máxima
En teorı́a de la probabilidad se estudia que una propiedad de la función de
distribución de dos variables FX,Y (x, y) es la siguiente:

P[a < X ≤ b, c < Y ≤ d] = FX,Y (a, c) + FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c).

Lo que, junto con las otras propiedades:

lı́m FX,Y (x, y) = lı́m FX,Y (x, y) = 0


x→−∞ y→−∞

y
lı́m FX,Y (x, y) = FX (x)
y→∞

conduce a:

P[y1 < Y1 , Yn ≤ yn ] = FYn (yn ) − FY1 ,Yn (y1 , yn ). (3.6)

Por otro lado, se tiene que, por ser Y1 y Yn la mı́nima y la máxima


estadı́sticas de orden, se satisface:
P(y1 < Y1 , Yn ≤ yn ) =P(y1 < X1 ≤ yn , y1 < X2 ≤ yn , . . . , y1 < Xn ≤ yn )
n
Y Yn
= P[y1 < Xi ≤ yn ] = (F (yn ) − F (y1 ))
i=1 i=1
n
=(F (yn ) − F (y1 )) .

Por lo tanto,

P(y1 < Y1 , Yn ≤ yn ) = (F (yn ) − F (y1 ))n . (3.7)

Igualando (3.6) y (3.7) se obtiene que:

FYn (yn ) − FY1 ,Yn (y1 , yn ) = (F (yn ) − F (y1 ))n .

De esta manera, FY1 ,Yn (y1 , yn ) = FYn (yn )−(F (yn )−F (y1 ))n . Y por (3.5)
se llega a que:

FY1 ,Yn (y1 , yn ) = [F (yn )]n − (F (yn ) − F (y1 ))n .

Para obtener fY1 ,Yn (y1 , yn ) se usará la propiedad que relaciona a las
funciones de densidad y de distribución para el caso de dos variables, a
saber,
∂2
FX,Y (x, y) = fX,Y (x, y) ,
∂y∂x
62 3. Estadı́sticas y distribuciones muestrales

ası́:

FY ,Y (y1 , yn ) = n(F (yn ) − F (y1 ))n−1 f (y1 ),
∂y1 1 n
y
∂2
FY ,Y (y1 , yn ) = nf (y1 )(n − 1)(F (yn ) − F (y1 ))n−2 f (yn ).
∂yn ∂y1 1 n
De esta forma se concluye que:

fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn ). (3.8)

Ejemplo 3.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución U (0, 1). Obtener: fY1 (y1 ), fYn (yn ) y fY1 ,Yn (y1 , yn ).
(x) Ry
En este caso, f (x) = I(0,1) y F (y) = 0 dx = y. Entonces
FY1 (y) = 1 − [1 − F (y)]n = 1 − [1 − y]n y por tanto fY1 (y) = n(1 − y)n−1 .
FYn (y) = y n y por tanto fYn (y) = ny n−1 .
(y1 ) (yn )
fY1 ,Yn (y1 , yn ) = n(n − 1)(yn − y1 )n−2 I(0,1) I(0,1) .

Algunas aplicaciones que tienen las expresiones obtenidas previamente


en esta sección, incluyen el cálculo de densidades correspondientes a funcio-
nes de las estadı́sticas de orden, por ejemplo, el rango R := Yn − Y1 y el
promedio T := Yn +Y 2
1
.
Para obtener fR,T (r, t) se utilizará la siguiente igualdad:

fR,T (r, t) = |J| fY1 Yn (y1−1 (r, t), yn−1 (r, t)).

Para encontrar la distribución conjunta del rango y el promedio, note lo


siguiente:
Yn = R + Y1 y sustituyendo en la expresión para T, se tiene que
T = Y1 +R+Y
2
1
= Y1 + R2 . Por lo tanto Y1 = T − R2 , entonces Yn =
R
R + Y1 = T + 2 .

(R, T ) 7→ (T − R2 , T + R2 ) = (Y1 , Yn ) es la transformación involucrada.



−1/2 1
J = = − 1 − 1 = −1.
1/2 1 2 2

Entonces al sustituir se obtiene

fR,T (r, t) =
h  r  r in−2  r  r
n(n − 1) F t + −F t− f t− f t+ . (3.9)
2 2 2 2
3.4. Estadı́sticas suficientes 63

Otra expresión relacionada con las estadı́sticas de orden que puede ser de
interés es la densidad conjunta de Y1 , . . . , Yn , suponiendo nuevamente que
estas variables corresponden a las estadı́sticas de orden de una muestra alea-
toria X1 , . . . , Xn . Ası́,
n
Y
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ) ,
i=1

en cualquier punto (x1 , . . . , xn ) de Rn . Pero la densidad de Y1 , . . . , Yn estarı́a


dada por
n
Y
fY1 ,...,Yn (y1 , . . . , yn ; θ) = n! f (yi ; θ) ,
i=1

debido a que, al ordenar la muestra, cada punto (y1 , . . . , yn ) acumula la


densidad
fX1 ,...,Xn (x1 , . . . , xn ; θ) (3.10)
de cada punto (x1 , . . . , xn ) obtenido al permutar de forma arbitraria las coor-
denadas de (y1 , . . . , yn ) . Lo anterior se hace porque fY1 ,...,Yn (y1 , . . . , yn ; θ),
a diferencia de (3.10), está concentrada en la región de Rn en donde y1 ≤
y2 ≤ · · · ≤ yn y vale cero fuera de esa región; es decir, (y1 , . . . , yn ) se obtiene
de permutar la muestra, ası́ que n! considera las posibles permutaciones.

3.4. Estadı́sticas suficientes


Una muestra aleatoria contiene información del parámetro desconocido θ en
f (x; θ) , por lo que para lograr el objetivo de disminuir el grado de desco-
nocimiento de dicho parámetro, se usará la muestra aleatoria. Como ya se
ha señalado, una estadı́stica es una función de la muestra aleatoria y, como
se verá utilizando métodos de estimación, las estadı́sticas resultan ser los
estimadores de los parámetros. Usualmente las estadı́sticas representan una
reducción de dimensión con respecto a la muestra original X1 , . . . , Xn ; el
caso más común es una función T que va de Rn a R. Una pregunta que pue-
de plantearse en este momento, es si estas estadı́sticas contienen la misma
información (con respecto a θ) que la muestra original o, si en el proceso
de transformación de la muestra aleatoria, se pierde información acerca del
parámetro desconocido. Es claro que no se desea perder la información ori-
ginal que contiene la muestra aleatoria, por lo que si se tuviera que elegir
entre una estadı́stica que contiene la misma información que la muestra con-
tra otra que no, la decisión serı́a quedarse con la primera. Este razonamiento
lleva a un concepto muy importante en estadı́stica, el de suficiencia.
64 3. Estadı́sticas y distribuciones muestrales

Se puede decir que una estadı́stica S (X1 , X2 , . . . , Xn ) es suficiente si


conserva toda la información que contiene la muestra aleatoria X1 , . . . , Xn
acerca de θ. En otras palabras, es suficiente conocer la estadı́stica

S (X1 , X2 , . . . , Xn )

para saber del parámetro lo mismo que con X1 , . . . , Xn ; de ahı́ el nombre de


estadı́stica suficiente. Una forma alternativa de parafrasearlo es la siguiente:
una estadı́stica suficiente para un parámetro θ es aquella que usa toda la
información contenida en la muestra con respecto a θ; no obstante, no es
claro cómo se podrı́a saber si una estadı́stica es suficiente o no utilizando
esta descripción del concepto, al menos de que se tratara de un caso en
donde sea posible “recuperar” los datos a través de la estadı́stica que se esté
analizando.
Como ilustración de estas ideas, suponga que se tiene el caso descrito
en el ejemplo 3.1, en donde se quiere estudiar la probabilidad θ de obte-
ner sol con una cierta moneda. En este ejemplo, se considera una muestra
aleatoria de tamaño 3: X1 , X2 , X3 , de una distribución Bernoulli(θ) y es un
ejercicio en donde se pueden escribir de manera sencilla los ocho posibles
valores de la muestra aleatoria. A continuación se reproduce parcialmente el
cuadro obtenido en el ejemplo 3.1, incluyendo los valores para la estadı́stica
S (X1 , X2 , X3 ) = X.

Resultados x1 , x2 , x3 Distribución x̄
s,s,s 1, 1, 1 θ3 1
2
s,s,a 1, 1, 0 θ (1 − θ) 2/3
s,a,s 1, 0, 1 θ2 (1 − θ) 2/3
a,s,s 0, 1, 1 θ2 (1 − θ) 2/3
a,a,s 0, 0, 1 θ(1 − θ)2 1/3
a,s,a 0, 1, 0 θ(1 − θ)2 1/3
s,a,a 1, 0, 0 θ(1 − θ)2 1/3
a,a,a 0, 0, 0 (1 − θ)3 0
Si se propone ahora otra estadı́stica definida como T (X1 , X2 , X3 ) =
X1 X2 + X3 , los posibles valores que puede tomar son (en el orden de la
tabla anterior): 2, 1, 0, 0, 1, 1, 1, 0.
Regresando a la discusión sobre la suficiencia, es claro que con

T (X1 , X2 , X3 ) = X1 X2 + X3

no se puede obtener o “recuperar” la información original, pues el primer


sumando siempre dará cero cuando al menos uno de X1 o X2 sean cero,
mientras que X sı́ permite reconstruir la información original en el sentido
3.4. Estadı́sticas suficientes 65

de que si se sabe que, por ejemplo, x = 31 , se puede concluir que se obtuvieron


dos águilas y un sol (o dos ceros y un uno). En otras palabras, S (X1 , X2 , X3 )
es suficiente y T (X1 , X2 , X3 ) no.
Observe también que una estadı́stica, en general, condensa la información
muestral en el sentido de que para cada valor t(x) de T (X) se obtiene un
subconjunto del conjunto de las posibles muestras. Sean {At } los elementos
de la partición generada por la estadı́stica T (asociada a T o inducida por
T ), definida como el conjunto de clases de equivalencia formadas por

At = {(x1 , x2 , . . . , xn ) ∈ X : T (x1 , x2 , . . . , xn ) = t} .

Ası́, la estadı́stica X = X1 +Xn2 +X3 genera la siguiente partición de las posi-


bles muestras, especificada por los valores que toma la estadı́stica:

A1 = {(1, 1, 1)} , A 13 = {(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} , (3.11)


A 23 = {(1, 1, 0) , (0, 1, 1) , (1, 0, 1)} y A0 = {(0, 0, 0)} ,

mientras que la estadı́stica T (X1 , X2 , X3 ) = X1 X2 + X3 genera la siguiente


partición:

A0 = {(0, 1, 0) , (1, 0, 0) , (0, 0, 0)} , (3.12)


A1 = {(0, 0, 1) , (1, 1, 0) , (0, 1, 1) , (1, 0, 1)} , y
A2 = {(1, 1, 1)} .

Puede decirse entonces que una estadı́stica suficiente condensa la infor-


mación muestral (en clases de equivalencia) sin perder información relevante.
Note que otras estadı́sticas que sean funciones uno a uno de estadı́sticas sufi-
cientes, también
P3 son suficientes. En este ejemplo puede verse fácilmente que
la estadı́stica i=1 Xi es suficiente y, de hecho, genera la misma partición del
conjunto de posibles muestras que generó S (X1 , X2 , X3 ) = X, sólo que en
este caso, los valores de X1 + X2 + X3 (en el orden de la tabla) son: 3, 1, 2, 0.
Ası́, lo que resulta de interés para hacer inferencia sobre el parámetro es
saber la clase de equivalencia en la que está x.
A continuación se da una definición formal de suficiencia.

3.4.1. El concepto de suficiencia


Definición 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con
función de densidad f (x; θ). La estadı́stica S(X) es suficiente si y sólo si la
función de densidad condicional de X1 , . . . , Xn dada S(X) = s no depende
de θ para cualquier valor s.
66 3. Estadı́sticas y distribuciones muestrales

Note que esta definición concuerda con la idea intuitiva discutida antes,
pues lo que dice es que, dado el conocimiento de S(X), la muestra aleatoria
no proporciona información adicional acerca de θ, es decir, toda la informa-
ción está contenida en S(X).
Usando la definición de estadı́stica suficiente, se analizará la suficiencia
de S(X) y T (X) del ejemplo descrito en los párrafos anteriores. Ası́,

P(X1 = 0, X2 = 0, X3 = 0, T = 0)
P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) =
P(T = 0)
(1 − θ)3
=
2θ(1 − θ)2 + (1 − θ)3
1−θ 1−θ
= = .
2θ + 1 − θ 1+θ
Es decir P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) depende de θ, por lo tanto,
la estadı́stica T no es suficiente. Esto puede verificarse para otros valores.
Por otro lado,

P(X1 = 0, X2 = 0, X3 = 0, S = 0)
P(X1 = 0, X2 = 0, X3 = 0|S(X) = 0) =
P(S = 0)
3
(1 − θ)
= = 1,
(1 − θ)3

que no depende de θ. En este último caso, debe verificarse para todos los
posibles valores y llegar a la conclusión de que esta probabilidad condicional
no depende de θ, para cualquier valor s (lo cual efectivamente ocurre).
El concepto de estadı́stica suficiente enfatiza el hecho de que cualquier
conocimiento adicional al valor de la estadı́stica, no da mayor información
acerca de θ. En el ejemplo, si S(X) = 23 , se puede decir que se obtuvieron
dos soles y un águila, pero no sólo eso: es posible concluir que cualquier
X = (X1 , . . . , Xn ) que satisfaga que S(X) = s, tiene la misma distribución
de probabilidad. Para verificarlo, suponga que sólo se tiene conocimiento
de que S(X) = s, pero no se conoce especı́ficamente el valor muestral que
generó este resultado (en el ejemplo hay tres posibles valores muestrales que
hacen que S(X) = 23 , a saber (0, 1, 1) , (1, 0, 1) y (1, 1, 0)). Conociendo la
densidad condicional P (X = x | S(X) = s) , donde

x ∈ As = {(x1 , x2 , . . . , xn ) ∈ X | S(x1 , x2 , . . . , xn ) = s} ,

se puede usar un proceso de simulación para generar un vector X 0 tal que

P X 0 = x | S(X) = s = P (X = x | S(X) = s) .

3.4. Estadı́sticas suficientes 67

Ası́

P (X = x) = P (X = x, S(X) = s)
= P (X = x | S(X) = s) P (S(X) = s)
P X 0 = x | S(X) = s P (S(X) = s)

=
P X 0 = x, S(X) = s

=
P X0 = x ,

=

de tal manera que X y X 0 tienen la misma distribución. En conclusión,


toda la información acerca de θ está contenida en el conocimiento de que
S(X) = s.
Los siguientes ejemplos ilustran la definición de suficiencia.

Ejemplo 3.3 Sea X1 , X2 , . . . , Xn una


Pn muestra aleatoria de una población
con distribución Bernoulli (θ). ¿Es i=1 Xi una estadı́stica suficiente?.
1−xi
En este caso, f (xi ; θ) = θxi (1 − θ) , por lo que, de acuerdo a la defi-
nición de suficiencia:
! Pn Pn
n Xi n− Xi
X θ i=1 (1 − θ) i=1
P X1 = x1 , . . . , Xn = xn | Xi = s =  
n s n−s
i=1 θ (1 − θ)
s
n−s
θs (1 − θ)
=  
n s n−s
θ (1 − θ)
s
1
= n ,

s

Pn
que no depende de θ, por lo que P i=1 Xi es una estadı́stica suficiente para
n
θ. Note que se usó el hechoPde que i=1 Xi tiene distribución Bin(n, θ), ası́
n
como la condición de que i=1 Xi = s.

Ejemplo 3.4 Sea X1 , X2 , . . . , XP


n una muestra aleatoria de una población
n
con distribución Poisson(θ). ¿Es i=1 Xi una estadı́stica suficiente?.
e−θ θ x
Recordando que si X ∼ P oisson(θ) entonces f (xi ; θ) = x! , se tiene
que:
68 3. Estadı́sticas y distribuciones muestrales

Pn
e−nθ
Qθ n
i=1 Xi
n
Pn xi ! X
P [X1 = x1 , . . . , Xn = xn | i=1 Xi = s] = i=1
s ;y Xi = s
e−nθ (nθ) i=1
s!
e−nθ
Q n
θs
i=1 i !
x
= −nθ s
e (nθ)
s!
s!
= n ,
Y
s
n xi !
i=1
Pn
que no depende de θ; por lo tanto, i=1PXi es una estadı́stica suficiente para
n
θ. En este caso se usó el hecho de que i=1 Xi ∼ P oisson (nθ) .

Observe que en los ejemplos anteriores, a no ser que la suma de los enteros
x1 , x2 , . . . , xn sea igual a s, la probabilidad condicional es igual a cero.

Observación 3.3 En general, sea k (s; θ) la función de densidad de la es-


tadı́stica
S (X1 , X2 , . . . , Xn ) := S (X) ,
donde X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función
de densidad f (x; θ), θ ∈ Θ. La probabilidad condicional de X1 = x1 , X2 =
x2 , . . . , Xn = xn , dado que S (X) = s, es igual a

f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)


P [X1 = x1 , . . . , Xn = xn | S (X) = s] = ,
k (s; θ)

siempre que x1 , . . . , xn , sean tales que S (x1 , x2 , . . . , xn ) = s, y esta proba-


bilidad condicional vale cero en otro caso. Se dice que S (X1 , X2 , . . . , Xn ) es
una estadı́stica suficiente para θ si y sólo si esta razón no depende de θ.
Con las distribuciones del tipo continuo, no se puede hablar de la proba-
bilidad de que X1 = x1 , X2 = x2 , . . . , Xn = xn . En este caso, se establece
que si la razón
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ) f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
= ,
k (s; θ) k (s; θ)
no depende de θ, entonces la distribución condicional de X1 , X2 , . . . , Xn dado
S (X) = s, no depende de θ. En general, las matemáticas para probar que
una estadı́stica es suficiente en una distribución continua, pueden representar
una dificultad mayor que para el caso discreto.
3.4. Estadı́sticas suficientes 69

Ejemplo 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución normal N (µ, σ 2 ), donde σ 2 es conocida. La media muestral,
S(X) = X̄ = (X1 + · · · + Xn )/n, es una estadı́stica suficiente para µ. Para
comprobarlo, se verificará que el cociente

fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2
(3.13)
k (s; µ, σ 2 )

no depende de µ (σ 2 es conocida), donde k s; µ, σ 2 es la función de densidad
de X̄. La función de densidad conjunta de la muestra es

n
−(xi − µ)2
 
 Y
fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 = (2πσ 2 )−1/2 exp
i=1
2σ 2
 Pn
− i=1 (xi − µ)2

= (2πσ 2 )−n/2 exp
2σ 2
 Pn
− i=1 (xi − x̄ + x̄ − µ)2

= (2πσ 2 )−n/2 exp ,
2σ 2
al desarrollar el cuadrado en el exponente, esta expresión es equivalente a
" Pn Pn #
2 2
2 −n/2 − i=1 (xi − x̄) + 2(x̄ − µ) i=1 (xi − x̄) + n(x̄ − µ)
(2πσ ) exp ,
2σ 2
Pn
y como i=1 (xi − x̄) = 0, se tiene que

fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 =

" Pn #
2 2
2 −n/2 − i=1 (xi − x̄) + n(x̄ − µ)
(2πσ ) exp .
2σ 2

Recordando que la media muestral X̄ tiene distribución N (µ, σ 2 /n), entonces


el cociente (3.13) está dado por

fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2
k (s; µ, σ 2 )
 Pn 
2 −n/2 −( i=1 (xi −x̄)2 +n(x̄−µ)2 )
(2πσ ) exp 2σ 2
= h 2
i
(2πσ 2 /n)−1/2 exp −n(x̄−µ)
2σ 2
 Pn
− i=1 (xi − x̄)2

(n−1)
= n−1/2 (2πσ 2 )− 2 exp ,
2σ 2
que no depende de µ. Por lo tanto, la media muestral es una estadı́stica
suficiente para µ.
70 3. Estadı́sticas y distribuciones muestrales

3.4.2. El teorema de factorización


El siguiente resultado conocido como el teorema de factorización de Neyman
o simplemente teorema de factorización, permite encontrar una estadı́stica
suficiente sin hallar la función de densidad de la estadı́stica de interés y, más
aún, sin tener que proponer dicha estadı́stica.

Teorema 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con


función de densidad f (x; θ); S(X) es suficiente si y sólo si, la función de
densidad conjunta de X1 , . . . , Xn puede factorizarse como:

fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn ) ,

donde g y h son funciones no negativas tales que g (S(x); θ) depende de la


muestra sólo a través de S(x) y también depende de θ; y h (x1 , . . . , xn ) no
depende de θ.

Es decir, el teorema de factorización establece que

fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn )


| {z } | {z }
depende de θ y de la depende sólo de la muestra
muestra sólo a través de S

Demostración. (Caso discreto):


⇒ S(X) es suficiente.
Si x1 , x2 , . . . , xn , son tales que S (x1 , x2 , . . . , xn ) = s, la densidad con-
junta de X1 , . . . , Xn puede escribirse como

P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ; S(X) = s) .

Usando la definición de probabilidad condicional, la expresión anterior es


equivalente a

P (X1 = x1 , . . . , Xn = xn )
= P ( X1 = x1 , . . . , Xn = xn | S(X) = s) · P [S(X) = s] . (3.14)

Por la suficiencia de S(X), la probabilidad condicional en (3.14) no depende


de θ, por lo que la densidad conjunta de X1 , . . . , Xn se puede expresar como:

P (X1 = x1 , . . . , Xn = xn ) = h(x1 , . . . , xn ) · g(S(x); θ),

donde
h(x1 , . . . , xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s)
3.4. Estadı́sticas suficientes 71

y
g(S(x); θ) = P [S(X) = s] .
⇐ Por demostrar que S(X) es suficiente, es decir, se debe probar que

P [ X1 = x1 , . . . , Xn = xn | S(X)]

no depende de θ, bajo el supuesto de que la factorización es válida.


Se tiene que
P [X1 = x1 , . . . , Xn = xn , S(X) = s]
P [ X1 = x1 , . . . , Xn = xn | S(X) = s] =
P[S(X) = s]
pero X
P[S(X) = s] = P[X1 = x1 , . . . , Xn = xn ], (3.15)
As

donde:
As = {(x1 , x2 , . . . , xn ) ∈ X : S(x1 , x2 , . . . , xn ) = s}
y X representa el conjunto de todos los posibles valores de (X1 , . . . , Xn ) . Es
decir, As consta de todos aquellos (x1 , x2 , . . . , xn ) tales que S(x) = s (ver,
por ejemplo, (3.11) y (3.12)).
Por la hipótesis, P[X1 = x1 , . . . , Xn = xn ] se puede factorizar como el
producto g(S(x); θ)h(x), de tal manera que (3.15) se puede escribir como:
X X
P[S(X) = s] = g(S(x); θ)h(x) = g(s; θ) h(x)
As As

y
g(S(x); θ)h(x)
P [ X1 = x1 , . . . , Xn = xn | S(X) = s] = P
g(s; θ) As h(x)
g(s; θ)h(x)
= P
g(s; θ) As h(x)
h(x)
= P ,
As h(x)

si (x1 , x2 , . . . , xn ) es tal que S(x) = s y vale cero en otro caso. Es decir,

P [ X1 = x1 , . . . , Xn = xn | S(X) = s]

no depende de θ, por lo que S(X) es una estadı́stica suficiente. 

Demostración. (Caso continuo):


72 3. Estadı́sticas y distribuciones muestrales

Se supone primero la factorización, es decir,

fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) = Πni=1 f (xi , θ)


= g (S (x) ; θ) h (x1 , x2 , . . . , xn ) .

Sea V1 = S (X1 , . . . , Xn ) y considere la transformación uno a uno definida


de la siguiente manera

v1 = S (x1 , x2 , . . . , xn ) ,

vi = ui (x1 , x2 , . . . , xn ) , para i = 2, . . . , n;
con funciones inversas

xi = wi (v1 , v2 , . . . , vn ) para i = 1, 2, . . . , n

y Jacobiano J = [∂wi /∂vj ], que denota la entrada (i, j) de la matriz.


Entonces la densidad conjunta de las variables V1 , V2 , . . . , Vn está dada
por:

kV1 ,...,Vn (v1 , . . . , vn ; θ)


= |J| g (v1 ; θ) h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) .

Ası́, la densidad de V1 puede obtenerse como

kV1 (v1 ; θ)
Z ∞ Z ∞
= ··· kV1 ,...,Vn (v1 , . . . , vn ; θ) dv2 · · · dvn
−∞ −∞
Z ∞ Z ∞
= g (v1 ; θ) ··· |J| h (w1 (v1 , . . . , vn ) , . . . , wn (v1 , . . . , vn )) dv2 · · · dvn .
−∞ −∞

Observe que θ no está involucrada ni en el Jacobiano, ni en los lı́mites de


integración, además de que la función h no depende de θ. Por lo tanto, la
integral múltiple es una función exclusivamente de v1 . Sea

m (v1 )
Z ∞ Z ∞
= ··· |J| h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) dv2 · · · dvn ,
−∞ −∞

con lo que
kV1 (v1 ; θ) = g (v1 ; θ) m (v1 ) .
3.4. Estadı́sticas suficientes 73

Note que si m (v1 ) > 0, es posible escribir:

kV1 (v1 ; θ)
g (v1 ; θ) = ,
m (v1 )
o
kV1 (S (x) ; θ)
g (S (x) ; θ) = ,
m [S (x)]
con lo que la factorización que se ha supuesto como hipótesis, se puede
reescribir como:

fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) = g (S (x) ; θ) h (x1 , x2 , . . . , xn )


kV1 (S (x) ; θ)
= h (x1 , x2 , . . . , xn )
m [S (x)]
h (x1 , x2 , . . . , xn )
= kV1 (S (x) ; θ) ,
m [S (x)]

de donde:

fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) h (x1 , x2 , . . . , xn )


=
kV1 (S (x) ; θ) m [S (x)]

no depende de θ, lo cual implica que V1 = S (X) es una estadı́stica suficiente


(ver observación 3.3).
Inversamente, si V1 = S (X) es suficiente, la factorización se puede hacer
tomando la función g como la densidad de S (X) , es decir, como kV1 (S (x) ; θ) .


Ejemplo 3.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución Poisson(θ). Hallar una estadı́stica suficiente para θ.
Usando el teorema de factorización:
Pn
e−nθ i=1 Xi (xi )
Qn
fX1 ,...,Xn (x1 , . . . , xn ; θ) = Qθ n
i=1 xi !
i=1 I{0,1,... }

n
Pn 1 Y (xi )
= e|−nθ θ{z i=1 X}i Qn I{0,1,... }
i=1 x i ! i=1
g(S(x);θ) | {z }
h(x1 ,...,xn )

Pn
∴ S(X) = i=1 Xi es una estadı́stica suficiente para θ.
74 3. Estadı́sticas y distribuciones muestrales

Ejemplo 3.7 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución Uniforme (0, θ). Para encontrar una estadı́stica suficiente para
θ, se tiene que:
n n
Y 1 Y (xi )
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ) = I .
i=1
θn i=1 (0,θ)

Como todas las observaciones son positivas, es decir xi > 0, para i =


1, 2, . . . , n, se tiene que
n
(x )
Y
i
I(0,θ) =1
i=1

siempre y cuando yn = máx {x1 , . . . , xn } < θ. Por lo tanto, la densidad


conjunta puede escribirse como
1 (yn )
fX1 ,...,Xn (x1 , . . . , xn ; θ) = I ,
θn (0,θ)
concluyendo que, por el teorema de factorización, Yn = máx {X1 , . . . , Xn }
(yn )
es suficiente, con g (s (x1 , x2 , . . . , xn ) ; θ) = θ1n I(0,θ) y h (x1 , x2 , . . . , xn ) = 1.
Observe que esta factorización no es única, pueden proponerse otras; pero
Yn será la estadı́stica suficiente.

Ejemplo 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad:
θxθ−1 , 0 < x < 1, 0 < θ

f (x; θ) =
0, en otro caso.
Se usará el teorema de factorización para probar que el producto

S (X1 , X2 , . . . , Xn ) = X1 X2 · · · Xn

es una estadı́stica suficiente para θ. La función de densidad conjunta de


X1 , X2 , . . . , Xn es:

fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = Πni=1 θxθ−1


i
= θn Πni=1 xθ−1
i
  
n n θ 1
= θ (Πi=1 xi )
Πni=1 xi
donde 0 < xi < 1, i = 1, 2, . . . , n. En el teorema de factorización, sean:
θ
g (s (x1 , x2 , . . . , xn ) ; θ) = θn (Πni=1 xi )
3.4. Estadı́sticas suficientes 75

y
1
h (x1 , x2 , . . . , xn ) = .
Πni=1 xi
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, el producto X1 X2 · · · Xn = Πni=1 Xi
es una estadı́stica suficiente para θ. Observe que si se hubiera querido usar
la definición para este ejercicio, era necesario obtener la densidad de la es-
tadı́stica dada por el producto S(X) = X1 X2 · · · Xn = Πni=1 Xi ; de ahı́ lo
valioso del teorema de factorización.
Observación 3.4 La muestra ordenada (Y1 , . . . , Yn ) siempre es una estadı́sti-
ca suficiente, pues en el esquema de muestreo aleatorio que se está conside-
rando, la función de densidad conjunta no depende del orden de las variables.
A pesar de que la muestra ordenada tiene la misma dimensión que la mues-
tra original, al ordenar se elimina la información irrelevante con relación a la
posición con la que se produce cada observación. Una forma de comprobarlo
es usando el teorema de factorización. La función de densidad conjunta de
X1 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
= n!f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) .
En el teorema de factorización, sean:
g (s (x1 , x2 , . . . , xn ) ; θ) = f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ)
y
h (x1 , x2 , . . . , xn ) = n!.
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, la muestra ordenada (Y1 , . . . , Yn )
es una estadı́stica suficiente.
Ejemplo 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Logı́stica(µ,σ):
e−(x−µ)/σ
f (x; µ, σ) = , − ∞ < x < ∞, −∞ < µ < ∞, σ > 0.
σ[1 + e−(x−µ)/σ ]2
La función de densidad conjunta de X1 , X2 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
n
Y e−(xi −µ)/σ
=
i=1
σ[1 + e−(xi −µ)/σ ]2
n
Y e−(yi −µ)/σ
= n! ,
i=1
σ[1 + e−(yi −µ)/σ ]2
76 3. Estadı́sticas y distribuciones muestrales

donde y1 , . . . , yn es la muestra ordenada. Debido a que no es posible factori-


zar la función de densidad conjunta de otra manera tal que se pueda aplicar
el teorema de factorización, entonces la muestra ordenada (Y1 , . . . , Yn ) es
una estadı́stica suficiente.

Cabe aclarar que la muestra ordenada se usará como la estadı́stica sufi-


ciente sólo cuando no sea posible obtener otra estadı́stica suficiente.

3.4.3. La familia exponencial


Hay un conjunto de familias paramétricas de distribuciones que, por sus
propiedades, tiene gran relevancia dentro de la inferencia estadı́stica. Este
conjunto se conoce como la clase exponencial o la familia exponencial y su
importancia en este momento es que las densidades de esta clase tienen una
relación con el concepto de suficiencia, en el sentido de que si se sabe que
una densidad pertenece a la familia exponencial, es posible encontrar una
estadı́stica suficiente de una forma sencilla. En esta parte se revisará el caso
de densidades con un sólo parámetro, mientras que en la sección 3.6 se verá el
caso de dos o más parámetros. Algunas de las distribuciones más conocidas
como la Binomial, la Geométrica, la Binomial negativa, la Poisson, la Gama,
la Normal y la Beta, pertenecen a la familia exponencial.

Definición 3.4 Se dice que f (x; θ) pertenece a la familia exponencial (o


clase exponencial) si puede factorizarse como:

f (x; θ) = a(θ)b(x)ec(θ)d(x) , θ ∈ Θ, − ∞ < x < ∞,

donde a(θ) y c(θ) son funciones de θ, y b(x) y d(x) son funciones de x.

Ejemplo 3.10 Las siguientes distribuciones pertenecen a la familia expo-


nencial:

1. Si X tiene distribución Exponencial con parámetro θ, es decir,

X ∼ exp (θ),

su función de densidad está dada por


(x)
f (x; θ) = θ · e−θ·x · I(0,∞) .

(x)
En este caso, a(θ) = θ, b(x) = I(0,∞) , c(θ) = −θ y d(x) = x.
3.4. Estadı́sticas suficientes 77

2. Si X tiene distribución Poisson con parámetro θ, es decir

X ∼ Poisson (θ),

su función de densidad es

e−θ θx (x) 1 (x)


f (x; θ) = I{0,1,...} = e−θ · I{0,1,...} · ex·ln(θ) ,
x! x!
de donde puede verse que pertenece a la familia exponencial.

3. Si X tiene distribución Bernoulli con parámetro θ, es decir

X ∼ Bernoulli (θ),

con
= (1 − θ) · I{0,1} · ex·ln( 1−θ ) ,
1−x (x) θ
f (x; θ) = θx (1 − θ)

se tiene que pertenece a la familia exponencial.

4. Si X tiene distribución Geométrica con parámetro θ, es decir

X ∼ Geométrica(θ),

su función de densidad se puede escribir como


x (x) (x)
f (x; θ) = θ (1 − θ) I{0,1,...} = θ · I{0,1,...} ex·ln(1−θ) ,

con lo que se concluye que la distribución Geométrica pertenece a la


familia exponencial.

Note que la distribución Uniforme en el intervalo (0, θ) no pertenece a la


familia exponencial.
El resultado que se enuncia a continuación proporciona la relación entre
los miembros de la familia exponencial y la suficiencia.

Proposición 3.4 Sea X1 , . . . , Xn una muestra aleatoria de una población


con función de densidad de la forma

f (x; θ) = a(θ)b(x)ec(θ)d(x) ,
Pn
es decir, f (x; θ) pertenece a la familia exponencial. Entonces i=1 d(xi ) es
una estadı́stica suficiente.
78 3. Estadı́sticas y distribuciones muestrales

Demostración. Usando el teorema de factorización, se tiene que:


Qn
fX1 ,...,Xn (x1 , . . . , xn ; θ) = i=1 a(θ)b(xi )ec(θ)d(xi )

h Pn i n
Y
n
= a (θ) ec(θ) i=1 d(xi )
· b(xi )
| {z } i=1
g(S(X);θ)
| {z }
h(X1 ,...,Xn )

n
P
∴ S(X) = d(Xi ) es una estadı́stica suficiente para θ. 
i=1

En la siguiente tabla se muestran algunas de las distribuciones más co-


nocidas que pertenecen a la familia o clase exponencial, aunque en la sección
3.6 se ampliará esta lista.

Algunos miembros de la familia exponencial


f (x; θ) = a (θ) b (x) exp [c (θ) d (x)]
Distribución f (x; θ) a (θ) b (x) c(θ)  d (x)
x 1−x θ
Bernoulli (θ) θ (1 − θ) 1−θ 1 ln 1−θ x
 
n x
 n−x n n
 θ
Binomial (n, θ) x θ (1 − θ) (1 − θ) x ln 1−θ x
x
Geométrica (θ) θ (1 − θ) θ 1 ln (1 − θ) x
−θ x
e θ −θ 1
Poisson (θ) x! e x! ln θ x
Exponencial (θ) θe−θx θ 1 −θ x
x 2
x − 2θ 1
Rayleigh (θ) θ2 e
2
θ2 x − 2θ12 x2

3.4.4. Suficiencia minimal

La idea de la suficiencia es no perder información relevante del parámetro


(contenida en la muestra) al usar una estadı́stica. Pero puede haber diferentes
estadı́sticas que satisfagan esa condición y lo ideal serı́a encontrar la que
condense más la información. A tales estadı́sticas se les llama suficientes
minimales.
Intuitivamente, una estadı́stica es suficiente minimal si cualquier reduc-
ción de la misma da lugar a estadı́sticas que ya no son suficientes; es decir,
ya no se puede “resumir” más la estadı́stica, puesto que se perderı́a infor-
mación contenida en la muestra acerca del parámetro. Lo anterior también
está asociado con la noción de clases de equivalencia o partición del espacio
3.4. Estadı́sticas suficientes 79

muestral inducida por cada estadı́stica. Ambos enfoques se analizan en los


siguientes párrafos.
Para ilustrar la idea de suficiencia minimal, considere una muestra alea-
toria X1 , X2 , . . . , Xn de la distribución Bernoulli con parámetro θ, ası́ como
las siguientes estadı́sticas

S1 (X) = (X(1) , . . . , X(n) ) = (Y1 , ..., Yn ) ,


 
X[ n2 ] X n
S2 (X) =  Xi , Xi  ,
 
i=1 i=[ n
2 +1]

donde [v] indica la parte entera de v, y


n
X
S3 (X) = Xi .
i=1

Considerando que
Pn Pn n
Y
xi n− xi
fX1 ,...,Xn (x1 , . . . , xn ; θ) = θ i=1 (1 − θ) i=1
I{0,1} (xi )
i=1
 Pni=1 xi Yn
n θ
= (1 − θ) I{0,1} (xi ) ,
1−θ i=1

por el teorema de factorización, las tres estadı́sticas son suficientes en la


distribución Bernoulli, pues la densidad conjunta también puede escribirse
como
 x(1)  x(2)  x(n) Yn
n θ θ θ
(1 − θ) ··· I{0,1} (xi )
1−θ 1−θ 1−θ i=1

P[i=1
2]
n
 xi  Pn n
xi Y
n θ θ [
i= n +1
2 ]
= (1 − θ) I{0,1} (xi ) .
1−θ 1−θ i=1

La diferencia entre las tres estadı́sticas radica en el distinto grado de sim-


plificación obtenido por eliminación de información que es irrelevante para
el conocimiento de θ. S1 (X) tiene dimensión n, S2 (X) tienen dimensión 2 y
S3 (X) tiene dimensión 1. S3 es más resumida que S1 y S2 , mientras que S2
es más resumida que S1 . Observe entonces que conociendo S1 o S2 se puede
conocer S3 , pero no al revés, y conociendo S1 se puede conocer S2 , pero no
al revés. Si una estadı́stica suficiente es más resumida que cualquier otra, se
80 3. Estadı́sticas y distribuciones muestrales

le llama suficiente minimal. En el ejemplo, note que S3 puede escribirse


como función de S1 o de S2 , y el hecho de que S3 sea más resumida que
S1 significa que existe una función (medible) ϕ tal que S3 puede escribirse
como S3 = ϕ (S1 ) . Lo anterior se formaliza en la definición 3.5.
Siguiendo la idea del párrafo anterior, suponga que S 0 (X) es más resu-
mida que S (X) . En términos de la partición inducida por una estadı́stica,
si {As0 } son los elementos de la partición asociados con S 0 (X) y {As } son
los elementos de la partición asociados con S(X), se tendrı́a que cada As es
un subconjunto de algún As0 . Si en el ejemplo (de la distribución Bernoulli),
se toma n = 3, se tienen los siguientes valores de S1 , S2 y S3 , de donde se
pueden revisar las particiones asociadas:

(X1 , X2 , X3 ) S1 (X) S2 (X) S3 (X)


(0, 0, 0) (0, 0, 0) (0, 0) 0
(0, 0, 1) (0, 0, 1) (0, 1) 1
(0, 1, 0) (0, 0, 1) (0, 1) 1
(1, 0, 0) (0, 0, 1) (1, 0) 1
(1, 1, 0) (0, 1, 1) (1, 1) 2
(1, 0, 1) (0, 1, 1) (1, 1) 2
(0, 1, 1) (0, 1, 1) (0, 2) 2
(1, 1, 1) (1, 1, 1) (1, 2) 3

Note que S1 y S3 inducen la misma partición (de 4 elementos), aún cuando en


S3 hay una reducción en la dimensión; mientras que S2 induce una partición
de 6 elementos, a saber:

A1 = {(0, 0, 0)} ,
A2 = {(0, 0, 1) , (0, 1, 0)} ,
A3 = {(1, 0, 0)} ,
A4 = {(1, 1, 0) , (1, 0, 1)} ,
A5 = {(0, 1, 1)} y
A6 = {(1, 1, 1)} ,

siendo cada uno de éstos un subconjunto de alguno de los elementos de la


partición inducida por S3 . Por ejemplo, A2 es un subconjunto de

{(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} ,

que corresponde al subconjunto del espacio muestral tal que S3 = 1.


Una forma de referirse a una partición inducida por S(X), tal que As ⊆
As0 para alguna estadı́stica S 0 (X), es como una partición más fina (es
3.4. Estadı́sticas suficientes 81

decir, S(X) induce una partición más fina que S 0 (X) o S 0 (X) induce una
partición menos fina que S(X)). En estos términos, si S 0 (X) es más resumida
que S(X), entonces S(X) genera una partición más fina que S 0 (X). En el
ejemplo, S2 (X) induce una partición más fina que S3 (X) .
En este contexto, la suficiencia minimal está asociada con la partición
menos fina que conserva la suficiencia.

Definición 3.5 Se dice que una estadı́stica es suficiente minimal si y sólo


si (i) es suficiente y (ii) es función de cualquier otra estadı́stica suficiente;
es decir, S 0 (X) es suficiente minimal si y sólo si existe ϕ tal que S 0 (X) =
ϕ [S(X)] , donde S(X) es cualquier otra estadı́stica suficiente.

Observación 3.5 Note que por la discusión previa, la definición 3.5 se pue-
de reescribir de una forma alternativa. Sean {As0 } los elementos de la parti-
ción asociados con S 0 (X) y {As } los elementos de la partición asociados con
S(X), se tiene que:

1. S 0 (X) es suficiente minimal si cada As es un subconjunto de algún As0 ,


donde S (X) es suficiente, o

2. S 0 (X) es suficiente minimal si cualquier otra estadı́stica suficiente S (X)


induce una partición más fina que S 0 (X). También se puede decir que
S 0 (X) induce una partición menos fina –o más gruesa– que S (X).

En términos de las clases de equivalencia, cualquier estadı́stica con una


partición más fina que la minimal, será suficiente.

Observación 3.6 Las estadı́sticas suficientes minimales no son únicas, pues


al igual que las estadı́sticas suficientes, cualquier función biyectiva resulta ser
también una estadı́stica suficiente minimal.

Se proporcionará un método para encontrar estadı́sticas suficientes mi-


nimales. Para ello, será necesario introducir algunos conceptos.
Note que el que S 0 (X) sea función de S(X) (en la definición 3.5) significa
que si S (x) = S (x0 ) , entonces S 0 (x) = S 0 (x0 ) . Lo anterior puede verificarse
de la siguiente manera: si

x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )

y se cumple que S (x) = S (x0 ) , se tiene que x y x0 ∈ As y como As ⊆ As0


(por ser S 0 (X) minimal) entonces x y x0 ∈ As0 , lo cual implica que S 0 (x) =
S 0 (x0 ) .
Se tiene entonces la siguiente definición.
82 3. Estadı́sticas y distribuciones muestrales

Definición 3.6 Sean S (X) y S 0 (X) dos estadı́sticas. Se dice que S 0 (X) es
función de S(X) si para cualesquiera x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en el espacio muestral X, que satisfacen que S (x) = S (x0 ) , se cumple que
S 0 (x) = S 0 (x0 ).

Para lo que sigue, también es necesario recordar que el soporte de una


función de densidad f (x; θ) , θ ∈ Θ, es el conjunto

Sopf = {x : f (x; θ) > 0 para alguna θ ∈ Θ} .

A continuación se define una relación de equivalencia en Sopf , relación que


será de utilidad para caracterizar a la suficiencia minimal.

Definición 3.7 Para dos valores x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en Sopf , se dice que x y x0 son equivalentes en verosimilitud si existe
H (x, x0 ) > 0, tal que para todo θ ∈ Θ,

fX1 ,...,Xn (x; θ) = H (x, x0 ) fX1 ,...,Xn (x0 ; θ),

es decir,
L(θ | x) = H (x, x0 ) L(θ | x0 ).
Esta relación se denota como
v
x ∼ x0 .

El siguiente resultado relaciona la equivalencia en verosimilitud con la


suficiencia.

Lema 3.1 Sea S (X) una estadı́stica suficiente y sean x y x0 dos valores en
v
Sopf . Si S (x) = S (x0 ) = s, entonces x ∼ x0 .

Demostración. Si x, x0 ∈ Sopf , existe θ para el cual fX1 ,...,Xn (x0 ; θ) > 0 y


como S (X) es una estadı́stica suficiente, el teorema de factorización implica
que
fX1 ,...,Xn (x; θ) g (s; θ) h (x) h (x)
= = = H (x, x0 ) ,
fX1 ,...,Xn (x0 ; θ) g (s; θ) h (x0 ) h (x0 )
por lo que fX1 ,...,Xn (x; θ) se puede escribir como H (x, x0 ) fX1 ,...,Xn (x0 ; θ).


En el lema anterior, el hecho de que S (x) = S (x0 ) = s, implica que el


cociente
fX1 ,...,Xn (x; θ)
fX1 ,...,Xn (x0 ; θ)
no depende de θ.
3.4. Estadı́sticas suficientes 83

Teorema 3.6 Sea X1 , ..., Xn una muestra aleatoria de una población con
función de densidad f (x; θ) y sea S 0 (X) una estadı́stica suficiente para θ.
Suponga que para dos valores muestrales x = (x1 , ..., xn ) y x0 = (x01 , ..., x0n )
v
en Sopf que son equivalentes en verosimilitud, es decir x ∼ x0 , se tiene que
0 0 0 0
S (x) = S (x ) . Entonces S (X) es suficiente minimal.

Demostración. Sea S (x) cualquier estadı́stica que sea suficiente para θ y


v
x, x0 ∈ Sopf , tal que S (x) = S (x0 ) = s, entonces por el lema 3.1, x ∼ x0 , lo
0 0 0
cual a su vez implica (por la hipótesis) que S (x) = S (x ) . Por la definición
3.6 S 0 (X) es función de S (X), lo cual, junto con el hecho de que S 0 (X) es
suficiente, lleva a la conclusión de que S 0 (X) es suficiente minimal. 

Este resultado es muy importante debido a que proporciona un método


sistemático para encontrar una estadı́stica suficiente minimal. En resumen, lo
que debe hacerse es lo siguiente: para dos valores muestrales x = (x1 , ..., xn ) y
x0 = (x01 , ..., x0n ) en Sopf , verificar la implicación que tiene la equivalencia en
verosimilitud sobre la o las estadı́sticas implicadas en la función de densidad
conjunta. Lo anterior equivale a calcular el cociente

fX1 ,...,Xn (x; θ)


fX1 ,...,Xn (x0 ; θ)

y ver bajo qué condición (sobre las estadı́sticas involucradas) este cociente
no depende de θ. Si se cumple la hipótesis del teorema 3.6, es decir,

fX1 ,...,Xn (x; θ)


“ no depende de θ ⇒ S 0 (x) = S 0 (x0 ) ”,
fX1 ,...,Xn (x0 ; θ)

entonces S 0 es suficiente minimal.

Ejemplo 3.11 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución Bernoulli(θ), entonces:

n− n
Qn Pn P
xi 1−xi i=1 xi
fX1 ,...,Xn (x; θ) i=1 θ (1 − θ) θ i=1 xi (1 − θ)
= 1−x0i
= n− n
P 0
fX1 ,...,Xn (x0 ; θ)
Qn x0i
Pn 0
i=1 xi
i=1 θ (1 − θ) θ i=1 xi (1 − θ)

 Pni=1 xi −Pni=1 x0i


θ
= ,
1−θ
Pn Pn Pn
el cual no depende de θ si y sólo si i=1 xi = i=1 x0i . Ası́, i=1 Xi es una
estadı́stica suficiente minimal.
84 3. Estadı́sticas y distribuciones muestrales

Ejemplo 3.12 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución Uniforme en el intervalo (0, θ) . En este caso,

1
Qn (xi )
fX1 ,...,Xn (x; θ) θn i=1 I(0,θ)
= Qn (x0i )
fX1 ,...,Xn (x0 ; θ) 1
θn i=1 I(0,θ)
n(y ) (θ)
I(0,θ) I(yn ,∞)
= (y 0 )
= (θ)
,
I(0,θ)
n
I(y0 ,∞)
n

cociente que no depende de θ si y sólo si yn = yn0 , concluyendo que Yn es


una estadı́stica suficiente minimal.

Suficiencia minimal y la familia exponencial


Se sabe que f (x; θ) pertenece a la familia exponencial si se cumple que:

f (x; θ) = a(θ)b(x)ec(θ)d(x)

Tomando X = (X1 , . . . , Xn ) y X 0 = (X10 , . . . , Xn0 ) y usando el teorema 3.6,


se tiene que:
Qn
f (x;θ) i=1 a(θ)b(xi ) exp{c(θ)d(xi )}
f (x0 ;θ) =
i=1 a(θ)b(xi ) exp{c(θ)d(xi )}
Qn 0 0

(a(θ))n i=1 b(xi ) exp{c(θ) i=1 d(xi )}


Qn Pn
=
i=1 b(xi ) exp{c(θ)
(a(θ))n n i=1 d(xi )}
Q 0
Pn 0

Qn
b(xi ) Pn Pn
= Qi=1
n 0 exp {c(θ) [ i=1 d(xi ) − i=1 d(x0i )]} .
i=1 b(xi )

Pn Pn
Este cociente no depende de θ si sólo si i=1 d(xi ) = i=1 d(x0i ).
Pn
∴ i=1 d(Xi ) es suficiente minimal.
Pn
Es decir, si f (x; θ) pertenece a la familia exponencial, i=1 d(Xi ) es una
estadı́stica suficiente minimal.

3.5. Completez
El concepto de estadı́stica completa se utilizará en uno de los resultados más
importantes que servirán para encontrar estimadores insesgados de varianza
mı́nima.
3.5. Completez 85

Definición 3.8 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) , θ ∈ Θ. Se


dice que la estadı́stica T (X) es completa si y sólo si, para cualquier función
g de T, se tiene que si E(g(T )) = 0 ∀θ ∈ Θ, entonces

P(g(T ) = 0) = 1, ∀θ ∈ Θ.

También se dice que la familia de densidades de T es completa.

Se puede pensar entonces que T es completa si una estadı́stica, función


de T, cuya esperanza es 0, vale 0 con probabilidad 1.

Ejemplo 3.13 Sea X1 , X2 , . . . , Xn una muestra aleatoria


Pn de una población
con distribución Bernoulli (θ) , 0 < θ < 1, y T (X) = i=1 Xi . Para ver si
T es completa, se considera E(g(T )) = 0, que es equivalente a:
n  
X n t n−t
E(g(T )) = g(t) θ (1 − θ) = 0,
t=0
t

de donde
n   t
n
X n θ
(1 − θ) g(t) = 0,
t=0
t 1−θ

n   t
X n θ
g(t) = 0,
t=0
t 1−θ
 
θ
el cual es un polinomio en 1−θ , que vale cero si cada uno de los coeficientes
 t
θ
de 1−θ vale cero, es decir, si
 
n
g(t) = 0, para toda t = 0, 1, 2, . . . , n,
t

pero nt 6= 0, ası́ queP



g(t) = 0, ∀t ∈ {0, 1, 2, . . . , n}, lo que lleva a la conclu-
n
sión de que T (X) = t=1 Xi es una estadı́stica completa.
Observe que si en esta distribución se toma T (X) = X1 −X2 y g (T ) = T,
se tiene que E(X1 − X2 ) = E (X1 ) − E (X2 ) = 0, pero X1 − X2 no vale cero
con probabilidad 1, ası́ que X1 − X2 no es completa.

Ejemplo 3.14 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución Uniforme continua en el intervalo (0, θ) . Para ver si

T (X) = Yn = máx {X1 , . . . , Xn }


86 3. Estadı́sticas y distribuciones muestrales

es completa, se hace
Z
E(g(T )) = g(t)fT (t)dt = 0.

En el caso de la máxima estadı́stica de orden,

tn−1 (t)
fT (t) = n I , t = yn .
θn (0,θ)
Ası́
Z θ
n n−1
E(g(T )) = g(t) t dt
0 θn
Z θ
n
= g(t)tn−1 dt = 0, ∀θ > 0,
θn 0

entonces Z θ
g(t)tn−1 dt = 0, ∀θ > 0.
0
Lo cual implica que
g(θ)θn−1 = 0 ∀θ > 0,
y por lo tanto, g(θ) = 0, ∀θ > 0, lo que lleva a concluir que la máxima
estadı́stica de orden es una estadı́stica completa.

Observación 3.7 En general, puede decirse que una familia paramétrica de


distribuciones f (x; θ) es completa si E [g (X)] = 0 implica que g (x) = 0 casi
seguramente (c.s.). En este contexto, si f (x; θ) pertenece a la familia expo-
nencial, entonces f (x; θ) es completa. Para verificarlo, se considerará el caso
particular en el que c (θ) = θ y d (x) = x, es decir: f (x; θ) = a (θ) b (x) eθx .
Ahora, si para toda θ, se cumple que:
Z ∞
g (x) f (x; θ) dx = 0,
−∞

se tiene que Z ∞
g (x) a (θ) b (x) eθx dx = 0,
−∞
o Z ∞
[g (x) b (x)] eθx dx = 0,
−∞

la cual corresponde a la transformada de Laplace de la función g (x) b (x) .


Por la propiedad de unicidad de la transformada, la única función que tiene
3.5. Completez 87

una transformada igual a cero es la función que vale cero c.s., es decir,
g (x) b (x) = 0 c.s., de donde se obtiene que g (x) = 0 c.s., considerando
b (x) 6= 0. Ası́ que f (x; θ) es completa.

Observación 3.8 Si f (x; θ) pertenece a la familia exponencial, entonces


n
P
d (Xi ) es completa.
i=1

En sı́ntesis, una de las ventajas que se tiene al identificar a un miembro


de la familia exponencial está explicada en el siguiente resultado.

Teorema 3.7 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad f (x; θ) con θ ∈ Θ ⊆ R, donde f (x; θ) pertenece a
la familia exponencial, es decir, f (x; θ) = a(θ)b(x) exp{c(θ)d(x)}. Entonces,
n
P
la estadı́stica d(Xi ) es suficiente minimal y completa.
i=1

Aunque este resultado es un resumen de lo que ya se justificó en la sección


3.4.4 (suficiencia minimal y la familia exponencial) y de las observaciones
anteriores, la parte correspondiente a la completez puede consultarse con
mayor detalle en Zacks (1971), página 69, o Schervish (1995), páginas 108-
110.
De esta manera, es posible encontrar estadı́sticas suficientes y completas
fácilmente cuando la muestra proviene de un miembro de la familia expo-
nencial. Por ejemplo, sea X1 , X2 , . . . , Xn una muestra aleatoria de una po-
blación con distribución Geométrica (θ), con θ ∈ [0, 1]; para encontrar una
estadı́stica suficiente y completa, observe que f (x; θ) pertenece a la familia
exponencial, ya que como se vio antes,

f (x; θ) = θ(1 − θ)x I{0,1,...} (x)


= θ exp{x ln(1 − θ)}I{0,1,...} (x),

con

a(θ) = θ,
b(x) = I{0,1,...} (x),
c(θ) = ln(1 − θ),
d(x) = x.
n
P
De donde, puede concluirse que S (X) = Xi es una estadı́stica suficiente
i=1i
(minimal) y completa.
88 3. Estadı́sticas y distribuciones muestrales

3.6. Algunas generalizaciones


La primera generalización de los resultados vistos previamente se refiere al
teorema de factorización para un conjunto de estadı́sticas suficientes.

Teorema 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad f (x; θ) , donde θ es un vector de parámetros. Las es-
tadı́sticas S1 (X) , S2 (X) , . . . , Sr (X) , r ≥ k, son conjuntamente suficientes
si y sólo si existen dos funciones: g(S1 , . . . , Sr ; θ) que depende de
X1 , X2 , . . . , Xn sólo a través de S1 , . . . , Sr y de θ; y h(X) cualquier fun-
ción no negativa que sólo depende de la muestra, para las cuales la densidad
conjunta
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ1 , θ2 , . . . , θk )
puede factorizarse como:

fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,θ) = g(S1 , . . . , Sr ; θ) h(x).

Ejemplo 3.15 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución N (µ, σ 2 ). Encontrar estadı́sticas suficientes para θ =(µ, σ 2 ).
La densidad conjunta de X1 , X2 , . . . , Xn puede escribirse como
n
Y 1 1 2
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,µ, σ 2 ) = √ e− 2σ2 (xi −µ)
i=1 2πσ 2
 n/2
1 1
Pn 2
= e− 2σ2 i=1 (xi −µ)
2πσ 2
  n2
1 Pn
x2i −2µ
Pn
xi +nµ2 )
e− 2σ2 (
1
= i=1 i=1 ,
2πσ 2
n n
x2i y
P P
la densidad conjunta depende de x1 , x2 , . . . , xn sólo a través de xi ,
 n  i=1 i=1
n
Xi2 son conjuntamente suficientes.
P P
por lo que las estadı́sticas Xi ,
i=1 i=1  n 
n
2 2
P P
Note que (X, S ) es una función uno a uno de Xi , Xi , por lo que
i=1 i=1
también son suficientes para la distribución Normal.

Familias exponenciales k-paramétricas


Cuando la familia paramétrica tiene más de un parámetro, es decir, su fun-
ción de densidad es de la forma f (x; θ) con θ∈ Θ ⊆ Rk , se dice que pertenece
3.6. Algunas generalizaciones 89

a la familia exponencial k-paramétrica si y sólo si puede expresarse de la


forma  
Xk 
f (x; θ) = a(θ)b(x) exp cj (θ)dj (x)
 
j=1

Ejemplo 3.16 Sea X ∼ Gama(r, λ), ¿pertenece a la familia exponencial


k-paramétrica?.
En este caso,
λr r−1 −λx
f (x; r, λ) = x e I(0,∞) (x)
Γ(r)
λr −λx+(r−1) ln(x)
= e I(0,∞) (x),
Γ(r)
por lo que:
r
λ
a(θ) = Γ(r) , b(x) = I(0,∞) (x),
c1 (θ) = −λ, d1 (x) = x,
c2 (θ) = r − 1, d2 (x) = ln x,
por lo tanto, se concluye que la densidad Gama pertenece a la familia expo-
nencial.

Ejemplo 3.17 La distribución Normal µ, σ 2 pertenece a la familia expo-
nencial.
Para comprobarlo, la densidad puede escribirse como:
1 1 2
f x; µ, σ 2 e− 2σ2 (x−µ)

= √
2πσ 2
1 2
−2xµ+µ2 )
e− 2σ2 (x
1
= √
2πσ 2
1 µ2 1 2
+ σµ2 x
= √ e− 2σ2 e− 2σ2 x ,
2πσ 2
µ2
√ 1 e− 2σ2 , b (x) = 1, c1 = − 2σ1 2 , d1 = x2 , c2 = µ

de donde: a µ, σ 2 = 2πσ 2 σ2 y
d2 = x.

Ejemplo 3.18 La distribución Beta (θ1 , θ2 ) pertenece a la familia exponen-


cial, pues la densidad se puede escribir como:
1 θ −1
f (x; θ1 , θ2 ) = xθ1 −1 (1 − x) 2 I(0,1) (x)
B (θ1 , θ2 )
1
= I(0,1) (x) e(θ1 −1) ln x+(θ2 −1) ln(1−x) .
B (θ1 , θ2 )
90 3. Estadı́sticas y distribuciones muestrales

Por último, se enuncia una extensión del resultado que relaciona a la


familia exponencial con la suficiencia.

Teorema 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad f (x; θ) , con θ ∈ Θ ⊆ Rk , que pertenece a la familia
exponencial k-paramétrica, es decir:
 
X k 
f (x; θ) = a(θ)b(x) exp cj (θ)dj (x) .
 
j=1

Entonces, el conjunto de estadı́sticas


n n n
!
X X X
d1 (Xi ), d2 (Xi ), . . . , dk (Xi )
i=1 i=1 i=1

son suficientes y completas.

Con este resultado y considerando


 n el ejemplo 3.16,
 se puede afirmar que
P Pn
si X ∼ Gama(r, λ), entonces Xi , ln(Xi ) son suficientes y com-
i=1 i=1 Pn Pn 
2
pletas. También puede concluirse
Pn lo mismo Pn para i=1 Xi , i=1 Xi en la
distribución Normal y para ( i=1 ln Xi , i=1 ln (1 − Xi )) en la distribución
Beta.

3.7. Estadı́sticas auxiliares


En esta sección se estudiará un tipo especial de estadı́sticas llamadas auxilia-
res. Como se verá, una estadı́stica auxiliar no contiene información acerca de
θ, es una variable aleatoria cuya distribución es fija y conocida, sin relación
con θ. Sin embargo, cuando se usa en conjunto con otras estadı́sticas, puede
contener información valiosa para hacer inferencias acerca del parámetro.

Definición 3.9 A una estadı́stica T (X) cuya distribución no depende del


parámetro θ, se le llama estadı́stica auxiliar.

Ejemplo 3.19 Sea X1 , . . . , Xn una muestra aleatoria de la población con


distribución Uniforme continua sobre el intervalo (θ, θ + 1), −∞ < θ < ∞.
Sean Y1 = X(1) , . . . , Yn = X(n) las estadı́sticas de orden de la muestra. La
estadı́stica Rango R = Yn − Y1 , es una estadı́stica auxiliar. Para verificarlo,
se mostrará que la densidad de R no depende de θ.
3.7. Estadı́sticas auxiliares 91

La función de distribución de cada Xi es



0,
 si x ≤ θ,
F (x; θ) = x − θ, si θ < x < θ + 1,

1, si x ≥ θ + 1,

mientras que la función de densidad está dada por


(x)
f (x; θ) = I(θ,θ+1) .

Por lo tanto, usando la expresión (3.8) deducida en la sección 3.3.2 la función


de densidad conjunta de Y1 y Yn es

fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn )
(
n(n − 1)(yn − y1 )n−2 si θ < y1 < yn < θ + 1,
=
0 en otro caso.

Haciendo la transformación R = Yn − Y1 y T = (Y1 + Yn ) /2, la cual tiene la


transformación inversa Y1 = (2T − R)/2 y Yn = (2T + R)/2 con Jacobiano
igual a −1 (ver sección 3.3.2), y usando la expresión (3.9), la función de
densidad conjunta de R y T está dada por
(
n(n − 1)rn−2 si 0 < r < 1; θ + (r/2) < t < θ + 1 − (r/2),
fR,T (r, t) =
0 en otro caso.

Por lo tanto, la función de densidad de probabilidad para R es


Z θ+1−(r/2)
fR (r) = n(n − 1)rn−2 dt
θ+(r/2)

= n(n − 1)rn−2 (1 − r), 0 < r < 1.

Esta es la función de densidad de una variable aleatoria con distribución


Beta con α = n − 1 y β = 2. Y ası́, la función de densidad es la misma para
toda θ; por lo tanto, la distribución de R no depende de θ, concluyéndose
que R = Yn − Y1 es una estadı́stica auxiliar.

El siguiente resultado, conocido como el teorema de Basu, permite ve-


rificar la independencia de dos estadı́sticas sin necesidad de encontrar su
distribución conjunta.

Teorema 3.10 (teorema de Basu). Si S(X) es una estadı́stica suficiente


y completa y T (X) es una estadı́stica auxiliar, entonces S(X) y T (X) son
independientes.
92 3. Estadı́sticas y distribuciones muestrales

Demostración. Se hará para el caso discreto. Como T (X) es una estadı́sti-


ca auxiliar, entonces P(T (X) = t) no depende de θ. También la probabilidad
condicional
P(T (X) = t|S(X) = s) = P(X ∈ {x : T (x) = t}|S(X) = s),
no depende de θ porque S(X) es una estadı́stica suficiente.
Por lo tanto, para demostrar que S(X) y T (X) son independientes, basta
comprobar que
P(T (X) = t|S(X) = s) = P(T (X) = t),
para todos los posibles valores de s ∈ S. Observe que
X
P(T (X) = t) = P(T (X) = t|S(X) = s)P(S(X) = s). (3.16)
s∈S
X
Por otro lado, dado que P(S(X) = s) = 1, se puede escribir
s∈S
X
P(T (X) = t) = P(T (X) = t) P(S(X) = s)
s∈S
X
= P(T (X) = t)P(S(X) = s). (3.17)
s∈S

Sea g (S) definida como


g(s) = P(T (X) = t|S(X) = s) − P(T (X) = t),
la cual no depende de θ, pues como se habı́a señalado, ni P(T (X) = t|S(X) =
s) (por la suficiencia de S), ni P(T (X) = t) (por ser T una estadı́stica
auxiliar) dependen de θ; ası́ que g (S) es una estadı́stica.
Por (3.16) y (3.17), se deduce que
X
E [g(S)] = g(s)P(S(X) = s)
s∈S
X
= [P(T (X) = t|S(X) = s) − P(T (X) = t)] P(S(X) = s)
s∈S
X
= P(T (X) = t|S(X) = s)P(S(X) = s)
s∈S
X
− P(T (X) = t)P(S(X) = s)
s∈S
= P(T (X) = t) − P(T (X) = t)
= 0, para toda θ,
3.8. Ejercicios 93

y como S(X) es una estadı́stica completa, se tiene que g(s) = 0, para s ∈ S;


por lo que
P(T (X) = t|S(X) = s) = P(T (X) = t),
concluyéndose que S(X) y T (X) son independientes. 

En el teorema de Basu se hace el supuesto de que S (X) es suficiente y


completa, esto implica que S (X) también es suficiente minimal (ver Scher-
vish (1995),
sección 2.1).

Ejemplo 3.20 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución Uniforme en el intervalo (0, θ) y sean Y1 y Yn las estadı́sticas de
orden mı́nima y máxima, respectivamente. Entonces las estadı́sticas T (X) =
Y1
Yn y S (X) = Yn , son variables aleatorias independientes. Para verificarlo,
recuerde que Yn es una estadı́stica suficiente y completa para θ (ver ejemplos
3.7 y 3.14). De acuerdo con el teorema de Basu basta mostrar que T (X) es
una estadı́stica auxiliar, por lo que se calculará la función de distribución de
T (X) usando la expresión general para la función de densidad conjunta de
Y1 y Yn dada por (3.8) e integrando sobre la región adecuada:
 
Y1
FT (t) = P ≤t , 0<t<1
Yn
= P [Y1 ≤ tYn ]
Z θ Z tyn
n(n − 1)  yn y1 n−2
= 2
− dy1 dyn
0 0 θ θ θ
= 1 − (1 − t)n−1 I(0,1) (t) + I[1,∞) (t).
 

Por lo tanto, la función de densidad de T (X) no depende de θ. Ası́, T (X)


y S (X) son estadı́sticas (variables aleatorias) independientes.

3.8. Ejercicios

1. Suponga que X es una variable aleatoria discreta con función de den-


sidad dada por 
 0.2 si x = 0,
fX (x) = 0.3 si x = 3,
0.5 si x = 12.

Sea X1 , X2 y X3 una muestra aleatoria de esta distribución. Obtenga:


94 3. Estadı́sticas y distribuciones muestrales

(a) La distribución de la muestra (es decir, haga la lista de todos los


posibles valores de la muestra aleatoria y sus respectivas proba-
bilidades).
(b) La distribución muestral de la media muestral X.
(c) La distribución muestral de la mediana muestral.
2. Sea X una variable aleatoria discreta que toma los valores 1, 2 y 3
con probabilidades 16 , 21 y 13 , respectivamente. Considere las posibles
muestras aleatorias simples de tamaño dos.
(a) Determine la distribución de la media muestral (es decir, fX̄ (·)).
(b) Compruebe que la esperanza de la media muestral es igual a la
media poblacional.
(c) Compruebe que la varianza de la media muestral es igual a la
varianza poblacional dividida entre el tamaño de muestra.
3. En un dado están marcados los resultados 1, 2 y X. Para hacer infe-
rencias acerca de las probabilidades p1 , p2 y pX de cada resultado, se
lanza tres veces el dado.
(a) Construya el espacio muestral y la distribución de la muestra (de
tamaño 3).
(b) Obtenga la distribución de T1 , T2 y TX , siendo Ti la frecuencia
de resultados iguales a i.
(c) Determine la distribución de TX , su media y su varianza.
(d) Calcule la covarianza entre T1 y T2 .
4. De una población con distribución Poisson(θ), se obtiene una muestra
aleatoria de tamaño n. Determine la distribución de la media muestral.
5. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad n o
f (x; θ) = e−(x−θ) exp −e−(x−θ) ,
donde θ es un número real.
Pn
(a) Obtenga la distribución de T = i=1 e−Xi .
(b) Calcule E[ln(T )] y Var[ln(T )].
6. Sea X1 , . . . , Xn una muestra aleatoria de una población cuya función
de densidad es
θ
f (x; θ) = 1+θ
, x > 0,
(1 + x)
3.8. Ejercicios 95

siendo θ un parámetro
Pn mayor que cero. Determine la distribución de
la estadı́stica T = i=1 ln (1 + Xi ).

7. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribu-


ción Rayleigh, cuya función de densidad es

2 −x2 /θ
f (x; θ) = xe , I(0,∞) (x),
θ
con θ > 0.
Pn
(a) Obtenga la distribución de T = i=1 Xi2 .
(b) Obtenga E(T ) y Var(T ).
(c) Demuestre que T es una estadı́stica suficiente para θ.

8. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


N (µ, σ 2 ). Encuentre la media y la varianza de
sP
n
− X̄)2
i=1 (Xi
S= .
n−1


9. Sea X una variable aleatoria con distribución χ2(1) . Defina Z1 = +
X

y Z2 = − X. Obtenga las distribuciones de Z1 y Z2 .

10. Sea X una variable aleatoria con distibución F (m, n). Demuestre que
1
(a) Z = X ∼ F (n, m).
mX/n
(b) Z = 1+mX/n ∼ Beta(m/2, n/2).

11. Sea X una variable aleatoria con distibución t(k) . Demuestre que

(a) La distribución de X se aproxima a una distribución N (0, 1) cuan-


do k crece.
(b) Y = X 2 ∼ F (1, k).

12. Demuestre el teorema 3.4. Es decir, si Z y U son variables aleato-


rias independientes con distribución N (0, 1) y χ2(k) , respectivamente,
demuestre que
Z
p ∼ t(k) .
U/k
96 3. Estadı́sticas y distribuciones muestrales

13. Sea Xi , i = 1, 2, 3, una muestra aleatoria de la población con distribu-


ción N (i, i2 ), respectivamente. En cada una de las siguientes situacio-
nes utilice las Xi ’s para construir una estadı́stica con la distribución
indicada.

(a) χ2 con 3 grados de libertad.


(b) t de Student con 2 grados de libertad.
(c) F con 1 y 2 grados de libertad.

14. Sea X1 , X2 una muestra aleatoria de la población con distribución


N (0, 1). Para cada uno de los siguientes incisos obtenga las distribu-
ciones de las estadı́sticas T (X).

(a) T (X) = (X2 − X1 )/ 2.
(b) T (X) = (X1 + X2 )2 /(X2 − X1 )2 .
(c) T (X) = X12 /X22 .
p
(d) T (X) = (X2 + X1 )/ (X1 − X2 )2 .

15. Sea Z1 , Z2 una muestra aleatoria de la población con distribución


N (0, 1), y sea X1 , X2 una muestra aleatoria de la población con dis-
tribución N (1, 1). Suponga que las Z’s son independientes de las X’s.
Para cada uno de los siguientes incisos obtenga las distribuciones de
las estadı́sticas T = T (X, Z).

(a) T = X̄ + Z̄.
p
(b) T = (Z1 + Z2 )/ [(X2 − X1 )2 + (Z2 − Z1 )2 ]/2.
 
(c) T = (X1 − X2 )2 + (Z1 − Z2 )2 + (Z1 + Z2 )2 /2.
(d) T = (X2 + X1 − 2)2 /(X2 − X1 )2 .

16. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


N (0, 1). Sean
k n
1X 1 X
Xk = Xi , X n−k = Xi .
k i=1 n−k
i=k+1

Para cada uno de los siguientes incisos obtenga las distribuciones de


las estadı́sticas T (X).

(a) T (X) = 21 (X k + X n−k ).


2 2
(b) T (X) = kX k + (n − k)X n−k .
3.8. Ejercicios 97

(d) T (X) = X1 /Xn .

17. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


N (µ, σ 2 ). Sean
k k
1X 1 X
Xk = Xi , Sk2 = (Xi − X k )2 ,
k i=1 k − 1 i=1
n n
1 X
2 1 X
X n−k = Xi , Sn−k = (Xi − X n−k )2 ,
n−k n−k−1
i=k+1 i=k+1
n n
1 X 1 X
X= Xi , S2 = (Xi − X)2 .
n i=1
n−1 i=1

Para cada uno de los siguientes incisos obtenga las distribuciones de


las estadı́sticas T (X).
  2
(a) T (X) = (k − 1)Sk2 + (n − k − 1)Sn−k
2
/σ .
(b) T (X) = 21 (X k + X n−k ).

(c) T (X) = (X̄ − µ)/(S/ n).
(d) T (X) = Sk2 /Sn−k
2
.

18. Sean X1 , . . . , Xn y Z1 , . . . , Zn muestras aleatorias independientes entre


sı́ de la distribución Normal tales que E(Xi ) = E(Zi ) = µ, Var(Xi ) =
σ 2 y Var(Zi ) = 2σ 2 para cualquier i ∈ {1, 2, . . . , n}. Defina
n
X n
X
U= (Xi − X̄)2 , V = (Zi − Z̄)2 .
i=1 i=1

2U +V
Determine la distribución de 2σ 2 .

19. Un inversionista bursátil compra o vende acciones de CEMEX, S. A.


mediante el siguiente procedimiento: selecciona al azar una muestra de
dı́as para los que determina el ı́ndice medio, X de la empresa Edifica-
ciones, S. A.; selecciona también al azar otra muestra de dı́as, para los
que determina el ı́ndice medio, Z, de CEMEX, S. A. Compra acciones
de CEMEX, S. A. cuando Z ≤ X, vendiendo en caso contrario.
El inversionista supone que ambos ı́ndices bursátiles se distribuyen
normal e independientemente con una diferencia de medias de 1.432
unidades en favor de la primera y que los ı́ndices bursátiles de ambas
empresas se comportan de forma independiente todos los dı́as.
98 3. Estadı́sticas y distribuciones muestrales

Calcular la probabilidad de que el inversionista compre bajo el supuesto


de que seleccionó 60 dı́as para calcular el primer ı́ndice y obtuvo una
varianza muestral de 23 y 50 dı́as para el segundo con una varianza de
7.
20. Sea X1 , X2 una muestra aleatoria de la población con distribución
N (0, 1). Defina Y = mı́n(X1 , X2 ). Demuestre que Y 2 ∼ χ2(1) .
21. Sea X1 , X2 una muestra aleatoria de la población con distribución
Pareto, cuya función de densidad es
α
f (x; α) = I[1,∞] (x), α > 0.
xα+1
Sean Y1 y Y2 las correspondiente estadı́sticas de orden. ¿Qué puede
decir de la distribución de las variables aleatorias presentadas en los
siguientes incisos?
(a) Y2 .
(b) Y2 − Y1 .
(c) Y2 /Y1 .
22. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución
U (0, 1).
(a) Obtenga la distribución conjunta de Y1 , Y2 , Y3 (las correspondien-
tes estadı́sticas de orden).
(b) Obtenga la función de densidad de la mediana, es decir, de Y2 .
(c) Obtenga la función de densidad del rango R = Y3 − Y1 .
23. Sean Y1 , Y2 , Y3 , Y4 las estadı́sticas de orden de una muestra aleatoria
de tamaño 4 de la población con función de densidad

fX (x) = exp (−x) I(0,∞) (x) .

Obtenga lo siguiente:
(a) P (3 ≤ Y4 ).
(b) E (Y1 ).
(c) La función de densidad conjunta de Y1 y Y4 .
24. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribu-
ción Exponencial de parámetro θ = 1, es decir Xi ∼ exp(1). Y sean
Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre que
nYn y n(Y2 − Y1 ) son independientes.
3.8. Ejercicios 99

25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Uniforme U (θ − 1/2, θ + 1/2).

(a) Obtenga la distribución de la mı́nima estadı́stica de orden Y1 , ası́


como de la máxima Yn .
(b) Obtenga las esperanzas de Y1 y Yn .

26. Sea X1 , X2 , . . . , Xn una muestra aleatoria de la población con distri-


bución Uniforme U (0, θ). Demuestre que Y1 /Yn y Yn son variables
aleatorias independientes, donde Y1 y Yn son las estadı́sticas de orden
mı́nima y máxima respectivamente.

27. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad
a
fX (x; a, θ) = a xa−1 , si 0 < x < θ.
θ
Sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre
que Y1 /Y2 , Y2 /Y3 , . . . , Yn−1 /Yn son variables aleatorias mutuamente
independientes y obtenga la distribución de cada una de ellas.

28. Sea Ui , i = 1, 2, . . . , una muestra aleatoria de la población con distri-


bución U (0, 1), y sea X una variable aleatoria con función de densidad
c
P(X = x) = , x = 1, 2, 3, . . . ,
x!
donde c = 1/(e − 1). Obtenga la distribución de Y = mı́n(U1 , . . . , UX ).
[Nota: La distribución condicional de Y dada X = x, Y |X = x, es
la distribución de la mı́nima estadı́stica de orden de una muestra de
tamaño x].

29. Sea X1 , X2 una muestra aleatoria de la población con distribución


N (0, 1). Obtenga la distribución del rango, R = Y2 − Y1 .

30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


U (0, 1). Sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden.

(a) Obtenga la media y varianza de Yn − Y1 .


(b) Obtenga la media y varianza de (Y1 + Yn )/2.
(c) Obtenga la media y varianza de Yk+1 (mediana) considerando que
n = 2k + 1, con k = 0, 1, . . . .
(d) Compare las medias y las varianzas de X, Yk+1 , (Y1 + Yn )/2.
100 3. Estadı́sticas y distribuciones muestrales

31. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


N (µ, σ 2 ). Demuestre que:
Pn 2 2
(a) S(X) = i=1 Xi es una estadı́stica suficiente para σ cuando
µ = 0.
2
(b) S(X) = i=1 (xi −µ)
Pn
n es una estadı́stica suficiente para σ 2 cuando
µ es conocida.
Pn (xi −x̄)2
(c) S(X) = i=1 n no es una estadı́stica suficiente para σ 2
cuando µ es desconocida.
32. Sea X una variable aleatoria con distribución N (0, θ) .
(a) ¿Es S(X) = X una estadı́stica suficiente para θ?.
(b) ¿Es S(X) =| X | una estadı́stica suficiente para θ?.
33. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Gama(α, β) cuya función de densidad es
1
f (x; α, θ) = xα−1 e−x/β ,
Γ(α)β α
con α > 0, β > 0 y 0 < x < ∞.
Pn
(a) Demuestre que si α = 1, S(X) = i=1 Xi es una estadı́stica
suficiente para β.
Qn
(b) Demuestre que si β es conocido, S(X) = i=1 Xi es una estadı́sti-
ca suficiente para α.
(c) Si α y β son desconocidos, obtenga una estadı́stica suficiente (bi-
dimensional) para los parámetros (α, β).
34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Beta (α, 2) , α > 0, β = 2, cuya función de densidad es
Γ (α + 2) α−1 1
f (x; α) = x (1 − x) , 0 < x < ∞,
Γ (α) Γ (2)
cero en cualquier otro caso. Demuestre que S(X) = X1 X2 · · · Xn =
Πni=1 Xi (el producto) es una estadı́stica suficiente para α.
35. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
W eibull(α, β), cuya función de densidad es
 β
1 β−1 x
fX (x; α) = βx exp − I(0,∞) (x),
α α
3.8. Ejercicios 101

donde α > 0 es un parámetro desconocido, pero β > 0 es un parámetro


conocido. Encuentre una estadı́stica suficiente para θ.

36. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Cauchy(θ) cuya función de densidad es

1
f (x; θ) =   , -∞ < x < ∞, − ∞ < θ < ∞.
2
π 1 + (x − θ)

(a) ¿Puede escribirse la función de densidad conjunta de X1 , X2 , . . . ,


Xn como en el teorema de factorización?
(b) ¿Existe una estadı́stica suficiente para el parámetro θ?

Sugerencia: al hacer la integral (para calcular la esperanza) considere


el cambio de variable x − θ = tan η.

37. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribu-


ción W eibull(α, β), donde α > 0 es desconocida, pero β > 0 se supone
conocido, con función de densidad
 β
1 β−1 x
f (x; α) = βx exp − I(0,∞) (x).
α α

Esta función de densidad se usa frecuentemente como un modelo pa-


ra las longitudes de vida de sistemas fı́sicos. Demuestra que S(X) =
Pn β
i=1 Xi es una estadı́stica suficiente para α.

38. *Sea X1 , . . . , Xn una muestra aleatoria de una población cuya función


de densidad es
 
1 (x − µ)
fX (x; µ, σ) = exp − I(µ,∞) (x),
σ σ

con µ ∈ R y σ ∈ R+ .
Pn
(a) Demuestre que S(X) = Y1 , n1 i=1 (Xi − Y1 ) es una estadı́stica


suficiente para (µ, σ) si ambos parámetros son desconocidos.


Pn
(b) Demuestre que si µ es conocido entonces S(X) = n1 i=1 (Xi − µ)
es una estadı́stica suficiente para σ.
(c) Demuestre que si σ es conocido entonces S(X) = Y1 es una es-
tadı́stica suficiente para µ.
102 3. Estadı́sticas y distribuciones muestrales

39. *Considere la siguiente función de densidad dependiente de tres paráme-


tros α, p y σ,
    p−1
1 x−α x−α
f (x; α, p, σ) = exp − ,
σΓ(p) σ σ
con p > 0, σ > 0 y α ≤ x < ∞. Demuestre que:
(a) Existe una estadı́stica suficiente para p cuando α y σ son conoci-
dos.
(b) Existe una estadı́stica suficiente para σ cuando α y p son conoci-
dos.
(c) De forma conjunta existe un par de estadı́sticas suficientes para
(p, σ) cuando α es conocida.
(d) Si σ es conocida y p = 1, existe una estadı́stica suficiente para α.
40. Sea X1 , . . . , Xn una muestra aleatoria de las distribuciones f (x; θ) es-
pecificadas a continuación. Encuentre una estadı́stica suficiente mini-
mal y completa para θ.
(a) f (x; θ) = θxθ−1 I(0,1) (x), θ > 0.
1 3
(b) f (x; θ) = 6θ 4 x exp(−x/θ)I(0,∞) (x), θ > 0.
(c) Binomial(k, θ) (k fijo).
(d) Binomialnegativa(k, θ) (k fijo).
41. Sea X1 , . . . , Xn una muestra aleatoria de la población cuya función de
densidad es
θ2
f (x; θ) = (x + 1)e−θx I(0,∞) (x), θ > 0.
θ+1
(a) Demuestre que la función de densidad de X pertenece a la familia
exponencial.
(b) Obtenga una estadı́stica suficiente minimal y completa.
42. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Pareto, con función de densidad

f (x; x0 , θ) = θxθ0 x−θ−1 , x0 ≤ x, θ > 1.

donde x0 > 0. Obtenga una estadı́stica suficiente para θ:


(a) Usando el teorema de factorización.
3.8. Ejercicios 103

(b) Usando la propiedad de la familia exponencial.

¿Las estadı́sticas suficientes son las mismas?

43. *Sea X1 , . . . , Xn una muestra de aleatoria de la población con distri-


bución Gaussiana Inversa, IG(µ, λ), cuya función de densidad es
1/2
λ(x − µ)2
  
λ
f (x; µ, λ) = exp − I(0,∞) (x).
2πx3 2µ2 x
 
Demuestre que S(X) = X̄, Pn n1 −X̄ −1 es una estadı́stica suficien-
i=1 Xi

te y completa.

44. Sea X1 , X2 , X3 una muestra


Paleatoria de la población con distribución
3
Bernoulli(θ). Defina T = i=1 Xi , T1 = X1 y T2 = (T, T1 ).

(a) Obtenga las particiones inducidas sobre el espacio muestral a par-


tir de T , T1 y T2 , respectivamente.
(b) Muestre que T es una estadı́stica suficiente minimal para θ, pero
T2 no lo es.
[Nota: primero muestre que T conduce a la partición suficiente
minimal sobre el espacio muestral, pero que T2 no conduce a tal
partición].

45. Sea X una variable aleatoria con distribución Uniforme U (−θ, θ).

(a) ¿S(X) = X es una estadı́stica suficiente minimal para θ?


(b) ¿S(X) = X es una estadı́stica completa?

46. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Uniforme U (θ, θ+1). Demuestre que S(X) = (Y1 , Yn ) es una estadı́stica
suficiente minimal y que no es completa.

47. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Uniforme U (θ1 , θ2 ), con θ1 < θ2 .

(a) Demuestra que si θ1 es conocido, entonces S(X) = Yn es una


estadı́stica suficiente minimal y completa para θ2 .
(b) Demuestra que si θ2 es conocido, entonces S(X) = Y1 es una
estadı́stica suficiente minimal y completa para θ1 .
(c) Si θ1 y θ2 son desconocidos, obtenga una estadı́stica suficiente
(bidimensional) minimal y completa para los parámetros (θ1 , θ2 ).
104 3. Estadı́sticas y distribuciones muestrales

48. Para cada una de las siguientes distribuciones, sea X1 , . . . , Xn una


muestra aleatoria. Obtenga una estadı́stica suficiente y completa para
θ, o en su caso muestre que no existe alguna.
2x
(a) f (x; θ) = θ 2 , 0 < x < θ, θ > 0.
ln(θ)θ x
(b) f (x; θ) = θ−1 , 0 < x < 1, θ > 1.
θ
(c) f (x; θ) = (1+x)1+θ
0 < x < ∞, θ > 0.
,
(d) f (x; θ) = e−(x−θ) exp −e−(x−θ) , −∞ < x, θ < ∞.


49. Sea T una estadı́stica auxiliar para θ con función de densidad fT (t).
Sea g(·) una función diferenciable uno-a-uno que no depende de θ.
Demuestre que T ∗ = g(T ) también es una estadı́stica auxiliar para θ.
50. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µ, σ 2 ), donde σ 2 es conocido.
(a) Demuestre que S(X) = X es una estadı́stica suficiente y completa
para µ, y que T (X) = S 2 es una estadı́stica auxiliar.
(b) Demuestre que X y S 2 son estadı́sticas independientes.
Capı́tulo 4

Estimación puntual

En este capı́tulo se abordarán los tópicos relacionados con estimación pun-


tual. Se inicia con la exposición de los métodos de estimación más impor-
tantes, tales como el de máxima verosimilitud, el de momentos y otros como
el de medianas y percentiles. Ası́mismo, se da una introducción al método
Bayesiano y más adelante al de mı́nimos cuadrados.
Posteriormente se revisan las propiedades deseables de un estimador pun-
tual como una forma de analizar su bondad. Se habla del error cuadrático
medio, estimadores insesgados y la propiedad de consistencia, para dar lugar
al ulterior desarrollo de la teorı́a para encontrar a los mejores estimadores
insesgados.

4.1. Introducción
Suponga que se dispone de una población en la que se estudia una variable
aleatoria X con distribución conocida y parámetro (o parámetros) descono-
cido(s) y se tiene interés en disminuir el grado de desconocimiento de θ en
f (x; θ) . De la población se extrae una muestra aleatoria simple de tamaño n:
X1 , X2 , ..., Xn y se trata de calcular, a partir de los valores muestrales, una
función de los mismos que proporcione una estadı́stica θb = T (X1 , X2 , ..., Xn )
que le asigne un valor al parámetro desconocido de la población, de forma
que sean lo más cercanos en algún sentido. A θb se le llama estimador.
El objetivo de la estimación puntual es entonces encontrar un valor para
θ, denotado como θ, b que sea función de la muestra aleatoria y que permita
modelar o describir de manera adecuada el fenómeno aleatorio.

105
106 4. Estimación puntual

Definición 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una distribución


con función de densidad f (x; θ). Un estimador es una estadı́stica T (X) cuyos
valores t(x) sirven para aproximar o estimar los valores de θ.

La notación θ̂ = T (X) expresa que el estimador de θ es la estadı́stica


T (X). Los valores del estimador, o sea t(x), son realizaciones de la variable
aleatoria T (X).
Si por ejemplo, se tiene una población N (µ, σ 2 ), un posible estimador
para µ es µ̂ = X̄, es decir, en este caso el estimador de µ serı́a la estadı́stica
X (la media muestral). En los siguientes párrafos se presentarán los métodos
más conocidos para encontrar estimadores.
En ocasiones, en lugar del parámetro θ, se desea estimar una función
de dicho parámetro. En general, se denotará como τ (θ) a cualquier
función de θ.

4.2. Métodos de estimación


El primero de los métodos que se abordará fue aportación de Karl Pearson
(1857-1936) y se conoce como el método de momentos para la estimación de
parámetros.
Karl Pearson “fue historiador, escribió sobre folklore, fue socialista con-
vencido, abogado, matemático aplicado, biómetra, estadı́stico, maestro y
biógrafo. Sin duda, su contribución más importante es el nacimiento de la
estadı́stica aplicada. Es por lo que se le debe mayor crédito, en frase de él
mismo: Hasta que los fenómenos de cualquier rama del conocimiento no ha-
yan sido sometidos a medida y número, no se puede decir que se trate de una
ciencia. Además del método de momentos para la obtención de estimadores,
introdujo el sistema de curvas de frecuencias para disponer de distribucio-
nes que pudieran aplicarse a los distintos fenómenos aleatorios, desarrolló la
correlación lineal para aplicarla a la teorı́a de la herencia y de la evolución.
Introdujo el método de la Ji-cuadrada para dar una medida del ajuste entre
datos y distribuciones, para contrastar la homogeneidad entre varias mues-
tras y la independencia entre variables. Fundó los Anales de la Eugenesia y
en 1900, junto con Galton y Weldon, fundó la revista Biometrika de la que
fue editor hasta su muerte. En una descripción autobiográfica decı́a: una
explicación para mi vida, se debe a una combinación de dos caracterı́sticas
que he heredado: capacidad para trabajar mucho y capacidad para relacionar
las observaciones de los demás”1 .
1 Gómez Villegas, M.A. (2009). Karl Pearson, el creador de la estadı́stica matemática.
Historia de la probabilidad y la estadı́stica IV, J. Basulto y J.J. Garcı́a (eds.). Congreso
internacional de historia de la estadı́stica y la probabilidad, 351-356.
4.2. Métodos de estimación 107

También se introducirá el {indexmétodo! de máxima verosimilitud pro-


puesto por Ronald A. Fisher en 1922, y que intuitivamente pretende obtener
el estimador de un parámetro seleccionando el que maximiza la probabilidad
de obtener los datos que realmente fueron observados.
Hablar de Fisher2 equivale a referirse al desarrollo de la estadı́stica du-
rante el siglo XX. Basta decir que la mayor parte de los términos que se usan
en Inferencia estadı́stica los introdujo él, por ejemplo, parámetro, estadı́stica
(función de la muestra aleatoria), verosimilitud, score o puntaje, estadı́stica
auxiliar, información, hipótesis nula y errores tipo I y II, sólo por mencionar
algunos.

Figura 4.1: Karl Pearson con Francis Galton. Ambos fundaron la revista
Biometrika en 1901. Imagen tomada de commons.wikipedia.org (public do-
main).

2 La imagen anterior fue tomada de commons.wikipedia.org (public domain). By


AnemoneProjectors (talk) (Flickr) (Sir Ronald Aylmer Fisher plaque) [CC BY-SA 2.0
(https://creativecommons.org/licenses/by-sa/2.0)], via Wikimedia Commons.
108 4. Estimación puntual

Sin duda que el trabajo de Fisher es la piedra angular sobre la que se sus-
tenta la estadı́stica como ciencia. Egon Pearson (1974), hijo de Karl Pearson,
habla de las diferencias conceptuales entre su padre y Fisher3 : Galton y K.
Pearson trabajaron con muestras grandes por su interés en la reproducción
libre de las especies en su medio natural, esto ocurre con humanos, animales
y plantas. Por su parte, Fisher trabajó con muestras pequeñas relaciona-
das con datos experimentales, por lo que era necesario analizar con cuidado
las bases de la inferencia estadı́stica para una adecuada interpretación. Fis-
her estudió resultados exactos en muestras pequeñas, pero también obtuvo
propiedades asintónticas óptimas de los estimadores máximo verosı́miles.

Figura 4.2: Placa English Heritage dedicada a Fisher en la casa Inverforth.

En esta parte se hablará además del enfoque Bayesiano en la teorı́a de la


estimación puntual, el cual se basa en el teorema de Bayes.

4.2.1. Método de momentos


Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de
densidad f (x; θ). A E(Xir ) se le conoce
Pn
como el r-ésimo momento poblacional
r
i=1 Xi
y se denota por µr , mientras que n es el r-ésimo momento muestral
y se denota por Mr .
3 Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int.

Stat. Rev. 42 (1).


4.2. Métodos de estimación 109

El método de estimación por momentos consiste en igualar los momentos


muestrales con los momentos poblacionales y resolver para θ (o θ1 , ..., θk , si
la distribución tiene k parámetros). Esto es, µr = Mr , donde r = 1, ..., k y k
representa el número de parámetros a estimar.
De manera general, si X1 , X2 , . . . , Xn es una muestra aleatoria de una
población con función de densidad f (x; θ1 , θ2 , ..., θk ), en la estimación por
momentos se resuelve el siguiente sistema de ecuaciones

µ = M 1 , µ 2 = M2 , . . . , µ k = Mk
|1 {z }
k ecuaciones con k incógnitas
La solución a este sistema θ̂ = (θˆ1 , . . . , θˆk ) se conoce como el estimador
por el método de momentos.

Ejemplo 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución P oisson(θ). Como

E(X) = θ,

entonces Pn
i=1 Xi
θ̂ = .
n
Ejemplo 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución exp(θ). Como
1
E(X) = ,
θ
entonces
1
X̄ = .
θ
Por lo tanto,
θ̂ = 1/X̄.

Ejemplo 4.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución N (µ, σ 2 ). Como

E(X) = µ y V ar(X) = σ 2 ,

entonces
E(X 2 ) = µ2 + σ 2 .
Por lo tanto,
n
1X 2
X̄ = µ̂ y X̄ 2 + σ̂ 2 = X .
n i=1 i
110 4. Estimación puntual

Es decir,
n
2 1X 2
σ̂ = X − X̄ 2 .
n i=1 i
Pero note que
n
X n
X
(Xi − X̄)2 = (Xi2 − 2X̄Xi + X̄ 2 )
i=1 i=1
n
X n
X
= Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1
n
X n
X
= Xi2 2
− 2nX̄ + nX̄ = 2
Xi2 − nX̄ 2 .
i=1 i=1

n n
1X 1X 2
∴ (Xi − X̄)2 = X − X̄ 2 .
n i=1 n i=1 i

Entonces los estimadores por momentos para µ y σ 2 son


n
1X
µ̂ = X̄ y σ̂ 2 = (Xi − X̄)2 .
n i=1

Ejemplo 4.4 Suponga que se tiene la siguiente muestra de tamaño 10 :

1, 1, 1, 2, 2, 3, 5, 7, 8, 10.

Estimar los parámetros µ y σ 2 usando el método de momentos si la distri-


bución normal se ajusta a través de los datos de la muestra.
En este caso, las estadı́sticas muestrales están dadas por
10
X 10
X
xi = 40 y x2i = 258.
i=1 i=1

Usando el método de momentos y el ejemplo anterior:


40
µ
b= =4
10
y
2 + 42 =
258
σc .
10
De donde
2 = 9.8.
σc
4.2. Métodos de estimación 111

Ejemplo 4.5 Hallar los estimadores por el método de momentos de la distri-


bución Gama y usar los datos del ejemplo anterior para dar valores numéricos
de rb y λ.
b Igualando los primeros momentos muestrales y poblacionales, se
obtiene:
r 40
E (X) = = = 4. (4.1)
λ 10
y
 r (r + 1) 258
E X2 = = = 25.8.
λ2 10
Se tiene un sistema de dos ecuaciones. Para encontrar la solución, se consi-
dera el cociente:

E X2 rb + 1 25.8
2 = rb
= 2 = 1.6125.
4
[E (X)]

y resolviendo para r :
rb = 1.6327.
Sustituyendo este valor en (4.1) y despejando λ, se obtiene:

b = 1.6327 = 0.408 2.
λ
4
El rango del estimador no necesariamente coincide con el espacio del
parámetro a estimar. Considere en el siguiente ejemplo una distribución Bi-
nomial con k y p desconocidos.

Ejemplo 4.6 Suponga que X ∼Binomial(k, p). Una posible aplicación con
esta distribución es que se busque estimar las tasas de ocurrencia de un
crimen, conociendo que existe un número importante de casos que no se de-
nuncian o reportan, es decir, no se sabe cuál es exactamente el valor de k.
Utilizando el método de momentos, se consideran los dos primeros momen-
tos poblacionales de la distribución binomial, ası́ como los correspondientes
momentos muestrales:
X¯n = kp (4.2)
y
n
1X 2
X = kp(1 − p) + k 2 p2 . (4.3)
n i=1 i

De (4.2) se obtiene
X¯n
p̂ = , (4.4)
k
112 4. Estimación puntual

sustituyendo este resultado en lugar de p en (4.3):


n
1X 2 X¯n 2
Xi = X¯n (1 − ) + X¯n (4.5)
n i=1 k

y como
n n
1X 2 1X 2 2
Xi − X¯n = X + X¯n ,
n i=1 n i=1 i

(4.5) es equivalente a
n
1X X¯n
(Xi − X¯n )2 = X¯n (1 − )
n i=1 k
2
¯ X¯n
= Xn − ,
k
ası́ que despejando el valor de k, se obtiene
2 n
X¯n 1X
= X¯n − (Xi − X¯n )2 ,
k n i=1
k 1
= Pn ,
¯
Xn
2
X¯n − 1
n i=1 (Xi − X¯n )2
2
X¯n
k̂ = n .
X¯n − 1
− X¯n )2
P
n i=1 (Xi

Por lo tanto, el valor estimado de p es

X¯n
p̂ = .
k
b

Observe que no se puede garantizar que k será un número entero positivo


y que p ∈ [0, 1]. Sin embargo, en general el método permite obtener una
propuesta para estimar rápidamente los parámetros desconocidos.

4.2.2. Estimadores basados en verosimilitud


Para introducir este método se presenta primero el siguiente ejemplo (Mood,
Graybill y Boes, 1973), el cual considera que se tiene una urna en donde se
sabe que hay bolas negras y blancas, de las cuales se desconoce el número de
cada una de ellas, pero se tiene el dato de que la razón es de 3 a 1, aunque
también se ignora si hay más bolas blancas que negras o viceversa. Se desea
4.2. Métodos de estimación 113

estimar la proporción de bolas negras en la urna y para ello, se toma una


muestra de tamaño 3 con reemplazo de esta población, X1 , X2 , X3 . Note que
Xi tiene distribución Bernoulli(θ), i = 1, 2, 3.
Observe que:

θ es la probabilidad de obtener bola negra, es decir, θ = P(Xi = 1).

θ sólo puede tomar los valores 14 y 34 , debido a que la razón establecida


es de 3 a 1.
P3
X := i=1 Xi es el número de bolas negras en la muestra. Y por lo
tanto, X puede tomar los valores x = 0, 1, 2, 3.

X ∼ Bin(n = 3, θ).

En el cuadro 4.1 se presentan las probabilidades de obtener 0, 1, 2 y 3


bolas negras, con ambos valores del parámetro. Si en la muestra se obtienen

Valor de θ P (X = 0) P (X = 1) P (X = 2) P (X = 3)
θ = 1/4 27/64 27/64 9/64 1/64
θ = 3/4 1/64 9/64 27/64 27/64
1
Cuadro 4.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ = 4 y
θ = 43 .

0 bolas negras, es decir

(x1 = 0, x2 = 0, x3 = 0) ,

entonces θ̂ = 1/4 porque es más probable obtener (con este valor de θ) 0


bolas negras que con θ̂ = 3/4. Ahora, si en la muestra se obtienen 2 bolas
negras entonces θ̂ = 3/4, ya que es más probable obtener 2 bolas negras con
θ̂ = 3/4 que con θ̂ = 1/4. Es decir, se escoge el valor de θ que maximiza la
probabilidad de obtener una muestra especı́fica (x1 , x2 , x3 ).
Esta es la idea subyacente en el método de máxima verosimilitud para
estimar parámetros. De manera general, es necesario definir una función que
represente la ”probabilidad” de obtener una cierta muestra de entre todas
las posibles en X (el espacio muestral o de las muestras). Dicha función,
para un valor muestral fijo, depende únicamente de los parámetros de la
distribución en cuestión y el problema es encontrar aquel valor del parámetro
o de los parámetros que maximicen esta función para una realización fija
de la muestra. En el ejemplo anterior, el parámetro sólo puede tomar dos
valores, pero en general se estará resolviendo un problema de optimización
114 4. Estimación puntual

sobre el espacio paramétrico correspondiente a la distribución con la que se


esté trabajando (una vez que se ha observado una muestra).
Para abordar este tema, se iniciará con la definición de la función de
verosimilitud.
Definición 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con
función de densidad f (x; θ). Se define la función de verosimilitud como
la función de densidad conjunta de la muestra y se denota como L(θ) o
L(θ | x). Es decir:
n
Y
L(θ) = fX1 ,...,Xn (x1 , ..., xn ; θ) = fXi (xi ; θ).
i=1

Definición 4.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con


función de densidad f (x; θ) y L(θ) la correspondiente función de verosimili-
tud. A θ̂ = T (X) se le llama el estimador máximo verosı́mil de θ, si satisface
que para cualquier θ ∈ Θ, se tiene que L(θ̂) ≥ L(θ).

Método general
Sea f (x; θ1 , θ2 , . . . , θk ) una función de densidad con k parámetros. Si (θˆ1 , ...θˆk )
satisface el sistema
∂L(θ1 , θ2 , ..., θk )
= 0 i = 1, 2, ..., k;
∂θi
entonces (θˆ1 , ..., θˆk ) es el estimador máximo verosı́mil de θ.
Note que
∂ 1 ∂
ln(L(θ1 , θ2 , . . . , θk )) = · L(θ1 , θ2 , . . . , θk ).
∂θi L(θ1 , θ2 , . . . , θk ) ∂θi
Por lo tanto,
∂ ∂
ln(L(θ1 , θ2 , . . . , θk )) = 0 ⇔ L(θ1 , θ2 , . . . , θk ) = 0.
∂θi ∂θi
Es decir, ln(L(θ1 , θ2 , . . . , θk )) alcanza su máximo en el mismo punto que
L(θ1 , θ2 , . . . , θk ).
En virtud de la observación anterior se define la log-verosimilitud de
f (x; θ1 , θ2 , . . . , θk ) como
l (θ1 , θ2 , . . . , θk ) = ln(L(θ1 , θ2 , . . . , θk )).
Frecuentemente, por practicidad, se calcula el máximo de l (θ) en vez del
de L(θ).
4.2. Métodos de estimación 115

Ejemplo 4.7 [Distribución Bernoulli]. Sea X1 , . . . , Xn una muestra alea-


toria de una población con distribución Bernoulli(θ). Obtener el estimador
máximo verosı́mil de θ.
Yn n
Y Pn Pn
L(θ) = f (xi , θ) = θxi (1 − θ)1−xi = θ i=1 xi (1 − θ)n− i=1 xi .
i=1 i=1

Entonces,
 Pn Pn 
l (θ) = ln(L(θ)) = ln θ i=1 xi (1 − θ)n− i=1 xi
n n
!
X X
= ln(θ) xi + ln(1 − θ) n − xi .
i=1 i=1

Luego, Pn Pn
∂ i=1 xi n − i=1 xi
l (θ) = − .
∂θ θ 1−θ
Por lo tanto,
Pn Pn
∂ i=1 xi n− i=1 xi 1 n 1 1
l (θ) = 0 ⇔ = ⇔ − 1 = Pn −1⇔ = ,
∂θ θb 1 − θb θb i=1 xi θb x̄
de donde se concluye que
θb = X.
Ahora se verificará que es un máximo
Pn Pn Pn Pn !
∂ 2 l(θ) i=1 xi n − i=1 xi i=1 xi n− i=1 xi
| b= − − =− + < 0.
∂θ2 θ θb2 b2
(1 − θ) θb2 (1 b2
− θ)

∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄.


Ejemplo 4.8 [Distribución Exp(θ)]. Sea X1 , . . . , Xn una muestra aleatoria
de una población con distribución Exp(θ). Obtener el estimador máximo
verosı́mil de θ.
Yn n
Y Pn n
Y
L(θ) = f (xi , θ) = θe−θxi I(0,∞) (xi ) = θn e−θ i=1 xi I(0,∞) (xi ).
i=1 i=1 i=1

Entonces,
n
!
Pn Y
l (θ) = ln(L(θ)) = ln θn e−θ i=1 xi
I(0,∞) (xi )
i=1
n
X n
X
= n ln(θ) − θ xi + ln(I(0,∞) (xi )).
i=1 i=1
116 4. Estimación puntual

Luego,
n
∂ n X
l (θ) = − xi .
∂θ θ i=1

Por lo tanto,
n Pn
∂ n X 1 i=1 xi 1
l (θ) = 0 ⇔ = xi ⇔ = ⇔ = x̄,
∂θ θ
b
i=1 θb n θb

y ası́
1
θb = .

Ahora se verificará que es un máximo

∂ 2 l(θ) n
| b= − < 0.
∂θ2 θ θb2
1
∴ El estimador máximo verosı́mil de θ es θ̂M V = .

Ejemplo 4.9 [Distribución P oisson(θ)]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución P oisson(θ). Obtener el estimador
máximo verosı́mil de θ.
n n n n
e−θ θxi I{0,1,2,...} (xi )
P
Y Y xi Y
−nθ
L(θ) = f (xi , θ) = I{0,1,2,...} (xi ) = e θ i=1 .
i=1 i=1
xi ! i=1
xi !

Entonces,
n
!
−nθ
Pn Y I{0,1,2,...} (xi )
l (θ) = ln(L(θ)) = ln e θ i=1 xi

i=1
xi !
n n  
X X I{0,1,2,...} (xi )
= −nθ + ln(θ) xi + ln .
i=1 i=1
xi !

Luego, Pn
∂ i=1 xi
l (θ) = −n + .
∂θ θ
Por lo tanto,
Pn Pn
∂ i=1 xi i=1 xi
l (θ) = 0 ⇔ n = ⇔ θb = .
∂θ θb n
4.2. Métodos de estimación 117

De esta manera,
θb = X.
Ahora se verificará que es un máximo
Pn
∂ 2 l(θ) i=1 xi
| b= − < 0.
∂θ2 θ θb2
∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄.

Ejemplo 4.10 [Distribución Normal]. Sea X1 , . . . , Xn una muestra aleato-


ria de una población con distribución N (µ, σ 2 ). Obtener los estimadores
máximo-verosı́miles de µ y σ 2 .
Primero se obtiene la función de verosimilitud:
n
Y 1 (xi −µ)2
L µ, σ 2 e−

= √ 2σ 2

i=1 2πσ 2
  n2
1 1
Pn 2
= e− 2σ2 i=1 (xi −µ) .
2πσ 2
La log-verosimilitud está dada por
n
n 1 X 2
l µ, σ 2 = − ln 2πσ 2 − 2

(xi − µ) .
2 2σ i=1

Obteniendo las derivadas con respecto a los parámetros


n
∂l 1 X
= (xi − µ) ,
∂µ σ 2 i=1
n
∂l n 1 X 2
= − + (xi − µ) .
∂σ 2 2σ 2 2σ 4 i=1

Igualando a cero se obtiene


n
X
xi − nb
µ=0
i=1

y
n
n 1 X 2
− + (xi − µ
b) = 0,
σ2
2b σ 4 i=1
2b
de donde
µ
b=X (4.6)
118 4. Estimación puntual

y
Pn 2
2Xi − X i=1
σ
b = . (4.7)
n
Las segundas derivadas están dadas por
∂2l n
= − ,
∂µ2 σ2
Pn 2
∂2l n (xi − µ)
i=1
2 = − ,
∂ (σ 2 ) 2σ 4 σ6
Pn
∂2l ∂2l i=1 (xi − µ)
= = − .
∂µ∂σ 2 ∂σ 2 ∂µ σ4
Sea
∂2l ∂2l
!
∂µ2 ∂σ 2 ∂µ
H= ∂2l ∂2l
∂µ∂σ 2 ∂(σ 2 )2
la matriz de segundas derivadas. Observe que
∂ 2 l

n
= − < 0, (4.8)
∂µ2 (bµ,bσ2 ) σ 2 σb2
mientras que
Pn !
i=1 (xi −x)
− bn2
P σ
− Pnσb4
det H|(bµ,bσ2 ) = det n 2
i=1 (xi −x) n i=1 (xi −x)
− b4
σ σ4
2b − b6
σ
!
− σbn2 0
= det n
Pn
i=1 (xi −x)
2
0 σ4 −
2b b6
σ
2 n 2
n2
P
n − x)i=1 (xi
= − 6
+
2b
σ σ8
nb
n2 n2 σ
b2
= − 6+ 8
2b
σ σ
b
n2 n2 n2
= − 6+ 6 = > 0. (4.9)
2b
σ σ
b σ6
2b
Por (4.8)
 y (4.9), se ve que H es definida negativa y por lo tanto, el óptimo
µ b2 es un máximo, concluyéndose que (4.6) y (4.7) son los estimadores
b, σ
máximo verosı́miles de µ y σ 2 .
Ejemplo 4.11 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución Uniforme en el intervalo [θ− 12 , θ+ 12 ],
es decir,
f (x; θ) = I[θ− 12 ,θ+ 21 ] (x).
4.2. Métodos de estimación 119

Obtener el estimador máximo verosı́mil de θ.


La función de verosimilitud está dada por
n
si para toda i, xi ∈ [θ − 21 , θ + 12 ]

Y 1
L (θ) = I[θ− 12 ,θ+ 12 ] (xi ) =
0 si para alguna i, xi ∈/ [θ − 12 , θ + 21 ].
i=1

Es decir, el máximo valor de L (θ) es 1 cuando xi ∈ [θ − 12 , θ + 12 ] para toda


i, lo cual ocurre si
1 1
y1 ≥ θ − y yn ≤ θ + ,
2 2
es decir, si
1 1
yn − ≤ θ ≤ y1 + .
2 2
Por lo tanto,
1 si θ ∈ yn − 12 , y1 + 21
  
L (θ) =
0 en otro caso.
Cualquier valor θb de θ en Yn − 12 , Y1 + 12 es un estimador máximo verosı́mil,
 

por ejemplo, T (X) = Y1 +Y 2


n
.
Ejemplo 4.12 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución Uniforme en el intervalo [0, θ]. Hallar
el estimador máximo verosı́mil de θ.
La función de densidad está dada por
 1
θ, 0 ≤ x ≤ θ,
f (x; θ) =
0 en otro caso.
La función de verosimilitud es
n
Y
L (θ) = f (xi ; θ)
i=1
1

θn si xi ≤ θ, para toda i
=
0 si al menos una de las xi > θ
1

θn si máx {x1 , x2 , ..., xn } ≤ θ
=
0 en otro caso
1

θn si θ ≥ yn
=
0 si θ < yn ,
donde yn = máx {x1 , x2 , ..., xn } . Note que
dL (θ) n
= − n+1 < 0.
dθ θ
120 4. Estimación puntual

Ası́, la función de verosimilitud vale cero si θ < yn y θ1n si θ ≥ yn , siendo


en este caso una función decreciente, como se muestra en la figura 4.3.

L(θ)

Yn θ
Figura 4.3: Gráfica de la función de verosimilitud para una muestra de ta-
maño n de la distribución Uniforme continua en el intervalo [0, θ].

Ası́, el estimador máximo verosı́mil de θ es

θb = Yn = máx {X1 , . . . , Xn } .

Propiedad de invarianza de los estimadores máximo-verosimiles


En algunas ocasiones, el objetivo no es estimar un parámetro de la distribu-
ción sino una función de éste, τ (θ). Por ejemplo, el interés podrı́a ser estimar
la desviación estándar de una distribución normal, σ, en lugar de la varian-
za σ 2 ; o estimar la trasformación del momio en una distribución Bernoulli,
θ/(1 − θ), en lugar de la probabilidad de éxito θ. Por lo tanto, se busca un
estimador de la función τ (θ), es decir, τd (θ).
Una propiedad de los estimadores máximo verosı́miles es la propiedad de
invarianza. Esto significa que si buscamos un estimador máximo verosı́mil
para una función de θ, denotada por τ (θ), y si sabemos que el estimador
máximo verosı́mil de θ es θ̂, entonces el estimador máximo verosı́mil de τ (θ),
denotado por τd (θ), es τ (θ̂).
Por lo tanto, la propiedad de invarianza de los estimadores máximo ve-
rosı́miles enuncia que
τd
(θ) = τ (θ),
b

es decir, que para encontrar el estimador máximo verosı́mil de una función


4.2. Métodos de estimación 121

del parámetro basta simplemente evaluar la función en el estimador máximo


verosı́mil.
Para esto es necesario tomar en cuenta las caracterı́sticas de la función
τ (θ), por ejemplo, si la función de τ (θ) es biyectiva, entonces la propiedad de
invarianza se cumple y existe un sólo máximo, dado que podemos invertir la
función. Esto se puede ver fácilmente considerando que si η = τ (θ), entonces
la función inversa de τ (θ) es τ −1 (η) = θ, la cual está bien definida por ser
una función biyectiva, y la función de verosimilitud de τ (θ), escrita como
una función de η, está dada por
n
Y
L∗ (η) = f (xi ; τ −1 (η)) = L(τ −1 (η)),
i=1

y para encontrar el estimador máximo verosı́mil, basta obtener lo siguiente

sup L∗ (η) = sup L(τ −1 (η)) = sup L(θ).


η η θ

Por tanto, el máximo de L∗ (η) se alcanza en η = τ (θ) = τ (θ̂), mostrando ası́


que el estimador máximo verosı́mil de τ (θ) es τ (θ̂).
En algunos casos, no es posible usar la propiedad de invarianza de los
estimadores máximo verosı́miles debido a que muchas funciones de interés
no son funciones biyectivas. Por ejemplo, para estimar µ2 , donde µ es la
media de una distribución normal, la función τ (µ) = µ2 no es una función
biyectiva. Si τ (θ) no es una función biyectiva, entonces para algún valor η
puede haber más de un valor de θ que satisfaga que τ (θ) = η. En estos
casos, la correspondencia entre la maximización sobre η y la correspondiente
maximización sobre θ deben analizarse. Por ejemplo, si θ̂ es el estimador
máximo verosı́mil de θ, podrı́a existir otro valor de θ, digamos θ0 , para el
cual también se cumple que τ (θ̂) = τ (θ0 ). Ası́, en el caso de que τ (θ) no
sea una función biyectiva, no necesariamente existirá una única solución.
En estos casos será necesario usar una definición más general de la función
máximo verosı́mil de τ (θ). Una definición de verosimilitud más general para
τ (θ) es la siguiente.

Definición 4.4 La función de verosimilitud inducida por τ (θ), denotada por


L∗ , está dada por
L∗ (η) = sup L(θ).
{θ:τ (θ)=η}

En este caso, el valor η̂ que maximiza a la función L∗ (η) es el estimador


máximo verosı́mil de η = τ (θ). Además, puede verse a partir de las igualda-
des anteriores que el máximo de L∗ y el máximo de L coinciden.
122 4. Estimación puntual

Teorema 4.1 Si θ̂ es el estimador máximo verosı́mil de θ, entonces para


cualquier función τ (θ), el estimador máximo verosı́mil de τ (θ) es τ (θ̂) 4 .

Demostración. Sea η̂ el valor que maximiza L∗ (η). Es necesario mostrar


que L∗ (η̂) = L∗ (τ (θ̂)). Además, como se mencionó anteriormente, el máximo
de L y el máximo de L∗ coinciden, ası́ que se tiene lo siguiente,

L∗ (η̂) = sup sup L(θ)


η {θ:τ (θ)=η}

= sup L(θ)
θ

= L(θ̂),

donde la primera igualdad se cumple por definición de L∗ (η) ya que L∗ (η) =


sup{θ:τ (θ)=η} L(θ), la segunda igualdad se obtiene debido a que la maximi-
zación iterada es igual a la maximización no condicional sobre θ, y la última
igualdad se cumple por definición de θ̂, ya que θ̂ es el estimador máximo
verosı́mil de L(θ). Además,

L(θ̂) = sup L(θ)


{θ:τ (θ)=τ (θ̂)}

= L∗ (τ (θ̂)),

donde la primera igualdad se obtiene debido a que θ̂ es el estimador máximo


verosı́mil de θ, y la segunda igualdad se obtiene por la definición de L∗ (η).
Por lo tanto, se muestra que L∗ (η̂) = L∗ (τ (θ̂)) y que τ (θ̂) es el estimador
máximo verosı́mil de τ (θ). 

Con este teorema es posible encontrar estimadores máximo verosı́miles


de funciones de parámetros que no son biyectivas, por ejemplo, se puede
ver que el estimador máximo verosı́mil de µ2 , donde µ es la media de una
distribución normal, es X̄ 2 .

Observación 4.1 La propiedad de invarianza de los estimadores máximo


verosı́miles también se cumple en el caso multivariado. La demostración
del teorema anterior es válida aun si θ es un vector de parámetros. Si el
estimador máximo verosı́mil de θ = (θ1 , . . . , θk ) es θ̂ = (θ̂1 , . . . , θ̂k ), y si
τ (θ) = τ (θ1 , . . . , θk ) es alguna función de los parámetros, entonces el esti-
mador máximo verosı́mil de τ (θ1 , . . . , θk ) es τ (θ̂1 , . . . , θ̂k ).
4 Esta propiedad fue demostrada por Zehna (1966) en el artı́culo Invariance of Maxi-

mum Likelihood Estimators en la revista Annals of Mathematical Statistics.


4.2. Métodos de estimación 123

Ejemplo 4.13 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución N (µ, 1), con µ desconocido. Se busca el estimador máximo ve-
rosı́mil de τ (µ) = log(µ). Como µ̂ = X̄ es el estimador máximo verosı́mil de
µ, entonces por la propiedad de invarianza log(X̄) es el estimador máximo
verosı́mil de log(µ).

Ejemplo 4.14 Sea X1 , . . . , Xn una muestra aleatoria de la distribución nor-


mal N (µ, σ 2 ). Se sabe que el estimador máximo verosı́mil de µ es X̄. Para
encontrar el estimador máximo verosı́mil de τ (µ) = sen (µ)

τd
(µ) = τ (µ̂) = sen(µ̂) = sen(X̄).

Ejemplo 4.15 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


Bernoulli(θ). Se desea encontrar el estimador máximo verosı́mil de τ (θ) =
θ(1 − θ). Se sabe que el estimador máximo verosı́mil de θ es θ̂M V = X̄.
Entonces
τd
(θ) = τ (θ̂M V ) = τ (X̄) = X̄(1 − X̄).
MV

Ejemplo 4.16 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución Bernoulli(θ), con θ desconocido. Se busca el estimador máximo
θ
verosı́mil del momio τ (θ) = (1−θ) . Como θ̂ = X̄ es el estimador máximo

verosı́mil de θ, entonces por la propiedad de invarianza (1−X̄)
es el estimador
θ
máximo verosı́mil de (1−θ) .

Estimación máximo verosı́mil usando métodos numéricos

En la práctica lo más común es que las derivadas de la función de log-


verosimilitud con respecto a los parámetros involucrados, no se puedan resol-
ver de forma analı́tica, por lo que es necesario recurrir a métodos numéricos
como el de Newton Raphson. En R existen diferentes funciones que sirven
para abordar este tipo de problemas. Lo anterior se ilustrará con un ejemplo.
Para ahondar en este tema, se recomienda consultar Dixit (2016).

Ejemplo 4.17 Considere a la familia de distribuciones Gama, con su espa-


cio paramétrico multidimensional Θ = {(α, λ) : α > 0, λ > 0}. Para obtener
el estimador máximo verosı́mil para el vector de parámetros θ = (α, λ) a
partir de una muestra aleatoria de tamaño n, X1 , X2 , . . . , Xn , la función de
verosimilitud es:
124 4. Estimación puntual

n
Y
L(θ) = L(α, λ) = f (xi ; α, λ)
i=1
n
Y λα α−1 −λxi
= x e
i=1
Γ(α) i
 α n n
λ Pn Y
= e−λ i=1 xi xiα−1 .
Γ(α) i=1

La función de log-verosimilitud es entonces:


ln L(θ) = l(α, λ)
n
X n
X
= n (α ln λ − ln Γ(α)) − λ xi + (α − 1) ln xi .
i=1 i=1

Para encontrar los estimadores que maximizan esta función, se debe en-
contrar el punto crı́tico, lo que implica resolver el sistema de ecuaciones:
  X n
∂ d
l(α, λ) = n ln λ − ln Γ(α) + ln xi = 0,
∂α dα i=1
n
∂ α X
l(α, λ) = n − xi = 0.
∂λ λ i=1

De la segunda ecuación se obtiene que α̂λ̂ = x̄, o equivalentemente λ̂ = α̂x̄ ,


y sustituyendo esta relación en la primera:
  X n
d
n ln(α̂) − ln(x̄) − ln Γ(α̂) + ln xi = 0. (4.10)
dα i=1

Esta última no tiene solución exacta analı́ticamente, pero se puede resol-


ver numéricamente. La derivada del logaritmo de la función Gama se conoce
como la función digama, y en R se obtiene con la función digamma:
d
ψ(α) = ln Γ(α̂).

Se utilizan datos simulados para mostrar esta aproximación numérica.
Se generó una
Pnmuestra de tamaño 250, con α = 0.2 y λ = 5, tal que x̄ =
0.051762 y i=1 log xi = −1555.084. En la figura 4.4 se puede observar
que para el valor α̂ = 0.2221 la derivada (4.10) cruza el cero, y se obtiene
λ̂ = 4.2908.
4.2. Métodos de estimación 125

80
60
derivada

40
20
0

0.00 0.10 0.20 0.30

alpha

Figura 4.4: Estimación máximo verosı́mil para la familia Gama.

4.2.3. Verosimilitud en el enfoque Bayesiano


Considere una muestra aleatoria X1 , . . . , Xn de una población con distri-
bución Gama(µ, s), con media µ. En esta sección se denotará a la función
de densidad como fX (x|θ) y a la verosimilitud como L (θ|x1 , . . . , xn ) , la
razón de este cambio se comprenderá más adelante. Ası́, para el caso de la
distribución Gama(µ, s), su función de densidad está dada por
ss
fX (x|µ, s) = xs−1 exp{−sx/µ},
Γ(s)µs
mientras que la correspondiente función de verosimilitud es
n
Y ss
L(µ, s|x1 , . . . , xn ) = xs−1 exp{−sxi /µ}
s i
i=1
Γ(s)µ
sns
= T s−1 exp{−sT2 /µ},
Γn (s)µns 1
126 4. Estimación puntual

Qn Pn
donde T1 = i=1 xi y T2 = i=1 xi . Observe que la verosimilitud depende
de la muestra sólo a través de estas estadı́sticas suficientes T1 y T2 . Suponga
que se desea estimar el parámetro µ. Al otro parámetro que no es el que se
está estimando, en este caso s, se le suele llamar un parámetro de ruido.
Utilizando exclusivamente la verosimilitud para proponer un estimador
para el parámetro de interés µ y teniendo en cuenta la posibilidad de un
muestreo repetido, el estimador máximo verosı́mil para µ es el valor del
parámetro µb ∈ Θ que maximiza la función de verosimilitud; es decir, el valor
del parámetro para el cual la muestra observada es más probable.
Por construcción, el rango del estimador coincide con el espacio pa-
ramétrico, aunque hereda las dificultades de cualquier problema de opti-
mización, a saber:

Encontrar el máximo global y verificar que lo sea.

Que sea sensible a cambios numéricos.

Ahora, si se consideran dos valores de µ, el cociente de verosimilitudes


para el caso de la distribución Gama, estarı́a dado por:
sns
L(µ1 , s|x1 , . . . , xn ) Γn (s)µns T1s−1 exp{−sT2 /µ1 }
1
= sns
,
L(µ2 , s|x1 , . . . , xn ) Γn (s)µns T1s−1 exp{−sT2 /µ2 }
2
 ns
µ1
= exp{−sT2 [1/µ1 − 1/µ2 ]},
µ2

el cual depende del valor del parámetro s. En general no es claro cómo tratar
el parámetro de ruido, pero desde el enfoque clásico de maximizar la función
de verosimilitud como se vio en la sección 4.2.2, simplemente se toma el valor
del estimador sb.
Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se
condiciona completamente en los datos observados y se concluye sobre la
población en estudio basándose en:

1. La verosimilitud L(θ|x), que representa la información que hay en los


datos x= (x1 , . . . , xn ); y

2. π(µ) una distribución de probabilidad que se conoce como distribución


inicial o a priori y que describe las ideas subjetivas que se tienen
sobre el valor de µ. Estas ideas se conciben como externas a los datos
y pueden ser deducidas de experiencias previas o bien de conocimiento
experto.
4.2. Métodos de estimación 127

La inferencia se expresa a través de una distribución posterior, final o a


posteriori de los párametros que se denotará como π(θ|x) y que se obtiene
a través del teorema de Bayes:

L(θ|x)π(θ)
π(θ|x) = R . (4.11)
L(θ|x)π(θ)dθ

La estadı́stica Bayesiana (por Thomas Bayes (1702-1761), matemático


del siglo XVIII), representa un enfoque diferente a la inferencia estadı́stica
clásica o frecuentista. En el enfoque Bayesiano también se supone que los
datos se obtienen de una distribución perteneciente a una familia paramétrica
conocida; sin embargo, a diferencia de la estadı́stica clásica, que considera
que los parámetros son fijos pero desconocidos, aquı́ se hace el supuesto de
que son variables aleatorias.
En resumen, el enfoque denominado frecuentista no supone que hay co-
nocimiento previo de θ. El enfoque Bayesiano, por el contrario, se basa en el
supuesto de que se tiene alguna información previa acerca de θ. Esta informa-
ción se expresa por medio de una distribución sobre θ, llamada distribución
inicial o a priori. Aquı́ se supondrá que esta distribución a priori tiene una
densidad π(θ) y puede tener distintas interpretaciones según el problema que
se esté abordando, por ejemplo, que dicha distribución está sustentada en
experiencias previas similares o que expresa una creencia subjetiva.
En ambos casos, la verosimilitud provee la información que hay en las
observaciones y que permite evaluar y elegir un valor del parámetro sobre
otros, pues en el proceso de inferencia se busca obtener estimadores que con-
cilien de la mejor manera el modelo con los datos observados. Será entonces
de interés examinar la incertidumbre que hay en este proceso para elegir un
buen estimador.
En el contexto Bayesiano se debe considerar la evaluación de la dependen-
cia de las conclusiones con respecto a las distribuciones iniciales, las cuales
se han dado de manera subjetiva. En muchos casos, la selección de la distri-
bución inicial también contempla la posibilidad de calcular de forma cerrada
el denominador en (4.11). Un caso particular de esta selección se da con las
familias conjugadas.

Definición 4.5 Una distribución inicial π(θ) es conjugada si para π(θ) ∈


P y L(θ|x) ∈ F, se tiene que π(θ|x) ∈ P, donde P y F son familias de
distribuciones.

A continuación se da un primer ejemplo para ilustrar algunas de las


funciones que se han mencionado en el enfoque Bayesiano.
128 4. Estimación puntual

Figura 4.5: Dulces smarties. Tomada de pixabay.com (imágenes gratuitas de


alta calidad).

Ejemplo 4.18 Los paquetes de los llamados dulces Smarties vienen con k
colores diferentes, los cuales se repiten con la misma frecuencia.
Suponga que no se conoce k y secuencialmente se examinan 3 dulces,
resultando un rojo, un verde y un rojo. La densidad para X = el segundo
dulce es de diferente color que el primero, pero el tercero es del mismo color
que el primero, está dada por:
f (x | k) = P (el segundo es de diferente color que el primero) ×
×P (el tercero es del mismo color que el primero)
  
k−1 1 k−1
= = .
k k k2
A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f (x|k) =
(k − 1)/k 2 . Si en lugar de 3 se examinan 4 y resulta que ese cuarto es de
color naranja (con los tres primeros rojo, verde, rojo), se tiene que
(k − 1) (k − 2)
f (x | k) = .
k3
Ahora suponga que se tiene información a priori o se cree que el número
1 3 3 3
de colores es 5,6,7 u 8, con probabilidades iniciales 10 , 10 , 10 y 10 , respecti-
vamente.
Para el caso de tres dulces, si k = 5, entonces
4
f (x|k) = (5 − 1)/52 = = 0.16,
25
4.2. Métodos de estimación 129
 
1
f (x|k)π (k) = (0.16) = 0.016
10
y
1

(0.16) 10
π (k | x) = 8 = 0.13.
P
f (x|k)π (k)
k=5
A continuación se resumen los valores de estas funciones para los distintos
valores de k y para ambos escenarios, es decir, cuando se tiene rojo, verde y
rojo (cuadro 4.2)

k π(k) f (x|k) π(k)f (x|k) π(k|x)


5 .1 .160 .016 .13
6 .3 .139 .042 .33
7 .3 .122 .037 .29
8 .3 .109 .033 .26

Cuadro 4.2: Cálculo de la distribución a posteriori cuando los dulces exami-


nados son rojo, verde y rojo.

Y para cuando el cuarto dulce es naranja (cuadro 4.3).

k π(k) f (x|k) π(k)f (x|k) π(k|x)


5 .1 .096 .010 .11
6 .3 .093 .028 .31
7 .3 .087 .026 .30
8 .3 .082 .025 .28

Cuadro 4.3: Cálculo de la distribución a posteriori cuando los dulces exami-


nados son rojo, verde, rojo y naranja.

Observe que la distribución a posteriori para k es una pequeña modifica-


ción de la a priori.
La estadı́stica Bayesiana se basa en el cálculo de distribuciones condicio-
nales. Los siguientes ejemplos ilustran el uso de la definición de densidades
condicionales en términos de las densidades conjuntas y marginales.
Ejemplo 4.19 Una moneda cargada se lanza n veces. Suponga que xi vale
1 si se obtiene sol y 0 si no, en el i-ésimo lanzamiento. No se tiene idea de
qué tan cargada está la moneda, entonces se considera una distribución a
priori Uniforme para θ, de tal manera que la densidad a priori está dada por:
π(θ) = 1, 0 ≤ θ ≤ 1.
130 4. Estimación puntual

Sea t el número de soles. Entonces la distribución a posteriori de θ es:

θt (1 − θ)n−t × 1
π(θ|x1 , . . . , xn ) = R 1
0
φt (1 − φ)n−t × 1dφ

π(θ|x) ∝ θt (1 − θ)n−t ,
de donde se puede ver que si se inserta una constante de proporcionalidad
apropiada, entonces se tiene una densidad Beta(t + 1, n − t + 1), que serı́a
la distribución a posteriori de θ dada x.

En el ejemplo anterior se utiliza ∝ para denotar que π(θ|x) es proporcio-


nal a θt (1 − θ)n−t . En general, ∝ se lee como “es proporcional a”.

Ejemplo 4.20 Suponga que X1 , X2 , . . . , Xn es una muestra aleatoria de


una población con distribución N (µ, 1) y que π(µ) ∼ N (0, τ −2 ) para τ −2
conocida. Entonces
( n
!)
1 X 2 2 2
π(µ|x1 , . . . , xn ) ∝ exp − (xi − µ) + µ τ
2 i=1
(  Pn 2 )
1 2 i=1 xi
∝ exp − (n + τ ) µ − .
2 n + τ2
Ası́,  Pn 
xi
i=1 1
µ|x1 , . . . , xn ∼ N 2
, .
n+τ n + τ2
Ejemplo 4.21 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Exponencial(λ) y la distribución a priori para el parámetro
λ es una Exponencial(µ), donde µ es fija y conocida. Entonces:
n
Y Pn
π(λ|x1 , . . . , xn ) ∝ µe−λµ λe−λxi = λn e−λ(µ+ i=1 xi )
,
i=1
Pn
es decir, λ ∼ Gama(n + 1, µ + i=1 xi ).

Ejemplo 4.22 Suponga que se examina una máquina que hace partes de
automóviles y se denota a θ como la proporción de marcas defectuosas. Un
dı́a se examinan 10 piezas denotadas por X1 , . . . , X10 , donde Xi = 1 indica
que la pieza i es defectuosa y Xi = 0 que no tiene defecto. Esto puede verse
como una muestra aleatoria con distribución Bernoulli de parámetro θ, cuya
función de densidad es fX (x; θ) = θx (1 − θ)1−x I{0,1} (x) para 0 ≤ θ ≤ 1, que
4.2. Métodos de estimación 131

indica que la probabilidad de que una parte sea defectuosa es θ. Ası́ que la
densidad conjunta de las 10 observaciones es

P10 P10 10
Y
xi
fX (x; θ) = θ i=1 (1 − θ)10− i=1 xi
I{0,1} (xi )
i=1
= L (θ | x) .

Con el método de máxima verosimilitud el estimador de θ es θ̂ = X̄. Suponga


que el experto tiene información adicional acerca de θ y que él ha observado
que a lo largo de los dı́as la proporción de partes defectuosas cambia, es
decir, el valor de θ cambia y que este cambio puede representarse como una
variable aleatoria con función de densidad π(θ) = 6θ(1−θ)I[0,1] (θ), esto es, θ
tiene una distribución Beta con parámetros 2 y 2, denotada como Beta(2, 2).
¿Cómo se puede usar esta información adicional para estimar θ?

Como ya se ha señalado, en el método Bayesiano se considera que θ es


una cantidad cuya variación puede describirse por medio de una distribución
de probabilidad (llamada distribución a priori). La distribución a priori
es una distribución subjetiva, basada en las creencias del experto y se for-
mula antes de obtener los datos. Se selecciona una muestra a partir de una
población sujeta al parámetro θ, entonces la distribución a priori se actua-
liza utilizando la información de la muestra y se obtiene la disribución a
posteriori. Esta actualización se hace usando la regla de Bayes. La distri-
bución a posteriori es una distribución condicional, y es condicional dada
la muestra. La distribución a posteriori se usa para hacer inferencia acerca
de θ (obtener el estimador puntual, intervalos de credibilidad y pruebas de
hipótesis).

La distribución conjunta de X1 , . . . , X10 y θ es

g(x, θ) = fX (x; θ) × π(θ)


| {z } |{z}
distribución conjunta distribución a priori
P10 P10
xi
= θ i=1 (1 − θ)10− i=1 xi
× 6θ(1 − θ)
y 10−y
= θ (1 − θ) × 6θ(1 − θ)
y+1 10−y+1
= 6θ (1 − θ) ,
132 4. Estimación puntual

P10
donde y = i=1xi . Calculando la distribución marginal de la muestra, m(x),
Z Z
m(x) = fX (x; θ)π(θ)dθ = g(x, θ)dθ
Z
= 6θy+1 (1 − θ)10−y+1 dθ

Γ(y + 2)Γ(10 − y + 2)
= 6
Γ(10 + 2 + 2)
Γ(y + 2)Γ(12 − y)
= 6 .
Γ(14)
Ası́, la distribución a posteriori de θ dada la muestra x es
g(x, θ)
π(θ|x) =
m(x)
6θy+1 (1 − θ)10−y+1
=
6 Γ(y+2)Γ(12−y)
Γ(14)
Γ(14)
= θy+1 (1 − θ)11−y ,
Γ(y + 2)Γ(12 − y)
que es una distribución Beta(y + 2, 12 − y).
Un estimador para θ es la media de la distribución a posteriori (ver
Sección 4.3.3), la cual darı́a el estimador de Bayes de θ,
y+2
θ̂ = .
14
En el cuadro 4.4 se resumen los valores de los estimadores máximo verosı́mil
y de Bayes para distintos valores de la muestra.

Muestra y 0 1 2 3 4 5 6 7 8 9 10
θ̂ EMV 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ̂ Bayes 0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86

Cuadro 4.4: Valores de los estimadores máximo verosı́mil y de Bayes para


distintos valores de la muestra.

Las gráficas de la figura 4.6 muestran el comportamiento de la distribu-


ción a posteriori ante la evidencia de los datos y el conocimiento previo del
parámetro.
En el caso de no utilizar familias conjugadas, la obtención de la constante
de normalización para las distribuciones posteriores no se puede hacer de
manera analı́tica y es necesario recurrir a métodos de simulación.
4.2. Métodos de estimación 133

Y=0 Y=2
5

5
Prior Prior
4

4
Verosimilitud Verosimilitud
Densidad

Densidad
Posterior Posterior
3

3
2

2
1

1
0

0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

θ θ

Y=5 Y=10
5

5
Prior Prior
4

4
Verosimilitud Verosimilitud
Densidad

Densidad
Posterior Posterior
3

3
2

2
1

1
0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

θ θ

Figura 4.6: Comportamiento de las funciones a priori, a posteriori y de ve-


rosimilitud para la proporción de marcas defectuosas y distintos valores de
la muestra en el ejemplo 4.22.

4.2.4. Otros métodos de estimación


Además de los métodos de momentos y los basados en verosimilitud, existen
alternativas para encontrar el estimador de un parámetro, por ejemplo, el
método de medianas, su extensión, el método de percentiles, y el
método de mı́nimos cuadrados. Los primeros dos se revisan en esta
sección, mientras que el último se abordará en la sección 4.3.1.
El método de medianas únicamente se puede aplicar a modelos depen-
dientes de un sólo parámetro y consiste en lo siguiente: suponga que x e0.5
representa a la mediana de la muestra mientras que x0.5 denota a la me-
diana de la distribución. Recuerde que x0.5 es el valor de x para el cual
FX (x0.5 ) = 21 , donde FX (x) es la función de distribución de la variable
aleatoria continua X, o alternativamente,
Z x0.5 Z −∞
1
f (x; θ) dx = f (x; θ) dx = .
−∞ x0.5 2
134 4. Estimación puntual

El método consiste en igualar las medianas y resolver para el parámetro


desconocido, el cual está involucrado en la expresión resultante para x0.5 .
La extensión de este método para el caso de dos o más parámetros puede
hacerse a través del método de percentiles que se describe a continuación.

Método de porcentiles o percentiles


Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el p-ésimo(×100)
percentil de la distribución. Para usar este método se calculan los correspon-
dientes percentiles de la muestra y se igualan con los de la distribución (los
cuales se encuentran en términos de los parámetros desconocidos) y se resuel-
ve para cada parámetro. Observe que si p = 21 , entonces xp es la mediana,
ası́ que el método de las medianas se puede ver como un caso particular.

Ejemplo 4.23 Suponiendo que se tiene una muestra aleatoria de tamaño n


de una población con distribución Exponencial, se desea estimar el parámetro
θ en f (x; θ) = θ exp (−θx) . Primero se resuelve FX (x0.5 ) = 21 o
Z x0.5
1
θe−θx dx = ,
0 2
de donde
1
1 − e−θx0.5 =
2
o
1
e−θx0.5 = ,
2
resultando:
ln 12
x0.5 = − . (4.12)
θ
Igualando (4.12) con x
e0.5 , es decir con la mediana muestral, se obtiene que
1
ln
θb = − 2 .
x
e0.5

Ejemplo 4.24 Usando el método de percentiles, estimar los parámetros en


una distribución Weibull con función de densidad

f (x; θ) = γλxγ−1 exp {−λxγ } .

Dados los percentiles muestrales x


e0.5 = 10000 y x
e0.9 = 100000, ¿cuál es el
estimador para el parámetro γ?
4.2. Métodos de estimación 135

La función de distribución correspondiente es


Z x
FX (x) = γλuγ−1 exp {−λuγ } du
0
Z ∞
= 1− γλuγ−1 exp {−λuγ } du
x

y
∞ ∞
−γλuγ−1 −λuγ
Z
γ−1 γ
γλu exp {−λu } du = e
x −γλuγ−1
x
γ
= e−λx .

Por lo tanto:
FX (x) = 1 − exp {−λxγ } ,
la cual tiene dos parámetros. Si xp es el valor de x tal que FX (xp ) = p,
entonces xp es el 100p-ésimo percentil de la distribución, que para este caso
darı́a las ecuaciones:

FX (x0.5 ) = 1 − exp {−λxγ0.5 } = 0.50

y
FX (x0.9 ) = 1 − exp {−λxγ0.9 } = 0.90,
de donde:
exp {−λxγ0.5 } = 0.50
y
exp {−λxγ0.9 } = 0.10,
que es equivalente a

λxγ0.5 = − ln (0.50) = 0.69315

y
λxγ0.9 = − ln (0.10) = 2.30259.
Es decir:
  γ1
0.69315
x0.5 =
λ
y
  γ1
2.30259
x0.9 = .
λ
136 4. Estimación puntual

Igualando con los respectivos percentiles muestrales, se obtiene:


  γ1
0.69315
= 10000 (4.13)
λ
y
  γ1
2.30259
= 100000. (4.14)
λ
Dividiendo (4.14) entre (4.13):
  γ1
2.30259
= 10
0.69315
o sea,
2.30259
10γ = = 3.32192.
0.69315
De donde se obtiene que
ln 3.32192
γ
b= = 0.521.
ln 10
Usando (4.13), se puede obtener el estimador de λ :
0.69315 0.521
= (10000) = 121.34.
λ
Ası́,
b = 0.69315 = 457 .
λ
121.34 80 000
Si los percentiles muestrales no están dados explı́citamente, se puede usar
el siguiente método para calcularlos: para una muestra de tamaño n, sean
x1 , x2 , ..., xn los valores muestrales en orden ascendente. Sea k = (n + 1) p,
donde p es el orden del percentil que se busca. Sea l la parte entera de k
(l = 1, 2, ..., n − 1) y sea m la parte fraccional de k, 0 ≤ m < 1. Se define

ep = (1 − m) xl + mxl+1
x (4.15)

como el p-ésimo percentil (×100) de la muestra. Observe que xl y xl+1 repre-


sentan los elementos l-ésimo y (l + 1)-ésimo de la muestra, respectivamente.

Ejemplo 4.25 En una muestra de ratas de laboratorio se obtienen los tiem-


pos de muerte dados a continuación: x = 3, 4, 5.7, 7, 8, 10, 10 y 12, donde
el tiempo se mide en dı́as. Usando el método de percentiles, estimar los
4.2. Métodos de estimación 137

parámetros B y c del modelo de supervivencia Gompertz, cuya función de


distribución está dada por:
 
B
FX (x) = 1 − exp (1 − cx ) ,
ln c
con los percentiles 0.25 y 0.65.
Los percentiles 0.25 y 0.65 son tales que
 
B
1 − exp (1 − cx0.25 ) = 0.25
ln c
y  
B
1 − exp (1 − cx0.65 ) = 0.65
ln c

B
(1 − cx0.25 ) = ln 0.75
ln c
B
(1 − cx0.65 ) = ln 0.35
ln c

ln c
cx0.25 = 1 − ln 0.75
B
ln c
cx0.65 = 1 − ln 0.35 .
B
Ası́,
ln 1 − ln 0.75 lnBc
 
x0.25 = (4.16)
ln c
y
ln 1 − ln 0.35 lnBc
 
x0.65 = . (4.17)
ln c
Usando (4.15), se tiene que para el percentil 0.25, k = (9+1)(0.25) = 2.5,
de donde se obtiene xe0.25 = (0.5) (x2 ) + (0.5)(x3 ) = (0.5) (4) + (0.5)(5) = 4.5.
Para el cuantil 0.65, k = (9 + 1)(0.65) = 6. 5, por lo tanto x e0.65 = (0.5)x6 +
(0.5)x7 = (0.5)8 + (0.5)10 = 9.
Igualando los percentiles obtenidos en (4.16) y (4.17) con los percentiles
muestrales, resultan las siguientes ecuaciones:

ln 1 − ln 0.75 lnBc
 
= 4.5 (4.18)
ln c
y
ln 1 − ln 0.35 lnBc
 
= 9.
ln c
138 4. Estimación puntual

Dividiendo la segunda entre la primera, resulta

ln 1 − ln 0.35 lnBc
 
 =2
ln 1 − ln 0.75 lnBc


⇒  2
ln c ln c
1 − ln 0.35 = 1 − ln 0.75
B B
⇒  2
ln c ln c
ln 0.35 = 1 − 1 − ln 0.75
B B
⇒  
2
ln 0.35z = 1 − 1 − 2z ln 0.75 + (ln 0.75) z 2 ,
ln c
donde z = B . Simplificando la última expresión se obtiene:
2
(ln 0.75) z 2 − z [2 ln 0.75 − ln 0.35] = 0,

o
0.83z 2 − (0.4744) z = 0,
de donde
0.4744
z= = 5.7163.
0.083
Es decir, lnBc = 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustitu-
yendo este último valor en (4.18), se tiene:

ln 1 − ln 0.75 5.7163B
 
B
= 4.5
5.7163B
y despejando B, se llega al resultado B
b = 0.03780. Finalmente, b
c = 1.2412.

Existen diferentes propuestas para obtener estimadores, entonces es ne-


cesario establecer criterios para evaluarlos y compararlos. En las siguiente
secciones se abordará este tema.

4.3. Evaluación de estimadores


Dado que hay varios métodos para encontrar estimadores, una pregunta
natural es, si se pueden tener estimadores distintos para una parámetro,
¿cuál es mejor o cuál se debe elegir? Es necesario contar con criterios para
responder a esta pregunta y poder decidir cuál estimador es mejor en algún
sentido.
4.3. Evaluación de estimadores 139

4.3.1. Error cuadrático medio y estimadores insesgados


El primer criterio que se analizará es el del error cuadrático medio, concepto
que se introduce a continuación.

Definición 4.6 Sea T (X1 , . . . , Xn ) un estimador de τ (θ). Se define el error


cuadrático medio (ECM) de T como

ECMT (θ) = E[(T (X) − τ (θ))2 ].

Es decir, el error cuadrático medio mide el error cometido al estimar τ (θ)


con T (X). Esta medida es un error promedio al considerar los valores que
puede tomar la variable aleatoria T (X) y se calcula como la esperanza de los
errores al cuadrado, tomando los errores como la diferencia entre los valores
de la variable aleatoria y el valor del parámetro.
La idea es que si se tienen dos estimadores T1 (X) y T2 (X) para τ (θ) y
ECMT1 (θ) < ECMT2 (θ), entonces se elige a T1 como estimador para τ (θ).
Si se desarrolla la expresión E[(T (X) − τ (θ))2 ], se obtiene que

ECMT (θ) = E[T 2 − 2τ (θ)T + (τ (θ))2 ]


= E(T 2 ) − 2τ (θ)E(T ) + τ 2 (θ)
= E(T 2 ) − E2 (T ) + E2 (T ) − 2τ (θ)E(T ) + τ 2 (θ)
= V ar(T ) + [E(T ) − τ (θ)]2
| {z }
sesgo de T

A E(T ) − τ (θ) se le conoce como sesgo de T . Es importante hacer notar


que si el sesgo de T es cero, entonces ECMT (θ) = V ar(T ).

Definición 4.7 Un estimador T (X) de τ (θ) es insesgado si E [T (X)] = τ (θ)


(es decir, en promedio, el estimador es igual al parámetro).

Nota: si T es insesgado, entonces ECMT (θ) = V ar(T ).

Observación 4.2 1. En el caso continuo, el error cuadrático medio E[(T −


τ (θ))2 ] puede calcularse como
Z Z
... (t(x1 , x2 , . . . , xn ) − τ (θ))2 fX1 (x1 ; θ) . . . fXn (xn ; θ)dx1 . . . dxn .

2. El ECM puede pensarse también como una medida de la dispersión de


T alrededor de τ (θ).
140 4. Estimación puntual

3. ECMT1 (θ) y ECMT2 (θ) pueden cruzarse, es decir, en general no se


cumple que para todo θ ∈ Θ, ECMT1 (θ) < ECMT2 (θ) (ó ECMT1 (θ) >
ECMT2 (θ) ).

Ejemplo 4.26 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


N (µ, σ 2 ). Considere
T1 (X) = X̄
un estimador para µ. Sean
n
1 X
T2 (X) = S 2 = (Xi − X̄)2
n − 1 i=1
y
n
2 1X n−1 2
T3 (X) = σ̂M V = (Xi − X̄)2 = S ,
n i=1 n

estimadores para σ 2 .
Para revisar si son insesgados:
Note que
E(T1 (X)) = E(X̄) = µ.
Por lo tanto, T1 sı́ es insesgado.
También note que
E [T2 (X)] = E(S 2 ) = σ 2 .
Por lo tanto, T2 sı́ es insesgado.
Sin embargo,
 
n−1 2 n − 1  2 n − 1 2
E(T3 (x)) = E S = E S = σ .
n n n
Por lo tanto, T3 no es insesgado.
Para encontrar el error cuadrático medio de T1 , T2 y T3 :
Como T1 es insesgado, entonces
σ2
ECMT1 (µ, σ 2 ) = V ar(X̄) = .
n

Como T2 es insesgado, entonces


2σ 4
ECMT2 (µ, σ 2 ) = V ar(S 2 ) = .
n−1
4.3. Evaluación de estimadores 141

Sin embargo, como T3 no es insesgado, entonces

ECMT3 (µ, σ 2 ) = V ar(T3 ) + (sesgo2 ).

Pero
(n − 1)2 2σ 4
 
n−1 2 2(n − 1) 4
V ar(T3 ) = V ar S = 2
= σ .
n n n−1 n2

Y
 2
2 2 2 n−1 2
(sesgo) = (E(T3 ) − σ ) = σ − σ2
n
2
σ4

n−1−n
= σ4 = .
n n2

Por lo tanto,

2(n − 1) 4 σ 4 2n − 1 4
ECMT3 (µ, σ 2 ) = 2
σ + 2 = σ .
n n n2

Pero note que


2 2 2 1 2 2n − 1 2
< ⇒ − 2 < ⇒ <
n n−1 n n n−1 n2 n−1
(2n − 1)σ 4 2σ 4
⇒ 2
< ⇒ ECMT3 < ECMT2 .
n n−1
Con esto se puede observar que aunque T2 es insesgado, T3 tiene un
menor ECM, lo cual exhibe que no siempre un estimador insesgado
tiene el menor ECM.

Ilustración mediante simulación


Se simula un conjunto de M = 1000 muestras de tamaño n = 3 cada una.
Los estimadores T1 (X), T2 (X) y T3 (X) del ejemplo 4.26, se grafican en las
figuras 4.7 y 4.8.
142 4. Estimación puntual

T1 insesgado

2


● ●
● ●

● ●

● ●
● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ●
●● ● ● ●

1 ● ●
● ● ● ●● ●
● ●
● ● ● ●
● ● ● ● ●
● ●
● ●● ● ● ● ●
● ● ●
● ●
● ● ● ● ● ●
● ● ●● ●
● ● ● ● ●● ● ●
● ● ● ●● ●
● ● ● ● ● ● ● ●
●●
● ● ● ●
● ● ● ● ● ●●
● ● ● ● ●● ● ●
● ● ● ● ●
●●● ● ● ●●

● ● ● ● ● ● ● ●● ● ● ● ●
● ● ● ● ● ● ● ● ●●
● ● ● ● ● ● ●● ● ● ●
● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●
● ● ● ●● ● ● ●

µ
● ● ● ●● ● ●● ●
● ● ●● ● ● ●●● ●● ●●● ● ●● ●

Estimación

● ● ● ● ●● ● ● ●● ●
● ●● ●
● ● ● ● ●● ● ● ● ● ● ●
● ● ● ● ●
● ●● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●●●
● ● ● ● ● ● ●● ●● ●● ●
●● ●
●● ●
● ● ● ● ● ●
● ● ● ● ● ●●● ● ● ●
● ● ● ● ●
● ●● ● ●
● ● ●
● ●●●
● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ●● ● ●●●● ● ●● ●● ●●
● ● ● ● ● ● ●● ● ●
●● ● ●● ●● ●● ● ● ●● ●
●● ●
●● ●
● ●● ● ● ● ● ●
● ●●●● ●● ●● ● ● ● ●● ●
● ●●● ●● ● ● ●● ●
●● ● ● ●● ● ●●
● ●
● ●
● ● ●● ● ●● ●
● ●
● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●●
●●
0

● ● ● ● ● ● ● ● ●● ● ● ●
● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ● ●● ●● ● ● ●●

●● ● ● ●● ●
● ●● ● ● ●● ● ●● ● ●● ● ● ●●
● ● ●● ● ● ●●● ● ● ●● ●
● ●●● ● ● ● ● ●● ●
●●

● ● ● ● ●
● ● ●
● ●
● ● ●● ● ● ● ● ● ● ●
●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ●
● ● ● ● ● ●● ● ● ● ●
●● ●●
● ● ●●


● ● ● ● ● ● ● ●
● ● ● ● ●● ● ●
● ● ●● ● ● ●

●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●
●●
●● ● ● ● ● ● ●● ● ● ● ●●
●● ● ●● ●

● ●
● ● ●●
● ● ● ●● ●
●● ● ● ●
● ● ● ● ●● ● ● ●
● ● ●● ● ● ● ● ● ● ●● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
●● ● ● ● ● ● ●●
● ●● ● ● ● ● ● ● ● ●● ●
● ● ● ●● ● ●● ●
● ● ●● ● ●
● ● ● ● ● ●● ●
● ● ●● ● ● ●● ● ●
●● ● ●
● ● ●● ● ● ● ● ● ● ●
● ● ● ●● ● ●● ● ●● ● ● ●●●
● ● ● ●
● ●● ●● ●

● ● ● ● ● ● ● ● ● ●
●●
● ●● ● ●● ● ● ● ●● ● ●●
● ● ● ●
● ● ● ● ● ● ● ●● ● ● ● ●●


● ● ● ●

● ● ● ●
● ● ● ● ● ● ●● ● ● ●
● ● ●
−1

● ● ● ●
● ● ● ● ● ● ●● ● ● ●

● ● ● ● ●
● ● ●● ● ● ● ●
● ●
● ● ● ● ● ●
● ● ●●
● ●
● ●●


● ●● ●


0 200 400 600 800 1000

Muestras

Figura 4.7: El estimador T1 = X es insesgado para µ en el ejemplo 4.26.

T2 insesgado T3 sesgado
8


6

● ● ●
Estimación

Estimación

● ● ●
● ●
● ●


● ●

4

● ● ● ●

● ● ● ●
● ●
● ●
●● ●

● ● ●
● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ●● ● ●
● ● ●● ● ● ●
● ● ● ●
● ● ● ●

● ● ●● ● ● ●
● ● ●
● ● ●●● ●
● ● ● ●●
● ●● ●●
● ● ●
● ● ● ●
● ●● ● ● ● ●● ●
● ●● ● ● ● ● ● ●● ●
● ● ●● ●

●● ● ●● ●● ● ●
● ● ● ● ●

●● ●● ● ● ● ● ● ● ● ● ● ●
●● ● ●
2

● ●● ●● ● ● ●●●● ● ●● ● ● ● ● ●
●● ●● ● ● ● ● ●●● ●

● ● ● ●● ●●

● ● ● ● ●● ● ● ● ●
● ● ● ● ● ●● ●
●●●
● ● ●●
● ● ● ● ● ● ●● ●
● ●● ● ● ● ● ● ● ●●● ● ● ●●

σ σ

● ●
●● ● ●● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ● ●●● ●●
● ●● ●● ●● ●● ● ● ● ●● ● ●● ● ● ●
●● ●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●
●● ● ● ●● ● ●
● ● ● ●● ● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ●● ● ●●●
● ● ● ●●

● ● ● ●● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ●● ●● ● ●●
● ●●●● ●● ●● ● ● ● ●●●● ● ● ●● ● ●
● ● ● ● ● ●●● ● ● ●●●
●● ● ● ● ●● ● ●●
●● ●

● ●● ● ●● ● ● ●● ● ● ●● ●
● ● ●●●● ●● ● ● ● ● ●● ●●● ●● ● ●● ●●● ● ●● ●● ●● ● ● ● ●
● ●● ● ●● ●● ●
● ●●●
● ● ●●
● ● ●●●●● ● ●●● ●● ●
● ● ● ● ●●● ● ●●● ● ●
●●●●● ●
● ● ●● ● ●
● ●
● ●● ● ● ● ●● ●● ●● ● ● ●●● ● ● ● ● ●● ●● ● ●● ●
● ●
● ●
●●
●●
● ●● ●●● ●
● ● ● ●
● ●●●● ● ●●●
● ●●●
● ●● ●● ● ● ●●
● ●●●● ●● ●●● ● ● ●●● ● ●● ●●●●● ●● ● ● ●● ●
● ●
● ● ●
● ●●
● ● ● ● ● ● ● ●
●● ● ●● ● ●● ●● ●● ●
●● ●● ● ● ● ●
●● ● ● ●●● ●●

● ●●
● ● ● ● ●●● ● ●
● ●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ●●● ●● ● ●●● ● ●

● ●● ● ● ●●● ●

●● ● ●●●●●●●●● ● ●● ●●● ● ● ● ● ● ●●●● ●●●● ● ●● ● ●
●● ●● ●● ● ●●●● ● ●●
●●●● ●●

● ● ●●●●
●●

●● ● ●● ● ●●●
●●● ● ● ● ● ●●●●●
● ●
●●● ●
●●
● ●● ● ●●● ●●
●●

● ● ● ●●●● ● ●● ●● ● ●●
●●●
● ● ●● ●
●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●
●● ● ●●
● ● ● ●
●●●● ● ●●● ●●
● ●●● ●●●
●●●● ●
●● ●●● ●
●● ●
● ● ●● ● ● ● ●●● ● ● ●● ●● ●
● ● ● ● ● ● ● ●●●
● ● ● ●● ●

● ●● ●● ● ●●●
● ● ●
●● ●
●●●● ● ● ● ●● ●● ● ●● ●● ●●●● ● ● ● ●● ●●●
●● ●
●●●●● ● ● ●● ● ●● ●
●●●● ●● ●●●●● ●●● ●● ● ●
● ●●
●●● ●● ● ● ●●● ●●●● ● ●●●● ● ●● ● ●
●●●
●● ●● ●●● ● ●●

●●
●●●●● ● ● ●●● ●●
●●●●● ●●●●
●● ●● ●● ●● ● ● ●● ●

● ● ●● ●●● ● ●
●● ●● ● ● ● ●●●●●● ●
● ●

● ● ●● ● ●●●
●●●● ●● ●● ●● ●●●●● ●● ●●●●●● ●●● ● ●● ●
●●●
● ● ●●● ●●●●●●●
● ●●●
●●●●●●●
● ●● ● ● ●
●●
●●●
●●
●● ● ● ●
●●●●● ● ● ● ●
●● ●● ●

● ● ●●● ● ● ●● ● ● ●●●
●●
● ● ● ●
●● ● ●
●● ●●● ●●● ● ●●●● ●● ●●● ●● ●● ●●● ●● ● ● ●● ●●● ●● ● ● ●●●●● ●● ●● ●● ●●● ●●●

●● ● ●● ●●● ● ●● ●
●● ●●● ● ●

● ●●● ● ●●●●
● ● ●
● ●●●●● ● ●●●●●●
●●●● ●
●●
●●●●● ●●● ●● ●● ●●
●● ●●● ●●●●● ● ●● ●●● ● ●●●● ●●●
●●●● ●●●●●●● ● ●●●●●●● ● ● ● ●●● ●●● ●●●●● ●●●●●
● ●●●●● ● ●●●

●● ●●●●●●
●● ●●●●
● ●
●●●●●

● ●●● ●● ●● ●
●●●●● ●● ●●

●●●●●● ● ●●●● ●●●
●●●● ● ●
●●●● ●●● ●● ●●●● ●● ●●● ●●● ●●● ●●●● ●●●
● ●● ●
● ● ●●
●●● ●● ●●●● ● ●
● ● ●● ●

●● ●


●●● ●● ●
●● ●● ●● ●●

●●● ●●●● ●●●●●
● ● ● ● ● ●●● ● ●● ●●● ● ● ●●
● ●●
● ●●
●● ●●●●
● ● ●● ●

● ●●


●●●● ●●● ●
● ●
●● ●●●
● ●●

●● ●●●●●●●●●●●●
● ● ● ●●●●●●●●● ●●●●●● ●●● ●●
● ●
●●●● ●● ● ●●●
● ● ●●●
●● ●●
● ● ● ● ●● ●●●●● ● ● ● ●
●● ● ●
● ● ● ● ●● ●● ● ●
● ●●● ●
● ● ●●
●●● ●●
●●● ●● ●●
●● ●
●●● ● ●●●● ●●● ●● ●●● ●● ●● ●
● ●●●●●● ●
●●
● ●●
0

●● ●●● ● ●● ●● ●●●● ●● ●● ● ● ● ●●● ●●●●●


● ●● ●
●● ●● ●● ● ● ●● ●● ●● ● ● ●● ●

0 200 400 600 800 0 200 400 600 800

Muestras Muestras

Figura 4.8: El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado


para σ 2 , pero tiene un error cuadrático medio menor que T2 (ejemplo 4.26).
4.3. Evaluación de estimadores 143

Método de mı́nimos cuadrados para estimación de parámetros


Existe otro procedimiento de estimación conocido como el método de mı́ni-
mos cuadrados, el cual se usa en distintas aplicaciones para encontrar los
estimadores de los parámetros relacionados con modelos de diversa ı́ndole.
Se ilustrará con un ejemplo en el marco del criterio del error cuadrático
medio.

Ejemplo 4.27 Considere un conjunto de n puntos en el plano

(x1 , y1 ), . . . , (xn , yn )

y el siguiente experimento: se escoge X con P {X = xi } = 1/n, para i =


1, . . . , n; si X = xi se asigna Y = yi . Suponga que Y tiene la forma aX + b
y se desea encontrar un estimador para Y , de tal manera que se minimice el
error cuadrático medio, el cual es:
n
1X
E[(Y − (aX + b))2 ] = [yi − (axi + b)]2 .
n i=1
Pn 2
Para la función S(a, b) = i=1 [yi − (axi + b)] , los valores que minimizan
la expresión satisfacen:
n n n
∂S(a, b) X X X
= −2 yi xi + 2 ax2i + 2b xi = 0,
∂a i=1 i=1 i=1

n n
∂S(a, b) X X
= −2 yi + 2 axi + 2nb = 0,
∂b i=1 i=1

de donde, las soluciones que minimizan el ECM están dadas por


n n
bb = 1 1X
X
yi − b
a xi
n i=1 n i=1

y !
n n n n n n
X 1X X X 1X X
a
b x2i − xi xi = yi xi − yi xi .
i=1
n i=1 i=1 i=1
n i=1 i=1

A estos estimadores se les conoce como el estimador de mı́nimos cuadra-


dos para a y b. A Yb = b
aX + bb se le llama el estimador de mı́nimos cuadrados
de Y .
144 4. Estimación puntual

4.3.2. Consistencia
La consistencia es otra propiedad deseable en un estimador y tiene que ver
con tamaños de muestra grandes, es decir, es una propiedad asintótica. Esen-
cialmente, un estimador es consistente, si para n (el tamaño de muestra)
grande, el error cometido al estimar τ (θ) con Tn (X) , es pequeño (tiende a
cero).
Definición 4.8 (consistencia en ECM). Sea T1 , T2 , ..., Tn una sucesión
de estimadores de τ (θ), donde Tn está basado en una muestra de tamaño
n. Esta sucesión de estimadores de τ (θ) es consistente en error cuadrático
medio (ECM) si:
lı́m E[(Tn (X) − τ (θ))2 ] = 0. (4.19)
n→∞

Note que (4.19) es una convergencia en media cuadrática, de la sucesión


{Tn } a τ (θ).
Ejemplo 4.28 Sea X1 , . . . , Xn una muestra aleatoria
Pn de la distribución
σ 2 ). Considere los estimadores X¯n = n1 i=1 Xi para µ y Sn2 =
N (µ,P
1 n 2 2
n−1 i=1 (Xi − X̄) para σ . Note que

σ 2 n→∞
E[(X¯n − µ)2 ] = V ar(X¯n ) = −→ 0.
n
Por lo tanto X¯n es consistente para µ. También note que
2σ 4 n→∞
E[(Sn2 − σ 2 )2 ] = V ar(Sn2 ) = −→ 0.
n−1
Por lo tanto Sn2 es consistente para σ 2 .
El error cuadrático medio, ECM, es el criterio para medir la bondad de
un estimador. Una propiedad desable de un estimador es que proporcione,
para muestras grandes, un error (ECM) pequeño en la estimación, es decir,
que sea consistente.

Ilustración del concepto de consistencia mediante simulación


Se simula un conjunto de n = 1000 muestras de tamaño i, para i = 2, . . . , n.
Los estimadores X n y Sn2 son consistentes, y se pueden observar las gráficas
correspondientes en las figuras 4.9 y 4.10.
Definición 4.9 Se dice que una sucesión de estimadores {Tn }n∈N es con-
sistente simple si y sólo si
∀ > 0 lı́m P(|Tn − τ (θ)| < ) = 1. (4.20)
n→∞
4.3. Evaluación de estimadores 145

La consistencia en ECM implica la consistencia simple. Esto se puede


analizar desde dos perspectivas: la primera, notando que (4.20) es una con-
vergencia en probabilidad y usando el hecho de que la convergencia en r-ési-
ma media implica la convergencia en probabilidad; la segunda, utilizando la
desigualdad de Chebyshev:

2 E[(Tn − τ (θ))2 ]
P(|Tn − τ (θ)| ≥ ) = P([Tn − τ (θ)] ≥ 2 ) ≤
2
y la definición de consistencia en ECM.

Xbar consistente
0.6


0.4



µ


0.2


● ●●
Estimación

● ●●

● ● ● ● ●
●● ●
●● ●
● ● ● ● ● ● ●
●● ● ●
● ● ● ● ● ●
● ● ● ● ●●● ● ● ● ●
● ● ● ●● ● ●●● ● ● ●● ●● ● ● ● ● ●
● ● ●● ● ●● ● ● ●
●● ●● ● ●●●● ● ●● ● ● ●
● ●● ● ● ● ● ●● ● ● ● ●
●●● ●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●
● ● ●● ●● ● ● ● ●● ● ● ● ●
● ● ● ●●● ● ●● ● ●● ●●● ● ● ● ●● ● ● ●● ●● ●●●●
●● ●● ●● ●●


●●
● ● ●● ●● ●
●● ●
● ●● ● ● ● ● ●●● ● ● ●● ● ●● ● ●● ● ●●●● ● ●
● ●● ● ● ● ●●● ●●●●●● ●● ● ●
● ● ●●●●● ●●●●●●●● ● ●

0.0

● ● ● ● ● ● ●● ● ● ● ● ●●●● ●● ● ● ●●● ●● ●●●● ●● ●● ● ● ● ● ●●


● ● ● ●●● ● ● ● ● ●● ●● ●
●●●●● ●
● ● ● ● ● ● ●●●● ●●●● ●●● ●● ● ●● ●● ●●●● ●● ●●●●●
●● ● ● ●●●●●●● ●● ●●
●● ●● ● ● ●●
●●
●●●● ●●●● ● ●●
● ● ● ● ●●●● ● ●●● ● ● ● ● ● ●● ●● ● ●●●● ● ● ● ●● ●●●

●● ● ●●●● ● ●● ● ●●● ●● ●●● ● ●● ●●● ●●
● ●●●●●●●●● ●●
● ● ● ● ● ●
●● ●● ● ● ● ● ● ●● ● ● ●
● ● ● ●

● ● ● ●
●● ●●●●
● ●●● ● ● ●●● ● ●●
●●●●● ●●●● ● ● ●● ●
●● ●
● ● ●●● ● ● ●●● ●●● ●●● ● ● ●● ●
● ●● ● ●●● ● ●
●●
●● ● ●● ● ●●● ●
● ●●●● ●
● ●●●● ● ● ● ● ● ●● ● ● ●● ● ●● ●
● ● ● ●●●●● ●●●●●●●●● ●
● ● ●●●●
●● ●

●● ●●●● ●● ● ● ● ● ●● ●●●● ● ●●● ● ●● ● ● ●● ●●●●●

●● ●●● ●● ●● ● ●● ●

● ●


● ●●●● ● ● ●● ●● ● ● ●

●● ●● ● ● ●●
● ● ●
●● ● ● ●
● ● ● ● ● ● ●●● ● ● ● ● ● ● ●
●● ●●● ● ● ● ● ●●●● ● ●● ● ● ●
●● ●●●● ●●● ● ● ● ● ●●● ● ●●● ● ●● ● ●● ●● ● ●● ● ● ● ● ● ●
● ● ● ●●●●● ●

● ●
●●●● ●

● ●● ● ●●● ●● ● ● ●● ● ● ● ●● ● ●● ●


● ● ● ● ●● ●● ● ●● ●●●
● ●● ●
● ●●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ●● ● ●● ● ● ● ● ●●
● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●
●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●
●● ● ● ● ● ● ●● ● ● ● ●
● ●●● ● ● ● ●
● ● ● ● ●● ● ● ●
●● ●● ● ● ● ●●
● ● ● ●
● ●
●● ● ● ● ● ●
−0.2

● ●● ● ●● ●
● ●
● ● ●● ● ●

● ● ●

●● ●

● ●

−0.4

● ●

0 200 400 600 800 1000

Tamaño de muestra

Figura 4.9: Ilustración de la consistencia de X en el contexto del ejemplo


4.28.
146 4. Estimación puntual

S2 consistente
2.0

●●

● ●

1.5



Estimación

● ●

● ●

σ
● ● ●●

● ● ●
●● ● ● ●
● ● ●
●● ● ● ●●
● ●
● ● ●● ● ● ● ● ●
● ● ●●● ● ● ●● ● ● ●
●● ● ●●● ● ● ●● ● ● ●● ●● ●● ●
● ●● ● ● ● ●● ●● ● ●
● ●
● ● ● ● ●
● ●●●●● ● ●●●● ●● ●
●● ●
● ● ●
● ● ● ● ● ● ●● ●●● ●
● ● ●
● ● ● ●● ● ● ● ●●
● ● ●● ● ● ● ●●● ●
● ●●● ●● ●● ●●● ●
●● ●
● ● ● ●●
● ● ●
● ●● ●● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ●●● ●●●● ●●●● ●●●●
● ● ●● ● ● ●
●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●●●● ● ● ●● ● ●● ● ●● ● ● ● ●●● ●
● ● ● ● ● ●● ●●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●● ●●● ● ●● ● ● ● ● ●● ●● ●
1.0

● ●
●● ● ●●●● ● ● ●●●● ●●● ●● ● ●●
●● ●● ● ●● ● ●●
● ●●●●●● ●●●
● ● ●●
● ● ● ●● ●● ● ●●● ● ●●●
●●
● ●
●● ●● ●●
●● ●● ● ● ● ● ●●●●● ●● ●●● ●●● ●

●●●●●
●●● ● ●● ●● ●
● ● ●● ● ●
●● ● ● ● ● ●● ●

● ●● ● ●
● ●● ● ●● ●
●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●
●●● ●● ● ● ●● ●
●●● ● ●● ●● ●
●● ● ●●● ● ● ●
● ●● ●● ●● ●●●●●●
●●●●●●●
●●●●●
● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●●●● ●●●●●
● ● ● ●
●● ● ●●● ●● ● ●●
● ● ●●●
● ●●
●●●● ●
● ●●● ● ● ●●●
●● ●● ● ● ●●● ● ● ●● ● ●

● ●●●● ●● ●● ● ● ● ●
●● ● ●●●●● ●● ● ●● ● ●●●● ● ●● ● ● ● ●●
● ● ●● ●
● ●

● ● ● ● ● ●●●● ●●

● ● ● ● ● ● ●●● ●●● ● ● ●● ● ●● ●● ●● ● ●●● ●●●● ● ●●● ● ●● ● ● ●●● ● ● ● ●●● ● ●
● ● ● ● ●● ●● ●
● ●●● ●●● ● ●●●●● ● ● ●● ● ●● ●● ● ●● ● ● ●

● ●●
● ●●●● ● ● ● ●●● ●● ●●● ●

● ●● ● ●●● ● ● ●● ●
● ●● ● ● ● ● ● ●
●● ● ● ●● ● ●● ●
● ● ● ● ●
●● ●● ● ● ●●● ●● ● ●● ●
● ●
●● ●●●● ●
● ●
● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●●
● ●● ● ●●
● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ● ● ●
●● ● ●● ● ●
● ●● ●● ● ● ● ●● ● ● ●
● ●● ●● ●
● ● ●●
● ●

● ●● ● ● ● ● ●● ● ● ●

● ●● ● ● ● ● ● ● ● ● ●

●●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
●● ● ● ●●●● ●


● ●● ●
● ●●
● ●

●● ● ●




● ●
0.5



0 200 400 600 800 1000

Tamaño de muestra

Figura 4.10: Ilustración de la consistencia de S 2 en el contexto del ejemplo


4.28.

4.3.3. Funciones de pérdida y estimación


El enfoque Bayesiano al problema de estimación de parámetros es a través
de una función de pérdida L(θ, a), la cual mide la pérdida en que se incurre
cuando se estima el valor de un parámetro mediante a, siendo que el verdade-
ro valor es θ. Entonces θ̂ se selecciona de tal manera que minimice E[L(θ, θ̂)],
donde esta esperanza se toma con respecto a θ usando la distribución a
posteriori π(θ|x).

Definición 4.10 A L(θ, a) = (a − θ)2 se le llama la función de pérdida


del error cuadrático.

Observe que:
Z Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ = (a − θ)2 π(θ|x1 , . . . , xn )dθ.

Diferenciando esta expresión con respecto a a, se obtiene:


4.3. Evaluación de estimadores 147

Z Z
2 (a − θ)π(θ|x1 , . . . , xn )dθ = 0 =⇒ a = θπ(θ|x1 , . . . , xn )dθ

Por lo tanto, la pérdida del error cuadrático se minimiza en θ̂, la media o


esperanza a posteriori de θ.

Definición 4.11 A L(θ, a) = |a − θ| se le llama la función de pérdida


del error absoluto.

En este caso,
Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ
Z a Z ∞
= (a − θ)π(θ|x1 , . . . , xn )dθ + (θ − a)π(θ|x1 , . . . , xn )dθ.
−∞ a
Diferenciando con respecto a a, se llega a que el mı́nimo debe cumplir que:
Z a Z ∞
π(θ|x1 , . . . , xn )dθ − π(θ|x1 , . . . , xn )dθ = 0
θ=−∞ a

1
Ası́, ambas integrales deberı́an ser iguales a 2 y θ̂ es la mediana a poste-
riori.

Ejemplo 4.29 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución P oisson(λ), Suponga que λ ∼ Exponencial(1), de modo que

π(λ) = e−λ , λ > 0.

La distribución a posteriori es
n
Y e−λ λxi Pn
π(λ|x1 , . . . , xn ) = e−λ ∝ e−λ(n+1) λ i=1 xi
,
i=1
xi !
Pn
es decir, Gama( i=1 xi + 1, n + 1). Entonces, usando la función de pérdida
del error cuadrático medio:
Pn
xi + 1
θ̂ = media a posteriori = i=1 .
n+1
Y bajo la función de pérdida del error absoluto, θ̂ es la solución a:
Pn Pn
θ̂
e−λ(n+1) λ xi xi +1
Z
i=1 (n + 1) i=1 1
Pn dλ = .
0 ( i=1 xi )! 2
148 4. Estimación puntual

4.4. Estimación insesgada


En esta sección se hará una restricción considerando únicamente a los esti-
madores insesgados, es decir, a los estimadores T (X) que pertenecen a la
clase:
Cτ (θ) = {T (X) | E [T (X)] = τ (θ)} ,
la clase de estimadores insesgados para τ (θ) .
El siguiente ejemplo muestra la idea subyacente en esta sección en cuanto
a la estimación basada en minimizar la varianza de estimadores insesgados.
Ejemplo 4.30 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución P oisson(λ). Primero note que
E(Xi ) = λ, V ar(Xi ) = λ y E(Xi2 ) = V ar(Xi ) + E2 (Xi ) = λ + λ2 .
Pn
Considerando ahora la estadı́stica G(X1 , . . . , Xn ) = i=1 Xi , note que G(X)
tiene distribución P oisson(nλ); por lo que E(G) = nλ y V ar(G) = nλ. Sean
a ∈ (0, 1) una constante y
Ta (X1 , . . . , Xn ) = aX̄ + (1 − a)S 2 .
Entonces,
1
E(X̄) = E(G) = λ;
n
1 λ
V ar(X̄) = V ar(G) = ;
n2 n
λ
E(X̄ 2 ) = V ar(X̄) + E2 (X̄) = + λ2 ;
n
n
1 X
E(S 2 ) = E( X 2 − nX̄ 2 )
n − 1 i=1 i
1 λ
= (n(λ + λ2 ) − n( + λ2 ))
n−1 n
1
= (nλ − λ) = λ, y
n−1
E(Ta (X1 , . . . , Xn )) = E(aX̄ + (1 − a)S 2 ) = aE(X̄) + (1 − a)E(S 2 ) = λ.
Ası́, se tiene una familia infinita de estimadores insesgados para λ; entonces
se puede optar por utilizar el estimador que tenga el menor ECM.
Definición 4.12 Un estimador T ∗ (X) insesgado de varianza mı́nima uni-
formemente (UMVUE5 ) para τ (θ) satisface:
5 Por Uniformly Minimum Variance Unbiased Estimator.
4.4. Estimación insesgada 149

(a) T ∗ (X) ∈ Cτ (θ) , es decir, E [T ∗ (X)] = τ (θ) .


(b) Para todo θ ∈ Θ, V ar (T ∗ (X)) ≤ V ar (T (X)) , donde T (X) es cual-
quier otro estimador en Cτ (θ) .

El UMVUE se refiere entonces al mejor estimador insesgado para τ (θ)


en el sentido de que tiene el menor error cuadrático medio para toda θ ∈ Θ.
El objetivo de esta sección es encontrar el UMVUE para τ (θ) , para ello
se discutirán tres resultados en donde se utilizan los conceptos analizados
previamente. En primer lugar se analizará el planteamiento que Cramèr y
Rao hicieron con base en el cálculo de una cota inferior para la varianza de
un estimador insesgado. Esta propuesta tiene ciertas restricciones, como el
hecho de que requiere el cumplimiento de ciertas condiciones de regularidad
para la densidad, entre otras. Posteriormente se enunciará el teorema de
Rao-Blackwell, el cual utiliza la suficiencia de una estadı́stica para la cons-
trucción de UMVUEs bajo la idea de que un estimador que se basa en una
estadı́stica suficiente será mejor que otro que no lo hace. Finalmente se enun-
cia el teorema de Lehmann-Scheffé, el cual, además de la suficiencia, utiliza
el concepto de completez y permite encontrar un UMVUE construyendo un
estimador insesgado a partir de una estadı́stica suficiente y completa, la que
a su vez puede hallarse usando los resultados antes vistos o, en su caso,
identificando a un miembro de la familia exponencial.

4.4.1. La propuesta de Cramèr y Rao


En esta sección se estudia un resultado propuesto por Cramèr y Rao, el cual
se basa en el hecho de que, para ver qué tan bueno es un estimador insesgado
con respecto a otro, es necesario analizar la varianza de dicho estimador. Ası́,
si la varianza o el error estándar de un estimador es una cantidad de interés
para hablar de su bondad, serı́a deseable contar con una expresión con la
cual pueda compararse esta varianza. Esta expresión será una cota inferior
para la varianza, de tal manera que si la varianza de un estimador insesgado
es igual a esa cota, se puede afirmar que el estimador es el UMVUE. Antes de
presentar el teorema de Cramèr y Rao, en donde se da la cota mencionada,
es necesario enunciar algunas definiciones y resultados que servirán para la
demostración de dicho teorema.

Definición 4.13 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) y sea


T(X) un estimador insesgado de τ (θ). Las siguientes se conocen como con-
diciones de regularidad:
El soporte de f (x; θ) se define como sop(f ) = {x : f (x) > 0} y este es
el mismo para toda θ.
150 4. Estimación puntual


Para todo x ∈ sop(f ), ∂θ ln f (x; θ) existe.

R R R RR R ∂
∂θ ... T (x)f (x; θ)dx1 ...dxn = ... ∂θ T (x)f (x; θ)dx1 ...dxn .
∂ ∂
R R R R R R
∂θ ... f (x; θ)dx1 ...dxn = ... ∂θ f (x; θ)dx1 ...dxn .
 2 
0 < E ∂ ln∂θ f (x;θ)
< ∞.

Observe que esta definición establece principalmente la condición que


debe cumplir una función para que se puedan intercambiar derivadas e inte-
grales, lo cual no siempre se cumple. En general, los miembros de la familia
exponencial cumplen las condiciones de regularidad, pero densidades como la
Uniforme Continua no. Para ver este caso especı́fico de la Uniforme considere
su función de densidad
1
f (x; θ) = I(0,θ) (x) .
θ
A continuación se obtiene la derivada con respecto a θ de la integral, de la
siguiente manera:
Z θ Z θ
∂ ∂ 1
t (x) f (x; θ)dx = t (x) dx.
∂θ 0 ∂θ 0 θ
Utilizando la regla de Leibnitz, la cual es una aplicación del teorema Funda-
mental del Cálculo y de la regla de la cadena, y que establece que si h(x; θ),
a (θ) y b (θ) son diferenciables con respecto a θ, entonces
Z b(θ)
∂ ∂ ∂
h(x; θ)dx = h (b (θ) , θ) b (θ) − h (a (θ) , θ) a (θ)
∂θ a(θ) ∂θ ∂θ
Z b(θ)

+ h(x; θ)dx.
a(θ) ∂θ

En el caso que se está analizando, a (θ) = 0, b (θ) = θ y h (x; θ) = t (x) θ1 .


Z θ Z θ  
∂ 1 t (θ) ∂ 1
t (x) dx = + t (x) dx
∂θ 0 θ θ 0 ∂θ θ
Z θ  
∂ 1
6= t (x) dx,
0 ∂θ θ

al menos que t(θ)


θ = 0.
Ahora se definirán algunas funciones que están involucradas en la cota
inferior para la varianza propuesta por Cramèr y Rao.
4.4. Estimación insesgada 151

Definición 4.14 La función score o función de puntaje se define como:



Sc(x; θ) = ln f (x; θ).
∂θ
Definición 4.15 La información esperada de Fisher se define como:
" 2 #

= E (Sc)2 .
 
IX (θ) = E ln f (X; θ)
∂θ

Observación 4.3 La función score también puede escribirse como:


∂ f 0 (x; θ)
Sc(x; θ) = ln f (x; θ) =
∂θ f (x; θ)
n n
∂ Y X ∂
= ln f (xi ; θ) = ln f (xi ; θ). (4.21)
∂θ i=1 i=1
∂θ

Lema 4.1 Si se satisfacen las condiciones de regularidad, entonces:


(a) E(Sc) = 0.
(b) V ar(Sc) = IX (θ).
Demostración.
(a)
Z Z Z  

E [Sc(x; θ)] = ··· ln f (x; θ) f (x; θ)dx1 ...dxn

Z Z Z 0
f (x; θ)
= ... f (x; θ)dx1 ...dxn
f (x; θ)
Z Z Z

= ... f (x; θ)dx1 ...dxn
∂θ
Z Z Z

= ... f (x; θ)dx1 ...dxn
∂θ

= (1) = 0
∂θ
∴ E(Sc) = 0.
(b)
V ar(Sc) = E(Sc2 ) − E2 (Sc) = IX (θ) − 0 = IX (θ).
∴ V ar(Sc) = IX (θ).

152 4. Estimación puntual

Definición 4.16 Si X es una variable aleatoria, entonces a


" 2 #

IX (θ) = E ln f (X; θ)
∂θ

se le conoce como información esperada de Fisher por unidad mues-


tral.

Es más sencillo calcular la información esperada de Fisher por unidad


muestral y el siguiente resultado la relaciona con la información esperada de
Fisher para la muestra, ası́ como con otras expresiones.

Lema 4.2 Si se cumplen las condiciones de regularidad, entonces:


(a) IX (θ) = nIX (θ).
h 2 i

(b) IX (θ) = −E ∂θ 2 ln f (X; θ) .
h i
∂2
(c) IX (θ) = −nE ∂θ 2 ln f (X; θ) .

Demostración.
P 2
(a) Como (θ) = E(Sc2 ) y usando (4.21), ası́ como el hecho de que ( ai ) =
P 2 IX P
ai + i6=j ai aj ,

 !2 
n
X ∂
IX (θ) = E  ln f (Xi ; θ) 
i=1
∂θ
n
" 2 #
X ∂
= E ln f (Xi ; θ)
i=1
∂θ
X  ∂ 


+ E ln f (Xi ; θ) ln f (Xj ; θ) .
∂θ ∂θ
i6=j

Como las variables X1 , ..., Xn son independientes, se tiene que


 

ln f (Xi ; θ)
∂θ
y  

ln f (Xj ; θ) ,
∂θ
4.4. Estimación insesgada 153

también lo son y
  
∂ ∂
E ln f (Xi ; θ) ln f (Xj ; θ)
∂θ ∂θ

es igual a    
∂ ∂
E ln f (Xi ; θ) E ln f (Xj ; θ) ,
∂θ ∂θ
donde, para el caso continuo, y bajo el supuesto de que se cumplen las
condiciones de regularidad:
  Z ∞ ∂
∂ ∂θ f (xi ; θ)
E ln f (Xi ; θ) = f (xi ; θ)dxi
∂θ −∞ f (xi ; θ)
Z ∞

= f (xi ; θ)dx
−∞ ∂θ
Z ∞
∂ ∂
= f (xi ; θ)dx = (1) = 0.
∂θ −∞ ∂θ

Ası́,
n
" 2 #
X ∂
IX (θ) = E ln f (Xi ; θ)
i=1
∂θ
" 2 #

= nE ln f (X; θ) ,
∂θ

debido a que las Xi ’s son idénticamente distribuidas.


(b) Observe que

∂2 ∂ f 0 (x; θ)
ln f (x; θ) =
∂θ2 ∂θ f (x; θ)
f (x; θ) f 00 (x; θ) − f 0 (x; θ) f 0 (x; θ)
= 2
[f (x; θ)]
00
 0 2
f (x; θ) f (x; θ)
= − .
f (x; θ) f (x; θ)

Ası́,
( 2 )
f 00 (X; θ)
 0
∂2
 
f (X; θ)
−E ln f (X; θ) = −E − ,
∂θ2 f (X; θ) f (X; θ)
154 4. Estimación puntual

y como
f 00 (X; θ) f 00 (x; θ)
  Z Z
E = ··· f (x; θ) dx1 · · · dxn
f (X; θ) f (x; θ)
2 Z Z

= · · · f (x; θ) dx1 · · · dxn = 0,
∂θ2

" 2 #
∂2 f 0 (X; θ)
 
−E ln f (X; θ) = E
∂θ2 f (X; θ)
" 2 #

= E ln f (X; θ)
∂θ
= IX (θ).

(c) Se deduce de los dos resultados anteriores.




Teorema 4.2 (de Cramèr y Rao). Sean X1 , . . . , Xn una muestra aleato-


ria de f (x; θ) y T (X) un estimador insesgado de τ (θ). Si se satisfacen las
condiciones de regularidad, entonces

(τ 0 (θ))2
V ar(T ) ≥ . (4.22)
IX (θ)
| {z }
CICR(τ (θ))

Esta desigualdad se conoce como la desigualdad de Cramèr-Rao o de-


2
[τ 0 (θ)]
sigualdad de la información y a la cantidad IX(θ) como la cota inferior
de Cramèr y Rao (CICR).
En (4.22) la igualdad se da si y sólo si:
n
X ∂
ln f (xi ; θ) = k(θ; n)[T (x) − τ (θ)],
i=1
∂θ

donde k puede depender de θ y de n.


Demostración. Este resultado se deduce de la conocida desigualdad de
Cauchy-Schwarz, la cual establece que si X y Y son variables aleatorias,
entonces:
2
{Cov (X, Y )} ≤ V ar (X) V ar (Y ) ,
4.4. Estimación insesgada 155

dándose la igualdad si y sólo si

Y − E (Y ) = k [X − E (X)] (4.23)

Aplicando esta desigualdad a las variables T (X) y Sc(X; θ), se obtiene:


2
{Cov (T, SC )} ≤ V ar (T ) V ar (SC ) . (4.24)

Usando el lema 4.1, se tiene que V ar(Sc) = IX (θ), por lo que (4.24) se puede
escribir como:
2
{Cov (T, SC )}
V ar(T ) ≥ .
IX (θ)
Por otro lado,
Cov (T, SC ) = E (T SC ) − E (T ) E (SC )
y nuevamente por el lema 4.1, E (SC ) = 0, mientras que:

f (x; θ)
Z Z
E (T SC ) = ··· t (x) ∂θ f (x; θ) dx1 · · · dxn
f (x; θ)
Z Z

= · · · t (x) f (x; θ) dx1 · · · dxn
∂θ
∂ ∂
= E (T (X)) = τ (θ) = τ 0 (θ) ,
∂θ ∂θ
los pasos anteriores se justifican por la definición de SC , las condiciones de
regularidad y el hecho de que T es insesgado para τ (θ) . Ası́,
2
{τ 0 (θ)}
V ar(T ) ≥ .
IX (θ)

Para ver la condición en la que se alcanza la cota, es decir, en la que se da


la igualdad, se usa (4.23), obteniendo:

SC − E (SC ) = k [T − E (T )]
Pn ∂
y como E (SC ) = 0, SC = i=1 ∂θ ln f (xi ; θ) y E (T ) = τ (θ) , se comprueba
la segunda parte del teorema. 

Ejemplo 4.31 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


N (0, σ 2 ). Para encontrar IX (σ 2 ):
156 4. Estimación puntual

 
1 − 2σ12 x2
ln f (x; θ) = ln √ e
2πσ 2
1 1 1
= − ln(2π) − ln(σ 2 ) − 2 x2 ,
2 2 2σ
∂ 2 1 x2
ln f (x; σ ) = − + ,
∂σ 2 2σ 2 2(σ 2 )2
∂2 2 1 x2
ln f (x; σ ) = − .
∂(σ 2 )2 2(σ 2 )2 (σ 2 )3
Entonces,
∂2 E(X 2 )
   
1
IX (σ 2 ) = −nE ln f (X; σ 2
) = n −
∂(σ 2 )2 σ6 2σ 4
 2   
σ 1 1 1 n
= n 6 − 4 =n 4 − 4 = .
σ 2σ σ 2σ 2σ 4
2σ 4
Entonces, la CICR para estimadores insesgados de σ 2 es n .

Ejemplo 4.32 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


exp(θ). Para encontrar IX (θ):

ln f (x; θ) = ln θe−θx = ln(θ) − θx,




de donde
∂ 1
ln f (x; θ) = − x.
∂θ θ
Entonces,
" 2 # " 2 #
∂ 1 n
IX (θ) = nE ln f (X; θ) = nE −X = n V ar(X) = 2 .
∂θ θ θ

Para encontrar la CICR para estimadores insesgados de θ:

τ1 (θ) = θ ⇒ τ10 (θ) = 1.

Entonces,
1 θ2
CICR(θ) = = .
IX (θ) n
Para encontrar la CICR para estimadores insesgados de τ2 (θ) = θ1 :
1 1
τ2 (θ) = ⇒ τ20 (θ) = − 2 .
θ θ
4.4. Estimación insesgada 157

Entonces,
1/θ4 1/θ4 1
CICR(τ2 (θ)) = = = 2.
IX (θ) n/θ2 nθ

Observación 4.4 Para responder a la pregunta: ¿existe alguna función de


θ, τ (θ) , para la cual hay un estimador insesgado cuya varianza coincide con
la CICR?, se usa la segunda parte del teorema, es decir, la condición para
la alcanzabilidad de la cota.

Ejemplo 4.33 Para la distribución Exponencial, ¿existe alguna función de


θ, τ (θ) , para la cual hay un estimador cuya varianza coincide con la CICR?
Usando la segunda parte del teorema de Cramèr y Rao, se tiene que
n n n
X ∂ X ∂  X ∂
ln θe−θxi =

ln f (xi ; θ) = [ln θ − θxi ]
i=1
∂θ i=1
∂θ i=1
∂θ
n   n
X 1 n X
= − xi = − xi
i=1
θ θ i=1
 Pn   
i=1 xi 1 1
= −n − = −n x − .
n θ θ

Ası́, se puede afirmar que τ (θ) = θ1 es una función de θ para la cual existe
un estimador insesgado T (X) = X, cuya varianza coincide con la CICR. En
otras palabras, X es el UMVUE de τ (θ) = θ1 . Aunque en general no es ne-
cesario probarlo, es claro que en este caso: V ar X = θ21n = CICR (τ (θ)) .


Observación 4.5

1. Si la varianza de un estimador insesgado coincide con la CICR, enton-


ces el estimador es un UMVUE. Pero el UMVUE puede existir sin que
su varianza coincida con la CICR.

2. Si la muestra aleatoria es de algún miembro de la familia exponencial,


siempre existe una función de θ para la cual hay un estimador insesgado
cuya varianza coincide con la CICR (basta factorizar
n
X ∂
ln a(θ)b(x) exp{c(θ)d(xi )}
i=1
∂θ

en la forma indicada en la segunda parte del teorema de Cramèr y


Rao).
158 4. Estimación puntual

3. Aun cuando la varianza de un estimador insesgado alcance la CICR,


esta situación se da para una función especı́fica de θ, que puede no ser
la que se esté analizando. En el caso de la distribución Exponencial,
en el ejemplo 4.33 se obtuvo que X es el UMVUE de θ1 usando la se-
gunda parte del teorema de Cramèr y Rao; sin embargo, si el objetivo
es encontrar el UMVUE de θ, este resultado no da información adicio-
nal (salvo la expresión correspondiente para la CICR que sirve para
compararla con la varianza de algún estimador que se proponga).

4. La teorı́a desarrollada por Cramèr y Rao sólo es para densidades que


satisfacen las condiciones de regularidad.

5. Cuando la varianza de un estimador alcanza la CICR también se dice


que es eficiente y la eficiencia de un estimador insesgado se mide como
CICR
V ar(T ) , cantidad que es menor o igual a 1. Por lo que un estimador es
eficiente si y sólo si el cociente anterior es 1.

Dadas estas restricciones se analizarán otros resultados que incorporan


los conceptos de suficiencia y completez, lo cual se hará en las secciones 4.4.2
y 4.4.3.

Generalización
Aquı́ se considerarán brevemente la generalización de la teorı́a de Cramèr y
Rao para cuando se tienen distribuciones de dos o más parámetros. En el
caso de dos parámetros, la información esperada de Fisher (para una muestra
de tamaño n), llamada la matriz de información de Fisher, se define como:
 h 2 i h 2 i 
∂ ∂
E ∂θ ln f (X; θ) E ∂θ ln f (X; θ)
IX (θ) = −  h 21 i h 1 ∂θ 2 i ,
∂2
E ∂θ∂2 ∂θ1 ln f (X; θ) E ∂θ 2
ln f (X; θ)

y para el caso de k parámetros IX (θ) toma la forma:


 h 2 i h 2 i h 2 i 

E ∂θ 2 ln f (X; θ) E ∂θ∂1 ∂θ2 ln f (X; θ) · · · E ∂θ∂1 ∂θk ln f (X; θ)
 h 21 i h 2 i h 2 i 
 E ∂θ∂2 ∂θ1 ln f (X; θ) ∂
E ∂θ 2 ln f (X; θ) · · · E ∂θ∂2 ∂θk ln f (X; θ)
 

 2 
 .. .. .. .. 
 h 2 .

i h 2 . i . h 2 . i


E ∂θ∂k ∂θ1 ln f (X; θ) E ∂θ∂k ∂θ2 ln f (X; θ) · · · ∂
E ∂θ 2 ln f (X; θ)
k

Y la cota inferior de Cramèr y Rao es la inversa de la matriz de información,


−1
es decir, IX (θ).
4.4. Estimación insesgada 159

4.4.2. El teorema de Rao-Blackwell


Como se ha visto, una estadı́stica suficiente conserva toda la información
relevante contenida en la muestra acerca del parámetro de interés. Ası́, los
estimadores basados en estadı́sticas suficientes son mejores (que los que no
están basados en estadı́sticas suficientes) como establece el siguiente resul-
tado.

Teorema 4.3 (Rao-Blackwell). Sean T (X) un estimador insesgado para


τ (θ) y S una estadı́stica suficiente. Sea T ∗ (X) := E(T |S). Entonces,

(a) T ∗ es una estadistica función de S.

(b) T ∗ es insesgado para τ (θ), es decir, E (T ∗ ) = τ (θ).

(c) V ar(T ∗ ) ≤ V ar(T ) para toda θ ∈ Θ.

Demostración.

(a) Usando la definición de la esperanza condicional en el caso continuo,


Z ∞
T∗ = tfT /S (t/s) dt
−∞

es una función de S, además fT /S no depende de θ por ser S una


estadı́stica suficiente, por lo que T ∗ es una estadı́stica.

(b) Por las propiedades de la esperanza condicional,

E (T ∗ ) = E (E (T /S)) = E (T ) = τ (θ).

(c) Usando las propiedades de la varianza condicional,

V ar(T ) = V ar (E (T /S)) + E (V ar (T /S)) ,

lo cual implica que

V ar(T ) = V ar (T ∗ ) + E (V ar (T /S)) ,

y como V ar (T /S) ≥ 0, se obtiene el resultado.


160 4. Estimación puntual

Ejemplo 4.34 Sea X1P , . . . , Xn una muestra aleatoria de la distribución


n
Bernoulli(θ). S(X) = i=1 Xi es una estadı́stica suficiente para θ, lo cual
se ha verificado (basta ver que la distribución Bernoulli pertenece a la familia
exponencial). T (X) = X1 es un estimador insesgado de θ (pues E(X1 ) = θ).
Entonces
n
!
X

T (X) = E(T |S = s) =E X1 | Xi = s
i=1
n
!
X
=0 · P X1 = 0| Xi = s
i=1
n
!
X
+ 1 · P X1 = 1| Xi = s
i=1
n
!
X
=P X1 = 1 | Xi = s
i=1
Pn
P (X1 = 1, i=1 Xi = s)
= Pn .
P ( i=1 Xi = s)
Pn
Donde Xi ∼ Bin(n, θ). Pero
i=1
Pn Pn
P(X1 = 1; i=1 Xi = s) P(X1 = 1)P ( i=2 Xi = s − 1)
Pn = n s

n−s
s θ (1 − θ)
P( i=1 Xi = s)
n−1
 n−1
 (n−1)!
θ s−1 θs−1 (1 − θ)n−1−s+1 s−1 (s−1)!(n−s)! s
= n s

n−s
= n
 = n!
= .
s θ (1 − θ) s s!(n−s)!
n
Por lo tanto, Pn
Xi
T ∗ (X) = i=1
= X.
n
El estimador resultante es insesgado, pues E(X̄) = θ y tiene varianza menor
que X1 , ya que
θ(1 − θ)
V ar(X̄) = ≤ θ(1 − θ) = V ar(X1 ),
n
las cuales son iguales sólo en el caso n = 1.

4.4.3. El teorema de Lehmann-Scheffé


El siguiente resultado muestra que un estimador insesgado función de la
estadı́stica suficiente y completa será el UMVUE.
4.4. Estimación insesgada 161

Teorema 4.4 (Lehmann-Scheffé). Sea X1 , . . . , Xn una muestra aleatoria


de f (x; θ) y sea S una estadı́stica suficiente y completa. Sea T ∗ (X) una
función de S tal que E(T ∗ ) = τ (θ) (T ∗ es insesgado para τ (θ)), entonces T ∗
es el UMVUE de τ (θ).

Demostración. Sea T 0 (X) , función de S, tal que E(T 0 ) = τ (θ). Sea g(S) =
T ∗ − T 0 . Note que

E[g(S)] = E(T ∗ − T 0 ) = E[T ∗ ] − E[T 0 ] = τ (θ) − τ (θ) = 0

∴ E[g(S)] = 0

Entonces, por la completez de S se tiene que P[g(S) = 0] = 1, para toda


θ ∈ Θ. De esta manera, P[T ∗ = T 0 ] = 1 para toda θ ∈ Θ y, por lo tanto, T ∗
es único (c.s.). Es decir, T ∗ es el único estimador insesgado de τ (θ) que es
función de S.
Por otro lado, sea T tal que E[T ] = τ (θ). Por el teorema de Rao-Blackwell,
E[T |S] es estimador insesgado de τ (θ) y es función de S, lo que implica que
T ∗ = E[T |S]. Ası́, por el teorema de Rao-Blackwell, V ar(T ∗ ) ≤ V ar(T ),
para toda θ ∈ Θ. 

Ejemplo 4.35 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


Exp(θ), donde θ > 0. Como f (x; θ) = θe−θx , entonces
Pn f (x; θ) es de la
familia exponencial con d(x) = x. Entonces, S(X) = i=1 Xi es suficiente
y completa. Para encontrar el UMVUE de θ y de τ (θ) = θ1 , se obtiene

n
!
X 1 n
E(S) = E Xi = nE(Xi ) = n =
i=1
θ θ

y como E[X̄] = θ1 , entonces X es el UMVUE de θ1 , pues es función de la


estadı́stica suficiente y completa y además es insesgado para θ (note que
este resultado coincide con el obtenido mediante la teorı́a Cramèr y Rao,
ejemplo 4.33).
Para encontrar el UMVUE de θ, éste será de la forma Pn k Xi , donde
Pn i=1
S = i=1 Xi tiene distribución Gama (n, θ) . Entonces, observe que:
162 4. Estimación puntual

     
k k 1
E Pn =E = kE
i=1 Xi S S
Z ∞
1 θn n−1 −θs
=k s e ds
0 s Γ(n)
Z ∞ n
θ
=k sn−2 e−θs ds
0 Γ(n)
θn Γ(n − 1) ∞ θn−1 (n−1)−1 −θs
Z
=k s e ds
Γ(n) θn−1 0 Γ(n − 1)
| {z }
1
θn Γ(n − 1) Γ(n − 1) kθ
=k n−1 =k = .
θ Γ(n) (n − 1)Γ(n − 1)θ−1 n−1

Por lo que, para que k/Y sea insesgado, k debe ser igual a n − 1. Por lo
tanto,
n−1
T ∗ (X) = Pn
i=1 Xi

es el UMVUE de θ.
Para encontrar la CICR para estimadores insesgados de θ (ver ejemplo
4.32):
" 2 #

IX (θ) =nE ln f (X; θ)
∂θ
" 2 #
∂ −θX
=nE ln θe
∂θ
" 2 #

=nE (ln θ − θX)
∂θ
" 2 #
1
=nE −X
θ
n
=nV ar(X) = 2 .
θ

Entonces, la CICR para estimadores insesgados de θ es:

1 θ2
CICR(θ) = = .
IX (θ) n
4.4. Estimación insesgada 163

El segundo momento de T ∗ (X) = Pn−1


n está dado por:
i=1 Xi

(n − 1)2
   
2 1
E = (n − 1) E 2
S2 S
Z ∞
1 θn n−1 −θs
= (n − 1)2 s e ds
0 s2 Γ(n)

θn
Z
= (n − 1)2 sn−3 e−θs ds
Γ(n) 0
θn Γ(n − 2) ∞ θn−2 (n−2)−1 −θs
Z
= (n − 1)2 s e ds
Γ(n) θn−2 0 Γ(n − 2)
| {z }
1
θn Γ(n − 2)
= (n − 1)2 n−2
θ Γ(n)
Γ(n − 2)
= (n − 1)2
(n − 1)(n − 2)Γ(n − 2)θ−2
(n − 1)θ2
= .
n−2
Entonces,
(n − 1)θ2 θ2
V ar(T ∗ (X)) = − θ2 =
n−2 n−2
es la varianza del UMVUE de θ.
Note que
θ2 θ2
V ar(T ∗ (X)) = > = CICR(θ).
n−2 n
Ejemplo 4.36 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
P oisson(θ). Sea τ (θ) = P(X = 0) = e−θ .

(a) Encontrar el estimador máximo verosı́mil de θ y τ (θ).

(b) Encontrar el estimador por momentos de θ.

(c) ¿Pertenece f (x; θ) a la familia exponencial?

(d) Encontrar una estadı́stica suficiente minimal y completa.

(e) Encontrar la CICR para estimadores insesgados de θ y τ (θ).

(f) ¿Existirá una función de θ, para la cual hay un estimador insesgado


cuya varianza coincide con la CICR? Si es ası́, encontrarlo.
164 4. Estimación puntual

(g) Encontrar un estimador insesgado de τ (θ) y usar el teorema de Rao-


Blackwell para hallar un estimador insesgado función de la estadı́stica
suficiente.
(h) Decir cuáles son los UMVUEs de θ y τ (θ), respectivamente.

Solución:
(a)
n n n I(xi )
Y Y e−θ θxi (x )
Pn Y {0,1,...}
L(θ) = f (xi ; θ) = i
I{0,1,...} = e−nθ θ i=1 xi

i=1 i=1
xi ! i=1
xi !

y el logaritmo de la verosimilitud es
 
n n I(xi )
{0,1,...}
X Y
l(θ) = −nθ + ( xi ) ln θ + ln  ,
i=1 i=1
xi !

de donde, Pn
∂ xi
l(θ) = −n + i=1 .
∂θ θ

Entonces, ∂θ l(θ) = 0 si y sólo si
Pn Pn Pn
xi xi xi
−n + i=1 = 0 ⇔ n = i=1 ⇔ θb = i=1 .
θb θb n
Pn
Por lo tanto θ̂M.V. = n1 i=1 Xi = X̄. Para τ (θ), aplicando la pro-
piedad de invarianza de los estimadores máximo verosı́miles τ (θ̂M.V. )
es estimador máximo versı́mil de τ (θ). Por lo tanto e−X̄ es estimador
máximo verosı́mil de τ (θ) = e−θ .

(b) Recuerde que E(X) = θ, entonces el estimador por momentos está


dado por
n
1X
θ̂ = Xi = X̄.
n i=1

(c) Como
e−θ θx (x)
f (x; θ) = I
x! {0,1,...}
si
1 (x)
a(θ) = e−θ , b(x) = I , c(θ) = ln(θ), d(x) = x.
x! {0,1,...}
4.4. Estimación insesgada 165

Entonces,

f (x; θ) = a(θ)b(x)ec(θ)d(x) .

Por lo tanto pertenece a la familia exponencial.

(d) P
Como f (x; θ) pertenece a la familia exponencial entonces T (x) =
n Pn
i=1 d(Xi ) = X
i=1 i es una estadı́stica suficiente minimal y com-
pleta.

(e) La información esperada de Fisher está dada por

" 2 #

IX (θ) =nE ln f (X; θ)
∂θ
"  −θ X 2 #
∂ e θ
=nE ln
∂θ X!
" 2 #

=nE (−θ + X ln θ − ln X!)
∂θ
" 2 #
X
=nE −1 +
θ
" 2 #
1
=nE (X − θ)
θ
n h 2
i n nθ n
= 2 E (X − θ) = 2 V ar(X) = 2 = .
θ θ θ θ

Para θ se tiene que

θ
CICR(θ) = .
n

Para τ (θ) = e−θ se tiene que

(τ 0 (θ))2 θe−2θ
CICR(τ (θ)) = n = .
θ n
166 4. Estimación puntual

(f) Utilizando la segunda parte del teorema de Cramèr-Rao


n n
X ∂ X ∂ e−θ θxi
ln f (xi ; θ) = ln
i=1
∂θ i=1
∂θ xi !
n
X ∂
= (−θ + xi ln(θ) − ln(xi !))
i=1
∂θ
n 
X xi 
= −1 +
i=1
θ
n
1X n n
=−n+ xi = −n + x̄ = (x̄ − θ).
θ i=1 θ θ

Por lo tanto, para θ hay un estimador insesgado, T ∗ (X) = X̄, cuya


varianza coincide con la Cota de Cramèr-Rao, es decir, X̄ es el UMVUE
de θ.
(g) Considere T (X) = I{0} (X1 ). Note que E(T (X)) = E(I{0} (X1 )) =
P(X1 = 0) = e−θ . Por lo tanto,PT (X) es un estimador insesgado de
n
τ (θ) y ya se vio que S(X) = i=1 Xi es una estadı́stica suficiente
minimal y completa. Entonces,

E(T |S = s) = E(I{0} (X1 )|S = s)


n
!
X
= P X1 = 0| Xi = s
i=1
Pn
P(X1 = 0)P( i=2 Xi = s)
= Pn
P( i=1 Xi = s)
−(n−1)θ
((n−1)θ)s
e−θ e s!
= e−nθ (nθ)s
s!
−θ −(n−1)θ
e e ((n − 1)θ)s e−θ e−nθ eθ (n − 1)s θs
= =
e−nθ (nθ)s e−nθ ns θs
 s
n−1
= .
n
Pni=1 Xi
Entonces, por el teorema de Rao-Blackwell T ∗ (X) = n−1
n .
(h) X̄ es el UMVUE de θ, lo cual se justifica utilizando el inciso (f) o bien,
notando quePX̄ es insesgado para θ y función de la estadı́stica suficiente
n
y completa, i=1 Xi , por lo que usando el teorema de Lehmann-Scheffé
4.5. Propiedades asintóticas de los estimadores 167

Pni=1 Xi
se llega a la misma conclusión. Además, n−1
n es el UMVUE de
τ (θ) por el inciso (g) y el teorema de Lehmann-Scheffé.

4.5. Propiedades asintóticas de los estimado-


res
Hasta ahora se han estudiado distintas propiedades de los estimadores, pe-
ro la mayorı́a, a excepción de la consistencia vista en el apartado 4.3.2, se
refiere a tamaños de muestra pequeños. En esta sección se abordarán propie-
dades que describen el comportamiento de un estimador cuando el tamaño
de muestra es grande, es decir, las propiedades asintóticas de los estimadores.
Como ya se señaló, la consistencia tiene que ver con la precisión asintótica
de un estimador, esto es, que el error cometido al estimar τ (θ) con Tn (X) es
pequeño cuando el tamaño de muestra es grande. Existe otra propiedad que
tiene que ver con la varianza asintóntica de un estimador, la cual se conoce
como eficiencia.
Ya se ha reiterado que la varianza (de los estimadores) juega un papel
importante en la elección del mejor estimador. De hecho en las observacio-
nes 4.5, se menciona la propiedad de eficiencia. A continuación se da una
definición formal de eficiencia asintótica.

Definición 4.17 Una sucesión de estimadores {Tn } es asintóticamente efi-


ciente para un parámetro τ (θ) si

n[Tn − τ (θ)] −→ N [0, CICR(θ)]
en distribución, donde
[τ 0(θ)]2
CICR(θ) =  ∂ ;
E ( ∂θ ln f (X; θ))2

esto es, la varianza asintótica de Tn alcanza la cota inferior de Cramér-Rao.

Bajo las condiciones de regularidad (definición 4.13), se puede demostrar


que los estimadores máximo verosı́miles cumplen las propiedades de consis-
tencia y eficiencia. Es decir, si la muestra aleatoria proviene de una población
con función de densidad que satisface las condiciones de regularidad, enton-
ces el estimador máximo verosı́mil del parámetro θ (o de una función τ (θ))
tiene estas propiedades asintóticas.
Para el caso de la consistencia simple, puede consultarse Stuart, Ord y
Arnold (1999). En cuanto a la eficiencia, se utilizará el siguiente resultado
conocido como el método delta:
168 4. Estimación puntual

Lema√ 4.3 Si {Xn } es una sucesión de variables aleatorias que satisfacen


que n (Xn − θ) → N 0, σ 2 en distribución, entonces para una función τ
y un valor especı́fico de θ, se tiene que
√  
2

n [τ (Xn ) − τ (θ)] → N 0, σ 2 τ 0 (θ)

en distribución.

Demostración. El resultado es consecuencia del teorema de Slutsky, el


cual establece que para dos sucesiones de variables aleatorias {Xn }n≥1 y
{Yn }n≥1 , tales que Xn → X en distribución y Yn → c en probabilidad ,
donde X es una variable aleatoria y c es una constante, se tiene que:

(i) Xn + Yn → X + c, en distribución,

(ii) Xn Yn → cX, en distribución,

(iii) Si c 6= 0 entonces,
Xn X
→ ,
Yn c
en distribución.

El siguiente resultado se refiere a la eficiencia asintótica de los estimadores


máximo verosı́miles.

Teorema 4.5 Sea X1 , X2 , .., Xn una muestra aleatoria de una población con
función de densidad f (x; θ), sea θb el estimador máximo verosı́mil de θ, y
sea τ (θ) una función continua y diferenciable de θ. Bajo las condiciones de
regularidad sobre f (x; θ) y, por lo tanto de la función de verosimilitud L(θ),
se tiene que √
b − τ (θ)] −→ N [0, CICR(τ (θ))],
n[τ (θ)
donde CICR(τ (θ)) es la cota inferior de Cramér-Rao para estimadores in-
sesgados de τ (θ). Esto es, el estimador máximo verosı́mil de τ (θ) , τ (θ),
b es
un estimador eficiente de τ (θ).

Demostración. Se demostrará el caso τ (θ) = θ, es decir, que θb es asintóti-


camente eficiente. Para ello, recuerde que
n
X
l(θ) = ln f (xi ; θ)
i=1
4.5. Propiedades asintóticas de los estimadores 169

es la función de log-verosimilitud. Sean l0 , l00 , .. las derivadas (con respecto a


θ) . Expandiendo la primera derivada de la log-verosimilitud alrededor del
valor verdadero del parámetro, el cual se denotará por θ0 ,
l0 (θ) = l0 (θ0 ) + (θ − θ0 )l00 (θ0 ) + . . . ,
donde se ignoran los términos de orden superior.
Sustituyendo el estimador máximo verosı́mil θb en lugar de θ, se tiene que
l0 (θ)
b = l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + . . . ,

pero el estimador máximo verosı́mil es el cero de la función de verosimilitud,


por lo que
l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + · · · = 0.

Ası́ que reacomodando los términos y multiplicando por n, se obtiene que:
√ √ −l0 (θ0 )
n(θb − θ0 ) = n 00
l (θ0 )
1 0
− n l (θ0 )

= 1 00 .
n l (θ0 )

En 4.4.1 , se vio que


" 2 #

IX (θ) = E ln f (X; θ) .
∂θ

Como
n
0
X ∂
l (θ) = ln f (xi ; θ),
i=1
∂θ
por (4.21)
1
IX (θ0 ) = E [l0 (θ0 )]2 =

CICR(θ)
denota la información esperada de Fisher.
Ahora observe que
" #

1 0 √ 1 X ∂θ f (xi ; θ)
√ l (θ0 ) = n ,
n n i f (xi ; θ)
0
donde Sc(x; θ) = ff (x;θ)
(x;θ)
es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] =
IX (θ), lo cual se probó en el lema 4.1. Ası́, por el teorema del lı́mite central,
1
√ l0 (θ0 ) −→ N [0, I(θ0 )]
n
170 4. Estimación puntual

en distribución y
1
− √ l0 (θ0 ) −→ N [0, I(θ0 )]
n
en distribución. Por otro lado,
#2
∂2
"

1 00 1 X ∂θ f (xi ; θ) 1X ∂θ 2 f (xi ; θ)
l (θ0 ) = − .
n n i f (xi ; θ) n i f (xi ; θ)

Note que la esperanza del primer sumando es IX (θ0 ), mientras que la del
segundo es cero (ver la demostración del lema 4.2). Entonces por la Ley
Débil de los Grandes Números:
1 00
l (θ0 ) −→ I(θ0 ),
n
en probabilidad. En consecuencia, si W es una variable aleatoria tal que
W ∼ N [0, I(θ0 )], entonces
√ − √1n l0 (θ0 )
n(θb − θ0 ) = 1 00
n l (θ0 )

converge en distribución a W/I(θ0 ) ∼ N [0, 1/IX (θ0 )], es decir, a una variable
aleatoria normal con media cero y varianza igual a la cota Inferior de Cramèr
y Rao, lo que demuestra el resultado.
El caso general es consecuencia del método delta, el cual se describe
brevemente a continuación. Una forma alternativa para calcular la varianza
del estimador máximo verosı́mil de τ (θ) es considerando que, debido a la
propiedad de invarianza que tiene el método de máxima verosimilitud,
 
τd(θ) = τ θb .
 
Si se aproxima τ θb mediante una expansión en series de Taylor alrededor
de θ, considerando solamente la primera derivada, se obtiene:
   
τ θb ≈ τ (θ) + θb − θ τ 0 (θ) .

Tomando la varianza de ambos lados, se llega a


h  i  
2
V ar τ θb ≈ (τ 0 (θ)) V ar θb ,
 
debido a que θ es una constante. Como ya se habı́a visto, V ar θb está dada
−1
por IX (θ), ası́ que
h  i (τ 0 (θ))2
V ar τ θb ≈ ,
IX (θ)
4.5. Propiedades asintóticas de los estimadores 171

expresión que corresponde a la cota inferior de Cramèr-Rao para estimadores


insesgados de τ (θ) , con lo que puede observarse que la varianza del estimador
máximo verosı́mil alcanza dicha cota (al igual que en el caso τ (θ) = θ).
En conclusión:

b − τ (θ)] −→ N [0, CICR(τ (θ))].
n[τ (θ)

Ejemplo 4.37 Considere una muestra aleatoria, X1 , . . . , Xn , de la pobla-


ción con distribución Bernoulli(p); se desea obtener un estimador puntual
p
para el momio, τ (p) = (1−p) , ası́ como la varianza de dicho estimador.
El estimador máximo verosı́mil para p̂ es X̄. Por la propiedad de in-
varianza de los estimadores máximo verosı́miles, se tiene que el estimador
X̄n
máximo verosı́mil para τ (p) es (1− X̄n )
. La varianza de este estimador puede
aproximarse de la siguiente manera:
h i2 
d p
 dp ( (1−p) ) 
 

V̂ = 
(1 − p̂) IX (p)

p=p̂
h i2 
1
 (1−p)2 ) 
=  n 
p(1−p)
p=p̂
p̂ X̄n
= 3
= .
n(1 − p̂) n(1 − X̄n )3

Ejemplo 4.38 Considere una sucesión de variables aleatorias, X1 , . . . , Xn ,


independientes e idénticamente distribuidas de una población con distribu-
ción F (·) que es diferenciable. Suponga que se satisface que P (Xi ≤ ψ) =
1/2, es decir, ψ es la mediana poblacional. Sea Mn la mediana muestral y
también suponga que n es impar para simplificar el argumento. Se desea
obtener la distribución asintótica de la mediana muestral.
Se calculará p
lı́m P ( (n)(Mn − ψ) ≤ a),
n→∞

para alguna a. Sean las variables aleatorias Yi0 s definidas como


( p
1 si Xi ≤ ψ + a/ (n)
Yi =
0 en otro caso,
172 4. Estimación puntual

se tiene que las Yi0 s son variables aleatorias Bernoulli con probabilidad de
éxito p
pn = F (ψ + a/ (n)).
p P
Note que el evento {Mn ≤ ψ + a/ (n)} es equivalente al evento { i Yi ≥
(n + 1)/2}. Dado que
pn → p = F (ψ) = 1/2,
P
Yi −npn
se puede utilizar el teorema del lı́mite central, de donde √ i
con-
(npn (1−pn ))
verge a una variable aleatoria Z con distribución normal estándar. Ahora,

(n + 1)/2 − npn (n + 1)F (ψ) − nF (ψ + a/ n)
lı́m p = lı́m p
n→∞ (npn (1 − pn ) n→∞ npn (1 − pn )

n(F (ψ) − F (ψ + a/ n))
= lı́m p
n→∞ npn (1 − pn )

n(F (ψ) − F (ψ + a/ n) 1
= lı́m a √
n→∞ a/ n pn (1 − pn )
= −2af (ψ).
Por lo que p
P ( (n)(Mn − ψ) ≤ a) → P (Z ≥ −2af ψ).
p
Ası́ (n)(Mn − ψ) tiene una distribución normal con media 0 y varianza
1/[2f (ψ)]2 .

4.6. Ejercicios
1. Sea X una variable aleatoria con distribución Gama(α + 1, β), cuya
función de densidad es
β α+1
f (x; α, β) = xα e−βx ,
Γ(α + 1)
con x > 0, α > −1 y β > 0. Obtenga los estimadores de los parámetros
α y β por el método de momentos, para una muestra aleatoria de
tamaño n.
2. Una urna contiene bolas negras y blancas. Se toma una muestra aleato-
ria de tamaño n con reemplazo. ¿Cuál es el estimador máximo verosı́mil
de la razón, R, de blancas a negras en la urna? Para esto suponga que
la bola se obtiene una por una con reemplazo hasta que la bola negra
aparezca. Sea X el número de bolas requeridas no contando la últi-
ma obtenida; este procedimiento se repite n veces para una muestra
aleatoria X1 , . . . , Xn .
4.6. Ejercicios 173

3. Se toma una observación de una variable aleatoria discreta X con fun-


ción de densidad f (x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3}.
x f (x; 1) f (x; 2) f (x; 3)
0 1/3 1/4 0
1 1/3 1/4 0
2 0 1/4 1/4
3 1/6 1/4 1/2
4 1/6 0 1/4
Encuentre el estimador máximo verosı́mil de θ.

4. Sea X una variable aleatoria discreta con función de densidad f (x; θ)


dada en la siguiente tabla, donde θ ∈ {1, 2, 3} y X ∈ {0, 1, 2, 3, 4}.
Se toma una muestra aleatoria de tamaño dos, (X1 , X2 ). Determine el
estimador máximo verosı́mil de θ.
x f (x; 1) f (x; 2) f (x; 3)
0 1/3 1/4 0
1 1/3 1/4 0
2 0 1/4 1/4
3 1/6 1/4 1/2
4 1/6 0 1/4

5. Sea X1 , . . . , Xn una muestra aleatoria de una población con función


de densidad
f (x; θ) = θx−2 I[θ,∞) (x).
Encuentre el estimador máximo verosı́mil de θ. También encuentre el
estimador por momentos para θ.

6. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución


U (θ, 2θ), con θ > 0.

(a) Encuentre el estimador de θ por el método de momentos.


(b) Encuentre el estimador máximo verosı́mil de θ, θ̂M V , y encuentre
una constante k tal que E(k θ̂M V ) = θ.

7. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad  
1 (x − µ)
f (x; µ, σ) = exp − I(µ,∞) (x),
σ σ
donde µ ∈ R y σ ∈ R+ son desconocidos.
174 4. Estimación puntual

(a) Demuestre que el estimador máximo verosı́mil de µ es X(1) (la


mı́nimaPestadı́stica de orden) y el estimador máximo verosı́mil de
n
σ es n1 i=1 (Xi − X(1) ).
µ µ
(b) ¿Cuáles son los estimadores máximo verosı́miles de σ , σ2 y de
µ + σ?
8. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
θ2
f (x; θ) = (x + 1)e−θx I(0,∞) (x), θ > 0.
θ+1
(a) Demuestre que la densidad de X pertenece a la familia exponen-
cial.
(b) Encuentre una estadı́stica suficiente minimal y completa.
(c) Encuentre el estimador por momentos.
(d) Encuentre el estimador máximo verosı́mil.
9. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
f (x; θ) = θxθ−1 I[0,1] (x), θ > 0.
(a) Encuentre el estimador por momentos de θ.
(b) Encuentre el estimador máximo verosı́mil de θ.
(c) Suponga que el verdadero valor de θ es 2. Utilice simulación en R
para comparar el error cuadrático medio (numéricamente) de los
estimadores en los apartados anteriores en muestras de tamaño
n = 30. ¿Qué conclusiones puede extraer?
10. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
1
f (x; θ) = e−|x−θ| , −∞ < θ < ∞.
2
(a) Analice la suficiencia en esta densidad.
(b) ¿Pertenece f (x; θ) a la familia exponencial?
(c) Halle el estimador por el método de momentos para θ.
(d) Halle el estimador máximo verosı́mil para θ.
11. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
P oisson(λ), con función de densidad f (x|λ). Considere que la fun-
ción de distribución a priori de λ es una distribución Gama(α, β), con
función de densidad π(λ).
4.6. Ejercicios 175

(a) Encuentre la distribución a posteriori de λ.


(b) Encuentre el estimador Bayesiano de λ usando la función de pérdi-
da del error cuadrático.

12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Geométrica(θ). Considere que la función de distribución a priori de θ
es una distribución Beta(α, β).

(a) Encuentre la distribución a posteriori de θ.


(b) Encuentre el estimador Bayesiano de θ usando la función de pérdi-
da del error cuadrático.

13. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


N ormal(µ, σ 2 ), donde σ 2 es conocida. Considere que la función de
distribución a priori de µ es una distribución N ormal(η, λ2 ).

(a) Encuentre la distribución a posteriori de µ.


(b) Encuentre el estimador Bayesiano de µ usando la función de pérdi-
da del error cuadrático.

14. Suponga que ciertas pérdidas siguen una distribución W eibull con
parámetros θ y τ . Se tiene la siguiente muestra de 16 pérdidas: 54,
70, 75, 81, 84, 88, 97, 105, 109, 114, 122, 125, 128, 139, 146, 153. Es-
time los parámetros utilizando el método de percentiles, usando los
percentiles 20th y 70th .

15. Se practican n mediciones del radio de un cı́rculo. Si las mediciones


son independientes entre sı́ y los errores se distribuyen N (0, σ 2 ) con σ 2
desconocida, proponer un estimador insesgado para el perı́metro del
cı́rculo y otro para el área.

16. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño cuatro de una


población con distribución N (0, σ 2 ), donde σ es desconocida. Considere
los siguientes estimadores T1 = X12 − X2 + X4 , T2 = 31 (X12 + X22 + X42 ),
P4 P4
T3 = 41 i=1 Xi2 , T4 = 13 i=1 (Xi − X̄)2 y T5 = 21 |X1 − X2 |.

(a) ¿T1 , T2 , T3 , T4 son insesgados?


(b) De entre T1 , T2 , T3 , T4 , ¿cuál tiene el menor error cuadrático me-
dio?
(c) ¿T5 es un estimador insesgado para σ? Si no lo es, encuentre un
múltiplo de T5 que lo sea. Calcule el error cuadrático medio de
T5 .
176 4. Estimación puntual

17. Sea X1 , . . . , Xn una muestra aleatoria de una población con función


de densidad con media µ y varianza σ 2 .
Pn
(a) Pruebe que i=1 ai Xi es un estimador insesgado para µ para
cualquier
Pn valor de las constantes a1 , a2 , . . . , an que satisfagan que
i=1 i a = 1.
Pn Pn
(b) Si i=1 ai = 1, prueba que V ar [ i=1 ai Xi ] se minimiza cuando
ai = 1/n, para i = 1, . . . , n.

18. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad
2x
f (x; θ) = 2 I(0,θ) (x), θ > 0.
θ
(a) Estime θ por el método de momentos. Llame a este estimador T1 .
Encuentre su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de θ. Llame a este es-
timador T2 . Encuentre su media y su ECM.
(c) De entre todos los estimadores de la forma aYn , donde a es un
valor constante que depende de n y Yn = máx{X1 , . . . , Xn }, en-
cuentre un estimador para θ con error cuadrático medio unifor-
memente más pequeño. Llame a este estimador T3 . Encuentre su
media y su ECM de T3 .
(d) Encuentre un UMVUE de θ. Nombre a este estimador T4 . En-
cuentre su media y su ECM.
(e) Define T5 = (Y1 + Yn )/2, donde Y1 = mı́n{X1 , . . . , Xn } y
Yn = máx{X1 , . . . , Xn }. Encuentre su media y su ECM. ¿Qué
estimador de θ preferirı́a y por qué?

19. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


W eibull(α, β), cuya función de densidad es
 β
1 −x
fX (x; α) = βxβ−1 exp I(0,∞) (x),
α α

donde α > 0 es un parámetro desconocido, pero β > 0 se supone


conocido. Encuentre los estimadores máximo verosı́miles de α, α2 y α1
y demuestre que son consistentes en ECM.

20. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


tal que
E (Xi ) = θ + b, V ar (Xi ) = σ 2 ,
4.6. Ejercicios 177

donde b 6= 0, es una constante conocida. Pruebe que X no es un es-


timador consistente en error cuadrático medio para θ. Construya un
estimador insesgado para θ que sea consistente.

21. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


P areto(α, θ), cuya función de densidad es

αθα
f (x; θ) = , x > θ, θ > 0,
xα+1
con α conocida.

(a) Encuentre el estimador máximo verosı́mil para θ. ¿Es este un


estimador insesgado para θ? Si la respuesta es negativa, encontrar
el estimador insesgado.
(b) Encuentre el estimador por el método de momentos para θ. Nue-
vamente verifique si el estimador es insesgado; en caso contrario,
obtenga el estimador insesgado.
(c) ¿Son consistentes los estimadores obtenidos en los incisos anterio-
res?

22. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Bernoulli(θ), donde x ∈ {0, 1} y 0 ≤ θ ≤ 21 . Note que el espacio
paramétrico es Θ = {θ : 0 ≤ θ ≤ 12 }.

(a) Encuentre el estimador de θ por medio del método de momentos.


Calcule su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de θ. Calcule su media
y su ECM.
(c) ¿Los estimadores son consistentes en ECM?
(d) ¿Qué estimador es más eficiente en ECM?

23. Sea X1 , . . . , Xn una muestra aleatoria discreta de la población con


distribución P oisson(λ), donde x ∈ {0, 1, 2, . . .} y 0 < λ ≤ 2. Note que
el espacio paramétrico es Θ = {λ : 0 < λ ≤ 2}.

(a) Encuentre el estimador de λ por el método de momentos. Calcule


su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de λ. Calcule su media
y su ECM.
(c) ¿Los estimadores son consistentes en ECM?
178 4. Estimación puntual

24. Considere las siguientes funciones de densidad:

f1 (x; p) = px (1 − p)1−x I{0,1} (x) donde 0 < p < 1,

log(θ)
f2 (x; θ) = θx I(0,1) (x) donde θ > 1.
θ−1
En cada caso, para una muestra aleatoria de tamaño n, ¿existirán
estadı́sticas T1 (X) y T2 (X) para ciertas funciones τ1 (p) y τ2 (θ), para
las cuales la varianza de Ti (X), i = 1, 2, coincidan con la CICR?
25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (θ, 1).
(a) Encuentre la CICR para la varianza de los estimadores insesgados
de τ1 (θ) = θ, τ2 (θ) = θ2 y τ3 (θ) = P(X > 0).
(b) ¿Existe un estimador insesgado para τ2 (θ) = θ2 ?. Si es ası́, en-
cuéntrelo.
(c) ¿Existe un estimador insesgado para τ3 (θ) = P(X > 0)? Si es ası́,
encuéntrelo.
(d) Encuentre el UMVUE para τ2 (θ) = θ2 .
26. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Beta(θ, 1), donde θ > 0, es decir, con función de densidad

f (x; θ) = θxθ−1 I(0,1) (x).

(a) Encuentre el estimador máximo verosı́mil de τ (θ) = θ/(1 + θ).


(b) Encuentre una estadı́stica suficiente, y compruebe si es completa.
Pn Pn
(c) ¿Es S = i=1 Xi una estadı́stica suficiente?. ¿Es S = i=1 Xi
una estadı́stica completa?
(d) ¿Existe una función de θ, τ (θ), para el cual exista una estimador
insesgado cuya varianza coincida con la CICR? Justifique.
(e) Encuentre un UMVUE para las siguientes funciones de θ:
(i) τ (θ) = θ
(ii) τ (θ) = 1/θ
(iii) τ (θ) = θ/(1 + θ)
27. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Bernoulli(p), con p ∈ (0, 1) con n ≥ 3.
Pn
(a) Sea U = i=1 Xi . Calcule E(X1 |U = u) y obtenga E(X1 |U ).
4.6. Ejercicios 179

(b) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X)


de τ1 (p) = p2 , dado por

T1 (X) = X1 X2 .

(c) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X)


de τ2 (p) = p2 (1 − p) , dado por

T2 (X) = X1 X2 (1 − X3 ).

28. Sea X1 , . . . , Xn una muestra aleatoria de distribución P oisson(λ), con


λ > 0 y n ≥ 2.
(a) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X)
de τ1 (λ) = λ, dado por
1
T1 (X) = (X1 + X2 ).
2
(b) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X)
de τ2 (λ) = e−λ , dado por

T2 (X) = I{0} (X1 ),

1
Pn Xi
(llegará a 1 − n
i=1
).
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T3 (X)
de τ3 (λ) = λe−λ , dado por

T3 (X) = I{1} (X1 ).

29. Sea X1 , . . . , Xn una muestra aleatoria de una población con función


de densidad
1
f (x; θ) = I(−θ,θ) (x), θ > 0.

Encuentre, si existe, el UMVUE para θ.
30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribu-
ción U (0, θ). Sean Y1 y Yn la mı́nima y máxima estadı́sticas de orden,
respectivamente.
(a) Encuentre el estimador por momentos para θ. Llame T1 a dicho
estimador y encuentre su media y error cuadrático medio.
(b) Encuentre el estimador máximo verosı́mil de θ. Llame T2 a dicho
estimador y encuentre su media y error cuadrático medio.
180 4. Estimación puntual

(c) De entre todos los estimadores de la forma aYn , donde a es una


constante que podrı́a depender de n. Encuentre un estimador para
θ que tenga el error cuadrático medio uniformente más pequeño.
Llame T3 a dicho estimador y encuentre su media y error cuadráti-
co medio.
(d) Encuentre el UMVUE de θ. Llame T4 a dicho estimador y en-
cuentre su media y error cuadrático medio.
(e) Sea T5 = Y1 + Yn . Encuentre su media y error cuadrático medio.
(f) Diga ventajas y desventajas de los estimadores T1 , . . . , T5 .

31. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad
θ
f (x; θ) = I(0,∞) (x), θ > 0
(1 + x)1+θ

(a) Encuentre el estimador por momentos para θ suponiendo que θ >


1.
(b) Encuentre el estimador máximo verosı́mil de τ (θ) = 1/θ.
(c) Encuentre una estadı́stica suficiente y completa (si es que existe).
(d) Encuentre la CICR para los estimadores insesgado de τ (θ) = 1/θ.
(e) ¿Existe el UMVUE de τ (θ)? Si es ası́, encuéntrelo.
(f) ¿Existe el UMVUE de θ? Si es ası́, encuéntrelo.

32. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad
f (x; µ) = e−(x−µ) I(µ,∞) (x), µ ∈ R.

(a) Demuestre que T (X) = X(1) = mı́n {X1 , . . . , Xn } es una es-


tadı́stica suficiente y completa.
(b) Encuentre la única función de X(1) que sea el UMVUE de µ.

33. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


P oisson(λ). Sea τ (λ) = (1 + λ)e−λ .

(a) Obtenga el estimador máximo verosı́mil para τ (λ).


(b) Obtenga un estimador insesgado para τ (λ).
(c) Obtenga un UMVUE para τ (λ). Sugerencia: encuentre un esti-
mador insesgado de τ (λ) y utilice el teorema de Rao-Blackwell
para mejorarlo.
4.6. Ejercicios 181

34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Geométrica(θ) con función de densidad

P(X = x) = θ(1 − θ)x , x = 0, 1, 2, . . . , 0 < θ < 1.

(a) Obtenga el estimador por el método de momentos para θ.


(b) Obtenga el estimador máximo verosı́mil para θ.
(c) Calcule la CICR para la varianza de los estimadores insesgados
de θ.
(d) Encuentre un UMVUE para θ.
35. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (θ, θ2 ), θ ∈ R.
(a) ¿Existe una estadı́stica suficiente unidimensional para θ?
(b) Encuentra una estadı́stica suficiente bidimensional para θ.
(c) ¿Es X̄ un UMVUE para θ?
(d) ¿θ es un parámetro de localización o escala?
36. Sea T una variable aleatoria que toma valores en {0, 1, 2, ..., 6} y sean
g1 (t) y g2 (t) dos densidades que corresponden a:
La primera, g1 (t) es la probabilidad de que, de 5 monedas lanzadas al
aire, el número de águilas observadas, T sea igual a t.
La segunda, g2 (t) es la probabilidad de que al lanzar un dado numerado
del 1 al 6, T, la cara que quedó hacia arriba, sea igual a t.
Como una convención se denotará por f (t; θ1 ) = g1 (t) y de manera
similar f (t; θ2 ) = g2 (t), ası́, sin ni siquiera especificar la naturaleza
de θ1 y de θ2 . El espacio paramétrico será Θ = {θ1 , θ2 } con sólo dos
elementos.
a) Se observó t = 1. Exhiba la estimación máximo verosı́mil de
θ ∈ Θ.
b) Repita el inciso anterior si lo que se observó fue t = 2.
c) Observe que sucede algo que es muy raro en planteamientos es-
tadı́sticos: hay dos valores de t para los cuales al hacer la estima-
ción máximo verosı́mil de θ, parece que se puede tener la certeza
de que en esos dos casos, ahora sı́, la estimación se convierte en
identificación (del verdadero valor de θ). Diga cuáles son esos dos
valores y explique porqué hay identificación.
Capı́tulo 5

Estimación por intervalos

Es usual iniciar el estudio de la inferencia estadı́stica con el planteamiento


de estimación puntual para el parámetro (o los parámetros) de una distri-
bución. La perspectiva que se analizó en el capı́tulo anterior no precisa qué
tan cerca del parámetro se encuentra la estimación, sin embargo, es posible
medir el error en términos de la variación muestral o error estándar de dicho
estimador; en este caso se habla de un margen de variación para el valor que
el parámetro puede tomar.
En esta parte se abordará otro enfoque: el planteamiento de estimación
por intervalos.
Para inferir respecto a una caracterı́stica de la población, se prefiere aho-
ra proponer un rango de valores que tenga la posibilidad de contener al
parámetro. Esto se logra generalmente mediante un intervalo que es enten-
dido como un conjunto de valores (calculado a partir de los datos de una
muestra) en el cual puede encontrarse el verdadero valor del parámetro con
un determinado nivel de certeza o confianza. Se comenzará introduciendo el
concepto de intervalo de confianza.

5.1. Intervalos de confianza


Es común que en los medios de comunicación como radio, televisión, revistas
o periódicos, ası́ como en redes sociales, se presenten resultados de estudios
estadı́sticos de los temas más diversos. Las conclusiones suelen presentar-
se con frases como la siguiente: “El estudio muestra que en el 75 % de los
casos se experimenta una mejorı́a (de cierta enfermedad), siendo el margen
de error del 6 % y el nivel de confianza del 95 %”. El cálculo de intervalos
de confianza para la estimación de parámetros permite hacer declaraciones

183
184 5. Estimación por intervalos

sobre qué valores se pueden esperar para una caracterı́stica que se esté estu-
diando; aunque, a diferencia de la estimación puntual, se habla de un nivel de
confianza que tendrá una influencia en el intervalo calculado: intuitivamente
la confianza se refiere a la certeza con la que el método dará una respuesta
correcta, y por lo tanto se pedirá que ese nivel de confianza sea alto.
Replanteando el problema de encontrar un rango de valores para θ, se
tiene lo siguiente: si θ ∈ Θ ⊆ R (el espacio paramétrico) y se quiere disminuir
el grado de desconocimiento de θ en f (x; θ), se debe seleccionar un subcon-
junto Θ1 de Θ en el cual pueda afirmarse, con un margen de error pequeño,
que se encuentra el valor de θ que caracteriza la distribución de la población.
Por ejemplo, suponga que se tiene una muestra aleatoria X1 , . . . , Xn de una
población con distribución N (µ, σ 2 ), con σ 2 conocida y µ desconocida y se
desea estimar el parámetro µ. La estadı́stica T (X) = X̄ tiene distribución
N (µ, σ 2 /n), entonces,

X̄ − µ
Z := √ ∼ N (0, 1).
σ/ n

Note que

P[−1.96 < Z < 1.96] = φ(1.96) − φ(−1.96) = φ(1.96) − (1 − φ(1.96))


= 2φ(1.96) − 1 = 2(0.9725) − 1 = 0.95.

A partir de que se sabe que P[−1.96 < Z < 1.96] = 0.95, se obtiene lo
siguiente:
X̄ − µ
−1.96 < √ < 1.96,
σ/ n
si y sólo si
σ σ
−1.96 √ < X̄ − µ < 1.96 √ ,
n n
si y sólo si
σ σ
X̄ − 1.96 √ < µ < X̄ + 1.96 √ ,
n n
de donde  
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95.
n n
Lo que indica la expresión
 
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95,
n n
5.1. Intervalos de confianza 185

es que hay una probabilidad de 0.95 de obtener una muestra tal que el
intervalo  
σ σ
X̄ − 1.96 √ , X̄ + 1.96 √ ,
n n
incluya al valor de µ. Esto motiva la definición 5.1 de intervalo aleatorio que
se verá posteriormente, aunque en este momento, y haciendo referencia al
ejemplo anterior, se puede adelantar que un intervalo en el que al menos uno
de los extremos es una variable aleatoria se llama intervalo aleatorio.
Una vez usada la distribución de X̄ para establecer la conclusión anterior,
se obtiene un valor particular de x̄, con base en una muestra, y se determina
el intervalo numérico
 
σ σ
x̄ − 1.96 √ , x̄ + 1.96 √ . (5.1)
n n

En este caso no tiene sentido hablar de la probabilidad de que el intervalo


contenga al parámetro, ya que no hay ninguna variable aleatoria. Ahora, el
0.95 expresa el margen de confianza con el que se puede afirmar que el
valor desconocido de µ está entre los extremos del intervalo que ya está fijo,
en el sentido de que repitiendo el muestreo un gran número de veces, se
obtendrı́an intervalos distintos, entre los cuales aproximadamente el 95 % de
estos intervalos contienen el valor correcto
 de µ. 
Por lo tanto, el intervalo numérico x̄ − 1.96 √σn , x̄ + 1.96 √σn se llama
intervalo de confianza para µ con un nivel del 95 %.

Observación 5.1 Un ejercicio para analizar el concepto de intervalo de con-


fianza consiste en simular algunas muestras de una determinada población
normal, calcular los intervalos correspondientes a un cierto nivel de confianza
y observar la proporción de estos intervalos que contienen al verdadero valor
de la media.
El resultado de un ejercicio de simulación se muestra resumido en las
gráficas de la figura 5.1, en donde se ha utilizado la expresión (5.1) para el
cálculo de los intervalos.
Cada una de las gráficas representa intervalos correspondientes a 100
muestras para diferentes tamaños de muestra, todas con µ = 100.
El ejercicio se hizo utilizando el software estadı́stico R.
Las lı́neas en negro representan los intervalos que no contienen al ver-
dadero valor de la media µ en cada uno de los casos considerados.
Se usó un nivel de confianza del 95 %.
186 5. Estimación por intervalos

Ası́, la primera gráfica representa los intervalos correspondientes a 100


muestras de tamaño 10 de una distribución normal con media igual a 100 y
σ = 10.
100

100

100
80

80

80
60

60

60
40

40

40
20

20

20
0

85 90 95 100 110 85 90 95 100 110 85 90 95 100 110

Figura 5.1: Intervalos correspondientes a 100 muestras para tamaños de


muestra 10, 30 y 50, respectivamente y desviación estándar de 10.

Si se desea un intervalo del 99 % de confianza en este caso de la distribu-


ción normal, primero se debe observar que:

P[−2.576 < Z < 2.576] = 0.99.

Entonces, a partir de la expresión anterior, se obtiene que


 
σ σ
x̄ − 2.576 √ , x̄ + 2.576 √
n n

es un intervalo del 99 % de confianza para µ. Note que a mayor nivel de


confianza, mayor es la longitud del intervalo. Usualmente se fija un nivel de
confianza y entonces se genera el intervalo.
5.1. Intervalos de confianza 187
 
Observe también que en el primer ejemplo x̄ − 1.96 √σn , x̄ + 1.96 √σn no
es el único intervalo del 95 % de confianza para µ, pues por ejemplo, también

P[−1.74 < Z < 2.37)] = φ(2.37) − φ(−1.74)


= φ(2.37) − 1 + φ(1.74)
= 0.95.

Sin embargo, el de longitud mı́nima es el originado por P[−1.96 < Z <


1.96] = 0.95. 
En general, si para este caso de la distribución N µ, σ 2 , se tiene que:
 
X̄ − µ
P a< √ < b = γ,
σ/ n

entonces,

X̄ − µ σ σ σ σ
a< √ < b ⇔ a √ < X̄ − µ < b √ ⇔ X̄ − b √ < µ < X̄ − a √ .
σ/ n n n n n

Suponga que se desea minimizar la longitud del intervalo dada por (b−a) √σn ,
con la restricción de que P[a < Z < b] = 0.95, es decir, FZ (b)−FZ (a) = 0.95,
donde FZ (z) es la función de distribución de una población N (0, 1) . Para
este problema de optimización, se define la función

L = b − a − λ(FZ (b) − FZ (a) − 0.95).

Entonces,
∂L
= 0 ⇔ −1 + λfZ (a) = 0 ⇔ λfZ (a) = 1
∂a
y también
∂L
= 0 ⇔ 1 − λfZ (b) = 0 ⇔ λfZ (b) = 1.
∂b
De donde, fZ (a) = fZ (b); por lo tanto, a = −b debido a la simetrı́a (en el
cero) de fZ . Es decir, la distancia b − a será minimizada (para un área fija)
cuando fZ (a) = fZ (b).

Definición 5.1 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ)


y τ (θ) una función de θ. Sean T1 (X) y T2 (X) de forma que T1 ≤ T2 y
P(T1 < τ (θ) < T2 ) = γ (γ no depende de θ). Entonces a (T1 , T2 ) se le llama
un intervalo aleatorio y a un valor del intervalo aleatorio (t1 , t2 ), se le llama
intervalo de confianza o un intervalo del γ(100 %) de confianza para τ (θ).
188 5. Estimación por intervalos

Como ilustración, considere a X1 , . . . , Xn una muestra aleatoria de la


población con distribución N (θ, 9). Suponga que T1 (X) = X̄ − √6n y T2 (X) =
X̄ + √6n y que (T1 , T2 ) forma un intervalo para τ (θ) = θ. En este caso,
   
6 6 X̄ − θ
P X̄ − √ < θ < X̄ + √ = P −2 < √ < 2
n n 3/ n
= φ(2) − φ(−2)
= 2φ(2) − 1
= 2(0.9972) − 1 = 0.9544,

siendo 0.9544 el nivel de confianza. Por ejemplo, si se tiene una muestra


aleatoria de 25 observaciones, con una media muestral de 17.5, entonces se
dice que 17.5 − √625 , 17.5 + √625 es un intervalo del 95.44 % de confianza
para θ.
Note que alguna de las dos estadı́sticas (pero no ambas) T1 (X) o T2 (X)
puede ser constante; es decir, alguno de los dos extremos del intervalo alea-
torio (T1 , T2 ) puede ser constante.

Definición 5.2 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ).


Sean T1 (X) una estadı́stica para la cual P(T1 < τ (θ)) = γ; entonces T1 in-
duce el intervalo de confianza unilateral inferior (t1 (x), ∞) con un nivel de
confianza γ. De manera análoga, si T2 (X) es una estadı́stica para la cual
P(τ (θ) < T2 ) = γ; entonces T2 induce el intervalo de confianza unilateral
superior (−∞, t2 (x)) con un nivel de confianza γ (γ no depende de θ).

Observación 5.2 Si ya se ha determinado un intervalo de confianza para


θ, entonces, se puede determinar una familia de intervalos de confianza. De
manera más especı́fica, para un nivel de confianza del γ(100 %) dado; si se
tiene un intervalo de confianza para θ al γ(100 %) de confianza, entonces se
puede obtener un intervalo con el mismo nivel de confianza para τ (θ) donde τ
es una función creciente (estricta). Por ejemplo, si τ es una función creciente
y (T1 , T2 ) es un intervalo de confianza para θ, entonces (τ (T1 ), τ (T2 )) será
un intervalo de confianza para τ (θ) pues

γ = P[T1 (X) < θ < T2 (X)] = P[τ (T1 (X)) < τ (θ) < τ (T2 (X))].

No obstante, el que el intervalo inicial para θ fuera el más corto, esto no


implica que el intervalo para τ (θ) sea el más corto.

A continuación se describe un método para encontrar intervalos de con-


fianza, el cual se conoce como el método de la cantidad pivotal o simplemente
método pivotal.
5.1. Intervalos de confianza 189

5.1.1. Método pivotal para encontrar intervalos de


confianza
Definición 5.3 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ).
Sea Q = q(X1 , X2 , ..., Xn ; θ), es decir Q es una función de la muestra alea-
toria y de θ. Si la distribución de Q no depende de θ, entonces a Q se le
llama cantidad pivotal.

Observación 5.3 A veces la cantidad pivotal Q tiene sólo una distribu-


ción asintótica que no depende de θ, en ese caso, se obtendrá una solución
aproximada.

Ejemplo 5.1 Sea X1 , . . . , Xn una muestra aleatoria de la población con


distribución N (θ, 1) y sea τ (θ) = θ. En este caso, X̄ ∼ N (θ, n1 ), entonces
(X̄−θ)
Q1 := √
1/ n
∼ N (0, 1) por lo que Q1 es una cantidad pivotal. También
Q2 := X̄ − θ es una cantidad pivotal pues Q2 ∼ N (0, n1 ) (su distribución
no depende de θ). Pero Q3 := X̄
θ no es una cantidad pivotal, pues Q3 ∼
N (1, θ21n ).

Definición 5.4 (método pivotal para intervalos de confianza) . Sea


Q = q(x1 , . . . , xn ; θ) una cantidad pivotal. Entonces, para cualquier γ ∈
(0, 1), existirán q1 y q2 que dependen de γ tal que

P [q1 < Q < q2 ] = γ.

Si para cada posible muestra (x1 , . . . , xn ) se cumple que

q1 < q(x1 , . . . , xn ; θ) < q2 ,

si y sólo si
t1 (x1 , . . . , xn ) < τ (θ) < t2 (x1 , . . . , xn ) ,
para funciones t1 y t2 que no dependen de θ, entonces (t1 , t2 ) es un intervalo
del γ(100) % de confianza para τ (θ).
La longitud esperada serı́a E [t2 (X1 , . . . , Xn ) − t1 (X1 , . . . , Xn )] .

En este método, la desigualdad q1 < Q < q2 se reescribe, invierte o


pivotea como t1 (x) < τ (θ) < t2 (x).
Como se vio antes en el ejemplo de la distribución normal, puede ha-
ber distintos intervalos que proporcionen el mismo nivel de confianza, por
lo que se busca el que tenga longitud mı́nima. Desde una perspectiva más
general, el siguiente resultado será de utilidad para encontrar el intervalo de
confianza más corto cuando la cantidad pivotal tenga una distribución con
una densidad unimodal.
190 5. Estimación por intervalos

Proposición 5.1 Sea f (x) una densidad unimodal y F (x) su función de


distribución asociada. Sea [a, b] un intervalo que satisface que

F (b) − F (a) = 1 − α, (5.2)

para α tal que 0 < α < 1. Entonces de entre todos los intervalos que cumplen
(5.2), [a0 , b0 ] tiene la longitud mı́nima si f (a0 ) = f (b0 ) > 0 y a0 ≤ x∗ ≤ b0 ,
donde x∗ es la moda de f (x)  . Si además f (x) es simétrica, entonces a0 =
F −1 α2 y b0 = F −1 1 − α2 .

Demostración. Se trata de minimizar la longitud b − a sujeta a F (b) −


F (a) = 1 − α. Usando multiplicadores de Lagrange, se define:

L (a, b, λ) = b − a + λ(1 − α − F (b) + F (a)),

de donde:
∂L
= 1 − λf (a) = 0,
∂a
∂L
= 1 − λf (b) = 0
∂b
y
1 − α − F (b) + F (a) = 0.
De las primeras dos ecuaciones se obtiene que f (a) = f (b) > 0. Si x∗ ∈ /
[a, b] y f (a) = f (b), entonces b − a > b0 − a0 , pues f (x) es unimodal y
F (b) − F (a) = F (b0 ) − F (a0 ) . 

Ası́, por ejemplo, si la cantidad pivotal tiene una distribución Ji-cuadrada,


los cuantiles de orden α/2 y 1 − α/2 de esta distribución contendrán a la mo-
da de la distribución para α pequeño. Por facilidad de cálculos suele usarse
α/2 y 1 − α/2, pero si se desea obtener el intervalo más corto se tendrı́an
que buscar a y b tales que f (a) = f (b).

Algunos ejemplos
Ejemplo 5.2 Suponga que se tiene una variable aleatoria con una distribu-
ción Exponencial con parámetro λ = θ1 . Obtenga un intervalo del 90 % de
confianza para θ.
Como X ∼ Exponencial(1/θ), sus funciones de densidad y de distribución
son, respectivamente,
1 −x/θ
f (x; θ) = e ,
θ
FX (x) = 1 − e−x/θ ,
5.1. Intervalos de confianza 191

X
con x > 0 y θ > 0. Sea Y = θ , entonces

FY (y) = P [Y ≤ y]
 
X
= P ≤y
θ
= P [X ≤ θy]
= FX (θy),

que implica que Y ∼ Exponencial(1). Por lo tanto Y = X θ puede ser una


cantidad pivotal ya que es una función de la muestra X y del parámetro θ,
y su distribución no depende de θ.
Ası́ que el intervalo del 90 % de confianza para θ puede determinarse a
partir de  
X
P a< < b = 0.90,
θ
donde
 
X
P <a = P [X < aθ]
θ
= 1 − e−a = 0.05

lo que implica que

e−a = 0.95
a = − log(0.95) = 0.051,

y por otro lado,


 
X
P >b = P [X > bθ]
θ
= e−b = 0.05

lo que implica que


b = − log(0.05) = 2.996,
entonces
 
X
0.051 < < 2.996 ,
θ
 
X X
<θ< .
2.996 0.051
X X

Por lo tanto, 2.996 , 0.051 es el intervalo del 90 % de confianza para θ.
192 5. Estimación por intervalos

Ejemplo 5.3 Sea X una variable aleatoria con distribución Uniforme en el


intervalo (0, θ). Obtener un intervalo del 95 % de confianza para θ.
Se sabe que
1 (x)
fX (x) = I(0,θ) ,
Zθ x
1 x
FX (x) = dt = .
0 θ θ
X
Sea Y una variable aleatoria definida como Y = θ , entonces

FY (y) = P (Y ≤ y)
 
X
= P ≤y
θ
= P (X ≤ θy)
= FX (θy)
θy
=
θ
= y.

Por lo tanto, la variable aleatoria Y = X θ tiene una distribución Uniforme


X
en el intervalo (0, 1). Ası́, Q = θ es una cantidad pivotal ya que Q es una
función de la muestra X y del parámetro θ y la distribución de Q no depende
de θ porque Q ∼ U nif orme (0, 1).
Para obtener un intervalo del 95 % de confianza para θ puede usarse la
cantidad pivotal de la siguiente manera:

P [a < Q < b] = 0.95.

Como Q ∼ U nif orme (0, 1), se pueden tomar cualesquiera cantidades a y b


pertenecientes al intervalo (0, 1) tal que b − a = 0.95. Esto implica que se
podrı́a tomar a ∈ (0, 0.05) y b = 0.95 + a. Entonces, el intervalo del 95 %
confianza para θ estarı́a determinado por lo siguiente:
 
X
P a< <b = 0.95
θ
 
X X
P <θ< = 0.95.
b a

Por lo tanto, Xb , X

a  es un intervalo
 del 95 % de confianza para θ. O de
X X
manera equivalente, 0.95+a , a es un intervalo del 95 % de confianza para
θ.
5.1. Intervalos de confianza 193

La longitud del intervalo es


X X
L= − ,
a 0.95 + a
y la longitud esperada del intervalo es
 
1 1
E [L] = − E [X] .
a 0.95 + a

Si se buscara un intervalo de confianza con menor longitud esperada, se


buscarı́a minimizar E [L], lo que equivale a encontrar el valor de a tal que
E [L] alcance su mı́nimo, y este valor es cuando a = 0.05, lo que implica
que b = 1. Por lo tanto,
 el intervalo del 95 % para θ con longitud esperada
1
mı́nima es X, 0.05 X .

Ejemplo 5.4 Suponga que X1 , X2 , . . . , Xn P


es una muestra aleatoria de una
n
población con distribución Exponencial(θ). i=1 PXi es una estadı́stica sufi-
2 ni=1 Xi
ciente y tiene distribución Gama(n, θ), además θ ∼ χ2(2n) . Entonces
Pn
2 iX
la variable Q = i=1
θ puede ser la cantidad pivotal para obtener un
intervalo del 100(1 − α) % de confianza para θ. Ası́ que
 Pn 
2 i=1 Xi
P qα/2 < < q1−α/2 = 1 − α,
θ

donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución
χ2(2n) . El intervalo para θ que se deduce de esta última expresión es
 Pn Pn 
2 i=1 Xi 2 i=1 Xi
, .
q1−α/2 qα/2

5.1.2. El método de la cantidad pivotal para funciones


de distribución continuas
Cuando se tiene una muestra aleatoria de una población cuya función de
distribución es continua en x, es posible construir una cantidad pivotal como
lo muestra el siguiente resultado.

Proposición 5.2 Sea X1 , ..., Xn una muestra aleatoria de la población con


función de densidad f (x; θ) , tal que la función
Pn de distribución correspon-
diente F (x; θ) es continua en x. Entonces − i=1 ln F (Xi ; θ) o alternativa-
n
Q
mente F (Xi ; θ), es una cantidad pivotal para estimar θ.
i=1
194 5. Estimación por intervalos

Demostración. F (Xi ; θ) tiene distribución Uniforme en el intervalo (0, 1) ,


pues si U = F (X; θ) , se tiene que

P (U ≤ u) = P [F (X; θ) ≤ u]
P X ≤ F −1 (u)
 
=
F F −1 (u)

=
= u,

para 0 < u < 1. Por lo tanto, − ln F (Xi ; θ) tiene distribución Exponencial


con parámetro 1, debido a lo siguiente:

P [− ln F (Xi ; θ) ≥ u] = P [ln F (Xi ; θ) ≤ −u]


P F (Xi ; θ) ≤ e−u
 
=
= e−u ,

para u > 0, es decir,

P [− ln F (Xi ; θ) ≤ u] = 1 − e−u ,

expresión que corresponde a la función de distribución de una variable alea-


toria Exponencial (1).
Ası́ que puede concluirse que
n
X
− ln F (Xi ; θ) , (5.3)
i=1

tiene distribución Gama con parámetros n y 1, al ser la suma de variables


aleatorias independientes con distribución Exponencial (1).
Ahora (5.3) puede usarse como una cantidad pivotal de la siguiente ma-
nera:
" n
# " n
#
X X
P q1 < − ln F (Xi ; θ) < q2 = P −q2 < ln F (Xi ; θ) < −q1
i=1 i=1
" n
#
Y
= P −q2 < ln F (Xi ; θ) < −q1
i=1
" n
#
Y
−q2 −q1
= P e < F (Xi ; θ) < e
i=1
" n
#
Y
= P a< F (Xi ; θ) < b ,
i=1
5.1. Intervalos de confianza 195

donde q1 y q2 son los cuantiles de la distribución Gama (n, 1) que corres-


ponderán al nivel de confianza deseado y con 0 < a < b < 1. La expresión
anterior es equivalente a
" n
#
X
P − ln b < − ln F (Xi ; θ) < − ln a .
i=1


Por ejemplo, si se tiene una muestra aleatoria de tamaño n de la población


con densidad
f (x; θ) = θxθ−1 , 0 < x < 1,
cuya función de distribución está dada por
Z x
F (x; θ) = θuθ−1 du
0
x

= θ = xθ ,
θ u=0
para 0 < x < 1. Si se seleccionan a y b tales que:
" n
#
Y
P a< F (Xi ; θ) < b = 1 − α
i=1
o " #
n
X
P q1 < − ln F (Xi ; θ) < q2 = 1 − α,
i=1
donde q1 = − ln b y q2 = − ln a son los cuantiles de una distribución Gama
(n, 1) seleccionados de tal manera que la probabilidad sea de 1 − α. Para
n n
Xiθ , por lo que
Q Q
este caso particular, F (Xi ; θ) =
i=1 i=1
" n
#
Y
1−α = P a< F (Xi ; θ) < b
i=1
" n
#
Y
= P a< Xiθ <b
i=1
" n
#
Y
= P ln a < ln Xiθ < ln b
i=1
" n
#
X
= P ln a < ln Xiθ < ln b
i=1
196 5. Estimación por intervalos

" n
#
X
= P ln a < θ ln Xi < ln b
i=1
" n
#
Y
= P ln a < θ ln Xi < ln b
i=1
 
 ln b ln a 
= P
 Qn <θ< Qn
,

ln Xi ln Xi
i=1 i=1

n
Q
donde la última desigualdad se sigue del hecho de que ln Xi es negativo.
i=1
Entonces puede concluirse que
 
 ln b ln a 

 n
Q , n
Q


ln xi ln xi
i=1 i=1

es un intervalo del 100(1 − α) % de confianza para θ.

5.1.3. Método basado en estadı́sticas suficientes


En algunas ocasiones es difı́cil obtener una cantidad pivotal exacta, ası́ que
se usan otras técnicas para obtener intervalos de confianza. El método pre-
sentado a continuación se basa en estadı́sticas suficientes o estimadores que
son funciones de ellas, como los obtenidos por máxima verosimilitud.
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función
de densidad f (x; θ), donde θ ∈ R es el valor verdadero, y Θ ⊆ R es el es-
pacio paramétrico. Sea T (X) una estadı́stica, que puede ser una estadı́stica
suficiente o el estimador máximo verosı́mil (EMV) del parámetro de interés.
En general, la elección de T (X) podrı́a depender de la facilidad de las ope-
raciones necesarias para obtener los intervalos de confianza. Una de esas
operaciones se refiere al cálculo de la función de distribución de T .
Sea fT (t; θ) la función de densidad de T . Se hará el procedimiento para
cuando T es una variable aleatoria continua, pero éste es análogo al caso
discreto.
5.1. Intervalos de confianza 197

Defina dos funciones h1 (θ) y h2 (θ) como


Z h1 (θ)
fT (t; θ)dt = p1 , (5.4)
−∞
Z ∞
fT (t; θ)dt = p2 ,
h2 (θ)

donde p1 y p2 son números fijos tales que p1 > 0, p2 > 0 y p1 +p2 < 1. Supon-
ga que h1 (θ) y h2 (θ) son funciones monótonas crecientes, y que h1 (θ) < h2 (θ)
(de manera análoga se podrı́an considerar funciones monótonas decrecien-
tes).
Sea t0 el valor observado de T , obtenido de la muestra observada
x = (x1 , x2 , . . . , xn ), es decir, T (x) = t0 . Para cualquier valor de t0 , pue-
den obtenerse v1 = v1 (t0 ) y v2 = v2 (t0 ) tales que (v1 , v2 ) será el intervalo
del (1 − p1 − p2 )100 % de confianza para θ.
Note que h1 (θ) < t0 < h2 (θ) si y sólo si v1 < θ < v2 para cualquier
muestra observada x. Por definición de h1 (θ) y h2 (θ) se tiene que

P [h1 (θ) < T (X) < h2 (θ)] = 1 − p1 − p2 ,

que es equivalente a

P [v1 (x) < θ < v2 (x)] = 1 − p1 − p2 ,

lo cual establece que (v1 , v2 ) es el intervalo del (1−p1 −p2 )100 % de confianza
para θ.
Para clarificar esta forma de obtener intervalos de confianza, a continua-
ción se muestran algunos ejemplos.

Ejemplo 5.5 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución U nif orme(0, θ), cuya función de densidad es
1
f (x; θ) = I(0,θ) (x).
θ
Determinar un intervalo de confianza para θ usando estadı́sticas suficientes.
Se sabe que Yn = máx{X1 , . . . , Xn } es una estadı́stica suficiente y es el
estimador máximo verosı́mil de θ, además la función de densidad de Yn es:
n  y n−1
fYn (y; θ) = I(0,θ) (y).
θ θ
Dados p1 y p2 , es necesario encontrar h1 (θ) y h2 (θ), las cuales son soluciones
de las ecuaciones (5.4). Entonces, se tienen que encontrar los valores h1 (θ)
198 5. Estimación por intervalos

y h2 (θ) tales que


Z h1 (θ)
p1 = nθ−n y n−1 dy,
0
Z θ
p2 = nθ−n y n−1 dy.
h2 (θ)

Se tiene que
Z h1 (θ)
n
θ p1 = ny n−1 dy,
0
Z θ
n
θ p2 = ny n−1 dy,
h2 (θ)

resolviendo las integrales,


n
θn p1 = [h1 (θ)] ,
n
θn p2 = θn − [h2 (θ)] ,

de donde,
1/n
h1 (θ) = θp1 ,
h2 (θ) = θ(1 − p2 )1/n .

Por definición de h1 (θ) y h2 (θ) se tiene que P [h1 (θ) < T (X) < h2 (θ)] =
1 − p1 − p2 , es decir,
h i
1/n
P θp1 < Yn < θ(1 − p2 )1/n = 1 − p1 − p2 ,

despejando θ, se obtiene P [v1 (x) < θ < v2 (x)] = 1 − p1 − p2 , es decir,


h i
−1/n
P Yn (1 − p2 )−1/n < θ < Yn p1 = 1 − p1 − p2 .
 
−1/n
Ası́ que Yn (1 − p2 )−1/n , Yn p1 es un intervalo del (1 − p1 − p2 )100 % de
 
−1/n
confianza para θ. La longitud del intervalo es L = Yn p1 − (1 − p2 )−1/n
 
−1/n
y su longitud esperada es E[L] = E [Yn ] p1 − (1 − p2 )−1/n . Para hacer
−1/n
la longitud más corta se necesita minimizar p1 − (1 − p2 )−1/n sujeto a
que 1 − p1 − p2 = 1 − α y 0 < p1 + p2 < 1, lo que se obtiene eligiendo p2 = 0
y p1 = α.
5.1. Intervalos de confianza 199

Ejemplo 5.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución Bernoulli con parámetro θ ∈ (0, 1). Se desea encontrar un
intervalo de confianza para θ.
En este ejemplo se usará una estadı́stica suficiente
Pn para encontrar un
intervalo de confianza para θ. Se sabe que S(X) = i=1 Xi es una estadı́stica
suficiente para θ, y además S(X) ∼ Binomial(n, θ) donde S(X) toma los
valores enteros s = 0, . . . , n. Suponga que se observa una muestra X = x y
se obtiene el valor de la estadı́stica suficiente S(x) = s0 . Para obtener un
intervalo de confianza del (1 − p1 − p2 )100 % de confianza para θ se necesita
resolver (para θ) las siguientes ecuaciones:
s0  
X n
p1 = θs (1 − θ)n−s ,
s=0
s
n  
X n s
p2 = θ (1 − θ)n−s .
s=s
s
0

Esto dará las soluciones θ1 y θ2 , respectivamente, tal que el intervalo


(mı́n{θ1 , θ2 }, máx{θ1 , θ2 }) será un intervalo de confianza para θ al (1 − p1 −
p2 )100 %.
Para clarificar el ejemplo, suponga que se observa una muestra de tamaño
n = 20 en donde el valor que toma la estadı́stica suficiente es S = 4. Con-
sidere p1 = 0.0509 y p2 = 0.0159, y se necesita obtener un intervalo del
(1 − p1 − p2 )100 % = 93.32 % de confianza. Para obtener los lı́mites del in-
tervalo de confianza es necesario obtener los valores de θ para los cuales se
cumplen las ecuaciones anteriores, es decir,
4  
X 20 s
0.0509 = θ (1 − θ)20−s ,
s=0
s
20  
X 20 s
0.0159 = θ (1 − θ)20−s .
s=4
s

Note que en estas ecuaciones el único valor desconocido es θ. Las soluciones


de estas ecuaciones son, aproximadamente, θ1 = 0.40 y θ2 = 0.05, respec-
tivamente, por lo tanto (0.05, 0.40) es el intervalo del 93.32 % de confianza
para θ.

Los valores p1 y p2 se eligen tal que (1 − p1 − p2 )100 % sea el nivel de


confianza requerido, usando la notación igual a (1 − α)100 % como en las
demás secciones de este capı́tulo. En la práctica es usual elegir p1 y p2 de
manera simétrica, es decir, p1 = p2 , sin embargo, dado que muchas veces este
200 5. Estimación por intervalos

método se aplica en el caso de variables aleatorias discretas, en ocasiones será


difı́cil obtener valores exactos y se usarán cantidades aproximadas.

5.2. Intervalos para muestras de la distribu-


ción normal
Primero se recordarán algunos resultados técnicos para facilitar la construc-
ción de dichos intervalos. La demostración de estos resultados se omitirá en
virtud de que ya se han estudiado con detalle en este texto en el Capı́tulo 3.
(a) Si X ∼ N (0, 1), entonces X 2 ∼ χ2(1) .

(b) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que pa-


ra cualquier j ∈ {1, . . . , n} Xj ∼ χ2(mj ) , entonces X1 + X2 , · · · + Xn ∼
χ2(m1 +···+mn ) .

(c) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que pa-


ra cualquier j ∈ {1, . . . , n}, Xj ∼ N (µ, σ 2 ); entonces
n
X (Xj − µ)2
2
∼ χ2(n) .
j=1
σ

(d) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que pa-


ra cualquier j ∈ {1, . . . , n}, Xj ∼ N (µ, σ 2 ); entonces
n−1 2
S ∼ χ2(n−1) .
σ2
(e) Si X y Y son variables aleatorias independientes tales que X ∼ N (0, 1)
y Y ∼ χ2(k) , entonces
X
p ∼ t(k) .
Y /k
(f) Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con dis-
tribución N (µ, σ 2 ), entonces
X̄ − µ
√ ∼ t(n−1) .
S/ n

(g) Si U y V son variables aleatorias independientes tales que U ∼ χ2(n) y


V ∼ χ2(m) , entonces
U/n
∼ F(n,m) .
V /m
5.2. Intervalos para muestras de la distribución normal 201

Ahora, se encontrarán intervalos de confianza para algunas cantidades


relacionadas con poblaciones Gaussianas.

5.2.1. Intervalos para la media


Caso 1: σ 2 conocida.
Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribu-
ción N (µ, σ 2 ), con σ 2 conocida.
X̄−µ
Se sabe que X̄ ∼ N (µ, σ 2 /n), entonces σ/ √ ∼ N (0, 1).
n
X̄−µ
√ . De aquı́ que Q ∼ N (0, 1).
La cantidad pivotal es Q = σ/ n
Sean zα/2 , z1−α/2 ∈ R tales que P(Q ≤ zα/2 ) = α/2 y P(Q ≤ z1−α/2 ) =
1 − α/2.
Note que

P(zα/2 < Q < z1−α/2 ) = P(Q ≤ z1−α/2 ) − P(Q ≤ zα/2 )


= (1 − α/2) − α/2 = 1 − α.

También observe que por simetrı́a de la densidad normal estándar zα/2 =


−z1−α/2 .
Por ejemplo, si 1 − α = 0.95, entonces α = 0.05, 1 − α/2 = 0.975 y
z0.975 = 1.96.
Ası́,
P(−z1−α/2 < Q < z1−α/2 ) = 1 − α,
si y sólo si  
X̄ − µ
P −z1−α/2 < √ < z1−α/2 = 1 − α,
σ/ n
si y sólo si
 
σ σ
P −z1−α/2 √ < X̄ − µ < z1−α/2 √ = 1 − α,
n n

si y sólo si
 
σ σ
P −z1−α/2 √ − X̄ < −µ < z1−α/2 √ − X̄ = 1 − α,
n n

si y sólo si
 
σ σ
P X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √ = 1 − α.
n n
202 5. Estimación por intervalos

Por lo tanto, un intervalo del 100(1 − α) % de confianza para µ cuando


σ 2 es conocida está dado por
 
σ σ
X̄ − z1−α/2 √ , X̄ + z1−α/2 √ .
n n

Caso 2: σ 2 desconocida.
Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribu-
ción N (µ, σ 2 ) donde µ y σ 2 son desconocidos.
X̄−µ (n−1)S 2
Se sabe que σ/ √ ∼ N (0, 1) y
n σ2 ∼ χ2(n−1) . Entonces,

X̄−µ

σ/ n
r ∼ t(n−1) .
(n−1)S 2
σ2
n−1

Pero,
X̄−µ X̄−µ √ √
√ √ n(X̄−µ)
σ/ n σ/ n σ n(X̄ − µ) X̄ − µ
r = q = S
= = √ ,
(n−1)S 2 S2 σ
S S/ n
σ2 σ2
n−1

donde S := S2.
X̄ − µ
∴ √ ∼ t(n−1) .
S/ n
X̄−µ
Es decir, la cantidad pivotal es Q = S/ √ .
 n
1−α/2 1−α/2
Sea tn−1 ∈ R, tal que P Y ≤ tn−1 = 1 − α/2, donde Y ∼ t(n−1) .
Entonces,  
1−α/2 1−α/2
P −tn−1 < Q < tn−1 = 1 − α,
si y sólo si  
1−α/2 X̄ − µ
P −tn−1 < √ < t1−α/2
n−1 = 1 − α,
S/ n
si y sólo si
 
1−α/2 S 1−α/2 S
P −tn−1 √ < X̄ − µ < tn−1 √ = 1 − α,
n n
si y sólo si
 
1−α/2 S 1−α/2 S
P −X̄ − tn−1 √ < −µ < −X̄ + tn−1 √ = 1 − α,
n n
5.2. Intervalos para muestras de la distribución normal 203

si y sólo si
 
1−α/2 S 1−α/2 S
P X̄ − tn−1 √ < µ < X̄ + tn−1 √ = 1 − α.
n n

∴ un intervalo del 100(1−α) % de confianza para µ cuando σ 2 es desconocida


está dado por  
1−α/2 S 1−α/2 S
X̄ − tn−1 · √ , X̄ + tn−1 · √ .
n n

5.2.2. Intervalo para la varianza


Sea X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribu-
ción N (µ, σ 2 ) con µ y σ 2 desconocidos.
2
Se sabe que (n−1)S σ2 ∼ χ2 (n − 1).
2
Por tanto, la cantidad pivotal es Q = (n−1)S
σ2 .
α/2 1−α/2
Se necesitan determinar los cuantiles χn−1 , χn−1 ∈ R tales que
α/2 1−α/2
P(χn−1 < Q < χn−1 ) = 1 − α.
1−α/2 α/2
Es decir, P(Q ≤ χn−1 ) − P(Q ≤ χn−1 ) = (1 − α/2) − (α/2) = 1 − α.
Ahora,
α/2 1−α/2
P(χn−1 < Q < χn−1 ) = 1 − α,
si y sólo si
α/2 (n − 1)S 2 1−α/2
P(χn−1 < < χn−1 ) = 1 − α,
σ2
si y sólo si !
1 σ2 1
P > > 1−α/2 = 1 − α,
α/2
χn−1 (n − 1)S 2 χn−1
si y sólo si !
(n − 1)S 2 2 (n − 1)S 2
P 1−α/2
<σ < α/2
= 1 − α.
χn−1 χn−1
∴ Un intervalo del 100(1 − α) % de confianza para σ 2 está dado por
!
(n − 1)S 2 (n − 1)S 2
1−α/2
, α/2
.
χn−1 χn−1

Por ejemplo, si n = 12 y 1 − α = 0.99, entonces α = 0.01. Por lo tanto


α/2 = 0.005 y 1 − α/2 = 0.995. Ası́, χ0.995
11 = 26.8 y χ0.005
11 = 2.60.
204 5. Estimación por intervalos

5.2.3. Región de confianza para (µ, σ 2 )


Sea X1 , X2 , . . . , Xn una muestra aleatoria de la distribución N (µ, σ 2 ). En
este caso, al estimar los dos parámetros simultánemente, ya no se hablará de
un intervalo de confianza, ahora se busca construir una región de confianza
en R2 para (µ, σ 2 ). Se consideran las estadı́sticas

n(X̄ − µ) (n − 1)S 2
Q1 = y Q2 = ,
σ σ2
que son independientes y tienen una distribución normal estándar y χ2 ,
respectivamente. Se definen las constantes c > 0, a y b tales que 0 < a < b, y
√ √
P [−c ≤ Q1 ≤ c] = 1 − α y P [a ≤ Q2 ≤ b] = 1 − α.

Se sigue que

(n − 1)S 2
 
n(X̄ − µ)
Pµ,σ −c ≤ ≤ c, a ≤ ≤ b
σ σ2

(n − 1)S 2
   
n(X̄ − µ)
= Pµ,σ −c ≤ × Pµ,σ a ≤ ≤ b
σ σ2
= 1 − α,

de donde la región del (1 − α) × 100 % de confianza para (µ, σ 2 ) satisface

c2 σ 2 (n − 1)S 2 (n − 1)S 2
 
2 2
Pµ,σ (µ − X̄n ) ≤ , ≤σ ≤ = 1 − α.
n b a

5.2.4. Intervalo para la diferencia de medias de pobla-


ciones normales independientes
Sean X1 , . . . , Xn una muestra aleatoria de la distribución N (µx , σx2 ) y
Y1 , . . . , Ym una muestra aleatoria de la distribución N (µy , σy2 ) donde Yj y
Xi son independientes.
Caso 1: σx2 y σy2 conocidas.
Se sabe que X̄ ∼ N (µx , σx2 /n) y Ȳ ∼ N (µy , σy2 /m), entonces
!
σx2 σy2
X̄ − Ȳ ∼ N µx − µy , + .
n m

Por tanto,
X̄ − Ȳ − (µx − µy )
q ∼ N (0, 1).
2
σx σy2
n + m
5.2. Intervalos para muestras de la distribución normal 205

Entonces, la cantidad pivotal está dada por

X̄ − Ȳ − (µx − µy )
Q= q .
2
σx σy2
n + m

De aquı́ que

P −z1−α/2 < Q < z1−α/2 = 1 − α,

si y sólo si
 
X̄ − Ȳ − (µx − µy )
P −z1−α/2 < q < z1−α/2  = 1 − α,
2
σx σy2
n + m

si y sólo si
r r !
σx2 σy2 σx2 σy2
P −z1−α/2 + < X̄ − Ȳ − (µx − µy ) < z1−α/2 + = 1−α,
n m n m

si y sólo si
" r
σx2 σy2
P −(X̄ − Ȳ ) − z1−α/2 + < −(µx − µy ) <
n m
r #
σx2 σy2
< −(X̄ − Ȳ ) + z1−α/2 + = 1 − α,
n m

si y sólo si
" r
σx2 σy2
P (X̄ − Ȳ ) − z1−α/2 + < µx − µy
n m
r #
σx2 σy2
< (X̄ − Ȳ ) + z1−α/2 + = 1 − α.
n m

∴ Un intervalo del 100(1 − α) % de confianza para µx − µy , cuando σx2 y σy2


son conocidas, está dado por
r r !
σx2 σy2 σx2 σy2
(X̄ − Ȳ ) − z1−α/2 + , (X̄ − Ȳ ) + z1−α/2 + .
n m n m
206 5. Estimación por intervalos

Caso 2: σx2 y σy2 desconocidas pero σx2 = σy2 = σ 2 .


2
(n−1)Sx (m−1)Sy2
Se sabe que σ2 ∼ χ2(n−1) y σ2 ∼ χ2(m−1) , entonces

(n − 1)Sx2 (m − 1)Sy2
2
+ ∼ χ2(n+m−2) .
σ σ2
1
∴ ((n − 1)Sx2 + (m − 1)Sy2 ) ∼ χ2(n+m−2) . (5.5)
σ2
Y también se sabe que
X̄ − Ȳ − (µx − µy )
q ∼ N (0, 1). (5.6)
σ 2 n1 + m
1


Como se hace el supuesto de que las muestras son independientes, se


tiene que (5.5) y (5.6) son independientes, por lo que
X̄−Ȳ −(µx −µy )
q
σ2 ( n
1
+m1
)
q 2 +(m−1)S 2
∼ t(m+n−2) .
(n−1)Sx y
σ 2 (n+m−2)

Pero,
X̄−Ȳ −(µx −µy )
q
σ2 ( n
1 1
+m ) X̄ − Ȳ − (µx − µy )
q 2 +(m−1)S 2
= q 2 2
(n−1)Sx y 1 1 (n−1)Sx +(m−1)Sy

σ 2 (n+m−2) n + m n+m−2
X̄ − Ȳ − (µx − µy )
= q ,
1 1

2
n + m Sp

2
(n−1)Sx +(m−1)Sy2
donde Sp2 = n+m−2 .
Entonces,
X̄ − Ȳ − (µx − µy )
q ∼ t(m+n−2) .
1 1

+ S 2
n m p

X̄−Ȳ −(µx −µy )


De aquı́ que Q = q sea una cantidad pivotal tal que Q ∼
( n1 + m1 )Sp2
t(m+n−2) .
1−α/2
Ahora, si tn+m−2 representa el cuantil 1 − α/2 de una distribución t de
student con n + m − 2 grados de libertad,
 
1−α/2 1−α/2
P −tn+m−2 < Q < tn+m−2 = 1 − α,
5.2. Intervalos para muestras de la distribución normal 207

si y sólo si
 
1−α/2 X̄ − Ȳ − (µx − µy ) 1−α/2
P −tn+m−2 < q < tn+m−2  = 1 − α,
1 1

2
n + m Sp

si y sólo si
" s 
1−α/2 1 1
P −(X̄ − Ȳ ) − tn+m−2 + Sp2 < −(µx − µy ) <
n m
s  #
1−α/2 1 1
−(X̄ − Ȳ ) + tn+m−2 + Sp2 = 1 − α,
n m
si y sólo si
" s 
1−α/2 1 1
P (X̄ − Ȳ ) − tn+m−2 + Sp2 < µx − µy <
n m
s  #
1−α/2 1 1
(X̄ − Ȳ ) + tn+m−2 + Sp2 = 1 − α.
n m

∴ Un intervalo del 100(1 − α) % de confianza para µx − µy , cuando σx2 y σy2


son desconocidas pero σx2 = σy2 = σ 2 , está dado por
s  s  !
1−α/2 1 1 1−α/2 1 1
(X̄ − Ȳ ) − tn+m−2 + Sp2 , (X̄ − Ȳ ) + tn+m−2 + Sp2 .
n m n m

Observación 5.4 El tercer caso: σx2 y σy2 desconocidas y tales que


σx2 6= σy2 ,
es decir, la estimación de la diferencia de medias de dos poblaciones normales
con varianzas diferentes, se conoce como el problema de Behrens-Fisher,
el cual no es sencillo abordar, ver, por ejemplo, Kendall y Stuart (1979). Es
un problema que no está resuelto completamente, hay propuestas de solución
diversas y para tamaños de muestras razonablemente grandes, las diferencias
encontradas son en general mucho menores que las observadas con tamaños
de muestras pequeños.
Welch (1938) desarrolló una aproximación usando un número fraccional
para los grados de libertad de una distribución t, donde
X̄ − Ȳ
T =q 2 2
,
SX SY
n + m
208 5. Estimación por intervalos

tiene una distribución asintótica t-Student con f grados de libertad, donde


2 2
SX SY 2
( n + m )
f= SX4 Sy4
.
n2 (n−1) + 2
m (m−1)

Esta estadı́stica se recomienda cuando la diferencia de medias es notable


y cuando los tamaños de las muestras son grandes, estudios de simulación
sugieren mayores a 80, ver Paul, Wang y Ullah (2019).

Ejemplo 5.7 Una operación de ensamble en una planta manufacturadora


requiere aproximadamente de un mes de periodo de entrenamiento para que
un empleado nuevo alcance su eficiencia máxima. Se sugirió un nuevo método
de entrenamiento y se hizo una prueba para comparar el método nuevo con
el procedimiento estándar. Se entrenaron dos grupos de nueve empleados
nuevos por un periodo de tres semanas, un grupo usando el nuevo método
(Y ) y el otro siguiendo el procedimiento de entrenamiento estándar (X). Se
registró la duración de tiempo (en minutos) requerido por cada empleado
para ensamblar el aparato al final del periodo de tres semanas.
Suponiendo que los tiempos de ensamblado se distribuyen aproximada-
mente normal y que las varianzas de los tiempos de ensamblado son aproxi-
madamente iguales para los dos métodos, obtener un intervalo del 95 % de
confianza para µx − µy .

Procedimiento Medidas
Estándar X 32 37 35 28 41 44 35 31 34
Nuevo Y 35 31 29 25 34 40 27 32 31

A partir de los datos se obtienen los siguientes valores:

x = 35.22, y = 31.56,
9
X X9
(xi − x)2 = 195.56, (yi − y)2 = 160.22,
i=1 i=1

9
" 9
#
1 X X
Sp2 = 2
(xi − x) + 2
(yi − y) = 22.24.
n + m − 2 i=1 i=1

El cuantil 0.975 de una distribución t con n + m − 2 = 16 grados de libertad


es t0.975
(16) = 2.120. El intervalo del 100(1 − α) % de confianza para µx − µy es
s  s  !
1−α/2 1 1 1−α/2 1 1
(X̄ − Ȳ ) − tn+m−2 + Sp2 , (X̄ − Ȳ ) + tn+m−2 + Sp2 .
n m n m
5.2. Intervalos para muestras de la distribución normal 209

Por lo tanto, el intervalo del 95 % de confianza para µx − µy es


r
18
(35.22 − 31.56) − (2.120) (22.24), (35.22 − 31.56)
81
r !
18
+(2.120) (22.24) ,
81

que aproximadamente es (−1.05, 8.37).


Observe que el intevalo para µx − µy contiene al 0 con un nivel de con-
fianza del 95 %.

5.2.5. Intervalo para el cociente de varianzas de pobla-


ciones normales independientes
Sean X1 , . . . , Xn una muestra aleatoria de la distribución N (µx , σx2 ) y
Y1 , . . . , Ym una muestra aleatoria de la distribución N (µy , σy2 ) donde Yj y
Xi son independientes.
2
(n−1)Sx (m−1)Sy2
Se sabe que 2
σx ∼ χ2(n−1) y σy2 ∼ χ2(m−1) , entonces
2
(n−1)Sx
σx2 (n−1)

(m−1)Sy2
∼ F(n−1,m−1) .
σy2 (m−1)

Pero 2
Sx
σx2 Sx2 σy2
Sy2
= .
Sy2 σx2
σy2
2 σ2
Sx y
De aquı́ que Q = Sy2 σx
2 sea una cantidad pivotal tal que Q ∼ F(n−1,m−1) .
α/2 1−α/2
Es necesario determinar los cuantiles fn−1,m−1 fn−1,m−1 , tales que:
 
α/2 1−α/2
P fn−1,m−1 < Q < fn−1,m−1 = 1 − α,

si y sólo si !
α/2 S 2 σy2 1−α/2
P fn−1,m−1 < x2 2 < fn−1,m−1 = 1 − α,
Sy σx
si y sólo si
!
α/2 Sy2 σy2 1−α/2 Sy2
P fn−1,m−1 2 < 2 < fn−1,m−1 2 = 1 − α,
Sx σx Sx
210 5. Estimación por intervalos

o !
1 Sx2 σ2 1 Sx2
P 1−α/2 2
< x2 < α/2 2
= 1 − α.
fn−1,m−1 Sy σy fn−1,m−1 Sy
2
σx
∴ Un intervalo del 100(1 − α) % de confianza para σy2 está dado por
!
1 Sx2 1 Sx2
2
, α/2 . (5.7)
1−α/2
fn−1,m−1 Sy f Sy2
n−1,m−1

Observación 5.5 Los valores de la distribución F(n,m) están tabulados para


valores altos de 1 − α (o equivalentemente valores bajos de α). Debido a que
h i α
α/2
P Q < fn,m = ,
2
con Q ∼ F(n,m) , y
" #  
1 1 1−α/2
P Q< 1−α/2
= P > fm,n
fm,n Q
 
1 1−α/2
= 1−P < fm,n (5.8)
Q
 α α
= 1− 1− = ,
2 2
se tiene que
α/2 1
fn,m = 1−α/2
.
fm,n
(Note que en (5.8) se ha utilizado el hecho de que si Q ∼ F(n,m) , entonces
1
Q ∼ F(m,n) ).

Por lo anterior, el intervalo (5.7) puede reescribirse de la siguiente ma-


nera: !
1 Sx2 1−α/2 Sx2
, fm−1,n−1 2 .
f
1−α/2 Sy2 Sy
n−1,m−1

En general, para obtener intervalos para los parámetros de un población


Normal, se pueden usar las expresiones que acaban de deducirse, sustitu-
yendo los correspondientes valores de los datos. A manera de ilustración,
suponga que el diámetro de una cisterna en la mayorı́a de los casos es cer-
cano a 3 metros. Se tiene un conjunto de mediciones de 12 cisternas salidas
de la fábrica y se desea obtener un intervalo de confianza para la varianza
5.3. Intervalos de confianza para muestras grandes 211

σ 2 , suponiendo que el diámetro es una variable aleatoria normalmente dis-


tribuida. Los datos correspondientes a los diámetros de las 12 cisternas a las
que se hace referencia son:

3.01, 3.05, 2.99, 2.99, 3.0, 3.02, 2.98, 2.99, 2.97, 2.97, 2.02, 3.01.

Se dedujo que:
!
(n − 1)S 2 (n − 1)S 2
1−α/2
, α/2
χn−1 χn−1

es un intervalo del 100(1 − α) % de confianza para σ 2 . En este caso n = 12,


1 − α = 0.99, α = 0.01 y
Pn 2
(xi − x)
S2 = n=1
= 0.0005455.
n−1

Además,
χ0.995
11 = 26.8, χ0.005
11 = 2.60,

de esta manera el intervalo final queda como

(0.0002246, 0.00230791) .

5.3. Intervalos de confianza para muestras


grandes
En esta sección se usará la propiedad asintótica de los estimadores máximo
verosı́miles, la cual establece que si θbM V es el estimador máximo verosı́mil
de θ, en f (x; θ) que cumple las condiciones de regularidad, entonces cuando
n → ∞,
 
1
θM V ∼ N θ,
b
IX (θ)
y, de manera más general,
 
(θ)M V = τ θbM V ∼ N (τ (θ) , CICR) ,
τd

donde CICR representa la Cota Inferior de Cramer y Rao para estimado-


res insesgados de τ (θ) . A partir de estos resultados, puede construirse una
cantidad pivotal para el parámetro de interés.
212 5. Estimación por intervalos

Ejemplo 5.8 Sea X1 , ..., Xn una muestra aleatoria de la distribución Ex-


ponencial (θ) . Encontrar un intervalo del 100(1 − α) % de confianza para
θ.
1
El estimador máximo verosı́mil de θ está dado por θbM V = X , mien-
n
tras que la información esperada de Fisher es IX (θ) = θ2 . Entonces por la
propiedad asintótica de los estimadores máximo verosı́miles, se tiene que

θ2
 
1
∼ N θ,
X n

por lo que
1
X
−θ
q ∼ N (0, 1) ,
θ2
n

que puede reescribirse como


√ 1 
n X −θ
Q= ∼ N (0, 1) .
θ
Ası́,
 √ 1  
n X −θ
P −z1− α2 ≤ ≤ z1− α2  = 1 − α,
θ

si y sólo si " #
1
−z1− α2 X
−θ z1− α
P √ ≤ ≤ √ 2 = 1 − α,
n θ n

si y sólo si

−z1−α/2
 
1 z1−α/2
P √ +1≤ ≤ √ +1 = 1 − α,
n θX n
o
−z1−α/2
    
1 z1−α/2
P √ +1 X ≤ ≤ √ + 1 X = 1 − α,
n θ n
de donde:
√ √ !
n n
√ , √  ,
x n + z1−α/2 x n − z1−α/2

es un intervalo del (1 − α) % de confianza para θ.


5.3. Intervalos de confianza para muestras grandes 213

Ejemplo 5.9 Sea X la media muestral de una muestra aleatoria de tamaño


n = 25 de una distribución Gama(α, λ) con α = 4 y λ = β1 > 0. Use el
teorema del lı́mite central para obtener un intervalo de confianza para la
media de la distribución Gama con un coeficiente de confianza de 0.954.
Por el teorema del lı́mite central se sabe que
 
X −E X
q  ∼ N (0, 1),
Var X

donde
  1
E X = nE [X] = αβ = 4β,
n
1 1 1
nVar (X) = αβ 2 = 4β 2 ,

Var X =
n2 n n
entonces se desea encontrar un intervalo del 95.4 % de confianza para 4β.
Por el teorema del lı́mite central se sabe que

X − 4β
q ∼ N (0, 1),
1 2
n 4β

que implica que



X − 4β nX √
q = − 2 n ∼ N (0, 1),
1
2β 2β
n

y además los cuantiles (1 − 0.954)/2 y 1 − (1 − 0.954)/2 de una distribución


Normal(0, 1) son −1.995393 y 1.995393, los cuales se aproximarán a −2 y 2,
entonces,


 
nX
0.954 = P −2 < −2 n<2


√ √
 
nX
= P −2 + 2 n < <2+2 n

 √ √ 
nX nX
= P √ < 2β < √
2+2 n −2 + 2 n
 √ √ 
2 nX 2 nX
= P √ < 4β < √
2+2 n −2 + 2 n
 
2(5)X 2(5)X
= P < 4β <
2 + 2(5) −2 + 2(5)
214 5. Estimación por intervalos

 
5X 5X
= P < 4β < .
6 4
 
5X 5X
Por lo tanto, un intervalo del 95.4 % de confianza para 4β es 6 , 4 .

5.3.1. Intervalo de confianza para el parámetro p de una


distribución binomial
Sea X1 , . . . , Xm una muestra aleatoria de la distribución Binomial (n, p) , es
decir, Xi ∼ Bin(n, p), ∀i = 1, . . . , m. Se procederá a encontrar el estimador
máximo verosı́mil de p y la expresión para la cota de Crámer y Rao para
estimadores insesgados de p, en este caso:
 
n x n−x
f (x; n, p) = p (1 − p) , con x = 0, . . . , n.
x

La función de verosimilitud para p está dada por:


m m  
Y Y n xi n−xi
L (p) = f (xi ; n, p) = p (1 − p)
i=1 i=1
x i
m  
x1 +···+xm nm−(x1 +···+xm )
Y n (xi )
= p (1 − p) I{0,...,n} ,
i=1
x i
| {z }
α

por lo que

l (p) = ln L (p) = (x1 +· · ·+xm )ln(p)+(mn−(x1 +· · ·+xm ))ln(1−p)+ln(α)

y
∂l x1 + · · · + xm nm − (x1 + · · · + xm )
= − = 0.
∂p p̂
p̂ 1 − p̂
De donde,
m
P
Xi
i=1 X
pb = = .
nm n
Por otra parte, la información esperada de Fisher está dada por:
 2 

IX = −mE ln(f (x; n, p)) ,
∂p2
5.3. Intervalos de confianza para muestras grandes 215

ası́:  
n
ln(f (x; n, p)) = x ln(p) + (n − x) ln(1 − p) + ln( ),
x
tomando la derivada con respecto a p:
∂ x n−x
ln(f (x; n, p)) = − ,
∂p p 1−p
y la segunda derivada es
∂2 −x n−x
ln(fX (x)) = 2 − 2.
∂p2 p (1 − p)
Tomando esperanza:
! !
−x n−x np n np
E − 2 =− 2 − 2 − 2 ,
p2 (1 − p) p (1 − p) (1 − p)
lo cual implica que
!!
np n(1 − p)
IX = −m − 2 − 2
p (1 − p)
mn mn mn
= + = .
p 1−p p(1 − p)
De esta manera, se obtiene que la Cota Inferior de Crámer y Rao para
estimadores insesgados de p está dada por:
p(1 − p)
CICR = .
mn
Sea Q una cantidad pivotal definida por
X √
p̂ − p −p mn(X − np)
Q= √ = qn = p .
CICR p(1−p) p(1 − p)n
mn

A partir de esta expresión se puede proceder como en el caso de la distri-


bución exponencial expuesto antes, es decir, suponiendo que esta cantidad
pivotal tiene una distribución Normal estándar y utilizando el método pivo-
tal para despejar p. Si se toma el caso particular en el que m = 1, la cantidad
pivotal anterior se reduce a:
X
−p
Q = qn , (5.9)
p(1−p)
n
216 5. Estimación por intervalos

donde X tiene distribución Binomial (n, p) , lo cual también se puede ver


como el resultado de considerar una muestra aleatoria de tamaño n de una
distribución Bernoulli(p) , donde X representarı́a la suma de las variables de
dicha muestra. Aún en este caso es complicado obtener el intervalo para p a
partir de esta expresión, pues el parámetro aparece tanto en el numerador
como en el denominador. Un resultado de la teorı́a asintótica establece que
la cantidad
X
−p
qn , (5.10)
p
b(1−bp)
n

X
también tiene distribución N (0, 1) . Note que para este caso, pb = n, por lo
que usando (5.10) como cantidad pivotal, se obtiene que
 
X
− p
P −z1− α2 < q nX X
< z1− α2  = 1 − α,
n (1− n )
n

que es equivalente a
 s s 
X X X X
X n (1 − n) X n (1 − n )
P  − z1− α2 <p< + z1− α2 = 1 − α,
n n n n

por lo que
r r !
x
x n (1 − nx ) x x
n (1 − nx )
− z1− α2 , + z1− α2 .
n n n n

es un intervalo del 100 (1 − α) % de confianza para p.

5.4. Enfoque Bayesiano en la estimación por


intervalos
En el enfoque Bayesiano la estimación por intervalos para el (los) paráme-
tro(s) desconocidos, θ, de un modelo se basa en la distribución posterior de
los mismos, π(θ|x).
Un intervalo del 100(1−α) % de credibilidad es cualquier intervalo (L, U )
que satisface que
Z U
π(θ|x)dθ = 1 − α.
L
5.4. Enfoque Bayesiano en la estimación por intervalos 217

Estos intervalos de probabilidad no son únicos. Se puede adoptar por


ejemplo un intervalo de colas iguales donde
Z L Z ∞
π(θ|x)dθ = π(θ|x)dθ = α/2,
−∞ U

o uno unilateral donde L = −∞ o U = ∞. En los casos donde la distribución


posterior del parámetro de interés es unimodal, también es posible adoptar
un intervalo de alta densidad posterior, (HPD) por sus siglas en inglés,
donde π(L|x) = π(U |x). En este caso, este intervalo es el de menor longitud.

Ejemplo 5.10 Sea X una variable aleatoria con distribución Binomial(n, θ),
con n fijo, y considere que la distribución apriori o inicial de θ es Beta(a, b),
entonces la distribución a posteriori o final es

π(θ|x) ∝ f (x|θ)π(θ)
∝ θx (1 − θ)n−x θa−1 (1 − θ)b−1
= θx+a−1 (1 − θ)n−x+b−1 .

De esta expresión se concluye que las constantes de normalización correspon-


den a aquellas de una distribución Beta(a+x, b+n−x), que es la distribución
posterior para θ bajo esta distribución inicial conjugada.
Si ahora se considera el escenario con n = 10 y x = 4 éxitos observados en
el experimento de interés, es decir, X ∼ Binomial(10, θ) y se observa x = 4,
para una distribución inicial θ ∼ Beta(2, 2); se tiene que la distribución
posterior π(θ|x) corresponde a una Beta(6, 8). Los intervalos del 99 % de
credibilidad se muestran en la figura 5.2.
3.0
2.5
2.0

Colas Iguales
HPD
1.5

Cola Inferior
Cola Superior
1.0
0.5
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Figura 5.2: Intervalos del 99 % de credibilidad para el ejemplo 5.10.


218 5. Estimación por intervalos

5.5. Ejercicios
1. (Construcción del concepto de intervalo de confianza mediante simu-
lación en R). Revise cuidadosamente las siguientes gráficas obtenidas
en la figura 5.3, por simulación en R.
Ahı́ se presentan 100 intervalos de confianza variando el tamaño de
muestra según tres posibilidades (10, 30 y 50) y la desviación estándar
según 3 opciones (5, 10 y 15). Ası́, finalmente se tienen 9 combinaciones
según varı́a el tamaño de muestra y la desviación estándar, siendo los
escenarios posibles: n = 10 y σ = 5 hasta n = 50 y σ = 15. Cuando
un intervalo de confianza no contiene el verdadero promedio se ilustra
con una lı́nea negra (el punto medio de cada intervalo es de color gris
oscuro). Conteste lo siguiente:
(a) Determine mediante observación: ¿cuántos intervalos aproxima-
damente no contienen el verdadero valor de la media en cada una
de las simulaciones?, ¿coincide con lo que se espera si la confianza
es del 95 %?
(b) ¿Se espera que la cantidad de intervalos de confianza que no con-
tiene al verdadero valor poblacional sea el mismo para cada uno
de los nueve casos?
(c) Si observa únicamente la primera fila de las simulaciones, expli-
que: ¿cuál es el impacto de la desviación estándar sobre los inter-
valos mostrados en la grafica?, ¿se aplica también para la segunda
fila y tercera fila de simulaciones?
(d) Si observa únicamente la primera columna de las simulaciones,
explique: ¿cuál es el impacto del tamaño de muestra sobre los
intervalos hallados?, ¿se aplica también para la segunda y tercera
columnas de simulaciones?

2. Genere una muestra aleatoria X1 , . . . , Xn , de tamaño n = 30, de una


población con distribución N (µx , σ 2 ) con µx = 5 y σ 2 = 4. Genere otra
muestra aleatoria Y1 , . . . , Ym , de tamaño m = 50, de una población con
distribución N (µy , σ 2 ) con µy = 2 y σ 2 = 4. Obtenga los intervalos de
confianza para µx −µy bajo las condiciones y supuestos de los siguientes
incisos, y grafı́quelos.
(a) Intervalo del 80 % de confianza para µx − µy , suponiendo que σ 2
es conocida.
(b) Intervalo del 80 % de confianza para µx − µy , suponiendo que σ 2
es desconocida común.
5.5. Ejercicios 219

n= 10 Sigma= 5 n= 10 Sigma= 10 n= 10 Sigma= 15


80

80

80
40

40

40
0

0
80 90 100 110 120 80 90 100 110 120 80 90 100 110 120

n= 30 Sigma= 5 n= 30 Sigma= 10 n= 30 Sigma= 15


80

80

80
40

40

40
0

0
80 90 100 110 120 80 90 100 110 120 80 90 100 110 120

n= 50 Sigma= 5 n= 50 Sigma= 10 n= 50 Sigma= 15


80

80

80
40

40

40
0

80 90 100 110 120 80 90 100 110 120 0 80 90 100 110 120

Figura 5.3: Intervalos obtenidos por simulación para diferentes valores de σ


y distintos tamaños de muestra.

(c) Intervalo del 95 % de confianza para µx − µy , suponiendo que σ 2


es conocida.
(d) Intervalo del 95 % de confianza para µx − µy , suponiendo que σ 2
es desconocida común.
Repita el proceso generando cada una de estas muestras 100 veces.
¿Cómo son los intervalos? Identifique los intervalos con mayor longitud
y con menor longitud. Compare y explique los resultados.
3. Suponga que X es una variable aleatoria de la población con función
de densidad dada por
2(θ − x)
fX (x; θ) = I(0,θ) (x),
θ2
donde θ > 0 es un parámetro desconocido. Sea α ∈ (0, 1). Construya
un intervalo del 100(1 − α) % de confianza para θ, utilizando como
cantidad pivotal Q = Xθ .
220 5. Estimación por intervalos

4. Sea X una variable aleatoria de la población con función de densidad


fX (x; θ) = θxθ−1 I(0,1) (x), donde θ > 0 es un parámetro desconocido.

(a) Encuentre una cantidad pivotal y utilı́cela para encontrar un in-


tervalo de confianza para θ.
(b) Demuestre que Y2 , Y es un intervalo de confianza para θ, donde

1
Y = − ln(X) . Encuentre su nivel de confianza.

5. Sea X una variable aleatoria de una población con función de densidad


fX (x; θ) = θe−θx , donde x > 0 y θ > 0.

(a) Sea (X, 2X) un intervalo de confianza para 1/θ. ¿Cuál es su nivel
de confianza?
(b) Encuentre otro intervalo de confianza para 1/θ que tenga el mismo
nivel de confianza que el intervalo de (a), pero con menor longitud
esperada.

6. Considere una sola observación X de las siguientes distribuciones. Dado


α ∈ (0, 1), encuentre un intervalo del 100(1 − α) % de confianza para
θ.

(a) Laplace-localización

1 −|x−θ|
fX (x; θ) = e IR (x) , θ ∈ R.
2

(b) Cauchy
1 1
fX (x; θ) = IR (x) , θ ∈ R.
π 1 + (x − θ)2

(c) Laplace-escala

1 −|x|/θ
fX (x; θ) = e IR (x) , θ ∈ R+ .

7. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño 4 de una pobla-


ción con distribución U (0, θ). Sea Y(4) la máxima estadı́stica de orden.
Sean 0 < κ1 < κ2 ≤ 1 constantes tales que

P(κ1 θ < Y(4) < κ2 θ) = 0.95.



Verifique que κ1 = 4 0.05 y κ2 = 1 satisfacen estas condiciones. ¿Cuál
es entonces un intervalo del 95 % de confianza para θ?
5.5. Ejercicios 221

8. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


U (0, θ). Sea Y = máxi=1,...,n {Xi }. Pruebe que Y /θ es una cantidad
pivotal, y muestre que el intervalo (Y, Y α−1/n ) es el intervalo del (1 −
α)100 % de confianza para θ con menor longitud.
9. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
1
f (x; θ, σ) = e−(x−θ)/σ I(θ,∞) (x),
σ
donde θ ∈ R y σ ∈ R+ . Sea α ∈ (0, 1).

Pn del 100(1 − α) % de con-


(a) Si θ es conocido, encuentre un intervalo
fianza para σ. [Sugerencia: considere i=1 (Xi −θ), o una pequeña
modificación del mismo.]
Pn del 100(1 − α) % de
(b) Si θ es desconocido, encuentre un intervalo
confianza para σ. [Sugerencia: considere i=1 (Xi − X(n) ), o una
pequeña modificación del mismo.]
10. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribu-
ción Exponencial(θ), cuya función de densidad es
fXi (x) = θe−θx I(0,∞) (x).
(a) Encuentre un intervalo del 100(1−α) % de confianza para la media
de la población.
(b) Encuentre un intervalo del 100(1 − α) % de confianza para la va-
rianza de la población.
(c) Encuentre una cantidad pivotal basada únicamente en Y1 , donde
Y1 = mı́n{X1 , . . . , Xn },
y úsela para encontrar un estimador de intervalo para θ.
11. Sea Y1 , . . . , Yn una muestra aleatoria de tamaño n de una población con
distribución Uniforme en el intervalo (0, 1/θ). Encuentre un intervalo
del 95 % de confianza para θ.
12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Gama(α, β). Si α es una constante conocida, obtenga un intervalo de
confianza para la media µ = αβ.
13. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribu-
ción U (θ − 21 , θ + 12 ), cuya función de densidad es fX (x; θ) = 1 para
θ− 21 < x < θ+ 12 . Sean Y1 ≤ · · · ≤ Yn sus correspondientes estadı́sticas
de orden.
222 5. Estimación por intervalos

(a) Muestre que [Y1 , Yn ] es un intervalo de confianza para θ.


(b) Calcule su longitud esperada, es decir, E[Yn − Y1 ].
(c) Encuentre su nivel de confianza.
14. Sean X1 , X2 , . . . , Xn variables aleatorias independientes de una pobla-
ción con función de densidad
fXi (xi ; θ) = eiθ−xi ,
donde xi > iθ.
(a) Obtenga una estadı́stica S que sea suficiente para θ.
(b) Obtenga una cantidad pivotal Q que sea función de S.
(c) Encuentre un intervalo del (1 − α)100 % de confianza para θ de
la forma [S + a, S + b] tal que tenga menor longitud.
15. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
kxk−1
fX (x; θ) = I(0,θ) (x)
θk
donde θ > 0 y k es un entero positivo. Encuentre un intervalo del
(1 − α)100 % de confianza para θ.
16. ¿Qué tan grande debe ser una muestra si se desea construir un intervalo
de confianza del 99 % para la desviación estándar de una población
normal si se desea que la desviación estándar muestral no difiera en
más del 2 % de la desviación poblacional?
17. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribu-
ción N (µ, σ 2 ).
(a) Si σ 2 es conocida. Encuentre el valor mı́nimo de n que garantice
que el intervalo del 95 % de confianza para µ tendrá longitud no
mayor que σ/4.
(b) Si σ 2 es desconocida. Encuentre el valor mı́nimo de n que garan-
tice que, con probabilidad 0.90, el intervalo del 95 % de confianza
para µ tendrá longitud no mayor que σ/4.
18. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µ, σ 2 ). Sean 0 < a < b. Demuestre que la esperanza de la longitud
del intervalo  Pn Pn
2 2

i=1 (Xi − µ) i=1 (Xi − µ)
,
b a
2
es (b − a) nσ
ab .
5.5. Ejercicios 223

19. Sean X̄ y Ȳ las medias de dos muestras aleatorias independientes entre


sı́, cada una de tamaño n, de las distribuciones N (µx , σ 2 ) y N (µy , σ 2 ),
respectivamente, donde la varianza común es conocida. Encuentre n
tal que
 σ σ
P X̄ − Ȳ − < µx − µy < X̄ − Ȳ + = 0.9.
5 5

20. Considere X una variable aleatoria tal que X ∼ N (0, σ 2 ), donde σ >
0 es un parámetro desconocido. Considere el siguiente intervalo de
confianza (|X|, 10|X|) para σ.

(a) Calcule P(|X| ≤ σ ≤ 10|X|).


(b) ¿Cuál es la longitud esperada de dicho intervalo?

21. Se desea hacer una comparación entre dos tratamientos para el SI-
DA. Se mide el tiempo de supervivencvia (en años) de cada uno de
estos tratamientos en siete pacientes seleccionados aleatoriamente. La
información se detalla en la siguiente tabla.
Paciente 1 2 3 4 5 6 7
Tratamiento 1 3.1 3.3 1.7 1.2 0.7 2.3 2.9
Tratamiento 2 1.8 2.3 2.2 3.5 1.7 1.6 1.4
Construya un intervalo del 80 % de confianza para la diferencia de
medias. ¿Se necesita hacer alguna suposición adicional?

22. Se realizó un estudio para determinar si la variabilidad en la presión


arterial de hombres y mujeres es la misma o no. Se seleccionó aleato-
riamente a 13 mujeres y a 16 hombres, se les midió la presión arterial
(en milı́metros de mercurio) y los resultados fueron los siguientes:
Hombres 120 120 118 112 120 114 130 114
124 125 130 100 120 108 112 122
Mujeres 122 102 118 126 108 130 104 116
102 122 120 118 130
¿Se puede concluir con un 95 % de confianza que la variabilidad de la
presión arterial de hombres y mujeres es la misma? ¿Se necesitan hacer
suposiciones adicionales?

23. Sean X̄ y Ȳ las medias muestrales, y Sx2 y Sy2 los estimadores insesgados
de la varianza, obtenidos de dos muestras independientes cada una de
tamaño 7 de dos poblaciones normales con varianza común σ 2 y media
224 5. Estimación por intervalos

desconocida. Encuentre k ∈ R, tal que


( ) !
Sx2 Sy2
P máx , > κ = 0.05.
Sy2 Sx2

24. Se miden los tiempos de compra de 61 compradores seleccionados alea-


toriamente. Si estos tiempos tienen una distribución normal, encuentre
un intervalo del 95 % de confianza para µ si x̄ = 33 y s2 = 256.
25. Se cuenta con dos grupos similares de pacientes, A y B, que consisten
de 50 y 100 individuos, respectivamente. Al grupo A se le administró
una nueva pastilla para dormir y a la segunda una pastilla para dormir
ya existente. En el grupo A, el número promedio de horas de sueño
fue de 7.82 con una desviación estándar de 15 minutos. En el grupo
B, el número promedio de horas de sueño fue de 6.75 con una desvia-
ción estándar de 18 minutos. Construya intervalos del 95 % y 99 % de
confianza para la diferencia de las horas promedio dormidas.
26. Los siguientes datos representan el tiempo de vida útil de un artı́culo,
medido en dı́as: 29.1, 207.6, 81.8, 0.8, 76.1, 108.9, 48.4, 108.1, 52.2,
272.8, 150.5, 80.3, 97.4, 11.5, 46.2, 144.1, 62.5, 262.9, 247.6, 4.1. Este
tiempo se supone distribuı́do como una Exponencial con media θ, es
decir, Exponencial(1/θ).
(a) Encuentre un intervalo de confianza exacto al 95 % para la media
de esta distribución Exponencial.
(b) Encuentre un intervalo de confianza aproximado al 95 % para esta
media utilizando teorı́a asintótica.
(c) Encuentre un intervalo de confianza aproximado al 95 % para es-
ta media utilizando los resultados de distribución asintótica del
estimador máximo verosı́mil.
(d) Comente los resultados obtenidos y las diferencias (si las hubo)
entre los tres procedimientos.
27. Se lanza una moneda 500 veces, y se obtienen 275 águilas y 225 soles.
Obtenga un intervalo de confianza para la probabilidad de obtener
águila. Obtenga también un intervalo del 99 % de confianza. ¿Está
bien construida la moneda?
28. Una urna contiene una proporción desconocida de canicas rojas y blan-
cas. De una muestra aleatoria con reemplazo de 60 canicas se obtuvo
un 70 % de canicas rojas. Encuentre intervalos del 95 % y 99.73 % de
confianza para la proporción de canicas rojas en la urna.
5.5. Ejercicios 225

29. Para estimar la proporción de desempleados en Panamá, un economis-


ta selecciona aleatoriamente a 400 individuos de la población (clase
trabajadora o económicamente activa en algún momento). De los en-
trevistados 25 no tienen empleo. Encuentre un intervalo del 95 % de
confianza para la proporción de desempleados.

30. De una lista electoral de opinión pública se invita a 100 personas de


entre 10,000 adultos a expresar su preferencia por los candidatos A y
B. Treinta personas prefirieron a A. De esto se concluyó que entre 2100
y 3900 de la población prefieren a A. ¿Qué nivel de confianza se usó
en este informe? Note que n = 100 y Y = 30 es el número de éxitos
(las personas que prefirieron a A) y que el intervalo está dado para la
media np.

31. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribu-


ción P oisson(λ). Suponga que el tamaño de la muestra es lo suficiente-
mente grande y por lo tanto se cumplen las propiedades del estimador
máximo verosı́mil de λ. Construya un intervalo del (1 − α)100 % de
confianza para λ.

32. Encuentra una cantidad pivotal basada en una muestra aleatoria de


una distribución N (θ, θ) con θ > 0. Usa la cantidad pivotal para en-
contrar un intervalo del (1 − α) % de confianza para θ.

33. Considere una muestra aleatoria X1 , X2 . . . , Xn de un modelo


N ormal(µ, τ ) donde τ = 1/σ 2 . Suponiendo que las distribuciones ini-
ciales corresponden al modelo conjugado, obtenga un intervalo de cre-
dibilidad de 95 %, de colas iguales para cada parámetro. Obtenga para
µ el intervalo HDP del 90 %.

34. Sea X1 y X2 una muestra aleatoria de tamaño n = 2, de una población


con distribución Exponencial(θ), cuya media es igual a 1/θ. Considere
que la distribución a priori para θ es una distribución Gama(2, 4).
Suponga que dada la muestra x̄ = 0.125. Encuentre la probabilidad
posterior del intervalo de credibilidad [3.49, 15.5].

35. Sea X1 , . . . , Xn una muestra aleatoria de tamaño n de una población


con distribución normal con media µ y varianza σ 2 , N (µ, σ 2 ). Obtenga
a y b tal que

(n − 1)s2
 
P a≤ ≤b = 1 − α.
σ2
226 5. Estimación por intervalos

Ası́, el intervalo del 100(1 − α) % de confianza para σ es


r r !
n−1 n−1
s, s .
b a

Encuentre valores de a y b tal que minimicen la longitud del intervalo


de confianza. Esto es, minimice

 
1 1
k = s n−1 √ − √ ,
a b
bajo la restricción de que
Z b
G(b) − G(a) = g(u)du = 1 − α,
a

donde G(u) y g(u) son las funciones de distribución y de densidad de


una distribución χ2(n−1) , respectivamente.
[Sugerencia: Debido a la restricción, b es una función de a. En particu-
lar, tomando las derivadas de la ecuación de restricción con respecto
db
a a, muestre que da = g(a) dk dk
g(b) . Determine da . Estableciendo da = 0,
muestre que a y b deben satisfacer

an/2 e−a/2 − bn/2 e−b/2 = 0.

Esta condición, junto con la restricción, son usadas para calcular los
valores de los cuantiles.]
Capı́tulo 6

Pruebas de hipótesis

En los capı́tulos anteriores se ha analizado la inferencia estadı́stica con res-


pecto a la estimación puntual y por intervalos, ahora se estudiarán las prue-
bas o contrastes de hipótesis estadı́sticas que, como se verá, tienen una fuerte
relación con el concepto de estimación.

6.1. Los conceptos fundamentales en las prue-


bas de hipótesis
El lenguaje o argot de una profesión especı́fica se caracteriza por marcar una
frontera mediante un vocabulario poco comprensible para quienes no perte-
necen al gremio, aunque en muchos casos oculte ideas o conceptos sencillos.
La estadı́stica no es la excepción y es precisamente en este tema en donde es
más claro el uso de una terminologı́a jergal de los estadı́sticos, como se verá
en los siguientes párrafos.
Intuitivamente, una hipótesis estadı́stica tiene que ver con una afirma-
ción relacionada con un cierto fenómeno y debe analizarse si dicha afirmación
está sustentada por la evidencia. Por ejemplo, en la nueva ley de justicia pe-
nal en México se ha hecho énfasis en que un acusado debe ser considerado
inocente mientras no se pruebe su culpabilidad, ası́ que la afirmación de que
sea culpable debe sustentarse con la evidencia. En este caso pueden suceder
varias situaciones, como el hecho de que no haya suficientes pruebas para
demostrar que el acusado es culpable, lo cual no significa que sea inocente; o
bien, puede suceder que haya un error en la sentencia y se culpe a un inocente

227
228 6. Pruebas de hipótesis

o se absuelva a un culpable, es decir, cabe la posibilidad de falsos positivos


y falsos negativos. Estos aspectos se analizarán desde la perspectiva de la
estadı́stica matemática.
Una hipótesis estadı́stica puede plantearse como una aseveración rela-
cionada con la distribución de una variable aleatoria1 , lo cual se traduce en
este texto en una afirmación con respecto a alguna caracterı́stica desconoci-
da de una población de interés, expresada en términos de los parámetros del
modelo de probabilidad propuesto para describir el fenómeno en estudio o
bien, en términos de la comparación de dos modelos. La esencia de probar
una hipótesis estadı́stica es el decidir si la aseveración se encuentra apoyada
por la evidencia experimental que se obtiene a través de una muestra aleato-
ria. La decisión acerca de si los datos muestrales respaldan estadı́sticamente
la afirmación se toma con base en la probabilidad de que esto ocurra y, si
ésta es mı́nima (y por lo tanto el tamaño del error es grande), entonces será
rechazada la hipótesis.
Para introducir los principales conceptos en pruebas de hipótesis, se uti-
lizarán dos casos. El primero de ellos lo propuso Fisher (1935) en su obra El
diseño de experimentos, descrito también en Newman (1956) como las ma-
temáticas de una catadora de té; mientras que el segundo caso es un ejemplo
de larga data en la enseñanza de este tema en la Facultad de Ciencias de la
UNAM.

Caso 1: Fisher y la dama del té

El caso conocido como “la dama del té” fue expuesto por Fisher en su obra
las matemáticas de una catadora de té, en donde se señala que una dama
inglesa aseguraba que podı́a saber si se habı́a vertido en primer lugar la
infusión de té o la leche en una taza, con sólo probar la mezcla resultante.
Para analizar la afirmación de la señora se procede a un experimento.
Se le pide probar y clasificar n pares de tazas de té, conteniendo cada par
una taza preparada por cada uno de los dos procedimientos en cuestión,
primero el té y después la leche, y viceversa. En el experimento se pone
especial cuidado en asegurar la semejanza bajo las condiciones en que se
clasifican los pares de tazas de té y se procura la eliminación de cualquier
posible diferencia entre las tazas que resulte irrelevante para el problema. A
la dama se le presentan aleatoriamente las tazas de cada par. Finalmente,
se deja un tiempo razonable entre intentos sucesivos, a fin de asegurar que
la clasificación de cada par de tazas de té es independiente de los pares de
tazas precedentes.
1O simplemente con una variable aleatoria.
6.1. Conceptos fundamentales en pruebas de hipótesis 229

Se desea probar la hipótesis que consiste en afirmar que la dama es una


charlatana, que tendrı́a como contraparte la hipótesis de que ella tiene po-
deres de discriminación.

Caso 2: El juego de azar elegido por un chango


Suponga que se coloca a un changuito dentro de una caja (suficientemente
grande para que quepa en ella) con una pequeña ventana y en cuyo interior se
tienen 5 monedas y un dado honestos, ası́ como papel y lápiz. El experimento
consiste en lo siguiente:

El monito elige un juego al azar, lanzar las cinco monedas o lanzar el


dado.

Si se decide por el dado, el juego consiste en lanzarlo y observar el


número de la cara que aparece hacia arriba.

Si decide usar las monedas, las lanzará una por una y contará el número
de águilas.

Anotará en un papel el número de águilas o el de la cara del dado que


haya salido y lo entregará a través de la ventanita.

El problema consiste en averiguar si el changuito usó el dado o las mo-


nedas. Es decir, se desea probar la afirmación de que el changuito usó el
dado, que tendrı́a como contraparte la hipótesis de que el changuito usó las
monedas.

6.1.1. Hipótesis estadı́sticas


El experimento asociado con el caso de la dama del té se puede ver como la
obtención de una muestra aleatoria de tamaño n de una población con dis-
tribución Bernoulli, es decir, se tienen n variables aleatorias X1 , X2 , . . . , Xn ,
tal que Xi tiene distribución Bernoulli con parámetro p, para i = 1, 2, . . . , n,
con (
1 si la clasificación es correcta,
Xi =
0 si la clasificación no es correcta.
Se quieren probar las siguientes aseveraciones:

La dama es charlatana. vs. La dama tiene “poderes” de discriminación.

Si la dama es charlatana, entonces hará la clasificación adivinando, por lo


que p = 12 (p es la probabilidad de éxito); si tiene poderes de discriminación,
230 6. Pruebas de hipótesis

entonces p > 21 , por lo que la hipótesis de que la dama es charlatana se puede


replantear como:
1
Xi ∼ Bernoulli con p = , i = 1, . . . , n.
2
Definición 6.1 Una hipótesis estadı́stica es una aseveración acerca de la
distribución de una o más variables aleatorias. A una hipótesis que especifica
completamente la distribución se le llama hipótesis simple. A una hipótesis
que no es simple se le llama hipótesis compuesta.

Note que en el ejemplo de la dama del té se tiene un contraste de una


hipótesis simple contra una hipótesis compuesta.
En particular a p = 12 se le llama hipótesis nula y a p > 12 hipótesis
alternativa, denotadas por H0 y Ha , respectivamente. De hecho, el término
hipótesis nula fue introducido por Fisher para representar la hipótesis defen-
dida por él: la nula posibilidad de que la dama pudiera distinguir el orden
en que se vertieron el té y la leche. Ası́,
1 1
H0 : p = vs. Ha : p > .
2 2
Por otra parte, en el ejemplo del changuito (caso 2) los posibles resulta-
dos que se pueden obtener (al recibir el papel con el número anotado) son:
0, 1, 2, 3, 4, 5, 6; esto es, el espacio muestral está dado por:

Ω = {0, 1, 2, 3, 4, 5, 6} .

Este problema se puede plantear de la siguiente forma:

H0 : El changuito usó el dado vs. Ha : El changuito usó las monedas,

y de estas dos afirmaciones, el interés radica en ver de alguna manera que


se confirma una y por lo tanto la otra es falsa. En este caso, las hipótesis
se pueden replantear traduciendo el contenido de cada una de ellas a térmi-
nos probabilı́sticos, es decir, cada hipótesis se puede representar por una
aseveración acerca de la distribución de una variable aleatoria, por lo que:
1
H0 : P (X = i) = , i = 1, . . . , 6,
6
vs.
   k  5−k
5 1 1
Ha : P (X = k) = 1− , k = 0, 1, . . . , 5,
k 2 2
donde en H0 , X denota el valor de la cara del dado obtenida y en Ha denota
el número de águilas obtenidas (éxitos) de entre los cinco lanzamientos. Lo
6.1. Conceptos fundamentales en pruebas de hipótesis 231

que se afirma en H0 y en Ha es acerca de la distribución de una variable


aleatoria, es decir, son hipotésis estadı́sticas (note además que en este ejemplo
las dos hipótesis son simples).
Tanto en el caso de la dama del té como en el del changuito, se desea
discriminar entre las dos hipótesis planteadas; por lo que el problema es
encontrar alguna evidencia que lleve a rechazar alguna y, por lo tanto, a
aceptar la otra.
Definición 6.2 Una prueba de hipótesis es una regla de decisión me-
diante la cual, y con base en la muestra, se puede determinar si se acepta o
se rechaza la hipótesis nula bajo consideración.
Sólo como ilustración, suponga que en el caso de la dama del té, n = 5.
P5
Entonces T (X) = Xi cuenta el número de éxitos y T (X) ∼ Bin(5, p). Se
i=1
podrı́a decidir, por ejemplo, rechazar H0 si T = 5 ó si T = 4 y no rechazarla
si T = 0 ó T = 1; regla que usualmente se expresa como un enunciado
precedido por la letra griega γ, es decir:
5
X 5
X
γ : Rechazar H0 si Xi = 4 o Xi = 5.
i=1 i=1

Esta regla de decisión serı́a entonces una prueba de hipótesis; sin embargo,
por el momento no tiene mayor sustento que el intuitivo.
Ahora, siguiendo con el caso del changuito, es claro que se rechaza H0 si
en el papel aparece el cero (el dado no tiene el número cero) y no se rechaza
H0 si en el papel aparece el 6 (sólo hay cinco monedas). De esta manera, el
espacio muestral queda dividido en dos partes, una de ellas lleva a rechazar
H0 y la otra lleva a no rechazar H0 ; las partes en que queda dividido Ω no
pueden traslaparse, ya que un elemento que perteneciera al traslape llevarı́a
a rechazar y a no rechazar al mismo tiempo a la hipótesis H0 , lo cual serı́a
una contradicción, por lo que se busca una partición del espacio muestral Ω.
Una posible partición de Ω es C = {0, 2, 3}, región que llevarı́a a rechazar
a H0 ; por lo que C c = {1, 4, 5, 6} y al obtener un resultado de este subcon-
junto, no se rechazarı́a H0 . Una vez más, hasta este momento, la regla de
decisión sólo tiene un sustento intuitivo y también puede expresarse como:
γ : Rechazar H0 si el número es 0, 2 o 3.
A la región C se le denomina la región crı́tica o de rechazo de H0 y se
define de la siguiente manera.
Definición 6.3 A la región C que lleva a rechazar la hipótesis nula se le
llama región de rechazo o región crı́tica.
232 6. Pruebas de hipótesis

Una vez especificada, basta tomar una muestra y verificar si se encuentra


en la región crı́tica o no.
Se usará la siguiente notación relacionada con algunos de los conceptos
expuestos hasta el momento:
La letra griega γ denota una prueba de hipótesis.
C o Cγ se refiere a la región crı́tica asociada a la prueba γ.
Como antes, la letra Θ denota el espacio paramétrico.
Θ0 se refiere al espacio paramétrico consistente con la hipótesis nula
H0 .
Θ1 se refiere al espacio paramétrico consistente con la hipótesis alter-
nativa Ha .
Observación 6.1 Note que una prueba de hipótesis γ y una región crı́ti-
ca C (o Cγ ) son equivalentes. Considere por ejemplo una muestra aleatoria
X1 , X2 , . . . , Xn de una población con distribución N (θ, 100), se desea probar:
H0 : θ ≤ 75 vs. Ha : θ > 75.
En este caso se tienen dos hipótesis compuestas, donde
Θ0 = {θ : θ ≤ 75} y Θ1 = {θ : θ > 75}.
La siguiente es una región crı́tica asociada a este problema:
C = (x1 , x2 , x3 ) ∈ X | x21 + x22 + x23 ≥ 1 .


De esta manera, la prueba está determinada: se consideran tres variables


aleatorias X1 , X2 y X3 , si los valores observados son tales que x21 +x22 +x23 ≥ 1,
entonces se rechaza la hipótesis nula, en caso contrario, se acepta.
Por lo tanto, la prueba asociada serı́a:
γ : Rechazar H0 si x21 + x22 + x23 ≥ 1.

6.1.2. Tipos y tamaños de los errores


Como en todos los casos de decisión estadı́stica, se puede incurrir en errores
y la idea serı́a efectuar una partición del espacio muestral que sirviera como
regla de decisión considerando los posibles errores que se pueden cometer y
tratando de que su probabilidad de ocurrencia fuera lo más pequeña posible.
Es necesario entonces analizar los tipos de errores que se pueden cometer al
efectuar una prueba estadı́stica.
Esto fue precisamente lo que hizo Fisher en el ejemplo de la dama del té,
señalando que podı́a hacer conclusiones equı́vocas, esto es:
6.1. Conceptos fundamentales en pruebas de hipótesis 233

1. Decir que la dama tenı́a poderes cuando en realidad era charlatana, lo


cual es equivalente a rechazar H0 cuando H0 es cierta.

2. Decir que la dama era charlatana cuando en realidad tenı́a poderes, lo


cual es equivalente a aceptar (no rechazar) H0 cuando H0 es falsa.

Fisher llamó a estos errores, error tipo I y error tipo II, respectivamen-
te, quedando este nombre dentro de la literatura estadı́stica para representar
de manera general al yerro de rechazar a la hipótesis nula cuando es cierta
y no rechazarla cuando es falsa, respectivamente. Se acostumbra representar
estos errores en forma tabular como:

H0 cierta H0 falsa
Rechazar H0 Error tipo I Decisión correcta
No rechazar H0 Decisión correcta Error tipo II

El objetivo en pruebas de hipótesis es entonces efectuar el contraste entre


H0 y Ha minimizando los errores que se puedan cometer y maximizando los
aciertos. Para medir los errores que se cometen, lo que se hace es calcular las
probabilidades de dichos errores y a estas probabilidades se les conoce como
los tamaños de los errores.

Definición 6.4 Se define el tamaño de los errores como

α = P(error tipo I) = P [rechazar H0 | H0 cierta]

β = P(error tipo II) = P [no rechazar H0 | Ha cierta]


= P(error tipo II) = P [no rechazar H0 | H0 falsa] .

Rechazar H0 es equivalente a haber obtenido una muestra de la región C


de rechazo de H0 y, por lo tanto, de una “buena” partición de Ω en C y C c
depende el tamaño de los errores.
El objetivo es encontrar un criterio óptimo para particionar a Ω en C y
C c , de tal manera que dicho criterio tome en cuenta el tamaño de los errores
en algún sentido. En el ejemplo del changuito la partición propuesta:

C = {0, 2, 3} y C c = {1, 4, 5, 6} ,

da lugar a los tamaños de error siguientes:


234 6. Pruebas de hipótesis

α = P [error tipo I] = P [rechazar H0 | H0 cierta]


= P [X ∈ C | H0 ]
= P [X = 0 o X = 2 o X = 3| H0 ]
= P [X = 0| H0 ] + P [X = 2| H0 ] + P [X = 3| H0 ]
1 1
= 0+ +
6 6
2 1
= = ,
6 3

β = P [error tipo II] = P [no rechazar H0 | Ha cierta]


= P [X ∈ C c | Ha ]
= P [X = 1 ó X = 4 ó X = 5 ó X = 6| Ha ]
= P [X = 1| Ha ] + P [X = 4| Ha ] + P [X = 5| Ha ] + P [X = 6| Ha ]
5 5 1
= + + +0
32 32 32
11
= .
32
Puede verse que estos tamaños de error en realidad son grandes, pero
esto es consecuencia de que se cuenta con una muestra de tamaño uno. Más
adelante se dará un criterio general para obtener una mejor partición de Ω
y por lo tanto, una buena prueba. Para ello se introduce ahora el concepto
de función potencia.

6.1.3. La función potencia


La función potencia juega un papel similar al del error cuadrático medio en
estimación: será el estándar para medir la bondad de una prueba y se define
de la siguiente manera.

Definición 6.5 La potencia de una prueba γ está dada por:

πγ (θ) = P[Rechazar H0 |θ] = P[(X1 , . . . , Xn ) ∈ C|θ].

La función potencia ideal vale 0 para θ ∈ Θ0 (hipótesis nula) y vale 1


para θ ∈ Θ1 (hipótesis alternativa). Es decir,

0 si θ ∈ Θ0 ,
P[Rechazar H0 |θ] =
1 si θ ∈ Θ1 .
6.1. Conceptos fundamentales en pruebas de hipótesis 235

Ası́, la idea es no rechazar la hipótesis nula cuando es cierta y rechazarla


cuando es falsa.

Definición 6.6 Sea γ una prueba de hipótesis de H0 : θ ∈ Θ0 contra Ha :


θ ∈ Θ1 . El tamaño de la prueba se define como:

máx πγ (θ),
θ∈Θ0

es decir, es el máximo valor de la potencia cuando H0 es cierta.

Observación 6.2 El tamaño de la prueba también se conoce como el ta-


maño de la región crı́tica, debido a la equivalencia que ya se ha mencionado
entre prueba y región crı́tica. Asimismo, se le puede llamar el nivel de la
prueba.

Observación 6.3 Lo que dice la definición anterior es que el tamaño de


la prueba se entiende como la mayor probabilidad de tomar una decisión
incorrecta suponiendo verdadero cualquier valor del parámetro θ asociado
con la hipótesis nula. Es deseable que se trate de una probabilidad pequeña,
por lo que es usual que α se fije en los valores 0.05 o 0.01.

Ejemplo 6.1 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


N (θ, 100) con n = 25. Se considera el contraste H0 : θ ≤ 75 vs. Ha : θ > 75
y se propone la siguiente región crı́tica para esta prueba:

C = {(x1 , . . . , x25 ) ∈ X : x > 75} ,

es decir, la prueba está especificada como:

γ : rechazar H0 si x > 75.

La función potencia está dada por:

πγ (θ) = P(X ∈ C|θ) = P(X > 75|θ),

y como X ∼ N θ, 100

25 , se tiene que:
 
X −θ 75 − θ
πγ (θ) = P >
2 2
   
75 − θ 75 − θ
= P Z> =1−Φ ,
2 2

donde Z = X−θ 2 tiene una distribución N (0, 1) y Φ denota la función de


distribución acumulada de Z.
236 6. Pruebas de hipótesis

A continuación se calcula la función potencia para algunos valores es-


pecı́ficos de θ:
Si θ = 73,
πγ (θ) = P(Z > 1) = 1 − Φ(1) = 0.1587.
Si θ = 75,
πγ (θ) = P(Z > 0) = 0.5.
Si θ = 77,

πγ (θ) = P(Z > −1) = 1 − Φ(−1) = 1 − [1 − Φ(1)] = Φ(1) = 0.8413.

Si θ = 79,
πγ (θ) = P(Z > −2) = Φ(2) = 0.977.
El tamaño de la prueba está dado por

máx πγ (θ) = 0.5.


θ∈Θ0

La figura 6.1 muestra la gráfica de la función potencia correspondiente a


este ejemplo.
0.0 0.2 0.4 0.6 0.8 1.0
πγ(θ)

60 65 70 75 80 85 90

Figura 6.1: Función potencia del ejemplo 6.1.

Ejemplo 6.2 Sea X una variable aleatoria con distribución Binomial(5, θ).
El problema consiste en contrastar las hipótesis H0 : θ ≤ 1/2 vs. Ha : θ >
1/2.
6.1. Conceptos fundamentales en pruebas de hipótesis 237

Considere dos regiones crı́ticas C1 = {x | x = 5} y C2 = {x | x = 3, 4 o 5}.


Bajo la región crı́tica C1 = {x | x = 5}, la función potencia es:

π1 (θ) = P(Rechazar H0 |θ)


= Pθ (X = 5|θ)
= θ5 ,

entonces
1 − π1 (θ) = 1 − θ5 ,

ası́ que el tamaño del error tipo I es α, α ≤ (1/2)5 = 0.03125 y el tamaño


del error tipo II es β < 1 − (1/2)5 = 0.96875.
Usando la región crı́tica C2 = {x | x = 3, 4 o 5}, la función potencia es:

π2 (θ) = P(Rechazar H0 |θ)


= Pθ (X = 3, 4 ó 5|θ)
     
5 3 2 5 4 1 5 5
= θ (1 − θ) + θ (1 − θ) + θ (1 − θ)0 ,
3 4 5

entonces
     
5 3 2 5 4 1 5 5
π2 (θ) = θ (1 − θ) + θ (1 − θ) + θ (1 − θ)0 ,
3 4 5
     
5 0 5 5 1 4 5 2
1 − π2 (θ) = θ (1 − θ) + θ (1 − θ) + θ (1 − θ)3 ,
0 1 2

ası́ que el tamaño del error tipo I es α ≤ 0.5 y el tamaño del error tipo II es
β < 0.5.

Las funciones potencia de ambas regiones crı́ticas se muestran en la figura


6.2. Bajo C1 , el tamaño del error tipo I es menor que cuando se considera
C2 , mientras que el error tipo II es mayor bajo C1 que bajo C2 . La pregunta
ahora serı́a cuál de las dos regiones deberı́a elegirse con base en las respectivas
funciones potencia.
Es entonces conveniente establecer un criterio para determinar cuál podrı́a
ser la mejor región crı́tica. Para ello es necesario definir lo que se considera
una buena prueba y este concepto está relacionado con los tamaños de los
errores y, por lo tanto, con la función potencia. Esto se hará consideran-
do diferentes tipos de contraste, iniciando con el caso de una hipótesis nula
simple contra una hipótesis alternativa también simple.
238 6. Pruebas de hipótesis

Funcion potencia

0.0 0.2 0.4 0.6 0.8 1.0


C1
π(θ) C2

0.0 0.2 0.4 0.6 0.8 1.0

Figura 6.2: Funciones potencia del ejemplo 6.2.

6.2. Hipótesis simples


En esta situación se tienen dos distribuciones completamente especificadas,
las cuales se denotarán por f0 = f (x; θ0 ) y f1 = f (x; θ1 ), correspondientes a
las hipótesis nula y alternativa, respectivamente.
Considere una muestra aleatoria X1 , X2 , . . . , Xn de una población con
distribución f0 ó f1 y se desea probar:

H0 : Xi ∼ f0 vs. Ha : Xi ∼ f1 .

Si se tiene una sola observación x1 y las funciones f0 y f1 son tales que


f0 (x1 ) > f1 (x1 ), entonces se puede decidir que la observación viene de f0 .
Bajo este criterio, la observación vendrı́a de f1 si f0 (x1 ) ≤ f1 (x1 ) (es más
probable que la observación venga de f1 que de f0 y se deberı́a rechazar H0 ).
Este simple razonamiento se puede usar en el ejemplo del juego de azar
elegido por un chango, especificando la siguiente regla de decisión: rechazar
H0 si
P [X ∈ C | H0 ] ≤ P [X ∈ C | Ha ] (6.1)
o, de manera equivalente, rechazar H0 si
P [X ∈ C | H0 ]
≤ 1. (6.2)
P [X ∈ C | Ha ]
6.2. Hipótesis simples 239

En la subsección 6.1.2 se calcularon los tamaños de los errores para la


partición
C = {0, 2, 3} y C c = {1, 4, 5, 6} ,
obteniendo:

α = P [error tipo I]
= P [X ∈ C | H0 ]
1
=
3
y

β = P [error II]
= P [X ∈ C c | Ha ]
11
= ,
32
21
por lo que P [X ∈ C | Ha ] = 32 .
Siguiendo un desarrollo análogo se pueden encontrar α y β para cada
partición de Ω que se proponga, en particular:
Si C1 = {0, 2} , C1c = {1, 3, 4, 5, 6} y

1 1 5 10 5 1 21
α1 = 0 + = y β1 = + + + +0= .
6 6 32 32 32 32 32
Si C2 = {0, 3, 4} , C2c = {1, 2, 5, 6} y

1 1 1 5 10 1 16
α2 = 0 + + = y β2 = + + +0= .
6 6 3 32 32 32 32
Si C3 = {0, 1, 4, 5} , C3c = {2, 3, 6} y

1 1 1 3 1 10 10 20
α3 = 0 + + + = = y β3 = + +0= .
6 6 6 6 2 32 32 32
Como puede observarse, para estas tres particiones, cuando α decrece,
β crece mucho y viceversa o ambos son grandes. De la misma manera se
pueden obtener α y β para cada una de todas las posibles particiones de Ω
y comprobar que la pareja que cumple el criterio (6.1), o equivalentemente
(6.2), y que tiene los mı́nimos errores es la primera partición propuesta.
Esta idea intuitiva se retomará más adelante, es necesario ahora dar una
definición de lo que se entenderá por una buena prueba con base en el tamaño
de los errores y de la potencia de esa prueba.
240 6. Pruebas de hipótesis

6.2.1. Pruebas más potentes y el lema de Neyman-


Pearson
Para considerar el tamaño de los errores en la búsqueda de una prueba
adecuada, usualmente lo que se hace es fijar el tamaño del error tipo I y
entonces buscar la prueba que tenga tamaño de error tipo II mı́nimo (de
entre todas las que tengan el mismo tamaño de error tipo I).
En este caso simple contra simple, Θ = {θ0 , θ1 }. Se quiere probar

H0 : θ = θ0 vs. Ha : θ = θ1 .

Sea γ una prueba asociada a este contraste de hipótesis y sea πγ (θ) la


función potencia asociada a dicha prueba. Una buena prueba es tal que
πγ (θ0 ) = P(rechazar H0 |H0 ) es pequeña (idealmente cero) y
πγ (θ1 ) = P(rechazar H0 |Ha ) es grande (idealmente 1).

Observación 6.4 Note que en este caso simple contra simple, la función
potencia evaluada en θ0 , es decir, πγ (θ0 ) = P(rechazar H0 |H0 ), coincide con
el tamaño del error tipo I y también con el tamaño de la prueba γ, pues el
único valor en Θ0 es θ0 :

πγ (θ0 ) = tamaño del error tipo I = tamaño de la prueba,

y note también que:

1 − πγ (θ1 ) = P(no rechazar H0 |Ha ) = tamaño del error tipo II,

relación que establece que minimizar el tamaño del error tipo II es equivalente
a maximizar la potencia evaluada en la hipótesis alternativa.

El concepto de lo que debe ser una buena prueba queda plasmado en


la siguiente definición, la cual se identifica como una prueba más potente
y que está vinculada con la observación anterior en el sentido de que se
fija el tamaño del error tipo I y se minimiza el tamaño del error tipo II o,
equivalentemente, se maximiza la función potencia evaluada en Ha , de ahı́
el nombre que se le da a la prueba resultante.

Definición 6.7 Una prueba γ ∗ de H0 : θ = θ0 vs. Ha : θ = θ1 se define


como una prueba más potente de tamaño α (0 < α < 1) si y sólo si:

(i) πγ ∗ (θ0 ) = α,

(ii) πγ ∗ (θ1 ) ≥ πγ (θ1 ), para cualquier otra prueba γ tal que πγ (θ0 ) = α.
6.2. Hipótesis simples 241

Observación 6.5 Como se ha mencionado, una prueba de hipótesis es equi-


valente al conocimiento de una región crı́tica, por lo que la definición anterior
puede darse también en términos de la región crı́tica C ∗ asociada a γ ∗ .
Una mejor región crı́tica C ∗ de tamaño α para probar H0 : θ = θ0 vs.
Ha : θ = θ1 , satisface:

(i) P(X ∈ C ∗ |H0 ) = α,

(ii) P(X ∈ C ∗ | Ha ) ≥ P(X ∈ C|Ha ), para cualquier C tal que P(X ∈


C|H0 ) = α.

El siguiente resultado, conocido como el lema de Neyman-Pearson2 , pro-


porciona un método para obtener pruebas más potentes (o regiones crı́ticas
óptimas).

Lema 6.1 (lema de Neyman-Pearson) . Sea X1 , . . . , Xn una muestra


aleatoria de una población con función de densidad f (x; θ), donde θ ∈ Θ =
{θ0 , θ1 } y sean 0 < α < 1, k un número positivo y C ∗ tales que:

(a) P(X ∈ C ∗ |H0 ) = α,


n
Q
f (xi ;θ0 )
L(θ0 )
(b) λ = L(θ1 ) = i=1
n
Q ≤ k si x ∈ C ∗ ,
f (xi ;θ1 )
i=1

(c) λ > k si x ∈ (C ∗ )c .
Entonces la prueba γ ∗ , asociada a C ∗ , es una prueba más potente para
probar H0 : θ = θ0 vs. Ha : θ = θ1 (es decir, C ∗ es la mejor región
crı́tica).
2 Jerzy Neyman (1894-1981), de nacionalidad polaca, vivió en Estados Unidos desde

1938 (Universidad de California en Berkeley) y Egon Sharpe Pearson (1895-1980),


hijo del reconocido estadı́stico inglés Karl Pearson. Colaboraron durante los años 20 y 30
del siglo XX, abordando problemas de inferencia y construyendo herramientas estadı́sticas
como el lema que lleva su nombre.
Neyman, J. and Pearson, E.S. (1928a, 1928b). On the use and interpretation of certain
test criteria for purposes of statistical inference, Part I. Biometrika, 20A, 175-240. Part
II. Biometrika, 20A, 263-294.
Neyman, J. and Pearson, E.S. (1933a). On the problem of the most efficient tests of
statistical hypotheses. Phil. Trans. Roy. Soc., Ser. A, 231, 289-337. Reprinted in Breakth-
roughs in Statistics Volume I (S. Kotz and N. L. Johnson, eds.), 1992. Springer-Verlag,
Inc., New York.
Neyman, J. and Pearson, E.S. (1933b). The testing of statistical hypotheses in relation
to probabilities a priori. Proc. Camb. Phil. Soc., 24, 492-510
242 6. Pruebas de hipótesis

Demostración. Observe primero que la primera hipótesis (a) coincide con


(i) de la definición 6.7 de prueba más potente (o equivalentemente de mejor
región crı́tica). Por otro lado, la hipótesis (b) se puede reescribir como:
1
L(θ1 ) ≥
L(θ0 ), x ∈ C∗ ∩ Cc ⊆ C∗
k
y la hipótesis (c) es equivalente a:
1 c
L(θ1 ) < L(θ0 ), x ∈ (C ∗ ) ∩ C ⊆(C ∗ )c .
k
Observe también que:
c
C = (C ∩ C ∗ ) ∪ (C ∩ (C ∗ ) ) (6.3)
y
C ∗ = (C ∗ ∩ C) ∪ (C ∗ ∩ C c ) . (6.4)
La demostración se hará para el caso continuo. Por demostrar que
P(X ∈ C ∗ | Ha ) ≥ P(X ∈ C|Ha ),
para cualquier C tal que P(X ∈ C|H0 ) = α (ver observación 6.5); que es
equivalente a demostrar que:
Z Z
L(θ1 ) ≥ L(θ1 ),
C∗ C
o bien que: Z Z
L(θ1 ) − L(θ1 ) ≥ 0,
C∗ C
que por las identidades (6.3) y (6.4), es equivalente a demostrar que:
Z Z
L(θ1 ) − L(θ1 ) ≥ 0. (6.5)
C ∗ ∩C c C∩(C ∗ )c

Se procede de la siguiente manera:


Z Z "Z Z #
1
L(θ1 ) − L(θ1 ) ≥ L(θ0 ) − L(θ0 ) =
C ∗ ∩C c C∩(C ∗ )c k C ∗ ∩C c (C ∗ )c ∩C

"Z Z Z Z #
1
= k L(θ0 ) + L(θ0 ) − L(θ0 ) − L(θ0 )
C ∗ ∩C c C∩C ∗ (C ∗ )c ∩C C∩C ∗

Z Z 
1
= k L(θ0 ) − L(θ0 )
C∗ C

= 1
k [P [X ∈ C ∗ |H0 ] − P [X ∈ C|H0 ]] = k1 (α − α) = 0.
6.2. Hipótesis simples 243

Con lo que (6.5) queda demostrado. 

Note la relación del lema de Neyman-Pearson con el argumento intuiti-


vo que se explicó al inicio de esta sección, proporcionando ası́ un método
sistemático para encontrar una prueba más potente.
A continuación se presentan algunos ejemplos del uso del lema de Neyman-
Pearson.
Ejemplo 6.3 Sea X1 , . . . , Xn una muestra aleatoria de la población con
función de densidad f (x; θ) = θe−θx , θ > 0,
Θ = {θ0 , θ1 } (θ0 > θ1 )
H0 : θ = θ 0 . vs. Ha : θ = θ1 ,
n
Y Yn Pn
L(θ) = θe−θxi = θn e−θxi = θn e−θ i=1 xi .
i=1 i=1
Procediendo de acuerdo al lema de Neyman-Pearson:
Pn  n
L(θ0 ) θ0n e−θ0 i=1 xi θ0 Pn Pn
= n −θ Pn x = e−θ0 i=1 xi +θ1 i=1 xi
L(θ1 ) θ1 e 1 i=1 i θ1
 n
θ0 Pn
= e−(θ0 −θ1 ) i=1 xi ≤ k ⇔ x ∈ C ∗ ,
θ1
Pn
⇒ e−(θ0 −θ1 ) i=1 xi
≤ k1 ,
n
X n
X
⇒ −(θ0 − θ1 ) xi ≤ k2 ⇒ (θ0 − θ1 ) xi ≥ −k2 ,
i=1 i=1
n
X
⇒ xi ≥ k3 ≡ c ⇔ se rechaza H0 .
i=1

(se han usado k1 , k2 y k3 para denotar a las constantes que van resultando
en cada paso del despeje de la estadı́stica de prueba, hasta llegar a la forma
de la región crı́tica).
Entonces, la prueba de hipótesis queda establecida de la siguiente manera:
n
X
γ ∗ : Se rechaza H0 si Xi ≥ c,
i=1

o ( )
n
X

C = (X1 , . . . , Xn ) ∈ X| Xi ≥ c ,
i=1
244 6. Pruebas de hipótesis

donde c se determina fijando el tamañoPn de la prueba y con base en la dis-


tribución de la estadı́stica de prueba i=1 Xi . Si el tamaño de la prueba es
igual a 0.05, se tiene que:
" n #
X
πγ (θ0 ) = P[rechazar H0 |H0 es cierta] = P Xi ≥ c|θ = θ0 = 0.05.
i=1

O equivalentemente:
" n
#
X
1−P Xi ≤ c|θ = θ0 = 0.05.
i=1

Es decir, !
n
X
P Xi ≤ c|θ = θ0 = 0.95.
i=1
n
P
Bajo H0 , Xi ∼ Gama(n, θ0 ), entonces c corresponde al cuantil 0.95 de
i=1
una distribución Gama(n, θ0 ).

Ejemplo 6.4 Sea X1 , . . . , Xn una muestra aleatoria de la población con


distribución Normal, N (µ,σ 2 ), con σ 2 conocida. Se considera el contraste de
hipótesis H0 : µ = µ0 vs. Ha : µ = µ1 , donde µ0 < µ1 .
La función de verosimilitud es
n  
Y 1 1
L(µ) = √ exp − 2 (xi − µ)2
i=1 2πσ 2 2σ
( n
)
1 X
= (2πσ 2 )−n/2 exp − 2 (xi − µ)2 .
2σ i=1

Procediendo de acuerdo al lema de Neyman-Pearson, se obtiene el cociente


de verosimilitudes
n o
2 −n/2
 1
Pn 2
L(µ0 ) 2πσ exp − 2σ 2 i=1 (x i − µ0 )
= n o
L(µ1 ) 2
(2πσ )
−n/2 1
Pn
exp − 2σ2 i=1 (xi − µ1 )
2

( n n
)
1 X 2 1 X 2
= exp − 2 (xi − µ0 ) + 2 (xi − µ1 )
2σ i=1 2σ i=1
 
1 1 2 2

= exp nx(µ0 − µ1 ) − 2 n µ0 − µ1 ,
σ2 2σ
6.2. Hipótesis simples 245

L(µ0 )
entonces X ∈ C equivale a que L(µ1 ) ≤ k, esto implica que
 
1 1 2 2
exp nx(µ 0 − µ1 ) − n(µ0 − µ1 ) ≤ k
σ2 2σ 2
1 1
2
nx(µ0 − µ1 ) − 2 n(µ20 − µ21 ) ≤ k1 = ln k
σ 2σ
1 1
nx(µ0 − µ1 ) ≤ k1 + n(µ20 − µ21 ),
σ2 2σ 2
como µ0 y µ1 son valores fijos establecidos en las hipótesis, entonces se puede
hacer
1
nx(µ0 − µ1 ) ≤ k2 ,
σ2
y además, debido a que se supone que µ0 < µ1 , entonces µ0 − µ1 < 0, por
lo tanto,
σ2
x ≥ k2 ,
n(µ0 − µ1 )
o
x ≥ k3 ;
ası́, se rechaza la hipótesis nula si y sólo si x ≥ c.
Entonces, la prueba de hipótesis queda establecida de la siguiente manera:

γ ∗ : se rechaza H0 si X ≥ c,

o equivalentemente

C ∗ : (X1 , . . . , Xn ) ∈ X | X ≥ c .


El valor de c se determina fijando el tamaño de la prueba y con base


en la distribución de la estadı́stica de prueba X. En este caso, dado que
Xi ∼ N ormal(µ, σ 2 ) y son variables aleatorias independientes
 e identica-
mente distribuidas, entonces X ∼ N ormal µ, σ 2 /n .

Bajo la hipótesis nula H0 : µ = µ0 , se tiene que X ∼ N ormal µ0 , σ 2 /n .
Note que esta distribución es totalmente conocida ya que los valores de n y
σ 2 son conocidos y µ0 es el valor establecido bajo la hipósteis nula.
Si el tamaño de la prueba es α, se tiene que

πγ (µ0 ) = P[rechazar H0 |H0 es cierta]


 
= P X ≥ c|µ = µ0 = α,

o equivalentemente,  
1 − P X < c|µ = µ0 = α,
246 6. Pruebas de hipótesis

ası́ que c corresponde al cuantil 1−α de una distribución N ormal µ0 , σ 2 /n .
Por otro lado, también se puede calcular la función potencia bajo la
hipótesis alternativa, es decir,

πγ (µ1 ) = P[rechazar H0 |Ha ]


 
= P X ≥ c|µ = µ1 ,

pero como

πγ (µ1 ) = P[rechazar H0 |Ha ]


= 1 − P[no rechazar H0 |Ha ],

entonces

1 − πγ (µ1 ) = P[no rechazar H0 |Ha ]


= tamaño del error tipo II
= β.

Además se tiene que bajo la hipótesis alternativa Ha : µ = µ1 , se cumple


que
X ∼ N ormal µ1 , σ 2 /n .


La figura 6.3 muestra la relación que existe entre las pruebas de hipótesis
y los tamaños de los errores tipo I (α) y tipo II (β), determinados a partir
de la estadı́stica de prueba S = X. Note que las áreas delimitadas en color
negro y gris, representan a α y β, respectivamente.

fS (s|µ)
H0 : µ = µ0 Ha : µ = µ1
N (µ0 , σ 2 /n) N (µ1 , σ 2 /n)

β α
µ0 µ1 s
x

Figura 6.3: Funciones de densidad de la estadı́stica de prueba S = X bajo


ambas hipótesis y tamaños de los errores.
6.2. Hipótesis simples 247

Ejemplo 6.5 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución Bernoulli(θ), donde θ es igual a θ0 o θ1 . Contrastar las
hipótesis
H0 : θ = θ0 vs. Ha : θ = θ1 ,
con θ0 < θ1 .
Se sabe que la verosimilitud bajo H0 es
Pn Pn
xi
L (θ0 ) = θ0 i=1
(1 − θ0 )n− i=1 xi
,

y la verosimilitud bajo H1 es
Pn Pn
xi
L (θ1 ) = θ1 i=1
(1 − θ1 )n− i=1 xi
,

ası́ que la región crı́tica determinada por λ ≤ k ∗ equivale a


 Pn x  n
θ0 (1 − θ1 ) i=1 i 1 − θ0
≤ k∗ ,
(1 − θ0 )θ1 1 − θ1
ası́,   −n 
∗ 1−θ0
Xn ln k 1−θ1
xi ≥ h i ,
i=1 ln θ(1−θ
0 (1−θ1 )
0 )θ1
Pn
es decir, i=1 xi ≥ k 0 donde k 0 es una constante. Ası́ que una prueba más
potente está determinada por:
n
X
γ : Rechazar H0 si Xi ≥ k 0 .
i=1

Suponga que θ0 = 1/4, θ1 = 3/4 y n = 10, entonces k 0 se determina de


tal manera que:

α = P[Rechazar H0 |H0 cierta]


= P[Rechazar H0 |θ = 1/4]
" 10 #
X
0
= P Xi ≥ k |θ = 1/4
i=1
10    y  10−y
X 10 1 3
= ,
0
y 4 4
y=k
P10 1

donde Y = i=1 Xi tiene una distribución Binomial 10, 4 bajo H0 . Si
0 0
α = 0.0197 entonces k = 6, y si α = 0.0781 entonces k = 5.
248 6. Pruebas de hipótesis

6.3. Pruebas uniformemente más potentes


El lema de Neyman-Pearson aún puede usarse en algunos casos en donde
la hipótesis nula es simple y la alternativa es compuesta, como se exhibe en
esta parte. Sin embargo, para casos más generales de hipótesis compuestas,
la construcción de una región crı́tica se hará a través del llamado cociente o
razón de verosimiltudes generalizadas, lo cual se abordará en la sección 6.4.
El objetivo de este apartado es la obtención de regiones crı́ticas o pruebas
óptimas en un sentido más general que en el caso de hipótesis simples, a las
cuales se les conoce como pruebas uniformemente más potentes.

6.3.1. Hipótesis simple contra compuesta


Para ilustrar el tipo de contrastes que involucra una hipótesis compuesta, y
en donde aún se utiliza el cociente simple de verosimilitudes, se inicia con el
siguiente ejemplo.

Ejemplo 6.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de la población con


distribución N (0, σ 2 ) y se desea probar

H0 : σ 2 = σ02 vs. Ha : σ 2 > σ02 .

En este caso,
Θ0 = {σ02 } y Θ1 = {σ 2 : σ 2 > σ02 }.
Sea σ12 ∈ Θ1 , es decir, σ12 > σ02 (σ12 es un valor representativo de la hipótesis
alternativa). Usando el lema de Neyman-Pearson, se probará

H0 : σ 2 = σ02 vs. Ha : σ 2 = σ12 ,

tomando como hipótesis alternativa simple al valor representativo de la


hipótesis alternativa original.
Se considera entonces el cociente:
 n/2 Pn
1
2
L(σ0 ) 2πσ02
exp(− 2σ1 2 i=1 x2i )
0
= ≤k
L(σ12 ) 1
n/2
1
Pn 2)
2πσ 2 exp(− 2σ 2 x
i=1 i
1 1

n/2"   n #
σ12

1 1 1 X 2
⇔ exp − 2 x ≤k
σ02 2 σ12 σ0 i=1 i
 2   n
n σ1 1 1 1 X 2
⇔ ln + − 2 x ≤ k1 = ln(k)
2 σ02 2 σ12 σ0 i=1 i
6.3. Pruebas uniformemente más potentes 249

n   2 
X n σ1
(σ02 − σ12 ) x2i ≤ k1 − ln 2 (σ12 σ02 )2 = k2
i=1
2 σ 0

Pero como σ02 − σ12 < 0, se obtiene que:


n
X
x2i > c,
i=1

y por lo tanto, la región crı́tica es:


( n
)
X
C∗ = (X1 , X2 , . . . , Xn ) ∈ X | Xi2 > c ,
i=1

que equivale a la prueba


n
X
γ ∗ : Rechazar H0 si Xi2 > c.
i=1
Pn
X2 x2i
Como Xi ∼ N 0, σ 2 , Xσi ∼ N (0, 1) y σ2i ∼ χ2(1) , de donde i=1

σ2 ∼ χ2(n) .
Ası́, el valor de c se puede obtener de la relación:
n
!  Pn 2

i=1 xi c
X
2
α=P xi > c | H0 = P > 2 ,
i=1
σ02 σ0

conociendo n, σ02 y fijando el tamaño de la prueba α.

Note que el procedimiento anterior serı́a el mismo para cualquier valor


consistente con la hipótesis alternativa, ası́ que el resultado γ ∗ es una prueba
uniformemente más potente, en el sentido de que se cumple para cualquier
σ12 tal que σ12 > σ02 . Esto conduce a la siguiente definición.

Definición 6.8 Una prueba γ ∗ es una prueba uniformemente más po-


tente para probar

H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1

si:
(i) máx πγ ∗ (θ) = α,
θ∈Θ0

(ii) πγ ∗ (θ) ≥ πγ (θ), para todo θ ∈ Θ1 y para cualquier otra prueba γ tal que
máx πγ (θ) = α.
θ∈Θ0
250 6. Pruebas de hipótesis

En palabras, de entre todas las pruebas de tamaño α, la prueba unifor-


memente más potente es aquella que maximiza la potencia para todo θ ∈ Θ1 .
Para hipótesis alternativas del tipo unilateral, es decir,

Ha : θ > θ 0 ,

Ha : θ ≥ θ0 ,
Ha : θ < θ 0
o
Ha : θ ≤ θ0 ,
en donde H0 : θ = θ0 , se puede usar el lema de Neyman-Pearson para en-
contrar una prueba uniformemente más potente tomando un valor represen-
tativo de la hipótesis alternativa y planteando un contraste de dos hipótesis
simples.
Suponga ahora que se desea probar

H0 : µ = µ0 vs. Ha : µ 6= µ0 ,

(observe que la hipótesis alternativa no es del tipo unilateral) para una mues-
tra aleatoria de tamaño n de la distribución Normal µ, σ 2 , donde σ 2 = 1.
Usando el lema de Neyman-Pearson, se procederı́a como en el caso anterior,
es decir, replanteando las hipótesis a través de un valor representativo para
la hipótesis alternativa de tal manera que se tengan dos hipótesis simples:

H0 : µ = µ0 vs. Ha : µ = µ1 ,

donde µ1 6= µ0 . Por el de lema de Neyman-Pearson, se tiene entonces que:


1 n/2 − 12
Pn 2
i=1 (xi −µ0 )

L (µ0 ) 2π e
=
L (µ1 ) 1 n/2 − 12
Pn 2
i=1 (xi −µ1 )

2π e
n 2 n 2
= e− 2 [ i=1 (xi −µ0 ) − i=1 (xi −µ1 ) ]
1
P P

Pn 2 Pn 2 Pn 2 Pn 2
= e− 2 [ i=1 xi −2µ0 i=1 xi +nµ0 − i=1 xi +2µ1 i=1 xi −nµ1 ]
1

Pn
xi (µ1 −µ0 )+n(µ20 −µ21 )]
= e− 2 [2
1
i=1 ≤ k1 ,

si y sólo si
n
X 1
xi (µ1 − µ0 ) − n µ20 − µ21 ≤ k2 ,


i=1
2
si y sólo si
n
X
− xi (µ1 − µ0 ) ≤ k3 ,
i=1
6.3. Pruebas uniformemente más potentes 251

o
n
X
xi (µ1 − µ0 ) ≥ −k3 = c,
i=1

obteniéndose que
( n
)
X

C = (X1 , . . . , Xn ) ∈ X | Xi ≥ c , si µ1 − µ0 > 0,
i=1

y
( n
)
X

C = (X1 , . . . , Xn ) ∈ X | Xi ≤ c , si µ1 − µ0 < 0,
i=1

concluyendo que la región crı́tica no queda determinada de manera única, por


lo que para este tipo de pruebas ya no se usará el lema de Neyman-Pearson.
El tema de hipótesis compuestas se abordará desde dos perspectivas: me-
diante una caracterización que permite detectar la existencia de pruebas
uniformemente más potentes (Subsección 6.3.2) y a través del cociente de
verosimilitudes generalizadas (Sección 6.4).

6.3.2. La razón monótona de verosimilitudes y el teo-


rema de Karlin-Rubin
Ahora se analizará una clase de hipótesis asociada a una gran variedad de
problemas, en la cual se puede obtener una prueba uniformemente más
potente (ver definición 6.8) si la familia de la cual se obtiene la mues-
tra cumple una condición conocida como la razón o cociente monótono de
verosimilitudes, la cual se define a continuación.

Definición 6.9 Una familia de densidades {f (x; θ) : θ ∈ Θ}, donde X es


una variable aleatoria univariada, tiene un cociente monótono de verosimi-
litudes en una estadı́stica T (X), si para todo {θ∗ , θ} ⊂ Θ y x ∈ X, se tiene
que
L(θ∗ ; x1 , ..., xn ) L (θ∗ )
= ,
L(θ; x1 , ..., xn ) L (θ)
es una función monótona no creciente (o no decreciente) de t(x), siempre
que θ∗ > θ; con f (x; θ∗ ) > 0 y f (x; θ) > 0.

Ejemplo 6.7 La familia de densidades Poisson(θ) , θ > 0, tiene cociente


252 6. Pruebas de hipótesis

Pn
monótono de verosimilitudes en T (X) = i=1 Xi , pues


Pn n
xi
e−nθ (θ∗ ) 1
Q

i=1
/ xi !
L(θ ; x) i=1
= n
L(θ; x) Pn
xi 1
e−nθ
Q
(θ) i=1
/ xi !
i=1
Pn
∗ xi
e−nθ (θ∗ ) i=1
= Pn
x
e−nθ (θ) i=1 i
 ∗ Pni=1 xi
θ ∗
= e−n(θ −θ) ,
θ
Pn
es una función no decreciente de i=1 xi , con θ∗ > θ.

Observación 6.6 Los miembros de la familia exponencial

f (x; θ) = a(θ)b(x)ec(θ)d(x) , con θ ∈ Θ,

tienen cociente monótono de verosimilitudes. En otras palabras, si c(θ) es


una función estrictamente monótona de θ, entonces {f (x; θ) : θ ∈ Θ ⊆ R}
tiene cociente de verosimilitudes no creciente (o no decreciente) en T (X) =
P n
i=1 d (Xi ).

Lema 6.2 Si la familia de densidades {f (x; θ) : θ ∈ Θ} tiene cociente


monótono de verosimilitudes en S (X), donde S (X) es una estadı́stica sufi-
ciente, entonces la función
fS (s; θ∗ )
V (s, θ∗ , θ) = ,
fS (s; θ)

es una función monótona en s, donde fS (s; θ) es la función de densidad de


la estadı́stica S.

Demostración. Cuando se estudió la suficiencia y el teorema de factori-


zación, se analizó la relación entre la función de verosimilitud y la densidad
de la estadı́stica suficiente. Para el caso discreto esta relación es
X
fS (s) = P (S (X) = s) = P (X1 = x1 , X2 = x2 , ..., Xn = xn )
As
X
= L (θ; x1 , ..., xn )
As
X
= g (s; θ) h (x1 , ..., xn ) ,
As
6.3. Pruebas uniformemente más potentes 253

donde
As = {(x1 , . . . , xn ) ∈ X | S (X) = s} .
Y para el caso continuo,
fS (s) = g (s; θ) m (s) ,
donde m (s) no depende de θ.
En ambos casos, se comprueba que:
fS (s; θ∗ ) g (s; θ∗ )
V (s, θ∗ , θ) = = .
fS (s; θ) g (s; θ)
Por otro lado, la hipótesis establece que se cumple la monotonı́a del cociente
de verosimilitudes en S, la cual es suficiente, es decir:
L(θ∗ ; x) g (S (x) ; θ∗ ) h (x1 , ..., xn ) g (S (x) ; θ∗ )
= = ,
L(θ; x) g (S (x) ; θ) h (x1 , ..., xn ) g (S (x) ; θ)
es una función monótona en S. Lo anterior implica que V (s, θ∗ , θ) es una
función monótona en S. 

El siguiente resultado, conocido como el teorema de Karlin-Rubin pro-


porciona una forma de encontrar una prueba uniformemente más potente
para hipótesis compuestas unilaterales.
Teorema 6.1 (teorema de Karlin-Rubin). Sea X1 , X2 , ..., Xn una mues-
tra aleatoria de una población con función de densidad f (x; θ) y se desea
probar las hipótesis
H0 : θ ≤ θ0 vs. Ha : θ > θ0 . (6.6)
Si la familia de densidades {f (x; θ)} tiene la propiedad del cociente
monótono de verosimilitudes no decreciente en S = S(X), la cual es una
estadı́stica suficiente para θ ∈ Θ, entonces la prueba:
γ : Rechazar H0 si S > k, (6.7)
definida por la función:

1 si S(X) > k,
Ψ(X) =
0 si S(X) ≤ k,
donde k es tal que:
E[Ψ(X)] = P (S(X) > k) = α,
es una prueba uniformemente más potente de tamaño α para (6.6).
254 6. Pruebas de hipótesis

Demostración. Note que por la suficiencia de S, la verosimilitud puede


escribirse como el producto h (x) g (s; θ) , ası́ que el cociente de verosimiltudes
puede escribirse como
L(θ∗ ; x1 , ..., xn ) g (s; θ∗ )
= ,
L(θ0 ; x1 , ..., xn ) g (s; θ0 )

el cual es no decreciente (θ∗ > θ0 ) en s.


Sea πγ (θ) = P (S > k | θ) la función potencia para la prueba γ. Fije
θ0 > θ0 (es decir, θ0 es un valor consistente con la hipótesis alternativa) y
considere la prueba para las hipótesis simples

H00 : θ = θ0 vs. Ha0 : θ = θ0 . (6.8)

La función potencia πγ (θ) es no decreciente, esto es, para θ0 < θ0 , se tiene que
πγ (θ0 ) ≤ πγ (θ0 ), es decir, FS (k; θ0 ) ≤ FS (k; θ0 ). Para verificarlo, considere

fS (s; θ0 )
 
d
[FS (s; θ0 ) − FS (s; θ0 )] = fS (s; θ0 ) − fS (s; θ0 ) = fS (s; θ0 ) −1 ,
ds fS (s; θ0 )
siendo el cociente que aparece en el último paréntesis una función monótona
no decreciente (por el lema 6.2), de tal manera que la derivada sólo puede
cambiar de signo de negativo a positivo, con lo que se deduce que cualquier
extremo interior es un mı́nimo. Por lo tanto, la función FS (s; θ0 ) − FS (s; θ0 )
se maximiza cuando s tiende a ∞ o a −∞, es decir cuando dicha función
vale 0, por lo que FS (s; θ0 ) ≤ FS (s; θ0 ) y, por lo tanto, πγ (θ0 ) ≤ πγ (θ0 ), para
θ0 < θ 0 .
De esta manera, supθ≤θ0 πγ (θ) = πγ (θ0 ) = α, donde α corresponde al
tamaño de la prueba.
Si ahora se define
g(s; θ0 )
k 0 = ı́nf ,
s∈T g(s; θ0 )

donde T = {s : s > k, y g(s; θ0 ) > 0 o g(s; θ0 ) > 0}, entonces

g(s; θ0 )
S>k ⇔ > k0
g(s; θ0 )
y dado que S es una estadı́stica suficiente, entonces

S > k ⇔ g(s; θ0 )h(x) > g(s; θ0 )h(x)k 0 ,

lo cual es equivalente a
L (θ0 ) 1
0
≤ 0 = c,
L (θ ) k
6.3. Pruebas uniformemente más potentes 255

y por el lema de Neyman-Pearson esta última desigualdad proporciona una


prueba más potente de tamaño α, es decir, se cumple que πγ (θ0 ) ≥ πγ∗ (θ0 ),
donde πγ∗ es la función potencia de cualquier otra prueba de tamaño α para
(6.8).
Finalmente, cualquier prueba de tamaño α de H0 satisface que
πγ∗ (θ0 ) ≤ máx πγ∗ (θ) ≤ α,
θ∈Θ0

por lo que πγ (θ0 ) ≥ πγ∗ (θ0 ) para cualquier prueba de tamaño α. Como θ0 en
la hipótesis nula es arbitrario, la prueba resultante es uniformemente más
potente de tamaño α para la hipótesis planteada. 

De manera similar, se puede demostrar que para la prueba


H0 : θ ≥ θ0 vs. Ha : θ < θ0 ,
la prueba uniformemente más potente es de la forma:
γ : Rechazar H0 si S < k. (6.9)
Por otro lado, si se supone que la razón de verosimilitudes es monótona
no creciente en S, las pruebas (6.7) y (6.9) serı́an con las desigualdades
invertidas.
Ejemplo 6.8 Si X1 , . . . , Xn es una muestra aleatoria de una población con
distribución Uniforme(0, θ), para θ > 0. Sea 0 < θ1 < θ2 , el cociente de
verosimilitudes es
Qn
L(θ2 ; x1 , . . . , xn ) ( θ12 )n i=1 I(0,θ2 ) (xi ) ( 1 )n I(0,θ2 ) (yn )
= 1 n Qn = θ12 n ,
L(θ1 ; x1 , . . . , xn ) ( θ1 ) i=1 I(0,θ1 ) (xi ) ( θ1 ) I(0,θ1 ) (yn )

donde Yn = máxi {X1 , . . . , Xn }. Se puede ver que el cociente de verosimili-


tudes es una función monótona no decreciente en la n-ésima estadı́stica de
orden, pues
(  n
L(θ2 ; x1 , . . . , xn ) θ1
θ2 si 0 < yn < θ1
=
L(θ1 ; x1 , . . . , xn ) 0 si θ1 < yn < θ2 .
Si se desea probar
H0 : θ ≤ θ0 vs. Ha : θ > θ0 ,
usando el teorema de Karlin-Rubin, una prueba uniformemente más potente
está dada por:
γ : Rechazar H0 si Yn > k,
256 6. Pruebas de hipótesis

donde k se puede obtener de

α = P (Yn > k | H0 ) ,

usando la distribución de la máxima estadı́stica de orden.

Observación 6.7 Por la observación 6.6, cuando se tiene una densidad que
pertenece a la familia exponencial, basta verificar si c (θ) es función creciente
o decreciente de θ para saber si el cociente de verosimilitudes
Pn es monótono (no
decreciente o no creciente, respectivamente) en i=1 d (Xi ) y por el teorema
de Karlin-Rubin, se puede dar la forma Pnde la prueba (uniformemente más
potente), la cual estará en función de i=1 d (Xi ) , pues esta estadı́stica es
suficiente.

Ejemplo 6.9 Sea X1 , X2 , ..., Xn una muestra aleatoria de tamaño n = 49


de una población con distribución Bernoulli de parámetro θ y suponga que
se desea probar:

H0 : θ ≤ 0.01 vs. Ha : θ > 0.01.

La distribución Bernoulli pertenece a la familia exponencial


 x
1−x θ
f (x; θ) = θx (1 − θ) = (1 − θ)
1−θ
x ln( 1−θ
θ
)
= (1 − θ) e ,

con  
θ
c (θ) = ln ,
1−θ
la cual es una función creciente, por lo que esta
Pn familia de densidades tiene
cociente de verosimilitudes no decreciente en i=1 Xi . De acuerdo al teorema
de Karlin-Rubin, una prueba uniformemente más potente está dada por:
49
X
γ : Rechazar H0 si Xi > k.
i=1

6.4. La razón de verosimilitudes generalizadas


Suponga que se tiene una muestra aleatoria de f (x; θ) con θ ∈ Θ y se desea
probar
H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 ,
6.4. La razón de verosimilitudes generalizadas 257

donde Θ0 ⊆ Θ y Θ1 ⊆ Θ; Θ0 y Θ1 son disjuntos. Usualmente Θ1 = Θ − Θ0 .


Por ejemplo, si se tiene una muestra aleatoria de una distribución N (µ, 100)
y se desea probar H0 : µ ≤ 75 vs. Ha : µ > 75, aquı́ Θ0 = {µ : µ ≤ 75},
Θ = {µ : −∞ < µ < ∞} y Θ − Θ0 = {µ : µ > 75}.
La idea utilizada en el caso simple contra simple y resumida en el lema
de Neyman-Pearson, sugiere una generalización en algún sentido del cocien-
te o razón de verosimilitudes, en virtud de que subyace la idea intuitiva de
que una cantidad ası́ tenderá a ser pequeña cuando H0 es falsa, no obstan-
te, la pregunta es ¿cómo debe hacerse esa generalización? La respuesta se
encuentra en esta sección.

6.4.1. La prueba de la razón de verosimilitudes genera-


lizadas
Definición 6.10 (razón de verosimilitudes generalizadas).
Sea X1 , ..., Xn una muestra aleatoria de f (x; θ) y sea L(θ; x1 , ..., xn ) la fun-
ción de verosimilitud, donde θ ∈ Θ. La razón de verosimilitudes generalizadas
se define como
máx L(θ; x1 , ..., xn )
θ∈Θ0
λ= .
máx L(θ; x1 , ..., xn )
θ∈Θ

Observe que la expresión tomada en el denominador es el valor máximo


que puede alcanzar la verosimilitud L (θ) dentro  de Θ que es el campo de
variación de θ. Es decir, máx L(θ; x1 , ..., xn ) = L θb , donde θb es el estimador
θ∈Θ
máximo verosı́mil de θ.
Como se está considerando el cociente de dos cantidades no negativas,
λ ≥ 0. Como el máximo considerado en el denominador es sobre un conjunto
de valores de θ mayor al considerado en el denominador, λ ≤ 1. Por lo tanto,
se cumple que 0 ≤ λ ≤ 1.
Note también que λ es una función de x1 , ..., xn de modo que cuando las
observaciones se sustituyen por X1 , X2 , ..., Xn , se puede escribir Λ en vez de
λ.
Ası́, el denominador de Λ es la función de verosimilitud evaluada en
el estimador máximo verosı́mil, mientras que el numerador dependerá de
los valores en Θ0 . En ocasiones Θ0 consiste de un sólo valor (cuando se
tiene una hipótesis nula simple H0 : θ = θ0 ) y, en ese caso particular,
máx L(θ; x1 , ..., xn ) = L (θ0 ).
θ∈Θ0

Prueba de la razón de verosimilitudes generalizadas o principio de


la razón de verosimilitudes generalizadas.
258 6. Pruebas de hipótesis

Esta prueba establece la siguiente como regla de decisión.

“Rechazar H0 : θ ∈ Θ0 si y sólo si λ ≤ k, donde k es alguna constante fija


tal que 0 ≤ k ≤ 1”.

La constante k se especifica fijando el tamaño de la prueba y Λ es la


estadı́stica de prueba.
Intuitivamente, la prueba de la razón de verosimilitudes generalizadas
tiene sentido, ya que λ tenderá a ser más pequeña cuando H0 es falsa, debido
a que el denominador de λ será mayor que el numerador.
En general, se tendrán buenas pruebas con este método. El problema pue-
de ser encontrar el máx L(θ) o la distribución de Λ, la cual es indispensable
para la evaluación de la potencia de la prueba.

Ejemplo 6.10 Sea X1 , ..., Xn una muestra aleatoria de tamaño n > 1 de


una distribución N (µ, σ 2 ) con σ 2 > 0. Se quiere probar

H0 : µ = 0 vs. Ha : µ 6= 0.

En este caso

Θ = {(µ, σ 2 ) : −∞ < µ < ∞, 0 < σ 2 < ∞}

y
Θ0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < ∞}.
Para θ∈ Θ,
 n/2 n
!
1 1 X
L(θ) = L(θ; x1 , ..., xn ) = exp − 2 (Xi − µ)2 . (6.10)
2πσ 2 2σ i=1

Para θ∈ Θ0 ,
 n/2 n
!
1 1 X 2
L(θ) = L(θ; x1 , ..., xn ) = exp − 2 X . (6.11)
2πσ 2 2σ i=1 i

A continuación se va a obtener el numerador de λ.


Tomando logaritmos en (6.11):
n
n 1 X 2
ln 2πσ 2 − 2

ln L(θ) = − X ,
2 2σ i=1 i
Pn 2
∂ n 1 i=1 Xi
ln L(θ) = − + ,
∂σ 2 2 σ2 2(σ 2 )2
6.4. La razón de verosimilitudes generalizadas 259

igualando a cero, se obtiene que:


n
2 1X 2
σ̂ = X .
n i=1 i

Entonces,
 n/2  
n
1 1 X
máx L(θ) =   Pn  exp −  Pn · Xi2 
θ∈Θ0 Xi2 2
i=1 Xi
2π i=1
n 2 n i=1
 n/2
n
= Pn e−n/2 .
2π i=1 Xi2
Ahora, se obtendrá el denominador de λ. Se sabe que para la distribución
2
Normal(µ,
Pnσ ) los estimadores máximo verosı́miles están dados por µ̂ = X̄ y
1
σ̂ = n i=1 (Xi − X̄)2 . Sustituyendo en (6.10):
2

" #n/2 Pn !
2
1 1 i=1 (Xi − X̄)
L(θ) = Pn 2
exp − Pn 2
i=1 (Xi −X̄) 2 i=1 (Xi −X̄)
2π n n
 n/2
n
= Pn e−n/2 ,
2π i=1 (Xi − X̄)2
la cual es la verosimilitud evaluada en los estimadores máximo verosı́miles.
h in/2
máx L(θ) n
e−n/2  Pn n/2
(Xi − X̄)2
Pn 2
θ∈Θ0 2π i=1 Xi i=1
∴λ= =h in/2 = Pn 2 .
máx L(θ) Pn n −n/2 i=1 Xi
θ∈Θ
2π (Xi −X̄) 2 e
i=1

Pero,
n
X n
X n
X
(Xi − X̄)2 = Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1 i=1
n
X n
X
= Xi2 − 2X̄nX̄ + nX̄ 2 = Xi2 − 2nX̄ 2 + nX̄ 2 .
i=1 i=1
Pn 2
Pn 2 2
Entonces, = i=1 (Xi − X̄) + nX̄ .
i=1 Xi
Por lo tanto,
Pn n/2
(Xi − X̄)2

1
λ = Pn i=1 2 2
≤k ⇔  n/2 ≤ k
i=1 (Xi − X̄) + nX̄ 1+ Pn nX̄
2
2
i=1 (Xi −X̄)
260 6. Pruebas de hipótesis

nX̄ 2 −2/n n|X̄| p
⇔ 1 + Pn 2
≥ k ⇔ q ≥ k −2/n − 1
i=1 (Xi − X̄)
Pn 2
(X − X̄) i=1 i

n|X̄|
q
⇔ q Pn 2
≥ (n − 1)(k −2/n − 1) = k 0 .
i=1 (Xi −X̄)
n−1

Por lo tanto, la prueba de la razón de verosimilitudes generalizadas establece


lo siguiente: √
n|X̄|
“Rechazar H0 si q Pn 2
≥ k 0 ”,
i=1 (Xi −X̄)
n−1
0
donde k puede obtenerse fijando el tamaño de la prueba α y conociendo la
distribución de la estadı́stica de prueba. En este caso:
√ X̄

nX̄ σ/ n
q Pn
2
= r P ∼ t(n−1) ,
i=1 (Xi −X̄)
n 2

i=1 (Xi −X̄)
n−1 σ2 /(n − 1)

2 2
porque X̄ ∼ N (µ, σn ) y, bajo H0 , X̄ ∼ N (0, σn ). Entonces, X̄

σ/ n
∼ N (0, 1)
y Pn 2
(n − 1)S 2 i=1 (Xi − X̄)
= ∼ χ2(n−1) .
σ2 σ2
Ejemplo 6.11 (Comparar medias de 2 muestras normales independientes).
Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución
N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una población
con distribución N ormal(µy , σy2 ), donde ambas muestras son independientes
y además se desconocen todos los parámetros. Se desea probar

H0 : µx = µy vs. Ha : µx 6= µy .

El espacio paramétrico general Θ está definido como un espacio de di-


mensión cuatro,

Θ = (µx , µy , σx2 , σy2 ); µx ∈ R, µy ∈ R, σx2 > 0, σy2 > 0 .




Bajo la hipótesis nula H0 : µx = µy el espacio paramétrico Θ0 está definido


como un espacio de dimensión tres,

Θ0 = (µ, σx2 , σy2 ); µ ∈ R, σx2 > 0, σy2 > 0 ,




donde µ denota la media común bajo H0 , es decir µx = µy = µ.


6.4. La razón de verosimilitudes generalizadas 261

La función de verosimilitud se define como

L (θ) = L(µx , µy , σx2 , σy2 ; x, y)


"m  
# Y n
(xi − µx )2 2
  
Y 1 1 (y j − µ y )
= p exp − 2
 q exp − 2

i=1
2πσ 2
x
2σ x j=1 2πσ 2 2σ y
y
 m/2 ( m
) n/2
1 1 X 2 1
= exp − (x i − µx )
2πσx2 2σx2 i=1 2πσy2
 
 1 X n 
exp − 2 (yj − µy )2 .
 2σy 
j=1

Bajo Θ los estimadores Pmáximo verosı́miles son µbx = x, µ


by = y, σbx2 =
1
P m 2 2 1 n 2
m i=1 (xi − x) y σ
by = n j=1 (yj − y) , ası́ que el supremo de la función
de verosimilitud L bajo Θ es

máx L (θ)
θ∈Θ
 m/2 !n/2
m n n mo n no
= Pm Pn exp − exp − .
2π i=1 (xi − x)2 2π j=1 (yj − y)2 2 2

Si se define µx y µy igual a µ, que es lo que se supone bajo H0 , serı́a


difı́cil maximizar L respecto a µ, σx2 y σy2 , ya que esto equivaldrı́a a encontrar
el estimador de µ dado como la raı́z de una ecuación cúbica. Por lo tanto,
el cociente de verosimilitudes generalizadas λ serı́a una función complicada
en el sentido de encontrar su distribución de probabilidad asociada, lo cual
complica encontrar la región crı́tica y el tamaño del error tipo I.
Para muestras grandes podrı́an usarse las propiedades asintóticas del
cociente de verosimilitudes generalizadas, tal que −2 ln Λ ∼ χ2(1) , y se re-
chazarı́a H0 cuando −2 ln L sea lo suficientemente grande. Este resultado se
analizará en la siguiente sección.
Otra alternativa es suponer que las dos poblaciones tienen la misma va-
rianza, σx2 = σy2 = σ 2 , el problema se simplifica, y resulta que

Θ = (µx , µy , σ 2 ); µx ∈ R, µy ∈ R, σ 2 > 0 ,


y bajo H0 : µx = µy = µ se tiene que

Θ0 = (µ, σ 2 ); µ ∈ R, σ 2 > 0 .

262 6. Pruebas de hipótesis

Además, los estimadores máximo verosı́miles bajo Θ son µ bx = x, µ


by = y, y
 
m n
2 1 X 2
X
σ
b = (xi − x) + (yj − y)2  ,
m + n i=1 j=1

y por lo tanto,
 (m+n)/2
 
m+n m+n
máx L (θ)= hP i exp − .
θ∈Θ

m
(x − x) 2+
Pn
(y − y)2 2
i=1 i j=1 j

Bajo la hipótesis nula H0 los estimadores máximo verosı́miles son:


 
m n
1 X X mx + ny
µ
b= xi + yj  =
m + n i=1 j=1
m+n

y
 
m n
1 X X
b2
σ =  (xi − µ̂)2 + (yj − µ̂)2 
m+n i=1 j=1
 
m n
1  X X mn
= (xi − x)2 + (yj − y)2 + (x − y)2  ,
m + n i=1 j=1
m + n

ası́ que el supremo de la función de verosimilitud L bajo Θ0 es:

máx L (θ) =
θ∈Θ0
 (m+n)/2
 
m+n m+n
 hP i ×exp − .

m
− x)2
Pn
+ j=1 (yj − y)2 + mn
(x − y)2 2
i=1 (xi m+n

Finalmente, el cociente de verosimilitudes generalizadas es:


máxθ∈Θ0 L (θ)
λ =
máxθ∈Θ L (θ)
 hP
m Pn i (m+n)/2
2 2
(x
i=1 i − x) + (y
j=1 j − y)
=  hP i
m 2+
Pn 2 + mn (x − y)2
(x
i=1 i − x) j=1 j(y − y) m+n

mn 2
!−(m+n)/2
m+n (x − y)
= 1 + Pm 2
Pn 2
,
i=1 (xi − x) + j=1 (yj − y)
6.4. La razón de verosimilitudes generalizadas 263

lo que implica que la regla de decisión es rechazar H0 al nivel α si λ ≤ λ0 .


Note que λ puede definirse en términos de T , donde
q
mn
m+n (x − y)
T = hr i ,
Pm 2+
Pn 2 /(m + n − 2)
i=1 (x i − x) j=1 (y j − y)

ası́ que
−(m+n)/2
λ = 1 + T 2 /(m + n − 2)

,
además se sabe que T es una variable aleatoria con distribución t de Student
con m + n − 2 grados de libertad, es decir, T ∼ t(m+n−2) . Desarrollando la
desigualdad se puede llegar a que se rechaza H0 al nivel α si

λ ≤ λ0
 2
−(m+n)/2
1 + T /(m + n − 2) ≤ λ0
2
1 + T /(m + n − 2) > λ− m+n
2
 
 2

2 − m+n
T > λ0 − 1 × (m + n − 2)

T2 > λ1
|T | > λ2 .

Por lo tanto, la prueba resulta en:

γ : Rechazar H0 al nivel α si |T | > λ2 = q1−α/2 ,

donde q1−α/2 es el cuantil 1 − α/2 de una distribución t(m+n−2) .

Ejemplo 6.12 (Comparar medias de 2 muestras normales apareadas).


Sea (X1 , Y1 ), . . . , (Xn , Yn ) una muestra aleatoria bivariada de dos po-
blaciones con distribución N ormal(µx , σx2 ) y N ormal(µy , σy2 ), donde ambas
muestras son independientes, y además se desconocen todos los parámetros.
Se desea probar
H0 : µx = µy vs. Ha : µx 6= µy .
Usualmente esta prueba de hipótesis se plantea como

H0 : µx − µy = 0 vs. Ha : µx − µy 6= 0.

Se puede resolver de manera sencilla definiendo una nueva variable Z =


X−Y . Entonces el problema se simplifica a una muestra aleatoria Z1 , . . . , Zn ,
264 6. Pruebas de hipótesis

donde Zi = Xi − Yi para i = 1, . . . , n, tal que la muestra aleatoria tiene una


distribución N ormal(µz , σz2 ), donde µz = µx − µy y σz2 = σx2 + σy2 .
Por lo tanto, el problema de prueba de hipótesis se plantea como
H0 : µz = 0 vs. Ha : µz 6= 0,
para una población normal con varianza σz2 desconocida.
Ejemplo 6.13 (Comparar varianzas de 2 muestras normales independien-
tes).
Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución
N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una población con
distribución N ormal(µy , σy2 ), donde ambas muestras son independientes, y
además se desconocen todos los parámetros. Se desea probar
H0 : σx2 = σy2 vs. Ha : σx2 6= σy2 .
Si ambas muestras son independientes se sabe que
Pm
(Xi − X)2 /σx2 (m − 1)
F = Pi=1 n 2 2
j=1 (Yj − Y ) /σy (n − 1)

tiene una distribución F de Fisher con m − 1 y n − 1 grados de libertad.


En particular, bajo H0 : σx2 = σy2 = σ 2 , entonces la estadı́stica F resulta
en Pm
(Xi − X)2 /(m − 1)
F = Pi=1n 2
.
j=1 (Yj − Y ) /(n − 1)
La estadı́stica F puede obtenerse también planteando el cociente de verosi-
militudes λ.
Note que F tenderá a ser grande cuando σy2 > σx2 , y viceversa. Bajo esta
idea, si se considera H0 : σx2 = σy2 contra Ha : σx2 6= σy2 , la prueba es una
prueba bilateral, ası́ que se rechazarı́a H0 cuando la estadı́stica de prueba F
es muy grande o muy pequeña. Por lo tanto, la prueba resulta en:
γ : Rechazar H0 al nivel α si F < qα/2 ó F > q1−α/2 ,
donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución
F(m−1,n−1) , respectivamente.

6.4.2. La distribución asintótica de la razón de verosi-


militudes
Como se mencionó anteriormente, existen muchos casos en los que es muy
difı́cil encontrar la distribución de la razón de verosimilitudes generalizadas.
6.4. La razón de verosimilitudes generalizadas 265

En estas circunstancias será de utilidad el siguiente resultado, el cual estable-


ce la distribución asintótica de −2 ln λ. únicamente se hará la demostración
para el caso más común, el cual se enuncia en el teorema 6.2.

Proposición 6.1 Sea X1 , ..., Xn una muestra aleatoria de f (x; θ) donde


θ = (θ1 , ..., θk ). Para la prueba de hipótesis

H0 : θ1 = θ1◦ , . . . , θr = θr◦ , θr+1 , . . . , θk ,

donde θ1◦ , θ2◦ , ..., θr◦ son valores fijos conocidos y θr+1 , ..., θk no están especi-
d
ficados, se cumple que −2 ln λ → χ2(r) (converge en distribución) cuando H0
es cierta.

Demostración. Ver Stuart, A., Ord, J. K., y Arnold, S. (1999). 

Note que 1 ≤ r ≤ k; por ejemplo, si r = k, todos los parámetros es-


tarı́an especificados. Como θ = (θ1 , ..., θk ), el espacio paramétrico Θ es k-
dimensional y como H0 especifica a r de las componentes de θ, la dimensión
de Θ0 es k − r. Ası́, los grados de libertad de la distribución asintótica de λ
pueden interpretarse de dos formas: como el número de parámetros especifi-
cados por H0 , o como la diferencia entre las dimensiones de Θ y Θ0 , la cual
es k − (k − r).

Teorema 6.2 Para probar las hipótesis H0 : θ = θ0 vs. Ha : θ 6= θ0 , donde


θ es un parámetro, suponga que X1 , . . . , Xn es una muestra aleatoria de una
población con función de densidad f (x; θ), la cual satisface las condiciones de
regularidad, y sea θ̂ el estimador máximo verosı́mil de θ. Entonces bajo H0 ,
d
cuando n → ∞, se cumple que −2 ln λ → χ2(1) (converge en distribución).

Demostración. Primero se usan las series de Taylor para la expansión de


ln L(θ; x) alrededor de θ̂,

(θ − θ̂)2
ln L(θ; x) = ln L(θ̂; x) + (θ − θ̂)(ln L(θ̂; x))0 + (ln L(θ̂; x))00 + · · · ,
2!
266 6. Pruebas de hipótesis

donde
!0
 00 L0 (θ̂; x)
ln L(θ̂; x) =
L(θ̂; x)
L00 (θ̂; x) (L0 (θ̂; x))2
= −
L(θ̂; x) (L(θ̂; x))2
00
L (θ̂; x)
 0 2
= − ln L(θ̂; x)
L(θ̂; x)
L00 (θ̂; x)
= ,
L(θ̂; x)
pues (ln L(θ̂;x))0 = 0.
Sustituyendo la expansión de Taylor para ln L(θ0 ; x) en
L(θ0 ; x)
−2 ln λ(x) = − − 2 ln
L(θ̂; x)
= −2 ln L(θ0 ; x) + 2 ln L(θ̂; x)
h i
= −2 ln L(θ0 ; x) − ln L(θ̂; x) ,

se obtiene que:
" #
(θ0 − θ̂)2
−2 ln λ(x) ≈ −2 (θ0 − θ̂)(ln L(θ̂; x))0 + (ln L(θ̂; x))00
2!
" #
(θ0 − θ̂)2 00
= −2 (ln L(θ̂; x))
2!

ya que (ln L(θ̂;x))0 = 0. Por lo tanto,


−2 ln λ(x) ≈ −(θ0 − θ̂)2 (ln L(θ̂; x))00
(θ̂ − θ0 )2
= 1 .
−(ln L(θ̂;x))00

Como −(ln L(θ̂; x))00 es la información observada de Fisher, Iˆn (θ̂), y se


p
tiene que n1 Iˆn (θ̂) → I(θ0 ) (en probabilidad), se concluye por la propiedad de
eficiencia asintótica de los estimadores máximo verosı́miles y el teorema de
d
Slutsky3 que −2 ln λ(x) → χ2(1) (en distribución). 

3 Si {X } y {Y } son sucesiones de variables aleatorias, tales que X converge a X en


n n n
distribución y Yn converge a a en probabilidad, entonces Xn Yn → aX en distribución.
6.4. La razón de verosimilitudes generalizadas 267

Ejemplo 6.14 (Comparar proporciones de dos poblaciones independien-


tes). Sea X1 , . . . , Xm una muestra aleatoria de una población con distribu-
ción Bernoulli(θx ), y sea Y1 , . . . , Yn una muestra aleatoria de una población
con distribución Bernoulli(θy ), donde ambas muestras son independientes,
y además se desconocen todos los parámetros. Se desea probar H0 : θx = θy
vs. Ha : θx 6= θy . Esta prueba usualmente se conoce como prueba de compa-
ración de proporciones, y también se puede plantear como
θx θx
H0 : = 1 vs. Ha : 6= 1,
θy θy
o como
H0 : θx − θy = 0 vs. Ha : θx − θy 6= 0.
Para realizar esta prueba se usan las propiedades asintóticas de los esti-
madores máximo verosı́miles. Se tiene que
 
1
X ∼ N ormal θx , θx (1 − θx )
m
y  
1
Y ∼ N ormal θy , θy (1 − θy ) .
n
Además, como las muestras con independientes
 
1 1
X − Y ∼ N ormal θx − θy , θx (1 − θx ) + θy (1 − θy ) .
m n
Bajo H0 : θx = θy = θ,
   
1 1
X −Y ∼ N ormal 0, + θ(1 − θ)
m n
X −Y
⇒ q ∼ N ormal (0, 1) .
1
+ n1 θ(1 − θ)

m

El estimador máximo verosı́mil de θ es:


Pm Pn
i=1 xi + j=1 yj mx + ny
θb = = ,
m+n m+n
lo que implica que por propiedades asintóticas de los estimadores máximo
verosı́miles,
X −Y d
q → N ormal (0, 1) .
1 1 b

m + n θ(1 − θ)
b
268 6. Pruebas de hipótesis

Finalmente, para probar H0 : θx = θy vs. Ha : θx 6= θy , se utiliza como


estadı́stica de prueba

x−y
Z=q
1
+ 1 θ(1

b − θ)
b
m n

y la prueba es:

γ : Rechazar H0 al nivel α si |Z| > q1−α/2 ,

donde q1−α/2 es el cuantil 1 − α/2 de una distribución normal estándar.

Ejemplo 6.15 (Distribución asintótica del cociente de verosimilitudes).


Contrastar las hipótesis H0 : µ1 = µ2 , σ12 > 0, σ22 > 0 vs. Ha : µ1 6= µ2 ,
σ1 > 0, σ22 > 0, donde µ1 y σ12 son la media y varianza de una población
2

normal, y µ2 y σ22 son la media y la varianza de otra población normal.


El espacio paramétrico es de k = 4 dimensiones, y en la hipótesis nula se
especifica r = 1 parámetros (µ1 = µ2 y −∞ < µ2 < ∞). Ası́ que bajo H0 la
distribución asintóntica de −2 ln λ es χ2(1) .

6.5. El valor p (p-value) y las pruebas estadı́sti-


camente significativas
Un enfoque complementario para pruebas de hipótesis es el cálculo de una
cantidad llamada p-value, en español es frecuentemente llamado nivel de
significancia descriptivo o valor p. Un p-value está definido como la pro-
babilidad, cuando se supone que la hipótesis nula H0 es cierta, de obtener
un resultado muestral tan extremo como, ó más extremo que (en dirección
análoga a la hipótesis alternativa dentro de la región crı́tica), el resultado
muestral observado. Esta probabilidad se puede calcular para los valores de
la estadı́stica, o de alguna función de ésta, como el estimador muestral del
parámetro en la hipótesis nula.
Por ejemplo, suponga que se está probando

H0 : µ = 50 vs. Ha : µ > 50,

y se observa el resultado muestral para X de 52. El p-value se calcula como


P(X ≥ 52|µ = 50). La dirección apropiada aquı́ es de acuerdo a los valores
de X que son mayores o iguales que 52, ya que la alternativa es µ mayor que
50.
6.5. El valor p (p-value) 269

Definición 6.11 Sea T (X) una estadı́stica de prueba tal que valores gran-
des de T dan evidencia a favor de la hipótesis alternativa. Para cada posible
valor de X,
x = (x1 , x2 , ..., xn ) ∈ X,
se define el p-value como
p (x) = máx P [T (X) ≥ t (x)] ,
θ∈Θ0

donde t (x) es el valor de la estadı́stica T (X) en x.


La desigualdad dentro de la probabilidad serı́a invertida si valores pe-
queños de T dan evidencia a favor de la hipótesis alternativa.
Un p-value o valor p, p(x), cumple que 0 ≤ p(x) ≤ 1 para cada valor
de la muestra x. Valores pequeños de p(x) dan evidencia de que la hipótesis
alternativa Ha es verdadera.
Es fácil construir una prueba de nivel α basada en p(X). La prueba
rechaza la hipótesis nula H0 si y sólo si p(x) ≤ α. Una ventaja de reportar el
resultado de una prueba de hipótesis usando el p-value es que cada persona
puede elegir el nivel α, llamado el nivel de significancia de la prueba,
que considere apropiado, entonces puede comparar el p(x) reportado con α y
saber si los datos llevan a aceptar o rechazar H0 . Además, entre más pequeño
sea el p-value, mayor evidencia habrá para rechazar H0 . Por consiguiente, un
p-value reporta el resultado de una prueba sobre una escala más continua,
en lugar de sólo tomar la decisión dicotómica de “aceptar H0 ” o “rechazar
H0 ”.
Si un p-value es pequeño, se dice que la muestra produjo un resultado
que no es usual bajo el supuesto de la hipótesis nula. Como el resultado es
un hecho, esto quiere decir que la afirmación de la hipótesis nula es incon-
sistente con el resultado muestral. En otras palabras, se deberı́a rechazar la
hipótesis nula. Por otro lado, si un p-value es grande, el resultado muestral es
consistente con la hipótesis nula, y por tanto la hipótesis nula no se rechaza.
Si se desea utilizar el p-value para tomar una decisión acerca de si H0 será
rechazada, se tiene que seleccionar un valor para α, el nivel de significancia.
Si el p-value es menor o igual que α, la decisión es rechazar H0 (la prueba
es estadı́sticamente significativa); de otra forma, la decisión es no rechazar
H0 . El p-value es por lo tanto el más pequeño nivel de significancia para el
cual la hipótesis nula serı́a rechazada. El p-value proporciona no solamente
un medio de tomar una decisión acerca de la hipótesis nula, sino también
alguna idea acerca de qué tan fuerte es la evidencia en contra de la hipótesis
nula.
Por ejemplo, suponga que un conjunto de datos A, con una estadı́stica
de prueba T1 tiene un p-value de 0.012, mientras el conjunto de datos B con
270 6. Pruebas de hipótesis

una estadı́stica de prueba T2 (ó T1 ) tiene un p-value de 0.045. La evidencia


en contra de la hipótesis nula es mucho más fuerte para el conjunto de datos
A que para el conjunto de datos B porque el resultado muestral observado
es mucho menos probable en el conjunto de datos A.
Si se utiliza la distribución asintótica de una estadı́stica de prueba para
encontrar un p-value, a éste se le puede llamar un p-value aproximado o
p-value asintótico.
Si una prueba tiene una región de rechazo bilateral (de dos colas), no hay
una dirección especı́fica para calcular el p-value. Un enfoque es simplemente
reportar el más pequeño de los dos p-values de las colas, indicando que es el
de una cola. Si la distribución es simétrica, tiene sentido tomar el doble del
p-value para una cola y este criterio es el más utilizado en la práctica. Este
procedimiento se usa aún si la distribución no es simétrica.
Observación 6.8 Los conceptos y resultados desarrollados en el presente
capı́tulo proporcionan una prueba o región crı́tica basada en una estadı́sti-
ca, de la cual debe conocerse su distribución para el cálculo de un cuantil
asociado con dicha distribución y con el tamaño de la prueba α.
Sin embargo, la mayorı́a de los programas de cómputo estadı́stico repor-
tan, en lugar de esta forma tradicional de las pruebas, el denominado p-value
recién definido.
Tratando al valor particular de la estadı́stica (obtenido con los datos)
como un cuantil asociado a la distribución de dicha estadı́stica, se puede
hacer un análisis desde otra perspectiva, comparando probabilidades. Esto
es, la probabilidad asociada al valor particular de la estadı́stica (basado en
los datos) tratado como un cuantil y la probabilidad que representa el valor
α.
Ası́, una prueba de tamaño α: rechazar H0 basándose en la estadı́stica
T (X) , puede expresarse de una manera análoga como “Rechazar H0 si el
p-value es menor que α”. Esta probabilidad asociada al valor particular de la
estadı́stica corresponde a una función de la probabilidad de que la variable
aleatoria que sustenta la prueba sea menor que el valor especı́fico obtenido
de la información de la muestra particular.
En este contexto, α recibe el nombre de nivel de significancia y se debe
comparar con el p-value obtenido, de tal manera que se rechaza H0 si es
p-value ≤ α, diciendo en este caso que la prueba es estadı́sticamente signifi-
cativa.
Ejemplo 6.16 Suponga que se desea obtener una prueba uniformemente
más potente de tamaño α para una muestra aleatoria de tamaño n de una
población con distribución Exponencial con parámetro θ, donde:
H0 : θ = θ0 vs. Ha : θ > θ0 .
6.5. El valor p (p-value) 271

De acuerdo al lema de Neyman-Pearson, con θ1 > θ0 , se considera Ha : θ =


θ1 , obteniendo:
Pn
θ0n e−θ0 i=1 xi
λ = Pn
θ1n e−θ1 i=1 xi
 n
θ0 Pn
= e−(θ0 −θ1 ) i=1 xi < k,
θ1
de donde se obtiene la región crı́tica
( n
)
X
C∗ = (x1 , x2 , ..., xn ) ∈ X | xi < c
i=1

o, equivalentemente, la prueba es
n
X
γ : Rechazar H0 si xi < c,
i=1

donde c corresponde al cuantil de una distribución Gama(n, θ0 ) . La prueba


resultante es uniformemente más potente debido a que su forma es la misma
para cada posible valor Pnconsistente con la hipótesis alternativa.
Sea T (X) = 2θ0 i=1 Xi , note que, bajo H0 , T (X) tiene distribución
χ2(2n) . Ası́ que la prueba también puede expresarse como

γ : Rechazar H0 si t (x) < χ (α) ,

donde χ (α) corresponde al cuantil α de una variable aleatoria con distribu-


ción χ2(2n) .
El p-value se calcula como
Z t  n
1 1 1
p = P (T < t) = xn−1 e− 2 x dx.
0 Γ (n) 2
Ası́, la prueba puede reexpresarse como:

γ : Rechazar H0 si p < α.

Observe que si t (x) < χ (α) , entonces p < α.

Ejemplo 6.17 Sea X1 , X2 , ..., Xn una muestra aleatoria de tamaño n = 49


de una población con distribución Bernoulli de parámetro θ y suponga que
se desea probar:

H0 : θ ≤ 0.01 vs. Ha : θ > 0.01.


272 6. Pruebas de hipótesis

Suponga que la prueba está dada de la siguiente manera:


49
X
γ : Rechazar H0 si Xi > c,
i=1

prueba que se justifica mediante el teorema de Karlin-Rubin que se aborda


en la Sección 6.3.2. P49
Bajo H0 , T (X) = i=1 Xi tiene distribución Binomial con n = 49 y
θ = 0.01. Si se desea obtener una prueba de tamaño α = 0.05 o inferior, se
puede proceder a buscar c como:
49
!
X
P Xi > c | H0 = 0.05 (6.12)
i=1

o
49  
X 49 t 49−t
(0.01) (0.99) = 0.05, (6.13)
t=c+1
t
P49
donde t = i=1 xi y se desea encontrar c tal que la suma anterior sea de 0.05
(o inferior). Una forma alternativa de pensar el problema es, para diferentes
valores de t (x) , encontrar el valor p o p-value correspondiente, como se
muestra en la siguiente tabla:
P 
49
t (x1 , x2 , ..., xn ) P i=1 Xi > t (x) | H 0
0 0.388883
1 0.086411
2 0.013084
3 0.001480
4 0.000132
P49
Ası́, si la muestra es tal que t (x) = i=1 xi = 1, el p-value correspondiente
P49
es 0.086411, pero si t (x) = i=1 xi = 2, el p-value es de 0.013084. Como se
ha establecido que el tamaño de la prueba sea de al menos α = 0.05, es claro
que la prueba es estadı́sticamente significativa si T (X) es mayor o igual que
2, ya que con t = 1 el p-value es mayor que α. Por lo tanto, la prueba se
puede establecer como
49
X
γ : Rechazar H0 si Xi ≥ 2,
i=1

o
γ : Rechazar H0 si p ≤ 0.013084.
6.5. El valor p (p-value) 273

Observe que en el ejemplo anterior, de haber usado (6.12), que es equi-


valente a (6.13), se tendrı́a que encontrar el valor de c (de hecho, 1 < c < 2,
para el valor exacto α = 0.05), mientras que con el enfoque del p-value se pu-
do deducir el nivel de significancia mı́nimo para el que se rechaza la hipótesis
nula, el cual
P49corresponde a cuando el valor de la estadı́stica toma el valor 2
o mayor ( i=1 Xi sólo toma valores enteros).

Ejemplo 6.18 (De nuevo la dama del té). Ahora se hará una variante del
caso 1 expuesto al inicio de este capı́tulo. Suponga que se consideran 20
personas en el experimento, una de ellas la dama que asegura discriminar
entre las dos posibles mezclas -té, leche; leche, té-. A cada participante se
le da a probar el contenido de dos tazas con las composiciones en cuestión
y resulta que 12 de ellas las identificaron correctamente, pero la dama del
té hizo la clasificación de manera incorrecta. Bajo las condiciones adecuadas
de aleatoriedad, es decir, cada taza tiene la misma probabilidad de contener
cualquiera de las mezclas, no hay comunicación entre los participantes, entre
otras; se puede suponer que cada individuo tiene probabilidad 0.5 de iden-
tificar correctamente las mezclas adivinando, ası́ que el número esperado de
personas que podrı́an acertar sin tener habilidades de discriminación serı́a
de 10.
Ante la evidencia de los datos, es decir, que 12 personas hayan clasificado
correctamente las tasas, se puede pensar que este resultado no es inconsis-
tente con el valor esperado de 10, sin embargo, se calculará a continuación el
p-value para analizar mejor este resultado. Suponiendo que la hipótesis nula
es que la probabilidad de éxito sea de 21 , la probabilidad de que se obtengan
12 éxitos o más en 20 ensayos Bernoulli es:
20    t  20−t        20
X 20 1 1 20 20 20 1
= + + ... +
t=12
t 2 2 12 13 20 2
= 0.34,

de acuerdo a la cual, no hay evidencia basada en los datos de que el número


correcto de respuestas haya sido consecuencia de algún poder de discrimina-
ción, es decir, el resultado es consistente con la hipótesis de que las personas
están adivinando. Dicho de otra manera, los datos son congruentes con la
hipótesis nula o la prueba es no significativa.
Pero, ¿qué pasa con la dama del té?. Ella asegura que sus habilidades de
discriminación no se pueden descartar con un sólo error.
A continuación se llevan a cabo algunos cálculos para obtener el p-value,
para diferentes valores de n, correspondiente a la probabilidad de cometer
uno o ningún error. Ası́, si n = 5, esta probabilidad es de:
274 6. Pruebas de hipótesis

   5  0    4  1      5
5 1 1 5 1 1 5 5 1
+ = +
5 2 2 4 2 2 5 4 2
= 0.1875,

que es equivalente a 5 o 4 éxitos de un total de n = 5 ensayos. En la siguiente


tabla se muestran las probabilidades de cometer uno o ningún error para
diferentes valores de n:
n p-value
5 0.1875
6 0.1094
7 0.0625
8 0.0352
9 0.0195
10 0.0107
11 0.0059
12 0.0032
13 0.0017
14 0.0009
15 0.0002

Note la diferencia entre los distintos valores. Por ejemplo, si n = 5, uno o


ningún error serı́a consistente con la hipótesis nula, pero si n = 11, no.

Observación 6.9 En el ejemplo anterior, y de manera general, el p-value es


una función decreciente del tamaño de la muestra, de tal manera que cuando
se tiene un tamaño de muestra grande, es más plausible que una prueba sea
estadı́sticamente significativa que cuando se cuenta con un tamaño pequeño
de muestra. Esto lleva a la conclusión de que hay que tener cuidado con la
interpretación que se le da al p-value, de tal manera que lo recomendable es
considerarlo de manera conjunta con otros aspectos del estudio que se esté
llevando a cabo o en el contexto cientı́fico del fenómeno analizado.
Para una mayor discusión al respecto, se recomienda consultar Berger y
Sellke (1987) y Schervish (1996).

Observación 6.10 Para calcular el p-value correspondiente a una región


de rechazo bilateral, se obtiene como:

p(x) = 2 mı́n {P[T (X) ≥ t(x)] , P[T (X) ≤ t(x)]} .


6.6. Algunas pruebas basadas en razón de verosimilitudes 275

6.6. Algunas pruebas basadas en la razón de


verosimilitudes generalizadas
Las pruebas basadas en el cociente o razón de verosimilitudes generalizadas,
ası́ como aquéllas que usan su distribución asintótica Ji-cuadrada, se utilizan
ampliamente en las diferentes ramas de la estadı́stica.
Por ejemplo, hay una conexión interesante entre estas pruebas y el lla-
mado criterio de información de Akaike o AIC para comparar modelos con
diferente número de parámetros. Esto puede plantearse de manera general
como un modelo cuyo vector de parámetros pertenece al espacio paramétri-
co Θ y otro tal que pertenece a Θ0 ⊂ Θ y donde la diferencia entre las
dimensiones de ambos es r. Bajo H0 ,

máx L(θ; x1 , ..., xn ) máx L(θ; x1 , ..., xn )


θ∈Θ0 θ∈Θ
−2 ln = 2 ln (6.14)
máx L(θ; x1 , ..., xn ) máx L(θ; x1 , ..., xn )
θ∈Θ θ∈Θ0

tiene una distribución asintótica χ2(r) . A partir de (6.14) y, usando el hecho


de que la esperanza de una variable aleatoria con distribución Ji-cuadrada
es igual a sus grados de libertad, se obtiene que
 
r
E ln máx L(θ; x1 , ..., xn ) − ln máx L(θ; x1 , ..., xn ) = ,
θ∈Θ θ∈Θ0 2

lo que sugiere que aún cuando H0 es cierta, la verosimilitud del modelo al-
ternativo será en promedio 2r unidades mayor, donde r es la diferencia de
dimensión entre ambos espacios paramétricos. La idea es rectificar o pena-
lizar el incremento de verosimilitud que se produce por el hecho de ajustar
un mayor número de parámetros. La expresión

2 ln L(θbM V ; x1 , ..., xn ) − 2r,

se conoce como el criterio de Akaike y discrimina más a favor de modelos


simples al restar 2r a la verosimilitud con más parámetros.
Otra aplicación de relevancia de las pruebas basadas en la razón de vero-
similitudes generalizadas es en las llamadas pruebas de bondad de ajuste, las
cuales pueden entenderse como los métodos que examinan qué tan de acuer-
do está una muestra de datos con una distribución dada como su población.
Como ilustración, suponga que se tiene información estadı́stica de 200
pólizas de automóviles registradas en el 2017 en el estado de Puebla y se
requiere determinar la distribución asociada a la frecuencia de la siniestrali-
dad. Dado que la frecuencia está relacionada a conteos, un actuario planea
276 6. Pruebas de hipótesis

probar si la frecuencia de la siniestralidad tiene una distribución Poisson


contra la hipótesis de que no tiene dicha distribución.
En el caso paramétrico que se ha analizado a lo largo de este texto, la
ley de probabilidad usualmente está especificada e involucra solamente un
número finito de parámetros. Por el contrario, en el caso no paramétrico,
la ley de probabilidad no está especificada y el espacio paramétrico es el
espacio de todas las distribuciones (o algún subespacio apropiado de este).
De esta forma, en el caso no paramétrico la formulación básica del problema
frecuentemente requiere un enfoque diferente.
Hay diferentes pruebas no paramétricas, pero a manera de ejemplo y
para ilustrar la importancia de la prueba de la razón de verosimilitudes
generalizadas y su distribución asintótica, se presenta a continuación el caso
de la Ji-cuadrada para bondad de ajuste y el de la independencia en tablas
de contingencia.

6.6.1. Prueba Ji-cuadrada para bondad de ajuste


Karl Pearson introdujo la familia de distribuciones asimétricas como una al-
ternativa a la distribución normal, siendo una de sus principales contribucio-
nes en el contexto de sus estudios relacionados con la teorı́a de la evolución 4 .
En 1900,5 Pearson propuso una medida del ajuste entre una distribución
de probabilidad y una muestra, obteniendo la prueba de la Ji-cuadrada. Esta
prueba sigue siendo uno de los procedimientos estadı́sticos más conocidos y
utilizados en la práctica y se desarrolla como una aplicación de la prueba de
la razón de verosimilitudes generalizadas y su distribución asintótica que se
revisaron en la sección 6.4.
En su forma más simple, se tienen k celdas, en cada una de las cuales debe
caer el resultado de un experimento. Sea pi , i = 1, 2, ..., k, la probabilidad
de que el experimento produzca un resultado que caiga en la i -ésima celda
y sea ni , i = 1, 2, ..., k, elP
número de veces que el resultado cae en la i-ésima
k
celda en un total de n = i=1 ni realizaciones del experimento. En resumen,
se tiene el siguiente esquema:

Celda i 1 2 3 ··· k
Número de observaciones en la celda i n1 n2 n3 ··· nk
Probabilidad de que el resultado esté en la celda i p1 p2 p3 ··· pk
4 Contributions to the mathematical theory of evolution (I a IV) en Philosophical

Transactions of the Royal Society of London.


5 Pearson, K. (1900). “On the criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can be reasonably
supposed to have arisen from random sampling,” Philosophical Magazine 5 th series, 50,
157-175.
6.6. Algunas pruebas basadas en razón de verosimilitudes 277

Donde se cumple que:


k
X k
X
ni = n y pi = 1.
i=1 i=1

Considerando cada celda por separado, cada vez que el resultado caiga en
dicha celda puede pensarse en un éxito y después de efectuar las n repeticio-
nes del experimento, sólo es relevante el total de veces que el resultado cayó
en la celda. Lo anterior, sugiere asociar una distribución binomial para cada
celda, siendo pi la probabilidad de éxito en un sólo ensayo del experimento
y, como se efectúan n de tales ensayos, el número esperado de éxitos para la
i-ésima celda será la esperanza de la correspondiente variable binomial, es
decir npi . Ası́, para cada una de las celdas se tendrı́a que:

oi n1 n2 . . . nk
ei np1 np2 . . . npk ,

donde oi representa las frecuencias observadas y ei representa las frecuencias


esperadas en un total de n realizaciones del experimento. En este contexto,
es posible plantear el problema de bondad de ajuste mediante la siguiente
pregunta: ¿cómo se puede determinar si un conjunto de resultados experi-
mentales es compatible con los resultados esperados de acuerdo con las pro-
babilidades que fueron postuladas para las celdas? Formalmente, se desea
probar la hipótesis:
H0 : pi = πi , i = 1, 2, ..., k;
donde las πi0 s son los valores postulados de las probabilidades de las celdas.
Ésta es una hipótesis simple; sin embargo, y debido a que ordinariamente no
se tiene una hipótesis alternativa en mente, se emplea aquı́ una prueba de
razón de verosimilitudes generalizadas.
La función de verosimilitud (o densidad conjunta de la muestra), para una
variable aleatoria discreta es la probabilidad de obtener los valores muestrales
observados en el orden en el cual fueron obtenidos, es decir:

L (θ) ≡ L (θ | n1 , n2 , ..., nk ) = pn1 1 pn2 2 pn3 3 ...pknk , donde θ = (p1 , p2 , . . . , pk ).


Pk
Como i=1 pi = 1, solamente k−1 de las pi ’s son parámetros independientes;
por lo tanto, para encontrar
Plos estimadores máximo verosı́miles de las pi ’s,
k−1
se reemplazará pk por 1 − i=1 pi , quedando:

k−1
!nk
nk−1
X
L (θ) = pn1 1 pn2 2 pn3 3 ...pk−1 1− pi .
i=1
278 6. Pruebas de hipótesis

La log-verosimilitud está dada por:


k−1
!
X
ln L (θ) = n1 ln p1 + n2 ln p2 + ... + nk−1 ln pk−1 + nk ln 1 − pi
i=1
k−1 k−1
!
X X
= ni ln pi + nk ln 1 − pi .
i=1 i=1

Derivando con respecto a pi e igualando a cero, se obtiene:


∂ ln L (θ) ni nk
= − Pk−1 = 0, i = 1, 2, ..., k − 1
∂pi pi 1 − i=1 pi

ni nk
⇒ = , i = 1, 2, ..., k
pi pk
⇒ ni pk = nk pi , i = 1, 2, ..., k
Sumando las k igualdades se tiene que:
k
X k
X
pk ni = nk pi ,
i=1 i=1
Pk Pk
donde i=1 ni = n y i=1 pi = 1, implicando que:
p k n = nk ,
por lo tanto
nk
. pbk =
n
Este resultado puede generalizarse a las demás pi ’s como:
ni
pbi = , i = 1, 2, ..., k.
n
Bajo la hipótesis nula:
L (θ) = π1n1 π2n2 ...πknk ,
la cual no tiene parámetros desconocidos, por lo que el cociente de verosimi-
litudes generalizadas resulta ser:
máxθ∈Θ0 L (θ)
λ =
máxθ∈Θ L (θ)
π1n1 π2n2 ...πknk
= n1 n1 n2 n2
n
... nnk k
 
n n
 n  n n
nπ1 1 nπ2 2

nπk k
= ... ,
n1 n2 nk
6.6. Algunas pruebas basadas en razón de verosimilitudes 279

donde cada ni tiene distribución Binomial(n, pi ) . Encontrar la distribución


de λ es complicado, ası́ que se puede utilizar la distribución asintótica de
-2 ln λ como una Ji-cuadrada con grados de libertad igual a la diferencia en
el número de parámetros independientes no especificados bajo Θ y Θ0 , en
este caso, k − 1. Entonces la prueba se reduce a considerar:
k  
X nπi
−2 ln λ = −2 ni ln ,
i=1
ni

como una variable aleatoria con distribución Ji-cuadrada con k − 1 grados


de libertad y la región crı́tica queda determinada por:
λ ≤ λ0 ,
si y sólo si
ln λ ≤ ln λ0 ,
si y sólo si
−2 ln λ ≥ −2 ln λ0 = c,
donde
k  
X nπi
−2 ln λ = −2 ni ln
i=1
ni
k  
X πi
= −2 ni ln
i=1
ni /n
k
X  ni 
= −2 ni ln πi − ln . (6.15)
i=1
n

Por lo tanto, la región crı́tica es:


C = {−2 ln λ ≥ c} ,
o ( )
k
X  ni 
C = −2 ni ln πi − ln ≥c ,
i=1
n
donde c es tal que
P [−2 ln λ ≥ c | H0 ] = α.
Karl Pearson propuso la siguiente expresión como estadı́stica de prueba
para el problema de bondad de ajuste:
k 2
X (ni − ei )
T = , (6.16)
i=1
ei
280 6. Pruebas de hipótesis

donde ei representa el valor esperado en la celda i, es decir npi y, bajo Ho,


ei = nπi .
A continuación se demostrará que la expresión para −2 ln λ dada en (6.15)
es asintóticamente equivalente a (6.16).
La expansión en series de Taylor para ln pi alrededor de pbi = nni es:
2  
1 (pi − pbi ) 1
ln pi = ln pbi + (pi − pbi ) + − 2 +ε
pbi 2! pbi
n
 2 2
pi − ni

ni  ni  n n
= ln + pi − − + ε,
n n ni 2 ni
o
ni  ni  n  n i 2 n 2
ln pi − ln = pi − − pi − + ε, (6.17)
n n ni n 2n2i
donde ε representa la suma de términos con signo alternante:

X j+1
 ni j nj
(−1) pi − .
j=3
n j!nji

Bajo H0 , pi = πi , ası́ que sustituyendo (6.17) en (6.15), se obtiene que:


k
X  ni 
−2 ln λ = −2 ni ln πi − ln
i=1
n
k
n i 2 n 2
 
X ni  n 
= −2 ni p i − − pi − + ε
i=1
n ni n 2n2i
k k 2 k
X X (nπi − ni ) X
= −2 (nπi − ni ) + + ε0 , (6.18)
i=1 i=1
ni i=1

donde
k
X k
X k
X
(nπi − ni ) = n πi − ni = n − n = 0,
i=1 i=1 i=1
por lo que (6.18) se reduce a
k 2
X (nπi − ni )
−2 ln λ = + ε00 , (6.19)
i=1
ni

y ε00 → 0 cuando n → ∞, con probabilidad 1. (6.19) también puede escribirse


como:
k 2
X (ni − nπi )
−2 ln λ = , (6.20)
i=1
ni
6.6. Algunas pruebas basadas en razón de verosimilitudes 281

expresión que, bajo la hipótesis nula pi = πi , es muy similar a (6.16), excepto


por el denominador, pues ei = nπi .
Por la Ley Débil de los Grandes Números se sabe que la variable aleatoria
ni
n converge en probabilidad a pi , es decir:
h  n i
i
lı́m P − pi > ε = 0, para toda ε > 0,

n→∞ n
lo cual es equivalente a:
 
1
lı́m P (|ni − npi | > ε) = 0, para toda ε > 0
n→∞ n

o  
1
lı́m P (|ni − npi | < ε) = 1, para toda ε > 0,
n→∞ n
concluyendo que cuando n → ∞, es posible sustituir a ni por npi , por lo que
bajo la hipótesis nula, (6.20) se puede escribir como
k 2
X (ni − nπi )
−2 ln λ = ,
i=1
nπi

que es igual a la estadı́stica T dada por (6.16).


Como la distribución asintótica de −2 ln λ es Ji-cuadrada con k−1 grados
de libertad, se concluye que la estadı́stica T tiene esa distribución.

Ejemplo 6.19 Se lanza un dado 60 veces, obteniéndose las siguientes fre-


cuencias por cara:
1 2 3 4 5 6
oi 13 19 11 8 5 4 n = 60
n1 n2 n3 n4 n5 n6
Se quiere probar si el dado es honesto, esto es, si pi denota la probabilidad
de que caiga la cara i (con i puntos), se plantea:
1
H0 : pi = , i = 1, 2, ..., 6.
6
Como la probabilidad asignada a cada cara del dado es la misma, la frecuen-
cia esperada es la misma también para todas las celdas, esto es: ei = nπi =
(60) 61 = 10. Entonces:


1 2 3 4 5 6
oi 13 19 11 8 5 4
ei 10 10 10 10 10 10
282 6. Pruebas de hipótesis

Calculando la estadı́stica de prueba:


k 2
X (oi − ei )
T =
i=1
ei
1 2 1 2 1 2 1 2
= (13 − 10) + (19 − 10) + (11 − 10) + (8 − 10)
10 10 10 10
1 2 1 2
+ (5 − 10) + (4 − 10)
10 10
= 15.6

Como k = 6, los grados de libertad de la distribución de la estadı́stica


de prueba son k − 1 = 5 . Por lo tanto, si la prueba tiene un nivel de
significancia de α = 0.05, se obtiene el cuantil 0.95 de una distribución χ2(5)
que es ω0.95 = 11.1. Como T = 15.6 > 11.1 = ω0.95 , se rechaza H0 y por lo
tanto el dado no se considera honesto. Nota: en este problema el p − value
es 0.008084.
Lo anterior se confirma en R bajo los siguientes comandos:

> x < -c(13,19,11,8,5,4)


> chifit < -chisq.test(x)
> chifit

que da como resultado:

Chi-squared test for given probabilities


data: x
X-squared = 15.6, df = 5, p-value = 0.008084

lo cual confirma los resultados previos.

Ejemplo 6.20 La siguiente es una muestra aleatoria de tamaño n = 20,


después de ser ordenadas de menor a mayor las observaciones:

16.7 18.8 24.0 35.1 39.8


17.4 19.3 24.7 35.8 42.1
18.1 22.4 25.9 36.5 43.2
18.2 22.5 27.0 37.6 46.2

Se desea probar:
H0 : La muestra representa observaciones de una variable aleatoria dis-
tribuı́da normalmente con µ = 30 y σ 2 = 100
vs.
Ha : La distribución es otra.
6.6. Algunas pruebas basadas en razón de verosimilitudes 283

Se formarán arbitrariamente cuatro clases con igual probabilidad asigna-


da, por lo que se especificarán cuatro clases de la distribución N (30, 100) a
partir de los cuantiles de la distribución N (0, 1) .
Sean zp los cuantiles de la distribución N (0, 1), entonces como se desean
cuatro clases con la misma probabilidad, lo que se necesitan son los cuartiles,
es decir, z0.25 , z0.50 y z0.75 :

z0.25 = −0.6745 , z0.50 = 0 , z0.75 = 0.6745.

Si X ∼ N (30, 100), entonces Z = X−30 10 ∼ N (0, 1) y por lo tanto, X =


10Z + 30. Ası́, los cuartiles de una distribución N (30, 100) son:

x0.25 = 10 (−0.6745) + 30 = 23.225,


x0.50 = 10 (0) + 30 = 30,
x0.75 = 10 (0.6745) + 30 = 36.745.

La clase 1 contiene todas las observaciones menores o iguales a 23.26, la


clase 2 contiene a todas las observaciones entre 23.26 y 30 inclusive y ası́
sucesivamente. En resumen:
clase 1 clase 2 clase 3 clase 4
(−∞, 23.26] (23.26, 30] (30, 36.75] (36.75, ∞)
oi 8 4 3 5
ei 5 5 5 5

Las frecuencias esperadas son iguales ya que la p0i s arbitrariamente se toman


iguales:  
1
ei = npi = 20 = 5, i = 1, 2, 3, 4.
4
Como k = 4 , los grados de libertad de la Ji-cuadrada son k − 1 = 3 y el
cuantil 1 − α = 0.95 de una distribución χ2(3) es ω0.95 = 7.815. Por su parte,
el valor de la estadı́stica de prueba es:
4 2
X (oi − ei ) 1 2 2 2 2

T = = (8 − 5) + (4 − 5) + (3 − 5) + (5 − 5)
i=1
ei 5
= 2.8.

Como 2.8 < 7.815 no se rechaza H0 y se confirma que los datos presentados
se distribuyen N (30, 100) . Nota: en este caso el p − value es 0.5765.

Ejemplo 6.21 Un manufacturador de elevadores fundamenta sus estánda-


res de seguridad en el principio de que los pesos de los adultos se distribuyen
284 6. Pruebas de hipótesis

normalmente con una media de 62 kg. y una desviación estándar de 11 kg.,


es decir, N (62, 121). Sin embargo, recientemente notó que esta información
es de hace 45 años. Naturalmente su departamento R&D desea saber si esta
distribución de pesos es todavı́a apropiada; ya que si la distribución ha cam-
biado, debe hacer una revisión en la recomendación para el máximo número
de personas permitidas en sus elevadores.
Hipótesis: la preocupación del departamento R&D es si ha habido un
cambio en la distribución de los pesos de la población adulta. De esta forma,
la hipótesis alternativa relevante para ellos es que la distribución de pesos
no es normal con µ = 62 kg y σ ≤ 11 kg.
H0 : La muestra proviene de una distribución normal con media 62 y
desviación estándar 11.
vs.
Ha : La muestra no proviene de una distribución normal con media 62 y
desviación estándar 11.
En el muestreo actual, el equipo R&D muestreó a 500 adultos. Sin em-
bargo, para propósito de ilustrar la prueba de la Ji-cuadrada, se usarán
solamente 50 de estos pesos. Los pesos (en kilogramos) fueron:
72.2 64.0 53.4 76.8 86.3 58.1 63.2 73.1 78.0 44.3
85.1 66.6 80.4 76.0 68.8 76.8 58.9 58.1 74.9 72.2
73.1 39.3 52.8 54.2 65.3 74.0 63.2 64.7 68.8 85.1
62.2 76.0 70.5 48.9 78.0 66.6 58.1 32.5 63.2 64.0
68.8 65.3 71.9 72.2 63.2 72.2 70.5 80.4 45.4 59.6
Primero se agrupan estos datos en intervalos (que se eligen arbitrariamente,
en este caso serán de 5 kg de amplitud) para hacer la tabla de frecuencias
observadas:

Intervalo Frecuencia
menor que 40 kg 2
40-49.9 kg 3
50-54.9 kg 3
55-59.9 kg 5
60-64.9 kg 8
65-69.9 kg 7
70-74.9 kg 11
75-79.9 kg 6
80-89.9 kg 5
90 kg o más 0
Con base en la suposición de que la hipótesis nula es cierta, es decir, los
datos son de la distribución N (62, 121), se calcula la frecuencia esperada por
6.6. Algunas pruebas basadas en razón de verosimilitudes 285

intervalo, para esto primero se obtiene la probabilidad para cada intervalo


y luego se multiplica por el tamaño de la muestra 50. Usando la relación
Z = X−µσ = X−62 0
11 , se calcularán los pi s de la distribución normal estándar:

Ext. izq. Proporción Frecuencia


del intervalo esperada esperada
x−62
Intervalo x z= 11 Φ (x) en el interv. en el interv.
50 × 0.0228 =
< 40 0.0228 1.140
40-49.9 40 -2.00 0.0228 0.1151 5.755
50-54.9 50 -1.09 0.1379 0.1232 6.160
55-59.9 55 -0.64 0.2611 0.1675 8.375
60-64.9 60 -0.18 0.4286 0.1778 8.890
65-69.9 65 0.27 0.6064 0.1609 8.045
70-74.9 70 0.73 0.7673 0.1137 5.685
75-79.9 75 1.18 0.8810 0.0685 3.425
80-89.9 80 1.64 0.9495 0.0451 2.255
≥ 90 90 2.55 0.9946 0.0054 0.270

Como puede apreciarse, hay que unir los dos últimos intervalos ya que la
frecuencia esperada en el último intervalo es menor que uno:

Intervalo Observados Esperados


menor que 40 kg 2 1.140
40-49.9 kg 3 5.755
50-54.9 kg 3 6.160
55-59.9 kg 5 8.375
60-64.9 kg 8 8.890
65-69.9 kg 7 8.045
70-74.9 kg 11 5.685
75-79.9 kg 6 3.425
≥ 80 5 2.525

Por lo tanto, T = 14.429 es el valor de la estadı́stica de prueba. Por otro


lado, como k = 9 celdas, los grados de libertad de la distribución Ji-cuadrada
son k − 1 = 8, de donde el cuantil 0.95 de esta distribución es 15.5. Ası́, el
valor de la estadı́stica de prueba es menor que dicho cuantil, por lo que, al
nivel de significancia α = 0.05, no se rechaza la hipótesis nula. El p− value
es 0.07124.

Observación 6.11 Si los valores esperados ei = npi son pequeños, la dis-


tribución Ji-cuadrada asintótica puede no ser apropiada. ¿Qué tan pequeños
pueden ser los valores de ei ? No hay una regla exacta, pero existen varias
286 6. Pruebas de hipótesis

sugerencias que se han propuesto en la literatura, una de las más conocidas


y utilizadas es la siguiente:
Ninguno de los valores esperados ei debe ser menor que 1.
No más del 20 % de los valores esperados ei debe ser menor que 5.
En este sentido, en caso de que estas condiciones se cumplan, se deben unir
celdas adyacentes y recalcular los valores observados y esperados.

Observación 6.12 Si la distribución de probabilidad de X está completa-


mente especificada, excepto para un número c de parámetros desconocidos,
primero será necesario estimar los parámetros (usando los métodos estudia-
dos en al capı́tulo de estimación puntual, preferentemente máxima verosimi-
litud), y después se realizará la prueba de bondad de ajuste. En este caso, la
distribución de la estadı́stica de prueba T será χ2k−1−c , es decir, los grados de
libertad son k −1−c, restando c grados de libertad debido a los c parámetros
estimados.

6.6.2. La prueba de independencia en tablas de contin-


gencia
Otra aplicación de la prueba de la razón (o cociente) de verosimilitudes ge-
neralizadas es la siguiente: considere el problema de probar si dos variables,
que han sido clasificadas por medio de un arreglo de dos entradas, son in-
dependientes. Por ejemplo, los datos para este arreglo se obtuvieron de una
muestra aleatoria de 300 estudiantes, quienes se clasificaron con respecto a:
(1) El tamaño de la escuela preparatoria de la cual se graduaron y (2), a su
promedio en el primer año de estudios profesionales. El problema es probar
si existe alguna relación entre estas dos variables.

Preparatoria

Pequeña Mediana Grande


Promedio ≥5 18 51 46
<5 42 79 64
Este tipo de tabla es conocida como una tabla de contingencia. Las en-
tradas en las celdas para estos datos son frecuencias o conteos en lugar de
medidas continuas, aunque los datos continuos frecuentemente se pueden po-
ner en forma discreta usando intervalos sobre una escala discreta. La edad,
por ejemplo, es una variable continua, pero si la gente se clasifica en dife-
rentes grupos de edad, los intervalos correspondientes a estos grupos pueden
ser tratados como si fueran unidades discretas.
6.6. Algunas pruebas basadas en razón de verosimilitudes 287

Como la tabla anterior involucra solamente dos variables, a este tipo de


arreglos se le conoce como una tabla de contingencia de dos dimensiones.
Es posible clasificar a los miembros de una población de muchas formas.
Por ejemplo, las personas se pueden dividir en hombres y mujeres, casados
o solteros, los que son elegibles para votar y los que no, y ası́ sucesivamente.
Estos son ejemplos de clasificaciones dicotómicas, no obstante, puede haber
más de dos categorı́as. Las tablas en tres dimensiones y más surgen cuando
una muestra se clasifica con respecto a más de dos variables cualitativas.
Lo que es importante es que las categorı́as en las que se clasifique a los
individuos sean exhaustivas y mutuamente excluyentes. Una clasificación es
exhaustiva cuando proporciona suficientes categorı́as para acomodar a todos
los miembros de la población. Las categorı́as son mutuamente excluyentes
cuando están definidas de tal manera que cada miembro de la población pue-
de ser asignado correctamente a una y sólo una categorı́a. Por ejemplo, en
la siguiente tabla se presenta una muestra de 5375 muertes por tuberculosis,
clasificadas con respecto a dos variables cualitativas: sexo y tipo de tubercu-
losis que causó la muerte (note que las categorı́as de estas variables como
están dadas en la tabla son ambas exhaustivas y mutuamente excluyentes):

Hombres Mujeres Total


Tuberculosis del sistema respiratorio 3534 1319 4853
Otras formas de tuberculosis 270 252 522

Tuberculosis (todas las formas) 3804 1571 5375

Para una versión general de una una tabla de contingencia de dos dimen-
siones, suponga que la clasificación usa r renglones y c columnas, y sea Pij
la probabilidad de que un individuo elegido al azar de la población bajo con-
sideración, caerá en la celda correspondiente al i− ésimo renglón y j − ésima
columna. Además, sea:

c
X
Pi• = Pij la probabilidad de estar en el i − ésimo renglón
j=1

y
r
X
P•j = Pij la probabilidad de estar en la j − ésima columna.
i=1

Al igual que en la prueba de la Ji-cuadrada para bondad de ajuste, se


tiene la condición:
288 6. Pruebas de hipótesis

r X
X c r
X c
X
Pij = 1 ⇔ Pi• = 1 y P•j = 1.
i=1 j=1 i=1 j=1

El siguiente arreglo muestra una tabla de contingencia de r×c con r renglones


y c columnas (r y c categorı́as respectivamente para cada una de las variables
involucradas).

1 2 . . . c Pc
1 P11 P12 . . . P1c P1j = P1•
Pj=1
c
2 P21 P22 . . . P2c j=1 P2j = P2•
. . . . . .
. . . . . .
. . . . . .P
c
r P P . . . P j=1 Prj = Pr•
Pr1r Pr2r Prcr
i=1 Pi1 = P•1 i=1 Pi2 = P•2 . . . i=1 Pic = P•c

Sea nij la frecuencia observada en la celda (i, j), entonces, si se tienen n


observaciones en total:
Xr Xc
nij = n
i=1 j=1

y los totales marginales por renglón o columna se pueden escribir como:


r
X c
X
nij = n•j , nij = ni• .
i=1 j=1

El problema de probar si las dos variables clasificadas son independientes


puede plantearse como:

H0 : Pij = Pi• P•j i = 1, 2, ..., r ; j = 1, 2, ..., c.

La función de verosimilitud es como la que se vio en la sección anterior


para la prueba Ji-cuadrada de bondad de ajuste, pero se debe considerar un
doble producto:
r Y
c
n
Y
L (θ) = Pijij . (6.21)
i=1 j=1

Cuando H0 es verdadera:
r Y
Y c
nij
L (θ) = (Pi• P•j ) . (6.22)
i=1 j=1
6.6. Algunas pruebas basadas en razón de verosimilitudes 289

En las expresiones anteriores todos los parámetros que aparecen son des-
conocidos:
Pij , Pi• y P•j i = 1, 2, ..., r ; j = 1, 2, ..., c;
por lo que los valores esperados (o frecuencia esperada) para cada celda (i, j)

eij = nPij = nPi• P•j (bajo H0 )

necesarios para la prueba, son desconocidos, por lo que se reemplazarán por


sus estimadores máximo verosı́miles correspondientes.
Para encontrar el máximo de la función dada en (6.22) de estas dos
últimas expresiones, observe que:
r−1
X c−1
X
Pr• = 1 − Pi• y P•c = 1 − P•j , (6.23)
i=1 j=1

entonces (bajo H0 ):
Y c
r Y r Y
Y c
nij nij nij
L (θ) = (Pi• P•j ) = (Pi• ) (P•j )
i=1 j=1 i=1 j=1

r
! c

n
Y Y
ni•
= Pi•  P•j•j  .
i=1 j=1

De esta forma:
r
X c
X
ln L (θ) = ni• ln Pi• + n•j ln P•j
i=1 j=1
r−1
X c−1
X
= ni• ln Pi• + nr• ln Pr• + n•j ln P•j + n•c ln P•c
i=1 j=1

Sustituyendo ln Pr• y ln P•c de (6.23), se obtiene:

ln L (ω)
!  
r−1
X r−1
X c−1
X c−1
X
= ni• ln Pi• +nr• ln 1 − Pi• + n•j ln P•j +n•c ln 1 − P•j  .
i=1 i=1 j=1 j=1

Entonces para cada i y cada j fijas,


∂ ln L (ω) 1 (−1)
= ni• + nr• Pr−1 =0 (6.24)
∂Pi• Pi• 1 − i=1 Pi•
290 6. Pruebas de hipótesis

∂ ln L (ω) 1 (−1)
= n•j + n•c Pc−1 =0 (6.25)
∂P•j P•j 1 − j=1 P•j
de (6.24):
ni• nr•
= ⇒ ni• Pbr• = nr• Pi• i = 1, 2, ..., r
Pi• Pr•
entonces
r
X r
X
Pbr• ni• = nr• Pi• ,
i=1 i=1
r
P r
P
donde ni• = n y Pi• = 1.
i=1 i=1
Por lo tanto:
nr•
Pbr• = ,
n
y de (6.25),
n•j n•c
= ⇒ n•j Pb•c = n•c P•j j = 1, 2, ..., c
P•j P•c

lo cual implica que:


c
X c
X
Pb•c n•j = n•c P•j ,
j=1 j=1
Pc Pc
donde j=1 n•j = n y j=1 P•j = 1.
Por lo tanto:
n•c
Pb•c = .
n
El desarrollo es válido para cualquier i = 1, 2, ..., r y j = 1, 2, ..., c, por lo
que:
ni• n•j
Pbi• = y Pb•j = .
n n
En consecuencia, la función de verosimiltud maximizada en el espacio
paramétrico definido por H0 es:
r  c
Y ni• ni• Y  n•j n•j
máx L (θ) = . (6.26)
θ∈Θ0
i=1
n j=1
n

Ahora, la función de verosimilitud en todo el espacio paramétrico es:


r Y
c
n
Y
L (θ) = Pijij
i=1 j=1
6.6. Algunas pruebas basadas en razón de verosimilitudes 291

y
r X
X c
ln L (θ) = nij ln Pij .
i=1 j=1

De la hipótesis inicial, se puede escribir:


r X
X c
Pij = 1 ,
i=1 j=1

lo que implica que


 
c X
X r−1 c−1
X
Prc = 1 −  Pij + Prj  .
j=1 i=1 j=1

Por lo tanto:

X r−1
c X c−1
X
ln L (Θ) = nij ln Pij + nrj ln Prj + nrc ln Prc
j=1 i=1 j=1
c X
X r−1 c−1
X
= nij ln Pij + nrj ln Prj +
j=1 i=1 j=1
  
Xc X
r−1 c−1
X
nrc ln 1 −  Pij + Prj  .
j=1 i=1 j=1

Derivando con respecto a Pij se obtiene que:

∂ ln L (Θ) nij (−1) nrc


= + P  = 0,
∂Pij Pij 1−
c Pr−1
P +
Pc−1
P
j=1 i=1 ij j=1 rj

entonces
nij nrc
= ,
Pij Pbrc
de donde
nij Pbrc = nrc Pij i = 1, 2, ..., r y j = 1, 2, ..., c.
Como:
r X
X c r X
X c
Pij = 1 y nij = n,
i=1 j=1 i=1 j=1
292 6. Pruebas de hipótesis

se tiene que:
r X
c r X
c
X X nrc
Pbrc nij = nrc Pij ⇒ Pbrc = .
i=1 j=1 i=1 j=1
n

Al igual que antes, el argumento es válido para cualquier i y j, por lo


tanto:
nij
Pbij = i = 1, 2, ..., r y j = 1, 2, ..., c.
n
Ası́, la función de verosimilitud maximizada en todo el espacio paramétri-
co queda de la siguiente manera:
c 
r Y
Y nij nij
máx L (θ) = .
θ∈Θ
i=1 j=1
n

Finalmente, la razón o cociente de verosimilitudes generalizadas es:


Qr ni• ni• Qc n•j n•j

máxθ∈Θ0 L (θ) i=1 n j=1 n
λ= = Qr Qc nij nij ≤ λ0 .
máxθ∈Θ L (θ) i=1 j=1 n

Donde se debe obtener la distribución de λ, por lo que se usa el criterio


asintótico de la razón de verosimilitudes:

−2 ln λ ∼ χ2(ν) ,

donde ν se determina como k−1−s donde k es el número total de parámetros


y s es el número de parámetros independientes (o estimados), en este caso
como
Xr X c
Pij = 1,
i=1 j=1

es equivalente a
r
X c
X
Pi• = 1 y P•j = 1,
i=1 j=1

de donde por (6.23) hay r + c − 2 parámetros independientes, por lo tanto:

ν = k − 1 − s = rc − 1 − (r + c − 2)
= (r − 1) (c − 1) .

La regla de decisión es, entonces: Rechazar H0 al nivel de significancia α


si:
−2 ln λ ≥ ω1−α ,
6.6. Algunas pruebas basadas en razón de verosimilitudes 293

donde ω1−α es el cuantil 1 − α de una distribución χ2((r−1)(c−1)) .


Se puede demostrar que, por el mismo argumento que se usó en la prueba
de bondad de ajuste,
r X c n n 2
X nij − i•n •j
−2 ln λ = ni• n•j + Rn
i=1 j=1 n

donde Rn → 0 cuando n → ∞ con probabilidad 1 y


ni• n•j
= eij
n
ya que
ni• n•j
eij = npij = nPi• P•j = n .
n2
Por lo tanto la estadı́stica de prueba que se va a utilizar es:
r X c 2
X (nij − eij )
T = ,
i=1 j=1
eij

cuya distribución también es χ2(r−1)(c−1) .

Ejemplo 6.22 Retomando el ejemplo introductorio, en donde se considera


una muestra de 300 estudiantes clasificados por el tipo de preparatoria y el
promedio escolar.
Preparatoria
Pequeña Mediana Grande
Promedio ≥5 18 51 46
<5 42 79 64
Los valores esperados por celda son los siguientes:
n1• n•1 (115) (60) 6900
e11 = = = = 23
n 300 300
n1• n•2 (115) (130)
e12 = = = 49.8
n 300
n1• n•3 (115) (110)
e13 = = = 42.16
n 300
n2• n•1 (185) (60)
e21 = = = 37
n 300
n2• n•2 (185) (130)
e22 = = = 80.16
n 300
n2• n•3 (185) (110)
e23 = = = 67.8
n 300
294 6. Pruebas de hipótesis

El valor de la estadı́stica de prueba es:

T = 1.0869 + 0.0289 + 0.3497 + 0.6756 + 0.01678 + 0.2129


= 2.37078.

Si se establece el nivel de significancia como α = 0.05, entonces el cuantil


1−α = 0.95 de una distribución Ji-cuadrada con (r − 1) (c − 1) = (1) (2) = 2
grados de libertad es: ω0.95 = 5.99, por lo que no se rechaza H0 , es decir, no
se rechaza la hipótesis de independencia, por lo que se puede concluir que el
tamaño de la preparatoria de la que provienen los estudiantes y su promedio
escolar durante el primer año de facultad son independientes.
En R, se puede utilizar chisq.test de la siguiente manera:

# Se crea la tabla de contingencia para este ejemplo


> tabla_contingencia = rbind(c(18, 51, 46), c(42, 79, 64))
> colnames(tabla_contingencia)=c("pequena","mediana","grande")
> rownames(tabla_contingencia) = c("mayor_igual_5", "menor_5")
> tabla_contingencia = as.table(tabla_contingencia)
# Usando la función chisq.test
> chisq.test(tabla_contingencia)

El resultado es:

Pearson’s Chi-squared test


data: tabla_contingencia
X-squared = 2.372, df = 2, p-value = 0.3054

Lo que confirma los cálculos previos.

La extensión de las tablas de contingencia de doble entrada a tablas de


contingencia de orden mayor es inmediata. Para una tabla de r1 × r2 × r3 ,
para la hipótesis de independencia completa:

H0 : Pijk = Pi•• P•j• P••k para todo


i = 1, 2, ..., r1 j = 1, 2, ..., r2 y k = 1, 2, ..., r3

Los estimadores de las frecuencias esperadas son:

eijk = nPbijk = nPbi•• Pb•j• Pb••k


n n n
= n i•• •j• ••k
n n n
ni•• n•j• n••k
= ,
n2
6.6. Algunas pruebas basadas en razón de verosimilitudes 295

y la estadı́stica de prueba es:


r3
r2 X
r1 X 2
X (nijk − eijk )
T =
i=1 j=1 k=1
eijk

con r1 r2 r3 − 1 − (r1 − 1 + r2 − 1 + r3 − 1) = r1 r2 r3 − r1 − r2 − r3 + 2 grados


de libertad.
Otra hipótesis de independencia que se usa muy a menudo es:

H0 : Pijk = Pi•• P•jk

donde, las frecuencias esperadas estimadas son:


ni•• n•jk
eijk =
n
y la estadı́stica de prueba tiene:

r1 r2 r3 − 1 − (r1 − 1 + r2 r3 − 1) = (r1 − 1) (r2 r3 − 1)

grados de libertad.
A continuación se verá cómo medir el grado de asociación entre variables.

El coeficiente de contingencia
Como una medida del grado de asociación entre variables en una tabla de
contingencia en donde se clasifican un total de n unidades experimentales,
Karl Pearson propuso el coeficiente de contingencia C, definido como:
 1/2
Q
C= ,
Q+n
donde Q es la estadı́stica de prueba apropiada para la hipótesis de inde-
pendencia. Si las variables son completamente independientes, los valores de
Q y C son ambos pequeños. Además, valores crecientes de C implican un
incremento en el grado de asociación, ya que valores grandes de Q son un
resultado de más alejamiento significativo entre las frecuencias observadas
y esperadas de celdas. Pero el valor de C no puede ser mayor de uno para
cualquier n, una desventaja de C como una medida de asociación es que no
puede alcanzar el valor de 1.
Puede demostrarse fácilmente que para una tabla de contingencia de
doble entrada de r × c, el valor máximo de C es:
 1/2
t−1
Cmáx = , donde t = mı́n (r, c) .
t
296 6. Pruebas de hipótesis

6.7. Pruebas de hipótesis en el contexto


Bayesiano
En el contexto Bayesiano también se realizan contrastes de hipótesis y en
este caso, es posible hacer pruebas de dos o más de ellas:

H1 : θ ∈ Θ1 , H2 : θ ∈ Θ2 , ··· HJ : θ ∈ ΘJ ,

donde Θ1 , Θ2 , . . . , ΘJ denotan una partición del espacio paramétrico Θ. En


esta sección sólo se presentará el caso del contraste de dos hipótesis, sin
embargo la extensión a un número mayor será natural.
Suponga que X proviene de un modelo f (x|θ) y que se desea evaluar las
hipótesis:
H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 ,
donde Θ0 y Θ1 constituyen una partición del espacio paramétrico Θ. Recuer-
de que para hacer inferencia estadı́stica desde una perspectiva Bayesiana se
requiere una distribución inicial del parámetro θ. Si se asigna una distribu-
ción inicial propia con densidad6 π(θ), entonces es posible evaluar las dos
hipótesis a priori a través del cociente:
R
τ0 P(θ ∈ Θ0 ) π(θ)dθ
= = RΘ0 .
τ1 P(θ ∈ Θ1 ) Θ1
π(θ)dθ

Una vez que se han observado los datos, X = x, la apreciación inicial


acerca del parámetro se actualiza a través de la distribución posterior

π(θ|x) ∝ L(θ|x)π(θ),

donde L(θ|x) denota la función de verosimilitud. Las dos hipótesis planteadas


pueden evaluarse ahora considerando la distribución posterior a través del
cociente R
p0 P(θ ∈ Θ0 |x) π(θ|x)dθ
= = RΘ0 .
p1 P(θ ∈ Θ1 |x) Θ1
π(θ|x)dθ
En el enfoque Bayesiano el contraste de hipótesis consistirá en comparar
las distribuciones de los parámetros y elegir aquella hipótesis con probabili-
dad mayor. Por ejemplo, si sólo se cuenta con información inicial entonces
6 Esta notación para la densidad inicial en esta sección no tiene relación con la función

potencia, la cual también se ha denotado con π a lo largo del presente capı́tulo. En el


contexto Bayesiano se hace la especificación de que se trata de las densidades a priori o
a posteriori y simplemente es para que haya congruencia con la notación utilizada en el
capı́tulo de Estimación Puntual en donde se aborda la estimación Bayesiana.
6.7. Pruebas de hipótesis en el contexto Bayesiano 297

se podrı́an comparar las probabilidades τ0 y τ1 y elegir H0 o Ha de acuerdo


a aquella hipótesis con probabilidad mayor; pero si además se observó una
muestra X = x entonces se podrı́an comparar las probabilidades p0 y p1 y
elegir H0 ó Ha de acuerdo a aquella hipótesis con probabilidad mayor.
Con frecuencia se propone a la estadı́stica conocida como factor de Bayes,
definida como
p0 /p1
FB = ,
τ0 /τ1
como una medida de la evidencia que proporcionan los datos a favor de la
hipótesis nula.
Note que el factor de Bayes compara de manera simultánea las probabili-
dades obtenidas a partir de las distribuciones iniciales τ0 y τ1 y las obtenidas
de las distribuciones posteriores p0 y p1 . Cuando ambas hipótesis son igual-
mente probables de manera inicial, es decir τ0 = τ1 , el factor de Bayes se
reduce a sólo comparar las distribuciones finales p0 y p1 .
La evaluación de la probabilidad relativa de las hipótesis o los mode-
los (asociados a esas hipótesis) se puede hacer utilizando la probabilidad
posterior del modelo asociado:

π(x|Hj )π(Hj )
π(Hj |x) =
π(x)
π(x|Hj )π(Hj )
= PJ
k=1 π(x|Hk )π(Hk )
∝ π(x|Hj )π(Hj ),

donde π(Hj ) es la probabilidad inicial del modelo y j = {0, a}. Es decir,


π(H0 ) y π(Ha ) son las probabilidades iniciales bajo las hipótesis H0 y Ha ,
respectivamente. Además:
Z
π(x|Hj ) = π(x|θ)π(θ|Hj )dθ

es la verosimilitud marginal bajo el modelo Hj , y π(θ|Hj ) es la distribución


inicial para θ cuando Hj es cierta.
Por lo tanto, si se desea contrastar dos hipótesis H0 y Ha , para eva-
luar la probabilidad relativa de estas hipótesis, se deberá calcular π(H0 |x)
y π(Ha |x), y estas probabilidades se podrı́an comparar usando el factor de
Bayes.
Sin embargo, estas evaluaciones deben hacerse tomando en cuenta los
contextos particulares de cada modelo. Los siguientes ejemplos buscan hacer
algunas observaciones en este sentido.
298 6. Pruebas de hipótesis

Ejemplo 6.23 Sea X una variable aleatoria de un modelo Normal(µ, 1) ,


si se plantean las hipótesis H0 : µ = 0 contra la alternativa Ha : µ 6= 0;
adoptando una distribución inicial conjugada para µ que sea N ormal(0, S 2 )
con S > 0.
Note que en este caso el espacio paramétrico es Θ = {µ; µ ∈ R} =
(−∞, ∞), el conjunto de los reales. Bajo la hipótesis nula H0 el espacio
paramétrico es Θ0 = {0} y bajo la hipótesis alternativa Ha el espacio pa-
ramétrico es Θ1 = {µ; µ 6= 0, µ ∈ R}.
Para hacer el contraste de hipótesis en el contexto Bayesiano, se requerirá
calcular el factor de Bayes F B = π(H0|x)/π(Ha |x). Note que también puede
obternerse que π(H0 |x) = 1/ 1 + F1B .
Suponiendo que no se tiene mayor información acerca de cuál de las
hipótesis tiene mayor probabilidad inicial, se supondrá que π(H0 ) = π(Ha ).
En esto caso el factor de Bayes se reducirı́a a calcular F B = π(x|H0 )/π(x|Ha ).
Bajo la hipótesis nula, H0 : µ = 0,
π(x|H0 ) = π(x|µ = 0) = N (x|0, 1).
Bajo la hipótesis alternativa Ha : µ 6= 0,
π(x|Ha )
Z
= π(x|µ)π(µ|Ha )dµ
Z
= N (x|µ, 1)N (µ|0, S 2 )dµ
Z    
1 1 2 1 1 2
= √ exp − (x − µ) √ exp − 2 µ dµ
2π 2 2πS 2 2S
( )
1 1 1 x2
=p exp − x2 +
2 1 + S12

2π(1 + S 2 ) 2
q
1 + S12
 ( " #)
x2
Z 
1 1 2 x
× √ exp − 1 + 2 µ − 2µ + 2 dµ
2π 2 S 1 + S12 1 + S12

 
1 1
=p exp − x2
2
2π(1 + S ) 2(1 + S 2 )
= N (x|0, 1 + S 2 ).
Por lo tanto, el factor de Bayes resulta en
N (x|0, 1)
FB = .
N (x|0, 1 + S 2 )
6.7. Pruebas de hipótesis en el contexto Bayesiano 299

Observe que en este caso el factor de Bayes crece cuando S 2 → ∞ para


cualquier x.

Ejemplo 6.24 Considere el experimento de lanzar una moneda n veces,


donde las variables aleatorias Yi son independientes con distribución Yi ∼
Bernoulli(θ), para i = 1, . . . , n. La hipótesis nula se plantea como H0 :
θ = 0.5 contra la alternativa Ha : θ 6= 0.5, con una distribución inicial
θ ∼ Beta(a, b).
Para hacer el contraste de hipótesis se calculará el factor de Bayes F B =
π(H0 |y)/π(Ha |y). Otra vez, no se tiene mayor información acerca de cuál
de las hipótesis tiene mayor probabilidad inicial, ası́ que se supondrá que
π(H0 ) = π(Ha ), y entonces el factor de Bayes se reducirı́a a calcular F B =
π(y|H0 )/π(y|Ha ).
Bajo la hipótesis nula, H0 : θ = 0.5,

π(y|H0 ) = π(y|θ = 0.5) = 0.5n .

Bajo la hipótesis alternativa, Ha : θ 6= 0.5, se tiene que dadas las obser-


vaciones, la verosimilitud es
Pn Pn
yi
L(θ|y) = θ i=1 (1 − θ)n− i=1 yi

y distribución inicial del parámetro θ es

θa−1 (1 − θ)b−1
π(θ|Ha ) = ,
B(a, b)

donde B(a, b) = Γ(a)Γ(b)


Γ(a+b) es la función beta. Entonces la probabilidad poste-
rior de Y = y dada Ha es

π(y|Ha )
Z
= π(y|θ)π(θ|Ha )dθ
Z
= L(θ|y)π(θ|Ha )dθ

θa−1 (1 − θ)b−1
Z P
n Pn
= θ i=1 yi (1 − θ)n− i=1 yi dθ
B(a, b)
Pn Pn P n Pn
B ( i=1 yi + a , n − i=1 yi + b) θ i=1 yi +a−1 (1 − θ)n− i=1 yi +b−1
Z
= Pn Pn dθ
B(a, b) B ( i=1 yi + a , n − i=1 yi + b)
Pn Pn
B ( i=1 yi + a , n − i=1 yi + b)
= ,
B(a, b)
300 6. Pruebas de hipótesis

y el factor de Bayes es:

0.5n
FB = Pn
B( yi +a , n− n i=1 yi +b)
P
i=1
B(a,b)
n
0.5 B(a, b)
= Pn Pn .
B( i=1 y i + a , n − i=1 yi + b)

Ahora considere dos casos particulares con el objetivo de comparar los


resultados obtenidos en el contraste de hipótesis bajo los contextos de es-
tadı́stica Bayesiana y del cociente de verosimilitudes generalizadas.
Sean n = 10 y n = 50 del modelo bajo H0 , con π(θ|H1 ) ∼ Beta(2, 2), la
figura 6.4 muestra las probabilidades posteriores π(H0 |y).
0.8

n=50
n=10
0.6
p(H0|y)

0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Figura 6.4: Probabilidad posterior del modelo por tamaño de muestra.

La verosimilitud es L(θ|y) = π(y|θ) y el cociente de verosimilitudes ge-


neralizadas para probar las hipótesis planteadas es:

máxΘ0 L(θ|y) L(θ̂0 )


λ(y) = = ,
máxΘ L (θ|y) L(θ̂)

donde θ̂0 y θ̂ son los estimadores máximo verosı́miles en los espacios pa-
ramétricos correspondientes.
Para este caso:
0.5n
λ(y) = nȳ .
ȳ (1 − ȳ)n−nȳ
6.7. Pruebas de hipótesis en el contexto Bayesiano 301

La región de rechazo es de la forma {y : λ(y) ≤ k}. Se ha visto que, bajo


ciertas condiciones,
d
−2 ln(λ(y)) → χ2(ν) .
y si el p-value < α, entonces se rechaza H0 con un nivel de significancia α.
Considere ahora que n = 10, 000 y y = 4, 900; el p-valor se aproxima a
P(χ21 > (4.000267)) = 0.04549306 y la probabilidad posterior de H0 ,
1
π(H0 |y) ≈ = 0.8780995.
1 + 1/7.203413
En este caso particular, bajo el cociente de verosimilitudes generalizadas el
p-valor conlleva a rechazar la hipótesis nula, pero usando la probabilidad
posterior se elegirı́a la hipótesis nula y, por lo tanto, las conclusiones serı́an
opuestas.
Estas situaciones que se han ilustrado con los ejemplos pueden obser-
varse ya sea por un efecto del tamaño de muestra, por una hipótesis nula
precisa contra una alternativa muy difusa, o por la probabilidad a priori
asignada a las hipótesis. En este sentido, el enfoque Bayesiano penaliza las
probabilidades iniciales difusas.
Existen muchas otras propuestas para evaluar hipótesis o modelos, aquı́
se plantea una a manera de ilustración.
Para realizar la comparación de estos modelos es usual que se consideren
otras medidas de bondad de ajuste, que como en el caso del factor de Ba-
yes, puedan utilizarse para comparar modelos y que ayuden en la toma de
decisiones. Uno de los criterios muy utilizados en estadı́stica Bayesiana es el
Criterio de Información Bayesiano (BIC, por su nombre en inglés Bayesian
Information Criterion).
Definición 6.12 Criterio de Información Bayesiana (BIC). Sea X una
muestra aleatoria de tamaño n. Suponga que se tienen dos posibles modelos,
f1 (X|θ1 , . . . , θm1 ) y f2 (X|θ1 , . . . , θm2 ),
cada uno parametrizado por m1 y m2 parámetros: θ1 , . . . , θm1 y θ1 , . . . , θm2 ,
respectivamente, los cuales pueden tener elementos en común. El BIC se
define como:
 
L1 (θ1 , . . . , θm1 |X)
BIC = −2 ln + (m1 − m2 ) ln(n).
L2 (θ1 , . . . , θm2 |X)
Ejemplo 6.25 Suponga que, dada una muestra aleatoria de tamaño n, se
tienen las siguientes hipótesis para un fenómeno de interés:
H0 : Xi ∼ Gama(α, β) vs. Ha : Xi ∼ Exp(θ).
302 6. Pruebas de hipótesis

Bajo H0 se tienen m1 = 2 parámetros, y la verosimilitud es:


n
Y
L(α, β|X) = Gama(xi |α, β)
i=1
n
Y β α α−1 −xi β
= x e
i=1
Γ(α) i
n
!α−1
β nα Y
− n
P
i=1 xi β .
= x i e
Γ(α)n i=1

Bajo Ha se tiene m2 = 1 parámetro, y la verosimilitud es:


n
Y
L(θ|X) = Exp(xi |θ)
i=1
Yn
= θe−xi θ
i=1
n − n
P
= θ e i=1 xi θ .
Q100
Considere el caso particular n = 100, x̄ = 0.479, i=1 xi = 2.898146e−44
y las hipótesis: H0 : Xi ∼ Gama(2, 4) vs. Ha : Xi ∼ Exp(0.5).
El BIC se calcula como:
 nα Q 
β n α−1 − Pn xi β
Γ(α) n ( i=1 x i ) e i=1

BIC = −2 ln  Pn  + (m1 − m2 ) ln(n).


θn e− i=1 xi θ
 200 
4 × (2.898146e − 44) × exp(−191.6568)
= −2 ln + ln(100)
(0.5100 ) exp(−23.95711)
= −152.6433.

En algunos contextos se sugiere que si el BIC ≤ 2 la evidencia que


favorece al primer modelo es muy débil, mientras que si el BIC > 10 la
evidencia de ello es contundente.

6.8. Ejercicios
1. Sea X una variable aleatoria con función de densidad f (x; θ). Considere
H0 : θ = θ0 y Ha : θ = θ1 , tal que la función de densidad es la siguiente:
6.8. Ejercicios 303

x 1 2 3 4 5 6 7
f (x; θ0 ) 0.01 0.01 0.01 0.01 0.01 0.01 0.94
f (x; θ1 ) 0.06 0.05 0.04 0.03 0.02 0.01 0.79

Use el lema de Neyman-Pearson para encontrar la prueba estadı́stica


más potente para contrastar las hipótesis H0 vs. Ha , con tamaño de
prueba α = 0.04. Calcule el tamaño del error tipo II.

2. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad f (x; θ). Considere las hipótesis

1
H0 : f (x; θ) = , x ∈ (0, θ) Uniforme(0, θ)
θ
1 −x/θ 1
Ha : f (x; θ) = e , x ∈ (0, ∞) Exponencial( ).
θ θ
(a) Determine la prueba del cociente de verosimilitudes, junto con su
región crı́tica C, asociada a las pruebas H0 vs. Ha .
(b) Obtenga la potencia de la prueba πγ (θ) y haga su gráfica.

3. Suponga que X1 , X2 , X3 , X4 es una muestra aleatoria de la población


con distribución Normal(µ, 4), donde µ es desconocido. Se desea con-
trastar las hipótesis H0 : µ = 1 vs. µ = 4 y se consideran las siguientes
pruebas:

Prueba γ1 : Rechazar H0 si y sólo si X1 > 3.7.


Prueba γ2 : Rechazar H0 si y sólo si 31 (X1 + 2X2 ) > 3.5.
Prueba γ3 : Rechazar H0 si y sólo si 21 (X1 + X3 ) > 3.2.
Prueba γ4 : Rechazar H0 si y sólo si X > 3.1.

Encuentre las probabilidades de los errores tipo I y tipo II para cada


una de las pruebas y compárelas.

4. Se lanza 1000 veces una moneda y el resultado es 560 “soles” y 440


“águilas”. Sea θ la probabilidad de que caiga un “sol”.

(a) ¿Se puede suponer que la moneda está equilibrada o la probabi-


lidad de obtener un “sol” es mayor que la de obtener “águila”?
Plantee las hipótesis.
(b) Obtenga la prueba uniformemente más potente.
(c) Calcule el p-value.
304 6. Pruebas de hipótesis

5. Suponga que X1 , X2 , X3 , X4 es una muestra aleatoria de la población


con distribución Exponencial(θ). Se desea contrastar las hipótesis H0 :
θ = 2 vs. θ = 6 y se consideran las siguientes pruebas:
Prueba γ1 : Rechazar H0 si y sólo si X1 > 4.
1
Prueba γ2 : Rechazar H0 si y sólo si 2 (X1 + X2 ) > 3.5.
1
Prueba γ3 : Rechazar H0 si y sólo si 3 (X1 + X2 + X3 ) > 3.4.
Prueba γ4 : Rechazar H0 si y sólo si X > 2.8.
Encuentre las probabilidades de los errores tipo I y tipo II para cada
una de las pruebas y compárelas.
6. Suponga que X1 y X2 son variables aleatorias de una población con
función de densidad de probabilidad

f (x; θ) = θxθ−1

si 0 < x < 1, donde θ > 0 es desconocido. Para contrastar las hipótesis


H0 : θ = 1 vs. Ha : θ = 2 se considera la región crı́tica:
 
3
C = (x1 , x2 ); (x1 , x2 ) ∈ (0, 1) × (0, 1), x1 x2 ≥ .
4

(a) Muestre que el tamaño de la prueba es α = 14 + 34 log 34 .




7
+ 98 log 34 .

(b) Muestre que la potencia de la prueba en θ = 2 es 16
7. Sea X1 , . . . , X10 una muestra aleatoria de tamaño n = 10 de la pobla-
ción con distribución Bernoulli(p).
(a) Encuentre una prueba más potente de tamaño α = 0.0547 para
probar las hipótesis H0 : p = 12 vs. Ha : p = 14 . Encuentre la
potencia de esta prueba y el tamaño del error tipo II.
(b) Para constrastar las hipótesis H0 : p ≤ 12 vs. Ha : p > 12 , se tiene
una región crı́tica
X10
C = {x; xi ≥ 6}.
i=1
Encuentre el tamaño de la prueba y grafique su función potencia.
8. Suponga que X es una variable aleatoria con función de densidad de
probabilidad f (x; θ), donde x ∈ R. Considere las funciones definidas
de la siguiente manera:
1 −1 1
f0 (x) = 1 + x2 , f1 (x) = exp {−|x|} .
π 2
6.8. Ejercicios 305

Se contrastan las hipótesis

H0 : f (x; θ) = f0 (x) vs. Ha : f (x; θ) = f1 (x).

(a) Muestre que la prueba más potente de tamaño α es: rechazar la


hipótesis nula si y sólo si |X| < k.
(b) Determine k como una función de α.
(c) Calcule la potencia de la prueba.

9. Sea X una observación con función de densidad f (x; θ) = (2θx+1−θ),


donde x ∈ [0, 1] y θ ∈ [−1, 1].

(a) Encuentre la prueba más potente de tamaño α para contrastar


las hipótesis H0 : θ = 0 vs. Ha : θ = 1. (Sugerencia: la prueba
debe estar expresada en términos de α).
(b) Para contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0, la regla
de decisión es: Rechazar H0 si x > 21 , es decir, la región crı́tica es
C = {x : x > 12 }. Encuentre la potencia π(θ) y el tamaño de la
prueba α.
(c) ¿Existe una prueba uniformemente más potente (UMP) de ta-
maño α para contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0?.
¿Cuál es?
(d) Obtenga la prueba del cociente de verosimilitudes generalizadas
para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ 6= 0.
(e) Entre todas las posibles pruebas para contrastar las hipótesis
H0 : θ = 0 vs. Ha : θ = 1, obtenidas del cociente de verosi-
militudes simple (lema de Neyman-Pearson), encuentra la prueba
que minimice α + β, donde α y β son los tamaños de los errores
tipo I y II, respectivamente.

10. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


P oisson(λ).

(a) Encuentre la prueba uniformemente más potente para contrastar


las hipótesis

H0 : λ = λ0 vs. Ha : λ > λ0 .

Grafique la función potencia considerando que λ0 = 1, n = 25 y


α = 0.05.
306 6. Pruebas de hipótesis

(b) Obtenga la región crı́tica usando el cociente de verosimilitudes


generalizadas para contrastar las hipótesis
H0 : λ = λ0 vs. Ha : λ 6= λ0 .
n
P
Nota: la región crı́tica deberı́a estar definida en términos de Xi .
i=1
(c) Una prueba estadı́stica razonable para contrastar las hipótesis
H0 : λ = λ0 vs. Ha : λ 6= λ0 podrı́a ser la siguiente:
γ: Rechazar H0 si |X̄ − λ0 | ≥ k.
Encuentre el valor de k tal que el tamaño del error tipo I sea
α = 0.05.
Nota: Suponga que n es suficientemente grande tal que puede
usarse el teorema del lı́mite central.
11. Se supone que el número de accidentes de automóvil tiene una distri-
bución Poisson. En años anteriores, el número promedio de accidentes
por año fue de 15, y este año fue de 10. ¿Se puede concluir que el
número de accidentes ha disminuido? Calcule el p-value.
12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
P oisson(λ).
(a) Encuentre una prueba uniformemente más potente (UMP) de ta-
maño α para contrastar las hipótesis H0 : λ ≤ λ0 vs. Ha : λ > λ0 .
(b) Considere el caso particular con λ0 = 1, es decir, H0 : λ ≤ 1 vs.
Ha : λ > 1. Use el teorema del lı́mite central para determinar
el tamaño de la muestra n, tal que la prueba UMP cumpla que
P(Rechazar H0 |λ = 1) = 0.05 y P(Rechazar H0 |λ = 2) = 0.9.
(c) Use la prueba del cociente de verosimilitudes para encontrar una
región crı́tica para probar las hipótesis H0 : λ = λ0 vs. H1 : λ 6=
λ0 .
Nota:
Pn la región crı́tica debe quedar expresada en términos de
i=1 Xi .

13. Considere una muestra aleatoria de n observaciones independientes de


una misma distribución. Determine la región de rechazo de la prueba
de razón de verosimilitudes para probar H0 vs. Ha en los tres casos
siguientes.
(a1) Ho : θ = θ0 vs Ha : θ 6= θ0 , cuando la muestra aleatoria proviene
de una distribución P oisson(θ).
6.8. Ejercicios 307

(a2) Si θ0 = 1, n = 4, (x1 , x2 , x3 , x4 ) = (2, 1, 3, 4), α = .05. ¿Qué


concluirı́a de la prueba?
(b1) Ho : p = p0 vs. Ha : p 6= p0 , cuando la muestra aleatoria
proviene de una distribución Bernoulli(p).
(b2) Si Ho : p = 1/2 vs. Ha : p 6= 1/2 y las observaciones reportan
P40
i=1 xi = 10, n = 40. ¿Qué concluirı́a de la prueba con α = .05?
(c1) Ho : σ 2 = σ02 vs. Ha : σ 2 6= σ02 cuando la muestra aleatoria
proviene de una distribución N (0, σ 2 ).
(c2) Si Ho : σ 2 = 1 vs. Ha : σ 2 6= 1 y las observaciones reportan
P40 2
i=1 xi = 80, n = 40. ¿Qué concluirı́a de la prueba con α = .05?

14. Sea X1 y X2 una muestra aleatoria de la población con distribución


U nif orme(θ, θ + 1). Para constrastar las hipótesis
H0 : θ = 0 vs. Ha : θ > 0,
se tienen dos posibles pruebas estadı́sticas (reglas de decisión):
γ1 : Rechazar H0 si X1 > 0.95,
γ2 : Rechazar H0 si X1 + X2 > k.
(a) Encuentre el valor de k tal que γ2 tenga el mismo tamaño que γ1 .
(b) Calcula las funciones potencia de cada prueba, πγ1 (θ) y πγ2 (θ).
Grafı́quelas.
(c) ¿Qué prueba es más potente? Explique.
(d) Muestre cómo obtener una prueba estadı́stica tal que tenga el
mismo tamaño que γ2 pero que sea más potente.
15. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
U nif orme(0, θ), y sean Y1 , . . . , Yn sus estadı́sticas de orden. Para con-
trastar las hipótesis H0 : θ = θ0 vs. Ha : θ 6= θ0 , con θ0 fijo. La
prueba estadı́stica γ (regla de decisión) es: Rechazar H0 si Yn > θ0 ó
Yn < θ0 α1/n .
(a) Encuentre la función potencia πγ (θ) y grafı́quela.
(b) Encuentre otra prueba estadı́stica γ2 , que tenga el mismo tamaño
de prueba y muestre que γ es una prueba más potente que γ2 .
16. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
U nif orme(θ, θ + 1). Sean Y1 ≤ · · · ≤ Yn las estadı́sticas de orden. Para
contrastar las hipótesis
H0 : θ = 0 vs. Ha : θ > 0,
308 6. Pruebas de hipótesis

se utiliza la siguiente prueba estadı́stica


γ: Rechazar H0 si Yn ≥ 1 o si Y1 ≥ k,
donde k es una constante.
(a) Determine el valor de k para que el tamaño de la prueba sea α.
(b) Calcule la función potencia de la prueba y grafı́quela.
(c) Calcule los valores de n y k tal que el tamaño de la prueba sea
α = 0.1 y la potencia sea al menos de 0.8 para todo θ > 1.
17. Sea X una variable aleatoria con distribución Logı́stica(θ, 1), con fun-
ción de densidad
e(x−θ)
f (x; θ) = , x ∈ R, θ ∈ R.
[1 + e(x−θ) ]2
Usando una observación (muestra de tamaño n = 1):
(a) Encuentre una prueba más potente γ ∗ de tamaño α (con mejor
región crı́tica C ∗ ) para contrastar las hipótesis
H0 : θ = 0 vs. Ha : θ = 1.

(b) Para (a), si α = 0.2, calcule el tamaño del error tipo II.
(c) Obtenga la prueba uniformemente más potente γ ∗ de tamaño α
para contrastar las hipótesis
H0 : θ ≤ 0 vs. Ha : θ > 0.

18. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente in-


dependientes, con distribución Exponencial(θ) y Exponencial(η), res-
pectivamente, con función de densidad f (x; θ) = θe−θx y f (y; η) =
ηe−ηy .
(a) Use la prueba del cociente de verosimilitudes generalizadas para
encontrar la región crı́tica C asociada a las hipótesis:
H0 : θ = η vs. Ha : θ 6= η.

(b) Muestre que C se puede simplificar en términos de la siguiente


estadı́stica Pn
Xi
i=1 P
T = Pn m .
i=1 Xi + j=1 Yj

¿Cuál es la distribución de T bajo H0 ? [Nota: la distribución de


T no depende de θ ni de η cuando H0 es cierta.]
6.8. Ejercicios 309

19. Sea X una observación con función de densidad f (x; θ) = (1 + θ)xθ ,


donde x ∈ [0, 1] y θ > −1.

(a) Encuentre la prueba más potente de tamaño α para contrastar


las hipótesis H0 : θ = 0 vs. Ha : θ = 1.
(b) ¿Existe una prueba uniformemente más potente de tamaño α para
contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0? En caso
afirmativo, encuéntrela.
(c) Dentro de las posibles pruebas del cociente de verosimilitudes para
constrastar las hipótesis H0 : θ = 0 vs. Ha : θ = 1, encuentre una
prueba que minimice 2α + β, donde α y β son los tamaños de los
errores tipo I y tipo II.
(d) Realice la prueba del cociente de verosimilitudes generalizadas
para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ 6= 0.

20. Sea X una observación de una variable aleatoria con distribución


Beta(θ, 1).

(a) Sea C = {X; X > 1/2} la región crı́tica para probar las hipótesis
H0 : θ ≤ 1 vs. Ha : θ > 1. Encuentre el tamaño de la prueba y
grafique su función potencia.
(b) Encuentre la prueba más potente de tamaño α para contrastar
las hipótesis H0 : θ = 1 vs. Ha : θ = 2.
(c) Encuentre una prueba uniformemente más potente (UMP) de ta-
maño α para constrastar las hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1.

21. Sea X una variable aleatoria con distribución Beta(θ, 1) con función
de densidad f (x; θ) = θxθ−1 , donde x ∈ (0, 1) y θ > 0.

(a) Se selecciona una muestra de tamaño n = 2. Para contrastar las


hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1 se usa la región crı́tica
C = {(x1 , x2 ); 43 x1 ≤ x2 }. Encuentre la función potencia y el
tamaño de la prueba. Grafique la función potencia.
(b) Se selecciona una muestra de tamaño n = 2. Encuentre la prueba
más potente de tamaño α = 12 (1 − log(2)) para contrastar las
hipótesis H0 : θ = 1 vs. Ha : θ = 2.
(c) Para una observación, n = 1, encuentre una prueba uniformemen-
te más potente (UMP) de tamaño α para constrastar las hipótesis
H0 : θ ≤ 1 vs. Ha : θ > 1.
310 6. Pruebas de hipótesis

22. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente


independientes, con distribución Beta(θ, 1) y Beta(η, 1), respectiva-
mente.
(a) Use la prueba del cociente de verosimilitudes generalizadas para
encontrar la región crı́tica C asociada a las hipótesis:

H0 : θ = η vs. Ha : θ 6= η.

(b) Muestre que C se puede simplificar en términos de una función de


la siguiente estadı́stica:
Pn
i=1 log(X
Pmi
)
T = Pn .
i=1 log(Xi ) + j=1 log(Yj )

(c) ¿Cuál es la distribución de T bajo H0 ?


(d) Muestre cómo obtener una prueba estadı́stica de tamaño α = 0.1.
23. Suponga que X1 , . . . , Xn es una muestra aleatoria de una población
con distribución Rayleigh con función de densidad de probabilidad
 2
2x x
fX (x) = exp − ,
θ θ

con x > 0, donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga una
prueba uniformemente más potente de tamaño α para contrastar las
hipótesis H0 : θ ≥ θ0 vs. Ha : θ < θ0 , donde θ0 > 0 es un valor fijo.
24. Suponga que X1 , . . . , Xn es una muestra aleatoria de una población
con con función de densidad

f (x; θ) = θ−1 x(1−θ)/θ ,

con x ∈ (0, 1), donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga
una prueba uniformemente más potente de tamaño α para contrastar
las hipótesis H0 : θ ≤ θ0 vs. Ha : θ > θ0 donde θ0 > 0 es un valor fijo.
25. Considere una secuencia de n ensayos multinomiales cada uno con
k + 1 posibles respuestas O1 , . . . , Ok+1 , sea Yi el número de ensayos
que resultaron con respuesta Oi , i = 1, . . . , k + 1. Entonces la función
de densidad conjunta de (Y1 , . . . , Yk+1 ) es la distribución multinomial

n! yk+1
P(Y1 = y1 , . . . , Yk+1 = yk+1 ) = py1 · · · pk+1 ,
y1 ! · · · yk+1 ! 1
6.8. Ejercicios 311

donde
Pk+1 pi es laPprobabilidad de obtener la respuesta Oi en un ensayo,
k+1
i=1 pi = 1, i=1 yi = n. Considere la prueba de hipótesis

H0 : (p1 , . . . , pk+1 )
= (p01 , . . . , p0k+1 ) vs Ha : (p1 , . . . , pk+1 ) 6= (p01 , . . . , p0k+1 ).

Demuestre que la estadı́stica −2 log λ esta dada por la expresión si-


guiente
k+1
X Yi
−2 log λ = 2 Yi log 0 .
i=1
np i

26. Considere que (X1 , . . . , Xn ) es una muestra aleatoria de n observacio-


nes independientes de una distribución N (µ, σ 2 ) y la prueba

H0 : (µ, σ) = (µ0 , σ0 ) vs. Ha : (µ, σ) 6= (µ0 , σ0 ).

Demuestre que la estadı́stica −2 log λ esta dada por la expresión si-


guiente:

n 2 nσ̂ 2
−2 log λ = (x̄ − µ0 ) + − n − n[log σ̂ 2 − log σ02 ].
σ02 σ02

27. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Pareto con función de densidad
θν θ
f (x; θ, ν) = , x ∈ [ν, ∞), θ > 0, ν > 0.
xθ+1
(a) Encuentre los estimadores máximo verosı́miles de θ y ν.
(b) Muestre que la prueba del cociente de verosimilitudes para con-
trastar las hipótesis:

H0 : θ = 1, (ν desconocido) vs. Ha : θ 6= 1, (ν desconocido),

tiene región crı́tica de la forma C : {x; T (x) ≤ c1 ó T (x) ≥ c2 },


donde 0 < c1 < c2 y
 Qn 
i=1 Xi
T (x) = log .
(mı́ni Xi )n

(c) Muestre que bajo H0 , 2T tiene una distribución Ji-cuadrada, y


encuentre el número de grados de libertad.
312 6. Pruebas de hipótesis

[Sugerencia: obtenga la distribución conjunta de los n−1 términos


no triviales Xi /(mı́ni Xi ) condicional a (mı́ni Xi ). Junte los n −
1 términos, y note que la distribución de T dada (mı́ni Xi ) no
depende de (mı́ni Xi ), ası́ que la distribución de T resulta ser no
condicional].
28. Considere una muestra aleatoria Y1 , . . . , Yn de una población con dis-
tribución N (µ, σ 2 ), con σ 2 conocida. Se desean probar las hipótesis:

H0 : µ = µ0 vs. Ha : µ = µ1 , µ0 < µ1 .

Las probabilidades iniciales están dadas por


(
π0 si µ = µ0
p(µ) =
π1 si µ = µ1

¿Bajo qué condiciones se rechaza H0 ?


29. Sea X una variable aleatoria con distribución N ormal(µ, 1). Cosidere
las hipótesis H0 : |µ| ≤ c vs. Ha : |µ| > c cuando la distribución inicial
es f (µ) = 1.
(a) Grafique la probabilidad de H0 como una función de c.
(b) Determine los valores de c para los cuales su máximo es 0.95 y el
factor de Bayes es 1.
30. Sea (X1 , . . . , Xn ) una muestra aleatoria de n observaciones indepen-
dientes de una distribución N (µ, 1),
1 1 (x)
f (x; µ) = √ exp − (x − µ)2 I(−∞,∞) .
2π 2
I. Considere la prueba de hipótesis

H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 < µ0 .

(a) Usando el lema de Neyman–Pearson encuentre la región crı́ti-


ca C ∗ , tal que P [(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α.
(b) Si las observaciones muestrales reportan x̄ = −1/2, que con-
cluirı́a de la prueba con µ0 = 0, µ1 = −1, α = 0.05, n = 25.
Reporte la potencia de la prueba: 1−β = 1−P[(x1 , . . . , xn ) ∈
C¯∗ | Ha ].
II. Considere la prueba de hipótesis

H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 > µ0 .
6.8. Ejercicios 313

(a) Usando el lema de Neyman–Pearson encuentre la región crı́ti-


ca C ∗ , tal que P[(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α.
(b) Si las observaciones muestrales reportan x̄ = 2/3, que con-
cluirı́a de la prueba con µ0 = 0, µ1 = 1, α = 0.05, n = 25.
Reporte la potencia de la prueba: 1−β = 1−P[(x1 , . . . , xn ) ∈
C¯∗ | Ha ].

31. Sea (X1 , . . . , Xn ) una muestra aleatoria de n observaciones indepen-


dientes de una distribución N (0, σ 2 ),

1 1
f (x; σ 2 ) = √ exp − 2 x2 .
σ 2π 2σ

Considere la prueba de hipótesis

H0 : σ 2 = σ02 vs. Ha : σ 2 = σ12 , σ12 > σ02

(a) Usando el lema de Neyman–Pearson encuentre la región crı́tica


C ∗ , tal que P [(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α.
Pn
(b) Si las observaciones muestrales reportan i=1 x2i = 37.5, qué con-
cluirı́a de la prueba con σ02 = 1, σ12 = 2, α = 0.05, n = 25? Reporte
la potencia de la prueba 1 − P [(x1 , . . . , xn ) ∈ C¯∗ | Ha ].

32. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribu-


ción N ormal(µ, σ 2 ), donde µ es desconocido pero σ 2 es conocida. Sea
α ∈ (0, 1). Para contrastar las hipótesis H0 : µ = µ0 vs. Ha : µ > µ0
la prueba uniformemente más potente de tamaño α es

γ : Rechazar H0 si y sólo si n(X − µ0 )/σ > z1−α ,

donde z1−α es el cuantil 1 − α de una distribución normal estándar.


La prueba uniformemente más potente garantiza que el tamaño del
error tipo II de la prueba γ es el mı́nimo posible en µ = µ1 (> µ0 ) entre
todas las pruebas posibles de tamaño α, pero no hay garantı́a que este
mı́nimo sea pequeño a menos que n sea determinado adecuadamente.
Se requiere una prueba uniformemente más potente con tamaño de
error tipo II menor o igual que β, con β ∈ (0, 1) cuando µ = µ1 (> µ0 ).
Muestre que el tamaño de la muestra n debe ser el menor valor entero
tal que se cumpla la desigualdad
 2
(z1−α + z1−β )σ
n≥ .
(µ1 − µ0 )
314 6. Pruebas de hipótesis

33. Considere dos distribuciones normales independientes N (µ1 , 400) y


N (µ2 , 225). Sea θ = µ2 − µ1 y sea x̄ y ȳ las medias muestrales de
dos muestras aleatorias independientes cada una de tamaño n de estas
dos distribuciones. Se rechaza Ho : θ = 0 si y sólo si x̄ − ȳ ≥ c. Si
π(θ) es la función potencia de esta prueba, encuentre c y n tales que
π(0) = 0.5 y π(10) = 0.90.
34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µx , σx2 ), y sea Y1 , . . . , Ym una muestra aleatoria de una población con
distribucón N (µy , σy2 ), donde las Xi0 s son independientes de las Yj0 s,
las varianzas son iguales (σx2 = σy2 = σ 2 ), y los tamaños de muestra
pueden ser distintos (n 6= m).
Considere las hipótesis:

H0 : µx = µy vs. Ha : µx 6= µy .

(a) Obtenga la región crı́tica usando la prueba de la razón de verosi-


militudes.
Nota: la estadı́stica de prueba generalmente se expresa como:
X̄ − Ȳ
T =q ,
Sp2 ( n1 + 1
m)
n m
!
1 X X
Sp2 = (Xi − X̄)2 + (Yi − Ȳ )2 .
n+m−2 i=1 i=1

(b) Muestre que bajo H0 , T ∼ tn+m−2 .


(c) Se obtuvo una muestra a partir de dos poblaciones (A y B). De-
termine si la media de los grupos es la misma. Calcula el p-value.
Grupo A Grupo B
294 251 279 248 274 284 274 272
240 264 232 263 220 264 256 255
254 218 251 210 254 250 242
35. Sea (X1 , Y1 ), . . . , (Xn , Yn ) una muestra aleatoria de la población con
distribución normal bivariada
     2 
Xi µx σx ρ
∼ N ormal2 , .
Yi µy ρ σy2

con σx2 , σy2 y ρ desconocidos. Se desea contrastar las hipótesis

H0 : µx = µy vs. H1 : µx 6= µy .
6.8. Ejercicios 315

(a) Obtenga la región crı́tica usando la prueba de la razón de verosi-


militudes.
Nota: la estadı́stica de prueba puede expresarse como:

W
Tw = q ,
1 2
S
n w

1
Pn 2 1
Pn
donde Wi = Xi − Yi , W = n i=1 Wi , Sw = n−1 i=1 (Wi −
W )2 .
2
(b) Calcule µw = E(Wi ), σw = Var(Wi ) y Cov(Wi , Wj ).
Concluya que W1 , . . . , Wn es una muestra aleatoria de una pobla-
2
ción con distribución N ormal(µw , σw ).
Justifique que bajo H0 , Tw ∼ tn−1 .
(c) Se obtuvo una muestra de tamaño n = 10 a partir de dos pobla-
ciones (A y B). Determine si la media de los grupos es la misma
(use α = 0.05). Calcule el p-value.

Grupo A (Xi ) Grupo B (Yi ) Grupo A (Xi ) Grupo B (Yi )


13.2 16.7 11.6 10.2
9.9 11.8 7.4 10.6
9.0 14.4 14.2 10.9
10.0 14.5 12.6 11.1
13.0 9.3 7.2 12.2

36. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente


independientes, con distribución N ormal(µx , σx2 ) y N ormal(µy , σy2 ),
respectivamente, con parámetros desconocidos.
(a) Use la prueba de la razón de verosimilitudes generalizadas para
encontrar la región crı́tica C asociada a las hipótesis

H0 : σx2 = σy2 vs. Ha : σx2 6= σy2 .

(b) Se obtuvieron muestras de tamaño n = 10 y m = 12 a partir de


dos poblaciones (A y B). Determine si las varianzas de los grupos
es la misma (use α = 0.05). Calcule el p-value.

Grupo A (Xi ) Grupo B (Yi )


3.6 3.0 5.3 4.6 2.9 2.9 5.5 4.3 5.8 4.1 3.4
5.7 2.9 6.9 4.8 8.1 6.7 4.3 5.9 5.0 4.7 5.2
316 6. Pruebas de hipótesis

37. De acuerdo a cierto modelo genético, las proporciones de los individuos


con 4 tipos de sangre deberán relacionarse de la siguiente manera:
Probabilidad Frecuencias Observaciones
Tipo O q2 XO 40
2
Tipo A p + 2pq XA 263
Tipo B r2 + 2qr XB 382
Tipo AB 2pr XAB 315
Donde p + q + r = 1. Dados los tipos de sangre de n individuos:
(a) ¿Cómo probarı́a si el modelo es adecuado? Realice el procedimien-
to de manera teórica.
(b) Realice la prueba con los valores observados (n = 1000), para
saber si el modelo es adecuado.
38. Un determinado modelo genético sugiere que las probabilidades para
una distribución trinomial (multinomial con 3 categorı́as) son: θ1 =
p2 , θ2 = 2p(1 − p), y θ3 = (1 − p)2 , con 0 < p < 1. Suponga que
X1 , X2 , X3 representan las frecuencias en una muestra de tamaño n
(fijo) de observaciones independientes. Obtenga la prueba de bondad
de ajuste Ji-cuadrada para esta distribución considerando que p es
desconocida.
39. Un grupo de 4 monedas se lanzó 160 veces, y se obtuvieron los siguien-
tes datos. ¿Las monedas están equilibradas?
Número de caras 0 1 2 3 4
Frecuencia 16 48 55 33 8
40. Sea Q la estadı́stica de prueba Ji-cuadrada.
(a) Demuestre que la siguiente igualdad se cumple:
" k # k 
X (oi − ei )2 X npi (1 − pi ) (npi − ei )2

E[Q] = E = + ,
i=1
ei i=1
ei ei

donde pi es la probabilidad de la i-ésima categorı́a, con i =


1, . . . , k, oi son los valores observados, y ei son los valores es-
perados.
(b) Demuestre que si H0 : pi = πi es verdadera, E[Q] = k − 1.
41. En el control de calidad de un producto se seleccionan 100 muestras,
cada una de tamaño 20, a partir de un proceso de producción. Los datos
se muestran a continuación, donde se mide el número de productos
6.8. Ejercicios 317

defectuosos. Pruebe la hipótesis nula de que el número de defectos


tiene una distribución Binomial.

Número de defectos 0 1 2 3 4 5 6 7 8 ó más


Frecuencia 11 27 38 13 7 2 1 1 0

42. Una máquina produce artı́culos de plástico en grupos de tres artı́culos


a la vez. El proceso es poco confiable y se observan algunos artı́culos
defectuosos. En un experimento se produjeron 512 grupos de artı́culos
y en estos el número de grupos con i defectos, para i = 0, 1, 2, 3, fueron:
213 (i = 0), 228 (i = 1), 57 (i = 2), y 14 (i = 3). Pruebe la hipótesis de
que cada artı́culo tiene una constante (pero desconocida) probabilidad
θ de estar defectuosa, independientemente de los otros artı́culos.

43. Se seleccionan 6 grupos de 100 semillas para sembrar. En cada uno de


los 6 grupos, el número de semillas que no germinaron fueron: 12, 20,
9, 17, 24 y 16. Pruebe la hipótesis de que la proporción de semillas no
germinadas fue la misma para todos los grupos.

44. Los siguientes datos muestran los resultados de un ensayo médico para
probar dos tratamientos, un tratamiento viejo y un tratamiento nuevo,
para una enfermedad. Se eligieron 1100 pacientes para recibir cada
tratamiento.

Tratamiento Sobrevivieron Murieron Total


Viejo 505 595 1100
Nuevo 195 905 1100
Total 700 1500 2200

Pruebe la hipótesis de que los tratamientos tienen la misma tasa de


supervivencia. ¿Qué tratamiento preferirı́a?

Considere que el ensayo se llevó a cabo en dos hospitales, para los


cuales los datos se muestran a continuación. Los médicos del hospital
A, un famoso hospital de investigación, diseñaron el ensayo médico.
Sus pacientes tienden a estar severamente más enfermos y ellos son a
quienes se les aplica con mayor frecuencia el nuevo tratamiento. ¿La
efectividad de los dos tratamientos es la misma, considerando los dife-
rentes resultados en ambos hospitales?
318 6. Pruebas de hipótesis

Hospital A
Tratamiento Sobrevivieron Murieron Total
Viejo 5 95 100
Nuevo 100 900 1000
Total 105 995 1100

Hospital B
Tratamiento Sobrevivieron Murieron Total
Viejo 500 500 1000
Nuevo 95 5 100
Total 595 505 1100
Apéndice A

Algunos conceptos y
resultados de probabilidad

En este apéndice se enumeran algunos de los resultados y conceptos más


importantes de la teorı́a de la probabilidad que se utilizan en la inferen-
cia estadı́stica. El objetivo es que el lector pueda consultarlos en el mismo
texto, pero no se profundiza en ellos, por lo que se recomienda consultar
libros especializados en el tema para un análisis o estudio más formal de la
probabilidad.

A.1. Espacios de probabilidad


Definición A.1 (espacio de probabilidad). Un espacio de probabilidad
es una terna
(Ω, F, P)
donde:

Ω es un conjunto arbitrario, aunque en la teorı́a de la probabilidad se


le conoce como espacio muestral, y es el conjunto de posibles resultados
de un experimento aleatorio.

F es una σ-álgebra de subconjuntos de Ω que satisface:

1. Ω ∈ F.
2. Si A ∈ F, entonces Ac ∈ F.
3. Si A1 , A2 , . . . , An ∈ F, entonces A1 ∪ A2 ∪ · · · ∪ An ∈ F.

319
320 A. Algunos conceptos y resultados de probabilidad

P : F → [0, 1] es una función conocida como medida de probabilidad


que cumple:
1. P(Ω) = 1.
2. P(A) ≥ 0 ∀A ∈ F.
3. Si S An ∈ F y Ai ∩ Aj = ∅ para i 6= j, entonces
A1 , A2 , . . . , P
n n
P ( i=1 Ai ) = i=1 P(Ai ).

Proposición A.1 (algunas propiedades de P). A continuación se men-


cionan algunas propiedades de la medida de probabilidad.
1. Sean A, B ∈ F, si A ⊆ B entonces P(A) ≤ P(B).
2. P(∅) = 0.
3. Sean A ∈ F, entonces P(Ac ) = 1 − P(A).
4. Sean A, B ∈ F, entonces P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
5. Desigualdad de Boole: Sean A1 , . . . , An ∈ F, entonces
n
! n
[ X
P Ai ≤ P(Ai ).
i=1 i=1

6. Fórmula de inclusión-exclusión: Sean A1 , . . . , An ∈ F, entonces


n
! n
[ X X
P Ai = P(Ai ) − P(Ai ∩ Aj )
i=1 i=1 i6=j
X
+ P(Ai1 ∩ Ai2 ∩ Ai3 ) + · · ·
i1 <i2 <i3
n
!
\
n+1
+ · · · + (−1) P Ai .
i=1

A.2. Probabilidad condicional e


independencia
Definición A.2 (probabilidad condicional). Sean A y B en F tal que
P(B) > 0. Entonces la probabilidad de A condicionada a B, o la probabilidad
de A dado B, es
P(A ∩ B)
P(A|B) = .
P(B)
A.3. Variables aleatorias 321

Algunas propiedades y teoremas que se obtienen a partir de la probabi-


lidad condicional son los siguientes.

Proposición A.2 P(·|B) es una medida de probabilidad.

Teorema A.1 (probabilidad


Sn total). Sean B1 , B2 , . . . , Bn ∈ F tales que
Bi ∩ Bj = ∅ ∀ i 6= j y i=1 Bi = Ω, entonces para A ∈ F:
n
X
P(A) = P(A|Bi )P(Bi ).
i=1

Teorema A.2 (teorema Sn de Bayes) . Sean B1 , B2 , . . . , Bn ∈ F tales que


Bi ∩ Bj = ∅ ∀ i 6= j y i=1 Bi = Ω, entonces para A ∈ F:
P(A ∩ Bj ) P(A|Bj )P(Bj )
P(Bj |A) = = Pn .
P(A) i=1 P(A|Bi )P(Bi )

Definición A.3 (independencia). Se dice que A ∈ F y B ∈ F son inde-


pendientes si y sólo si P(A ∩ B) = P(A)P(B).

Definición A.4 Se dice que A1 , A2 , . . . , An ∈ F son independientes si y


sólo si
P(Ai ∩ Aj ) = P(Ai )P(Aj ) para todo i 6= j.
P(Ai ∩ Aj ∩ Ak ) = P(Ai )P(Aj )P(Ak ) para todo i 6= j 6= k.
..
.
P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 ) · · · P(An ).

Teorema A.3 Si A y B son independientes entonces:


A y B c son independientes.
Ac y B son independientes.
Ac y B c son independientes.

A.3. Variables aleatorias


Definición A.5 (variable aleatoria). Sea (Ω, F, P) un espacio de proba-
bilidad. Una variable aleatoria es una función X : Ω → R que es F-medible,
es decir, que

∀x ∈ R, X −1 (−∞, x] = {ω ∈ Ω : X(ω) ≤ x} ∈ F.
322 A. Algunos conceptos y resultados de probabilidad

Definición A.6 (función de distribución). Sea (Ω, F, P) un espacio de


probabilidad y X : Ω → R una variable aleatoria. La función de distribución
de X es una función FX : R → [0, 1] definida como:

FX (x) = P ({ω ∈ Ω : X(ω) ≤ x}) := P(X ≤ x).

La función de distribución (acumulativa) satisface algunas propiedades:


es no decreciente y continua por la derecha, además lı́mx→−∞ FX (x) = 0 y
lı́mx→∞ FX (x) = 1.

Definición A.7 (función de densidad de probabilidad) . Se dice que


fX : R → [0, 1] es una función de densidad de probabilidad (asociada a X)
si satisface que:
Para el caso de variables aleatorias discretas, fX : N → [0, 1], donde
N es un conjunto a lo más numerable, definida como

fX (x) = P(X = x)

y que cumple:
1. fX (x) ≥ 0 ∀x ∈ R.
P
2. x fX (x) = 1.

Para el caso de variables aleatorias continuas, fX : R → R+ satisface:


1. fX (x) ≥ 0 ∀x ∈ R.
R∞
2. −∞ fX (x)dx = 1.

A.4. Distribuciones conjuntas y condicionales


Definición A.8 (función de distribución acumulativa conjunta). Sean
X1 , . . . , Xk , k variables aleatorias, todas definidas sobre el mismo espacio de
probabilidad (Ω, F, P). La función de distribución acumulativa conjunta de
X1 , . . . , Xk , denotada por FX1 ,...,Xk (·, . . . , ·), está definida como

FX1 ,...,Xk (x1 , . . . , xk ) = P (X1 ≤ x1 , . . . , Xk ≤ xk ) ,

para todo (x1 , . . . , xk ) .

Por lo tanto, la función de distribución acumulativa conjunta es una fun-


ción con dominio en Rk (espacio k-Euclidiano) y contradominio el intervalo
cerrado [0, 1].
A.4. Distribuciones conjuntas y condicionales 323

Anteriormente se comentó que la función de distribución acumulativa de


una variable aleatoria unidimensional tiene ciertas propiedades; lo mismo
sucede para la distribución acumulativa conjunta, se verán a continuación
dichas propiedades para la función de dos variables.

Proposición A.3 (propiedades de la función de distribución biva-


riada). Si FX,Y (·, ·) es la función de distribución acumulativa conjunta de
X y Y , se cumple lo siguiente:
1.

FX,Y (−∞, y) = lı́m FX,Y (x, y) = 0 ∀y,


x→−∞
FX,Y (x, −∞) = lı́m FX,Y (x, y) = 0 ∀x,
y→−∞
FX,Y (∞, ∞) = lı́m F
x→∞ X,Y
(x, y) = 1.
y→∞

2. Si x1 < x2 y y1 < y2 , entonces

P (x1 < X ≤ x2 , y1 < Y ≤ y2 )


= FX,Y (x2 , y2 ) − FX,Y (x2 , y1 ) − FX,Y (x1 , y2 ) + FX,Y (x1 , y1 ) .

3. FX,Y (x, y) es continua en cada argumento, esto es

lı́m FX,Y (x + h, y) = lı́m+ F (x, y + h) = FX,Y (x, y) .


h→0+ h→0

Cualquier función que satisface las propiedades (1) a (3) se conoce como
una función de distribución acumulativa bivariada.

Definición A.9 (función de distribución acumulativa marginal).


Si FX,Y (·, ·) es la función de distribución acumulativa conjunta de X y Y ,
entonces las funciones de distribución acumulativa FX (·) y FY (·) se conocen
también como funciones de distribución acumulativas marginales de X y Y,
respectivamente.

Observación A.1 FX (x) = FX,Y (x, ∞) y FY (y) = FX,Y (∞, y) ; esto es,
el conocimiento de la función de distribución acumulativa conjunta de X y
Y implica el conocimiento de las dos funciones de distribución acumulativa
marginal.
p
Observación A.2 FX (x) + FY (y) − 1 ≤ FX,Y (x, y) ≤ FX (x) FY (y)
para todas x y y.
324 A. Algunos conceptos y resultados de probabilidad

A.4.1. Variables aleatorias discretas


Si X1 , . . . , Xk son variables aleatorias definidas sobre el mismo espacio de
probabilidad, entonces (X1 , . . . , Xk ) se conoce como una variable aleatoria
k-dimensional, o vector aleatorio de dimensión k.

Definición A.10 (variables aleatorias discretas conjuntas). La varia-


ble aleatoria k-dimensional (X1 , . . . , Xk ) se define como una variable alea-
toria discreta k-dimensional si puede tomar valores sólo sobre un número
contable de puntos (x1 , . . . , xk ) en el espacio real k-dimensional. También se
suele decir que las variables aleatorias X1 , . . . , Xk son variables aleatorias
discretas conjuntas.

Definición A.11 (función de densidad discreta conjunta).


Si (X1 , . . . , Xk ) es una variable aleatoria discreta k-dimensional, enton-
ces la función de densidad discreta conjunta de (X1 , . . . , Xk ), denotada por
fX1 ,...,Xk (·, . . . , ·) se define como

fX1 ,...,Xk (x1 , . . . , xk ) = P (X1 = x1 , . . . , Xk = xk ) ,

para (x1 , . . . , xk ), un valor de (X1 , . . . , Xk ) , y es igual a cero en otro caso.


P
Observación A.3 fX1 ,...,Xk (x1 , . . . , xk ) = 1, donde la suma es sobre
todos los valores posibles de (X1 , . . . , Xk ).

Teorema A.4 Si X y Y son variables aleatorias discretas conjuntas, enton-


ces el conocimiento de FX,Y (·, ·) es equivalente al conocimiento de fX,Y (·, ·) .
Este teorema se generaliza a variables aleatorias discretas k-dimensionales.

Demostración. Sea (x1 , y1 ) , . . . , (xk , yk ) el conjunto de puntos de posi-


P
bles valores de (X, Y ). Si fX,Y (·, ·) está dada, entonces FX,Y (x, y) =
fX,Y (xi , yi ) , donde la suma es sobre todas las i’s para las cuales xi ≤ x y
yi ≤ y. Recı́procamente, si FX,Y (·, ·) está dada, entonces para (xi , yi ) , un
valor posible de (X, Y ),

fX,Y (xi , yi ) = FX,Y (xi , yi ) − lı́m FX,Y (xi − h, yi )


0<h→0
− lı́m FX,Y (xi , yi − h) + lı́m FX,Y (xi − h, yi − h) .
0<h→0 0<h→0

Definición A.12 (densidad discreta marginal). Si X y Y son variables


aleatorias discretas, entonces a las funciones de densidad de X y Y, fX (·) y
A.4. Distribuciones conjuntas y condicionales 325

fY (·) , se les conoce también como funciones de densidad marginales. Más


generalmente, sea X1 , . . . , Xkn cualquier subconjunto de las variables aleato-
rias discretas X1 , . . . , Xk ; entonces fX1 ,...,Xkn (x1 , . . . , xkn ) es también lla-
mada una densidad marginal.

Observación A.4 Si X1 , . . . , Xk son variables aleatorias discretas conjun-


tamente distribuidas, entonces cualquier densidad discreta marginal puede
encontrarse de la densidad conjunta, lo recı́proco no es cierto. Por ejemplo,
si X y Y son variables aleatorias conjuntamente distribuidas con valores
(x1 , y1 ) , (x2 , y2 ) , . . ., entonces
X
fX (xk ) = fX,Y (xk , yi ) ,
yi
X
fY (yk ) = fX,Y (xi , yk ) .
xi

A.4.2. Variables aleatorias continuas


Definición A.13 (variables aleatorias continuas conjuntas y función
de densidad). La variable aleatoria k-dimensional (X1 , . . . , Xk ) se define
como una variable aleatoria continua k-dimensional si y sólo si existe una
función
fX1 ,...,Xk (·, . . . , ·) ≥ 0
tal que
Z xk Z x1
FX1 ,...,Xk (x1 , . . . , xk ) = ··· fX1 ,...,Xk (u1 , . . . , uk ) du1 · · · duk ,
−∞ −∞

para toda (x1 , . . . , xk ). La función fX1 ,...,Xk (·, . . . , ·) se define como la fun-
ción de densidad de probabilidad conjunta.

Al igual que en el caso univariado, la función de densidad de probabilidad


conjunta tiene dos propiedades:
1. fX1 ,...,Xk (x1 , . . . , xk ) ≥ 0.
R∞ R∞
2. −∞ · · · −∞ fX1 ,...,Xk (x1 , . . . , xk ) dx1 · · · dxk = 1.
En el caso de las funciones de densidad de probabilidad univariadas, estas
funciones son utilizadas para encontrar la probabilidad P [a < X ≤ b] como
Rb R
f (x) dx o, de forma general, P [X ∈ B] = B fX (x) dx.
a X
En el caso bivariado, el volumen da las probabilidades. Por ejemplo, sea
fX1 ,X2 (x1 , x2 ) una función de densidad de probabilidad conjunta para las
326 A. Algunos conceptos y resultados de probabilidad

variables aleatorias continuas conjuntas (X1 , X2 ) y sea R alguna región en


el plano cartesiano, entonces
Z Z
P [(X1 , X2 ) ∈ R] = fX1 ,X2 (x1 , x2 ) dx1 dx2 .
R

Si en particular,
R = {(x1 , x2 ) : a1 < x1 ≤ b1 , a2 < x2 ≤ b2 } ,
entonces
Z b2 Z b1
P (a1 < x1 ≤ b1 , a2 < x2 ≤ b2 ) = fX1 ,X2 (x1 , x2 ) dx1 dx2 .
a2 a1

Teorema A.5 Si X y Y son variables aleatorias continuas conjuntamente


distribuidas, entonces el conocimiento de FX,Y (·, ·) es equivalente al cono-
cimiento de fX,Y (·, ·) y viceversa. Lo anterior se generaliza para variables
aleatorias continuas k-dimensionales.
Para una fX,Y (·, ·) dada, FX,Y (·, ·) puede obtenerse para cualquier (x, y)
como: Z y Z x
FX,Y (x, y) = fX,Y (u, v) dudv.
−∞ −∞
Ası́mismo, para una FX,Y (·, ·) dada, entonces fX,Y (·, ·) puede obtenerse
como:
∂ 2 FX,Y (x, y)
fX,Y (x, y) = ,
∂x∂y
para los valores x, y, donde FX,Y (·, ·) es diferenciable.
Definición A.14 (función de densidad de probabilidad marginal) .
Si X y Y son variables aleatorias continuas conjuntamente distribuidas, en-
tonces fX (·) y fY (·) se llaman funciones de densidad de probabilidad margi-
nal. Generalizando, sea Xi1 , . . . , Xim cualquier subconjunto de las variables
aleatorias continuas conjuntamente distribuidas X1 , . . . , Xk , entonces
fXi1 ,...,Xim (xi1 , . . . , xim ) ,
se llama la densidad marginal de la variable aleatoria m-dimensional
(Xi1 , . . . , Xim ).
Si X y Y son variables aleatorias continuas, entonces
Z ∞
fX (x) = fX,Y (x, y) dy,
−∞
Z ∞
fY (y) = fX,Y (x, y) dx.
−∞
A.4. Distribuciones conjuntas y condicionales 327

A.4.3. Distribución condicional e independencia


estocástica
Definición A.15 (función de densidad discreta condicional). Sean X
y Y variables aleatorias discretas con función de densidad discreta conjunta
fX,Y (·, ·) . La función de densidad discreta condicional de Y dada X = x
denotada por fY |X (·|x) se define como

fX,Y (x, y)
fY |X (y|x) = ,
fX (x)

si fX (x) > 0, donde fX (x) es la densidad marginal de X. Similarmente,

fX,Y (x, y)
fX|Y (x|y) = ,
fY (y)

si fY (y) > 0.

De la definición anterior se tiene que fX|Y (·|y) o fY |X (·|x) deben cumplir


con las propiedades de una función de densidad de probabilidad.

Definición A.16 (función de densidad continua condicional). Si X


y Y son variables aleatorias continuas conjuntamente distribuidas, entonces
la distribución acumulativa condicional de Y dado X = x está definida como
Z y
FY |X (y|x) = fY |X (v|x) dv,
−∞

para toda x tal que fX (x) > 0.

Ya se revisó el concepto de probabilidad condicional entre variables alea-


torias, por lo que corresponde revisar ahora el concepto de independencia
entre variables aleatorias.

Definición A.17 (independencia estocástica) . Sea (X1 , . . . , Xk ) una


variable aleatoria k-dimensional. X1 , . . . , Xk son definidas como estocásti-
camente independientes si y sólo si
k
Y
FX1 ,...,Xk (x1 , . . . , xk ) = FXi (xi ) ,
i=1

para toda x1 , . . . , xk .
328 A. Algunos conceptos y resultados de probabilidad

Definición A.18 (independencia estocástica) . Sea (X1 , . . . , Xk ) una


variable aleatoria discreta k-dimensional con función de densidad discreta
conjunta fX1 ,...,Xk (·, . . . , ·) , X1 , . . . , Xk son estocásticamente independientes
si y sólo si
k
Y
fX1 ,...,Xk (x1 , . . . , xk ) = fXi (xi ) ,
i=1

para todos los valores (x1 , . . . , xk ) de (X1 , . . . , Xk ) .

Observación A.5 A menudo se suele omitir el término “estocástica”.

En el pasado se vio que la independencia de eventos estuvo cercanamente


relacionado al concepto de probabilidad condicional, de igual forma la inde-
pendencia de variables aleatorias está cercanamente relacionada con la idea
de distribuciones condicionales de variables aleatorias.
Si X y Y son dos variables aleatorias independientes, entonces fX,Y (x, y) =
fX (x) fY (y) por definición de independencia; sin embargo

fX,Y (x, y) = fY |X (y|x) fX (x)

por definición de densidad condicional, lo cual implica que fY |X (y|x) =


fY (y) ; esto es, la densidad condicional de Y dado X es la densidad no
condicional de Y , por lo que para demostrar que dos variables aleatorias no
son independientes, es suficiente demostrar que fY |X (y|x) depende de x.

Teorema A.6 Si X1 , . . . , Xk son variables aleatorias independientes y


g1 (·) , . . . , gk (·) , son k funciones tales que Yj = gj (Xj ), para j = 1, . . . , k,
entonces Y1 , . . . , Yk son independientes.

A.5. Momentos de variables aleatorias


A.5.1. Esperanza y varianza
Definición A.19 (esperanza). La , también conocida como valor esperado
o media, se denota como E(X) = µX y se define como:
P
 xP(X = x) si X es discreta;
E(X) = Rx∞

−∞
xfX (x)dx si X es continua.
A.5. Momentos de variables aleatorias 329

La esperanza de una función de una variable aleatoria


Si X es una variable aleatoria y g(x) es una función real, entonces, la espe-
ranza es:
P
 g(x)P(X = x) si X es discreta;
E[g(X)] = Rx∞

−∞
g(x)fX (x)dx si X es continua.

Definición A.20 (varianza). Si X es una variable aleatoria entonces su


varianza está dada por:
Var(X) = E (X − E(X))2 = E (X − µX )2 .
   

Con lo que se puede dar una expresión para la varianza, pues resulta
ser la esperanza de una función de una variable aleatoria, en donde g (x) =
(x − E(X))2 . Ası́,
P
 (x − µX )2 P(X = x) si X es discreta;
Var(X) = Rx∞

−∞
(x − µX )2 fX (x)dx si X es continua.

Proposición A.4 (algunas propiedades de E(X)). Si X y Y son varia-


bles aleatorias, entonces,
1. Si P(X ≥ 0) = 1, entonces E(X) ≥ 0.
2. Si P(X ≥ Y ) = 1, entonces E(X) ≥ E(Y ).
3. Si a y b son constantes reales, entonces E(aX + b) = aE(X) + b.
Proposición A.5 (algunas propiedades de Var(X)) . Si X es variable
aleatoria, entonces
1. Var(X) ≥ 0.
2. Var(X) = 0 ⇔ P (X = c) = 1 donde c es una constante real.
3. Var(aX + b) = a2 Var(X).

A.5.2. Momentos

El k-ésimo momento de una variable aleatoria X se define como E X k y se
puede calcular de la siguiente manera:
P
 xk P(X = x) si X es discreta;
E X k = Rx∞


−∞
xk fX (x)dx si X es continua.
330 A. Algunos conceptos y resultados de probabilidad

Se puede dar una relación de la varianza de una variable aleatoria X con


su segundo momento de la siguiente manera:
Var(X) = E (X − µX )2
 

= E X 2 − 2µX X + µ2X
 

= E X 2 − 2µX E(X) + µ2X




= E X 2 − E2 (X).


A.5.3. Función generadora de momentos


La función generadora de momentos de una variable aleatoria X, denotada
por mX (t), se define como mX (t) = E etX . Ası́,
P
 etx P(X = x) si X es discreta;
mX (t) = E etX = Rx∞


−∞
etx fX (x)dx si X es continua.

Esta función recibe el nombre de “generadora de momentos” debido a la


siguiente observación:
(tX)2 (tX)3
 
tX

E e = E 1 + tX + + + ···
2! 3!
t2  t3
= 1 + tE(X) + E X 2 + E X 3 + · · · ,

2! 3!
entonces,
∂ t2
E(etX ) = E(X) + tE(X 2 ) + E(X 3 ) + · · · ,
∂t 2!
evaluando en t = 0 se tiene que m0X (0) = E(X).
También nótese que,
∂2
E(etX ) = E(X 2 ) + tE(X 3 ) + · · · ,
∂t2
de nuevo, evaluando en t = 0 se tiene que m00X (0) = E X 2 .


(k) 
En general mX (0) = E X k , de ahı́ el nombre.

Ejemplo A.1 [Función generadora de momentos de la distribución Pois-


son]. Sea X una variable aleatoria con distribución P oisson(λ), es decir:
e−λ λx
fX (x) = I(x){0,1,2,...} con λ > 0.
x!
A.5. Momentos de variables aleatorias 331

Calcular E (X) y E X 2 .

X e−λ λx
mX (t) = E etX etx
 
=
x=0
x!
∞ x
−λ
X (et λ)
= e
x=0
x!
t
= e−λ ee λ
t
−1)
= eλ(e .
t
−1)
∴ mX (t) = eλ(e .
Diferenciando se llega a que
t
m0x (t) = eλ(e −1)
λet ,
t t
m00x (t) = eλ(e −1)
λet + eλ(e −1) 2 2t
λ e .

Evaluando en t = 0,
0
m0X (0) = eλ(e −1)
λe0 = λ = E(X),
0 0
m00X (0) = eλ(e −1)
λe0 + eλ(e −1) 2 2(0)
λ e = λ + λ2 = E(X 2 ).

Usando los resultados anteriores se puede obtener Var(X):

Var(X) = E (X − E(X))2 = E X 2 − E2 (X) = λ + λ2 − λ2 = λ.


  

∴ E(X) = λ = Var(X).

A.5.4. Esperanza de g (X1 , . . . , Xn )


Aquı́, igual que antes se procederá a revisar la definición de esperanza ma-
temática de variables aleatorias k-dimensionales y posteriormente se verá
lo relacionado con respecto a la media y a la varianza para finalizar con el
concepto de esperanza matemática de una función de una variable aleatoria
k-dimensional.

Definición A.21 (esperanza matemática) . Sea (X1 , . . . , Xk ) una


variable aleatoria k-dimensional con densidad f(X1 ,...,Xk ) (·, . . . , ·) . El valor
esperado de una función g (·, . . . , ·) de la variable aleatoria k-dimensional,
denotada por E [g (X1 , . . . , Xk )] , está definida como
X
E [g (X1 , . . . , Xk )] = g (x1 , . . . , xk ) fX1 ,...,Xk (x1 , . . . , xk )
332 A. Algunos conceptos y resultados de probabilidad

si la variable aleatoria (X1 , . . . , Xk ) es discreta, donde la suma es sobre todos


los posibles valores de (X1 , . . . , Xk ), y
Z ∞ Z ∞
E [g (X1 , . . . , Xk )] = ··· g (x1 , . . . , xk ) fX1 ,...,Xk (x1 , . . . , xk ) dx1 · · · dxk
−∞ −∞

si la variable aleatoria (X1 , . . . , Xk ) es continua.

Por supuesto, lo anterior es cierto si la suma converge o la integral existe.

Observación A.6 En particular, si g (x1 , . . . , xk ) = xi entonces,

E [g (X1 , . . . , Xk )] = E [Xi ] .
2
Observación A.7 Si g (x1 , . . . , xn ) = (xi − E (xi )) entonces

E [g (X1 , . . . , Xn )] = Var (Xi ) .

A continuación se define la covarianza entre dos variables aleatorias.

Definición A.22 Sean X y Y variables aleatorias. La covarianza entre X


y Y se define como

Cov (X, Y ) = E {[X − E (X)] [Y − E (Y )]} .

Teorema A.7 Sean X y Y variables aleatorias, entonces

Cov (X, Y ) = E (XY ) − E (X) E (Y ) .

Sea E (X) = µX y E (Y ) = µY ,

Cov (X, Y ) = E [(X − µX ) (Y − µY )] = E [XY − XµY − Y µX + µX µY ]


= E [XY ] − µY E [X] − µX E [Y ] + µX µY
= E [XY ] − µY µX − µX µY + µX µY
= E [XY ] − µY µX .

A.5.5. Coeficiente de correlación ρxy


Si X y Y son variables aleatorias, entonces se define el coeficiente de corre-
lación, denotado por ρx,y , de la siguiente manera:

Cov(X, Y )
ρxy = p .
Var(X)Var(Y )

Se puede probar que −1 ≤ ρxy ≤ 1.


A.5. Momentos de variables aleatorias 333

A.5.6. Esperanza condicional


Definición A.23 (esperanza condicional). Sea (X, Y ) una variable alea-
toria bidimensional y g (·, ·) una función de dos variables. La esperanza con-
dicional de g (X, Y ) dado que X = x, denotada por E [g (X, Y ) |X = x] , está
definida como
Z ∞
E [g (X, Y ) |X = x] = g (x, y) fY |X (y|x) dy,
−∞
si X y Y son continuas, y
X
E [g (X, Y ) |X = x] = g (x, y) fY |X (y|x) ,
y

si X y Y son discretas y la suma se realiza sobre todos los posibles valores


de Y .
Observación A.8 Para el caso continuo,
Z ∞
E [g (Y ) |X = x] = g (y) fY |X (y|x) dy,
−∞

y para el caso discreto,


X
E [g (Y ) |X = x] = g (y) fY |X (y|x) .
y

Teorema A.8 Sea (X, Y ) una variable aleatoria bidimensional entonces


E [g (Y )] = E [E [g (Y ) |X]] ,
y en particular,
E [Y ] = E [E [Y |X]] .
Definición A.24 (curva de regresión). E [Y |X = x] se llama la curva de
regresión de Y sobre x, también denotada por
µY |X=x = µY |x .
Definición A.25 (varianza condicional). La varianza condicional de Y
dado X = x está definida por
2
Var [Y |X = x] = E Y 2 |X = x − (E [Y |X = x]) .
 

Teorema A.9 Var [Y ] = E [Var (Y |X)] + Var [E (Y |X)].


Teorema A.10 Sea (X, Y )una variable aleatoria bidimensional, y sean g1 (·)
y g2 (·) funciones de una variable. Entonces,
1. E [(g1 (Y ) + g2 (Y )) |X = x] = E [g1 (Y ) |X = x] + E [g2 (Y ) |X = x].
2. E [(g1 (Y ) g2 (X)) |X = x] = g2 (x) E [g1 (Y ) |X = x].
334 A. Algunos conceptos y resultados de probabilidad

A.5.7. Función generadora de momentos conjunta y mo-


mentos
Definición A.26 (momentos conjuntos) . Los momentos conjuntos de
X1 , . . . , Xk están definidos por E [X1r1 X2r2 X3r3 · · · Xkrk ] donde las ri0 s son cero
o cualquier entero positivo; los momentos conjuntos alrededor de las medias
están definidos como:
r r r
E [(X1 − µX1 ) 1 (X2 − µX2 ) 2 · · · (Xk − µXk ) k ] .

Observación A.9 Si ri = rj = 1 y todas las demás rl = 0, entonces es-


te momento particular conjunto
 de Xi y Xj alrededor de sus medias es
E (Xi − µXi ) Xj − µXj , representa la covarianza entre Xi y Xj .

Definición A.27 (función generadora de momentos conjunta) . La


función generadora de momentos conjunta de (X1 , X2 , . . . , Xk ) está definida
por   
Xk 
mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ) = E exp tj Xj  ,
 
j=1

si la esperanza existe para todos los valores de t1 , t2 , . . . , tk tales que −h <


tj < h, para alguna h > 0, j = 1, 2, . . . , k. El r-ésimo momento de Xj podrı́a
obtenerse de la función mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ) diferenciándola r veces
con respecto a tj y entonces
 r tomando
 el lı́mite cuando todas las t0 s se aproxi-
s
man a cero. También E Xi Xj se obtiene al diferenciar r veces con respecto
a Xi y s veces con respecto a Xj la función mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ).

Observación A.10 Las funciones generadoras de momentos marginales pue-


den ser obtenidas a partir de la función generadora de momentos conjunta:

mX (t1 ) = mX,Y (t1 , 0) = lı́m mX,Y (t1 , t2 ) ,


t2→0
mY (t2 ) = mX,Y (0, t2 ) = lı́m mX,Y (t1 , t2 ) .
t1→0

A.5.8. Independencia y esperanza


Teorema A.11 Si X y Y son independientes, y g1 (·) y g2 (·) son dos fun-
ciones, cada una de un solo argumento, entonces

E [g1 (X) g2 (Y )] = E [g1 (X)] E [g2 (Y )] .

Corolario A.1 Si X y Y son independientes, entonces Cov (X, Y ) = 0. La


afirmación inversa en general no se cumple.
A.5. Momentos de variables aleatorias 335

Definición A.28 (variables aleatorias no correlacionadas) . Dos va-


riables aleatorias X y Y se definen como no correlacionadas si y solo si
Cov (X, Y ) = 0.

Teorema A.12 Si X y Y son independientes, entonces


1. Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) = Var(X) + Var(Y ).
2. Var(X − Y ) = Var(X) + Var(Y ) − 2Cov(X, Y ) = Var(X) + Var(Y ).

Note que Cov(X, X) = Var(X).

Teorema A.13 Dos variables aleatorias conjuntamente distribuidas X y Y


son independientes si y sólo si mX,Y (t1 , t2 ) = mX (t1 ) mY (t2 ) para toda
t1 , t2 para las cuales −h < ti < h, i = 1, 2, para alguna h > 0.

Suma de variables aleatorias independientes


Considere a X1 , . . . , Xn como variables aleatorias independientes con función
de densidad de probabilidad respectiva fXi (xi ), i = 1, 2, . . . , n. Se desea
n
P
determinar cómo se distribuye Y = X1 + · · · + Xn = Xj . Se utilizará la
j=1
función generadora de momentos para esto,

mY (t) = E etY
 
  
n
X
= E exp t Xj 
j=1

E etX1 +···+tXn
 
=
= E etX1 · · · etXn
 

= E etX1 · · · E etXn
   

= mX1 (t) · · · mXn (t)


Yn
= mXj (t).
j=1

n
Y
∴ mY (t) = mXj (t).
j=1

Y si además X1 , . . . , Xn son identicamente distribuidas, entonces,


n
mPnj=1 Xj (t) = (mX1 (t)) .
336 A. Algunos conceptos y resultados de probabilidad

A.6. Resumen de familias paramétricas


A.6.1. Uniforme Discreta
Definición A.29 Se dice que la variable aleatoria discreta X tiene dis-
tribución Uniforme Discreta en el conjunto {1, 2, . . . , N }, se denota X ∼
U nif (N ), si su función de densidad de probabilidad está dada por:

1
fX (x) = P(X = x) = I{1,2,...,N } (x).
N

Proposición A.6 Si X ∼ U nif (N ), entonces:


N +1
(a) E(X) = 2 .

(N +1)(2N +1)
(b) E(X 2 ) = 6 .

N 2 −1
(c) Var(X) = 12 .

A.6.2. Bernoulli
Definición A.30 Se dice que la variable aleatoria discreta X tiene distri-
bución Bernoulli con parámetro p ∈ (0, 1), se denota X ∼ Bernoulli(p), si
su función de densidad de probabilidad está dada por:

1 − p
 si x = 0,
fX (x) = P(X = x) = p si x = 1,

0 en otro caso.

De manera equivalente,

fX (x) = px (1 − p)1−x I{0,1} (x).

Proposición A.7 Si X ∼ Bernoulli(p), entonces:

(a) ∀n ∈ N+ , E(X n ) = p. En particular E(X) = E(X 2 ) = p.

(b) Var(X) = p(1 − p).

(c) mX (t) = et p + (1 − p).


A.6. Resumen de familias paramétricas 337

A.6.3. Binomial
Suponga que se tienen n ensayos Bernoulli (toman valores 0 o 1, asociados
con fracaso o éxito) independientes cada uno con la misma probabilidad de
éxito p ∈ (0, 1). Sea X el número de éxitos en n ensayos Bernoulli indepen-
dientes, entonces  
n x
P(X = x) = p (1 − p)n−x .
x

Definición A.31 Se dice que la variable aleatoria discreta X tiene distribu-


ción Binomial con parámetros n ∈ N+ y p ∈ (0, 1), se denota X ∼ Bin(n, p),
si su función de densidad de probabilidad está dada por:
 
n x
fX (x) = P(X = x) = p (1 − p)n−x I{0,1,2,...,n} (x).
x

Proposición A.8 Si X ∼ Bin(n, p), entonces:


n
(a) mX (t) = (et p + (1 − p)) .

(b) E(X) = np.

(c) E(X 2 ) = n2 p2 − np2 + np.

(d) Var(X) = np(1 − p).

Proposición A.9 fX (x) = nx px (1 − p)n−x es creciente si x < (n + 1)p, y




es decreciente si x > (n + 1)p.

A.6.4. Poisson
Definición A.32 Se dice que la variable aleatoria discreta X tiene distribu-
ción Poisson con parámetro λ > 0, se denota X ∼ P oisson(λ), si su función
de densidad de probabilidad está dada por:

e−λ λx
fX (x) = P(X = x) = I{0,1,2,...} (x).
x!
Proposición A.10 Si X ∼ P oisson(λ), entonces:
t
(a) mX (t) = e−λ(1−e ) .

(b) E(X) = λ.

(c) E(X 2 ) = λ(λ + 1).


338 A. Algunos conceptos y resultados de probabilidad

(d) Var(X) = λ.

Proposición A.11 (relación entre la binomial y la Poisson) . Con-


sidérese una variable aleatoria X tal que X ∼ Bin(n, p). Sea λ = np. Si
n → ∞ y p → 0, entonces X ∼ P oisson(λ).

A.6.5. Geométrica
Suponga que se tiene una sucesión de ensayos Bernoulli independientes, en
donde la probabilidad de éxito de todos ellos es igual a p ∈ (0, 1). Sea X el
número de fracasos antes del primer éxito. Entonces

P(X = x) = (1 − p)x p.

Definición A.33 Se dice que la variable aleatoria discreta X tiene distri-


bución Geométrica con parámetro p ∈ (0, 1), se denota X ∼ Geo(p), si su
función de densidad de probabilidad está dada por:

fX (x) = P(X = x) = (1 − p)x pI{0,1,2,...} (x).

Proposición A.12 Si X ∼ Geo(p), entonces:


p
(a) mX (t) = 1−(1−p)et .

1−p
(b) E(X) = p .

1−p 2(1−p)2
(c) E(X 2 ) = p + p2 .
1−p
(d) Var(X) = p2 .

A.6.6. Binomial negativa


Suponga que se tiene una sucesión de ensayos Bernoulli independientes, en
donde la probabilidad de éxito de todos ellos es igual a p ∈ (0, 1). Sea X el
número de fracasos antes del r-ésimo éxito. Entonces
 
r+x−1 r
P(X = x) = p (1 − p)x , x = 0, 1, 2, . . .
x
Definición A.34 Se dice que la variable aleatoria discreta X tiene distri-
bución Binomial Negativa con parámetros r ∈ N y p ∈ (0, 1), se denota
X ∼ BinN eg(r, p), si su función de densidad de probabilidad está dada por:
 
r+x−1 r
fX (x) = P(X = x) = p (1 − p)x I{0,1,2,...} (x).
x
A.6. Resumen de familias paramétricas 339

Proposición A.13 Si X ∼ BinN eg(r, p), entonces:


 r
p
(a) mX (t) = 1−(1−p)e t .

r(1−p)
(b) E(X) = p .
r(1−p)
(c) Var(X) = p2 .

A.6.7. Hipergeométrica
Definición A.35 Se dice que la variable aleatoria discreta X tiene dis-
tribución Hipergeométrica con parámetros n, N, r ∈ N, se denota X ∼
HiperGeo(n, N, r), si su función de densidad de probabilidad está dada por:
r N −r
 
x n−x
fX (x) = P(X = x) = N
 I{0,1,...,mı́n{n,r}} (x).
n

Proposición A.14 Si X ∼ HiperGeo(n, N, r), entonces:


rn
(a) E(X) = N .
h i
rn (n−1)(r−1)
(b) E(X 2 ) = N N −1 +1 .
h i
rn (n−1)(r−1) rn
(c) Var(X) = N N −1 +1− N .

A.6.8. Logarı́tmica
Definición A.36 Se dice que la variable aleatoria discreta X tiene distri-
bución Logarı́tmica con parámetro p ∈ (0, 1), se denota X ∼ Lg(p), si su
función de densidad de probabilidad está dada por:

1 px
fX (x) = P(X = x) = − I{1,2,...} (x).
log(1 − p) x

Proposición A.15 Si X ∼ Lg(p), entonces:


log(1−pet )
(a) mX (t) = log(1−p) .

ap 1
(b) E(X) = log(1−p) , donde a := − log(1−p) .
 
ap(1−ap) 1
(c) Var(X) = (1−p)2 =µ 1−p − µ , donde µ = E(X).
340 A. Algunos conceptos y resultados de probabilidad

A.6.9. Uniforme continua


Definición A.37 Se dice que la variable aleatoria continua X tiene distri-
bución Uniforme continua en el intervalo (a, b), se denota X ∼ U nif (a, b),
si su función de densidad de probabilidad está dada por:
1
fX (x) = I(a,b) (x).
b−a
Proposición A.16 Si X ∼ U nif (a, b), entonces:
1 bt
(a) mX (t) = t(b−a) (e − eat ).
a+b
(b) E(X) = 2 .

a2 +ab+b2
(c) E2 (X) = 3 .
(b−a)2
(d) Var(X) = 12 .

A.6.10. Exponencial
Definición A.38 Se dice que la variable aleatoria continua X tiene distri-
bución Exponencial con parámetro λ ∈ R+ , se denota X ∼ exp(λ), si su
función de densidad de probabilidad está dada por:

fX (x) = λe−λx I(0,∞) (x).

Proposición A.17 Si X ∼ Exp(λ), entonces:


λ
(a) mX (t) = λ−t , t < λ.

(b) E(X) = λ1 .
λ+1
(c) E(X 2 ) = λ2 .
1
(d) Var(X) = λ2 .

A.6.11. Gama
Se define la función Gama, Γ(·), de la siguiente manera:
Z ∞
Γ(t) = xt−1 e−x dx.
0

La función Gama satisface algunas propiedades:


A.6. Resumen de familias paramétricas 341

(i) Γ(n + 1) = nΓ(n) con n ∈ R+ . En particular si n ∈ Z+ , entonces


Γ(n + 1) = n!.

π 1
(ii) Γ(p)Γ(1 − p) = sen(pπ) con p ∈ (0, 1). En particular con p = 2,

Γ( 2 )Γ( 2 ) = sen( π ) = π, es decir (Γ( 12 ))2 = π ⇒ Γ( 21 ) = π.
1 1 π
2


π(n−1)
(iii) Para n impar, Γ( n2 ) = 2n−1 ( n−1
.
2 )!

R∞ Γ(α)
(iv) 0
xα−1 e−λx dx = λx .

n→∞ √
(v) Forma asintótica de Stirling: Γ(n+1) −→ 2πnnn e−n . En particular
n→∞ √
n! −→ 2πnnn e−n .
R∞
(vi) Γ(2) = Γ(1) = 0
e−x dx = 1.

Definición A.39 Se dice que la variable aleatoria continua X tiene distri-


bución Gama con parámetros r > 0 y λ > 0, se denota X ∼ Gama(r, λ), si
su función de densidad está dada por:

λr r−1 −λx
fX (x) = x e I(0,∞) (x).
Γ(r)

Proposición A.18 Si X ∼ Gama(r, λ), entonces:


 r
λ
(a) mX (t) = λ−t si t < λ.

(b) E(X) = λr .

r(r+1)
(c) E(X 2 ) = λ2 .

r
(d) Var(X) = λ2 .

Definición A.40 Se dice que la variable aleatoria continua X tiene distri-


bución Gama Generalizada con parámetros a > 0, p > 0 y σ > 0, se denota
X ∼ GamaG(a, p, σ), si su función de densidad está dada por:

a a
fX (x) = xap−1 e−(x/σ) I(0,∞) (x).
σ ap Γ(p)
342 A. Algunos conceptos y resultados de probabilidad

A.6.12. Ji-cuadrada
Definición A.41 Se dice que la variable aleatoria continua X tiene dis-
tribución Ji-cuadrada con k grados de libertad si X ∼ Gama(k/2, 1/2), se
denota X ∼ χ2(k) , es decir, si su función de densidad está dada por:

( 12 )k/2 k −1 −x/2
fX (x) = x2 e I(0,∞) (x).
Γ(k/2)
Proposición A.19 Si X ∼ χ2(k) , entonces:
 k/2
1
(a) mX (t) = 1−2t .

(b) E(X) = k.
(c) E(X 2 ) = k(k + 2).
(d) Var(X) = 2k.

A.6.13. Beta
Definición A.42 Se dice que la variable aleatoria continua X tiene distri-
bución Beta con parámetros α > 0 y β > 0, se denota X ∼ Beta(α, β), si
su función de densidad está dada por:
1
fX (x) = xα−1 (1 − x)β−1 I(0,1) (x),
B(α, β)
R1
donde B(u, v) = 0
tu−1 (1 − t)v−1 dt es conocida como la función beta.
Existe una relación entre las funciones Beta y Gama:
Γ(α)Γ(β)
B(α, β) = .
Γ(α + β)
Proposición A.20 Si X ∼ Beta(α, β), entonces:
α
(a) E(X) = α+β .

α(α+1)
(b) E(X 2 ) = (α+β+1)(α+β) .

αβ
(c) Var(X) = (α+β)2 (α+β+1) .

Γ(α+r)Γ(α+β)
(d) E(X r ) = Γ(α)Γ(α+β+r) .

Nota: no existe forma analı́tica para la función generadora de momentos


para una variable aleatoria con distribución Beta.
A.6. Resumen de familias paramétricas 343

A.6.14. Normal
Definición A.43 Se dice que la variable aleatoria continua X tiene distri-
bución Normal con parámetros µ ∈ R y σ 2 > 0, se denota X ∼ N (µ, σ 2 ), si
su función de densidad está dada por:
 
1 1
fX (x) = √ exp − 2 (x − µ)2 IR (x).
2πσ 2 2σ
Proposición A.21 Si X ∼ N (µ, σ 2 ), entonces:
(a) E(X) = µ.
(b) E(X 2 ) = σ 2 + µ2 .
(c) Var(X) = σ 2 .
(d) mX (t) = exp µt + 12 t2 σ 2 .


A.6.15. t de Student
Definición A.44 Se dice que la variable aleatoria continua X tiene distri-
bución t de Student con k grados de libertad, se denota X ∼ N (µ, σ 2 ), si su
función de densidad está dada por:
Γ( k+1
2 ) 1 1
fX (x) = k
√ k+1 IR (x).
Γ( 2 ) kπ 1 + x2  2
k

A.6.16. F de Fisher
Definición A.45 Se dice que la variable aleatoria continua X tiene distri-
bución F de Fisher con parámetros m, n > 0, se denota X ∼ F (m, n), si su
función de densidad está dada por:
m−2
Γ( m+n
2 )
 m m/2 x 2
fX (x) = m n  m+n I(0,∞) (x).
Γ( 2 )Γ( 2 ) n 1 + (m )x 2
n

A.6.17. Log-Normal
Definición A.46 Se dice que la variable aleatoria continua X tiene dis-
tribución Log-Normal con parámetros µ ∈ R y σ 2 ∈ R+ , se denota X ∼
LgN (µ, σ 2 ), si su función de densidad está dada por:
(  2 )
1 1 log(x) − µ
fX (x) = √ exp − I(0,∞) (x).
x 2πσ 2 2 σ
344 A. Algunos conceptos y resultados de probabilidad

Proposición A.22 Si X ∼ LgN (µ, σ 2 ), entonces:


 
σ2
(a) E(X) = exp µ + 2 .


(b) E(X 2 ) = exp 2(µ + σ 2 ) .

(c) Var(X) = exp(2µ + σ 2 )[exp(σ 2 ) − 1].

r2 σ2
(d) E(X r ) = exp(rµ + 2 ).

A.6.18. Logı́stica
Definición A.47 Se dice que la variable aleatoria continua X tiene distri-
bución Logı́stica con parámetros µ ∈ R y σ ∈ R+ , se denota X ∼ Logistic(µ, σ),
si su función de densidad está dada por:

e−(x−µ)/σ
fX (x) = IR (x).
σ(e−(x−µ)/σ )2

Proposición A.23 Si X ∼ Logistic(µ, σ), entonces:

(a) E(X) = µ.

πσ 2
(b) E(X 2 ) = µ2 + 3 .

πσ 2
(c) Var(X) = 3 .

A.6.19. Log-logı́stica
Definición A.48 Se dice que la variable aleatoria continua X tiene dis-
tribución Log-Logı́stica con parámetros α, λ ∈ R+ , se denota X ∼ log −
Logistic(α, λ), si su función de densidad está dada por:

λα(λt)α−1
fX (x) = I(0,∞) (x).
(1 + (λt)α )2

Proposición A.24 Si X ∼ log − Logistic(α, λ), entonces

Ln(X) ∼ Logistic(µ = −Ln(λ), σ = 1/α).


A.6. Resumen de familias paramétricas 345

A.6.20. Pareto
Definición A.49 Se dice que la variable aleatoria continua X tiene dis-
tribución clásica de Pareto con parámetros α, σ ∈ R+ , se denota X ∼
P aI(α, σ), si su función de densidad está dada por:
ασ α
I[σ,∞) (x).
fX (x) =
xα+1
Proposición A.25 Si X ∼ P aI(α, σ), entonces:
ασ
(a) E(X) = α−1 , si α > 1.
ασ r
(b) E(X r ) = α−r , si α > r.
ασ 2
(c) Var(X) = α(α−1)2 (α−2) , si α > 2.
Definición A.50 Se dice que la variable aleatoria continua X tiene distri-
bución Pareto tipo II con parámetros α, σ ∈ R+ , se denota X ∼ P aII(α, σ),
si su función de densidad está dada por:
α 1
fX (x) = I(0,∞) (x).
σ (1 + σx )α+1
Proposición A.26 Si X ∼ P aII(α, σ), entonces:
σ
(a) E(X) = α−1 , si α > 1.
Γ(α−r)Γ(r+1)σ r
(b) E(X r ) = Γ(α) , si α > r.
ασ 2
(c) Var(X) = α(α−1)2 (α−2) , si α > 2.
Proposición A.27 Si X ∼ P aII(α, σ), entonces X − σ ∼ P aII(α, σ).
1
Proposición A.28 Si X ∼ Beta(α, 1), entonces X ∼ P aI(α, 1).
Definición A.51 Se dice que la variable aleatoria continua X tiene dis-
tribución Pareto generalizada con parámetros k, σ ∈ R+ , se denota X ∼
GP a(k, σ), si su función de densidad está dada por:
  1
1 kx k−1
fX (x) = 1− I(0,∞) (x).
σ σ
Proposición A.29 Si X ∼∼ GP a(k, σ), entonces:
h r i
(a) E 1 − kXσ
1
= 1+rk .
σ
(b) E(X) = 1+k .

σ2
(c) Var(X) = (1+k)2 (1+2k) , si α > 2.
346 A. Algunos conceptos y resultados de probabilidad

A.6.21. Gaussiana inversa


Definición A.52 Se dice que la variable aleatoria continua X tiene dis-
tribución Gaussiana inversa con parámetros µ, λ ∈ R+ , se denota X ∼
IG(µ, λ), si su función de densidad está dada por:
r  
λ λ 2
fX (x) = exp − 2 (x − µ) I(0,∞) (x).
2πx3 2µ x

Proposición A.30 Si X ∼ IG(µ, λ), entonces:

(a) E(X) = µ.

(b) E(X 2 ) = µ2 (1 + µλ ).

µ3
(c) Var(X) = λ .
  q 
λ 2µ2 t
(d) mX (t) = exp µ 1− 1− λ .

A.6.22. Gompertz
La siguiente distribución la propuso Benjamin Gompertz para ajustar tablas
de mortalidad.

Definición A.53 Se dice que la variable aleatoria continua X tiene distri-


bución Gompertz con parámetros b, c ∈ R+ , se denota X ∼ Gom(b, c), si su
función de densidad está dada por:
 
cx b cx
fX (x) = be exp − (e − 1) I(0,∞) (x).
c

A.6.23. Makeham
Definición A.54 Se dice que la variable aleatoria continua X tiene distri-
bución Makeham con parámetros a, b, c ∈ R+ , se denota X ∼ M ak(a, b, c),
si su función de densidad está dada por:
 
cx b cx
fX (x) = (a + be ) exp −ax − (e − 1) I(0,∞) (x).
c
A.6. Resumen de familias paramétricas 347

A.6.24. Benktander
Las distribuciones de Benktander (Benktander & Segerdahl (1960), Benk-
tander (1960)) surgen con la idea de encontrar una distribución cuya vida
residual media se encuentre entre las vidas residuales medias de las distri-
buciones exponencial y de Pareto.

Definición A.55 Se definen las distribuciones de Benktander.


(I) Benktander tipo I (con a > 0, b ∈ (0, 1] y σ > 0):
(
1 − ( σx )−(1−b) exp[− ab (xb − σ b )] si x ≥ σ,
F (x) =
0 si x < σ.

(II) Benktander tipo II (con a > 0, b ≥ 0 y σ > 0):


(
a+2b log(x) x −a−1
1 − a+2b log(σ) ( σ ) exp[−b(log2 (x) − log2 (σ))] si x ≥ σ,
F (x) =
0 si x < σ.

Proposición A.31 Si X tiene una distribución Benktander tipo I, enton-


ces,
(1 + a + 2b log(σ))σ
E(X) = .
a + 2b log(σ)
Proposición A.32 Si X tiene una distribución Benktander tipo II, enton-
ces,  
1
E(X) = σ 1 + b .

A.6.25. Gumbel
Definición A.56 Se dice que la variable aleatoria continua X tiene distri-
bución Gumbel con parámetros µ ∈ R y σ > 0, se denota X ∼ Gum(µ, σ),
si su función de densidad está dada por:
    
1 x−µ x−µ
fX (x) = exp − exp − exp − IR (x).
σ σ σ
Proposición A.33 Si X ∼ Gum(µ, σ), entonces:
(a) E(X) = µ − σψ(1).
π
(b) E(X 2 ) = µ2 + 6σ 2 − 2σψ(1) + (ψ(1))2 .
π
(c) Var(X) = 6σ 2 .
348 A. Algunos conceptos y resultados de probabilidad

A.6.26. Weibull
Definición A.57 Se dice que la variable aleatoria continua X tiene distri-
bución Weibull con parámetros µ ∈ R, σ > 0 y α > 0, se denota X ∼
W ei(σ, α, µ), si su función de densidad está dada por:
  α 
α x−µ
fX (x) = α (x − µ)α−1 exp − I(µ,∞) (x).
σ σ
Proposición A.34 Si X ∼ W ei(σ, α, µ), entonces:
(a) E(X) = µ + σΓ 1 + α1 .


(b) E(X 2 ) = µ2 + 2σµΓ(1 + α1 ) + σ 2 Γ 1 + α2 .




(c) Var(X) = σ 2 Γ 1 + α2 − Γ2 1 + α1 .
  

A.6.27. Fréchet
Definición A.58 Se dice que la variable aleatoria continua X tiene dis-
tribución Fréchet con parámetros µ ∈ R, σ > 0 y α > 0, se denota X ∼
F rechet(σ, α, µ), si su función de densidad está dada por:
  α 
α −α−1 σ
fX (x) = ασ (x − µ) exp − I(µ,∞) (x).
x−µ
Proposición A.35 Si X ∼ F rechet(σ, α, µ), entonces:
(a) E(X) = µ + σΓ 1 − α1 .


(b) E(X 2 ) = µ2 + 2σµΓ 1 − α1 + σ 2 Γ 1 − α2 .


 

(c) Var(X) = σ 2 Γ 1 − α2 − Γ2 1 − α1 .
  

A.7. Convergencia
Sean X1, X2 , ... variables aleatorias en (Ω, F, P) y X una variable aleatoria
en el mismo espacio. {Xn }n∈N representa la sucesión de variables aleatorias
X1, X2 , ....

A.7.1. Convergencia puntual


Definición A.59 La sucesión {Xn }n∈N converge a X ó lı́mn→∞ Xn = X
en Ω, si para todo ε > 0 y ω ∈ Ω, existe nε,ω ∈ N, tal que:
| Xn (ω) − X(ω) |< ε, para todo n ≥ nε,ω .
Notación: Xn → X.
A.7. Convergencia 349

Convergencia uniforme
Definición A.60 La sucesión {Xn }n∈N converge uniformemente a X ó
lı́mn→∞ Xn = X en Ω, si para todo ε > 0, existe nε , tal que:
| Xn (ω) − X(ω) |< ε, para todo n ≥ nε y ω ∈ Ω.
u
Notación: Xn −
→X .
Observación A.11 La convergencia puntual es una propiedad local en el
punto ω de la sucesión. En la convergencia uniforme, dado ε ∈ R+ , a partir
de cierto ı́ndice N todas las funciones Xn (ω) estarán comprendidas entre
X(ω) ± ε, para todos los valores de ω. Ası́, la convergencia uniforme implica
la convergencia puntual.
A continuación se hace una revisión de los modos de convergencia más
importantes en la teorı́a de la probabilidad, los cuales además están rela-
cionados con teoremas lı́mite importantes que se usan en la estadı́stica. Se
sugiere consultar textos como Karr (1993), en donde se analizan los resulta-
dos asociados a este tema.

A.7.2. Convergencia casi segura


Definición A.61 Sean {Xn }n∈N y X variables aleatorias en (Ω, F, P). Se
dice que Xn converge casi seguramente o con probabilidad 1 a X, si
existe A ∈ F nulo, es decir P (A) = 0, tal que Xn (ω) → X(ω), para todo
ω ∈ Ac .
c.s.
Notación: Xn −−→ X.
La definición es equivalente a:
n o
P ω ∈ Ω : lı́m Xn (ω) = X(ω) = 1.
n→∞

Que suele escribirse simplemente como:


 
P lı́m Xn = X = 1.
n→∞

Observación A.12 Este concepto suaviza el de convergencia usual o pun-


tual, el cuál exige la convergencia de Xn (ω) → X(ω), para todo ω ∈ Ω. En la
convergencia casi segura puede haber puntos en los que Xn (ω) no converja a
X(ω), pero estos puntos forman un conjunto de probabilidad
h nula. Si A =i ∅,
P∞
se tiene convergencia puntual. Resultado: Si n=1 P {| Xn − X |< ε} <
c.s.
∞. Entonces Xn → X.
350 A. Algunos conceptos y resultados de probabilidad

A.7.3. Convergencia! en probabilidad


p
Definición A.62 Se dice que {Xn }n∈N converge en probabilidad a X (Xn −

X) si:

lı́m P {ω ∈ Ω :| Xn (ω) − X(ω) |> ε} = 0, para todo ε ∈ R+ .


 
n→∞

p
Notación: Xn −
→ X.

A.7.4. Convergencia en r-media (o r-ésima media)


Definición A.63 Se dice que {Xn }n∈N converge en r-media a X, si para
r > 0, se tiene que:

lı́m E[| Xn (ω) − X(ω) |r ] = 0.


n→∞

r
Se denota por Xn − → X. Si r = 1, se le llama convergencia en media; si
r = 2, se le llama convergencia en media cuadrática.

A.7.5. Convergencia en distribución


Definición A.64 Sean {Fn }n∈N y F las funciones de distribución de
{Xn }n∈N y de X, respectivamente. Se dice que {Xn }n∈N converge en distri-
bución a X, si:

lı́m Fn (x) = F (x), para todo x punto de continuidad de F.


n→∞

d
Notación: Xn −
→ X.

Observación A.13 [relación entre los modos de convergencia]. La conver-


gencia casi segura implica la convergencia en probabilidad, la cual a su vez,
implica la convergencia en distribución. La convergencia en r-ésima media
implica también la convergencia en probabilidad. En general, las implicacio-
nes restantes entre los modos de convergencia no se cumplen.
Apéndice B

Tablas de distribuciones
de probabilidad

B.1. Cuantiles para la distribución normal


estándar
Sea X una variable aleatoria con distribución normal estándar, X ∼ N (0, 1),
su función de distribución acumulativa es:
Z x
1 2
Φ(x) = P(X ≤ x) = √ e−u /2 du.
−∞ 2π
Note que sólo se presentan las tablas para x ≥ 0. Para obtener las probabi-
lidades para x < 0 use la propiedad de simetrı́a tal que Φ(−x) = 1 − Φ(x).

351
352 B. Tablas de distribuciones de probabilidad

P(X ≤ x)
x 0.0000 0.0100 0.0200 0.0300 0.0400 0.0500 0.0600 0.0700 0.0800 0.0900
0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
B.2. Cuantiles para la distribución Ji-cuadrada 353

B.2. Cuantiles para la distribución Ji-cuadrada


Sea X una variable aleatoria con distribución Ji-cuadrada con k grados de
libertad, X ∼ χ2(k) , su función de distribución acumulativa es:
Z x
1
FX (x) = P(X ≤ x) = uk/2−1 e−u/2 du.
0 Γ(k/2)2k/2

P(X ≤ x)
k 0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995
1 0.000 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300
13 3.565 4.107 5.009 5.892 7.042 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.559
25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290
27 11.808 12.879 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.993
29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.336
30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672
354 B. Tablas de distribuciones de probabilidad

B.3. Cuantiles para la distribución t de Stu-


dent
Sea X una variable aleatoria con distribución t de Student con k grados de
libertad, X ∼ t(k) , su función de distribución acumulativa es:
Z x
Γ((k + 1)/2)
FX (x) = P(X ≤ x) = √ (1 + u2 /k)−(k+1)/2 du
−∞ Γ(k/2) πk

P(X ≤ x)
k 0.900 0.950 0.975 0.990 0.995 0.999
1 3.078 6.314 12.706 31.821 63.657 318.309
2 1.886 2.920 4.303 6.965 9.925 22.327
3 1.638 2.353 3.182 4.541 5.841 10.215
4 1.533 2.132 2.776 3.747 4.604 7.173
5 1.476 2.015 2.571 3.365 4.032 5.893
6 1.440 1.943 2.447 3.143 3.707 5.208
7 1.415 1.895 2.365 2.998 3.499 4.785
8 1.397 1.860 2.306 2.896 3.355 4.501
9 1.383 1.833 2.262 2.821 3.250 4.297
10 1.372 1.812 2.228 2.764 3.169 4.144
11 1.363 1.796 2.201 2.718 3.106 4.025
12 1.356 1.782 2.179 2.681 3.055 3.930
13 1.350 1.771 2.160 2.650 3.012 3.852
14 1.345 1.761 2.145 2.624 2.977 3.787
15 1.341 1.753 2.131 2.602 2.947 3.733
16 1.337 1.746 2.120 2.583 2.921 3.686
17 1.333 1.740 2.110 2.567 2.898 3.646
18 1.330 1.734 2.101 2.552 2.878 3.610
19 1.328 1.729 2.093 2.539 2.861 3.579
20 1.325 1.725 2.086 2.528 2.845 3.552
21 1.323 1.721 2.080 2.518 2.831 3.527
22 1.321 1.717 2.074 2.508 2.819 3.505
23 1.319 1.714 2.069 2.500 2.807 3.485
24 1.318 1.711 2.064 2.492 2.797 3.467
25 1.316 1.708 2.060 2.485 2.787 3.450
26 1.315 1.706 2.056 2.479 2.779 3.435
27 1.314 1.703 2.052 2.473 2.771 3.421
28 1.313 1.701 2.048 2.467 2.763 3.408
29 1.311 1.699 2.045 2.462 2.756 3.396
30 1.310 1.697 2.042 2.457 2.750 3.385
∞ 1.282 1.645 1.960 2.326 2.576 3.090
B.4. Cuantiles para la distribución F de Fisher 355

B.4. Cuantiles para la distribución F de


Fisher
Sea X una variable aleatoria con distribución F de Fisher con m y n grados
de libertad, X ∼ F (m, n), su función de distribución acumulativa es:
m−2
x
Γ( m+n
2 )
Z  m m/2 u 2
FX (x) = P(X ≤ x) = m n  m+n du
0 Γ( 2 )Γ( 2 ) n 1+ m u 2
n

m
P(X ≤ x) n 1 2 3 4 5 6 7 8
0.950 1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883
0.975 1 647.789 799.500 864.163 899.583 921.848 937.111 948.217 956.656
0.990 1 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070
0.950 2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371
0.975 2 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373
0.990 2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374
0.950 3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845
0.975 3 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540
0.990 3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489
0.950 4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041
0.975 4 12.218 10.649 9.979 9.605 9.364 9.197 9.074 8.980
0.990 4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799
0.950 5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818
0.975 5 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757
0.990 5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289
0.950 6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147
0.975 6 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600
0.990 6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102
0.950 7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726
0.975 7 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899
0.990 7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840
0.950 8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438
0.975 8 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433
0.990 8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029
0.950 9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230
0.975 9 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102
0.990 9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467
0.950 10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072
0.975 10 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855
0.990 10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057
0.950 11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948
0.975 11 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664
0.990 11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744
0.950 12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849
0.975 12 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512
0.990 12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499
0.950 13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767
0.975 13 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388
0.990 13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302
0.950 14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699
0.975 14 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285
0.990 14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140
0.950 15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641
0.975 15 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199
0.990 15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004
0.950 16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591
0.975 16 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125
0.990 16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890
356 B. Tablas de distribuciones de probabilidad

m
P(X ≤ x) n 9 10 11 12 13 14 15 16
0.950 1 240.543 241.882 242.983 243.906 244.690 245.364 245.950 246.464
0.975 1 963.285 968.627 973.025 976.708 979.837 982.528 984.867 986.919
0.990 1 6022.473 6055.847 6083.317 6106.321 6125.865 6142.674 6157.285 6170.101
0.950 2 19.385 19.396 19.405 19.413 19.419 19.424 19.429 19.433
0.975 2 39.387 39.398 39.407 39.415 39.421 39.427 39.431 39.435
0.990 2 99.388 99.399 99.408 99.416 99.422 99.428 99.433 99.437
0.950 3 8.812 8.786 8.763 8.745 8.729 8.715 8.703 8.692
0.975 3 14.473 14.419 14.374 14.337 14.304 14.277 14.253 14.232
0.990 3 27.345 27.229 27.133 27.052 26.983 26.924 26.872 26.827
0.950 4 5.999 5.964 5.936 5.912 5.891 5.873 5.858 5.844
0.975 4 8.905 8.844 8.794 8.751 8.715 8.684 8.657 8.633
0.990 4 14.659 14.546 14.452 14.374 14.307 14.249 14.198 14.154
0.950 5 4.772 4.735 4.704 4.678 4.655 4.636 4.619 4.604
0.975 5 6.681 6.619 6.568 6.525 6.488 6.456 6.428 6.403
0.990 5 10.158 10.051 9.963 9.888 9.825 9.770 9.722 9.680
0.950 6 4.099 4.060 4.027 4.000 3.976 3.956 3.938 3.922
0.975 6 5.523 5.461 5.410 5.366 5.329 5.297 5.269 5.244
0.990 6 7.976 7.874 7.790 7.718 7.657 7.605 7.559 7.519
0.950 7 3.677 3.637 3.603 3.575 3.550 3.529 3.511 3.494
0.975 7 4.823 4.761 4.709 4.666 4.628 4.596 4.568 4.543
0.990 7 6.719 6.620 6.538 6.469 6.410 6.359 6.314 6.275
0.950 8 3.388 3.347 3.313 3.284 3.259 3.237 3.218 3.202
0.975 8 4.357 4.295 4.243 4.200 4.162 4.130 4.101 4.076
0.990 8 5.911 5.814 5.734 5.667 5.609 5.559 5.515 5.477
0.950 9 3.179 3.137 3.102 3.073 3.048 3.025 3.006 2.989
0.975 9 4.026 3.964 3.912 3.868 3.831 3.798 3.769 3.744
0.990 9 5.351 5.257 5.178 5.111 5.055 5.005 4.962 4.924
0.950 10 3.020 2.978 2.943 2.913 2.887 2.865 2.845 2.828
0.975 10 3.779 3.717 3.665 3.621 3.583 3.550 3.522 3.496
0.990 10 4.942 4.849 4.772 4.706 4.650 4.601 4.558 4.520
0.950 11 2.896 2.854 2.818 2.788 2.761 2.739 2.719 2.701
0.975 11 3.588 3.526 3.474 3.430 3.392 3.359 3.330 3.304
0.990 11 4.632 4.539 4.462 4.397 4.342 4.293 4.251 4.213
0.950 12 2.796 2.753 2.717 2.687 2.660 2.637 2.617 2.599
0.975 12 3.436 3.374 3.321 3.277 3.239 3.206 3.177 3.152
0.990 12 4.388 4.296 4.220 4.155 4.100 4.052 4.010 3.972
0.950 13 2.714 2.671 2.635 2.604 2.577 2.554 2.533 2.515
0.975 13 3.312 3.250 3.197 3.153 3.115 3.082 3.053 3.027
0.990 13 4.191 4.100 4.025 3.960 3.905 3.857 3.815 3.778
0.950 14 2.646 2.602 2.565 2.534 2.507 2.484 2.463 2.445
0.975 14 3.209 3.147 3.095 3.050 3.012 2.979 2.949 2.923
0.990 14 4.030 3.939 3.864 3.800 3.745 3.698 3.656 3.619
0.950 15 2.588 2.544 2.507 2.475 2.448 2.424 2.403 2.385
0.975 15 3.123 3.060 3.008 2.963 2.925 2.891 2.862 2.836
0.990 15 3.895 3.805 3.730 3.666 3.612 3.564 3.522 3.485
0.950 16 2.538 2.494 2.456 2.425 2.397 2.373 2.352 2.333
0.975 16 3.049 2.986 2.934 2.889 2.851 2.817 2.788 2.761
0.990 16 3.780 3.691 3.616 3.553 3.498 3.451 3.409 3.372
Bibliografı́a

[1] Berger, J. O. and Sellke, T. (1987). Testing a point null hypothesis:


The irreconcilability of p values and evidence. Journal of the American
Statistical Association, 82(397):112–122.

[2] Campbell, N. A. and Mahon, R. J. (1974). A multivariate study of


variation in two species of rock crab of genus Leptograpsus. Australian
Journal of Zoology, 22:417–425.

[3] Canavos, G. C. (2003). Probabilidad y Estadı́stica. Aplicaciones y Méto-


dos. Mc Graw Hill, México.

[4] Casella, G. and Berger, R. L. (2002). Statistical Inference. Duxbury


Advanced Series in Statistics and Decision Sciences. Thomson Learning,
2nd edition.

[5] Conover, W. J. (1999). Practical Nonparametric Statistics. John Wiley


& Sons, 3rd edition.

[6] Contento R., M.R. (2012). Construcción del concepto de intervalo de


confianza mediante simulación en R. Universidad Nacional de Colom-
bia. Tesis para magister en enseñanza de las ciencias exactas y naturales.

[7] Dixit, U. J. (2016). Examples in Parametric Inference with R. Springer,


Berlin.

[8] Efron, B. (1998). R. A. Fisher in the 21st Century. Statistical Science,


13(2):95–114.

[9] Everitt, B. S. (1992). The Analysis of Contingency Tables. Chapman


and Hall/CRC, New York, 2nd edition.

[10] Fisher, R. A. (1935). The Design of Experiments. Oliver & Boyd,


Edinburgh.

357
358 Bibliografı́a

[11] Fisher, S. R. A. (1956). Mathematics of a lady tasting tea. In Newman,


J. R., editor, The World of Mathematics, volume 3, pages 1512–1521.
Simon & Schuster, New York.
[12] Gibbons, J. D. and Chakraborti, S. (2010). Nonparametric Statistical
Inference. CRC Press, New York, 5th edition.
[13] Gómez V., M. A. (2009). Karl Pearson, el Creador de la Estadı́stica
Matemática. In Basulto, J. and Garcı́a, J. J., editors, Historia de la
Probabilidad y la Estadı́stica IV, pages 351–356, Huelva. Congreso In-
ternacional de Historia de la Estadı́stica y la Probabilidad, Servicio de
Publicaciones de la Universidad de Huelva.
[14] Hall, A. R. (2005). Generalized Method of Moments. Advanced Texts
in Econometrics. Oxford University Press, Oxford.
[15] Hogg, R. V., McKean, J., and Craig, A. T. (2014). Introduction to
Mathematical Statistics. Pearson Education International, 7th edition.
[16] Johnson, R. A. and Bhattacharyya, G. K. (2010). Statistics: Principles
and Methods. John Wiley & Sons, 6th edition.
[17] Kapadia, A. S., Chan, W., and Moyé, L. A. (2005). Mathematical Sta-
tistics with Applications. Statistics: A Series of Textbooks and Mono-
graphs. Chapman & Hall/CRC Press, 1st edition.
[18] Karr, A. F. (2012). Probability. Springer Texts in Statistics. Springer
Science & Business Media, LLC.
[19] Kellison, S. G. and London, R. L. (2011). Risk Models and Their Esti-
mation. ACTEX Academic Series. ACTEX Publications.
[20] Kendall, M. and Stuart, A. (1979). The Advanced Theory of Statistics.
Volume II, Inference and relationship. MacMillan, New York.
[21] Koop, G., Poirier, D. J., and Tobias, J. L. (2007). Bayesian Econometric
Methods. Cambridge University Press.
[22] Lindgren, B. W. (1993). Statistical Theory. Chapman & Hall/CRC
Press, 4th edition.
[23] Lock, R. H. (1993). 1993 new car data. Journal of Statistics Education,
1(1).
[24] Marin, J.-M. and Robert, C. (2007). Bayesian Core: A Practical Ap-
proach to Computational Bayesian Statistics. Springer.
359

[25] Mayorga, J.H. (2004). Inferencia Estadı́stica. Universidad Nacional de


Colombia. Unibiblos, 1era. edición.

[26] Mood, A. M., Graybill, F. A., and Boes, D. C. (1974). Introduction to


the Theory of Statistics. Series in Probability and Statistics. Mc Graw
Hill Education, 3rd edition.

[27] Moore, D. S. (2005). Estadı́stica Aplicada Básica. Antoni Bosch, 2da


edition.

[28] Mukhopadhyay, N. (2006). Introductory Statistical Inference. Statistics:


A Series of Textbooks and Monographs. Chapman & Hall/CRC Press,
1st edition.

[29] Newman, J. R. (1956). The World of Mathematics, Vol. III. Simon and
Schuster, New York.

[30] Paul, S., Wang, Y. and Ullah, I. (2019). A review of the Behrens-Fisher
problem and some of its analogs: does the same size fit all? REVSTAT
Statistical Journal volume 17, number 4, 563-597.

[31] Pearson, E. S. (1974). Memories of the impact of Fisher’s work in


the 1920s. International Statistical Review / Revue Internationale de
Statistique, 42(1):5–4.

[32] Rao, C. R. (1997). Statistics and Truth: Putting Chance to Work. World
Scientific, Singapore, 2nd edition.

[33] Reid, N. (2015). Tests of significance. In Wright, J. D., editor, Inter-


national Encyclopedia of the Social & Behavioral Sciences, volume 21,
pages 957–962. Elsevier, Oxford, 2nd edition.

[34] Rencher, A. C. and Schaalje, G. B. (2008). Linear Models in Statistics.


John Wiley & Sons, 2nd edition.

[35] Ross, S. (2010). A First Course in Probability. Pearson, 9th edition.

[36] Savage, L. J. (1976). On rereading R. A. Fisher. The Annals of Statis-


tics, 4(3):441–500.

[37] Schervish, M. J. (1995). Theory of Statistics. Springer Series in Statis-


tics. Springer.

[38] Schervish, M. J. (1996). P values: What they are and what they are
not. The American Statistician, 50(3):203–206.
360 Bibliografı́a

[39] Snedecor, G. W. (1934). Analysis of Variance and Covariance. Colle-


giate Press, Ames, Iowa.

[40] Snedecor, G. W. (1937). Statistical Methods. Iowa State College Press.


[41] Stuart, A., Ord, J. K., and Arnold, S. (1999). Vol. 2a: Classical inference
and the linear model. In Kendall’s Advanced Theory of Statistics. Wiley,
London, 6th edition.

[42] Sudhir, P., Wang, Y.-G., and Ullah, I. (2018). A review of the Behrens-
Fisher problem and some of its analogs: Does the same size fit all?
Revstat Statistical Journal.
[43] Velez I., R. and Garcı́a P., A. (2012). Principios de Inferencia Es-
tadı́stica. Universidad Nacional de Educación a Distancia (UNED), 2nd
edition.
[44] Welch, B. L. (1938). The significance of the difference between
two means when the population variances are unequal. Biometrika,
29(3/4):350–362.
[45] Yañez C., S. (2000). La estadı́stica una ciencia del siglo XX. R. A.
Fisher, el genio. Revista Colombiana de Estadı́stica, 23(2):1–14.
[46] Zacks, S. (1971). Theory of Statistical Inference. Probability & Mathe-
matical Statistics Series. John Wiley & Sons.
[47] Zehna, P. W. (1966). Invariance of maximum likelihood estimators. The
Annals of Mathematical Statistics, 37(3):744.
[48] Zsohar, P. (2012). Short introduction to the generalized method of
moments. Hungarian Statistical Review, 16 (Special Number):150–170.
[49] http://www.dm.uba.ar/materias/estadistica M/.
[50] http://www.statslab.cam.ac.uk/˜rrw1/.
Índice analı́tico

AIC, 275 Diagrama de tallo y hojas, 21


Distribución
Behrens-Fisher, 207 F, 54
Boxplot, 24 t, 57
t de Student, 343
Cantidad pivotal, 189 Bernoulli, 77, 336
Clase de estimadores insesgados, Beta, 342
148 Binomial, 337
Cociente Binomial negativa, 338
de verosimilitud, 248 clásica de Pareto, 345
Coeficiente de contingencia, 295 de Benktander, 347
Coeficiente de correlación, 34, 332 Exponencial, 340
Condiciones de regularidad, 149 F de Fisher, 343
Consistencia, 144 Fréchet, 348
en ECM, 144 Gama, 45, 341
Contrastes Gama generalizada, 341
de hipótesis, 227 Gaussiana inversa, 346
Convergencia Geométrica, 77, 338
casi segura, 349 Gompertz, 346
en distribución, 350 Gumbel, 347
en probabilidad, 350 Hipergeométrica, 339
puntual, 348 inicial, 126
uniforme, 349 Ji-cuadrada, 46, 342
Cota inferior de Cramèr, 154 Log-Logı́stica, 344
Covarianza, 332 Log-Normal, 343
Criterio de información de Akaike, Logarı́tmica, 339
275 Logı́stica, 344
Cuartiles, 28 Makeham, 346
Curtosis, 32 Normal, 343
Pareto generalizada, 345
Desviación estándar, 30 Pareto tipo II, 345

361
362 Índice analı́tico

Poisson, 77, 337 puntual, 4


uniforme continua, 340 Estimación puntual, 105
uniforme discreta, 336 Estimador
Weibull, 348 máximo verosı́mil, 114
Exponencial, 76 por el método de momentos,
final, 127 109
posterior, 127 Estimadores
Distribución de la muestra, 8 basados en verosimilitud, 112

Eficiencia asintótica, 167 Factor de Bayes, 297


Enfoque Bayesiano, 216 Familia de localización y escala, 8
Error Familia exponencial, 76
tamaño de, 233 Familias conjugadas, 127
tipo I, 233 Fisher, 55, 107
tipo II, 233 Frecuencia
cuadrático medio, 139 relativa, 17
Escala relativa acumulada, 17
de intervalo, 13 Frecuencias, 17
de razón, 14 Función
nominal, 13 de densidad continua condi-
ordinal, 13 cional, 327
Escalas de medición, 13 de densidad de probabilidad,
Espacio de probabilidad, 2, 319 322
Espacio muestral, 39 de densidad de probabilidad
Espacio parametral, 4 conjunta, 325
Espacio paramétrico, 4 de densidad de probabilidad
Esperanza marginal, 326
condicional, 333 de densidad discreta condicio-
esperanza, 328 nal, 327
Estadı́stica, 1, 39 de distribución, 322
completa, 84 de distribución acumulativa,
de prueba, 243 322
suficiente, 64 de distribución acumulativa con-
Bayesiana, 4 junta, 322
descriptiva, 11 de pérdida, 146
Estadı́sticas generadora de momentos, 330
auxiliares, 90 generadora de momentos con-
Estadı́sticas de orden, 59 junta, 334
Estimación potencia, 234
por intervalos, 183 de puntaje, 151
por intervalos, 4 Función de verosimilitud, 114
Índice analı́tico 363

Gosset, 58 Medidas
Grados de libertad, 265 de tendencia central, 27
Gráfica Medidas de dispersión, 29
de barras, 18 Momentos, 329
de pay, 18 Muestra, 5
Muestra aleatoria, 6, 8
Hipótesis Muestreo
compuesta, 230 estratificado, 5
estadı́stica, 227 por conglomerados, 5
prueba de, 231 aleatorio simple, 5
simple, 230 Método
Histograma, 21 de medianas, 133
de momentos, 106
Independencia, 321 de mı́nimos cuadrados, 133,
Independencia estocástica, 328 143
Inferencia Bayesiana, 126 de percentiles, 133
Inferencia estadı́stica, 4 Método basado en estadı́sticas su-
Información ficientes, 196
esperada de Fisher, 151 Método pivotal para intervalos de
por unidad muestral, 152 confianza, 189
Intervalo Métodos de estimación, 106
para el cociente de varianzas
de poblaciones indepen- Nivel de significancia, 270
dientes, 209
para la diferencia de medias p-value, 268
de poblaciones indepen- Partición, 80
dientes, 204 Pearson, 48, 106
para la varianza, 203 Percentil, 28
aleatorio, 185 Probabilidad
Intervalo intercuatil, 24 condicional, 320
Intervalos total, 321
para la media, 201 Propiedad de invarianza, 120
Intervalos de confianza, 183 Prueba
para muestras grandes, 211 de independencia, 286
Ji-cuadrada para bondad de
Lema ajuste, 276
Neyman-Pearson, 240 Prueba más potente, 240
Pruebas
Media de hipótesis, 227
muestral, 27 de hipótesis, 296
Mediana Pruebas de bondad de ajuste, 275
muestral, 27 Pruebas de hipótesis, 4
364 Índice analı́tico

Pruebas más potentes, 240


Pruebas uniformemente más po-
tentes, 248

R, 15
Rango, 31
intercuartil, 31
Razón
de verosimilitudes, 256
Razón monótona
de verosimilitud, 251
Región crı́tica, 231
Región de rechazo, 231

Series de Taylor, 265


Sesgo, 139
muestral, 32
negativo, 32
positivo, 32
Suficiencia minimal, 78

Tablas de contingencia, 286


Tamaño de la prueba, 235
Teorema
de Bayes, 321
de factorización, 70
de Lehmann-Scheffé, 160
de Rao-Blackwell, 159
de Karlin-Rubin, 251, 253

UMVUE, 148

Variable aleatoria, 321


Variables
aleatorias continuas, 325
aleatorias discretas, 324
Varianza, 329
condicional, 333
Varianza asintótica, 167
Varianza muestral, 29

También podría gustarte