Inferencia Estadistica para Estud. - Color - PP

Jaime Vázquez Alamilla
Lizbeth Naranjo Albarrán

Ruth Fuentes Garcı́a
Margarita Chávez Cano
inferencia estadı́stica
para estudiantes de ciencias
Facultad de Ciencias, UNAM

519.5
Vázquez Alamilla, Jaime, autor.
Inferencia estadística para estudiantes de ciencias / Jaime
Vázquez Alamilla, Lizbeth Naranjo Albarrán, Ruth Fuentes García,
Margarita Chávez Cano. -- Ciudad de México : Universidad Nacio-
nal Autónoma de México, Facultad de Ciencias, 2019.
xv, 384 páginas: ilustraciones ; 22 cm
Incluye índice
Bibliografía: paginas 375-378
ISBN: 978-607-30-2477-8
1. Estadística matemática. 2. Probabilidades. I. Naranjo Al-
barrán, Lizbeth, autor. II. Fuentes García, Ruth, autor. III. Chávez
Cano, Margarita, autor. IV. Universidad Nacional Autónoma de Mé-
xico, Facultad de Ciencias, editor. V. Título.
Biblioteca Nacional de México scdd 22
Esta obra contó con el apoyo del proyecto PAPIME PE-107117
Inferencia estadística para estudiantes de ciencias

1a edición, 29 de septiembre de 2019
© D.R. 2019. Universidad Nacional Autónoma de México.

Facultad de Ciencias.
Ciudad Universitaria. Delegación Coyoacán,
C. P. 04510, Ciudad de México
Coordinación de servicios editoriales: editoriales@ciencias.unam.mx
Plaza Prometeo: tienda.fciencias.unam.mx
ISBN: 978-607-30-2477-8
Diseño de portada: Laura Uribe Hernández y Celia Ayala Escorza
Prohibida la reproducción parcial o total de la obra por cualquier medio,

sin la autorización por escrito del titular de los derechos patrimoniales.
Impreso y hecho en México.

Agradecimientos
A la Dirección General de Asuntos del Personal Académico por el apoyo
para la realización de esta obra a través del Proyecto Papime PE107117.
A nuestro maestro de Inferencia Estadı́stica, el Dr. Federico O’Reilly

Togno, por sus sugerencias y por haber accedido a escribir el prólogo de este
libro, pero sobre todo por habernos transmitido el gusto por esta materia.
Es un honor, siendo él uno de los pilares de la estadı́stica en México.
A los colegas profesores e investigadores que nos hicieron comentarios

acerca de las notas que antecedieron a este texto. En particular al Dr. Eduar-
do Gutiérrez Peña por sus valiosas observaciones.
A Rafael Reyes Sánchez por su extraordinario apoyo en la edición y

formato de este libro.
A los ayudantes (profesores adjuntos), quienes con su labor han sido

parte fundamental del éxito de los cursos de Inferencia Estadı́stica que hemos
impartido. Gracias también por sus aportaciones para la realización de este
documento.
A nuestros estudiantes de la Facultad de Ciencias de la Universidad Na-

cional Autónoma de México, porque ellos son la razón de nuestro trabajo y
quienes nos motivaron a escribir el libro.
Índice general
Prólogo XV
Introducción XVII
1. ¿Qué es la estadı́stica? 1
1.1. La probabilidad y la estadı́stica . . . . . . . . . . . . . . . . . 2
1.2. Enfoques de la estadı́stica . . . . . . . . . . . . . . . . . . . . 3
1.2.1. El concepto de muestra aleatoria . . . . . . . . . . . . 6
1.3. Familia de localización y escala . . . . . . . . . . . . . . . . . 8
2. Estadı́stica descriptiva 11
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Datos y variables . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Escalas de medición . . . . . . . . . . . . . . . . . . . 13
2.2.3. Formas de recolección . . . . . . . . . . . . . . . . . . 14
2.3. Los datos y R . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1. Cargando los datos . . . . . . . . . . . . . . . . . . . . 15
2.4. Representación gráfica de los datos . . . . . . . . . . . . . . . 16
2.4.1. Frecuencia, frecuencia relativa y frecuencia acumulada 17
2.4.2. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . 17
2.4.3. Gráficas de barras . . . . . . . . . . . . . . . . . . . . 18
2.4.4. Gráficas de pay o pastel . . . . . . . . . . . . . . . . . 18
2.4.5. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . 21
2.4.6. Histograma . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.7. Boxplot o diagrama de caja y brazos . . . . . . . . . . 24
2.5. Medidas muestrales de tendencia central . . . . . . . . . . . 27
2.5.1. La media muestral . . . . . . . . . . . . . . . . . . . . 27
2.5.2. La mediana muestral . . . . . . . . . . . . . . . . . . . 27
2.5.3. Porcentiles o percentiles . . . . . . . . . . . . . . . . . 28
v
vi Índice general
2.6. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . 29

2.6.1. Varianza y desviación estándar muestrales . . . . . . . 29
2.6.2. Rango muestral . . . . . . . . . . . . . . . . . . . . . . 31
2.6.3. Rango intercuartil . . . . . . . . . . . . . . . . . . . . 31
2.7. Otras medidas de resumen . . . . . . . . . . . . . . . . . . . . 32
2.8. Relaciones lineales entre variables . . . . . . . . . . . . . . . . 33
2.9. Anexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.10. Ejercicio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3. Estadı́sticas y distribuciones muestrales 39

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2. Distribución de las estadı́sticas . . . . . . . . . . . . . . . . . 44
3.2.1. Distribución de la media muestral . . . . . . . . . . . 44
3.2.2. La distribución de la varianza muestral . . . . . . . . 45
3.2.3. La distribución F de Fisher y el cociente de varianzas
muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.4. La distribución t de Student y algunas estadı́sticas re-
lacionadas . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3. Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.1. r-ésima estadı́stica de orden (Yr ) . . . . . . . . . . . . 60
3.3.2. Distribución conjunta de las estadı́sticas de orden mı́ni-
ma y máxima . . . . . . . . . . . . . . . . . . . . . . . 61
3.4. Estadı́sticas suficientes . . . . . . . . . . . . . . . . . . . . . . 63
3.4.1. El concepto de suficiencia . . . . . . . . . . . . . . . . 65
3.4.2. El teorema de factorización . . . . . . . . . . . . . . . 70
3.4.3. La familia exponencial . . . . . . . . . . . . . . . . . . 76
3.4.4. Suficiencia minimal . . . . . . . . . . . . . . . . . . . . 78
3.5. Completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.6. Algunas generalizaciones . . . . . . . . . . . . . . . . . . . . . 88
3.7. Estadı́sticas auxiliares . . . . . . . . . . . . . . . . . . . . . . 90
3.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4. Estimación puntual 105

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . 106
4.2.1. Método de momentos . . . . . . . . . . . . . . . . . . 108
4.2.2. Estimadores basados en verosimilitud . . . . . . . . . 112
4.2.3. Verosimilitud en el enfoque Bayesiano . . . . . . . . . 125
4.2.4. Otros métodos de estimación . . . . . . . . . . . . . . 133
4.3. Evaluación de estimadores . . . . . . . . . . . . . . . . . . . . 138
Índice general vii
4.3.1. Error cuadrático medio y estimadores insesgados . . . 139

4.3.2. Consistencia . . . . . . . . . . . . . . . . . . . . . . . 144
4.3.3. Funciones de pérdida y estimación . . . . . . . . . . . 146
4.4. Estimación insesgada . . . . . . . . . . . . . . . . . . . . . . . 148
4.4.1. La propuesta de Cramèr y Rao . . . . . . . . . . . . . 149
4.4.2. El teorema de Rao-Blackwell . . . . . . . . . . . . . . 159
4.4.3. El teorema de Lehmann-Scheffé . . . . . . . . . . . . . 160
4.5. Propiedades asintóticas de los estimadores . . . . . . . . . . . 167
4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
5. Estimación por intervalos 183

5.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . 183
5.1.1. Método pivotal para encontrar intervalos de confianza 189
5.1.2. El método de la cantidad pivotal para funciones de
distribución continuas . . . . . . . . . . . . . . . . . . 193
5.1.3. Método basado en estadı́sticas suficientes . . . . . . . 196
5.2. Intervalos para muestras de la distribución normal . . . . . . 200
5.2.1. Intervalos para la media . . . . . . . . . . . . . . . . . 201
5.2.2. Intervalo para la varianza . . . . . . . . . . . . . . . . 203
5.2.3. Región de confianza para (µ, σ 2 ) . . . . . . . . . . . . 204
5.2.4. Intervalo para la diferencia de medias de poblaciones
normales independientes . . . . . . . . . . . . . . . . . 204
5.2.5. Intervalo para el cociente de varianzas de poblaciones
normales independientes . . . . . . . . . . . . . . . . . 209
5.3. Intervalos de confianza para muestras grandes . . . . . . . . . 211
5.3.1. Intervalo de confianza para el parámetro p de una dis-
tribución binomial . . . . . . . . . . . . . . . . . . . . 214
5.4. Enfoque Bayesiano en la estimación por intervalos . . . . . . 216
5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
6. Pruebas de hipótesis 227

6.1. Conceptos fundamentales en pruebas de hipótesis . . . . . . . 227
6.1.1. Hipótesis estadı́sticas . . . . . . . . . . . . . . . . . . . 229
6.1.2. Tipos y tamaños de los errores . . . . . . . . . . . . . 232
6.1.3. La función potencia . . . . . . . . . . . . . . . . . . . 234
6.2. Hipótesis simples . . . . . . . . . . . . . . . . . . . . . . . . . 238
6.2.1. Pruebas más potentes y el lema de Neyman-Pearson . 240
6.3. Pruebas uniformemente más potentes . . . . . . . . . . . . . 248
6.3.1. Hipótesis simple contra compuesta . . . . . . . . . . . 248
6.3.2. La razón monótona de verosimilitudes y el teorema de
Karlin-Rubin . . . . . . . . . . . . . . . . . . . . . . . 251
viii Índice general
6.4. La razón de verosimilitudes generalizadas . . . . . . . . . . . 256

6.4.1. La prueba de la razón de verosimilitudes generalizadas 257
6.4.2. La distribución asintótica de la razón de verosimilitudes264
6.5. El valor p (p-value) . . . . . . . . . . . . . . . . . . . . . . . . 268
6.6. Algunas pruebas basadas en razón de verosimilitudes . . . . . 275
6.6.1. Prueba Ji-cuadrada para bondad de ajuste . . . . . . 276
6.6.2. La prueba de independencia en tablas de contingencia 286
6.7. Pruebas de hipótesis en el contexto Bayesiano . . . . . . . . . 296
6.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
A. Algunos conceptos y resultados de probabilidad 319

A.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . 319
A.2. Probabilidad condicional e independencia . . . . . . . . . . . 320
A.3. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 321
A.4. Distribuciones conjuntas y condicionales . . . . . . . . . . . . 322
A.4.1. Variables aleatorias discretas . . . . . . . . . . . . . . 324
A.4.2. Variables aleatorias continuas . . . . . . . . . . . . . . 325
A.4.3. Distribución condicional e independencia estocástica . 327
A.5. Momentos de variables aleatorias . . . . . . . . . . . . . . . . 328
A.5.1. Esperanza y varianza . . . . . . . . . . . . . . . . . . . 328
A.5.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 329
A.5.3. Función generadora de momentos . . . . . . . . . . . . 330
A.5.4. Esperanza de g (X1 , . . . , Xn ) . . . . . . . . . . . . . . 331
A.5.5. Coeficiente de correlación ρxy . . . . . . . . . . . . . . 332
A.5.6. Esperanza condicional . . . . . . . . . . . . . . . . . . 333
A.5.7. Función generadora de momentos conjunta y momentos 334
A.5.8. Independencia y esperanza . . . . . . . . . . . . . . . 334
A.6. Resumen de familias paramétricas . . . . . . . . . . . . . . . 336
A.6.1. Uniforme Discreta . . . . . . . . . . . . . . . . . . . . 336
A.6.2. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 336
A.6.3. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 337
A.6.4. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 337
A.6.5. Geométrica . . . . . . . . . . . . . . . . . . . . . . . . 338
A.6.6. Binomial negativa . . . . . . . . . . . . . . . . . . . . 338
A.6.7. Hipergeométrica . . . . . . . . . . . . . . . . . . . . . 339
A.6.8. Logarı́tmica . . . . . . . . . . . . . . . . . . . . . . . . 339
A.6.9. Uniforme continua . . . . . . . . . . . . . . . . . . . . 340
A.6.10. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 340
A.6.11. Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
A.6.12. Ji-cuadrada . . . . . . . . . . . . . . . . . . . . . . . . 342
A.6.13. Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
Índice general ix
A.6.14. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 343

A.6.15. t de Student . . . . . . . . . . . . . . . . . . . . . . . 343
A.6.16. F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 343
A.6.17. Log-Normal . . . . . . . . . . . . . . . . . . . . . . . . 343
A.6.18. Logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 344
A.6.19. Log-logı́stica . . . . . . . . . . . . . . . . . . . . . . . 344
A.6.20. Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
A.6.21. Gaussiana inversa . . . . . . . . . . . . . . . . . . . . 346
A.6.22. Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . 346
A.6.23. Makeham . . . . . . . . . . . . . . . . . . . . . . . . . 346
A.6.24. Benktander . . . . . . . . . . . . . . . . . . . . . . . . 347
A.6.25. Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . 347
A.6.26. Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . 348
A.6.27. Fréchet . . . . . . . . . . . . . . . . . . . . . . . . . . 348
A.7. Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
A.7.1. Convergencia puntual . . . . . . . . . . . . . . . . . . 348
A.7.2. Convergencia casi segura . . . . . . . . . . . . . . . . . 349
A.7.3. Convergencia! en probabilidad . . . . . . . . . . . . . 350
A.7.4. Convergencia en r-media (o r-ésima media) . . . . . . 350
A.7.5. Convergencia en distribución . . . . . . . . . . . . . . 350
B. Tablas de distribuciones de probabilidad 351

B.1. Cuantiles para la distribución normal estándar . . . . . . . . 351
B.2. Cuantiles para la distribución Ji-cuadrada . . . . . . . . . . . 353
B.3. Cuantiles para la distribución t de Student . . . . . . . . . . 354
B.4. Cuantiles para la distribución F de Fisher . . . . . . . . . . . 355
Bibliografı́a 357
Índice analı́tico 361

Índice de figuras
2.1. Gráfica de barras correspondiente a las especies B (blue) u O

(orange) de los cangrejos. . . . . . . . . . . . . . . . . . . . . 19
2.2. Gráfica de pay para las especies de cangrejos. . . . . . . . . . 19
2.3. Diagrama de pay para las 5 respuestas de una encuesta. . . . 20
2.4. Histogramas para la caracterı́stica ancho del caparazón de los

cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5. Diagrama de caja y brazos para la caracterı́stica ancho del

caparazón de la base de datos de los cangrejos crabs. . . . . . 24
2.6. Diagramas de caja y brazos para la caracterı́stica ancho del

caparazón por especie y por sexo para los datos de los cangrejos. 25
2.7. Gráfica de caja y brazos para la caracterı́stica ancho del ca-

parazón para las diferentes variables asociadas a especie y sexo. 26
2.8. Gráfica de dispersión para la base crabs y que ilustra la rela-

ción entre las diferentes medidas morfológicas para los cangrejos. 33
2.9. Gráfica de correlación para las medidas morfológicas de los

cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1. Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada

y estudió su distribución asintóntica. Se le considera el padre
de la estadı́stica. Imagen tomada de commons.wikipedia.org
(public domain). . . . . . . . . . . . . . . . . . . . . . . . . . 48
xi
xii Índice de figuras
3.2. Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesi-

tan sus héroes y Fisher fue sin duda el héroe de la estadı́stica
del siglo XX. Sus ideas transformaron nuestra disciplina de
tal forma que hasta un César o un Alejandro hubieran envi-
diado”: Efron (1998). “Lo que es y fue importante para mı́,
es cómo Fisher, en los 1920..., hizo que los estadı́sticos refle-
xionáramos acerca de las ideas fundamentales”: Egon Pear-
son (1974). Dos citas que hacen alusión a la importancia de
las contribuciones de Fisher en la estadı́stica. La distribución
que lleva su nombre fue producto del trabajo que realizó con
George Snedecor (1881-1974) de la Universidad de Iowa.
Imagen tomada de commons.wikipedia.org (public domain). . 55
3.3. William Sealy Gosset (1876-1937), quien usó el pseudónimo
de Student para publicar su trabajo, desarrolló la distribución
t como respuesta a problemas prácticos de variedades de ce-
bada, trabajando en la cervecerı́a Guiness. Imagen tomada de
commons.wikimedia.org (public domain). . . . . . . . . . . . 58
4.1. Karl Pearson con Francis Galton. Ambos fundaron la revista

Biometrika en 1901. Imagen tomada de commons.wikipedia.org
(public domain). . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2. Placa English Heritage dedicada a Fisher en la casa Inverforth.108
4.3. Gráfica de la función de verosimilitud para una muestra de
tamaño n de la distribución Uniforme continua en el intervalo
[0, θ]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.4. Estimación máximo verosı́mil para la familia Gama. . . . . . 125
4.5. Dulces smarties. Tomada de pixabay.com (imágenes gratuitas
de alta calidad). . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.6. Comportamiento de las funciones a priori, a posteriori y de
verosimilitud para la proporción de marcas defectuosas y dis-
tintos valores de la muestra en el ejemplo 4.22. . . . . . . . . 133
4.7. El estimador T1 = X es insesgado para µ en el ejemplo 4.26. . 142
4.8. El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado
para σ 2 , pero tiene un error cuadrático medio menor que T2
(ejemplo 4.26). . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.9. Ilustración de la consistencia de X en el contexto del ejemplo
4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.10. Ilustración de la consistencia de S 2 en el contexto del ejemplo
4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Índice de figuras xiii
5.1. Intervalos correspondientes a 100 muestras para tamaños de

muestra 10, 30 y 50, respectivamente y desviación estándar
de 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
5.2. Intervalos del 99 % de credibilidad para el ejemplo 5.10. . . . 217
5.3. Intervalos obtenidos por simulación para diferentes valores de
σ y distintos tamaños de muestra. . . . . . . . . . . . . . . . 219
6.1. Función potencia del ejemplo 6.1. . . . . . . . . . . . . . . . . 236

6.2. Funciones potencia del ejemplo 6.2. . . . . . . . . . . . . . . . 238
6.3. Funciones de densidad de la estadı́stica de prueba S = X bajo
ambas hipótesis y tamaños de los errores. . . . . . . . . . . . 246
6.4. Probabilidad posterior del modelo por tamaño de muestra. . 300
Prólogo
Es para mı́ un honor el que los autores me hayan pedido escribir el prólogo
a este libro. Lo es porque tengo un respeto muy grande por su trayectoria
académica y porque todos ellos fueron destacados estudiantes de la Maestrı́a
en Estadı́stica en la que tuve la suerte de participar desde su inicio; de hecho,
todos fueron mis alumnos del curso de Inferencia Estadı́stica que durante
muchos años he impartido. Es importante hacer notar que algunos de estos
autores obtuvieron posteriormente su doctorado mientras que otros atendie-
ron tareas académico-administrativas y de superación. Su participación en
el Departamento de Matemáticas de la Facultad de Ciencias es y ha sido de
enorme valor.
Me tocó estar en el inicio de la Maestrı́a en Estadı́stica e Investigación
de Operaciones, que se ubicó dentro del CCH con la participación muy des-
tacada de la Facultad de Ciencias y del ahora IIMAS. Esto, a principios de
los años 70, en que se inició formalmente un posgrado en estadı́stica.
Esa maestrı́a, junto con otros posgrados, en los 90’s se integraron en
el ahora Posgrado en Ciencias Matemáticas de la UNAM, siendo una de
sus áreas la estadı́stica y teniendo ya la posibilidad de ofrecer el nivel de
doctorado en ese campo particular.
En el posgrado, una materia central dentro de la estadı́stica sigue siendo
la inferencia. Pues bien, los autores de este libro cursaron la materia de
Inferencia Estadı́stica conmigo. Una de ellas la cursó en los inicios, durante
los 70’s, otros dos durante los 90’s, y la más reciente, cursó esa materia ya
entrado el 2000. Sus experiencias compartidas y el interés por hacer un libro
en estadı́stica los llevaron a escribir este tomo que yo califico como excelente.
Este libro, además de satisfacer sobradamente necesidades de los alum-
nos de la Facultad de Ciencias que quieran aprender estadı́stica, contiene
material de nivel de maestrı́a. El libro resulta una fuente de consulta y un
sólido texto para cursos serios introductorios y para cursos intermedios, in-
cluido, repito, el nivel de maestrı́a. Algunas discusiones hechas en el libro
rememoran discusiones en clase cuando he impartido el curso.
xv
xvi Prólogo
Mis felicitaciones por un libro muy necesitado; y me enorgullece como

universitario que un libro hecho por universitarios comprometidos tenga una
calidad que yo califico de internacional. Me siento muy afortunado también
por poder decir que con los autores he mantenido lazos académicos y de
amistad por muchos años.
Dr. Federico O’Reylli Togno

Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas
Universidad Nacional Autónoma de México
Introducción
Se puede decir que la estadı́stica es una disciplina reciente con relación a otras
ramas de las matemáticas, no obstante que desde la antigüedad existieron
actividades relacionadas con el manejo de cifras, tales como las cuentas y
datos vinculados con las poblaciones de las ciudades o, más generalmente,
de los estados; situación que posiblemente es la génesis del término “es-
tadı́stica”. En Rao (1997), el estadı́stico hindú Radhakrishna Rao menciona
que “la estadı́stica tiene gran antigüedad pero escasa historia”, frase que
refleja el hecho de que la estadı́stica es joven como área formal, pero que
prácticamente ha estado presente a lo largo de la historia de la humanidad.
Entre los cientı́ficos que más han aportado a la estadı́stica para conver-
tirla en la disciplina con el carácter matemático y de importante aplicación
para ayudar a explicar fenómenos del mundo real, sobresalen Francis Gal-
ton (1822-1911), Karl Pearson (1857-1936), Charles Spearman (1863-1945),
Ronald Fisher (1890-1962) y Jerzy Neyman (1894-1981), sólo por mencionar
algunos.
La inferencia estadı́stica es una disciplina que se basa en gran medida en
la probabilidad y que ayuda a resolver problemas haciendo conclusiones de
alguna caracterı́stica de la población, usando para ello datos muestrales de la
misma. Por ejemplo, los estadı́sticos pueden realizar estudios de opinión, en
donde a través del punto de vista de algunos ciudadanos que componen una
muestra suficientemente representativa, se puede medir el pulso de temas de
interés para el paı́s.
La estadı́stica involucra conceptos y resultados que pueden resumirse en
grandes temas: análisis exploratorio de datos, distribuciones muestrales, es-
timación puntual, estimación por intervalo y pruebas de hipótesis, los cuales
son fundamentales en el estudio y la aplicación de esta disciplina.
Para la lectura de este documento es importante contar con conocimien-
tos de teorı́a de la probabilidad, ası́ como de cálculo diferencial e integral en
una y varias variables.
xvii
Capı́tulo 1
¿Qué es la estadı́stica?
El progreso de la ciencia con frecuencia se adscribe a la experimentación.

El investigador lleva a cabo un experimento, una encuesta o un conjunto
de mediciones; obtiene datos y con base en ellos se busca sustentar una
hipótesis o responder a una pregunta de investigación. Es decir, a partir de
un experimento particular, es deseable generalizar hacia la clase de todos los
experimentos similares.
La estadı́stica no se refiere únicamente a la recolección de datos y a la
presentación de cuadros y tablas resumen. Actualmente se comprende co-
mo la ciencia que basa la inferencia en datos observados y toma decisiones
en términos de incertidumbre. Aunque en su estado actual no puede ma-
nejar todas las situaciones que se presentan alrededor de la incertidumbre,
constantemente se desarrollan nuevas técnicas de análisis.
La estadı́stica está presente en muchos ámbitos: el cientı́fico, el social y el
empresarial, sólo por mencionar algunos. Por ejemplo, tanto en la iniciativa
privada como en el ámbito gubernamental, es vital contar con un manejo
adecuado de la información y el análisis de grandes bases de datos que sirva
a los diferentes agentes de la economı́a y la polı́tica al momento de tomar
decisiones. Actualmente existen profesionales de la estadı́stica que utilizan
diversas técnicas de este campo en empresas privadas, tales como casas en-
cuestadoras que se dedican a hacer estudios de mercado, o bien en industrias
relacionadas con diversos campos de la actividad económica.
Ejemplos de instituciones en donde el uso de la estadı́stica es fundamen-
tal son: el INEGI, las secretarı́as de estado, el IMP, PEMEX, el Banco de
México y las aseguradoras, sólo por mencionar algunas, pues el análisis y mo-
delado de datos puede hacerse prácticamente en cualquier entidad en donde
se cuente con información de cierto fenómeno o proceso. Adicionalmente, la
1
2 1. ¿Qué es la estadı́stica?
estadı́stica juega un papel importante en los estudios de mercado y otros pro-

cesos en donde es necesario obtener datos para posteriormente analizarlos y
llegar a conclusiones mediante un modelo que dependerá de la naturaleza de
dicha información. Algunos estadı́sticos participan en el diseño y validación
de encuestas y conteos rápidos relacionados con procesos electorales.
Se puede decir entonces que la estadı́stica se ocupa de los métodos cientı́fi-
cos para recolectar, organizar, resumir, presentar y analizar datos usando
modelos, ası́ como de obtener conclusiones válidas y tomar decisiones con
base en ese análisis. Es la rama de la matemática que utiliza conjuntos de
datos para obtener inferencias basadas en el cálculo de probabilidades.
En los siguientes párrafos se pretende explicar la relación entre la proba-
bilidad y la estadı́stica, ası́ como establecer la diferencias entre los enfoques
para analizar un conjunto de datos.
1.1. La probabilidad y la estadı́stica

La teorı́a de probabilidad permite modelar ciertos fenómenos que ocurren en
la naturaleza, siendo el modelo básico un espacio de probabilidad (Ω, F, P) y
una variable aleatoria X definida en ese espacio. En el contexto paramétrico,
dada una variable aleatoria X, se tiene asociada una función de densidad
f (x; θ), la cual actúa en función de caracterı́sticas desconocidas llamadas
parámetros.
Gracias al conocimiento de la función de densidad de probabilidad, y
por lo tanto de la función de distribución de una variable aleatoria X, se
facilita la construcción de espacios de probabilidad adaptados a fenómenos
aleatorios concretos. Es decir, gracias a la teorı́a de la probabilidad se pue-
de construir un modelo para describir una determinada variable aleatoria
real a través de su función de distribución. Por ejemplo, gracias a la teorı́a
de la probabilidad se pueden hacer aseveraciones como “el número de ac-
cidentes que ocurren en una importante intersección vial de la Ciudad de
México durante un determinado periodo de tiempo se puede modelar como
una variable aleatoria X que tiene una distribución Poisson(λ)” o “la vida
(tiempo de supervivencia) de un cierto tipo de foco tiene una distribución
Exponencial (λ)”. Asimismo, se pueden contestar preguntas probabilı́sticas
relacionadas con la variable aleatoria como: ¿cuál es la probabilidad de que
no haya accidentes en ese cruce importante de avenidas en un dı́a determi-
nado? o ¿cuál es la probabilidad de que el foco dure más de un determinado
periodo de tiempo? Sin embargo, las respuestas a estas preguntas quedan
en términos de parámetros; por ejemplo, si X tiene distribución Poisson(λ),
P(X = 0) = e−λ , está en función de λ, donde λ > 0. Si se conociera el
1.2. Enfoques de la estadı́stica 3
valor de λ, serı́a posible obtener un valor numérico para las probabilidades

de interés asociadas a la variable aleatoria.
De esta manera, si se desea profundizar en la forma de adaptar un mo-
delo probabilı́stico a cada fenómeno concreto, serı́a necesario llevar a cabo
observaciones del fenómeno en cuestión con la finalidad de poder hacer con-
clusiones acerca de los parámetros de una población y llegar a resultados
numéricos en el cálculo de probabilidades.
Es aquı́ donde la estadı́stica juega un papel importante al analizar e in-
terpretar la información obtenida de una cierta población con la finalidad
de poder concluir sobre la ley de probabilidad que rige un fenómeno aleato-
rio. Este procedimiento se conoce como inferencia estadı́stica o estadı́stica
matemática.
Cuando se tiene un conjunto de observaciones acerca del fenómeno con-
siderado, se entra al terreno de la estadı́stica con la finalidad de obtener
información acerca de la población en estudio con base en un conocimien-
to parcial o no exhaustivo de dicha población, ya que en la mayorı́a de los
casos, una observación exhaustiva es imposible o muy costosa. Por ejemplo,
si se desea saber la intención del voto para una elección presidencial, no
se encuestará a todos los ciudadanos en edad de votar, sino a una muestra
representativa de la población (cómo elegir una muestra representativa, el
tamaño adecuado de la misma y la forma de hacer la encuesta es objeto de
estudio de otra materia), y con las observaciones obtenidas y los métodos
de inferencia estadı́stica se puede decir con cierta precisión el porcentaje de
la población que en ese momento votarı́a por cada uno de los candidatos
de la contienda electoral.
Con frecuencia el término estadı́stica se entiende como el proceso de reco-
lección de datos u observaciones, ası́ como el tratamiento numérico que se le
da a estos datos a través de gráficas y medidas que resumen la información,
pero es necesario recalcar que el objetivo de la inferencia estadı́stica es ob-
tener conclusiones acerca de alguna caracterı́stica de la población en estudio
a través del análisis e interpretación de las observaciones. Sin embargo, el
tratamiento numérico de los datos no es menos importante e idealmente un
procedimiento de inferencia va antecedido por un tratamiento descriptivo.
1.2. Enfoques de la estadı́stica

La estadı́stica se puede analizar desde dos enfoques: el descriptivo y el de
inferencia o inferencial.
Enfoque descriptivo: resumen y descripción de un conjunto de datos

mediante gráficas y medidas descriptivas.
Enfoque de inferencia: análisis e interpretación de la información

obtenida de una muestra de la población para hacer conclusiones ge-
nerales acerca de las caracterı́sticas desconocidas de dicha población.
De acuerdo a lo que se desea conocer del parámetro, la inferencia es-

tadı́stica puede abordarse de la siguiente manera:
1. Estimación puntual: consiste en obtener un valor numérico único
para el parámetro, que represente de la mejor manera el proceso que
generó las observaciones.
2. Estimación por intervalos: consiste en obtener un rango de valores
que el parámetro puede tomar, que represente de la mejor manera el
proceso que generó las observaciones.
3. Pruebas de hipótesis: consiste en contrastar dos aseveraciones acer-
ca de la distribución de una variable aleatoria (usualmente representa-
das en términos de valores que el parámetro puede tomar).
Asimismo, la inferencia estadı́stica se puede realizar desde una perspec-
tiva diferente (no clásica) conocida como método Bayesiano o estadı́stica
Bayesiana, el cual es un paradigma en el que se asocia una distribución ini-
cial al parámetro y, junto con las observaciones, se obtiene una distribución
final para dicho parámetro. Con base en este planteamiento, se hacen infe-
rencias desde la óptica de estimación puntual o por intervalos y de pruebas
Bayesianas.
También puede hablarse de inferencia estadı́stica paramétrica y no pa-
ramétrica. En el primer caso se conoce la forma de la distribución pero se
desconocen los parámetros y es sobre éstos que se realizará la inferencia. En
el segundo caso se desconocen la forma de la distribución y los parámetros
y las inferencias se hacen sobre ciertas caracterı́sticas que no tienen por qué
corresponder a parámetros de una distribución.
Definición 1.1 Al conjunto de valores que el parámetro θ puede tomar se

le llama espacio paramétrico (o parametral) y se le denota por Θ.
Ejemplos:
En el caso de la distribución Bernoulli Θ = [0, 1].

En el caso de la distribución Poisson Θ = (0, ∞).
La inferencia estadı́stica también suele denominarse estadı́stica inductiva

o inferencia inductiva, pues va de lo particular a lo general al hacer conclu-
siones de una población a partir de una muestra representativa de la misma.
La necesidad de trabajar con un conjunto reducido de la población está aso-

ciada a varios factores, siendo uno de los más importantes el económico. Se
puede decir que la población es el conjunto de observaciones o individuos
sobre los que se desea información y de ella se extrae un subconjunto al que
se denomina muestra. El procedimiento para obtener las observaciones con
las cuales se intenta disminuir el grado de desconocimiento de θ debe ser tal
que la recolección de datos se realice siempre bajo las mismas condiciones y
sin importar los resultados anteriores.
En un contexto experimental, la definición de la muestra puede depender
de cuáles son los tratamientos que se desea comparar, bajo qué condicio-
nes y si las comparaciones se harán con tamaños de muestra y repeticiones
iguales. En la literatura sobre diseño de experimentos se aborda este
tipo de planteamiento. Si se hace referencia al estudio de poblaciones, hay
diferentes formas de obtener una muestra representativa. Aunque la teorı́a
del muestreo requiere una asignatura aparte, a continuación se resumen las
principales caracterı́sticas de los muestreos probabilı́sticos más usuales.
Muestreo aleatorio simple: se trata de un procedimiento de muestreo (sin
remplazo), en el que se seleccionan n unidades de las N en la población,
de forma que cualquier posible muestra del mismo tamaño tenga la misma
probabilidad de ser elegida.
Muestreo por conglomerados: se divide la población en grupos de acuerdo
con su proximidad geográfica o de otro tipo (conglomerados). Se busca que
cada grupo sea heterogéneo y que tenga representadas todas las caracterı́sti-
cas de la población. Se selecciona una muestra de conglomerados al azar y
se toma el conglomerado completo o una muestra del mismo.
Muestreo estratificado: se divide la población en grupos homogéneos (es-
tratos) de acuerdo con las caracterı́sticas a estudiar. Por ejemplo, en un estu-
dio de las caracterı́sticas socioeconómicas de una ciudad los estratos pueden
ser las colonias de la misma, ya que las colonias suelen presentar carac-
terı́sticas diferenciales. Se selecciona una muestra aleatoria de cada estrato
tratando de que todos los estratos de la población queden representados.
En un muestreo estratificado se consideran todos los estratos y en cada
uno se considera una muestra de individuos. En el muestreo por conglome-
rados se seleccionan al azar los conglomerados que serán considerados y una
vez elegidos se estudian todos los individuos de cada conglomerado.
Existen otros tipos de muestreo, pero todo lo que se verá en los siguientes
capı́tulos está pensado para observaciones obtenidas con muestreo aleatorio
simple.
1.2.1. El concepto de muestra aleatoria

El muestreo aleatorio simple garantiza una muestra representativa de la po-
blación y la obtención de observaciones independientes. Esta terminologı́a de
muestreo puede entenderse si se considera una de las siguientes situaciones
que aparecen frecuentemente en la estadı́stica:
(1) Se extraen los objetos, uno cada vez, de una colección finita llamada
población y se determina una caracterı́stica particular de interés de ca-
da objeto extraı́do. Después de cada observación y antes de la siguiente
extracción, se devuelve el objeto extraı́do y se mezcla la población de
objetos.
(2) Se extraen los objetos de una población finita como en (1), excepto
que los objetos no se remplazan.
La población de objetos puede ser una colección de personas y la carac-

terı́stica observada puede ser el peso, color de ojos, preferencia polı́tica o
alguna otra.
Si se supone que cada selección es aleatoria, el muestreo en (1) recibe el
nombre de muestreo aleatorio con remplazo y en (2) muestreo aleatorio sin
remplazo o muestreo aleatorio simple.
En cierto sentido, el muestreo aleatorio sin remplazo es mejor que el
muestreo aleatorio con remplazo, ya que algunas veces la mezcla que se
requiere con el remplazo de los objetos no siempre es fácil de conseguir.
Considerando los casos extremos, suponga que hay solamente 2 objetos en la
población; cuando se extrae uno de ellos, la selección de un segundo objeto
proporciona la información completa acerca de la población original si el
primero no fue remplazado. Por otro lado, si una población es muy grande
con respecto al tamaño de la muestra que va a ser extraı́da, es prácticamente
lo mismo si los objetos extraı́dos son o no son remplazados; el muestreo sin
remplazo se convierte en muestreo con remplazo cuando el tamaño de la
población es infinito.
La diferencia básica entre los tipos de muestreo (1) y (2) no está en las
distribuciones marginales de las observaciones individuales, porque en ambos
casos estas observaciones son idénticamente distribuidas. Sin embargo, en el
caso (1) el resultado de cualquier observación no está afectado por los resul-
tados de cualesquiera otras observaciones; las observaciones son fenómenos
aleatorios independientes. En el caso (2) las observaciones no son indepen-
dientes.
Hay otro tipo de situación que ocurre continuamente, diferente de (1) y
(2), en la cual los resultados son matemáticamente del mismo tipo que (1):
(3) Las observaciones se obtienen como resultado de realizaciones indepen-

dientes repetidas de un experimento, bajo condiciones que son idénticas
con respecto a los factores que pueden ser controlados.
Esta descripción incluye a (1) como un caso especial, aunque no necesa-

riamente se refiere a una “población” tangible de la cual se va a seleccionar
un objeto. Sin embargo, es posible imaginar una población muy grande de
posibles resultados, en donde en cada repetición del experimento se cuen-
ta con la misma colección que estaba disponible en el primer ensayo. Esto
es, repetir el experimento bajo condiciones idénticas significarı́a que el pri-
mer resultado es “remplazado” y es nuevamente uno de los candidatos a
ser “extraı́dos” la siguiente vez. En ambos tipos de muestreo (1) y (3), las
observaciones son independientes e idénticamente distribuidas. El término
muestreo aleatorio sin más especificación se referirá a tal proceso.
Suponga que cuando se extrae un objeto la caracterı́stica a medir se
denota por X. A la distribución de X se le llama la distribución poblacional.
Ejemplo 1.1 Una urna contiene cuatro bolas numeradas del 1 al 4. Se ex-
traen 2 aleatoriamente, una cada vez. Sea X1 el número de la primera bola
extraı́da y X2 el número de la segunda bola extraı́da. Hay 12 posibles resul-
tados del experimento:
(1, 2) (1, 3) (1, 4) (2, 3) (2, 4) (3, 4)
(2, 1) (3, 1) (4, 1) (3, 2) (4, 2) (4, 3)
Cada uno de estos 12 resultados tiene probabilidad 1/12. A partir de esto,

se pueden calcular las distribuciones de X1 y X2 . Por ejemplo,
P(X1 = 1) = P[(1, 2), (1, 3) o (1, 4)]

1 1 1 1
= P[(1, 2)] + P[(1, 3)] + P[(1, 4)] = + + = .
12 12 12 4
Similarmente:
P(X2 = 1) = P[(2, 1), (3, 1) o (4, 1)]

1 1 1 1
= P[(2, 1)] + P[(3, 1)] + P[(4, 1)] = + + = .
12 12 12 4
De la misma forma se encuentra que para X1 cada uno de los valores posibles
1, 2, 3 y 4 tiene probabilidad 1/4 y que X2 tiene exactamente la misma
distribución, la distribución poblacional.
De esta manera, se diseña un experimento y se lleva a cabo para propor-

cionar la observación X1 de la caracterı́stica observable X. El experimento
se repite bajo las mismas condiciones proporcionando el X2 . El proceso con-
tinúa hasta tener n observaciones X1 , X2 , . . . , Xn de la caracterı́stica X;
a estas observaciones se les llaman los valores muestrales de X y se dice
que constituyen una muestra aleatoria. Note que cuando se ha obtenido una
muestra se tienen n observaciones numéricas (x1 , x2 , . . . , xn ), pero cuando
se está planificando el procedimiento de muestreo y diseñando el método
para obtener inferencias aún no se sabe qué valores numéricos se obtendrán
y deben considerarse n variables aleatorias; estas variables aleatorias serán,
en el contexto que se discute, independientes e idénticamente distribuidas.
Definición 1.2 Si X1 , . . . , Xn es un conjunto de variables aleatorias, inde-

pendientes e idénticamente distribuidas, entonces se dice que X1 , . . . , Xn es
una muestra aleatoria (m.a.).
Observación 1.1 Si X1 , . . . , Xn es una muestra aleatoria, entonces su fun-

ción de densidad conjunta está dada por
n
Y
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ).
i=1
Observación 1.2 La distribución de la muestra aleatoria (o simple-

mente distribución de la muestra) será la función de densidad conjunta
de las variables aleatorias que componen la muestra aleatoria y, por la obser-
vación anterior, se calculará como el producto de las densidades marginales
de dichas variables.
En el siguiente capı́tulo se estudiará el análisis exploratorio de datos

y en el capı́tulo 3 se analizarán funciones de la muestra aleatoria y sus
caracterı́sticas con la finalidad de usarlas posteriormente en el proceso de
estimación de parámetros.
Para cerrar este capı́tulo, se abordan brevemente los conceptos de paráme-
tros de localización y escala.
1.3. Familia de localización y escala

Una familia de localización y escala es una familia de distribuciones con
elementos obtenidos por traslación y cambio de escala de una familia de
elementos estándar.
1.3. Familia de localización y escala 9
Sea Z una variable aleatoria con distribución conocida. A las distribu-

ciones de probabilidad de la variable aleatoria X que se pueden definir de la
forma:
X = a + bZ, a, b ∈ R, b > 0
se le denomina familia de localización y escala construida a partir de la
distribución de Z.
En particular, si Z es una variable aleatoria continua con función de
densidad de probabilidad f (·), la familia de funciones de densidad:

1 x−a
f (x; a, b) = f , a ∈ R, b > 0
b b
forman la familia de localización y escala de f (x).

El parámetro de escala expande a la distribución si b > 1 y la contrae si
b < 1. El parámetro de localización a traslada a la densidad por |a| unidades
a la derecha si a > 0 o a la izquierda si a < 0.
• Si b = 1 se tiene una familia de localización: f (x; a) = f (x − a) .
• Si a = 0 se tiene una familia de escala: f (x; b) = 1b f xb .
Ejemplo 1.2 La familia de distribuciones normales:

1/2
1 1
f (x) = exp − x2
2π 2
1/2
1 1 2
f (x; a, b) = exp − 2 (x − a) , con a = µ y b = σ
2πb2 2b
Ejemplo 1.3 La familia de distribuciones exponenciales:
f (x) = e−x , x > 0

1 −(x−a)/b
f (x; a, b) = e ,x>a
b
f (x; a) = e−(x−a) , x > a
Ejemplo 1.4 La familia de distribuciones Cauchy:

1 1
f (x) = , x∈R
π 1 + x2
1 1
f (x; a, b) = , x∈R
πb 1 + x−a 2
b
Capı́tulo 2
Estadı́stica descriptiva
Se ha planteado ya que la recolección de datos es un proceso que requiere

planeación. Una vez que los datos están disponibles, su complejidad puede
variar tanto en el número, como en el tipo de variables que se miden o regis-
tran. Un procedimiento de análisis comienza con la extracción de resúmenes
útiles; ası́, cualquier procedimiento inductivo acerca de una población en
estudio debe confirmar las hipótesis planteadas mediante el análisis explo-
ratorio. Es por ello que la estadı́stica descriptiva es el inicio de cualquier
procedimiento de análisis estadı́stico. En este capı́tulo se proporcionan los
elementos básicos para llevar a cabo un análisis exploratorio de datos.
2.1. Introducción
La estadı́stica descriptiva se distingue de la inferencia estadı́stica en que
la primera tiene como objetivo resumir un conjunto de datos en lugar de
utilizarlos para hacer inferencias de la población que se cree que dichos da-
tos representan. Esto generalmente significa que la estadı́stica descriptiva,
a diferencia de la inferencia estadı́stica, no se desarrolla sobre la base de
la teorı́a de la probabilidad. Su objetivo primario es entonces analizar un
grupo determinado, resumiendo los datos de manera que se pueda enfatizar
la información relevante que sea útil para el planteamiento de preguntas y
modelos.
Este tema se puede abordar desde diferentes ángulos, pero considerando
el objetivo del presente texto, que está más enfocado a la inferencia estadı́sti-
ca, sólo se hace una breve revisión de los conceptos más importantes de la
estadı́stica descriptiva. Se utilizan para ello datos que están disponibles en
el paquete estadı́stico R, con el fin de ilustrar también el uso y resultados de
11
12 2. Estadı́stica descriptiva
este software. La razón principal para usar R es que este paquete es asequi-
ble por ser de uso libre y que, además de la popularidad que ha adquirido
en los últimos años en el ámbito educativo, se utiliza ampliamente en otros
sectores.
También se exhiben los términos más importantes del análisis explorato-
rio de datos.
2.2. Datos y variables

Una premisa básica en el análisis estadı́stico es que el origen del conocimien-
to estadı́stico está en los datos. Cualquier procedimiento inductivo acerca de
una población en estudio debe confirmar la fuerza de las diferencias encon-
tradas mediante un procedimiento exploratorio. Es por ello que la estadı́stica
descriptiva debe anteceder a cualquier procedimiento de inferencia.
Una muestra es una parte de la población obtenida y se entiende por
datos a las mediciones u observaciones recolectadas de una muestra. Los
individuos son las personas, animales o cosas descritos en un conjunto de
datos; a veces se les llaman unidades experimentales. Una variable es cual-
quier caracterı́stica de un individuo. Las variables pueden tomar distintos
valores para distintos individuos.
Por ejemplo, los datos para un estudio del nivel socioeconómico y cultural
de los estudiantes de la Facultad de Ciencias tienen que hacer referencia a
todos los alumnos. Estos son los individuos descritos por el conjunto de
datos. Para cada individuo, los datos contienen los valores de variables como
la edad en años, el sexo (hombre o mujer), situación laboral (trabaja o no),
tipo de horario (matutino, vespertino, mixto), ingreso mensual del principal
sostén económico de su familia, tipo de entretenimientos (cine, TV, teatro,
otro), práctica de deportes (sı́, no), deporte preferido, entre otros.
No existe una única clasificación con respecto a la naturaleza de los datos.
A continuación se darán dos clasificaciones de los datos considerando dos
criterios: el tipo de escala en la que se miden los datos y la manera en la que
se recolectó la información.
2.2.1. Tipos de variables

De acuerdo a su tipo, se puede clasificar a las variables en cualitativas y
cuantitativas.
Los datos cuantitativos son aquellos en los que las observaciones se miden
en una escala numérica. Los datos no-numéricos que sólo se pueden clasificar
por categorı́as se conocen como datos cualitativos o datos categóricos.
2.2. Datos y variables 13
El número de hijos que tienen las familias en cierto poblado, el sueldo

que perciben los trabajadores de cierta empresa, son datos cuantitativos.
Sin embargo, el tipo de sangre (O, A, B, AB) de los pacientes de cierto
hospital y el estado civil de las personas (soltero, casado, divorciado) son
datos categóricos.
2.2.2. Escalas de medición

Para considerar la precisión con la que se evalúan los diferentes valores,
existen cuatro niveles de medición, los cuales se usarán de acuerdo al tipo
de variable que se esté usando.
Dato categórico en escala nominal. Como su nombre lo dice, este
tipo de variables hace referencia a “nombres”. Básicamente es una cla-
sificación de los datos con respecto a cierto criterio. En esta escala no
hay ningún tipo de orden entre los datos. Son simples identificadores y
son completamente arbitrarios. La única operación que se puede rea-
lizar con este tipo de escala es el de conteo de los datos con el mismo
identificador. Ejemplos de datos en esta escala son el tipo de sangre de
los pacientes de cierto hospital y el estado civil de las personas.
Dato categórico en escala ordinal. Desde un punto de vista formal no
tienen un orden; sin embargo, se le puede asignar uno que tenga sentido
ya sea “creciente” o “decreciente”. Por ejemplo, pequeño, mediano o
grande; o mucho, poco o nada. Los valores de esta escala representan
categorı́as con cierto orden asociado pero no en una cantidad especı́fica,
es decir, no se puede determinar la distancia entre las categorı́as, sólo es
interpretable el orden entre sus valores. Se pueden hacer operaciones
de igualdad y “orden de magnitud”. Generalmente representan una
cualidad que se está “midiendo” y establecen si una observación tiene
más de una cualidad que otra. Un ejemplo de datos en esta escala es
el nivel socio-económico de las personas en una ciudad.
Dato cuantitativo en escala de intervalo. Mediante esta escala se
puede medir exactamente la intensidad con la que se posee una ca-
racterı́stica. Para ello se usa una unidad de medición cuyo origen se
denomina “cero flotante” para enfatizar que cuando dicho origen
se alcanza no implica la ausencia del atributo. Esta escala representa
magnitudes, con la propiedad de igualdad de la distancia entre puntos
de escala de la misma amplitud. Aquı́ se puede determinar el orden
(formal) entre sus valores, hacerse comparaciones de igualdad, y medir
la distancia existente entre cada valor de la escala. La distancia igual
entre puntos de la escala significa que puede saberse cuántas unidades
de más tiene una observación comparada con otra, con respecto a cier-
ta caracterı́stica analizada. El ejemplo por excelencia de este tipo de
escala es cualquier escala de temperatura, ya que el cero en ellas no
significa que no haya temperatura.
Dato cuantitativo en escala de razón. Se dice que esta escala es la más

completa. Tiene las mismas propiedades que la escala de intervalo, pero
sı́ existe la noción de cero “absoluto”, ya que se sitúa un punto cero fijo
que al ser alcanzado implica ausencia de un atributo. En este caso, es
posible realizar operaciones aritméticas de producto y cociente, y ası́
comparar mediante proporciones o razones. A iguales diferencias entre
los números asignados corresponden iguales diferencias en el grado de
atributo estudiado. Ejemplos de datos en esta escala son longitud, peso,
distancia, ingresos, precios, etc.
Ahora, suponga que se va a realizar un estudio médico y para ello se

dispone de un conjunto de variables referentes a un grupo de pacientes. Las
variables son:
(a) Género (hombre o mujer).
(b) Edad (en años).
(c) Raza (asiática, blanca, negra u otras).
(d) Fumador (sı́ o no).
(e) Presión sanguı́nea sistólica (milı́metros de mercurio).
(f) Nivel de calcio en la sangre (microgramos por mililitro).
(g) Practica algún deporte o actividad deportiva (1 a 4 dı́as de la semana;

5 a 7 dı́as de la semana; ningún dı́a de la semana).
Como variables categóricas se distinguen a género (en escala nominal),

raza (en escala nominal), fumador (en escala nominal) y actividad deportiva
(en escala ordinal). Como variables cuantitativas se tienen a edad (en escala
de razón), presión sanguı́nea (en escala de intervalo) y nivel de calcio (en
escala de razón).
2.2.3. Formas de recolección

También se puede clasificar a los datos con respecto a la manera en la que
se recolectaron.
2.3. Los datos y R 15
Los datos en sección cruzada son datos que se recolectan de diferentes

elementos o variables en el mismo punto del tiempo (o en el mismo
intervalo de tiempo).
Los datos en serie de tiempo o longitudes son datos que se recolectan
de un mismo elemento o variable en diferentes puntos en el tiempo (o
para diferentes periodos de tiempo).
2.3. Los datos y R

R es un lenguaje y entorno de programación para análisis estadı́stico y gráfi-
co. Se trata de un proyecto de software libre, resultado de la implementación
GNU del lenguaje S. R y S-Plus -versión comercial de S- son, probablemente,
los dos lenguajes más utilizados en investigación por la comunidad estadı́sti-
ca, siendo además muy populares en el campo de la investigación biomédica,
la bioinformática y las matemáticas financieras. R se puede descargar gra-
tuitamente en la página oficial del proyecto http://www.r-project.org/.
Para ilustrar los conceptos fundamentales de la estadı́stica descriptiva,
se considerará un conjunto de datos, crabs que se encuentra en la biblioteca
de R MASS. Los datos corresponden a un marco de datos (data frame) de
200 renglones y 8 columnas, describiendo 5 medidas morfológicas de 50 can-
grejos cada uno de dos colores y de ambos sexos, de la especie Leptograpsus
recolectada en Fremantle, W. Australia1 .
2.3.1. Cargando los datos

Se cargarán los datos desde R de la siguiente manera:
> library(MASS)
> data(crabs)
> help(crabs)
> attach(crabs)
Los datos cargados están en el formato data.frame que es un formato
que está compuesto de varios campos. La ventaja de este tipo de formato es
que se pueden agrupar variables de varios formatos en una sola. Para saber
los campos que contiene el data.frame se puede utilizar la instrucción ls()
de la siguiente manera:
> ls(crabs)
[1] "BD" "CL" "CW" "FL" "index" "RW" "sex" "sp"
1 Campbell, N.A. and Mahon, R.J. (1974). A multivariate study of variation in two
species of rock crab of genus Leptograpsus. Australian Journal of Zoology 22, 417-425.
Este conjunto de datos contiene las siguientes columnas:
sp especie - “B” o “O” para blue u orange.
sex sexo del cangrejo.
index ı́ndice 1 a 50, dentro de cada unos de los cuatro grupos.
FL tamaño del lóbulo frontal (mm).
RW ancho trasero (mm).
CL longitud del caparazón (mm).
CW ancho del caparazón (mm).
BD profundidad del cuerpo (mm).
En este punto se tienen las variables listas para realizar el análisis des-
criptivo.
2.4. Representación gráfica de los datos

Una vez que se obtiene una muestra, para entender con más claridad el tipo
de información que se está analizando, es muy común representar dicha infor-
mación a través de tablas o gráficas. Estas representaciones gráficas son muy
útiles ya que dan un recurso visual que muchas veces facilita el análisis de la
información al mostrar algunos patrones con respecto al comportamiento de
las variables que se están estudiando. En un primer curso de estadı́stica se
estudian datos asociados a una sola variable. Las representaciones gráficas
más comunes son:
Tabla de frecuencias.
Gráfica de pastel.
Gráfica de barras.
Histograma.
La información categórica generalmente se resume en tablas o gráfica-

mente con gráficas de barras, diagramas de puntos y gráficas de pastel.
2.4. Representación gráfica de los datos 17
2.4.1. Frecuencia, frecuencia relativa y frecuencia

acumulada
Suponga que se tienen los n elementos de una muestra de tamaño n, obtenida
de una población, con k valores asociados a los eventos observados al realizar
el experimento aleatorio que define la muestra, x1 , x2 , x3 , . . . , xk , y que de
ésta hay fi resultados idénticos a xi (i ∈ {1, . . . , k}).
Los números f1 , f2 , f3 , . . . , fk se conocen como freciencias de ocurrencia
de los valores x1 , x2 , x3 , . . . , xk , respectivamente; y satisfacen
f1 + · · · + fk = n.
Al cociente de una frecuencia fi entre el total de observaciones n (el

tamaño de la muestra), se le conoce como frecuencia relativa de ocurrencia
del valor xi correspondiente. Representando la frecuencia relativa de xi con
fi∗ , se tiene que
fi
fi∗ = , i ∈ {1, . . . , k}.
n
A partir de la definición de frecuencia relativa se obtienen de inmediato
las condiciones para que un conjunto de números sean frecuencias relativas
de los valores de una muestra. Éstas son
0 ≤ f1∗ ≤ · · · ≤ fk∗ ≤ 1 y f1∗ + · · · + fk∗ = 1.
Se conoce como frecuencia relativa acumulada de un valor xi , a la suma

de frecuencias relativas de todos los valores anteriores o iguales al valor xi .
Si Fi representa la frecuencia relativa acumulada de xi entonces
Fi = f1∗ + · · · + fi∗ .
2.4.2. Tablas de frecuencias

Las tablas son muy usadas para resumir información. En R la función para
crear tablas es la función table(). En su uso más simple, table(x) en-
cuentra todos los valores únicos en el vector x y tabula las frecuencias y su
ocurrencia.
La variable sexo (sex) puede ser tabulada como
> table(sex)
sex
F M
100 100
Si se quisieran tabular conjuntamente las variables sexo (sex) y la especie

del cangrejo (sp), se harı́a de la siguiente manera:
> table(sex,sp)
sp
sex B O
F 50 50
M 50 50
2.4.3. Gráficas de barras

Los datos categóricos también se pueden resumir de manera gráfica. La re-
presentación más común quizá sea la gráfica de barras. Una gráfica de barras
es un arreglo simple que acomoda los niveles de la variable en algún orden
y representa su frecuencia con una barra.
Una gráfica de barras es una gráfica en la que las “barras” representan
las frecuencias (o frecuencias relativas) de las diferentes categorı́as.
En R, las gráficas de barras se hacen con la función barplot(). Ésta
usa un resumen de la información, frecuentemente el que hace la función
table(). Los datos resumidos pueden estar en frecuencias o en proporciones.
El resultado gráficamente será el mismo, sin embargo, la escala del eje Y será
distinto.
> barplot(table(sp),xlab="Especie",ylab="Frecuencia")
En la figura 2.1 se presenta una gráfica de barras para la base de datos
de los cangrejos.
2.4.4. Gráficas de pay o pastel

La gráfica de pay o pastel se utiliza para representar las frecuencias relativas
o proporciones de las distintas posibles respuestas de una variable categórica.
Esta grafica, ası́ como la gráfica de barras es ampliamente utilizada en los
medios de difusión de información.
Para hacer una gráfica de pay en R se utiliza la función pie(), que utiliza
argumentos similares al histograma para cambiar colores y agregar nombres:
> pie(table(sp),radius = 0.68, cex=1.1,
col = c("cornflowerblue","coral4"),
labels=NA, main="Especies")
> text(0.1,-0.3,"50%", cex=1.2)
> text(0.1,0.3,"50%", cex=1.2)
> legend(-1.1,-0.56,c("Orange", "Blue"),
fill=c("cornflowerblue","coral4"),cex=0.8)
100
75
Frecuencia
Especie
50 Blue
Orange
25
B O
Figura 2.1: Gráfica de barras correspondiente a las especies B (blue) u O

(orange) de los cangrejos.
En la figura 2.2 se muestra una gráfica de pay correspondiente a la base

de los cangrejos.
Especie
Orange
Blue
Figura 2.2: Gráfica de pay para las especies de cangrejos.

Para ejemplificar el caso de más categorı́as, considere una encuesta con

5 posibles respuestas A, B, C, D y E, codificadas, respectivamente como 1,
2, 3, 4 y 5. Las respuestas obtenidas fueron
4, 2, 3, 2, 1, 2, 3, 3, 3, 3, 4, 3, 5, 3, 3, 2, 2, 4, 3, 2
Para generar el diagrama de pay se realiza lo siguiente:

> respuesta<-scan()
1: 4 2 3 2 1 2 3 3 3 3 4 3 5 3 3 2 2 4 3 2
21:
Read 20 items
La tabla de los resultados obtenidos en la encuesta es:
> (Tabla=table(respuesta))
respuesta
1 2 3 4 5
1 6 9 3 1
> names(Tabla) = c("A","B","C","D","E")
> pie(Tabla, main="Encuesta")
Una gráfica para los datos de la encuesta descritos arriba, puede obser-
varse en la figura 2.3.
Respuesta
A
B
C
D
E
Figura 2.3: Diagrama de pay para las 5 respuestas de una encuesta.

2.4.5. Diagrama de tallo y hojas

El diagrama de tallo y hojas es una variante del histograma para desplegar
la información muestral, especialmente cuando las observaciones tienen dos
dı́gitos y no son conjuntos muy grandes de datos. Algo conveniente de este
diagrama es el hecho de que se conserva la información de las observaciones
en lugar de sólo agruparlas en intervalos. Esta manera de desplegar los datos
se obtiene al ordenar las observaciones de acuerdo a su dı́gito principal. Para
ilustrar mejor este diagrama, antes de hacerlo en R se construirá el siguiente
ejemplo. Supóngase que se tienen las siguientes observaciones:
75 98 42 75 84 87 65 59 63 86 78 37 99 66 90 79 80 89
68 57 95 55 79 88 76 60 77 49 92 83 71 78 53 81 77 58
93 85 70 62 80 74 69 90 62 84 64 73 48 72
Ordenando los datos se tiene lo siguiente:
37 42 48 49 53 55 57 58 59 60 62 62 63 64 65 66 68 69
70 71 72 73 74 75 75 76 77 77 78 78 79 79 80 80 81 83
84 84 85 86 87 88 89 90 90 92 93 95 98 99
Primero se listan los dı́gitos principales a la izquierda de la lı́nea vertical.

Después, para cada observación se anota el segundo dı́gito a la derecha de la
lı́nea vertical en el renglón de su dı́gito principal. Por último, se ordenan los
dı́gitos de cada renglón y a la derecha de la lı́nea para que estén en orden
ascendente. Ası́, el diagrama queda de la siguiente manera:
> stem(x)
3 7
4 289
5 35789
6 022345689
7 01234556778899
8 00134456789
9 0023589
2.4.6. Histograma
Un histograma es la representación visual de la distribución de un conjunto
de datos. Es decir, se intenta tener una idea acerca de cómo se comportan
pensando en una función de densidad empı́rica. El histograma tiene algunas
similitudes con la gráfica de barras (ver la función barplot()), en el sentido
que también utiliza barras para indicar una frecuencia, pero a diferencia del
diagrama de barras, cada barra en el histograma representa la frecuencia
de un intervalo sobre el rango de las observaciones que se tienen. Cuando
se elabora un histograma, se toma una decisión acerca de cómo se va a
dividir el rango de la muestra en intervalos y cuán altas se dibujarán las
barras, dado que únicamente tienen que estar en la proporción correcta. R
tiene varios métodos para la selección de estos intervalos (Sturges, Scott y
Freedman–Diaconis). Las dos maneras de establecer la altura de las barras
son la frecuencia absoluta del intervalo y aquella que hace al área de la barra
igual a la frecuencia relativa del intervalo. Bajo este último método, el área
total de las barras sumará 1, lo cual es conveniente cuando se está pensando
en ajustar el modelo de una distribución de probabilidad.
En la función hist(), la longitud de los intervalos está controlada por el
parámetro breaks. Este puede ser especificado por el nombre de un algoritmo
que los genere, el número de intervalos deseados o la localización exacta de
los extremos de los intervalos deseados (breaks).
La siguiente instrucción imprime gráficas: 2 renglones, 2 columnas:
> par(mfrow=c(2,2))
O, un renglón y 2 columnas:
> par(mfrow=c(1,2))
Para graficar los histogramas la instrucción de R es:
> hist(CW,breaks="Sturges",freq=TRUE,col="lightgray",main=
"Ancho del caparazon", ylab="Frecuencia absoluta")
> hist(CW,breaks=30,probability=TRUE,col="gray",main="Ancho
del caparazon", ylab="Frecuencia relativa")
Los histogramas aparecen en la figura 2.4.

Puede notarse que los histogramas anteriores se graficaron de tal modo
que muestran la frecuencia absoluta (freq=TRUE o probability=FALSE) y
la frecuencia relativa (freq=FALSE o probability=TRUE) de los intervalos
dados, respectivamente.
Procedimiento y consideraciones para la construcción de una tabla

de frecuencias y un histograma
1. Determinar los valores mı́nimo y máximo de las observaciones y calcu-
lar la diferencia entre estos valores. A este número se le conoce como
rango.
Ancho del caparazón Ancho del caparazón
40 0.06
Frecuencia absoluta
Frecuencia relativa
30
0.04
20
0.02
10
0 0.00
20 30 40 50 20 30 40 50
CW CW
Figura 2.4: Histogramas para la caracterı́stica ancho del caparazón de los

cangrejos.
2. Seleccionar el número de clases M de tal forma que estas clases abar-

quen toda la información. Usualmente,
√ una forma aproximada para
elegir el número de clases es M = n ó M = log(n) + 1, donde n es
el número total de observaciones. La idea es utilizar suficientes clases
para mostrar la variación de los datos pero no tantas como para que
haya pocos datos en algunas de las clases. Una regla es que la longi-
tud de las clases debe ser ligeramente mayor que el cociente max−min
M
donde M es el número de clases.
3. El primer intervalo debe tener extremo inferior ligeramente menor que
el mı́nimo de los datos y el último intervalo debe tener extremo superior
ligeramente mayor que el máximo de los datos. Los lı́mites de la clase
son los valores mı́nimo y máximo en cada clase. La marca de clase es
el punto medio del intervalo de clase.
4. Ninguno de los datos debe estar en las fronteras de las clases.
5. Para una tabla de frecuencias se deben enlistar los intervalos de clase
y escribir el número de datos en cada clase, fi , y también la frecuencia
relativa fi∗ = fni .
6. La base de cada barra será la longitud de la clase y la altura será la

correspondiente frecuencia de dicha clase (es decir, el número de datos
que pertenecen a dicha clase).
2.4.7. Boxplot o diagrama de caja y brazos

El boxplot o diagrama de caja y brazos es una manera de representar los
datos de una muestra a través de la información de sus cuartiles (ver sección
2.5). Estos diagramas tienen unas lı́neas que indican la variabilidad presente
fuera del intervalo intercuatil. Es una gráfica que suministra información
sobre los valores mı́nimo y máximo, los cuartiles Q1 , Q2 (mediana) y Q3 , y
sobre la existencia de valores atı́picos y la simetrı́a de la distribución.
Los diagramas de caja muestran la variación de una muestra sin hacer
suposiciones de la distribución probabilı́stica de la cual provienen, es decir,
tienen un enfoque no-paramétrico.
En R existe la instrucción boxplot() para dibujar este diagrama. En el
caso de los datos que se han estado utilizando (crabs):
> boxplot(CW,ylab="Ancho del caparazon")
La gráfica de caja y brazos para “ancho del caparazón” se muestra en la
figura 2.5.
50
Ancho del caparazón
40
30
20
Cangrejos
Figura 2.5: Diagrama de caja y brazos para la caracterı́stica ancho del ca-
parazón de la base de datos de los cangrejos crabs.
También se usan los diagramas de cajas y brazos cuando se busca com-

parar una variable cuantitativa con una variable cualitativa:
> par(mfrow=c(1,2))
> boxplot(CW~sp, xlab="Especie",ylab="Ancho del caparazon")
> boxplot(CW~sex, xlab="Sexo",ylab="Ancho del caparazon")
Para una gráfica de caja y brazos con estas caracterı́sticas, véase la
figura 2.6.
50 50
Ancho de caparazón
40 40
Especie Sexo
Blue Femenino
Orange Masculino
30 30
20 20
B O F M
Especie Sexo
Figura 2.6: Diagramas de caja y brazos para la caracterı́stica ancho del

caparazón por especie y por sexo para los datos de los cangrejos.
Inclusive se puede comparar una variable cuantitativa con más de una

variable cualitativa de manera simultánea:
> boxplot(CW~sp+sex, xlab="Especie y Sexo",ylab="Ancho del
caparazon")
Ver la figura 2.7.
Procedimiento para construir un diagrama de caja y brazos

1. Dibujar un eje de medida vertical y marcar Q1 , Q2 (la mediana) y Q3
en este eje.
2. Construir una caja rectangular cuya base inferior es el cuantil Q1 (pri-
mer cuartil) y su base superior es el cuantil Q3 (tercer cuartil).
B O
50
40
Sexo
Femenino
Masculino
30
20
F M F M
Figura 2.7: Gráfica de caja y brazos para la caracterı́stica ancho del capa-
razón para las diferentes variables asociadas a especie y sexo.
3. Dibujar una lı́nea horizontal dentro de la caja a la altura de la mediana

Q2 .
4. Sea RI el rango intercuartil, es decir, RI = Q3 − Q1 . Dibujar un

segmento de recta del punto medio de la base inferior de la caja hacia
abajo de longitud 1.5 · RI .
5. Dibujar un segmento de recta del punto medio de la base superior de

la caja hacia arriba de longitud 1.5 · RI . A estos dos últimos segmentos
se les conoce como “brazos”.
6. Marcar en el diagrama con puntos aquellas observaciones que estén

por encima y por debajo en una distancia de a lo más 1.5 · RI . A estas
observaciones se les conoce como observaciones atı́picas moderadas.
7. Marcar en el diagrama con asteriscos aquellas observaciones que estén

por encima y por debajo en una distancia de al menos 1.5 · RI . A estas
observaciones se les conoce como observaciones atı́picas extremas.
2.5. Medidas muestrales de tendencia central 27
2.5. Medidas muestrales de tendencia central
Los métodos gráficos vistos en la sección anterior ayudan a visualizar los

patrones de un conjunto de observaciones. Para obtener un resumen más
objetivo, el siguiente paso será obtener valores numéricos para saber dónde
están centrados los datos y la variabilidad presente en ellos. Las dos medidas
de tendencia central más comúnmente utilizadas son la media y la mediana.
2.5.1. La media muestral

La media muestral de un conjunto de n observaciones x1 , x2 , . . . , xn es la
suma de estas observaciones divididas entre n. La media muestral se denota
como x. Es decir, Pn
xi
x = i=1 .
n
Para calcular la media muestral del ancho del caparazón en R, se puede
hacer de la siguiente manera
> (sumaCW=sum(CW))
[1] 7282.9
> nCW<-length(CW)
> (mediaCW<-sumaCW/nCW)
[1] 36.4145
Otra manera es utilizar la función mean() que calcula la media muestral
de un conjunto de datos
> mean(CW)
[1] 36.4145
2.5.2. La mediana muestral

Otra medida de tendencia central muestral utilizada es la mediana definida
de la siguiente manera.
La mediana muestral de un conjunto de n observaciones x1 , x2 , . . . , xn ,
es el valor mc definido en los siguiente dos casos:
Si n es impar, mc es el valor que ocupa la posición n+12 una vez que
los datos han sido ordenados, es decir, mc = x(n+1)/2 .
Si n es par, la mediana es la media aritmética de los dos valores cen-
trales. Cuando n es par, los datos que están en el centro de la muestra
x +x
ocupan las posiciones n2 y n2 + 1; ası́, mc = (n/2) 2((n/2)+1) .
Para calcular la mediana muestral en R, se puede construir una función,

de acuerdo a la definición anterior, como se especifica a continuación:
mediana<-function(x){
n<-length(x)
x<-sort(x) # sort() ordena el conjunto de datos
if(n%%2==0){ # n%%2 es n modulo 2
med<-(x[n/2]+x[1+(n/2)])/2
}else{
med<-x[ceiling(n/2)]} # ceiling() es la funcion techo
return(med)
}
Aplicando esta función, se tiene lo siguiente:
> mediana(CW)
[1] 36.8
Existe una función predefinida en R para el cálculo de la mediana mues-
tral, que es median():
> median(CW)
[1] 36.8
2.5.3. Porcentiles o percentiles

Si el tamaño de la muestra es razonablemente grande, es útil muchas veces
extender el concepto de la mediana y dividir los datos ordenados en cuartos.
Ası́, el punto que divide a la muestra en dos partes es la mediana y los puntos
que dividen a la muestra en cuartos son llamados cuartiles. De manera aún
más general se tiene la siguiente definición.
El 100 × p percentil es el valor tal que, una vez que se han ordenado
los datos de menor a mayor, al menos una proporción del 100 × p % de las
observaciones son menores o iguales a este valor.
Aunque el término correcto es porcentil, por referirse a porcentaje, es
común usar el término percentil.
Existen varias maneras equivalentes de calcular los percentiles, aquı́ se
proporciona una de ellas:
1. Se ordena la muestra de menor a mayor.
2. Se calcula el producto (tamaño de la muestra) × (proporción) = np.
Si np no es entero, el percentil p × 100 será el valor x(dnpe) , donde d·e
es la función techo.
x(k) +x(k+1)
Si k = np es entero, el percentil p × 100 será el valor 2 .
2.6. Medidas de dispersión 29
Claramente, los cuartiles son los percentiles 25, 50 y 75.

Para el cálculo de los percentiles en R, existe la función quantile(), que
recibe la muestra, el valor de p y el método type, la definición dada aquı́
corresponde a type=2, ası́, para calcular el tercer cuartil CW, se hace de la
siguiente manera:
> quantile(CW,0.75,type=2)
75%
42
Pueden darse diversos valores de p, agrupándolo como un vector. Para

calcular los cuartiles 1, 2 y 3 de ambas series se hará de la siguiente manera:
> quantile(CW,c(0.25,0.5,0.75),type=2)
25% 50% 75%
31.5 36.8 42.0
2.6. Medidas de dispersión

Las medidas de dispersión, también llamadas medidas de variabilidad, mues-
tran la variabilidad de una distribución, indicando por medio de un número,
si las diferentes puntuaciones de una variable están muy alejadas de la media
o mediana, o alguna otra medida de tendencia central. Cuanto mayor sea ese
valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a
la media. Ası́ se sabe si todos los casos son parecidos o varı́an mucho entre
ellos.
2.6.1. Varianza y desviación estándar muestrales

Varianza muestral
Para calcular la variabilidad de una distribución respecto de su media, se
calcula la media de las desviaciones de las puntuaciones respecto a la media
aritmética. Pero la suma de las desviaciones es siempre cero, ası́ que lo que
usualmente se toma es un promedio de los cuadrados de las desviaciones. Es
decir, la varianza muestral para un conjunto de observaciones x1 , x2 , . . . , xn
está definida como:
n
2 1 X 2
s = (xi − x) .
n − 1 i=1
Para hacer el cálculo en R, se puede hacer lo siguiente:

> difs.CW=CW-mediaCW # Diferencias respecto a la media

> difs.cuad.CW=difs.CW^2 # Diferencias cuadradas
> sum.difs.cuad.CW=sum(difs.cuad.CW) # Suma
> var.CW=(sum.difs.cuad.CW)/(nCW-1) # Varianza muestral
> var.CW # Imprime el resultado
[1] 61.96768
Haciendo el cálculo de la varianza muestral para CM con menos variables
auxiliares
> x=CW # Para hacer la notacion menos pesada
> var.CW=sum((x-mean(x))^2)/(length(x)-1) # Varianza muestral
> var.CW # Imprimir el resultado
[1] 61.96768
Ahora, utilizando la función var(), la cual calcula automáticamente la
varianza muestral
> var(CW)
[1] 61.96768
Desviación estándar muestral

La varianza a veces no se interpreta claramente, ya que se mide en unidades
cuadráticas. Para evitar ese problema se define otra medida de dispersión,
que es la desviación tı́pica, o desviación estándar, que se halla como la raı́z
cuadrada positiva de la varianza. La desviación tı́pica informa sobre la dis-
persión de los datos respecto al valor de la media en las mismas unidades
que los datos; cuanto mayor sea su valor, más dispersos estarán los datos.
Ası́, la desviación estándar muestral estará dada por
v
√
u n
u 1 X 2
s = s2 = t (xi − x) .
n − 1 i=1
Haciendo el cálculo en R. La función sqrt() calcula la raı́z cuadrada del

valor dado
> (desv.est.CW=sqrt(var.CW))
[1] 7.871955
También se puede utilizar la función sd():
> sd(CW)
[1] 7.871955
2.6. Medidas de dispersión 31
2.6.2. Rango muestral

Se denomina rango estadı́stico o recorrido estadı́stico al intervalo entre el
valor máximo y el valor mı́nimo, por ello tiene las mismas unidades que
los datos. El rango muestral es el tamaño del intervalo más pequeño que
contiene a todas las observaciones. Permite obtener una idea de la dispersión
de los datos: cuanto mayor es el rango, más dispersos están los datos de un
conjunto. Para un conjunto de observaciones {x1 , x2 , . . . , xn }, el rango está
definido por:
Rango = máx {x1 , x2 , . . . , xn } − mı́n {x1 , x2 , . . . , xn } .
Haciendo el cálculo en R,
> (rango.CW<-max(CW)-min(CW))
[1] 37.5
2.6.3. Rango intercuartil

El rango intercuartil es la diferencia entre el tercer y el primer cuartil de una
muestra. Es una medida de la dispersión estadı́stica; a diferencia del rango,
no se ve afectada de la misma manera por datos atı́picos. Sea Q1 y Q3 los
cuartiles 1 y 3 respectivamente de una muestra {x1 , x2 , . . . , xn }, entonces el
rango intercuartil estará dado por:
rango intercuartil = Q3 − Q1 .
Haciendo el cálculo en R:
> CW.Q1.Q3<-quantile(CW,c(0.25,0.75),type=2)
> (CW.R.I<-diff(CW.Q1.Q3))
10.5
Resumen de la información y comparativo
Se hace ahora un resumen de los resultados obtenidos para el ancho del

caparazón de los cangrejos (CW) estudiado. Las estadı́sticas muestrales son:
CW
mı́n 17.1
Tendencia Q1 31.5
central x 36.4145
me 36.8
Q3 42.0
máx 54.6
Rango muestral 37.5
Dispersión Rango intercuartil 10.5
Desv. Estándar 7.871955
Varianza 61.96768
2.7. Otras medidas de resumen

Sesgo
Se habla de sesgo negativo o hacia la izquierda si la cola izquierda es
más larga, es decir, si la distribución está concentrada a la derecha.
Se habla de sesgo positivo o hacia la derecha si la cola derecha es más

larga, es decir, si la distribución está concentrada a la izquierda.
Se define el sesgo como:

µ3
Sesgo = .
σ3
En este caso, µ3 es el tercer momento alrededor de la media.
El sesgo muestral se define como:
1
Pn 3
m3 n i=1 (xi − x̄)
3/2
= 1
P n .
m2 ( n i=1 (xi − x̄)2 )3/2
Curtosis
La curtosis se define como:
µ4
,
σ4
donde µ4 es el cuarto momento alrededor de la media y σ es la desviación
estándar.
En ocasiones se mide con referencia a la distribución normal que tiene
una curtosis igual a 3,
µ4
γ2 = 4 − 3.
σ
2.8. Relaciones lineales entre variables 33
La distribución normal tiene entonces una medida γ2 = 0 y se llama me-

socúrtica. Las distribuciones con una curtosis positiva se llaman leptocúrti-
cas y son muy picudas y con colas pesadas. Las distribuciones con curtosis
negativa se llaman platicúrticas y tienen picos menores o son aplanadas y
con colas ligeras.
La curtosis muestral se define como:
1
Pn
m4 (xi − x̄)4
K = 2 − 3 = 1 Pni=1
n
− 3.
m2 ( n i=1 (xi − x̄)2 )2
2.8. Relaciones lineales entre variables

Considere las variables aleatorias continuas para la base crabs; si se observa
una gráfica de dispersión para ellas, se nota que existe una relación lineal
entre las parejas de variables.
> pairs(crabs[,4:8])
El resultado de esta instrucción se presenta en la gráfica de dispersión de
la figura 2.8.
6 10 14 18 20 30 40 50
● ●● ● ● ●●●●
● ●
●
●● ● ●●● ●●
● ●
● ●●●
●●● ●
● ●● ● ●●
●● ● ●●●
●●●●● ● ●●●●
●
●● ●
●●●
●● ● ● ●● ●
10 15 20
●●●● ●● ● ●● ●
●●● ● ●● ● ●
●●
●●●●
● ● ●
●● ●●
●●● ●
●●●
●
●
●●●●
●●
●●●●●
●●●●
● ●●●●
● ●●
●●
●
●●●●● ●
●●●
●
●●●
●●
●● ●● ● ●●● ●
● ●
●●
●
●●●●
●
●
●
●
●
●● ● ●●● ● ●●
● ●● ●
● ● ●
●●
●
●●
●
●
● ●●
●●
●● ●●● ●● ● ●●
●
●
●
● ●
●●
●
●●
●●
● ●●●● ●
●●
● ●
●
●
●
●●●●
●●●
●
● ●
● ●●●
●
●●
●●
●
●
●●●
●
●●●
● ● ●● ●● ●●
● ●
●● ● ● ●●●●●● ●● ●
●
●●●
FL
●●●●●
●●
● ●
●● ●● ●●
●●●
● ●●● ●●● ●
●●●
●● ●●
●●
●● ●●
●●● ●
●●
●●
●●●
●
●
●●
● ●● ●●
●●●
●
●
●
●●
●
●●
●
●
●●
●●
●● ● ●
●
●
●●
●
● ●
●
●●
●
●●
●
● ● ●
●●
●
●
●●
●
●
●
●
●
●
●●
●●
● ●
●●●●●●●●
●●
● ●●●
●●●
● ●●●
●● ●●
● ●●
●●
●●
●●●
●
●
●●
●
●
●●●● ●● ●●●
●●●
●
●● ●●
●●
●●●●● ●
●●●
●●
●●
●
● ●
●●● ●●● ●
●●●
● ●● ●
● ●●
●●●
●●●●
●
●
●
●
●
●●
●●
●●
● ● ●●●●●
●●●●●
●
●●
●●●
●● ●● ●
●●
●●●
●
●●
●●
●
● ●
●
●
●●
●
●
●
●
●
●●
●
●●
●●
●●
● ●
●
●
●●●
●●●●
● ●● ● ●●●
●● ●
●●
●● ●●● ●●
●●
●●●
● ●
●●
●●
●●●
●
●●●●●●
● ● ●●
●●
● ●●●●●● ● ●
●
●●●
●
●
●
●●●●●●
●
● ●●
●●
●
●●
●
● ●
● ●●
●
●●
●
● ●●
●●
●●
●
● ● ● ●
● ● ● ●
● ● ● ●
●
● ●● ● ● ● ●● ●
●●
●● ●●●● ●● ●●
●
●
● ● ●●● ●●●●●●●●● ● ●● ●
●
●● ●● ●
● ● ●● ● ●● ●
●● ●
16
● ● ● ● ●
● ●●●● ● ●●●● ●●
●●● ● ●● ●● ●●●●● ●● ●●●●●●●●●
●● ●●●● ● ● ●●●● ● ●
●●● ● ●●
● ●●
● ●●
●
●● ●●
●●●● ● ● ●●●●● ●● ● ●●●●
● ●●
● ● ●●● ●●● ●● ●●
●●●
● ● ●●●● ●●●●● ●●●
●● ●●● ●●
●●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●●●●
●●●
● ●
●
●●
●
●●
●●●●●●
●●
●●
RW ●●
●
●
●
●●●
●
●●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●●●● ●●●
●● ●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●● ●●●●
●●
●●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●● ●
●
●
●
●
●
●
●
●
●
●●●●●
● ●●
●●
●
●●
● ●●
●●●
●
●
●●● ●●●●
●
●●●
●●
●
●●
●
●
●
●
●
●
●
●●
●●
●●
●
●●●
●●
●●
●●
●●
●●
●●●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●●●●
●●
●
●●●●
●
●●
●●
●
●
●●
●
●●
●●●
●
●
●●
●
●
●
●
●●
●
10
●● ●● ●
● ●
●● ●●
● ●●●●● ●
● ● ●●
●●
●●●●●
●
● ●●
● ● ●●
●
●● ● ●●● ●●●
●●●●
● ● ●
● ● ● ●●●
●●●
●
● ●
●●●●● ●●●
●●●
● ●●●
● ●●
● ●● ●●●●●
●●●
●●
● ●●●
●
●● ●
●●
● ●
●● ●●
●●
●● ●●
●● ●
●● ●
●●
●● ● ●●● ●●
● ● ●●
6
● ● ● ● ● ●● ● ● ●● ●
15 25 35 45
●●
● ● ●
●● ● ●●● ●●
●
● ● ● ● ● ●●● ●●
●● ●
●●●●●●●● ●
●●
● ●●
●● ● ●● ●
●
●●
●
●
●
●●
●
●
●●●
●●●●
● ●●●● ●● ●
● ●●●●
●●●● ●●
●
●●●
●●
●
●●● ●
●
●●
●
●●
● ●●●
●●●
●
●●●● ●● ●
●●
● ●● ●
● ●
● ●● ● ●●
●
●●●●
●●●●● ●
● ●●●●●●● ●
●●
● ●
●● ●●● ●●
●●●
●● ●
●●
●●●●●●
●
●● ●●●
● ●
●
● ● ●●
●●●●
● ●●●
● ●●
●●●●
●●●
●
●
●●
●
●●
● ● ●
●●●●
●
●
●●
●
●
●
●●● ●
●●
● ●●
●
● ● ● ●●
●
●
●
●
●
●
●
●
●● ●
●●
●●
●
●
●
●
● ●
●●●
●●●● ● ● ●● ●
● ●
●●●●●
CL
●●
●
●
●
●● ●● ●●
● ●●
●●
●● ●
●●
●
● ●
●
●●
●●●
●
●●●
●
●●●
●
●●
●●
● ● ●
●
●
●● ●
● ●
●●
●
●
●●
●●
●
● ●
●●
●
●
●
●
●●
●
●
●●
● ●
● ●
●
●●●
●
●
●●●
● ●
● ●
●●
●
●● ●●
● ●●● ●●●● ● ●●●
●●●
●●
●●●
●
●
●
●
●
●●● ●
●
●
●
●●●
●
●
●●●●●● ●
●●
●
●
●
●
●
●● ●●●
●●●●
●●
●
●
●●
●●
●●●
●●
●
●
●●●● ●●
● ●
●
●
● ●
●●●
●● ●●
●●
●
●●
● ●
●●
●
●●
●●
●●●
●●●
● ●● ● ●●
●● ●
● ●● ●
●● ●
●●
●
●
●
●● ●
● ●●●●
●● ●
●● ●●●
●
● ●
●
●
●●
●●●●
●
●
●●
●
●●●
● ●●●● ●
● ●
●●●●
●
● ● ●
●
●●●●●
●●
●●●● ●
● ●●●
●● ●●● ●●●
●●●●
● ●
●●●●●
●●
●
●
●
●
●●● ●
●●
● ●
●●● ●●
●
●● ●● ●● ●●
● ● ● ●
● ● ● ●
●
● ● ● ● ●
●● ●●●
● ●●●
●● ● ●
●●
● ●●●●
●
● ●● ●
●
●●
●●●
●
● ● ●● ● ●
●●●●
● ● ●
● ●● ●●● ●●
●
●●
●
● ● ●
●● ●●●●
●● ●●●●● ● ●●●
● ●
● ●● ● ●●
●●
●
●
●
●●
●●
● ●● ●
●●
●
●● ● ●●
●●
●●● ●●●●●
●
● ●
●●
●●
●
●●
●● ●●●●●●●
●●●
●●
●● ●
●● ●●
●
●●●● ●●●●● ● ●● ●●
●
●●
●
●●
●●
●● ●
● ●●
●●●
●
●
●●
●●● ●
●● ●●
40
● ●●●
● ●
●●● ●●
●
●●
● ●
●● ●
●
●
●
●
●
●
●
●
●●●
● ●
●
●●●
●●
●
● ●● ●
●
●
●●
●
● ●●●
● ●
●●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●● ●●
●
●●●●
●●
●
●●
●
●
●
●
● ●●●
●●●
●
CW
●●
●
●● ●●
●
● ●
●● ●● ●
●
●
●
●●
●● ●
●
●●
●
●●
●● ●
●●
●●● ●●●
●
●
●● ● ●● ● ●●
●● ●●
● ●
●●
●●●●●●●
●
●●
●●●● ●●
●●●●
●● ●●
●●
●
●
●
●● ●●●●
●
●
●●
●
●●
●
●●●
●●
●
●
● ●
●●
●
●●
●
●●
●● ●
●●●
●
●
●
●
●
●●
●
●●●
●●●●● ●
●
●●
●
●●
●●●
●●
● ●
●●
●
●●●●●●
●●●
●
●
●●
●
●●
●●
●●
●●
● ●●●
● ●●●
●
●
●●
●●
●●●
●● ●● ●
●●
●●
●●● ●
● ●
●●
●● ●●
●●
●●
●
●
●
●
●
●●● ●●●
●●
●
●●
●●
●●
●●●
● ●
●●
●
●●
●
●●●
● ●
●●●
●●
●●●
●
●●
● ● ●●● ●● ●
●● ●●
● ●●●
●
●●
●●●● ●
● ●●
●●
●
●
●
●
●
● ●
●
●
●●
●
●●●
● ●
● ●●●
●●
●
●●
●●
●●●●
●
●● ●●
●
●●●●●● ●●●
●●
●●
● ● ●●
●● ●●●
●● ● ● ●●
20
● ●● ●● ●
●● ●● ●● ●●
● ● ● ●
●
● ●
● ● ●
●● ●●
●●
● ● ● ● ● ●●●
10 15 20
●
●
●●●● ●●●
●
● ● ●
●
●
●● ● ●●●
●
● ●
●●●
● ●● ●●
●● ●●●●
● ●●
●
●
●● ● ●
● ●● ● ●
●●●● ●● ●●●●
●●●
●●
●
●
●●
●●
●●
●● ●
●●
●●● ●● ●
●●
●
● ●●
●● ●
●●
●
●
●
●●
●●● ●●●●●
●
●●●●●
●
●
●●
●●●● ●
●●
●●●●●●●● ●
● ●● ● ●
●●
●●
●●
●●●
●●●●
● ● ●●
●●
● ●● ● ● ●
●
●
●●
● ●●
●●●
●
●●●
●
● ●
●●● ●
●
●
●●
●
●●●
●●
●
●
●
●
●●
●● ● ● ●●
●
●
●●
●
●
● ●
●
● ●
●
●●● ●●
●
●
●
●
●
●●
●
●●● ●●
●
●
●●
●
● ●●●
●●
BD
●●●●●
●
●●●
● ●●●●●
● ●●●●
●● ●●●●
●●●● ● ●● ●
●●●●●●●
●●
●● ●●● ●●●●● ●●
● ●
● ●
●
●
●●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●
● ●
●
● ●
●
●●
●
●
●●
●●● ●
●●
●●
●
●●
● ●●●●
●●
●●
●
●● ●
●●
●
●
●
●
●●
●●●●
● ●●●●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
● ●
●●
●●
●● ●●●●●●●●●●
● ●●●● ●
●
●●● ●
●●●●●
●
●
●
●●●●
●
●● ● ●●●●
●●●●● ●
● ●●
●●
●● ●●● ●●●
●● ●●●
●
●●
●
●●
●
● ●● ●
●●● ●● ●
●●●
●
● ● ●●
●●●●●
●●
●
●●
●
●●
●●
●● ●
●●●
●
●●
●●●
●●
● ● ●●●
●
●●●●
●● ●●
●●●
●
●●
●●
●●●
●●●
●● ●
● ●
●●●●●● ●●
● ●●
●●● ●●●●●●
●
●
●●●●
●● ●●●●● ●●●
● ●● ●●●●●●
●●●● ●
● ●● ●●●● ●●●
●●
●
● ●●● ●
● ●●
●●
● ●●
●● ●
●●● ●●● ●●● ●●
● ● ● ●
10 15 20 15 25 35 45 10 15 20
Figura 2.8: Gráfica de dispersión para la base crabs y que ilustra la relación
entre las diferentes medidas morfológicas para los cangrejos.
Coeficiente de correlación de Pearson

Para dos variables aleatorias continuas X y Y , se define el coeficiente de
correlación como:
Cov(X, Y )
ρXY = p 2 2 .
(σX σY )
Note que −1 ≤ ρXY ≤ 1, ası́ valores cercanos a −1 y 1 indican una fuerte
relación lineal con pendiente negativa y positiva, respectivamente.
Para una muestra aleatoria de variables (xi , yi ), i = 1, 2, . . . , n; se define
el coeficiente de correlación muestral (conocido como coeficiente de correla-
ción de Pearson) de la siguiente manera:
Pn
(xi − x̄)(yi − ȳ)
r = p Pn i=1 Pn .
[ i=1 (xi − x̄)2 ] [ i=1 (yi − ȳ)2 ]
La información muestral para las variables continuas en los datos crabs,
puede resumirse en la gráfica de la figura 2.9, obtenida con la instrucción:
FL 0.8
0.6
0.91 RW 0.4
0.2
0.98 0.89 CL 0
−0.2
0.96 0.9 1 CW −0.4
−0.6
0.99 0.89 0.98 0.97 BD −0.8
−1
Figura 2.9: Gráfica de correlación para las medidas morfológicas de los can-
grejos.
2.9. Anexo 35
>library(corplot)
>corrplot.mixed(cor(crabs[,4:8]),lower="number",upper="color")
Note que, como se ha observado en el diagrama o gráfica de dispersión,

la asociación lineal es fuerte entre las variables.
2.9. Anexo
A continuación se dan las instrucciones para elaborar algunas de las gráficas
de este capı́tulo a través de la biblioteca ggplot2 de R.
En la siguiente liga se puede encontrar una guı́a rápida para visualización
de datos usando ggplot2.
https://rstudio.com/wp-content/uploads/2016/12/
ggplot2-cheatsheet-2.1-Spanish.pdf
######## Estadistica descriptiva con ggplot2 para los ########

######## ejemplos del capı́tulo 2 ########
>library(MASS)
>library(ggplot2)
>data("crabs")
>help("crabs")
>ls(crabs)
>summary(crabs)
>crabplot = ggplot(data=crabs)
# GRAFICA DE BARRAS
# fill se utiliza para que los ponga de distinto colores de
# acuerdo a sp scale_fill_discrete es para modificar
# las leyendas
>barplot = crabplot + geom_bar(aes(x=sp, fill=sp), alpha=0.4)
+ labs(x=" ", y="Frecuencia") +
scale_fill_brewer(labels=c("Blue","Orange"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=-1)
>barplot
#Las escalas de colores se pueden ver en
#RColorBrewer::display.brewer.all()
# GRAFICA DE PAY para el ejemplo de los cangrejos

>pieplot = crabplot + geom_bar(aes(x=as.factor(1),
fill=as.factor(sp)), width=1)
>pieplot = pieplot + coord_polar(theta ="y") + labs(x="",y="")+
scale_fill_brewer(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=1) + theme_void()
>pieplot
# Alternativa: scale_fill_discrete(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"))
# theme_void() para quitar las coordenadas
#Para el ejemplo de la encuesta

>respuesta = c(4,2,3,2,1,2,3,3,3,3,4,3,5,3,3,2,2,4,3,2)
>t_respuesta = as.data.frame(prop.table(table(respuesta)))
>t_respuesta$respuesta = c("A","B","C","D","E")
>pieplot_encuesta = ggplot(data=t_respuesta, aes(x=factor(1),

y=Freq, fill=as.factor(respuesta))) +
geom_bar(width=1, stat="identity")
>pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y")
+ guides(fill=guide_legend("Respuesta")) +
labs(x="", y="") + theme_void()
>pieplot_encuesta
# otra opción para el ejemplo de la encuesta

>pieplot_encuesta = ggplot(data=t_respuesta,
aes(x=factor(1),y=Freq, fill=as.factor(respuesta)))
+ geom_bar(width=1, stat="identity")
pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y") +
scale_fill_brewer(labels=c("A", "B","C","D","E"),
guide=guide_legend("Respuesta"), type = "seq",
palette="Accent", direction=1) +
labs(x="", y="") + theme_void()
>pieplot_encuesta
#+ guides(fill=guide_legend("Respuesta")) se
#sustituyo por scale_fill_brewer
# HISTOGRAMA
#Frecuencia absoluta
>histogram_abs = crabplot + geom_histogram(aes(x=CW),
binwidth = 4.755) + labs(title="Ancho del caparazón",
2.9. Anexo 37
y="Frecuencia absoluta")
>histogram_abs
#Frecuencia relativa
>histogram_rel = crabplot +
geom_histogram(aes(x=CW, y=..density..),bins=30) +
labs(title="Ancho del caparazón", y="Frecuencia relativa")
>histogram_rel
#Para que aparezcan juntas (ver nota al final de este anexo)
>ggplot2.multiplot(histogram_abs, histogram_rel, cols=2)
# BOXPLOT
>boxplot_cangrejos = crabplot +
geom_boxplot(aes(x="", y=CW),fill="blue", alpha=0.3) +
labs(x="Cangrejos", y="Ancho del caparazón") +
scale_fill_brewer(type = "seq", palette="Set1", direction=-1)
>boxplot_cangrejos
# Especie
>boxplot_especie = crabplot +
geom_boxplot(aes(x=as.factor(sp), y=CW, fill=as.factor(sp)),
alpha=0.3) + labs(x="Especie", y="Ancho del caparazón") +
scale_fill_brewer(labels=c("Blue", "Orange"),
guide=guide_legend("Especie"), type = "seq",
palette="Set1", direction=-1)
>boxplot_especie
#Sexo
>boxplot_sexo = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
labs(x="Sexo", y="Ancho de caparazón")+
scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_sexo
>ggplot2.multiplot(boxplot_especie,boxplot_sexo, cols=2)
#Sexo/Especie
>boxplot_espsex = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
facet_grid(.~as.factor(sp))
+ labs(x="", y="Ancho del caparazón")
+ scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_espsex
# guides(fill=guide_legend("Sexo"))
# Nota: para gráficas múltiples usar easyGgplot2

>install.packages("devtools")
>library(devtools)
>install_github("easyGgplot2","kassambara")
>library(easyGgplot2)
# Usar este comando para gráficas múltiples en una
# figura ggplot2.multiplot(plot1,plot2,plot3,plot4,cols=2)
2.10. Ejercicio
Realice un análisis exploratorio para las variables de la base Cars93, incluida
en la biblioteca MASS de R. La base considera autos seleccionados aleato-
riamente de entre los autos de pasajeros disponibles en el mercado en 19932 ,
listados por el Consumer Reports issue y el PACE Buying Guide.
2 Lock, R. H. (1993). 1993 New Car Data. Journal of Statistics Education (1).
Capı́tulo 3
Estadı́sticas y
distribuciones muestrales
3.1. Introducción
De acuerdo a la definición 1.2, una muestra aleatoria representa un con-
junto de variables aleatorias X1 , . . . , Xn , las cuales son independientes e
idénticamente distribuidas. En este capı́tulo se estudiarán las propiedades
de funciones de la muestra aleatoria que serán fundamentales en el proceso
de inferencia.
Definición 3.1 El espacio de las muestras o espacio muestral es el

conjunto de valores que puede tomar la muestra aleatoria X1 , . . . , Xn y se
denotará por X.
Definición 3.2 Una estadı́stica es cualquier función T (X1 , . . . , Xn ) de la

muestra aleatoria que no depende de parámetros desconocidos.
Se denotará una estadı́stica por T (X1 , . . . , Xn ) o simplemente T (X),

donde X = X1 , . . . , Xn .
Observación 3.1 Note que una estadı́stica, al ser función de variables

aleatorias, es a su vez una variable aleatoria. De manera formal, se está
pidiendo implı́citamente que la función T : Rn → Rk sea Borel medible (me-
dible en la σ-álgebra B n ), donde k es la dimensión de la estadı́stica; no obs-
tante, la condición de medibilidad suele omitirse debido a que las funciones
de la muestra aleatoria que de manera habitual se utilizan, son claramente
39
40 3. Estadı́sticas y distribuciones muestrales
medibles. Pero la importancia de señalar la medibilidad en este momento

es enfatizar el hecho de que las estadı́sticas son variables aleatorias, puesto
que no es posible anticipar el valor que tomarán al obtener observaciones
concretas. Lo anterior tiene la implicación de que será necesario considerar
la función de densidad (o de distribución) de las estadı́sticas, lo que a su vez
permitirá calcular sus caracterı́sticas tales como la esperanza o la varian-
za. En este contexto, es común hablar de la distribución muestral de una
estadı́stica T (X) al referirse a la distribución de la variable aleatoria T (X).
Entre las estadı́sticas más comunes que se utilizarán en procedimientos de

inferencia destacan la media muestral, la varianza muestral y las estadı́sticas
de orden, las cuales se estudiarán con mayor detalle en este capı́tulo. A
continuación se enlistan algunas de estas funciones de la muestra aleatoria
con su respectiva notación.
Pn
Xi
T (X) = i=1
n := X̄ media muestral.
Pn 2
i=1 (Xi −X̄)
T (X) = n−1 := S 2 varianza muestral.
T (X) = mı́n {X1 , X2 , . . . , Xn } := X(1) mı́nima estadı́stica de orden.
T (X) = máx {X1 , X2 , . . . , Xn } := X(n) máxima estadı́stica de orden.

n
1
Xir := Mr
P
T (X) = n r-ésimo momento muestral.
i=1
A continuación se probará que, en general, la esperanza de la media mues-

tral es igual a la media poblacional, mientras que la varianza de la media
muestral es la varianza poblacional dividida entre el tamaño de la mues-
tra. Asimismo, la esperanza de la varianza muestral es igual a la varianza
poblacional.
Proposición 3.1 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que

E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces
σ2
E(X̄) = µ y Var(X̄) = .
n
Demostración.
Pn n
i=1 Xi 1X 1
E(X̄) = E = E(Xi ) = · nµ = µ.
n n i=1 n
3.1. Introducción 41
Ahora,
Pn n
nσ 2 σ2

i=1 Xi 1 X
Var(X̄) = Var = 2
Var(Xi ) = 2 = .
n n i=1 n n
A continuación se da una identidad que será de utilidad más adelante.
Observación 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), enton-

ces
n
X n
X
(Xi − µ)2 = (Xi − X̄)2 + n(X̄ − µ)2 . (3.1)
i=1 i=1
Demostración. Ahora se comprobará (3.1):
n
X n
X
(Xi − µ)2 = (Xi − X̄ + X̄ − µ)2
i=1 i=1
n
X
(Xi − X̄)2 + 2(Xi − X̄)(X̄ − µ) + (X̄ − µ)2

=
i=1
n
X n
X
= (Xi − X̄)2 + 2(X̄ − µ) (Xi − X̄) + n(X̄ − µ)2
i=1 i=1
n
X
= (Xi − X̄)2 + n(X̄ − µ)2 .
i=1
En el siguiente resultado se probará que, en general, E(S 2 ) = σ 2 .
Proposición 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que

E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces
E(S 2 ) = σ 2 .
Demostración.
" n #
2 1 X
2
E(S ) = E (Xi − X̄)
n−1 i=1
" n #
1 X
2 2
= E (Xi − µ) − n(X̄ − µ)
n−1 i=1
( n )
1 X
2
2

= E (Xi − µ) − nE (X̄ − µ)
n − 1 i=1
" n #
1 X
= Var(Xi ) − n · Var(X̄)
n − 1 i=1
nσ 2

1 2
= nσ −
n−1 n
= σ2 .
Ejemplo 3.1 Se quiere conocer la probabilidad θ de obtener sol con una

moneda, es decir, se está estudiando la variable aleatoria que toma valores
X = 1 si se obtiene sol y X = 0 si se obtiene águila, donde θ = P(X =
1), y para ello se realizarán tres lanzamientos de la moneda. En este caso,
f (x; θ) = θx (1 − θ)1−x con x = 0, 1; por lo tanto se está considerando una
muestra aleatoria de tamaño tres de la distribución Bernoulli(θ). En la tabla
siguiente se muestran los posibles resultados, la distribución de la muestra
especificada a través de su función de densidad, ası́ como los valores que
pueden tomar las estadı́sticas X y S 2 bajo los diferentes escenarios.
Resultados x1 , x2 , x3 Distribución x̄ s2
s,s,s 1,1,1 θ3 1 0
2
s,s,a 1,1,0 θ (1 − θ) 2/3 1/3
s,a,s 1,0,1 θ2 (1 − θ) 2/3 1/3
a,s,s 0,1,1 θ2 (1 − θ) 2/3 1/3
a,a,s 0,0,1 θ(1 − θ)2 1/3 1/3
a,s,a 0,1,0 θ(1 − θ)2 1/3 1/3
s,a,a 1,0,0 θ(1 − θ)2 1/3 1/3
a,a,a 0,0,0 (1 − θ)3 0 0
3.1. Introducción 43
Entonces, la función de densidad conjunta está dada por

3
Y 3
Y
fX1 ,X2 ,X3 (x1 , x2 , x3 ) = f (xi ; θ) = θxi (1 − θ)1−xi
i=1 i=1
3
P 3
P
xi 3− xi
= θi=1 (1 − θ) i=1 ,
y las funciones de densidad de la media y la varianza muestrales son:


 (1 − θ)3 si x̄ = 0;
3θ(1 − θ)2 si x̄ = 1/3;

fX̄ (x̄) =

 3θ2 (1 − θ) si x̄ = 2/3;
θ3 si x̄ = 1.

(
θ3 + (1 − θ)3 si s2 = 0;
fS 2 (s2 ) =
3θ(1 − θ) + 3θ (1 − θ) si s2 = 1/3.
2 2
Se obtendrán ahora las caracterı́sticas numéricas de X y S 2 para ilustrar las

propiedades que se presentaron previamente.

1 2
= θ3 (1) + 3θ(1 − θ)2 + 3θ2 (1 − θ) + (1 − θ)3 (0)

E X
3 3
= θ3 + θ 1 − 2θ + θ2 + 2θ2 (1 − θ)

= θ3 + θ − 2θ2 + θ3 + 2θ2 − 2θ3

= θ.
Por otro lado,
2 2
2
3 2 1 2 2
E X = θ (1) + 3θ(1 − θ) + 3θ (1 − θ) + (1 − θ)3 (0)
3 3
1 4 2
= θ3 + θ 1 − 2θ + θ2 + θ − θ3

3 3
3 1 2 2 1 3 4 2 4 3
= θ + θ− θ + θ + θ − θ
3 3 3 3 3
2 2 1
= θ + θ.
3 3
Y
2 2 1
θ + θ − θ2

Var X =
3 3
1 2 1
= − θ + θ
3 3
1
= θ (1 − θ) ,
3
es decir, la varianza poblacional dividida entre el tamaño de muestra.

Finalmente,

2 1
3θ(1 − θ)2 + 3θ2 (1 − θ)

E S =
3
= θ − 2θ2 + θ3 + θ2 − θ3
= θ − θ2
= θ (1 − θ) .
3.2. Distribución de las estadı́sticas muestra-

les bajo normalidad
Suponiendo ahora que las variables de la muestra aleatoria tienen una dis-
tribución
normal, se analizará
la distribución y las propiedades de la media
X̄ y la varianza S 2 muestrales.
3.2.1. Distribución de la media muestral

Proposición 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una población
con distribución N (µ, σ 2 ), entonces
X̄ ∼ N (µ, σ 2 /n).
Demostración. Se obtendrá la función generadora de momentos de X̄.

Para ello, se usará el hecho de que si Xi ∼ N (µ, σ 2 ), la función generadora
de momentos de Xi está dada por:

1 2 2
mXi (t) = exp tµ + t σ .
2
Ası́,
Pn n
!
Xi Y t
tX̄ t· i=1 X
mX̄ (t) =E(e )=E e n =E en i
i=1
n
Y t
= E e n Xi pues X1 , . . . , Xn son independientes
i=1
Yn
= mXi (t/n)
i=1
3.2. Distribución de las estadı́sticas 45
n
Y t 1 t2 2
= e n µ+ 2 · n2 σ pues X1 , . . . , Xn son idénticamente distribuidas
i=1
1 2 σ2
=etµ+ 2 t n ,
1 2 σ2
∴ mX̄ (t) = etµ+ 2 t n ,
2

de donde se concluye que X̄ ∼ N µ, σn .
3.2.2. La distribución de la varianza muestral

Enseguida se revisarán las distribuciones Gama y Ji-cuadrada, las cuales
serán de utilidad en los resultados que se analizarán más adelante.
La distribución Gama
Se dice que la variable aleatoria continua X tiene distribución Gama con
parámetros de forma r > 0 y de escala λ > 0, si su función de densidad de
probabilidad está dada por
λr r−1 −λx
f (x; r, λ) = x e , x > 0,
Γ(r)
R∞
donde Γ(r) = 0
xr−1 e−x dx es conocida como la función Gama, la cual
satisface:
Γ(r + 1) = rΓ(r) y si r ∈ N entonces Γ(r + 1) = r!.
La notación X ∼ Gama(r, λ), significa que X tiene esta distribución.

Las expresiones para su media, varianza y función generadora de momen-
tos se resumen a continuación:
E(X) = λr ,
r
V ar(X) = λ2 ,
r
λ
mX (t) = λ−t .
La distribución Ji-cuadrada es un caso particular de la distribución Ga-

ma, de tal manera que las propiedades de la segunda pueden utilizarse para
deducir las de la primera, la cual se presenta a continuación.
Distribución Ji-cuadrada
Se dice que la variable aleatoria continua X tiene distribución Ji-cuadrada
con k grados de libertad si su función de densidad de probabilidad está dada
por
1 k/2

k 1
f (x; k) = 2
k
x 2 −1 e− 2 x , x > 0.
Γ 2
Se denota como X ∼ χ2(k) . Además:
k/2
E(X) = 1/2 = k,
k/2
Var(X) = 1/4 = 2k,
1/2 k 1
mx (t) = ( 1/2−t ) 2 = ( 1−2t )k/2 .
Estas propiedades pueden deducirse de las expresiones correspondientes

para la distribución Gama, notando que la distribución Ji-cuadrada es un
caso particular con r = k2 y λ = 12 .
El siguiente resultado establece una relación entre la distribución normal
y la distribución Ji-cuadrada.
Teorema 3.1 Sean X1 , . . . , Xn variables aleatorias independientes tales que

∀i ∈ {1, . . . , n}, Xi ∼ N (µi , σi2 ). Sea Zi = Xiσ−µ
i
i
, entonces:
1. Zi2 ∼ χ2(1) .
n
Zi2 ∼ χ2(n) .
P
2.
i=1
Demostración.
1. Como Zi ∼ N (0, 1), entonces

Z ∞

tZi2
2 1 2
mZi2 (t) = E e = etzi √ e−zi /2 dzi
−∞ 2π
Z ∞
1 − 1 zi2 (1−2t)
= √ e 2 dzi
−∞ 2π
r Z ∞
1 1 1 2
= q e− 2 zi (1−2t) dzi
1 − 2t −∞ 2π( 1 )
1−2t
r Z ∞
1 1 1 1 2
= q e− 2 · 1/(1−2t) zi dzi
1 − 2t −∞ 2π( 1 )
1−2t
| {z }
1
1/2
1
= ,
1 − 2t
la cual corresponde a la función generadora de momentos de una dis-
tribución χ2(1) .
2. Para la segunda parte se utilizará el hecho de que la suma de variables
aleatorias independientes con distribución Gama tiene también distri-
bución Gama con parámetro de forma igual a la suma de los parámetros
de forma de las variables que componen la suma, cuando el parámetro
de escala es el mismo para todas las variables aleatorias; además de
que la distribución Ji-cuadrada es un caso particular de la distribu-
ción Gama. OP bien, calculando directamente la función generadora de
n
momentos de i=1 Zi2 :
n n 1/2 n/2
Y Y 1 1
mPn Zi2 (t) = mZi2 (t) = = .
i=1
i=1 i=1
1 − 2t 1 − 2t
En el siguiente resultado se analizará la distribución de S 2 . La prime-

ra parte se refiere a la independencia entre X y el vector de desviaciones
(X1 − X̄, . . . , Xn − X̄), la cual se justificará de dos formas: usando la fun-
ción generadora de momentos y mediante una transformación. Otra manera
de abordar este resultado es a través de la independencia entre una forma
lineal y una forma cuadrática y las propiedades de la distribución normal
multivariada (ver Rencher y Schaalje (2008)); sin embargo, en este texto no
se estudiará ese enfoque.
Teorema 3.2 Considere a X1 , . . . , Xn una muestra aleatoria de la distri-

bución N (µ, σ 2 ). Entonces
1. X̄ y el vector (X1 − X̄, . . . , Xn − X̄) son independientes.

2. X̄ y S 2 son independientes.
(n−1)S 2
3. σ2 ∼ χ2(n−1) .
2σ 4
4. E(S 2 ) = σ 2 y Var(S 2 ) = n−1 .
Figura 3.1: Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada y

estudió su distribución asintóntica. Se le considera el padre de la estadı́stica.
Imagen tomada de commons.wikipedia.org (public domain).
Demostración.
1. Se considera la distribución conjunta de Y1 , Y2 , . . . , Yn , donde:
Y1 = X̄, Y2 = X2 − X̄, Y3 = X3 − X̄, . . . , Yn = Xn − X̄.
Con este cambio de variable,

Y1 − Y2 − Y3 − · · · − Yn = X̄ − X2 − X̄ − · · · − Xn − X̄
= nX̄ − X2 − · · · − Xn
= X1 + X2 + · · · + Xn − X2 − · · · − Xn
= X1 .
Expresando las Xi ’s en términos de las Yi ’s se obtiene:
X1 = Y1 − Y2 − Y3 − · · · − Yn ,
X2 = Y1 + Y2 ,
X3 = Y1 + Y3 ,
.. ..
. .
Xn = Y1 + Yn .

∂Xi
El Jacobiano de esta transformación es igual a n, pues la matriz ∂Yj
tiene la forma:
 
1 −1 −1 −1 ··· −1

 1 1 0 0 ··· 0 

 1 0 1 0 ··· 0 
,
 

 1 0 0 1 ··· 0 
 .. .. .. .. .. .. 
 . . . . . . 
1 0 0 0 ··· 1
la cual se puede transformar mediante operaciones elementales de ren-

glones: para cada i, 2 ≤ i ≤ n, se suma el renglón i-ésimo al primer
renglón, obteniendo la matriz:

 
n 0 0 0 ··· 0
 1 1
 0 0 ··· 0 

 1 0 1 0 ··· 0 
,
 
 1 0
 0 1 ··· 0 
 .. .. .. .. .. .. 
 . . . . . . 
1 0 0 0 ··· 1
cuyo determinante es:

1 0 0 ··· 0

0 1 0 ··· 0
n = n.

.. .. ..

. . .

0 0 0 ··· 1
Por otro lado, de acuerdo a (3.1):

n
X n
X
2 2
(xi − µ) = (xi − x̄ + x̄ − µ)
i=1 i=1
n
X 2 2
= (xi − x̄) + n (x̄ − µ) ,
i=1
la función de densidad conjunta de X1 , X2 , . . . , Xn (la muestra aleato-

ria de la distribución N µ, σ 2 ) se puede escribir como:
n Pni=1 (xi −x̄)2 n(x̄−µ)2
2
1 − 2σ 2
− 2σ2
fX1 ,...,Xn x1 , . . . , xn ; µ, σ = √ e ,
2πσ
con −∞ < xi < ∞, i = 1, 2, . . . , n. Como y1 = x y, por lo tanto,
x1 − x = −y2 − y3 − · · · − yn , la función de densidad conjunta de
Y1 , Y2 , . . . , Yn es:

Xn 
2
n yi
 (−y2 − y3 − · · · − yn )2 n(y1 − µ)2 
 
1 i=2
(n) √ exp − − − ,
2πσ 
 2σ 2 2σ 2 2σ 2 

−∞ < yi < ∞, i = 1, 2, . . . , n. El resultado obtenido es producto de la

función de densidad de Y1 , es decir, de
(y1 − µ)2

1
exp − , −∞ < y1 < ∞,
2σ 2 /n
p
2πσ 2 /n
y una función de y2 , . . . , yn . De esta manera, Y1 es independiente de

las n − 1 variables aleatorias Y2 , Y3 , . . . , Yn y la función de y2 , . . . , yn
es la función de densidad de Y2 , Y3 , . . . , Yn . En conclusión, Y1 = X es
independiente de −Y2 −Y3 −· · ·−Yn = X1 −X, Y2 = X2 −X, . . . , Yn =
Xn − X.
Pn
(X −X̄)2
2. X̄ y S 2 son independientes porque S 2 = i=1n−1i es función de
(X1 − X̄, . . . , Xn − X̄). O bien, puede verificarse notando que la variable
n(X − µ)2 n(Y1 − µ)2

W1 = 2
=
σ σ2
es independiente de:
n
X n
X
(Xi − X)2 (−Y2 − · · · − Yn )2 + Yi2
i=1 i=2
W2 = = .
σ2 σ2
3. Observe que Pn
(n − 1)S 2 i=1 (Xi − X̄)2
=
σ2 σ2
Usando nuevamente la identidad

n
X n
X
(Xi − µ)2 = (Xi − X̄)2 + n(X̄ − µ)2
i=1 i=1
se tiene que
Pn Pn
i=1 (Xi − µ)2 i=1 (Xi − X̄)2 n(X̄ − µ)2
= + (3.2)
σ2 σ2 σ2
n
(Xi −µ)2
P
Pn 2 2
Pero note que i=1
σ2 = i=1 Xiσ−µ ∼ χ2(n) y también n(X̄−µ) σ2 =
2
X̄−µ
√
σ/ n
∼ χ2(1) ; y como X̄ es independiente de X1 − X̄, . . . , Xn − X̄,
entonces Pn 2
i=1 (Xi − X̄)
2
∼ χ2(n−1) ,
σ
debido a que bajo el supuesto de independencia y por (3.2), la función
P n 2
i=1 (Xi −µ)
generadora de momentos de σ2 se puede escribir como el
Pn 2
i=1 (Xi −X̄) n(X̄−µ)2
producto de las funciones generadoras de W = σ2 y σ2 ,
es decir:
−n/2 −1/2
(1 − 2t) = mW (t) × (1 − 2t) , t < 1/2
de donde,
−n/2+1/2 −(n−1)/2
mW (t) = (1 − 2t) = (1 − 2t) .
2
(n − 1)S
∴ ∼ χ2(n−1) .
σ2
4. Anteriormente se probó que E(S 2 ) = σ 2 , sin embargo conociendo ya
2
la distribución de (n−1)S
σ2 , se puede obtener de la siguiente manera,
además de deducir la varianza correspondiente.
2
Como (n−1)S
σ2 ∼ χ2(n−1) , entonces
(n − 1)S 2

(n − 1)
E S 2 = n − 1 ⇒ E S 2 = σ2 .

E 2
=n−1⇒ 2
σ σ
2
También, como (n−1)S
σ2 ∼ χ2(n−1) , se tiene que
(n − 1)S 2 (n − 1)2

Var 2
= 2(n − 1) ⇒ Var(S 2 ) = 2(n − 1)
σ σ4
2(n − 1)σ 4 2σ 4
⇒ Var(S 2 ) = 2
= .
(n − 1) n−1
2σ 4
∴ Var S 2 =

.
n−1

Demostración. Demostración alternativa para las partes 1, 2 y 3:

Se define la siguiente transformación:
1
Y1 = √ (X1 + · · · + Xn ),
n
1
Y2 = √ (X1 − X2 ),
2
1
Y3 = √ (X1 + X2 − 2X3 ),
6
..
.
1
Yn = p (X1 + X2 + · · · + Xn−1 − (n − 1)Xn ).
n(n − 1)
Para la cual, la matriz Jacobiana correspondiente es:

√1 √1 √1 √1
 
n n n
... n
√1 −1

 2
√
2
0 . . . 0 

√1 √1 −2
√ ··· 0
 
J =  6 6 6 .
 
 .. .. .. 
 . . . 
· · · √−(n−1)
 
√ 1 √ 1 √ 1
n(n−1) n(n−1) n(n−1) n(n−1)
Esta matriz es una matriz ortogonal, esto significa que JJ t = J t J = I,

por lo tanto es posible escribir:
| det(J)| = | det(J t )|
= | det(JJ t )1/2 | = 1.
Ahora, la función de densidad conjunta de X1 , X2 , . . . , Xn es:
n
Y 1 1 2
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = √ exp − 2 (xi − µ)
i=1
2πσ 2σ
n ( n
)
1 1 X 2
= √ exp − 2 (xi − µ)
2πσ 2σ i=1
n ( n
)
1 1 X 2
= √ exp − 2 (x − 2µxi + µ2 ) ,
2πσ 2σ i=1 i
para −∞ < x1 , x2 , . . . , xn < ∞. Entonces la función de densidad conjunta

de Y1 , . . . , Yn es:
n ( n
!)
√

1 1 X
2 2
g(y1 , y2 , . . . , yn ) = √ exp − 2 yi − 2µ ny1 + nµ
2πσ 2σ i=1
n ( " n #)
√

1 1 X 2 2
= √ exp − 2 y + (y1 − nµ) ,
2πσ 2σ i=2 i
Pn 2
donde
Pn −∞ < y1 , y2 , . . . , yn < ∞. Además puede verse que i=1 xi =
2
i=1 yi , esto puede verificarse desarrollando para diferentes valores de n;
por ejemplo, para n = 2 :
1 1
Y12 + Y22 = (X1 + X2 )2 + (X1 − X2 )2
2 2
1 2 1 1 1
= X1 + X1 X2 + X22 + X12 − X1 X2 + X22
2 2 2 2
= X12 + X22 .
Note que la función de densidad conjunta de Y1 , . . . , Yn puede reescribirse

como:
n−1 ( n
)
√

1 1 1 1 X
√ exp − 2 (y1 − nµ)2 √ exp − 2 y2 ,
2πσ 2σ 2πσ 2σ i=2 i
√
donde se observa que Y1 se distribuye como una N ( nµ, σ 2 ) y que Y1 , . . . , Yn
son variables aleatorias independientes con una distribución N (0, σ 2 ) para
Y2 , . . . , Yn . De la transformación definida, se puede escribir: X̄ = n−1/2 Y1 y
n
X n
X n
X n
X
(Xi − X̄)2 = Xi2 − nX̄ 2 = Yi2 − Y12 = Yi2 ,
i=1 i=1 i=1 i=2
Pn
concluyendo que X̄ es función de Y1 únicamente y que i=1 (Xi − X̄)2 depen-
de funcionalmentePnde Y2 , . . . , Yn . Pero Y1 y Y2 , . . . , Yn son independientes,
por lo que X̄ y i=1 (Xi − X̄)2 son independientes.
√
Como X̄ = n−1/2 Y1 donde Y1 ∼ N ( nµ, σ 2 ) entonces la distribución
2 2 Pn Y 2
de X̄ es N (µ, σn ). Ahora, i=1 (Xiσ−2X̄) = i=2 σi2 , que es una suma de
P n
(n − 1) variables Ji-cuadradas independientes, por lo tanto tiene distribución

χ2n−1 .

Ahora se presentarán dos distribuciones de probabilidad importantes en

la inferencia estadı́stica: la F de Fisher y la t de Student, ası́ como las
propiedades que serán de utilidad más adelante.
3.2.3. La distribución F de Fisher y el cociente de va-

rianzas muestrales
Distribución F de Fisher
Se dice que una variable aleatoria X tiene la distribución F de Fisher con
parámetros m y n (m y n grados de libertad), si su función de densidad está
dada por:
m−2
Γ( m+n
2 )
m m/2 x 2
f (x; m, n) = x > 0, m, n ∈ N+ .
Γ( m
2 )Γ( n
2 ) n m
[1 + ( n )x]
m+n
2
Se denota como X ∼ F (m, n).

Teorema 3.3 Si U y V son variables aleatorias independientes tales que
U ∼ χ2(m) y V ∼ χ2(n) , entonces
U/m
∼ F (m, n).
V /n
Figura 3.2: Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesitan

sus héroes y Fisher fue sin duda el héroe de la estadı́stica del siglo XX. Sus
ideas transformaron nuestra disciplina de tal forma que hasta un César o
un Alejandro hubieran envidiado”: Efron (1998). “Lo que es y fue importan-
te para mı́, es cómo Fisher, en los 1920..., hizo que los estadı́sticos refle-
xionáramos acerca de las ideas fundamentales”: Egon Pearson (1974). Dos
citas que hacen alusión a la importancia de las contribuciones de Fisher en
la estadı́stica. La distribución que lleva su nombre fue producto del trabajo
que realizó con George Snedecor (1881-1974) de la Universidad de Iowa.
Imagen tomada de commons.wikipedia.org (public domain).
Demostración. Para probar este resultado se utilizará el teorema de cam-

bio de variable. Sean
U/m nU
X= = y Y = V.
V /n mV
La función de densidad conjunta de U y V está dada por

1 m/2 1 n/2

m 1 n 1
2 −1 − u 2 2 −1 e− 2 v
fU,V (u, v) = fU (u)fV (v) = u2 e 2 n v
Γ( m 2 ) Γ( 2 )
1 (m+n)/2

− 21 (u+v) m n
= 2
n e u 2 −1 v 2 −1 .
Γ( m2 )Γ( 2 )
Como U = m n XY y además V = Y , entonces el Jacobiano de la trans-

formación está dado por
m
y mx m

J =
n n = y.
0 1 n
La función de densidad conjunta de (X, Y ) está determinada por

m+n
m (1) 2 − 12 ( m
m m2 −1 n
fX,Y (x, y) = y · 2m e n x+1)y xy y 2 −1
n Γ( 2 )Γ( n2 ) n
m+n
( 12 ) 2 m m2 m+n m 1 m
= m n y 2 −1 x 2 −1 e− 2 ( n x+1)y .
Γ( 2 )Γ( 2 ) n
Y como la densidad marginal de X está dada por

Z ∞
fX (x) = fX,Y (x, y)dy,
−∞
se tiene que:
m+n
( 12 ) 2 m m2 m Z ∞ m+n 1 m
fX (x) = x 2 −1 y 2 −1 e− 2 ( n x+1)y dy
Γ( m2 )Γ( n
2 ) n 0
1 m+n
(2) 2
m
m 2 m −1
Γ( m+n
2 )
= m n x2 m+n
Γ( 2 )Γ( 2 ) n 1 m
[ ( x + 1)] 2
2 n
m m−2
Γ( m+n
2 ) (mn) x
2 2
= · ,
Γ( m
2 )Γ( n
2)
m m+n
( n x + 1) 2
que corresponde a la función de densidad de una variable aleatoria con dis-

tribución F , es decir, X = U/m
V /n ∼ F (m, n).
La distribución F en el marco del muestreo de la distribución nor-

mal
Sean X1 , X2 , . . . , Xm+1 una muestra aleatoria de la distribución N (µx , σx2 ) y
Y1 , Y2 , . . . , Yn+1 una muestra aleatoria de la distribución N (µy , σy2 ), de tal
manera que ambas muestras son independientes entre sı́.
1
Pm+1 1
Pn+1 1
Pm+1
En este caso X̄ = m+1 i=1 Xi , Ȳ = n+1 j=1 Yj , Sx2 = m i=1 (Xi −
1
Pn+1
X̄) y Sy = n j=1 (Yj − Ȳ )2 .
2 2
Entonces,
mSx2 2
nSy2
∼ χ (m) y ∼ χ2(n) .
σx2 σy2
Por el teorema anterior, se concluye que:
Sx2 /σx2
∼ F (m, n).
Sy2 /σy2
3.2.4. La distribución t de Student y algunas estadı́sti-

cas relacionadas
Distribución t de Student
Se dice que una variable aleatoria continua X tiene distribución t de Student
con k grados de libertad, si su función de densidad está dada por
Γ( k+1
2 ) 1 1
f (x; k) = √ , con k = 1, 2, . . .
Γ( k2 ) 2 k+1
kπ (1 + xk ) 2
Se denota como X ∼ t(k) .
Teorema 3.4 Si Z y U son variables aleatorias independientes tales que

Z ∼ N (0, 1) y U ∼ χ2(k) , entonces √Z ∼ t(k) .
U/k
Demostración. La prueba de este resultado es similar a la del teorema

3.3, definiendo las variables
Z
X=p y Y = U.
U/k
La distribución t a partir de una muestra con distribución normal

Si X1 , . . . , Xn es una muestra aleatoria de la distribución normal N µ, σ 2 ,
se sabe que
σ2

X ∼ N µ, ,
n
de donde:
X −µ
Z= √ ∼ N (0, 1) .
σ/ n
Figura 3.3: William Sealy Gosset (1876-1937), quien usó el pseudónimo de

Student para publicar su trabajo, desarrolló la distribución t como respuesta
a problemas prácticos de variedades de cebada, trabajando en la cervecerı́a
Guiness. Imagen tomada de commons.wikimedia.org (public domain).
Por otra parte:

(n − 1) S 2
∼ χ2(n−1) .
σ2
Por el teorema 3.4,
X−µ
√
σ/ n X −µ
q = √ ∼ t(n−1) .
(n−1)S 2 S/ n
σ 2 (n−1)
Ahora considere a X1 , . . . , Xm una muestra aleatoria de la distribución

N µX , σ 2 y a Y1 , . . . , Yn una muestra aleatoria de la distribución N µY , σ 2 ,
tales que Xi es independiente de Yj , i {1, . . . , m} y j {1, . . . , n} . Por los
resultados vistos previamente, se puede concluir que
σ2 σ2

X ∼ N µX , y Y ∼ N µY , , (3.3)
m n
3.3. Estadı́sticas de orden 59
mientras que
2
(m − 1) SX (n − 1) SY2
∼ χ2(m−1) y ∼ χ2(n−1) (3.4)
σ2 σ2
De (3.3) se tiene que
σ2 σ2

X −Y ∼N µX − µY , + ,
m n
y por lo tanto,
X − Y − (µX − µY )
q ∼ N (0, 1) .
1
+ n1

σ2 m
De (3.4) y las propiedades de la distribución Ji-cuadrada se sabe que:
2
(m − 1) SX + (n − 1) SY2
∼ χ2(m+n−2) .
σ2
Ası́ que por el teorema 3.4 se concluye que
X−Y −(µX −µY )
q
σ2 ( m
1 1
+n ) X − Y − (µX − µY )
q 2 +(n−1)S 2
=q 2 +(n−1)S 2 ,
(m−1)SX (m−1)SX 1 1
σ 2 (m+n−2)
Y
(m+n−2)
Y
m + n
tiene distribución t de Student con m + n − 2 grados de libertad.
3.3. Estadı́sticas de orden

Sea X1 , . . . , Xn una muestra aleatoria de una población con función de den-
sidad f (x; θ). Considérese la muestra ordenada en forma ascendente X(1) ≤
X(2) ≤ . . . ≤ X(n) , sus elementos son llamados estadı́sticas de orden. Para
facilitar la notación, sea X(i) := Yi .
Las Yi0 s no son independientes, pues si Yj ≥ y entonces Yj+1 ≥ y, y
en general Yi no tiene por qué coincidir con Xi . Ası́, por ejemplo, Yn =
máx {X1 , . . . , Xn } puede ser cualquiera de las Xi0 s :


 X1 si X1 ≥ X2 , . . . , Xn .
 X2 si X2 ≥ X1 , X3 , . . . , Xn .

Yn = .. ..


 . .
Xn si Xn ≥ X1 , . . . , Xn−1 .

En los siguientes párrafos se deducirán las funciones de distribución y

densidad para las estadı́sticas de orden, únicamente para el caso continuo.
3.3.1. r-ésima estadı́stica de orden (Yr )

Sea X1 , . . . , Xn una muestra aleatoria de una distribución continua con fun-
ción de densidad f (x; θ) y función de distribución F (x; θ).
Para obtener FYr (y) = P(Yr ≤ y), observe que el evento {Yr ≤ y} ocurre
si
Pn sólo si al menos r de las Xi ’s son menores o iguales a y, es decir si
y
i=1 Zi ≥ r, donde
(
1 si Xi ≤ y,
Zi =
0 si Xi > y.
Pn
Note que Zi ∼ Bernoulli[P(Xi ≤ y)], entonces i=1 Zi ∼ Bin(n, F (y)).
| {z }
F (y)
Por lo tanto,
n
! n
X X n
FYr (y) = P(Yr ≤ y) = P Zi ≥ r = [F (y)]j [1 − F (y)]n−j .
i=1 j=r
j
n
X n
∴ FYr (y) = [F (y)]j [1 − F (y)]n−j .
j=r
j
Usando este resultado se obtiene la distribución de Y1 , la mı́nima es-

tadı́stica de orden, de la siguiente manera:
n
X n
FY1 (y) = [F (y)]j [1 − F (y)]n−j
j=1
j
=[F (y) + 1 − F (y)]n − [1 − F (y)]n
=1 − [1 − F (y)]n .
Y diferenciando se deduce la función de densidad correspondiente:
fY1 (y) = n[1 − F (y)]n−1 f (y).
De la misma forma, se obtiene la distribución de la máxima estadı́stica de

orden Yn :
FYn (y) = [F (y)]n . (3.5)
De donde:
fYn (y) = n[F (y)]n−1 f (y).
3.3. Estadı́sticas de orden 61
3.3.2. Distribución conjunta de las estadı́sticas de orden

mı́nima y máxima
En teorı́a de la probabilidad se estudia que una propiedad de la función de
distribución de dos variables FX,Y (x, y) es la siguiente:
P[a < X ≤ b, c < Y ≤ d] = FX,Y (a, c) + FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c).
Lo que, junto con las otras propiedades:
lı́m FX,Y (x, y) = lı́m FX,Y (x, y) = 0

x→−∞ y→−∞
y
lı́m FX,Y (x, y) = FX (x)
y→∞
conduce a:
P[y1 < Y1 , Yn ≤ yn ] = FYn (yn ) − FY1 ,Yn (y1 , yn ). (3.6)
Por otro lado, se tiene que, por ser Y1 y Yn la mı́nima y la máxima

estadı́sticas de orden, se satisface:
P(y1 < Y1 , Yn ≤ yn ) =P(y1 < X1 ≤ yn , y1 < X2 ≤ yn , . . . , y1 < Xn ≤ yn )
n
Y Yn
= P[y1 < Xi ≤ yn ] = (F (yn ) − F (y1 ))
i=1 i=1
n
=(F (yn ) − F (y1 )) .
Por lo tanto,
P(y1 < Y1 , Yn ≤ yn ) = (F (yn ) − F (y1 ))n . (3.7)
Igualando (3.6) y (3.7) se obtiene que:
FYn (yn ) − FY1 ,Yn (y1 , yn ) = (F (yn ) − F (y1 ))n .
De esta manera, FY1 ,Yn (y1 , yn ) = FYn (yn )−(F (yn )−F (y1 ))n . Y por (3.5)
se llega a que:
FY1 ,Yn (y1 , yn ) = [F (yn )]n − (F (yn ) − F (y1 ))n .
Para obtener fY1 ,Yn (y1 , yn ) se usará la propiedad que relaciona a las
funciones de densidad y de distribución para el caso de dos variables, a
saber,
∂2
FX,Y (x, y) = fX,Y (x, y) ,
∂y∂x
ası́:
∂
FY ,Y (y1 , yn ) = n(F (yn ) − F (y1 ))n−1 f (y1 ),
∂y1 1 n
y
∂2
FY ,Y (y1 , yn ) = nf (y1 )(n − 1)(F (yn ) − F (y1 ))n−2 f (yn ).
∂yn ∂y1 1 n
De esta forma se concluye que:
fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn ). (3.8)
Ejemplo 3.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con

distribución U (0, 1). Obtener: fY1 (y1 ), fYn (yn ) y fY1 ,Yn (y1 , yn ).
(x) Ry
En este caso, f (x) = I(0,1) y F (y) = 0 dx = y. Entonces
FY1 (y) = 1 − [1 − F (y)]n = 1 − [1 − y]n y por tanto fY1 (y) = n(1 − y)n−1 .
FYn (y) = y n y por tanto fYn (y) = ny n−1 .
(y1 ) (yn )
fY1 ,Yn (y1 , yn ) = n(n − 1)(yn − y1 )n−2 I(0,1) I(0,1) .
Algunas aplicaciones que tienen las expresiones obtenidas previamente

en esta sección, incluyen el cálculo de densidades correspondientes a funcio-
nes de las estadı́sticas de orden, por ejemplo, el rango R := Yn − Y1 y el
promedio T := Yn +Y 2
1
.
Para obtener fR,T (r, t) se utilizará la siguiente igualdad:
fR,T (r, t) = |J| fY1 Yn (y1−1 (r, t), yn−1 (r, t)).
Para encontrar la distribución conjunta del rango y el promedio, note lo

siguiente:
Yn = R + Y1 y sustituyendo en la expresión para T, se tiene que
T = Y1 +R+Y
2
1
= Y1 + R2 . Por lo tanto Y1 = T − R2 , entonces Yn =
R
R + Y1 = T + 2 .
(R, T ) 7→ (T − R2 , T + R2 ) = (Y1 , Yn ) es la transformación involucrada.

−1/2 1
J = = − 1 − 1 = −1.
1/2 1 2 2
Entonces al sustituir se obtiene
fR,T (r, t) =
h r r in−2 r r
n(n − 1) F t + −F t− f t− f t+ . (3.9)
2 2 2 2
3.4. Estadı́sticas suficientes 63
Otra expresión relacionada con las estadı́sticas de orden que puede ser de
interés es la densidad conjunta de Y1 , . . . , Yn , suponiendo nuevamente que
estas variables corresponden a las estadı́sticas de orden de una muestra alea-
toria X1 , . . . , Xn . Ası́,
n
Y
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ) ,
i=1
en cualquier punto (x1 , . . . , xn ) de Rn . Pero la densidad de Y1 , . . . , Yn estarı́a

dada por
n
Y
fY1 ,...,Yn (y1 , . . . , yn ; θ) = n! f (yi ; θ) ,
i=1
debido a que, al ordenar la muestra, cada punto (y1 , . . . , yn ) acumula la

densidad
fX1 ,...,Xn (x1 , . . . , xn ; θ) (3.10)
de cada punto (x1 , . . . , xn ) obtenido al permutar de forma arbitraria las coor-
denadas de (y1 , . . . , yn ) . Lo anterior se hace porque fY1 ,...,Yn (y1 , . . . , yn ; θ),
a diferencia de (3.10), está concentrada en la región de Rn en donde y1 ≤
y2 ≤ · · · ≤ yn y vale cero fuera de esa región; es decir, (y1 , . . . , yn ) se obtiene
de permutar la muestra, ası́ que n! considera las posibles permutaciones.
3.4. Estadı́sticas suficientes

Una muestra aleatoria contiene información del parámetro desconocido θ en
f (x; θ) , por lo que para lograr el objetivo de disminuir el grado de desco-
nocimiento de dicho parámetro, se usará la muestra aleatoria. Como ya se
ha señalado, una estadı́stica es una función de la muestra aleatoria y, como
se verá utilizando métodos de estimación, las estadı́sticas resultan ser los
estimadores de los parámetros. Usualmente las estadı́sticas representan una
reducción de dimensión con respecto a la muestra original X1 , . . . , Xn ; el
caso más común es una función T que va de Rn a R. Una pregunta que pue-
de plantearse en este momento, es si estas estadı́sticas contienen la misma
información (con respecto a θ) que la muestra original o, si en el proceso
de transformación de la muestra aleatoria, se pierde información acerca del
parámetro desconocido. Es claro que no se desea perder la información ori-
ginal que contiene la muestra aleatoria, por lo que si se tuviera que elegir
entre una estadı́stica que contiene la misma información que la muestra con-
tra otra que no, la decisión serı́a quedarse con la primera. Este razonamiento
lleva a un concepto muy importante en estadı́stica, el de suficiencia.
Se puede decir que una estadı́stica S (X1 , X2 , . . . , Xn ) es suficiente si

conserva toda la información que contiene la muestra aleatoria X1 , . . . , Xn
acerca de θ. En otras palabras, es suficiente conocer la estadı́stica
S (X1 , X2 , . . . , Xn )
para saber del parámetro lo mismo que con X1 , . . . , Xn ; de ahı́ el nombre de

estadı́stica suficiente. Una forma alternativa de parafrasearlo es la siguiente:
una estadı́stica suficiente para un parámetro θ es aquella que usa toda la
información contenida en la muestra con respecto a θ; no obstante, no es
claro cómo se podrı́a saber si una estadı́stica es suficiente o no utilizando
esta descripción del concepto, al menos de que se tratara de un caso en
donde sea posible “recuperar” los datos a través de la estadı́stica que se esté
analizando.
Como ilustración de estas ideas, suponga que se tiene el caso descrito
en el ejemplo 3.1, en donde se quiere estudiar la probabilidad θ de obte-
ner sol con una cierta moneda. En este ejemplo, se considera una muestra
aleatoria de tamaño 3: X1 , X2 , X3 , de una distribución Bernoulli(θ) y es un
ejercicio en donde se pueden escribir de manera sencilla los ocho posibles
valores de la muestra aleatoria. A continuación se reproduce parcialmente el
cuadro obtenido en el ejemplo 3.1, incluyendo los valores para la estadı́stica
S (X1 , X2 , X3 ) = X.
Resultados x1 , x2 , x3 Distribución x̄
s,s,s 1, 1, 1 θ3 1
2
s,s,a 1, 1, 0 θ (1 − θ) 2/3
s,a,s 1, 0, 1 θ2 (1 − θ) 2/3
a,s,s 0, 1, 1 θ2 (1 − θ) 2/3
a,a,s 0, 0, 1 θ(1 − θ)2 1/3
a,s,a 0, 1, 0 θ(1 − θ)2 1/3
s,a,a 1, 0, 0 θ(1 − θ)2 1/3
a,a,a 0, 0, 0 (1 − θ)3 0
Si se propone ahora otra estadı́stica definida como T (X1 , X2 , X3 ) =
X1 X2 + X3 , los posibles valores que puede tomar son (en el orden de la
tabla anterior): 2, 1, 0, 0, 1, 1, 1, 0.
Regresando a la discusión sobre la suficiencia, es claro que con
T (X1 , X2 , X3 ) = X1 X2 + X3
no se puede obtener o “recuperar” la información original, pues el primer

sumando siempre dará cero cuando al menos uno de X1 o X2 sean cero,
mientras que X sı́ permite reconstruir la información original en el sentido
de que si se sabe que, por ejemplo, x = 31 , se puede concluir que se obtuvieron

dos águilas y un sol (o dos ceros y un uno). En otras palabras, S (X1 , X2 , X3 )
es suficiente y T (X1 , X2 , X3 ) no.
Observe también que una estadı́stica, en general, condensa la información
muestral en el sentido de que para cada valor t(x) de T (X) se obtiene un
subconjunto del conjunto de las posibles muestras. Sean {At } los elementos
de la partición generada por la estadı́stica T (asociada a T o inducida por
T ), definida como el conjunto de clases de equivalencia formadas por
At = {(x1 , x2 , . . . , xn ) ∈ X : T (x1 , x2 , . . . , xn ) = t} .
Ası́, la estadı́stica X = X1 +Xn2 +X3 genera la siguiente partición de las posi-

bles muestras, especificada por los valores que toma la estadı́stica:
A1 = {(1, 1, 1)} , A 13 = {(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} , (3.11)

A 23 = {(1, 1, 0) , (0, 1, 1) , (1, 0, 1)} y A0 = {(0, 0, 0)} ,
mientras que la estadı́stica T (X1 , X2 , X3 ) = X1 X2 + X3 genera la siguiente

partición:
A0 = {(0, 1, 0) , (1, 0, 0) , (0, 0, 0)} , (3.12)

A1 = {(0, 0, 1) , (1, 1, 0) , (0, 1, 1) , (1, 0, 1)} , y
A2 = {(1, 1, 1)} .
Puede decirse entonces que una estadı́stica suficiente condensa la infor-

mación muestral (en clases de equivalencia) sin perder información relevante.
Note que otras estadı́sticas que sean funciones uno a uno de estadı́sticas sufi-
cientes, también
P3 son suficientes. En este ejemplo puede verse fácilmente que
la estadı́stica i=1 Xi es suficiente y, de hecho, genera la misma partición del
conjunto de posibles muestras que generó S (X1 , X2 , X3 ) = X, sólo que en
este caso, los valores de X1 + X2 + X3 (en el orden de la tabla) son: 3, 1, 2, 0.
Ası́, lo que resulta de interés para hacer inferencia sobre el parámetro es
saber la clase de equivalencia en la que está x.
A continuación se da una definición formal de suficiencia.
3.4.1. El concepto de suficiencia

Definición 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con
función de densidad f (x; θ). La estadı́stica S(X) es suficiente si y sólo si la
función de densidad condicional de X1 , . . . , Xn dada S(X) = s no depende
de θ para cualquier valor s.
Note que esta definición concuerda con la idea intuitiva discutida antes,
pues lo que dice es que, dado el conocimiento de S(X), la muestra aleatoria
no proporciona información adicional acerca de θ, es decir, toda la informa-
ción está contenida en S(X).
Usando la definición de estadı́stica suficiente, se analizará la suficiencia
de S(X) y T (X) del ejemplo descrito en los párrafos anteriores. Ası́,
P(X1 = 0, X2 = 0, X3 = 0, T = 0)
P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) =
P(T = 0)
(1 − θ)3
=
2θ(1 − θ)2 + (1 − θ)3
1−θ 1−θ
= = .
2θ + 1 − θ 1+θ
Es decir P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) depende de θ, por lo tanto,
la estadı́stica T no es suficiente. Esto puede verificarse para otros valores.
Por otro lado,
P(X1 = 0, X2 = 0, X3 = 0, S = 0)
P(X1 = 0, X2 = 0, X3 = 0|S(X) = 0) =
P(S = 0)
3
(1 − θ)
= = 1,
(1 − θ)3
que no depende de θ. En este último caso, debe verificarse para todos los
posibles valores y llegar a la conclusión de que esta probabilidad condicional
no depende de θ, para cualquier valor s (lo cual efectivamente ocurre).
El concepto de estadı́stica suficiente enfatiza el hecho de que cualquier
conocimiento adicional al valor de la estadı́stica, no da mayor información
acerca de θ. En el ejemplo, si S(X) = 23 , se puede decir que se obtuvieron
dos soles y un águila, pero no sólo eso: es posible concluir que cualquier
X = (X1 , . . . , Xn ) que satisfaga que S(X) = s, tiene la misma distribución
de probabilidad. Para verificarlo, suponga que sólo se tiene conocimiento
de que S(X) = s, pero no se conoce especı́ficamente el valor muestral que
generó este resultado (en el ejemplo hay tres posibles valores muestrales que
hacen que S(X) = 23 , a saber (0, 1, 1) , (1, 0, 1) y (1, 1, 0)). Conociendo la
densidad condicional P (X = x | S(X) = s) , donde
x ∈ As = {(x1 , x2 , . . . , xn ) ∈ X | S(x1 , x2 , . . . , xn ) = s} ,
se puede usar un proceso de simulación para generar un vector X 0 tal que
P X 0 = x | S(X) = s = P (X = x | S(X) = s) .

Ası́
P (X = x) = P (X = x, S(X) = s)
= P (X = x | S(X) = s) P (S(X) = s)
P X 0 = x | S(X) = s P (S(X) = s)

=
P X 0 = x, S(X) = s

=
P X0 = x ,

=
de tal manera que X y X 0 tienen la misma distribución. En conclusión,

toda la información acerca de θ está contenida en el conocimiento de que
S(X) = s.
Los siguientes ejemplos ilustran la definición de suficiencia.
Ejemplo 3.3 Sea X1 , X2 , . . . , Xn una

Pn muestra aleatoria de una población
con distribución Bernoulli (θ). ¿Es i=1 Xi una estadı́stica suficiente?.
1−xi
En este caso, f (xi ; θ) = θxi (1 − θ) , por lo que, de acuerdo a la defi-
nición de suficiencia:
! Pn Pn
n Xi n− Xi
X θ i=1 (1 − θ) i=1
P X1 = x1 , . . . , Xn = xn | Xi = s =
n s n−s
i=1 θ (1 − θ)
s
n−s
θs (1 − θ)
=
n s n−s
θ (1 − θ)
s
1
= n ,

s
Pn
que no depende de θ, por lo que P i=1 Xi es una estadı́stica suficiente para
n
θ. Note que se usó el hechoPde que i=1 Xi tiene distribución Bin(n, θ), ası́
n
como la condición de que i=1 Xi = s.
Ejemplo 3.4 Sea X1 , X2 , . . . , XP

n una muestra aleatoria de una población
n
con distribución Poisson(θ). ¿Es i=1 Xi una estadı́stica suficiente?.
e−θ θ x
Recordando que si X ∼ P oisson(θ) entonces f (xi ; θ) = x! , se tiene
que:
Pn
e−nθ
Qθ n
i=1 Xi
n
Pn xi ! X
P [X1 = x1 , . . . , Xn = xn | i=1 Xi = s] = i=1
s ;y Xi = s
e−nθ (nθ) i=1
s!
e−nθ
Q n
θs
i=1 i !
x
= −nθ s
e (nθ)
s!
s!
= n ,
Y
s
n xi !
i=1
Pn
que no depende de θ; por lo tanto, i=1PXi es una estadı́stica suficiente para
n
θ. En este caso se usó el hecho de que i=1 Xi ∼ P oisson (nθ) .
Observe que en los ejemplos anteriores, a no ser que la suma de los enteros
x1 , x2 , . . . , xn sea igual a s, la probabilidad condicional es igual a cero.
Observación 3.3 En general, sea k (s; θ) la función de densidad de la es-

tadı́stica
S (X1 , X2 , . . . , Xn ) := S (X) ,
donde X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función
de densidad f (x; θ), θ ∈ Θ. La probabilidad condicional de X1 = x1 , X2 =
x2 , . . . , Xn = xn , dado que S (X) = s, es igual a
f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)

P [X1 = x1 , . . . , Xn = xn | S (X) = s] = ,
k (s; θ)
siempre que x1 , . . . , xn , sean tales que S (x1 , x2 , . . . , xn ) = s, y esta proba-

bilidad condicional vale cero en otro caso. Se dice que S (X1 , X2 , . . . , Xn ) es
una estadı́stica suficiente para θ si y sólo si esta razón no depende de θ.
Con las distribuciones del tipo continuo, no se puede hablar de la proba-
bilidad de que X1 = x1 , X2 = x2 , . . . , Xn = xn . En este caso, se establece
que si la razón
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ) f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
= ,
k (s; θ) k (s; θ)
no depende de θ, entonces la distribución condicional de X1 , X2 , . . . , Xn dado
S (X) = s, no depende de θ. En general, las matemáticas para probar que
una estadı́stica es suficiente en una distribución continua, pueden representar
una dificultad mayor que para el caso discreto.

distribución normal N (µ, σ 2 ), donde σ 2 es conocida. La media muestral,
S(X) = X̄ = (X1 + · · · + Xn )/n, es una estadı́stica suficiente para µ. Para
comprobarlo, se verificará que el cociente

fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2
(3.13)
k (s; µ, σ 2 )

no depende de µ (σ 2 es conocida), donde k s; µ, σ 2 es la función de densidad
de X̄. La función de densidad conjunta de la muestra es
n
−(xi − µ)2

Y
fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 = (2πσ 2 )−1/2 exp
i=1
2σ 2
Pn
− i=1 (xi − µ)2

= (2πσ 2 )−n/2 exp
2σ 2
Pn
− i=1 (xi − x̄ + x̄ − µ)2

= (2πσ 2 )−n/2 exp ,
2σ 2
al desarrollar el cuadrado en el exponente, esta expresión es equivalente a
" Pn Pn #
2 2
2 −n/2 − i=1 (xi − x̄) + 2(x̄ − µ) i=1 (xi − x̄) + n(x̄ − µ)
(2πσ ) exp ,
2σ 2
Pn
y como i=1 (xi − x̄) = 0, se tiene que
fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 =

" Pn #
2 2
2 −n/2 − i=1 (xi − x̄) + n(x̄ − µ)
(2πσ ) exp .
2σ 2
Recordando que la media muestral X̄ tiene distribución N (µ, σ 2 /n), entonces

el cociente (3.13) está dado por

fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2
k (s; µ, σ 2 )
Pn
2 −n/2 −( i=1 (xi −x̄)2 +n(x̄−µ)2 )
(2πσ ) exp 2σ 2
= h 2
i
(2πσ 2 /n)−1/2 exp −n(x̄−µ)
2σ 2
Pn
− i=1 (xi − x̄)2

(n−1)
= n−1/2 (2πσ 2 )− 2 exp ,
2σ 2
que no depende de µ. Por lo tanto, la media muestral es una estadı́stica
suficiente para µ.
3.4.2. El teorema de factorización

El siguiente resultado conocido como el teorema de factorización de Neyman
o simplemente teorema de factorización, permite encontrar una estadı́stica
suficiente sin hallar la función de densidad de la estadı́stica de interés y, más
aún, sin tener que proponer dicha estadı́stica.
Teorema 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con

función de densidad f (x; θ); S(X) es suficiente si y sólo si, la función de
densidad conjunta de X1 , . . . , Xn puede factorizarse como:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn ) ,
donde g y h son funciones no negativas tales que g (S(x); θ) depende de la

muestra sólo a través de S(x) y también depende de θ; y h (x1 , . . . , xn ) no
depende de θ.
Es decir, el teorema de factorización establece que
fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn )

| {z } | {z }
depende de θ y de la depende sólo de la muestra
muestra sólo a través de S
Demostración. (Caso discreto):

⇒ S(X) es suficiente.
Si x1 , x2 , . . . , xn , son tales que S (x1 , x2 , . . . , xn ) = s, la densidad con-
junta de X1 , . . . , Xn puede escribirse como
P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ; S(X) = s) .
Usando la definición de probabilidad condicional, la expresión anterior es

equivalente a
P (X1 = x1 , . . . , Xn = xn )
= P ( X1 = x1 , . . . , Xn = xn | S(X) = s) · P [S(X) = s] . (3.14)
Por la suficiencia de S(X), la probabilidad condicional en (3.14) no depende

de θ, por lo que la densidad conjunta de X1 , . . . , Xn se puede expresar como:
P (X1 = x1 , . . . , Xn = xn ) = h(x1 , . . . , xn ) · g(S(x); θ),
donde
h(x1 , . . . , xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s)
y
g(S(x); θ) = P [S(X) = s] .
⇐ Por demostrar que S(X) es suficiente, es decir, se debe probar que
P [ X1 = x1 , . . . , Xn = xn | S(X)]
no depende de θ, bajo el supuesto de que la factorización es válida.

Se tiene que
P [X1 = x1 , . . . , Xn = xn , S(X) = s]
P [ X1 = x1 , . . . , Xn = xn | S(X) = s] =
P[S(X) = s]
pero X
P[S(X) = s] = P[X1 = x1 , . . . , Xn = xn ], (3.15)
As
donde:
As = {(x1 , x2 , . . . , xn ) ∈ X : S(x1 , x2 , . . . , xn ) = s}
y X representa el conjunto de todos los posibles valores de (X1 , . . . , Xn ) . Es
decir, As consta de todos aquellos (x1 , x2 , . . . , xn ) tales que S(x) = s (ver,
por ejemplo, (3.11) y (3.12)).
Por la hipótesis, P[X1 = x1 , . . . , Xn = xn ] se puede factorizar como el
producto g(S(x); θ)h(x), de tal manera que (3.15) se puede escribir como:
X X
P[S(X) = s] = g(S(x); θ)h(x) = g(s; θ) h(x)
As As
y
g(S(x); θ)h(x)
P [ X1 = x1 , . . . , Xn = xn | S(X) = s] = P
g(s; θ) As h(x)
g(s; θ)h(x)
= P
g(s; θ) As h(x)
h(x)
= P ,
As h(x)
si (x1 , x2 , . . . , xn ) es tal que S(x) = s y vale cero en otro caso. Es decir,
P [ X1 = x1 , . . . , Xn = xn | S(X) = s]
no depende de θ, por lo que S(X) es una estadı́stica suficiente.
Demostración. (Caso continuo):

Se supone primero la factorización, es decir,
fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) = Πni=1 f (xi , θ)

= g (S (x) ; θ) h (x1 , x2 , . . . , xn ) .
Sea V1 = S (X1 , . . . , Xn ) y considere la transformación uno a uno definida

de la siguiente manera
v1 = S (x1 , x2 , . . . , xn ) ,
vi = ui (x1 , x2 , . . . , xn ) , para i = 2, . . . , n;
con funciones inversas
xi = wi (v1 , v2 , . . . , vn ) para i = 1, 2, . . . , n
y Jacobiano J = [∂wi /∂vj ], que denota la entrada (i, j) de la matriz.

Entonces la densidad conjunta de las variables V1 , V2 , . . . , Vn está dada
por:
kV1 ,...,Vn (v1 , . . . , vn ; θ)

= |J| g (v1 ; θ) h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) .
Ası́, la densidad de V1 puede obtenerse como
kV1 (v1 ; θ)
Z ∞ Z ∞
= ··· kV1 ,...,Vn (v1 , . . . , vn ; θ) dv2 · · · dvn
−∞ −∞
Z ∞ Z ∞
= g (v1 ; θ) ··· |J| h (w1 (v1 , . . . , vn ) , . . . , wn (v1 , . . . , vn )) dv2 · · · dvn .
−∞ −∞
Observe que θ no está involucrada ni en el Jacobiano, ni en los lı́mites de

integración, además de que la función h no depende de θ. Por lo tanto, la
integral múltiple es una función exclusivamente de v1 . Sea
m (v1 )
Z ∞ Z ∞
= ··· |J| h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) dv2 · · · dvn ,
−∞ −∞
con lo que
kV1 (v1 ; θ) = g (v1 ; θ) m (v1 ) .
Note que si m (v1 ) > 0, es posible escribir:
kV1 (v1 ; θ)
g (v1 ; θ) = ,
m (v1 )
o
kV1 (S (x) ; θ)
g (S (x) ; θ) = ,
m [S (x)]
con lo que la factorización que se ha supuesto como hipótesis, se puede
reescribir como:
fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) = g (S (x) ; θ) h (x1 , x2 , . . . , xn )

kV1 (S (x) ; θ)
= h (x1 , x2 , . . . , xn )
m [S (x)]
h (x1 , x2 , . . . , xn )
= kV1 (S (x) ; θ) ,
m [S (x)]
de donde:
fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) h (x1 , x2 , . . . , xn )

=
kV1 (S (x) ; θ) m [S (x)]
no depende de θ, lo cual implica que V1 = S (X) es una estadı́stica suficiente

(ver observación 3.3).
Inversamente, si V1 = S (X) es suficiente, la factorización se puede hacer
tomando la función g como la densidad de S (X) , es decir, como kV1 (S (x) ; θ) .

Ejemplo 3.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población

con distribución Poisson(θ). Hallar una estadı́stica suficiente para θ.
Usando el teorema de factorización:
Pn
e−nθ i=1 Xi (xi )
Qn
fX1 ,...,Xn (x1 , . . . , xn ; θ) = Qθ n
i=1 xi !
i=1 I{0,1,... }
n
Pn 1 Y (xi )
= e|−nθ θ{z i=1 X}i Qn I{0,1,... }
i=1 x i ! i=1
g(S(x);θ) | {z }
h(x1 ,...,xn )
Pn
∴ S(X) = i=1 Xi es una estadı́stica suficiente para θ.

distribución Uniforme (0, θ). Para encontrar una estadı́stica suficiente para
θ, se tiene que:
n n
Y 1 Y (xi )
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ) = I .
i=1
θn i=1 (0,θ)
Como todas las observaciones son positivas, es decir xi > 0, para i =

1, 2, . . . , n, se tiene que
n
(x )
Y
i
I(0,θ) =1
i=1
siempre y cuando yn = máx {x1 , . . . , xn } < θ. Por lo tanto, la densidad

conjunta puede escribirse como
1 (yn )
fX1 ,...,Xn (x1 , . . . , xn ; θ) = I ,
θn (0,θ)
concluyendo que, por el teorema de factorización, Yn = máx {X1 , . . . , Xn }
(yn )
es suficiente, con g (s (x1 , x2 , . . . , xn ) ; θ) = θ1n I(0,θ) y h (x1 , x2 , . . . , xn ) = 1.
Observe que esta factorización no es única, pueden proponerse otras; pero
Yn será la estadı́stica suficiente.

con función de densidad:
θxθ−1 , 0 < x < 1, 0 < θ

f (x; θ) =
0, en otro caso.
Se usará el teorema de factorización para probar que el producto
S (X1 , X2 , . . . , Xn ) = X1 X2 · · · Xn
es una estadı́stica suficiente para θ. La función de densidad conjunta de

X1 , X2 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = Πni=1 θxθ−1

i
= θn Πni=1 xθ−1
i

n n θ 1
= θ (Πi=1 xi )
Πni=1 xi
donde 0 < xi < 1, i = 1, 2, . . . , n. En el teorema de factorización, sean:
θ
g (s (x1 , x2 , . . . , xn ) ; θ) = θn (Πni=1 xi )
y
1
h (x1 , x2 , . . . , xn ) = .
Πni=1 xi
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, el producto X1 X2 · · · Xn = Πni=1 Xi
es una estadı́stica suficiente para θ. Observe que si se hubiera querido usar
la definición para este ejercicio, era necesario obtener la densidad de la es-
tadı́stica dada por el producto S(X) = X1 X2 · · · Xn = Πni=1 Xi ; de ahı́ lo
valioso del teorema de factorización.
Observación 3.4 La muestra ordenada (Y1 , . . . , Yn ) siempre es una estadı́sti-
ca suficiente, pues en el esquema de muestreo aleatorio que se está conside-
rando, la función de densidad conjunta no depende del orden de las variables.
A pesar de que la muestra ordenada tiene la misma dimensión que la mues-
tra original, al ordenar se elimina la información irrelevante con relación a la
posición con la que se produce cada observación. Una forma de comprobarlo
es usando el teorema de factorización. La función de densidad conjunta de
X1 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
= n!f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) .
En el teorema de factorización, sean:
g (s (x1 , x2 , . . . , xn ) ; θ) = f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ)
y
h (x1 , x2 , . . . , xn ) = n!.
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, la muestra ordenada (Y1 , . . . , Yn )
es una estadı́stica suficiente.
con distribución Logı́stica(µ,σ):
e−(x−µ)/σ
f (x; µ, σ) = , − ∞ < x < ∞, −∞ < µ < ∞, σ > 0.
σ[1 + e−(x−µ)/σ ]2
La función de densidad conjunta de X1 , X2 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
n
Y e−(xi −µ)/σ
=
i=1
σ[1 + e−(xi −µ)/σ ]2
n
Y e−(yi −µ)/σ
= n! ,
i=1
σ[1 + e−(yi −µ)/σ ]2
donde y1 , . . . , yn es la muestra ordenada. Debido a que no es posible factori-

zar la función de densidad conjunta de otra manera tal que se pueda aplicar
el teorema de factorización, entonces la muestra ordenada (Y1 , . . . , Yn ) es
una estadı́stica suficiente.
Cabe aclarar que la muestra ordenada se usará como la estadı́stica sufi-

ciente sólo cuando no sea posible obtener otra estadı́stica suficiente.
3.4.3. La familia exponencial

Hay un conjunto de familias paramétricas de distribuciones que, por sus
propiedades, tiene gran relevancia dentro de la inferencia estadı́stica. Este
conjunto se conoce como la clase exponencial o la familia exponencial y su
importancia en este momento es que las densidades de esta clase tienen una
relación con el concepto de suficiencia, en el sentido de que si se sabe que
una densidad pertenece a la familia exponencial, es posible encontrar una
estadı́stica suficiente de una forma sencilla. En esta parte se revisará el caso
de densidades con un sólo parámetro, mientras que en la sección 3.6 se verá el
caso de dos o más parámetros. Algunas de las distribuciones más conocidas
como la Binomial, la Geométrica, la Binomial negativa, la Poisson, la Gama,
la Normal y la Beta, pertenecen a la familia exponencial.
Definición 3.4 Se dice que f (x; θ) pertenece a la familia exponencial (o

clase exponencial) si puede factorizarse como:
f (x; θ) = a(θ)b(x)ec(θ)d(x) , θ ∈ Θ, − ∞ < x < ∞,
donde a(θ) y c(θ) son funciones de θ, y b(x) y d(x) son funciones de x.
Ejemplo 3.10 Las siguientes distribuciones pertenecen a la familia expo-

nencial:
1. Si X tiene distribución Exponencial con parámetro θ, es decir,
X ∼ exp (θ),
su función de densidad está dada por

(x)
f (x; θ) = θ · e−θ·x · I(0,∞) .
(x)
En este caso, a(θ) = θ, b(x) = I(0,∞) , c(θ) = −θ y d(x) = x.
2. Si X tiene distribución Poisson con parámetro θ, es decir
X ∼ Poisson (θ),
su función de densidad es
e−θ θx (x) 1 (x)

f (x; θ) = I{0,1,...} = e−θ · I{0,1,...} · ex·ln(θ) ,
x! x!
de donde puede verse que pertenece a la familia exponencial.
3. Si X tiene distribución Bernoulli con parámetro θ, es decir
X ∼ Bernoulli (θ),
con
= (1 − θ) · I{0,1} · ex·ln( 1−θ ) ,
1−x (x) θ
f (x; θ) = θx (1 − θ)
se tiene que pertenece a la familia exponencial.
4. Si X tiene distribución Geométrica con parámetro θ, es decir
X ∼ Geométrica(θ),
su función de densidad se puede escribir como

x (x) (x)
f (x; θ) = θ (1 − θ) I{0,1,...} = θ · I{0,1,...} ex·ln(1−θ) ,
con lo que se concluye que la distribución Geométrica pertenece a la

familia exponencial.
Note que la distribución Uniforme en el intervalo (0, θ) no pertenece a la

familia exponencial.
El resultado que se enuncia a continuación proporciona la relación entre
los miembros de la familia exponencial y la suficiencia.
Proposición 3.4 Sea X1 , . . . , Xn una muestra aleatoria de una población

con función de densidad de la forma
f (x; θ) = a(θ)b(x)ec(θ)d(x) ,
Pn
es decir, f (x; θ) pertenece a la familia exponencial. Entonces i=1 d(xi ) es
una estadı́stica suficiente.
Demostración. Usando el teorema de factorización, se tiene que:

Qn
fX1 ,...,Xn (x1 , . . . , xn ; θ) = i=1 a(θ)b(xi )ec(θ)d(xi )
h Pn i n
Y
n
= a (θ) ec(θ) i=1 d(xi )
· b(xi )
| {z } i=1
g(S(X);θ)
| {z }
h(X1 ,...,Xn )
n
P
∴ S(X) = d(Xi ) es una estadı́stica suficiente para θ.
i=1
En la siguiente tabla se muestran algunas de las distribuciones más co-

nocidas que pertenecen a la familia o clase exponencial, aunque en la sección
3.6 se ampliará esta lista.
Algunos miembros de la familia exponencial

f (x; θ) = a (θ) b (x) exp [c (θ) d (x)]
Distribución f (x; θ) a (θ) b (x) c(θ) d (x)
x 1−x θ
Bernoulli (θ) θ (1 − θ) 1−θ 1 ln 1−θ x

n x
n−x n n
θ
Binomial (n, θ) x θ (1 − θ) (1 − θ) x ln 1−θ x
x
Geométrica (θ) θ (1 − θ) θ 1 ln (1 − θ) x
−θ x
e θ −θ 1
Poisson (θ) x! e x! ln θ x
Exponencial (θ) θe−θx θ 1 −θ x
x 2
x − 2θ 1
Rayleigh (θ) θ2 e
2
θ2 x − 2θ12 x2
3.4.4. Suficiencia minimal
La idea de la suficiencia es no perder información relevante del parámetro

(contenida en la muestra) al usar una estadı́stica. Pero puede haber diferentes
estadı́sticas que satisfagan esa condición y lo ideal serı́a encontrar la que
condense más la información. A tales estadı́sticas se les llama suficientes
minimales.
Intuitivamente, una estadı́stica es suficiente minimal si cualquier reduc-
ción de la misma da lugar a estadı́sticas que ya no son suficientes; es decir,
ya no se puede “resumir” más la estadı́stica, puesto que se perderı́a infor-
mación contenida en la muestra acerca del parámetro. Lo anterior también
está asociado con la noción de clases de equivalencia o partición del espacio
muestral inducida por cada estadı́stica. Ambos enfoques se analizan en los

siguientes párrafos.
Para ilustrar la idea de suficiencia minimal, considere una muestra alea-
toria X1 , X2 , . . . , Xn de la distribución Bernoulli con parámetro θ, ası́ como
las siguientes estadı́sticas
S1 (X) = (X(1) , . . . , X(n) ) = (Y1 , ..., Yn ) ,

 
X[ n2 ] X n
S2 (X) =  Xi , Xi  ,
 
i=1 i=[ n
2 +1]
donde [v] indica la parte entera de v, y

n
X
S3 (X) = Xi .
i=1
Considerando que
Pn Pn n
Y
xi n− xi
fX1 ,...,Xn (x1 , . . . , xn ; θ) = θ i=1 (1 − θ) i=1
I{0,1} (xi )
i=1
Pni=1 xi Yn
n θ
= (1 − θ) I{0,1} (xi ) ,
1−θ i=1
por el teorema de factorización, las tres estadı́sticas son suficientes en la

distribución Bernoulli, pues la densidad conjunta también puede escribirse
como
x(1) x(2) x(n) Yn
n θ θ θ
(1 − θ) ··· I{0,1} (xi )
1−θ 1−θ 1−θ i=1
P[i=1
2]
n
xi Pn n
xi Y
n θ θ [
i= n +1
2 ]
= (1 − θ) I{0,1} (xi ) .
1−θ 1−θ i=1
La diferencia entre las tres estadı́sticas radica en el distinto grado de sim-

plificación obtenido por eliminación de información que es irrelevante para
el conocimiento de θ. S1 (X) tiene dimensión n, S2 (X) tienen dimensión 2 y
S3 (X) tiene dimensión 1. S3 es más resumida que S1 y S2 , mientras que S2
es más resumida que S1 . Observe entonces que conociendo S1 o S2 se puede
conocer S3 , pero no al revés, y conociendo S1 se puede conocer S2 , pero no
al revés. Si una estadı́stica suficiente es más resumida que cualquier otra, se
le llama suficiente minimal. En el ejemplo, note que S3 puede escribirse

como función de S1 o de S2 , y el hecho de que S3 sea más resumida que
S1 significa que existe una función (medible) ϕ tal que S3 puede escribirse
como S3 = ϕ (S1 ) . Lo anterior se formaliza en la definición 3.5.
Siguiendo la idea del párrafo anterior, suponga que S 0 (X) es más resu-
mida que S (X) . En términos de la partición inducida por una estadı́stica,
si {As0 } son los elementos de la partición asociados con S 0 (X) y {As } son
los elementos de la partición asociados con S(X), se tendrı́a que cada As es
un subconjunto de algún As0 . Si en el ejemplo (de la distribución Bernoulli),
se toma n = 3, se tienen los siguientes valores de S1 , S2 y S3 , de donde se
pueden revisar las particiones asociadas:
(X1 , X2 , X3 ) S1 (X) S2 (X) S3 (X)

(0, 0, 0) (0, 0, 0) (0, 0) 0
(0, 0, 1) (0, 0, 1) (0, 1) 1
(0, 1, 0) (0, 0, 1) (0, 1) 1
(1, 0, 0) (0, 0, 1) (1, 0) 1
(1, 1, 0) (0, 1, 1) (1, 1) 2
(1, 0, 1) (0, 1, 1) (1, 1) 2
(0, 1, 1) (0, 1, 1) (0, 2) 2
(1, 1, 1) (1, 1, 1) (1, 2) 3
Note que S1 y S3 inducen la misma partición (de 4 elementos), aún cuando en

S3 hay una reducción en la dimensión; mientras que S2 induce una partición
de 6 elementos, a saber:
A1 = {(0, 0, 0)} ,
A2 = {(0, 0, 1) , (0, 1, 0)} ,
A3 = {(1, 0, 0)} ,
A4 = {(1, 1, 0) , (1, 0, 1)} ,
A5 = {(0, 1, 1)} y
A6 = {(1, 1, 1)} ,
siendo cada uno de éstos un subconjunto de alguno de los elementos de la

partición inducida por S3 . Por ejemplo, A2 es un subconjunto de
{(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} ,
que corresponde al subconjunto del espacio muestral tal que S3 = 1.

Una forma de referirse a una partición inducida por S(X), tal que As ⊆
As0 para alguna estadı́stica S 0 (X), es como una partición más fina (es
decir, S(X) induce una partición más fina que S 0 (X) o S 0 (X) induce una
partición menos fina que S(X)). En estos términos, si S 0 (X) es más resumida
que S(X), entonces S(X) genera una partición más fina que S 0 (X). En el
ejemplo, S2 (X) induce una partición más fina que S3 (X) .
En este contexto, la suficiencia minimal está asociada con la partición
menos fina que conserva la suficiencia.
Definición 3.5 Se dice que una estadı́stica es suficiente minimal si y sólo

si (i) es suficiente y (ii) es función de cualquier otra estadı́stica suficiente;
es decir, S 0 (X) es suficiente minimal si y sólo si existe ϕ tal que S 0 (X) =
ϕ [S(X)] , donde S(X) es cualquier otra estadı́stica suficiente.
Observación 3.5 Note que por la discusión previa, la definición 3.5 se pue-
de reescribir de una forma alternativa. Sean {As0 } los elementos de la parti-
ción asociados con S 0 (X) y {As } los elementos de la partición asociados con
S(X), se tiene que:
1. S 0 (X) es suficiente minimal si cada As es un subconjunto de algún As0 ,

donde S (X) es suficiente, o
2. S 0 (X) es suficiente minimal si cualquier otra estadı́stica suficiente S (X)

induce una partición más fina que S 0 (X). También se puede decir que
S 0 (X) induce una partición menos fina –o más gruesa– que S (X).
En términos de las clases de equivalencia, cualquier estadı́stica con una

partición más fina que la minimal, será suficiente.
Observación 3.6 Las estadı́sticas suficientes minimales no son únicas, pues

al igual que las estadı́sticas suficientes, cualquier función biyectiva resulta ser
también una estadı́stica suficiente minimal.
Se proporcionará un método para encontrar estadı́sticas suficientes mi-

nimales. Para ello, será necesario introducir algunos conceptos.
Note que el que S 0 (X) sea función de S(X) (en la definición 3.5) significa
que si S (x) = S (x0 ) , entonces S 0 (x) = S 0 (x0 ) . Lo anterior puede verificarse
de la siguiente manera: si
x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
y se cumple que S (x) = S (x0 ) , se tiene que x y x0 ∈ As y como As ⊆ As0

(por ser S 0 (X) minimal) entonces x y x0 ∈ As0 , lo cual implica que S 0 (x) =
S 0 (x0 ) .
Se tiene entonces la siguiente definición.
Definición 3.6 Sean S (X) y S 0 (X) dos estadı́sticas. Se dice que S 0 (X) es
función de S(X) si para cualesquiera x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en el espacio muestral X, que satisfacen que S (x) = S (x0 ) , se cumple que
S 0 (x) = S 0 (x0 ).
Para lo que sigue, también es necesario recordar que el soporte de una

función de densidad f (x; θ) , θ ∈ Θ, es el conjunto
Sopf = {x : f (x; θ) > 0 para alguna θ ∈ Θ} .
A continuación se define una relación de equivalencia en Sopf , relación que

será de utilidad para caracterizar a la suficiencia minimal.
Definición 3.7 Para dos valores x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en Sopf , se dice que x y x0 son equivalentes en verosimilitud si existe
H (x, x0 ) > 0, tal que para todo θ ∈ Θ,
fX1 ,...,Xn (x; θ) = H (x, x0 ) fX1 ,...,Xn (x0 ; θ),
es decir,
L(θ | x) = H (x, x0 ) L(θ | x0 ).
Esta relación se denota como
v
x ∼ x0 .
El siguiente resultado relaciona la equivalencia en verosimilitud con la

suficiencia.
Lema 3.1 Sea S (X) una estadı́stica suficiente y sean x y x0 dos valores en
v
Sopf . Si S (x) = S (x0 ) = s, entonces x ∼ x0 .
Demostración. Si x, x0 ∈ Sopf , existe θ para el cual fX1 ,...,Xn (x0 ; θ) > 0 y

como S (X) es una estadı́stica suficiente, el teorema de factorización implica
que
fX1 ,...,Xn (x; θ) g (s; θ) h (x) h (x)
= = = H (x, x0 ) ,
fX1 ,...,Xn (x0 ; θ) g (s; θ) h (x0 ) h (x0 )
por lo que fX1 ,...,Xn (x; θ) se puede escribir como H (x, x0 ) fX1 ,...,Xn (x0 ; θ).

En el lema anterior, el hecho de que S (x) = S (x0 ) = s, implica que el

cociente
fX1 ,...,Xn (x; θ)
fX1 ,...,Xn (x0 ; θ)
no depende de θ.
Teorema 3.6 Sea X1 , ..., Xn una muestra aleatoria de una población con
función de densidad f (x; θ) y sea S 0 (X) una estadı́stica suficiente para θ.
Suponga que para dos valores muestrales x = (x1 , ..., xn ) y x0 = (x01 , ..., x0n )
v
en Sopf que son equivalentes en verosimilitud, es decir x ∼ x0 , se tiene que
0 0 0 0
S (x) = S (x ) . Entonces S (X) es suficiente minimal.
Demostración. Sea S (x) cualquier estadı́stica que sea suficiente para θ y

v
x, x0 ∈ Sopf , tal que S (x) = S (x0 ) = s, entonces por el lema 3.1, x ∼ x0 , lo
0 0 0
cual a su vez implica (por la hipótesis) que S (x) = S (x ) . Por la definición
3.6 S 0 (X) es función de S (X), lo cual, junto con el hecho de que S 0 (X) es
suficiente, lleva a la conclusión de que S 0 (X) es suficiente minimal.
Este resultado es muy importante debido a que proporciona un método

sistemático para encontrar una estadı́stica suficiente minimal. En resumen, lo
que debe hacerse es lo siguiente: para dos valores muestrales x = (x1 , ..., xn ) y
x0 = (x01 , ..., x0n ) en Sopf , verificar la implicación que tiene la equivalencia en
verosimilitud sobre la o las estadı́sticas implicadas en la función de densidad
conjunta. Lo anterior equivale a calcular el cociente
fX1 ,...,Xn (x; θ)

fX1 ,...,Xn (x0 ; θ)
y ver bajo qué condición (sobre las estadı́sticas involucradas) este cociente
no depende de θ. Si se cumple la hipótesis del teorema 3.6, es decir,
fX1 ,...,Xn (x; θ)

“ no depende de θ ⇒ S 0 (x) = S 0 (x0 ) ”,
fX1 ,...,Xn (x0 ; θ)
entonces S 0 es suficiente minimal.

con distribución Bernoulli(θ), entonces:
n− n
Qn Pn P
xi 1−xi i=1 xi
fX1 ,...,Xn (x; θ) i=1 θ (1 − θ) θ i=1 xi (1 − θ)
= 1−x0i
= n− n
P 0
fX1 ,...,Xn (x0 ; θ)
Qn x0i
Pn 0
i=1 xi
i=1 θ (1 − θ) θ i=1 xi (1 − θ)
Pni=1 xi −Pni=1 x0i

θ
= ,
1−θ
Pn Pn Pn
el cual no depende de θ si y sólo si i=1 xi = i=1 x0i . Ası́, i=1 Xi es una
estadı́stica suficiente minimal.

con distribución Uniforme en el intervalo (0, θ) . En este caso,
1
Qn (xi )
fX1 ,...,Xn (x; θ) θn i=1 I(0,θ)
= Qn (x0i )
fX1 ,...,Xn (x0 ; θ) 1
θn i=1 I(0,θ)
n(y ) (θ)
I(0,θ) I(yn ,∞)
= (y 0 )
= (θ)
,
I(0,θ)
n
I(y0 ,∞)
n
cociente que no depende de θ si y sólo si yn = yn0 , concluyendo que Yn es

una estadı́stica suficiente minimal.
Suficiencia minimal y la familia exponencial

Se sabe que f (x; θ) pertenece a la familia exponencial si se cumple que:
f (x; θ) = a(θ)b(x)ec(θ)d(x)
Tomando X = (X1 , . . . , Xn ) y X 0 = (X10 , . . . , Xn0 ) y usando el teorema 3.6,

se tiene que:
Qn
f (x;θ) i=1 a(θ)b(xi ) exp{c(θ)d(xi )}
f (x0 ;θ) =
i=1 a(θ)b(xi ) exp{c(θ)d(xi )}
Qn 0 0
(a(θ))n i=1 b(xi ) exp{c(θ) i=1 d(xi )}

Qn Pn
=
i=1 b(xi ) exp{c(θ)
(a(θ))n n i=1 d(xi )}
Q 0
Pn 0
Qn
b(xi ) Pn Pn
= Qi=1
n 0 exp {c(θ) [ i=1 d(xi ) − i=1 d(x0i )]} .
i=1 b(xi )
Pn Pn
Este cociente no depende de θ si sólo si i=1 d(xi ) = i=1 d(x0i ).
Pn
∴ i=1 d(Xi ) es suficiente minimal.
Pn
Es decir, si f (x; θ) pertenece a la familia exponencial, i=1 d(Xi ) es una
estadı́stica suficiente minimal.
3.5. Completez
El concepto de estadı́stica completa se utilizará en uno de los resultados más
importantes que servirán para encontrar estimadores insesgados de varianza
mı́nima.
3.5. Completez 85
Definición 3.8 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) , θ ∈ Θ. Se

dice que la estadı́stica T (X) es completa si y sólo si, para cualquier función
g de T, se tiene que si E(g(T )) = 0 ∀θ ∈ Θ, entonces
P(g(T ) = 0) = 1, ∀θ ∈ Θ.
También se dice que la familia de densidades de T es completa.
Se puede pensar entonces que T es completa si una estadı́stica, función

de T, cuya esperanza es 0, vale 0 con probabilidad 1.
Ejemplo 3.13 Sea X1 , X2 , . . . , Xn una muestra aleatoria

Pn de una población
con distribución Bernoulli (θ) , 0 < θ < 1, y T (X) = i=1 Xi . Para ver si
T es completa, se considera E(g(T )) = 0, que es equivalente a:
n
X n t n−t
E(g(T )) = g(t) θ (1 − θ) = 0,
t=0
t
de donde
n t
n
X n θ
(1 − θ) g(t) = 0,
t=0
t 1−θ
ó
n t
X n θ
g(t) = 0,
t=0
t 1−θ

θ
el cual es un polinomio en 1−θ , que vale cero si cada uno de los coeficientes
t
θ
de 1−θ vale cero, es decir, si

n
g(t) = 0, para toda t = 0, 1, 2, . . . , n,
t
pero nt 6= 0, ası́ queP

g(t) = 0, ∀t ∈ {0, 1, 2, . . . , n}, lo que lleva a la conclu-
n
sión de que T (X) = t=1 Xi es una estadı́stica completa.
Observe que si en esta distribución se toma T (X) = X1 −X2 y g (T ) = T,
se tiene que E(X1 − X2 ) = E (X1 ) − E (X2 ) = 0, pero X1 − X2 no vale cero
con probabilidad 1, ası́ que X1 − X2 no es completa.

distribución Uniforme continua en el intervalo (0, θ) . Para ver si
T (X) = Yn = máx {X1 , . . . , Xn }

es completa, se hace
Z
E(g(T )) = g(t)fT (t)dt = 0.
En el caso de la máxima estadı́stica de orden,
tn−1 (t)
fT (t) = n I , t = yn .
θn (0,θ)
Ası́
Z θ
n n−1
E(g(T )) = g(t) t dt
0 θn
Z θ
n
= g(t)tn−1 dt = 0, ∀θ > 0,
θn 0
entonces Z θ
g(t)tn−1 dt = 0, ∀θ > 0.
0
Lo cual implica que
g(θ)θn−1 = 0 ∀θ > 0,
y por lo tanto, g(θ) = 0, ∀θ > 0, lo que lleva a concluir que la máxima
estadı́stica de orden es una estadı́stica completa.
Observación 3.7 En general, puede decirse que una familia paramétrica de

distribuciones f (x; θ) es completa si E [g (X)] = 0 implica que g (x) = 0 casi
seguramente (c.s.). En este contexto, si f (x; θ) pertenece a la familia expo-
nencial, entonces f (x; θ) es completa. Para verificarlo, se considerará el caso
particular en el que c (θ) = θ y d (x) = x, es decir: f (x; θ) = a (θ) b (x) eθx .
Ahora, si para toda θ, se cumple que:
Z ∞
g (x) f (x; θ) dx = 0,
−∞
se tiene que Z ∞
g (x) a (θ) b (x) eθx dx = 0,
−∞
o Z ∞
[g (x) b (x)] eθx dx = 0,
−∞
la cual corresponde a la transformada de Laplace de la función g (x) b (x) .

Por la propiedad de unicidad de la transformada, la única función que tiene
3.5. Completez 87
una transformada igual a cero es la función que vale cero c.s., es decir,
g (x) b (x) = 0 c.s., de donde se obtiene que g (x) = 0 c.s., considerando
b (x) 6= 0. Ası́ que f (x; θ) es completa.
Observación 3.8 Si f (x; θ) pertenece a la familia exponencial, entonces

n
P
d (Xi ) es completa.
i=1
En sı́ntesis, una de las ventajas que se tiene al identificar a un miembro

de la familia exponencial está explicada en el siguiente resultado.
Teorema 3.7 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población

con función de densidad f (x; θ) con θ ∈ Θ ⊆ R, donde f (x; θ) pertenece a
la familia exponencial, es decir, f (x; θ) = a(θ)b(x) exp{c(θ)d(x)}. Entonces,
n
P
la estadı́stica d(Xi ) es suficiente minimal y completa.
i=1
Aunque este resultado es un resumen de lo que ya se justificó en la sección

3.4.4 (suficiencia minimal y la familia exponencial) y de las observaciones
anteriores, la parte correspondiente a la completez puede consultarse con
mayor detalle en Zacks (1971), página 69, o Schervish (1995), páginas 108-
110.
De esta manera, es posible encontrar estadı́sticas suficientes y completas
fácilmente cuando la muestra proviene de un miembro de la familia expo-
nencial. Por ejemplo, sea X1 , X2 , . . . , Xn una muestra aleatoria de una po-
blación con distribución Geométrica (θ), con θ ∈ [0, 1]; para encontrar una
estadı́stica suficiente y completa, observe que f (x; θ) pertenece a la familia
exponencial, ya que como se vio antes,
f (x; θ) = θ(1 − θ)x I{0,1,...} (x)

= θ exp{x ln(1 − θ)}I{0,1,...} (x),
con
a(θ) = θ,
b(x) = I{0,1,...} (x),
c(θ) = ln(1 − θ),
d(x) = x.
n
P
De donde, puede concluirse que S (X) = Xi es una estadı́stica suficiente
i=1i
(minimal) y completa.
3.6. Algunas generalizaciones

La primera generalización de los resultados vistos previamente se refiere al
teorema de factorización para un conjunto de estadı́sticas suficientes.

con función de densidad f (x; θ) , donde θ es un vector de parámetros. Las es-
tadı́sticas S1 (X) , S2 (X) , . . . , Sr (X) , r ≥ k, son conjuntamente suficientes
si y sólo si existen dos funciones: g(S1 , . . . , Sr ; θ) que depende de
X1 , X2 , . . . , Xn sólo a través de S1 , . . . , Sr y de θ; y h(X) cualquier fun-
ción no negativa que sólo depende de la muestra, para las cuales la densidad
conjunta
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ1 , θ2 , . . . , θk )
puede factorizarse como:
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,θ) = g(S1 , . . . , Sr ; θ) h(x).

con distribución N (µ, σ 2 ). Encontrar estadı́sticas suficientes para θ =(µ, σ 2 ).
La densidad conjunta de X1 , X2 , . . . , Xn puede escribirse como
n
Y 1 1 2
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,µ, σ 2 ) = √ e− 2σ2 (xi −µ)
i=1 2πσ 2
n/2
1 1
Pn 2
= e− 2σ2 i=1 (xi −µ)
2πσ 2
n2
1 Pn
x2i −2µ
Pn
xi +nµ2 )
e− 2σ2 (
1
= i=1 i=1 ,
2πσ 2
n n
x2i y
P P
la densidad conjunta depende de x1 , x2 , . . . , xn sólo a través de xi ,
n i=1 i=1
n
Xi2 son conjuntamente suficientes.
P P
por lo que las estadı́sticas Xi ,
i=1 i=1 n
n
2 2
P P
Note que (X, S ) es una función uno a uno de Xi , Xi , por lo que
i=1 i=1
también son suficientes para la distribución Normal.
Familias exponenciales k-paramétricas

Cuando la familia paramétrica tiene más de un parámetro, es decir, su fun-
ción de densidad es de la forma f (x; θ) con θ∈ Θ ⊆ Rk , se dice que pertenece
3.6. Algunas generalizaciones 89
a la familia exponencial k-paramétrica si y sólo si puede expresarse de la

forma  
Xk 
f (x; θ) = a(θ)b(x) exp cj (θ)dj (x)
 
j=1
Ejemplo 3.16 Sea X ∼ Gama(r, λ), ¿pertenece a la familia exponencial

k-paramétrica?.
En este caso,
λr r−1 −λx
f (x; r, λ) = x e I(0,∞) (x)
Γ(r)
λr −λx+(r−1) ln(x)
= e I(0,∞) (x),
Γ(r)
por lo que:
r
λ
a(θ) = Γ(r) , b(x) = I(0,∞) (x),
c1 (θ) = −λ, d1 (x) = x,
c2 (θ) = r − 1, d2 (x) = ln x,
por lo tanto, se concluye que la densidad Gama pertenece a la familia expo-
nencial.

Ejemplo 3.17 La distribución Normal µ, σ 2 pertenece a la familia expo-
nencial.
Para comprobarlo, la densidad puede escribirse como:
1 1 2
f x; µ, σ 2 e− 2σ2 (x−µ)

= √
2πσ 2
1 2
−2xµ+µ2 )
e− 2σ2 (x
1
= √
2πσ 2
1 µ2 1 2
+ σµ2 x
= √ e− 2σ2 e− 2σ2 x ,
2πσ 2
µ2
√ 1 e− 2σ2 , b (x) = 1, c1 = − 2σ1 2 , d1 = x2 , c2 = µ

de donde: a µ, σ 2 = 2πσ 2 σ2 y
d2 = x.
Ejemplo 3.18 La distribución Beta (θ1 , θ2 ) pertenece a la familia exponen-

cial, pues la densidad se puede escribir como:
1 θ −1
f (x; θ1 , θ2 ) = xθ1 −1 (1 − x) 2 I(0,1) (x)
B (θ1 , θ2 )
1
= I(0,1) (x) e(θ1 −1) ln x+(θ2 −1) ln(1−x) .
B (θ1 , θ2 )
Por último, se enuncia una extensión del resultado que relaciona a la

familia exponencial con la suficiencia.

con función de densidad f (x; θ) , con θ ∈ Θ ⊆ Rk , que pertenece a la familia
exponencial k-paramétrica, es decir:
 
X k 
f (x; θ) = a(θ)b(x) exp cj (θ)dj (x) .
 
j=1
Entonces, el conjunto de estadı́sticas

n n n
!
X X X
d1 (Xi ), d2 (Xi ), . . . , dk (Xi )
i=1 i=1 i=1
son suficientes y completas.
Con este resultado y considerando

n el ejemplo 3.16,
se puede afirmar que
P Pn
si X ∼ Gama(r, λ), entonces Xi , ln(Xi ) son suficientes y com-
i=1 i=1 Pn Pn
2
pletas. También puede concluirse
Pn lo mismo Pn para i=1 Xi , i=1 Xi en la
distribución Normal y para ( i=1 ln Xi , i=1 ln (1 − Xi )) en la distribución
Beta.
3.7. Estadı́sticas auxiliares

En esta sección se estudiará un tipo especial de estadı́sticas llamadas auxilia-
res. Como se verá, una estadı́stica auxiliar no contiene información acerca de
θ, es una variable aleatoria cuya distribución es fija y conocida, sin relación
con θ. Sin embargo, cuando se usa en conjunto con otras estadı́sticas, puede
contener información valiosa para hacer inferencias acerca del parámetro.
Definición 3.9 A una estadı́stica T (X) cuya distribución no depende del

parámetro θ, se le llama estadı́stica auxiliar.
Ejemplo 3.19 Sea X1 , . . . , Xn una muestra aleatoria de la población con

distribución Uniforme continua sobre el intervalo (θ, θ + 1), −∞ < θ < ∞.
Sean Y1 = X(1) , . . . , Yn = X(n) las estadı́sticas de orden de la muestra. La
estadı́stica Rango R = Yn − Y1 , es una estadı́stica auxiliar. Para verificarlo,
se mostrará que la densidad de R no depende de θ.
3.7. Estadı́sticas auxiliares 91
La función de distribución de cada Xi es


0,
 si x ≤ θ,
F (x; θ) = x − θ, si θ < x < θ + 1,

1, si x ≥ θ + 1,

mientras que la función de densidad está dada por

(x)
f (x; θ) = I(θ,θ+1) .
Por lo tanto, usando la expresión (3.8) deducida en la sección 3.3.2 la función

de densidad conjunta de Y1 y Yn es
fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn )
(
n(n − 1)(yn − y1 )n−2 si θ < y1 < yn < θ + 1,
=
0 en otro caso.
Haciendo la transformación R = Yn − Y1 y T = (Y1 + Yn ) /2, la cual tiene la

transformación inversa Y1 = (2T − R)/2 y Yn = (2T + R)/2 con Jacobiano
igual a −1 (ver sección 3.3.2), y usando la expresión (3.9), la función de
densidad conjunta de R y T está dada por
(
n(n − 1)rn−2 si 0 < r < 1; θ + (r/2) < t < θ + 1 − (r/2),
fR,T (r, t) =
0 en otro caso.
Por lo tanto, la función de densidad de probabilidad para R es

Z θ+1−(r/2)
fR (r) = n(n − 1)rn−2 dt
θ+(r/2)
= n(n − 1)rn−2 (1 − r), 0 < r < 1.
Esta es la función de densidad de una variable aleatoria con distribución

Beta con α = n − 1 y β = 2. Y ası́, la función de densidad es la misma para
toda θ; por lo tanto, la distribución de R no depende de θ, concluyéndose
que R = Yn − Y1 es una estadı́stica auxiliar.
El siguiente resultado, conocido como el teorema de Basu, permite ve-

rificar la independencia de dos estadı́sticas sin necesidad de encontrar su
distribución conjunta.
Teorema 3.10 (teorema de Basu). Si S(X) es una estadı́stica suficiente

y completa y T (X) es una estadı́stica auxiliar, entonces S(X) y T (X) son
independientes.
Demostración. Se hará para el caso discreto. Como T (X) es una estadı́sti-

ca auxiliar, entonces P(T (X) = t) no depende de θ. También la probabilidad
condicional
P(T (X) = t|S(X) = s) = P(X ∈ {x : T (x) = t}|S(X) = s),
no depende de θ porque S(X) es una estadı́stica suficiente.
Por lo tanto, para demostrar que S(X) y T (X) son independientes, basta
comprobar que
P(T (X) = t|S(X) = s) = P(T (X) = t),
para todos los posibles valores de s ∈ S. Observe que
X
P(T (X) = t) = P(T (X) = t|S(X) = s)P(S(X) = s). (3.16)
s∈S
X
Por otro lado, dado que P(S(X) = s) = 1, se puede escribir
s∈S
X
P(T (X) = t) = P(T (X) = t) P(S(X) = s)
s∈S
X
= P(T (X) = t)P(S(X) = s). (3.17)
s∈S
Sea g (S) definida como

g(s) = P(T (X) = t|S(X) = s) − P(T (X) = t),
la cual no depende de θ, pues como se habı́a señalado, ni P(T (X) = t|S(X) =
s) (por la suficiencia de S), ni P(T (X) = t) (por ser T una estadı́stica
auxiliar) dependen de θ; ası́ que g (S) es una estadı́stica.
Por (3.16) y (3.17), se deduce que
X
E [g(S)] = g(s)P(S(X) = s)
s∈S
X
= [P(T (X) = t|S(X) = s) − P(T (X) = t)] P(S(X) = s)
s∈S
X
= P(T (X) = t|S(X) = s)P(S(X) = s)
s∈S
X
− P(T (X) = t)P(S(X) = s)
s∈S
= P(T (X) = t) − P(T (X) = t)
= 0, para toda θ,
3.8. Ejercicios 93
y como S(X) es una estadı́stica completa, se tiene que g(s) = 0, para s ∈ S;

por lo que
P(T (X) = t|S(X) = s) = P(T (X) = t),
concluyéndose que S(X) y T (X) son independientes.
En el teorema de Basu se hace el supuesto de que S (X) es suficiente y

completa, esto implica que S (X) también es suficiente minimal (ver Scher-
vish (1995),
sección 2.1).

distribución Uniforme en el intervalo (0, θ) y sean Y1 y Yn las estadı́sticas de
orden mı́nima y máxima, respectivamente. Entonces las estadı́sticas T (X) =
Y1
Yn y S (X) = Yn , son variables aleatorias independientes. Para verificarlo,
recuerde que Yn es una estadı́stica suficiente y completa para θ (ver ejemplos
3.7 y 3.14). De acuerdo con el teorema de Basu basta mostrar que T (X) es
una estadı́stica auxiliar, por lo que se calculará la función de distribución de
T (X) usando la expresión general para la función de densidad conjunta de
Y1 y Yn dada por (3.8) e integrando sobre la región adecuada:

Y1
FT (t) = P ≤t , 0<t<1
Yn
= P [Y1 ≤ tYn ]
Z θ Z tyn
n(n − 1) yn y1 n−2
= 2
− dy1 dyn
0 0 θ θ θ
= 1 − (1 − t)n−1 I(0,1) (t) + I[1,∞) (t).

Por lo tanto, la función de densidad de T (X) no depende de θ. Ası́, T (X)

y S (X) son estadı́sticas (variables aleatorias) independientes.
3.8. Ejercicios
1. Suponga que X es una variable aleatoria discreta con función de den-

sidad dada por 
 0.2 si x = 0,
fX (x) = 0.3 si x = 3,
0.5 si x = 12.

Sea X1 , X2 y X3 una muestra aleatoria de esta distribución. Obtenga:

(a) La distribución de la muestra (es decir, haga la lista de todos los

posibles valores de la muestra aleatoria y sus respectivas proba-
bilidades).
(b) La distribución muestral de la media muestral X.
(c) La distribución muestral de la mediana muestral.
2. Sea X una variable aleatoria discreta que toma los valores 1, 2 y 3
con probabilidades 16 , 21 y 13 , respectivamente. Considere las posibles
muestras aleatorias simples de tamaño dos.
(a) Determine la distribución de la media muestral (es decir, fX̄ (·)).
(b) Compruebe que la esperanza de la media muestral es igual a la
media poblacional.
(c) Compruebe que la varianza de la media muestral es igual a la
varianza poblacional dividida entre el tamaño de muestra.
3. En un dado están marcados los resultados 1, 2 y X. Para hacer infe-
rencias acerca de las probabilidades p1 , p2 y pX de cada resultado, se
lanza tres veces el dado.
(a) Construya el espacio muestral y la distribución de la muestra (de
tamaño 3).
(b) Obtenga la distribución de T1 , T2 y TX , siendo Ti la frecuencia
de resultados iguales a i.
(c) Determine la distribución de TX , su media y su varianza.
(d) Calcule la covarianza entre T1 y T2 .
4. De una población con distribución Poisson(θ), se obtiene una muestra
aleatoria de tamaño n. Determine la distribución de la media muestral.
5. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad n o
f (x; θ) = e−(x−θ) exp −e−(x−θ) ,
donde θ es un número real.
Pn
(a) Obtenga la distribución de T = i=1 e−Xi .
(b) Calcule E[ln(T )] y Var[ln(T )].
6. Sea X1 , . . . , Xn una muestra aleatoria de una población cuya función
de densidad es
θ
f (x; θ) = 1+θ
, x > 0,
(1 + x)
3.8. Ejercicios 95
siendo θ un parámetro
Pn mayor que cero. Determine la distribución de
la estadı́stica T = i=1 ln (1 + Xi ).
7. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribu-

ción Rayleigh, cuya función de densidad es
2 −x2 /θ
f (x; θ) = xe , I(0,∞) (x),
θ
con θ > 0.
Pn
(a) Obtenga la distribución de T = i=1 Xi2 .
(b) Obtenga E(T ) y Var(T ).
(c) Demuestre que T es una estadı́stica suficiente para θ.
8. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución

N (µ, σ 2 ). Encuentre la media y la varianza de
sP
n
− X̄)2
i=1 (Xi
S= .
n−1
√
9. Sea X una variable aleatoria con distribución χ2(1) . Defina Z1 = +
X
√
y Z2 = − X. Obtenga las distribuciones de Z1 y Z2 .
10. Sea X una variable aleatoria con distibución F (m, n). Demuestre que
1
(a) Z = X ∼ F (n, m).
mX/n
(b) Z = 1+mX/n ∼ Beta(m/2, n/2).
11. Sea X una variable aleatoria con distibución t(k) . Demuestre que
(a) La distribución de X se aproxima a una distribución N (0, 1) cuan-

do k crece.
(b) Y = X 2 ∼ F (1, k).
12. Demuestre el teorema 3.4. Es decir, si Z y U son variables aleato-

rias independientes con distribución N (0, 1) y χ2(k) , respectivamente,
demuestre que
Z
p ∼ t(k) .
U/k
13. Sea Xi , i = 1, 2, 3, una muestra aleatoria de la población con distribu-

ción N (i, i2 ), respectivamente. En cada una de las siguientes situacio-
nes utilice las Xi ’s para construir una estadı́stica con la distribución
indicada.
(a) χ2 con 3 grados de libertad.

(b) t de Student con 2 grados de libertad.
(c) F con 1 y 2 grados de libertad.
14. Sea X1 , X2 una muestra aleatoria de la población con distribución

N (0, 1). Para cada uno de los siguientes incisos obtenga las distribu-
ciones de las estadı́sticas T (X).
√
(a) T (X) = (X2 − X1 )/ 2.
(b) T (X) = (X1 + X2 )2 /(X2 − X1 )2 .
(c) T (X) = X12 /X22 .
p
(d) T (X) = (X2 + X1 )/ (X1 − X2 )2 .
15. Sea Z1 , Z2 una muestra aleatoria de la población con distribución

N (0, 1), y sea X1 , X2 una muestra aleatoria de la población con dis-
tribución N (1, 1). Suponga que las Z’s son independientes de las X’s.
Para cada uno de los siguientes incisos obtenga las distribuciones de
las estadı́sticas T = T (X, Z).
(a) T = X̄ + Z̄.
p
(b) T = (Z1 + Z2 )/ [(X2 − X1 )2 + (Z2 − Z1 )2 ]/2.

(c) T = (X1 − X2 )2 + (Z1 − Z2 )2 + (Z1 + Z2 )2 /2.
(d) T = (X2 + X1 − 2)2 /(X2 − X1 )2 .

N (0, 1). Sean
k n
1X 1 X
Xk = Xi , X n−k = Xi .
k i=1 n−k
i=k+1

las estadı́sticas T (X).
(a) T (X) = 21 (X k + X n−k ).

2 2
(b) T (X) = kX k + (n − k)X n−k .
3.8. Ejercicios 97
(d) T (X) = X1 /Xn .

N (µ, σ 2 ). Sean
k k
1X 1 X
Xk = Xi , Sk2 = (Xi − X k )2 ,
k i=1 k − 1 i=1
n n
1 X
2 1 X
X n−k = Xi , Sn−k = (Xi − X n−k )2 ,
n−k n−k−1
i=k+1 i=k+1
n n
1 X 1 X
X= Xi , S2 = (Xi − X)2 .
n i=1
n−1 i=1

las estadı́sticas T (X).
2
(a) T (X) = (k − 1)Sk2 + (n − k − 1)Sn−k
2
/σ .
(b) T (X) = 21 (X k + X n−k ).
√
(c) T (X) = (X̄ − µ)/(S/ n).
(d) T (X) = Sk2 /Sn−k
2
.
18. Sean X1 , . . . , Xn y Z1 , . . . , Zn muestras aleatorias independientes entre

sı́ de la distribución Normal tales que E(Xi ) = E(Zi ) = µ, Var(Xi ) =
σ 2 y Var(Zi ) = 2σ 2 para cualquier i ∈ {1, 2, . . . , n}. Defina
n
X n
X
U= (Xi − X̄)2 , V = (Zi − Z̄)2 .
i=1 i=1
2U +V
Determine la distribución de 2σ 2 .
19. Un inversionista bursátil compra o vende acciones de CEMEX, S. A.

mediante el siguiente procedimiento: selecciona al azar una muestra de
dı́as para los que determina el ı́ndice medio, X de la empresa Edifica-
ciones, S. A.; selecciona también al azar otra muestra de dı́as, para los
que determina el ı́ndice medio, Z, de CEMEX, S. A. Compra acciones
de CEMEX, S. A. cuando Z ≤ X, vendiendo en caso contrario.
El inversionista supone que ambos ı́ndices bursátiles se distribuyen
normal e independientemente con una diferencia de medias de 1.432
unidades en favor de la primera y que los ı́ndices bursátiles de ambas
empresas se comportan de forma independiente todos los dı́as.
Calcular la probabilidad de que el inversionista compre bajo el supuesto

de que seleccionó 60 dı́as para calcular el primer ı́ndice y obtuvo una
varianza muestral de 23 y 50 dı́as para el segundo con una varianza de
7.
N (0, 1). Defina Y = mı́n(X1 , X2 ). Demuestre que Y 2 ∼ χ2(1) .
Pareto, cuya función de densidad es
α
f (x; α) = I[1,∞] (x), α > 0.
xα+1
Sean Y1 y Y2 las correspondiente estadı́sticas de orden. ¿Qué puede
decir de la distribución de las variables aleatorias presentadas en los
siguientes incisos?
(a) Y2 .
(b) Y2 − Y1 .
(c) Y2 /Y1 .
22. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución
U (0, 1).
(a) Obtenga la distribución conjunta de Y1 , Y2 , Y3 (las correspondien-
tes estadı́sticas de orden).
(b) Obtenga la función de densidad de la mediana, es decir, de Y2 .
(c) Obtenga la función de densidad del rango R = Y3 − Y1 .
23. Sean Y1 , Y2 , Y3 , Y4 las estadı́sticas de orden de una muestra aleatoria
de tamaño 4 de la población con función de densidad
fX (x) = exp (−x) I(0,∞) (x) .
Obtenga lo siguiente:
(a) P (3 ≤ Y4 ).
(b) E (Y1 ).
(c) La función de densidad conjunta de Y1 y Y4 .
24. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribu-
ción Exponencial de parámetro θ = 1, es decir Xi ∼ exp(1). Y sean
Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre que
nYn y n(Y2 − Y1 ) son independientes.
3.8. Ejercicios 99

Uniforme U (θ − 1/2, θ + 1/2).
(a) Obtenga la distribución de la mı́nima estadı́stica de orden Y1 , ası́

como de la máxima Yn .
(b) Obtenga las esperanzas de Y1 y Yn .
26. Sea X1 , X2 , . . . , Xn una muestra aleatoria de la población con distri-

bución Uniforme U (0, θ). Demuestre que Y1 /Yn y Yn son variables
aleatorias independientes, donde Y1 y Yn son las estadı́sticas de orden
mı́nima y máxima respectivamente.

densidad
a
fX (x; a, θ) = a xa−1 , si 0 < x < θ.
θ
Sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre
que Y1 /Y2 , Y2 /Y3 , . . . , Yn−1 /Yn son variables aleatorias mutuamente
independientes y obtenga la distribución de cada una de ellas.
28. Sea Ui , i = 1, 2, . . . , una muestra aleatoria de la población con distri-

bución U (0, 1), y sea X una variable aleatoria con función de densidad
c
P(X = x) = , x = 1, 2, 3, . . . ,
x!
donde c = 1/(e − 1). Obtenga la distribución de Y = mı́n(U1 , . . . , UX ).
[Nota: La distribución condicional de Y dada X = x, Y |X = x, es
la distribución de la mı́nima estadı́stica de orden de una muestra de
tamaño x].

N (0, 1). Obtenga la distribución del rango, R = Y2 − Y1 .

U (0, 1). Sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden.
(a) Obtenga la media y varianza de Yn − Y1 .

(b) Obtenga la media y varianza de (Y1 + Yn )/2.
(c) Obtenga la media y varianza de Yk+1 (mediana) considerando que
n = 2k + 1, con k = 0, 1, . . . .
(d) Compare las medias y las varianzas de X, Yk+1 , (Y1 + Yn )/2.

N (µ, σ 2 ). Demuestre que:
Pn 2 2
(a) S(X) = i=1 Xi es una estadı́stica suficiente para σ cuando
µ = 0.
2
(b) S(X) = i=1 (xi −µ)
Pn
n es una estadı́stica suficiente para σ 2 cuando
µ es conocida.
Pn (xi −x̄)2
(c) S(X) = i=1 n no es una estadı́stica suficiente para σ 2
cuando µ es desconocida.
32. Sea X una variable aleatoria con distribución N (0, θ) .
(a) ¿Es S(X) = X una estadı́stica suficiente para θ?.
(b) ¿Es S(X) =| X | una estadı́stica suficiente para θ?.
33. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Gama(α, β) cuya función de densidad es
1
f (x; α, θ) = xα−1 e−x/β ,
Γ(α)β α
con α > 0, β > 0 y 0 < x < ∞.
Pn
(a) Demuestre que si α = 1, S(X) = i=1 Xi es una estadı́stica
suficiente para β.
Qn
(b) Demuestre que si β es conocido, S(X) = i=1 Xi es una estadı́sti-
ca suficiente para α.
(c) Si α y β son desconocidos, obtenga una estadı́stica suficiente (bi-
dimensional) para los parámetros (α, β).
Beta (α, 2) , α > 0, β = 2, cuya función de densidad es
Γ (α + 2) α−1 1
f (x; α) = x (1 − x) , 0 < x < ∞,
Γ (α) Γ (2)
cero en cualquier otro caso. Demuestre que S(X) = X1 X2 · · · Xn =
Πni=1 Xi (el producto) es una estadı́stica suficiente para α.
W eibull(α, β), cuya función de densidad es
β
1 β−1 x
fX (x; α) = βx exp − I(0,∞) (x),
α α
3.8. Ejercicios 101
donde α > 0 es un parámetro desconocido, pero β > 0 es un parámetro

conocido. Encuentre una estadı́stica suficiente para θ.

Cauchy(θ) cuya función de densidad es
1
f (x; θ) = , -∞ < x < ∞, − ∞ < θ < ∞.
2
π 1 + (x − θ)
(a) ¿Puede escribirse la función de densidad conjunta de X1 , X2 , . . . ,

Xn como en el teorema de factorización?
(b) ¿Existe una estadı́stica suficiente para el parámetro θ?
Sugerencia: al hacer la integral (para calcular la esperanza) considere

el cambio de variable x − θ = tan η.

ción W eibull(α, β), donde α > 0 es desconocida, pero β > 0 se supone
conocido, con función de densidad
β
1 β−1 x
f (x; α) = βx exp − I(0,∞) (x).
α α
Esta función de densidad se usa frecuentemente como un modelo pa-

ra las longitudes de vida de sistemas fı́sicos. Demuestra que S(X) =
Pn β
i=1 Xi es una estadı́stica suficiente para α.
38. *Sea X1 , . . . , Xn una muestra aleatoria de una población cuya función

de densidad es

1 (x − µ)
fX (x; µ, σ) = exp − I(µ,∞) (x),
σ σ
con µ ∈ R y σ ∈ R+ .
Pn
(a) Demuestre que S(X) = Y1 , n1 i=1 (Xi − Y1 ) es una estadı́stica

suficiente para (µ, σ) si ambos parámetros son desconocidos.

Pn
(b) Demuestre que si µ es conocido entonces S(X) = n1 i=1 (Xi − µ)
es una estadı́stica suficiente para σ.
(c) Demuestre que si σ es conocido entonces S(X) = Y1 es una es-
tadı́stica suficiente para µ.
39. *Considere la siguiente función de densidad dependiente de tres paráme-

tros α, p y σ,
p−1
1 x−α x−α
f (x; α, p, σ) = exp − ,
σΓ(p) σ σ
con p > 0, σ > 0 y α ≤ x < ∞. Demuestre que:
(a) Existe una estadı́stica suficiente para p cuando α y σ son conoci-
dos.
(b) Existe una estadı́stica suficiente para σ cuando α y p son conoci-
dos.
(c) De forma conjunta existe un par de estadı́sticas suficientes para
(p, σ) cuando α es conocida.
(d) Si σ es conocida y p = 1, existe una estadı́stica suficiente para α.
40. Sea X1 , . . . , Xn una muestra aleatoria de las distribuciones f (x; θ) es-
pecificadas a continuación. Encuentre una estadı́stica suficiente mini-
mal y completa para θ.
(a) f (x; θ) = θxθ−1 I(0,1) (x), θ > 0.
1 3
(b) f (x; θ) = 6θ 4 x exp(−x/θ)I(0,∞) (x), θ > 0.
(c) Binomial(k, θ) (k fijo).
(d) Binomialnegativa(k, θ) (k fijo).
41. Sea X1 , . . . , Xn una muestra aleatoria de la población cuya función de
densidad es
θ2
f (x; θ) = (x + 1)e−θx I(0,∞) (x), θ > 0.
θ+1
(a) Demuestre que la función de densidad de X pertenece a la familia
exponencial.
(b) Obtenga una estadı́stica suficiente minimal y completa.
Pareto, con función de densidad
f (x; x0 , θ) = θxθ0 x−θ−1 , x0 ≤ x, θ > 1.
donde x0 > 0. Obtenga una estadı́stica suficiente para θ:

(a) Usando el teorema de factorización.
3.8. Ejercicios 103
(b) Usando la propiedad de la familia exponencial.
¿Las estadı́sticas suficientes son las mismas?
43. *Sea X1 , . . . , Xn una muestra de aleatoria de la población con distri-

bución Gaussiana Inversa, IG(µ, λ), cuya función de densidad es
1/2
λ(x − µ)2

λ
f (x; µ, λ) = exp − I(0,∞) (x).
2πx3 2µ2 x

Demuestre que S(X) = X̄, Pn n1 −X̄ −1 es una estadı́stica suficien-
i=1 Xi
te y completa.
44. Sea X1 , X2 , X3 una muestra

Paleatoria de la población con distribución
3
Bernoulli(θ). Defina T = i=1 Xi , T1 = X1 y T2 = (T, T1 ).
(a) Obtenga las particiones inducidas sobre el espacio muestral a par-

tir de T , T1 y T2 , respectivamente.
(b) Muestre que T es una estadı́stica suficiente minimal para θ, pero
T2 no lo es.
[Nota: primero muestre que T conduce a la partición suficiente
minimal sobre el espacio muestral, pero que T2 no conduce a tal
partición].
45. Sea X una variable aleatoria con distribución Uniforme U (−θ, θ).
(a) ¿S(X) = X es una estadı́stica suficiente minimal para θ?

(b) ¿S(X) = X es una estadı́stica completa?

Uniforme U (θ, θ+1). Demuestre que S(X) = (Y1 , Yn ) es una estadı́stica
suficiente minimal y que no es completa.

Uniforme U (θ1 , θ2 ), con θ1 < θ2 .
(a) Demuestra que si θ1 es conocido, entonces S(X) = Yn es una

estadı́stica suficiente minimal y completa para θ2 .
(b) Demuestra que si θ2 es conocido, entonces S(X) = Y1 es una
estadı́stica suficiente minimal y completa para θ1 .
(c) Si θ1 y θ2 son desconocidos, obtenga una estadı́stica suficiente
(bidimensional) minimal y completa para los parámetros (θ1 , θ2 ).
48. Para cada una de las siguientes distribuciones, sea X1 , . . . , Xn una

muestra aleatoria. Obtenga una estadı́stica suficiente y completa para
θ, o en su caso muestre que no existe alguna.
2x
(a) f (x; θ) = θ 2 , 0 < x < θ, θ > 0.
ln(θ)θ x
(b) f (x; θ) = θ−1 , 0 < x < 1, θ > 1.
θ
(c) f (x; θ) = (1+x)1+θ
0 < x < ∞, θ > 0.
,
(d) f (x; θ) = e−(x−θ) exp −e−(x−θ) , −∞ < x, θ < ∞.

49. Sea T una estadı́stica auxiliar para θ con función de densidad fT (t).
Sea g(·) una función diferenciable uno-a-uno que no depende de θ.
Demuestre que T ∗ = g(T ) también es una estadı́stica auxiliar para θ.
N (µ, σ 2 ), donde σ 2 es conocido.
(a) Demuestre que S(X) = X es una estadı́stica suficiente y completa
para µ, y que T (X) = S 2 es una estadı́stica auxiliar.
(b) Demuestre que X y S 2 son estadı́sticas independientes.
Capı́tulo 4
Estimación puntual
En este capı́tulo se abordarán los tópicos relacionados con estimación pun-

tual. Se inicia con la exposición de los métodos de estimación más impor-
tantes, tales como el de máxima verosimilitud, el de momentos y otros como
el de medianas y percentiles. Ası́mismo, se da una introducción al método
Bayesiano y más adelante al de mı́nimos cuadrados.
Posteriormente se revisan las propiedades deseables de un estimador pun-
tual como una forma de analizar su bondad. Se habla del error cuadrático
medio, estimadores insesgados y la propiedad de consistencia, para dar lugar
al ulterior desarrollo de la teorı́a para encontrar a los mejores estimadores
insesgados.
4.1. Introducción
Suponga que se dispone de una población en la que se estudia una variable
aleatoria X con distribución conocida y parámetro (o parámetros) descono-
cido(s) y se tiene interés en disminuir el grado de desconocimiento de θ en
f (x; θ) . De la población se extrae una muestra aleatoria simple de tamaño n:
X1 , X2 , ..., Xn y se trata de calcular, a partir de los valores muestrales, una
función de los mismos que proporcione una estadı́stica θb = T (X1 , X2 , ..., Xn )
que le asigne un valor al parámetro desconocido de la población, de forma
que sean lo más cercanos en algún sentido. A θb se le llama estimador.
El objetivo de la estimación puntual es entonces encontrar un valor para
θ, denotado como θ, b que sea función de la muestra aleatoria y que permita
modelar o describir de manera adecuada el fenómeno aleatorio.
105
106 4. Estimación puntual
Definición 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una distribución

con función de densidad f (x; θ). Un estimador es una estadı́stica T (X) cuyos
valores t(x) sirven para aproximar o estimar los valores de θ.
La notación θ̂ = T (X) expresa que el estimador de θ es la estadı́stica

T (X). Los valores del estimador, o sea t(x), son realizaciones de la variable
aleatoria T (X).
Si por ejemplo, se tiene una población N (µ, σ 2 ), un posible estimador
para µ es µ̂ = X̄, es decir, en este caso el estimador de µ serı́a la estadı́stica
X (la media muestral). En los siguientes párrafos se presentarán los métodos
más conocidos para encontrar estimadores.
En ocasiones, en lugar del parámetro θ, se desea estimar una función
de dicho parámetro. En general, se denotará como τ (θ) a cualquier
función de θ.
4.2. Métodos de estimación

El primero de los métodos que se abordará fue aportación de Karl Pearson
(1857-1936) y se conoce como el método de momentos para la estimación de
parámetros.
Karl Pearson “fue historiador, escribió sobre folklore, fue socialista con-
vencido, abogado, matemático aplicado, biómetra, estadı́stico, maestro y
biógrafo. Sin duda, su contribución más importante es el nacimiento de la
estadı́stica aplicada. Es por lo que se le debe mayor crédito, en frase de él
mismo: Hasta que los fenómenos de cualquier rama del conocimiento no ha-
yan sido sometidos a medida y número, no se puede decir que se trate de una
ciencia. Además del método de momentos para la obtención de estimadores,
introdujo el sistema de curvas de frecuencias para disponer de distribucio-
nes que pudieran aplicarse a los distintos fenómenos aleatorios, desarrolló la
correlación lineal para aplicarla a la teorı́a de la herencia y de la evolución.
Introdujo el método de la Ji-cuadrada para dar una medida del ajuste entre
datos y distribuciones, para contrastar la homogeneidad entre varias mues-
tras y la independencia entre variables. Fundó los Anales de la Eugenesia y
en 1900, junto con Galton y Weldon, fundó la revista Biometrika de la que
fue editor hasta su muerte. En una descripción autobiográfica decı́a: una
explicación para mi vida, se debe a una combinación de dos caracterı́sticas
que he heredado: capacidad para trabajar mucho y capacidad para relacionar
las observaciones de los demás”1 .
1 Gómez Villegas, M.A. (2009). Karl Pearson, el creador de la estadı́stica matemática.
Historia de la probabilidad y la estadı́stica IV, J. Basulto y J.J. Garcı́a (eds.). Congreso
internacional de historia de la estadı́stica y la probabilidad, 351-356.
4.2. Métodos de estimación 107
También se introducirá el {indexmétodo! de máxima verosimilitud pro-

puesto por Ronald A. Fisher en 1922, y que intuitivamente pretende obtener
el estimador de un parámetro seleccionando el que maximiza la probabilidad
de obtener los datos que realmente fueron observados.
Hablar de Fisher2 equivale a referirse al desarrollo de la estadı́stica du-
rante el siglo XX. Basta decir que la mayor parte de los términos que se usan
en Inferencia estadı́stica los introdujo él, por ejemplo, parámetro, estadı́stica
(función de la muestra aleatoria), verosimilitud, score o puntaje, estadı́stica
auxiliar, información, hipótesis nula y errores tipo I y II, sólo por mencionar
algunos.
Figura 4.1: Karl Pearson con Francis Galton. Ambos fundaron la revista
Biometrika en 1901. Imagen tomada de commons.wikipedia.org (public do-
main).
2 La imagen anterior fue tomada de commons.wikipedia.org (public domain). By

AnemoneProjectors (talk) (Flickr) (Sir Ronald Aylmer Fisher plaque) [CC BY-SA 2.0
(https://creativecommons.org/licenses/by-sa/2.0)], via Wikimedia Commons.
Sin duda que el trabajo de Fisher es la piedra angular sobre la que se sus-
tenta la estadı́stica como ciencia. Egon Pearson (1974), hijo de Karl Pearson,
habla de las diferencias conceptuales entre su padre y Fisher3 : Galton y K.
Pearson trabajaron con muestras grandes por su interés en la reproducción
libre de las especies en su medio natural, esto ocurre con humanos, animales
y plantas. Por su parte, Fisher trabajó con muestras pequeñas relaciona-
das con datos experimentales, por lo que era necesario analizar con cuidado
las bases de la inferencia estadı́stica para una adecuada interpretación. Fis-
her estudió resultados exactos en muestras pequeñas, pero también obtuvo
propiedades asintónticas óptimas de los estimadores máximo verosı́miles.
Figura 4.2: Placa English Heritage dedicada a Fisher en la casa Inverforth.
En esta parte se hablará además del enfoque Bayesiano en la teorı́a de la

estimación puntual, el cual se basa en el teorema de Bayes.
4.2.1. Método de momentos

Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de
densidad f (x; θ). A E(Xir ) se le conoce
Pn
como el r-ésimo momento poblacional
r
i=1 Xi
y se denota por µr , mientras que n es el r-ésimo momento muestral
y se denota por Mr .
3 Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int.
Stat. Rev. 42 (1).

El método de estimación por momentos consiste en igualar los momentos

muestrales con los momentos poblacionales y resolver para θ (o θ1 , ..., θk , si
la distribución tiene k parámetros). Esto es, µr = Mr , donde r = 1, ..., k y k
representa el número de parámetros a estimar.
De manera general, si X1 , X2 , . . . , Xn es una muestra aleatoria de una
población con función de densidad f (x; θ1 , θ2 , ..., θk ), en la estimación por
momentos se resuelve el siguiente sistema de ecuaciones
µ = M 1 , µ 2 = M2 , . . . , µ k = Mk
|1 {z }
k ecuaciones con k incógnitas
La solución a este sistema θ̂ = (θˆ1 , . . . , θˆk ) se conoce como el estimador
por el método de momentos.

distribución P oisson(θ). Como
E(X) = θ,
entonces Pn
i=1 Xi
θ̂ = .
n
distribución exp(θ). Como
1
E(X) = ,
θ
entonces
1
X̄ = .
θ
Por lo tanto,
θ̂ = 1/X̄.

distribución N (µ, σ 2 ). Como
E(X) = µ y V ar(X) = σ 2 ,
entonces
E(X 2 ) = µ2 + σ 2 .
Por lo tanto,
n
1X 2
X̄ = µ̂ y X̄ 2 + σ̂ 2 = X .
n i=1 i
Es decir,
n
2 1X 2
σ̂ = X − X̄ 2 .
n i=1 i
Pero note que
n
X n
X
(Xi − X̄)2 = (Xi2 − 2X̄Xi + X̄ 2 )
i=1 i=1
n
X n
X
= Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1
n
X n
X
= Xi2 2
− 2nX̄ + nX̄ = 2
Xi2 − nX̄ 2 .
i=1 i=1
n n
1X 1X 2
∴ (Xi − X̄)2 = X − X̄ 2 .
n i=1 n i=1 i
Entonces los estimadores por momentos para µ y σ 2 son

n
1X
µ̂ = X̄ y σ̂ 2 = (Xi − X̄)2 .
n i=1
Ejemplo 4.4 Suponga que se tiene la siguiente muestra de tamaño 10 :
1, 1, 1, 2, 2, 3, 5, 7, 8, 10.
Estimar los parámetros µ y σ 2 usando el método de momentos si la distri-

bución normal se ajusta a través de los datos de la muestra.
En este caso, las estadı́sticas muestrales están dadas por
10
X 10
X
xi = 40 y x2i = 258.
i=1 i=1
Usando el método de momentos y el ejemplo anterior:

40
µ
b= =4
10
y
2 + 42 =
258
σc .
10
De donde
2 = 9.8.
σc
Ejemplo 4.5 Hallar los estimadores por el método de momentos de la distri-

bución Gama y usar los datos del ejemplo anterior para dar valores numéricos
de rb y λ.
b Igualando los primeros momentos muestrales y poblacionales, se
obtiene:
r 40
E (X) = = = 4. (4.1)
λ 10
y
r (r + 1) 258
E X2 = = = 25.8.
λ2 10
Se tiene un sistema de dos ecuaciones. Para encontrar la solución, se consi-
dera el cociente:

E X2 rb + 1 25.8
2 = rb
= 2 = 1.6125.
4
[E (X)]
y resolviendo para r :
rb = 1.6327.
Sustituyendo este valor en (4.1) y despejando λ, se obtiene:
b = 1.6327 = 0.408 2.
λ
4
El rango del estimador no necesariamente coincide con el espacio del
parámetro a estimar. Considere en el siguiente ejemplo una distribución Bi-
nomial con k y p desconocidos.
Ejemplo 4.6 Suponga que X ∼Binomial(k, p). Una posible aplicación con
esta distribución es que se busque estimar las tasas de ocurrencia de un
crimen, conociendo que existe un número importante de casos que no se de-
nuncian o reportan, es decir, no se sabe cuál es exactamente el valor de k.
Utilizando el método de momentos, se consideran los dos primeros momen-
tos poblacionales de la distribución binomial, ası́ como los correspondientes
momentos muestrales:
X¯n = kp (4.2)
y
n
1X 2
X = kp(1 − p) + k 2 p2 . (4.3)
n i=1 i
De (4.2) se obtiene
X¯n
p̂ = , (4.4)
k
sustituyendo este resultado en lugar de p en (4.3):

n
1X 2 X¯n 2
Xi = X¯n (1 − ) + X¯n (4.5)
n i=1 k
y como
n n
1X 2 1X 2 2
Xi − X¯n = X + X¯n ,
n i=1 n i=1 i
(4.5) es equivalente a
n
1X X¯n
(Xi − X¯n )2 = X¯n (1 − )
n i=1 k
2
¯ X¯n
= Xn − ,
k
ası́ que despejando el valor de k, se obtiene
2 n
X¯n 1X
= X¯n − (Xi − X¯n )2 ,
k n i=1
k 1
= Pn ,
¯
Xn
2
X¯n − 1
n i=1 (Xi − X¯n )2
2
X¯n
k̂ = n .
X¯n − 1
− X¯n )2
P
n i=1 (Xi
Por lo tanto, el valor estimado de p es
X¯n
p̂ = .
k
b
Observe que no se puede garantizar que k será un número entero positivo

y que p ∈ [0, 1]. Sin embargo, en general el método permite obtener una
propuesta para estimar rápidamente los parámetros desconocidos.
4.2.2. Estimadores basados en verosimilitud

Para introducir este método se presenta primero el siguiente ejemplo (Mood,
Graybill y Boes, 1973), el cual considera que se tiene una urna en donde se
sabe que hay bolas negras y blancas, de las cuales se desconoce el número de
cada una de ellas, pero se tiene el dato de que la razón es de 3 a 1, aunque
también se ignora si hay más bolas blancas que negras o viceversa. Se desea
estimar la proporción de bolas negras en la urna y para ello, se toma una

muestra de tamaño 3 con reemplazo de esta población, X1 , X2 , X3 . Note que
Xi tiene distribución Bernoulli(θ), i = 1, 2, 3.
Observe que:
θ es la probabilidad de obtener bola negra, es decir, θ = P(Xi = 1).
θ sólo puede tomar los valores 14 y 34 , debido a que la razón establecida

es de 3 a 1.
P3
X := i=1 Xi es el número de bolas negras en la muestra. Y por lo
tanto, X puede tomar los valores x = 0, 1, 2, 3.
X ∼ Bin(n = 3, θ).
En el cuadro 4.1 se presentan las probabilidades de obtener 0, 1, 2 y 3

bolas negras, con ambos valores del parámetro. Si en la muestra se obtienen
Valor de θ P (X = 0) P (X = 1) P (X = 2) P (X = 3)
θ = 1/4 27/64 27/64 9/64 1/64
θ = 3/4 1/64 9/64 27/64 27/64
1
Cuadro 4.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ = 4 y
θ = 43 .
0 bolas negras, es decir
(x1 = 0, x2 = 0, x3 = 0) ,
entonces θ̂ = 1/4 porque es más probable obtener (con este valor de θ) 0

bolas negras que con θ̂ = 3/4. Ahora, si en la muestra se obtienen 2 bolas
negras entonces θ̂ = 3/4, ya que es más probable obtener 2 bolas negras con
θ̂ = 3/4 que con θ̂ = 1/4. Es decir, se escoge el valor de θ que maximiza la
probabilidad de obtener una muestra especı́fica (x1 , x2 , x3 ).
Esta es la idea subyacente en el método de máxima verosimilitud para
estimar parámetros. De manera general, es necesario definir una función que
represente la ”probabilidad” de obtener una cierta muestra de entre todas
las posibles en X (el espacio muestral o de las muestras). Dicha función,
para un valor muestral fijo, depende únicamente de los parámetros de la
distribución en cuestión y el problema es encontrar aquel valor del parámetro
o de los parámetros que maximicen esta función para una realización fija
de la muestra. En el ejemplo anterior, el parámetro sólo puede tomar dos
valores, pero en general se estará resolviendo un problema de optimización
sobre el espacio paramétrico correspondiente a la distribución con la que se

esté trabajando (una vez que se ha observado una muestra).
Para abordar este tema, se iniciará con la definición de la función de
verosimilitud.
función de densidad f (x; θ). Se define la función de verosimilitud como
la función de densidad conjunta de la muestra y se denota como L(θ) o
L(θ | x). Es decir:
n
Y
L(θ) = fX1 ,...,Xn (x1 , ..., xn ; θ) = fXi (xi ; θ).
i=1

función de densidad f (x; θ) y L(θ) la correspondiente función de verosimili-
tud. A θ̂ = T (X) se le llama el estimador máximo verosı́mil de θ, si satisface
que para cualquier θ ∈ Θ, se tiene que L(θ̂) ≥ L(θ).
Método general
Sea f (x; θ1 , θ2 , . . . , θk ) una función de densidad con k parámetros. Si (θˆ1 , ...θˆk )
satisface el sistema
∂L(θ1 , θ2 , ..., θk )
= 0 i = 1, 2, ..., k;
∂θi
entonces (θˆ1 , ..., θˆk ) es el estimador máximo verosı́mil de θ.
Note que
∂ 1 ∂
ln(L(θ1 , θ2 , . . . , θk )) = · L(θ1 , θ2 , . . . , θk ).
∂θi L(θ1 , θ2 , . . . , θk ) ∂θi
Por lo tanto,
∂ ∂
ln(L(θ1 , θ2 , . . . , θk )) = 0 ⇔ L(θ1 , θ2 , . . . , θk ) = 0.
∂θi ∂θi
Es decir, ln(L(θ1 , θ2 , . . . , θk )) alcanza su máximo en el mismo punto que
L(θ1 , θ2 , . . . , θk ).
En virtud de la observación anterior se define la log-verosimilitud de
f (x; θ1 , θ2 , . . . , θk ) como
l (θ1 , θ2 , . . . , θk ) = ln(L(θ1 , θ2 , . . . , θk )).
Frecuentemente, por practicidad, se calcula el máximo de l (θ) en vez del
de L(θ).
Ejemplo 4.7 [Distribución Bernoulli]. Sea X1 , . . . , Xn una muestra alea-

toria de una población con distribución Bernoulli(θ). Obtener el estimador
máximo verosı́mil de θ.
Yn n
Y Pn Pn
L(θ) = f (xi , θ) = θxi (1 − θ)1−xi = θ i=1 xi (1 − θ)n− i=1 xi .
i=1 i=1
Entonces,
Pn Pn
l (θ) = ln(L(θ)) = ln θ i=1 xi (1 − θ)n− i=1 xi
n n
!
X X
= ln(θ) xi + ln(1 − θ) n − xi .
i=1 i=1
Luego, Pn Pn
∂ i=1 xi n − i=1 xi
l (θ) = − .
∂θ θ 1−θ
Por lo tanto,
Pn Pn
∂ i=1 xi n− i=1 xi 1 n 1 1
l (θ) = 0 ⇔ = ⇔ − 1 = Pn −1⇔ = ,
∂θ θb 1 − θb θb i=1 xi θb x̄
de donde se concluye que
θb = X.
Ahora se verificará que es un máximo
Pn Pn Pn Pn !
∂ 2 l(θ) i=1 xi n − i=1 xi i=1 xi n− i=1 xi
| b= − − =− + < 0.
∂θ2 θ θb2 b2
(1 − θ) θb2 (1 b2
− θ)
∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄.

Ejemplo 4.8 [Distribución Exp(θ)]. Sea X1 , . . . , Xn una muestra aleatoria
de una población con distribución Exp(θ). Obtener el estimador máximo
verosı́mil de θ.
Yn n
Y Pn n
Y
L(θ) = f (xi , θ) = θe−θxi I(0,∞) (xi ) = θn e−θ i=1 xi I(0,∞) (xi ).
i=1 i=1 i=1
Entonces,
n
!
Pn Y
l (θ) = ln(L(θ)) = ln θn e−θ i=1 xi
I(0,∞) (xi )
i=1
n
X n
X
= n ln(θ) − θ xi + ln(I(0,∞) (xi )).
i=1 i=1
Luego,
n
∂ n X
l (θ) = − xi .
∂θ θ i=1
Por lo tanto,
n Pn
∂ n X 1 i=1 xi 1
l (θ) = 0 ⇔ = xi ⇔ = ⇔ = x̄,
∂θ θ
b
i=1 θb n θb
y ası́
1
θb = .
X̄
∂ 2 l(θ) n
| b= − < 0.
∂θ2 θ θb2
1
∴ El estimador máximo verosı́mil de θ es θ̂M V = .
X̄
Ejemplo 4.9 [Distribución P oisson(θ)]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución P oisson(θ). Obtener el estimador
n n n n
e−θ θxi I{0,1,2,...} (xi )
P
Y Y xi Y
−nθ
L(θ) = f (xi , θ) = I{0,1,2,...} (xi ) = e θ i=1 .
i=1 i=1
xi ! i=1
xi !
Entonces,
n
!
−nθ
Pn Y I{0,1,2,...} (xi )
l (θ) = ln(L(θ)) = ln e θ i=1 xi
i=1
xi !
n n
X X I{0,1,2,...} (xi )
= −nθ + ln(θ) xi + ln .
i=1 i=1
xi !
Luego, Pn
∂ i=1 xi
l (θ) = −n + .
∂θ θ
Por lo tanto,
Pn Pn
∂ i=1 xi i=1 xi
l (θ) = 0 ⇔ n = ⇔ θb = .
∂θ θb n
De esta manera,
θb = X.
Pn
∂ 2 l(θ) i=1 xi
| b= − < 0.
∂θ2 θ θb2
∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄.
Ejemplo 4.10 [Distribución Normal]. Sea X1 , . . . , Xn una muestra aleato-

ria de una población con distribución N (µ, σ 2 ). Obtener los estimadores
máximo-verosı́miles de µ y σ 2 .
Primero se obtiene la función de verosimilitud:
n
Y 1 (xi −µ)2
L µ, σ 2 e−

= √ 2σ 2
i=1 2πσ 2
n2
1 1
Pn 2
= e− 2σ2 i=1 (xi −µ) .
2πσ 2
La log-verosimilitud está dada por
n
n 1 X 2
l µ, σ 2 = − ln 2πσ 2 − 2

(xi − µ) .
2 2σ i=1
Obteniendo las derivadas con respecto a los parámetros

n
∂l 1 X
= (xi − µ) ,
∂µ σ 2 i=1
n
∂l n 1 X 2
= − + (xi − µ) .
∂σ 2 2σ 2 2σ 4 i=1
Igualando a cero se obtiene

n
X
xi − nb
µ=0
i=1
y
n
n 1 X 2
− + (xi − µ
b) = 0,
σ2
2b σ 4 i=1
2b
de donde
µ
b=X (4.6)
y
Pn 2
2Xi − X i=1
σ
b = . (4.7)
n
Las segundas derivadas están dadas por
∂2l n
= − ,
∂µ2 σ2
Pn 2
∂2l n (xi − µ)
i=1
2 = − ,
∂ (σ 2 ) 2σ 4 σ6
Pn
∂2l ∂2l i=1 (xi − µ)
= = − .
∂µ∂σ 2 ∂σ 2 ∂µ σ4
Sea
∂2l ∂2l
!
∂µ2 ∂σ 2 ∂µ
H= ∂2l ∂2l
∂µ∂σ 2 ∂(σ 2 )2
la matriz de segundas derivadas. Observe que
∂ 2 l

n
= − < 0, (4.8)
∂µ2 (bµ,bσ2 ) σ 2 σb2
mientras que
Pn !
i=1 (xi −x)
− bn2
P σ
− Pnσb4
det H|(bµ,bσ2 ) = det n 2
i=1 (xi −x) n i=1 (xi −x)
− b4
σ σ4
2b − b6
σ
!
− σbn2 0
= det n
Pn
i=1 (xi −x)
2
0 σ4 −
2b b6
σ
2 n 2
n2
P
n − x)i=1 (xi
= − 6
+
2b
σ σ8
nb
n2 n2 σ
b2
= − 6+ 8
2b
σ σ
b
n2 n2 n2
= − 6+ 6 = > 0. (4.9)
2b
σ σ
b σ6
2b
Por (4.8)
y (4.9), se ve que H es definida negativa y por lo tanto, el óptimo
µ b2 es un máximo, concluyéndose que (4.6) y (4.7) son los estimadores
b, σ
máximo verosı́miles de µ y σ 2 .
Ejemplo 4.11 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución Uniforme en el intervalo [θ− 12 , θ+ 12 ],
es decir,
f (x; θ) = I[θ− 12 ,θ+ 21 ] (x).
Obtener el estimador máximo verosı́mil de θ.

La función de verosimilitud está dada por
n
si para toda i, xi ∈ [θ − 21 , θ + 12 ]

Y 1
L (θ) = I[θ− 12 ,θ+ 12 ] (xi ) =
0 si para alguna i, xi ∈/ [θ − 12 , θ + 21 ].
i=1
Es decir, el máximo valor de L (θ) es 1 cuando xi ∈ [θ − 12 , θ + 12 ] para toda

i, lo cual ocurre si
1 1
y1 ≥ θ − y yn ≤ θ + ,
2 2
es decir, si
1 1
yn − ≤ θ ≤ y1 + .
2 2
Por lo tanto,
1 si θ ∈ yn − 12 , y1 + 21

L (θ) =
0 en otro caso.
Cualquier valor θb de θ en Yn − 12 , Y1 + 12 es un estimador máximo verosı́mil,

por ejemplo, T (X) = Y1 +Y 2

n
.
Ejemplo 4.12 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución Uniforme en el intervalo [0, θ]. Hallar
el estimador máximo verosı́mil de θ.
La función de densidad está dada por
1
θ, 0 ≤ x ≤ θ,
f (x; θ) =
0 en otro caso.
La función de verosimilitud es
n
Y
L (θ) = f (xi ; θ)
i=1
1

θn si xi ≤ θ, para toda i
=
0 si al menos una de las xi > θ
1

θn si máx {x1 , x2 , ..., xn } ≤ θ
=
0 en otro caso
1

θn si θ ≥ yn
=
0 si θ < yn ,
donde yn = máx {x1 , x2 , ..., xn } . Note que
dL (θ) n
= − n+1 < 0.
dθ θ
Ası́, la función de verosimilitud vale cero si θ < yn y θ1n si θ ≥ yn , siendo

en este caso una función decreciente, como se muestra en la figura 4.3.
L(θ)
Yn θ
Figura 4.3: Gráfica de la función de verosimilitud para una muestra de ta-
maño n de la distribución Uniforme continua en el intervalo [0, θ].
Ası́, el estimador máximo verosı́mil de θ es
θb = Yn = máx {X1 , . . . , Xn } .
Propiedad de invarianza de los estimadores máximo-verosimiles

En algunas ocasiones, el objetivo no es estimar un parámetro de la distribu-
ción sino una función de éste, τ (θ). Por ejemplo, el interés podrı́a ser estimar
la desviación estándar de una distribución normal, σ, en lugar de la varian-
za σ 2 ; o estimar la trasformación del momio en una distribución Bernoulli,
θ/(1 − θ), en lugar de la probabilidad de éxito θ. Por lo tanto, se busca un
estimador de la función τ (θ), es decir, τd (θ).
Una propiedad de los estimadores máximo verosı́miles es la propiedad de
invarianza. Esto significa que si buscamos un estimador máximo verosı́mil
para una función de θ, denotada por τ (θ), y si sabemos que el estimador
máximo verosı́mil de θ es θ̂, entonces el estimador máximo verosı́mil de τ (θ),
denotado por τd (θ), es τ (θ̂).
Por lo tanto, la propiedad de invarianza de los estimadores máximo ve-
rosı́miles enuncia que
τd
(θ) = τ (θ),
b
es decir, que para encontrar el estimador máximo verosı́mil de una función

del parámetro basta simplemente evaluar la función en el estimador máximo

verosı́mil.
Para esto es necesario tomar en cuenta las caracterı́sticas de la función
τ (θ), por ejemplo, si la función de τ (θ) es biyectiva, entonces la propiedad de
invarianza se cumple y existe un sólo máximo, dado que podemos invertir la
función. Esto se puede ver fácilmente considerando que si η = τ (θ), entonces
la función inversa de τ (θ) es τ −1 (η) = θ, la cual está bien definida por ser
una función biyectiva, y la función de verosimilitud de τ (θ), escrita como
una función de η, está dada por
n
Y
L∗ (η) = f (xi ; τ −1 (η)) = L(τ −1 (η)),
i=1
y para encontrar el estimador máximo verosı́mil, basta obtener lo siguiente
sup L∗ (η) = sup L(τ −1 (η)) = sup L(θ).

η η θ
Por tanto, el máximo de L∗ (η) se alcanza en η = τ (θ) = τ (θ̂), mostrando ası́

que el estimador máximo verosı́mil de τ (θ) es τ (θ̂).
En algunos casos, no es posible usar la propiedad de invarianza de los
estimadores máximo verosı́miles debido a que muchas funciones de interés
no son funciones biyectivas. Por ejemplo, para estimar µ2 , donde µ es la
media de una distribución normal, la función τ (µ) = µ2 no es una función
biyectiva. Si τ (θ) no es una función biyectiva, entonces para algún valor η
puede haber más de un valor de θ que satisfaga que τ (θ) = η. En estos
casos, la correspondencia entre la maximización sobre η y la correspondiente
maximización sobre θ deben analizarse. Por ejemplo, si θ̂ es el estimador
máximo verosı́mil de θ, podrı́a existir otro valor de θ, digamos θ0 , para el
cual también se cumple que τ (θ̂) = τ (θ0 ). Ası́, en el caso de que τ (θ) no
sea una función biyectiva, no necesariamente existirá una única solución.
En estos casos será necesario usar una definición más general de la función
máximo verosı́mil de τ (θ). Una definición de verosimilitud más general para
τ (θ) es la siguiente.
Definición 4.4 La función de verosimilitud inducida por τ (θ), denotada por

L∗ , está dada por
L∗ (η) = sup L(θ).
{θ:τ (θ)=η}
En este caso, el valor η̂ que maximiza a la función L∗ (η) es el estimador

máximo verosı́mil de η = τ (θ). Además, puede verse a partir de las igualda-
des anteriores que el máximo de L∗ y el máximo de L coinciden.
Teorema 4.1 Si θ̂ es el estimador máximo verosı́mil de θ, entonces para

cualquier función τ (θ), el estimador máximo verosı́mil de τ (θ) es τ (θ̂) 4 .
Demostración. Sea η̂ el valor que maximiza L∗ (η). Es necesario mostrar

que L∗ (η̂) = L∗ (τ (θ̂)). Además, como se mencionó anteriormente, el máximo
de L y el máximo de L∗ coinciden, ası́ que se tiene lo siguiente,
L∗ (η̂) = sup sup L(θ)

η {θ:τ (θ)=η}
= sup L(θ)
θ
= L(θ̂),
donde la primera igualdad se cumple por definición de L∗ (η) ya que L∗ (η) =

sup{θ:τ (θ)=η} L(θ), la segunda igualdad se obtiene debido a que la maximi-
zación iterada es igual a la maximización no condicional sobre θ, y la última
igualdad se cumple por definición de θ̂, ya que θ̂ es el estimador máximo
verosı́mil de L(θ). Además,
L(θ̂) = sup L(θ)

{θ:τ (θ)=τ (θ̂)}
= L∗ (τ (θ̂)),
donde la primera igualdad se obtiene debido a que θ̂ es el estimador máximo

verosı́mil de θ, y la segunda igualdad se obtiene por la definición de L∗ (η).
Por lo tanto, se muestra que L∗ (η̂) = L∗ (τ (θ̂)) y que τ (θ̂) es el estimador
máximo verosı́mil de τ (θ).
Con este teorema es posible encontrar estimadores máximo verosı́miles

de funciones de parámetros que no son biyectivas, por ejemplo, se puede
ver que el estimador máximo verosı́mil de µ2 , donde µ es la media de una
distribución normal, es X̄ 2 .
Observación 4.1 La propiedad de invarianza de los estimadores máximo

verosı́miles también se cumple en el caso multivariado. La demostración
del teorema anterior es válida aun si θ es un vector de parámetros. Si el
estimador máximo verosı́mil de θ = (θ1 , . . . , θk ) es θ̂ = (θ̂1 , . . . , θ̂k ), y si
τ (θ) = τ (θ1 , . . . , θk ) es alguna función de los parámetros, entonces el esti-
mador máximo verosı́mil de τ (θ1 , . . . , θk ) es τ (θ̂1 , . . . , θ̂k ).
4 Esta propiedad fue demostrada por Zehna (1966) en el artı́culo Invariance of Maxi-
mum Likelihood Estimators en la revista Annals of Mathematical Statistics.


distribución N (µ, 1), con µ desconocido. Se busca el estimador máximo ve-
rosı́mil de τ (µ) = log(µ). Como µ̂ = X̄ es el estimador máximo verosı́mil de
µ, entonces por la propiedad de invarianza log(X̄) es el estimador máximo
verosı́mil de log(µ).
Ejemplo 4.14 Sea X1 , . . . , Xn una muestra aleatoria de la distribución nor-

mal N (µ, σ 2 ). Se sabe que el estimador máximo verosı́mil de µ es X̄. Para
encontrar el estimador máximo verosı́mil de τ (µ) = sen (µ)
τd
(µ) = τ (µ̂) = sen(µ̂) = sen(X̄).
Ejemplo 4.15 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Bernoulli(θ). Se desea encontrar el estimador máximo verosı́mil de τ (θ) =
θ(1 − θ). Se sabe que el estimador máximo verosı́mil de θ es θ̂M V = X̄.
Entonces
τd
(θ) = τ (θ̂M V ) = τ (X̄) = X̄(1 − X̄).
MV

distribución Bernoulli(θ), con θ desconocido. Se busca el estimador máximo
θ
verosı́mil del momio τ (θ) = (1−θ) . Como θ̂ = X̄ es el estimador máximo
X̄
verosı́mil de θ, entonces por la propiedad de invarianza (1−X̄)
es el estimador
θ
máximo verosı́mil de (1−θ) .
Estimación máximo verosı́mil usando métodos numéricos
En la práctica lo más común es que las derivadas de la función de log-

verosimilitud con respecto a los parámetros involucrados, no se puedan resol-
ver de forma analı́tica, por lo que es necesario recurrir a métodos numéricos
como el de Newton Raphson. En R existen diferentes funciones que sirven
para abordar este tipo de problemas. Lo anterior se ilustrará con un ejemplo.
Para ahondar en este tema, se recomienda consultar Dixit (2016).
Ejemplo 4.17 Considere a la familia de distribuciones Gama, con su espa-

cio paramétrico multidimensional Θ = {(α, λ) : α > 0, λ > 0}. Para obtener
el estimador máximo verosı́mil para el vector de parámetros θ = (α, λ) a
partir de una muestra aleatoria de tamaño n, X1 , X2 , . . . , Xn , la función de
verosimilitud es:
n
Y
L(θ) = L(α, λ) = f (xi ; α, λ)
i=1
n
Y λα α−1 −λxi
= x e
i=1
Γ(α) i
α n n
λ Pn Y
= e−λ i=1 xi xiα−1 .
Γ(α) i=1
La función de log-verosimilitud es entonces:

ln L(θ) = l(α, λ)
n
X n
X
= n (α ln λ − ln Γ(α)) − λ xi + (α − 1) ln xi .
i=1 i=1
Para encontrar los estimadores que maximizan esta función, se debe en-
contrar el punto crı́tico, lo que implica resolver el sistema de ecuaciones:
X n
∂ d
l(α, λ) = n ln λ − ln Γ(α) + ln xi = 0,
∂α dα i=1
n
∂ α X
l(α, λ) = n − xi = 0.
∂λ λ i=1
De la segunda ecuación se obtiene que α̂λ̂ = x̄, o equivalentemente λ̂ = α̂x̄ ,

y sustituyendo esta relación en la primera:
X n
d
n ln(α̂) − ln(x̄) − ln Γ(α̂) + ln xi = 0. (4.10)
dα i=1
Esta última no tiene solución exacta analı́ticamente, pero se puede resol-

ver numéricamente. La derivada del logaritmo de la función Gama se conoce
como la función digama, y en R se obtiene con la función digamma:
d
ψ(α) = ln Γ(α̂).
dα
Se utilizan datos simulados para mostrar esta aproximación numérica.
Se generó una
Pnmuestra de tamaño 250, con α = 0.2 y λ = 5, tal que x̄ =
0.051762 y i=1 log xi = −1555.084. En la figura 4.4 se puede observar
que para el valor α̂ = 0.2221 la derivada (4.10) cruza el cero, y se obtiene
λ̂ = 4.2908.
80
60
derivada
40
20
0
0.00 0.10 0.20 0.30
alpha
Figura 4.4: Estimación máximo verosı́mil para la familia Gama.
4.2.3. Verosimilitud en el enfoque Bayesiano

Considere una muestra aleatoria X1 , . . . , Xn de una población con distri-
bución Gama(µ, s), con media µ. En esta sección se denotará a la función
de densidad como fX (x|θ) y a la verosimilitud como L (θ|x1 , . . . , xn ) , la
razón de este cambio se comprenderá más adelante. Ası́, para el caso de la
distribución Gama(µ, s), su función de densidad está dada por
ss
fX (x|µ, s) = xs−1 exp{−sx/µ},
Γ(s)µs
mientras que la correspondiente función de verosimilitud es
n
Y ss
L(µ, s|x1 , . . . , xn ) = xs−1 exp{−sxi /µ}
s i
i=1
Γ(s)µ
sns
= T s−1 exp{−sT2 /µ},
Γn (s)µns 1
Qn Pn
donde T1 = i=1 xi y T2 = i=1 xi . Observe que la verosimilitud depende
de la muestra sólo a través de estas estadı́sticas suficientes T1 y T2 . Suponga
que se desea estimar el parámetro µ. Al otro parámetro que no es el que se
está estimando, en este caso s, se le suele llamar un parámetro de ruido.
Utilizando exclusivamente la verosimilitud para proponer un estimador
para el parámetro de interés µ y teniendo en cuenta la posibilidad de un
muestreo repetido, el estimador máximo verosı́mil para µ es el valor del
parámetro µb ∈ Θ que maximiza la función de verosimilitud; es decir, el valor
del parámetro para el cual la muestra observada es más probable.
Por construcción, el rango del estimador coincide con el espacio pa-
ramétrico, aunque hereda las dificultades de cualquier problema de opti-
mización, a saber:
Encontrar el máximo global y verificar que lo sea.
Que sea sensible a cambios numéricos.
Ahora, si se consideran dos valores de µ, el cociente de verosimilitudes

para el caso de la distribución Gama, estarı́a dado por:
sns
L(µ1 , s|x1 , . . . , xn ) Γn (s)µns T1s−1 exp{−sT2 /µ1 }
1
= sns
,
L(µ2 , s|x1 , . . . , xn ) Γn (s)µns T1s−1 exp{−sT2 /µ2 }
2
ns
µ1
= exp{−sT2 [1/µ1 − 1/µ2 ]},
µ2
el cual depende del valor del parámetro s. En general no es claro cómo tratar
el parámetro de ruido, pero desde el enfoque clásico de maximizar la función
de verosimilitud como se vio en la sección 4.2.2, simplemente se toma el valor
del estimador sb.
Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se
condiciona completamente en los datos observados y se concluye sobre la
población en estudio basándose en:
1. La verosimilitud L(θ|x), que representa la información que hay en los

datos x= (x1 , . . . , xn ); y
2. π(µ) una distribución de probabilidad que se conoce como distribución

inicial o a priori y que describe las ideas subjetivas que se tienen
sobre el valor de µ. Estas ideas se conciben como externas a los datos
y pueden ser deducidas de experiencias previas o bien de conocimiento
experto.
La inferencia se expresa a través de una distribución posterior, final o a

posteriori de los párametros que se denotará como π(θ|x) y que se obtiene
a través del teorema de Bayes:
L(θ|x)π(θ)
π(θ|x) = R . (4.11)
L(θ|x)π(θ)dθ
La estadı́stica Bayesiana (por Thomas Bayes (1702-1761), matemático

del siglo XVIII), representa un enfoque diferente a la inferencia estadı́stica
clásica o frecuentista. En el enfoque Bayesiano también se supone que los
datos se obtienen de una distribución perteneciente a una familia paramétrica
conocida; sin embargo, a diferencia de la estadı́stica clásica, que considera
que los parámetros son fijos pero desconocidos, aquı́ se hace el supuesto de
que son variables aleatorias.
En resumen, el enfoque denominado frecuentista no supone que hay co-
nocimiento previo de θ. El enfoque Bayesiano, por el contrario, se basa en el
supuesto de que se tiene alguna información previa acerca de θ. Esta informa-
ción se expresa por medio de una distribución sobre θ, llamada distribución
inicial o a priori. Aquı́ se supondrá que esta distribución a priori tiene una
densidad π(θ) y puede tener distintas interpretaciones según el problema que
se esté abordando, por ejemplo, que dicha distribución está sustentada en
experiencias previas similares o que expresa una creencia subjetiva.
En ambos casos, la verosimilitud provee la información que hay en las
observaciones y que permite evaluar y elegir un valor del parámetro sobre
otros, pues en el proceso de inferencia se busca obtener estimadores que con-
cilien de la mejor manera el modelo con los datos observados. Será entonces
de interés examinar la incertidumbre que hay en este proceso para elegir un
buen estimador.
En el contexto Bayesiano se debe considerar la evaluación de la dependen-
cia de las conclusiones con respecto a las distribuciones iniciales, las cuales
se han dado de manera subjetiva. En muchos casos, la selección de la distri-
bución inicial también contempla la posibilidad de calcular de forma cerrada
el denominador en (4.11). Un caso particular de esta selección se da con las
familias conjugadas.
Definición 4.5 Una distribución inicial π(θ) es conjugada si para π(θ) ∈

P y L(θ|x) ∈ F, se tiene que π(θ|x) ∈ P, donde P y F son familias de
distribuciones.
A continuación se da un primer ejemplo para ilustrar algunas de las

funciones que se han mencionado en el enfoque Bayesiano.
Figura 4.5: Dulces smarties. Tomada de pixabay.com (imágenes gratuitas de

alta calidad).
Ejemplo 4.18 Los paquetes de los llamados dulces Smarties vienen con k
colores diferentes, los cuales se repiten con la misma frecuencia.
Suponga que no se conoce k y secuencialmente se examinan 3 dulces,
resultando un rojo, un verde y un rojo. La densidad para X = el segundo
dulce es de diferente color que el primero, pero el tercero es del mismo color
que el primero, está dada por:
f (x | k) = P (el segundo es de diferente color que el primero) ×
×P (el tercero es del mismo color que el primero)

k−1 1 k−1
= = .
k k k2
A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f (x|k) =
(k − 1)/k 2 . Si en lugar de 3 se examinan 4 y resulta que ese cuarto es de
color naranja (con los tres primeros rojo, verde, rojo), se tiene que
(k − 1) (k − 2)
f (x | k) = .
k3
Ahora suponga que se tiene información a priori o se cree que el número
1 3 3 3
de colores es 5,6,7 u 8, con probabilidades iniciales 10 , 10 , 10 y 10 , respecti-
vamente.
Para el caso de tres dulces, si k = 5, entonces
4
f (x|k) = (5 − 1)/52 = = 0.16,
25

1
f (x|k)π (k) = (0.16) = 0.016
10
y
1

(0.16) 10
π (k | x) = 8 = 0.13.
P
f (x|k)π (k)
k=5
A continuación se resumen los valores de estas funciones para los distintos
valores de k y para ambos escenarios, es decir, cuando se tiene rojo, verde y
rojo (cuadro 4.2)
k π(k) f (x|k) π(k)f (x|k) π(k|x)

5 .1 .160 .016 .13
6 .3 .139 .042 .33
7 .3 .122 .037 .29
8 .3 .109 .033 .26
Cuadro 4.2: Cálculo de la distribución a posteriori cuando los dulces exami-

nados son rojo, verde y rojo.
Y para cuando el cuarto dulce es naranja (cuadro 4.3).
k π(k) f (x|k) π(k)f (x|k) π(k|x)

5 .1 .096 .010 .11
6 .3 .093 .028 .31
7 .3 .087 .026 .30
8 .3 .082 .025 .28
Cuadro 4.3: Cálculo de la distribución a posteriori cuando los dulces exami-

nados son rojo, verde, rojo y naranja.
Observe que la distribución a posteriori para k es una pequeña modifica-

ción de la a priori.
La estadı́stica Bayesiana se basa en el cálculo de distribuciones condicio-
nales. Los siguientes ejemplos ilustran el uso de la definición de densidades
condicionales en términos de las densidades conjuntas y marginales.
Ejemplo 4.19 Una moneda cargada se lanza n veces. Suponga que xi vale
1 si se obtiene sol y 0 si no, en el i-ésimo lanzamiento. No se tiene idea de
qué tan cargada está la moneda, entonces se considera una distribución a
priori Uniforme para θ, de tal manera que la densidad a priori está dada por:
π(θ) = 1, 0 ≤ θ ≤ 1.
Sea t el número de soles. Entonces la distribución a posteriori de θ es:
θt (1 − θ)n−t × 1
π(θ|x1 , . . . , xn ) = R 1
0
φt (1 − φ)n−t × 1dφ
π(θ|x) ∝ θt (1 − θ)n−t ,
de donde se puede ver que si se inserta una constante de proporcionalidad
apropiada, entonces se tiene una densidad Beta(t + 1, n − t + 1), que serı́a
la distribución a posteriori de θ dada x.
En el ejemplo anterior se utiliza ∝ para denotar que π(θ|x) es proporcio-

nal a θt (1 − θ)n−t . En general, ∝ se lee como “es proporcional a”.
Ejemplo 4.20 Suponga que X1 , X2 , . . . , Xn es una muestra aleatoria de

una población con distribución N (µ, 1) y que π(µ) ∼ N (0, τ −2 ) para τ −2
conocida. Entonces
( n
!)
1 X 2 2 2
π(µ|x1 , . . . , xn ) ∝ exp − (xi − µ) + µ τ
2 i=1
( Pn 2 )
1 2 i=1 xi
∝ exp − (n + τ ) µ − .
2 n + τ2
Ası́, Pn
xi
i=1 1
µ|x1 , . . . , xn ∼ N 2
, .
n+τ n + τ2
con distribución Exponencial(λ) y la distribución a priori para el parámetro
λ es una Exponencial(µ), donde µ es fija y conocida. Entonces:
n
Y Pn
π(λ|x1 , . . . , xn ) ∝ µe−λµ λe−λxi = λn e−λ(µ+ i=1 xi )
,
i=1
Pn
es decir, λ ∼ Gama(n + 1, µ + i=1 xi ).
Ejemplo 4.22 Suponga que se examina una máquina que hace partes de
automóviles y se denota a θ como la proporción de marcas defectuosas. Un
dı́a se examinan 10 piezas denotadas por X1 , . . . , X10 , donde Xi = 1 indica
que la pieza i es defectuosa y Xi = 0 que no tiene defecto. Esto puede verse
como una muestra aleatoria con distribución Bernoulli de parámetro θ, cuya
función de densidad es fX (x; θ) = θx (1 − θ)1−x I{0,1} (x) para 0 ≤ θ ≤ 1, que
indica que la probabilidad de que una parte sea defectuosa es θ. Ası́ que la
densidad conjunta de las 10 observaciones es
P10 P10 10
Y
xi
fX (x; θ) = θ i=1 (1 − θ)10− i=1 xi
I{0,1} (xi )
i=1
= L (θ | x) .
Con el método de máxima verosimilitud el estimador de θ es θ̂ = X̄. Suponga

que el experto tiene información adicional acerca de θ y que él ha observado
que a lo largo de los dı́as la proporción de partes defectuosas cambia, es
decir, el valor de θ cambia y que este cambio puede representarse como una
variable aleatoria con función de densidad π(θ) = 6θ(1−θ)I[0,1] (θ), esto es, θ
tiene una distribución Beta con parámetros 2 y 2, denotada como Beta(2, 2).
¿Cómo se puede usar esta información adicional para estimar θ?
Como ya se ha señalado, en el método Bayesiano se considera que θ es

una cantidad cuya variación puede describirse por medio de una distribución
de probabilidad (llamada distribución a priori). La distribución a priori
es una distribución subjetiva, basada en las creencias del experto y se for-
mula antes de obtener los datos. Se selecciona una muestra a partir de una
población sujeta al parámetro θ, entonces la distribución a priori se actua-
liza utilizando la información de la muestra y se obtiene la disribución a
posteriori. Esta actualización se hace usando la regla de Bayes. La distri-
bución a posteriori es una distribución condicional, y es condicional dada
la muestra. La distribución a posteriori se usa para hacer inferencia acerca
de θ (obtener el estimador puntual, intervalos de credibilidad y pruebas de
hipótesis).
La distribución conjunta de X1 , . . . , X10 y θ es
g(x, θ) = fX (x; θ) × π(θ)

| {z } |{z}
distribución conjunta distribución a priori
P10 P10
xi
= θ i=1 (1 − θ)10− i=1 xi
× 6θ(1 − θ)
y 10−y
= θ (1 − θ) × 6θ(1 − θ)
y+1 10−y+1
= 6θ (1 − θ) ,
P10
donde y = i=1xi . Calculando la distribución marginal de la muestra, m(x),
Z Z
m(x) = fX (x; θ)π(θ)dθ = g(x, θ)dθ
Z
= 6θy+1 (1 − θ)10−y+1 dθ
Γ(y + 2)Γ(10 − y + 2)
= 6
Γ(10 + 2 + 2)
Γ(y + 2)Γ(12 − y)
= 6 .
Γ(14)
Ası́, la distribución a posteriori de θ dada la muestra x es
g(x, θ)
π(θ|x) =
m(x)
6θy+1 (1 − θ)10−y+1
=
6 Γ(y+2)Γ(12−y)
Γ(14)
Γ(14)
= θy+1 (1 − θ)11−y ,
Γ(y + 2)Γ(12 − y)
que es una distribución Beta(y + 2, 12 − y).
Un estimador para θ es la media de la distribución a posteriori (ver
Sección 4.3.3), la cual darı́a el estimador de Bayes de θ,
y+2
θ̂ = .
14
En el cuadro 4.4 se resumen los valores de los estimadores máximo verosı́mil
y de Bayes para distintos valores de la muestra.
Muestra y 0 1 2 3 4 5 6 7 8 9 10
θ̂ EMV 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ̂ Bayes 0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86
Cuadro 4.4: Valores de los estimadores máximo verosı́mil y de Bayes para

distintos valores de la muestra.
Las gráficas de la figura 4.6 muestran el comportamiento de la distribu-

ción a posteriori ante la evidencia de los datos y el conocimiento previo del
parámetro.
En el caso de no utilizar familias conjugadas, la obtención de la constante
de normalización para las distribuciones posteriores no se puede hacer de
manera analı́tica y es necesario recurrir a métodos de simulación.
Y=0 Y=2
5
5
Prior Prior
4
4
Verosimilitud Verosimilitud
Densidad
Densidad
Posterior Posterior
3
3
2
2
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
θ θ
Y=5 Y=10
5
5
Prior Prior
4
4
Verosimilitud Verosimilitud
Densidad
Densidad
Posterior Posterior
3
3
2
2
1
1
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
θ θ
Figura 4.6: Comportamiento de las funciones a priori, a posteriori y de ve-

rosimilitud para la proporción de marcas defectuosas y distintos valores de
la muestra en el ejemplo 4.22.
4.2.4. Otros métodos de estimación

Además de los métodos de momentos y los basados en verosimilitud, existen
alternativas para encontrar el estimador de un parámetro, por ejemplo, el
método de medianas, su extensión, el método de percentiles, y el
método de mı́nimos cuadrados. Los primeros dos se revisan en esta
sección, mientras que el último se abordará en la sección 4.3.1.
El método de medianas únicamente se puede aplicar a modelos depen-
dientes de un sólo parámetro y consiste en lo siguiente: suponga que x e0.5
representa a la mediana de la muestra mientras que x0.5 denota a la me-
diana de la distribución. Recuerde que x0.5 es el valor de x para el cual
FX (x0.5 ) = 21 , donde FX (x) es la función de distribución de la variable
aleatoria continua X, o alternativamente,
Z x0.5 Z −∞
1
f (x; θ) dx = f (x; θ) dx = .
−∞ x0.5 2
El método consiste en igualar las medianas y resolver para el parámetro

desconocido, el cual está involucrado en la expresión resultante para x0.5 .
La extensión de este método para el caso de dos o más parámetros puede
hacerse a través del método de percentiles que se describe a continuación.
Método de porcentiles o percentiles

Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el p-ésimo(×100)
percentil de la distribución. Para usar este método se calculan los correspon-
dientes percentiles de la muestra y se igualan con los de la distribución (los
cuales se encuentran en términos de los parámetros desconocidos) y se resuel-
ve para cada parámetro. Observe que si p = 21 , entonces xp es la mediana,
ası́ que el método de las medianas se puede ver como un caso particular.
Ejemplo 4.23 Suponiendo que se tiene una muestra aleatoria de tamaño n

de una población con distribución Exponencial, se desea estimar el parámetro
θ en f (x; θ) = θ exp (−θx) . Primero se resuelve FX (x0.5 ) = 21 o
Z x0.5
1
θe−θx dx = ,
0 2
de donde
1
1 − e−θx0.5 =
2
o
1
e−θx0.5 = ,
2
resultando:
ln 12
x0.5 = − . (4.12)
θ
Igualando (4.12) con x
e0.5 , es decir con la mediana muestral, se obtiene que
1
ln
θb = − 2 .
x
e0.5
Ejemplo 4.24 Usando el método de percentiles, estimar los parámetros en

una distribución Weibull con función de densidad
f (x; θ) = γλxγ−1 exp {−λxγ } .
Dados los percentiles muestrales x

e0.5 = 10000 y x
e0.9 = 100000, ¿cuál es el
estimador para el parámetro γ?
La función de distribución correspondiente es

Z x
FX (x) = γλuγ−1 exp {−λuγ } du
0
Z ∞
= 1− γλuγ−1 exp {−λuγ } du
x
y
∞ ∞
−γλuγ−1 −λuγ
Z
γ−1 γ
γλu exp {−λu } du = e
x −γλuγ−1
x
γ
= e−λx .
Por lo tanto:
FX (x) = 1 − exp {−λxγ } ,
la cual tiene dos parámetros. Si xp es el valor de x tal que FX (xp ) = p,
entonces xp es el 100p-ésimo percentil de la distribución, que para este caso
darı́a las ecuaciones:
FX (x0.5 ) = 1 − exp {−λxγ0.5 } = 0.50
y
FX (x0.9 ) = 1 − exp {−λxγ0.9 } = 0.90,
de donde:
exp {−λxγ0.5 } = 0.50
y
exp {−λxγ0.9 } = 0.10,
que es equivalente a
λxγ0.5 = − ln (0.50) = 0.69315
y
λxγ0.9 = − ln (0.10) = 2.30259.
Es decir:
γ1
0.69315
x0.5 =
λ
y
γ1
2.30259
x0.9 = .
λ
Igualando con los respectivos percentiles muestrales, se obtiene:

γ1
0.69315
= 10000 (4.13)
λ
y
γ1
2.30259
= 100000. (4.14)
λ
Dividiendo (4.14) entre (4.13):
γ1
2.30259
= 10
0.69315
o sea,
2.30259
10γ = = 3.32192.
0.69315
De donde se obtiene que
ln 3.32192
γ
b= = 0.521.
ln 10
Usando (4.13), se puede obtener el estimador de λ :
0.69315 0.521
= (10000) = 121.34.
λ
Ası́,
b = 0.69315 = 457 .
λ
121.34 80 000
Si los percentiles muestrales no están dados explı́citamente, se puede usar
el siguiente método para calcularlos: para una muestra de tamaño n, sean
x1 , x2 , ..., xn los valores muestrales en orden ascendente. Sea k = (n + 1) p,
donde p es el orden del percentil que se busca. Sea l la parte entera de k
(l = 1, 2, ..., n − 1) y sea m la parte fraccional de k, 0 ≤ m < 1. Se define
ep = (1 − m) xl + mxl+1
x (4.15)
como el p-ésimo percentil (×100) de la muestra. Observe que xl y xl+1 repre-

sentan los elementos l-ésimo y (l + 1)-ésimo de la muestra, respectivamente.
Ejemplo 4.25 En una muestra de ratas de laboratorio se obtienen los tiem-

pos de muerte dados a continuación: x = 3, 4, 5.7, 7, 8, 10, 10 y 12, donde
el tiempo se mide en dı́as. Usando el método de percentiles, estimar los
parámetros B y c del modelo de supervivencia Gompertz, cuya función de

distribución está dada por:

B
FX (x) = 1 − exp (1 − cx ) ,
ln c
con los percentiles 0.25 y 0.65.
Los percentiles 0.25 y 0.65 son tales que

B
1 − exp (1 − cx0.25 ) = 0.25
ln c
y
B
1 − exp (1 − cx0.65 ) = 0.65
ln c
⇔
B
(1 − cx0.25 ) = ln 0.75
ln c
B
(1 − cx0.65 ) = ln 0.35
ln c
⇔
ln c
cx0.25 = 1 − ln 0.75
B
ln c
cx0.65 = 1 − ln 0.35 .
B
Ası́,
ln 1 − ln 0.75 lnBc

x0.25 = (4.16)
ln c
y

x0.65 = . (4.17)
ln c
Usando (4.15), se tiene que para el percentil 0.25, k = (9+1)(0.25) = 2.5,
de donde se obtiene xe0.25 = (0.5) (x2 ) + (0.5)(x3 ) = (0.5) (4) + (0.5)(5) = 4.5.
Para el cuantil 0.65, k = (9 + 1)(0.65) = 6. 5, por lo tanto x e0.65 = (0.5)x6 +
(0.5)x7 = (0.5)8 + (0.5)10 = 9.
Igualando los percentiles obtenidos en (4.16) y (4.17) con los percentiles
muestrales, resultan las siguientes ecuaciones:

= 4.5 (4.18)
ln c
y

= 9.
ln c
Dividiendo la segunda entre la primera, resulta

=2

⇒ 2
ln c ln c
1 − ln 0.35 = 1 − ln 0.75
B B
⇒ 2
ln c ln c
ln 0.35 = 1 − 1 − ln 0.75
B B
⇒
2
ln 0.35z = 1 − 1 − 2z ln 0.75 + (ln 0.75) z 2 ,
ln c
donde z = B . Simplificando la última expresión se obtiene:
2
(ln 0.75) z 2 − z [2 ln 0.75 − ln 0.35] = 0,
o
0.83z 2 − (0.4744) z = 0,
de donde
0.4744
z= = 5.7163.
0.083
Es decir, lnBc = 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustitu-
yendo este último valor en (4.18), se tiene:
ln 1 − ln 0.75 5.7163B

B
= 4.5
5.7163B
y despejando B, se llega al resultado B
b = 0.03780. Finalmente, b
c = 1.2412.
Existen diferentes propuestas para obtener estimadores, entonces es ne-

cesario establecer criterios para evaluarlos y compararlos. En las siguiente
secciones se abordará este tema.
4.3. Evaluación de estimadores

Dado que hay varios métodos para encontrar estimadores, una pregunta
natural es, si se pueden tener estimadores distintos para una parámetro,
¿cuál es mejor o cuál se debe elegir? Es necesario contar con criterios para
responder a esta pregunta y poder decidir cuál estimador es mejor en algún
sentido.
4.3. Evaluación de estimadores 139
4.3.1. Error cuadrático medio y estimadores insesgados

El primer criterio que se analizará es el del error cuadrático medio, concepto
que se introduce a continuación.
Definición 4.6 Sea T (X1 , . . . , Xn ) un estimador de τ (θ). Se define el error

cuadrático medio (ECM) de T como
ECMT (θ) = E[(T (X) − τ (θ))2 ].
Es decir, el error cuadrático medio mide el error cometido al estimar τ (θ)

con T (X). Esta medida es un error promedio al considerar los valores que
puede tomar la variable aleatoria T (X) y se calcula como la esperanza de los
errores al cuadrado, tomando los errores como la diferencia entre los valores
de la variable aleatoria y el valor del parámetro.
La idea es que si se tienen dos estimadores T1 (X) y T2 (X) para τ (θ) y
ECMT1 (θ) < ECMT2 (θ), entonces se elige a T1 como estimador para τ (θ).
Si se desarrolla la expresión E[(T (X) − τ (θ))2 ], se obtiene que
ECMT (θ) = E[T 2 − 2τ (θ)T + (τ (θ))2 ]

= E(T 2 ) − 2τ (θ)E(T ) + τ 2 (θ)
= E(T 2 ) − E2 (T ) + E2 (T ) − 2τ (θ)E(T ) + τ 2 (θ)
= V ar(T ) + [E(T ) − τ (θ)]2
| {z }
sesgo de T
A E(T ) − τ (θ) se le conoce como sesgo de T . Es importante hacer notar

que si el sesgo de T es cero, entonces ECMT (θ) = V ar(T ).
Definición 4.7 Un estimador T (X) de τ (θ) es insesgado si E [T (X)] = τ (θ)

(es decir, en promedio, el estimador es igual al parámetro).
Nota: si T es insesgado, entonces ECMT (θ) = V ar(T ).
Observación 4.2 1. En el caso continuo, el error cuadrático medio E[(T −

τ (θ))2 ] puede calcularse como
Z Z
... (t(x1 , x2 , . . . , xn ) − τ (θ))2 fX1 (x1 ; θ) . . . fXn (xn ; θ)dx1 . . . dxn .
2. El ECM puede pensarse también como una medida de la dispersión de

T alrededor de τ (θ).
3. ECMT1 (θ) y ECMT2 (θ) pueden cruzarse, es decir, en general no se

cumple que para todo θ ∈ Θ, ECMT1 (θ) < ECMT2 (θ) (ó ECMT1 (θ) >
ECMT2 (θ) ).

N (µ, σ 2 ). Considere
T1 (X) = X̄
un estimador para µ. Sean
n
1 X
T2 (X) = S 2 = (Xi − X̄)2
n − 1 i=1
y
n
2 1X n−1 2
T3 (X) = σ̂M V = (Xi − X̄)2 = S ,
n i=1 n
estimadores para σ 2 .
Para revisar si son insesgados:
Note que
E(T1 (X)) = E(X̄) = µ.
Por lo tanto, T1 sı́ es insesgado.
También note que
E [T2 (X)] = E(S 2 ) = σ 2 .
Por lo tanto, T2 sı́ es insesgado.
Sin embargo,

n−1 2 n − 1 2 n − 1 2
E(T3 (x)) = E S = E S = σ .
n n n
Por lo tanto, T3 no es insesgado.
Para encontrar el error cuadrático medio de T1 , T2 y T3 :
Como T1 es insesgado, entonces
σ2
ECMT1 (µ, σ 2 ) = V ar(X̄) = .
n
Como T2 es insesgado, entonces

2σ 4
ECMT2 (µ, σ 2 ) = V ar(S 2 ) = .
n−1
Sin embargo, como T3 no es insesgado, entonces
ECMT3 (µ, σ 2 ) = V ar(T3 ) + (sesgo2 ).
Pero
(n − 1)2 2σ 4

n−1 2 2(n − 1) 4
V ar(T3 ) = V ar S = 2
= σ .
n n n−1 n2
Y
2
2 2 2 n−1 2
(sesgo) = (E(T3 ) − σ ) = σ − σ2
n
2
σ4

n−1−n
= σ4 = .
n n2
Por lo tanto,
2(n − 1) 4 σ 4 2n − 1 4
ECMT3 (µ, σ 2 ) = 2
σ + 2 = σ .
n n n2
Pero note que

2 2 2 1 2 2n − 1 2
< ⇒ − 2 < ⇒ <
n n−1 n n n−1 n2 n−1
(2n − 1)σ 4 2σ 4
⇒ 2
< ⇒ ECMT3 < ECMT2 .
n n−1
Con esto se puede observar que aunque T2 es insesgado, T3 tiene un
menor ECM, lo cual exhibe que no siempre un estimador insesgado
tiene el menor ECM.
Ilustración mediante simulación

Se simula un conjunto de M = 1000 muestras de tamaño n = 3 cada una.
Los estimadores T1 (X), T2 (X) y T3 (X) del ejemplo 4.26, se grafican en las
figuras 4.7 y 4.8.
T1 insesgado
2
●
●
● ●
● ●
● ●
●
● ●
● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ●
●● ● ● ●
●
1 ● ●
● ● ● ●● ●
● ●
● ● ● ●
● ● ● ● ●
● ●
● ●● ● ● ● ●
● ● ●
● ●
● ● ● ● ● ●
● ● ●● ●
● ● ● ● ●● ● ●
● ● ● ●● ●
● ● ● ● ● ● ● ●
●●
● ● ● ●
● ● ● ● ● ●●
● ● ● ● ●● ● ●
● ● ● ● ●
●●● ● ● ●●
●
● ● ● ● ● ● ● ●● ● ● ● ●
● ● ● ● ● ● ● ● ●●
● ● ● ● ● ● ●● ● ● ●
● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●
● ● ● ●● ● ● ●
µ
● ● ● ●● ● ●● ●
● ● ●● ● ● ●●● ●● ●●● ● ●● ●
●
Estimación
● ● ● ● ●● ● ● ●● ●
● ●● ●
● ● ● ● ●● ● ● ● ● ● ●
● ● ● ● ●
● ●● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●●●
● ● ● ● ● ● ●● ●● ●● ●
●● ●
●● ●
● ● ● ● ● ●
● ● ● ● ● ●●● ● ● ●
● ● ● ● ●
● ●● ● ●
● ● ●
● ●●●
● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ●● ● ●●●● ● ●● ●● ●●
● ● ● ● ● ● ●● ● ●
●● ● ●● ●● ●● ● ● ●● ●
●● ●
●● ●
● ●● ● ● ● ● ●
● ●●●● ●● ●● ● ● ● ●● ●
● ●●● ●● ● ● ●● ●
●● ● ● ●● ● ●●
● ●
● ●
● ● ●● ● ●● ●
● ●
● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●●
●●
0
● ● ● ● ● ● ● ● ●● ● ● ●
● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ● ●● ●● ● ● ●●
●
●● ● ● ●● ●
● ●● ● ● ●● ● ●● ● ●● ● ● ●●
● ● ●● ● ● ●●● ● ● ●● ●
● ●●● ● ● ● ● ●● ●
●●
●
● ● ● ● ●
● ● ●
● ●
● ● ●● ● ● ● ● ● ● ●
●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ●
● ● ● ● ● ●● ● ● ● ●
●● ●●
● ● ●●
●
●
● ● ● ● ● ● ● ●
● ● ● ● ●● ● ●
● ● ●● ● ● ●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●
●●
●● ● ● ● ● ● ●● ● ● ● ●●
●● ● ●● ●
●
● ●
● ● ●●
● ● ● ●● ●
●● ● ● ●
● ● ● ● ●● ● ● ●
● ● ●● ● ● ● ● ● ● ●● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
●● ● ● ● ● ● ●●
● ●● ● ● ● ● ● ● ● ●● ●
● ● ● ●● ● ●● ●
● ● ●● ● ●
● ● ● ● ● ●● ●
● ● ●● ● ● ●● ● ●
●● ● ●
● ● ●● ● ● ● ● ● ● ●
● ● ● ●● ● ●● ● ●● ● ● ●●●
● ● ● ●
● ●● ●● ●
●
● ● ● ● ● ● ● ● ● ●
●●
● ●● ● ●● ● ● ● ●● ● ●●
● ● ● ●
● ● ● ● ● ● ● ●● ● ● ● ●●
●
●
● ● ● ●
●
● ● ● ●
● ● ● ● ● ● ●● ● ● ●
● ● ●
−1
● ● ● ●
● ● ● ● ● ● ●● ● ● ●
●
● ● ● ● ●
● ● ●● ● ● ● ●
● ●
● ● ● ● ● ●
● ● ●●
● ●
● ●●
●
●
● ●● ●
●
●
●
●
0 200 400 600 800 1000
Muestras
Figura 4.7: El estimador T1 = X es insesgado para µ en el ejemplo 4.26.
T2 insesgado T3 sesgado
8
●
6
● ● ●
Estimación
Estimación
● ● ●
● ●
● ●
●
●
● ●
●
4
● ● ● ●
● ● ● ●
● ●
● ●
●● ●
●
● ● ●
● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ●● ● ●
● ● ●● ● ● ●
● ● ● ●
● ● ● ●
●
● ● ●● ● ● ●
● ● ●
● ● ●●● ●
● ● ● ●●
● ●● ●●
● ● ●
● ● ● ●
● ●● ● ● ● ●● ●
● ●● ● ● ● ● ● ●● ●
● ● ●● ●
●
●● ● ●● ●● ● ●
● ● ● ● ●
●
●● ●● ● ● ● ● ● ● ● ● ● ●
●● ● ●
2
● ●● ●● ● ● ●●●● ● ●● ● ● ● ● ●
●● ●● ● ● ● ● ●●● ●
●
● ● ● ●● ●●
●
● ● ● ● ●● ● ● ● ●
● ● ● ● ● ●● ●
●●●
● ● ●●
● ● ● ● ● ● ●● ●
● ●● ● ● ● ● ● ● ●●● ● ● ●●
σ σ
●
● ●
●● ● ●● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ● ●●● ●●
● ●● ●● ●● ●● ● ● ● ●● ● ●● ● ● ●
●● ●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●
●● ● ● ●● ● ●
● ● ● ●● ● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ●● ● ●●●
● ● ● ●●
●
● ● ● ●● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ●● ●● ● ●●
● ●●●● ●● ●● ● ● ● ●●●● ● ● ●● ● ●
● ● ● ● ● ●●● ● ● ●●●
●● ● ● ● ●● ● ●●
●● ●
●
● ●● ● ●● ● ● ●● ● ● ●● ●
● ● ●●●● ●● ● ● ● ● ●● ●●● ●● ● ●● ●●● ● ●● ●● ●● ● ● ● ●
● ●● ● ●● ●● ●
● ●●●
● ● ●●
● ● ●●●●● ● ●●● ●● ●
● ● ● ● ●●● ● ●●● ● ●
●●●●● ●
● ● ●● ● ●
● ●
● ●● ● ● ● ●● ●● ●● ● ● ●●● ● ● ● ● ●● ●● ● ●● ●
● ●
● ●
●●
●●
● ●● ●●● ●
● ● ● ●
● ●●●● ● ●●●
● ●●●
● ●● ●● ● ● ●●
● ●●●● ●● ●●● ● ● ●●● ● ●● ●●●●● ●● ● ● ●● ●
● ●
● ● ●
● ●●
● ● ● ● ● ● ● ●
●● ● ●● ● ●● ●● ●● ●
●● ●● ● ● ● ●
●● ● ● ●●● ●●
●
● ●●
● ● ● ● ●●● ● ●
● ●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ●●● ●● ● ●●● ● ●
●
● ●● ● ● ●●● ●
●
●● ● ●●●●●●●●● ● ●● ●●● ● ● ● ● ● ●●●● ●●●● ● ●● ● ●
●● ●● ●● ● ●●●● ● ●●
●●●● ●●
●
● ● ●●●●
●●
●
●● ● ●● ● ●●●
●●● ● ● ● ● ●●●●●
● ●
●●● ●
●●
● ●● ● ●●● ●●
●●
●
● ● ● ●●●● ● ●● ●● ● ●●
●●●
● ● ●● ●
●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●
●● ● ●●
● ● ● ●
●●●● ● ●●● ●●
● ●●● ●●●
●●●● ●
●● ●●● ●
●● ●
● ● ●● ● ● ● ●●● ● ● ●● ●● ●
● ● ● ● ● ● ● ●●●
● ● ● ●● ●
●
● ●● ●● ● ●●●
● ● ●
●● ●
●●●● ● ● ● ●● ●● ● ●● ●● ●●●● ● ● ● ●● ●●●
●● ●
●●●●● ● ● ●● ● ●● ●
●●●● ●● ●●●●● ●●● ●● ● ●
● ●●
●●● ●● ● ● ●●● ●●●● ● ●●●● ● ●● ● ●
●●●
●● ●● ●●● ● ●●
●
●●
●●●●● ● ● ●●● ●●
●●●●● ●●●●
●● ●● ●● ●● ● ● ●● ●
●
● ● ●● ●●● ● ●
●● ●● ● ● ● ●●●●●● ●
● ●
●
● ● ●● ● ●●●
●●●● ●● ●● ●● ●●●●● ●● ●●●●●● ●●● ● ●● ●
●●●
● ● ●●● ●●●●●●●
● ●●●
●●●●●●●
● ●● ● ● ●
●●
●●●
●●
●● ● ● ●
●●●●● ● ● ● ●
●● ●● ●
●
● ● ●●● ● ● ●● ● ● ●●●
●●
● ● ● ●
●● ● ●
●● ●●● ●●● ● ●●●● ●● ●●● ●● ●● ●●● ●● ● ● ●● ●●● ●● ● ● ●●●●● ●● ●● ●● ●●● ●●●
●
●● ● ●● ●●● ● ●● ●
●● ●●● ● ●
●
● ●●● ● ●●●●
● ● ●
● ●●●●● ● ●●●●●●
●●●● ●
●●
●●●●● ●●● ●● ●● ●●
●● ●●● ●●●●● ● ●● ●●● ● ●●●● ●●●
●●●● ●●●●●●● ● ●●●●●●● ● ● ● ●●● ●●● ●●●●● ●●●●●
● ●●●●● ● ●●●
●
●● ●●●●●●
●● ●●●●
● ●
●●●●●
●
● ●●● ●● ●● ●
●●●●● ●● ●●
●
●●●●●● ● ●●●● ●●●
●●●● ● ●
●●●● ●●● ●● ●●●● ●● ●●● ●●● ●●● ●●●● ●●●
● ●● ●
● ● ●●
●●● ●● ●●●● ● ●
● ● ●● ●
●
●● ●
●
●
●●● ●● ●
●● ●● ●● ●●
●
●●● ●●●● ●●●●●
● ● ● ● ● ●●● ● ●● ●●● ● ● ●●
● ●●
● ●●
●● ●●●●
● ● ●● ●
●
● ●●
●
●
●●●● ●●● ●
● ●
●● ●●●
● ●●
●
●● ●●●●●●●●●●●●
● ● ● ●●●●●●●●● ●●●●●● ●●● ●●
● ●
●●●● ●● ● ●●●
● ● ●●●
●● ●●
● ● ● ● ●● ●●●●● ● ● ● ●
●● ● ●
● ● ● ● ●● ●● ● ●
● ●●● ●
● ● ●●
●●● ●●
●●● ●● ●●
●● ●
●●● ● ●●●● ●●● ●● ●●● ●● ●● ●
● ●●●●●● ●
●●
● ●●
0
●● ●●● ● ●● ●● ●●●● ●● ●● ● ● ● ●●● ●●●●●

● ●● ●
●● ●● ●● ● ● ●● ●● ●● ● ● ●● ●
0 200 400 600 800 0 200 400 600 800
Muestras Muestras
Figura 4.8: El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado

para σ 2 , pero tiene un error cuadrático medio menor que T2 (ejemplo 4.26).
Método de mı́nimos cuadrados para estimación de parámetros

Existe otro procedimiento de estimación conocido como el método de mı́ni-
mos cuadrados, el cual se usa en distintas aplicaciones para encontrar los
estimadores de los parámetros relacionados con modelos de diversa ı́ndole.
Se ilustrará con un ejemplo en el marco del criterio del error cuadrático
medio.
Ejemplo 4.27 Considere un conjunto de n puntos en el plano
(x1 , y1 ), . . . , (xn , yn )
y el siguiente experimento: se escoge X con P {X = xi } = 1/n, para i =

1, . . . , n; si X = xi se asigna Y = yi . Suponga que Y tiene la forma aX + b
y se desea encontrar un estimador para Y , de tal manera que se minimice el
error cuadrático medio, el cual es:
n
1X
E[(Y − (aX + b))2 ] = [yi − (axi + b)]2 .
n i=1
Pn 2
Para la función S(a, b) = i=1 [yi − (axi + b)] , los valores que minimizan
la expresión satisfacen:
n n n
∂S(a, b) X X X
= −2 yi xi + 2 ax2i + 2b xi = 0,
∂a i=1 i=1 i=1
n n
∂S(a, b) X X
= −2 yi + 2 axi + 2nb = 0,
∂b i=1 i=1
de donde, las soluciones que minimizan el ECM están dadas por

n n
bb = 1 1X
X
yi − b
a xi
n i=1 n i=1
y !
n n n n n n
X 1X X X 1X X
a
b x2i − xi xi = yi xi − yi xi .
i=1
n i=1 i=1 i=1
n i=1 i=1
A estos estimadores se les conoce como el estimador de mı́nimos cuadra-

dos para a y b. A Yb = b
aX + bb se le llama el estimador de mı́nimos cuadrados
de Y .
4.3.2. Consistencia
La consistencia es otra propiedad deseable en un estimador y tiene que ver
con tamaños de muestra grandes, es decir, es una propiedad asintótica. Esen-
cialmente, un estimador es consistente, si para n (el tamaño de muestra)
grande, el error cometido al estimar τ (θ) con Tn (X) , es pequeño (tiende a
cero).
Definición 4.8 (consistencia en ECM). Sea T1 , T2 , ..., Tn una sucesión
de estimadores de τ (θ), donde Tn está basado en una muestra de tamaño
n. Esta sucesión de estimadores de τ (θ) es consistente en error cuadrático
medio (ECM) si:
lı́m E[(Tn (X) − τ (θ))2 ] = 0. (4.19)
n→∞
Note que (4.19) es una convergencia en media cuadrática, de la sucesión

{Tn } a τ (θ).
Ejemplo 4.28 Sea X1 , . . . , Xn una muestra aleatoria
Pn de la distribución
σ 2 ). Considere los estimadores X¯n = n1 i=1 Xi para µ y Sn2 =
N (µ,P
1 n 2 2
n−1 i=1 (Xi − X̄) para σ . Note que
σ 2 n→∞
E[(X¯n − µ)2 ] = V ar(X¯n ) = −→ 0.
n
Por lo tanto X¯n es consistente para µ. También note que
2σ 4 n→∞
E[(Sn2 − σ 2 )2 ] = V ar(Sn2 ) = −→ 0.
n−1
Por lo tanto Sn2 es consistente para σ 2 .
El error cuadrático medio, ECM, es el criterio para medir la bondad de
un estimador. Una propiedad desable de un estimador es que proporcione,
para muestras grandes, un error (ECM) pequeño en la estimación, es decir,
que sea consistente.
Ilustración del concepto de consistencia mediante simulación

Se simula un conjunto de n = 1000 muestras de tamaño i, para i = 2, . . . , n.
Los estimadores X n y Sn2 son consistentes, y se pueden observar las gráficas
correspondientes en las figuras 4.9 y 4.10.
Definición 4.9 Se dice que una sucesión de estimadores {Tn }n∈N es con-
sistente simple si y sólo si
∀ > 0 lı́m P(|Tn − τ (θ)| < ) = 1. (4.20)
n→∞
La consistencia en ECM implica la consistencia simple. Esto se puede

analizar desde dos perspectivas: la primera, notando que (4.20) es una con-
vergencia en probabilidad y usando el hecho de que la convergencia en r-ési-
ma media implica la convergencia en probabilidad; la segunda, utilizando la
desigualdad de Chebyshev:
2 E[(Tn − τ (θ))2 ]
P(|Tn − τ (θ)| ≥ ) = P([Tn − τ (θ)] ≥ 2 ) ≤
2
y la definición de consistencia en ECM.
Xbar consistente
0.6
●
0.4
●
●
●
µ
●
●
0.2
●
● ●●
Estimación
● ●●
●
● ● ● ● ●
●● ●
●● ●
● ● ● ● ● ● ●
●● ● ●
● ● ● ● ● ●
● ● ● ● ●●● ● ● ● ●
● ● ● ●● ● ●●● ● ● ●● ●● ● ● ● ● ●
● ● ●● ● ●● ● ● ●
●● ●● ● ●●●● ● ●● ● ● ●
● ●● ● ● ● ● ●● ● ● ● ●
●●● ●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●
● ● ●● ●● ● ● ● ●● ● ● ● ●
● ● ● ●●● ● ●● ● ●● ●●● ● ● ● ●● ● ● ●● ●● ●●●●
●● ●● ●● ●●
●
●
●●
● ● ●● ●● ●
●● ●
● ●● ● ● ● ● ●●● ● ● ●● ● ●● ● ●● ● ●●●● ● ●
● ●● ● ● ● ●●● ●●●●●● ●● ● ●
● ● ●●●●● ●●●●●●●● ● ●
●
0.0
● ● ● ● ● ● ●● ● ● ● ● ●●●● ●● ● ● ●●● ●● ●●●● ●● ●● ● ● ● ● ●●

● ● ● ●●● ● ● ● ● ●● ●● ●
●●●●● ●
● ● ● ● ● ● ●●●● ●●●● ●●● ●● ● ●● ●● ●●●● ●● ●●●●●
●● ● ● ●●●●●●● ●● ●●
●● ●● ● ● ●●
●●
●●●● ●●●● ● ●●
● ● ● ● ●●●● ● ●●● ● ● ● ● ● ●● ●● ● ●●●● ● ● ● ●● ●●●
●
●● ● ●●●● ● ●● ● ●●● ●● ●●● ● ●● ●●● ●●
● ●●●●●●●●● ●●
● ● ● ● ● ●
●● ●● ● ● ● ● ● ●● ● ● ●
● ● ● ●
●
● ● ● ●
●● ●●●●
● ●●● ● ● ●●● ● ●●
●●●●● ●●●● ● ● ●● ●
●● ●
● ● ●●● ● ● ●●● ●●● ●●● ● ● ●● ●
● ●● ● ●●● ● ●
●●
●● ● ●● ● ●●● ●
● ●●●● ●
● ●●●● ● ● ● ● ● ●● ● ● ●● ● ●● ●
● ● ● ●●●●● ●●●●●●●●● ●
● ● ●●●●
●● ●
●
●● ●●●● ●● ● ● ● ● ●● ●●●● ● ●●● ● ●● ● ● ●● ●●●●●
●
●● ●●● ●● ●● ● ●● ●
●
● ●
●
●
● ●●●● ● ● ●● ●● ● ● ●
●
●● ●● ● ● ●●
● ● ●
●● ● ● ●
● ● ● ● ● ● ●●● ● ● ● ● ● ● ●
●● ●●● ● ● ● ● ●●●● ● ●● ● ● ●
●● ●●●● ●●● ● ● ● ● ●●● ● ●●● ● ●● ● ●● ●● ● ●● ● ● ● ● ● ●
● ● ● ●●●●● ●
●
● ●
●●●● ●
●
● ●● ● ●●● ●● ● ● ●● ● ● ● ●● ● ●● ●
●
●
● ● ● ● ●● ●● ● ●● ●●●
● ●● ●
● ●●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ●● ● ●● ● ● ● ● ●●
● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●
●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●
●● ● ● ● ● ● ●● ● ● ● ●
● ●●● ● ● ● ●
● ● ● ● ●● ● ● ●
●● ●● ● ● ● ●●
● ● ● ●
● ●
●● ● ● ● ● ●
−0.2
● ●● ● ●● ●
● ●
● ● ●● ● ●
●
● ● ●
●
●● ●
● ●
●
−0.4
● ●
0 200 400 600 800 1000
Tamaño de muestra
Figura 4.9: Ilustración de la consistencia de X en el contexto del ejemplo

4.28.
S2 consistente
2.0
●
●●
● ●
●
1.5
●
●
Estimación
● ●
●
● ●
σ
● ● ●●
●
● ● ●
●● ● ● ●
● ● ●
●● ● ● ●●
● ●
● ● ●● ● ● ● ● ●
● ● ●●● ● ● ●● ● ● ●
●● ● ●●● ● ● ●● ● ● ●● ●● ●● ●
● ●● ● ● ● ●● ●● ● ●
● ●
● ● ● ● ●
● ●●●●● ● ●●●● ●● ●
●● ●
● ● ●
● ● ● ● ● ● ●● ●●● ●
● ● ●
● ● ● ●● ● ● ● ●●
● ● ●● ● ● ● ●●● ●
● ●●● ●● ●● ●●● ●
●● ●
● ● ● ●●
● ● ●
● ●● ●● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ●●● ●●●● ●●●● ●●●●
● ● ●● ● ● ●
●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●●●● ● ● ●● ● ●● ● ●● ● ● ● ●●● ●
● ● ● ● ● ●● ●●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●● ●●● ● ●● ● ● ● ● ●● ●● ●
1.0
● ●
●● ● ●●●● ● ● ●●●● ●●● ●● ● ●●
●● ●● ● ●● ● ●●
● ●●●●●● ●●●
● ● ●●
● ● ● ●● ●● ● ●●● ● ●●●
●●
● ●
●● ●● ●●
●● ●● ● ● ● ● ●●●●● ●● ●●● ●●● ●
●
●●●●●
●●● ● ●● ●● ●
● ● ●● ● ●
●● ● ● ● ● ●● ●
●
● ●● ● ●
● ●● ● ●● ●
●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●
●●● ●● ● ● ●● ●
●●● ● ●● ●● ●
●● ● ●●● ● ● ●
● ●● ●● ●● ●●●●●●
●●●●●●●
●●●●●
● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●●●● ●●●●●
● ● ● ●
●● ● ●●● ●● ● ●●
● ● ●●●
● ●●
●●●● ●
● ●●● ● ● ●●●
●● ●● ● ● ●●● ● ● ●● ● ●
●
● ●●●● ●● ●● ● ● ● ●
●● ● ●●●●● ●● ● ●● ● ●●●● ● ●● ● ● ● ●●
● ● ●● ●
● ●
●
● ● ● ● ● ●●●● ●●
●
● ● ● ● ● ● ●●● ●●● ● ● ●● ● ●● ●● ●● ● ●●● ●●●● ● ●●● ● ●● ● ● ●●● ● ● ● ●●● ● ●
● ● ● ● ●● ●● ●
● ●●● ●●● ● ●●●●● ● ● ●● ● ●● ●● ● ●● ● ● ●
●
● ●●
● ●●●● ● ● ● ●●● ●● ●●● ●
●
● ●● ● ●●● ● ● ●● ●
● ●● ● ● ● ● ● ●
●● ● ● ●● ● ●● ●
● ● ● ● ●
●● ●● ● ● ●●● ●● ● ●● ●
● ●
●● ●●●● ●
● ●
● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●●
● ●● ● ●●
● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ● ● ●
●● ● ●● ● ●
● ●● ●● ● ● ● ●● ● ● ●
● ●● ●● ●
● ● ●●
● ●
●
● ●● ● ● ● ● ●● ● ● ●
●
● ●● ● ● ● ● ● ● ● ● ●
●
●●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
●● ● ● ●●●● ●
●
●
● ●● ●
● ●●
● ●
●● ● ●
●
●
●
●
● ●
0.5
●
●
●
0 200 400 600 800 1000
Tamaño de muestra
Figura 4.10: Ilustración de la consistencia de S 2 en el contexto del ejemplo

4.28.
4.3.3. Funciones de pérdida y estimación

El enfoque Bayesiano al problema de estimación de parámetros es a través
de una función de pérdida L(θ, a), la cual mide la pérdida en que se incurre
cuando se estima el valor de un parámetro mediante a, siendo que el verdade-
ro valor es θ. Entonces θ̂ se selecciona de tal manera que minimice E[L(θ, θ̂)],
donde esta esperanza se toma con respecto a θ usando la distribución a
posteriori π(θ|x).
Definición 4.10 A L(θ, a) = (a − θ)2 se le llama la función de pérdida

del error cuadrático.
Observe que:
Z Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ = (a − θ)2 π(θ|x1 , . . . , xn )dθ.
Diferenciando esta expresión con respecto a a, se obtiene:

Z Z
2 (a − θ)π(θ|x1 , . . . , xn )dθ = 0 =⇒ a = θπ(θ|x1 , . . . , xn )dθ
Por lo tanto, la pérdida del error cuadrático se minimiza en θ̂, la media o

esperanza a posteriori de θ.
Definición 4.11 A L(θ, a) = |a − θ| se le llama la función de pérdida

del error absoluto.
En este caso,
Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ
Z a Z ∞
= (a − θ)π(θ|x1 , . . . , xn )dθ + (θ − a)π(θ|x1 , . . . , xn )dθ.
−∞ a
Diferenciando con respecto a a, se llega a que el mı́nimo debe cumplir que:
Z a Z ∞
π(θ|x1 , . . . , xn )dθ − π(θ|x1 , . . . , xn )dθ = 0
θ=−∞ a
1
Ası́, ambas integrales deberı́an ser iguales a 2 y θ̂ es la mediana a poste-
riori.

distribución P oisson(λ), Suponga que λ ∼ Exponencial(1), de modo que
π(λ) = e−λ , λ > 0.
La distribución a posteriori es
n
Y e−λ λxi Pn
π(λ|x1 , . . . , xn ) = e−λ ∝ e−λ(n+1) λ i=1 xi
,
i=1
xi !
Pn
es decir, Gama( i=1 xi + 1, n + 1). Entonces, usando la función de pérdida
del error cuadrático medio:
Pn
xi + 1
θ̂ = media a posteriori = i=1 .
n+1
Y bajo la función de pérdida del error absoluto, θ̂ es la solución a:
Pn Pn
θ̂
e−λ(n+1) λ xi xi +1
Z
i=1 (n + 1) i=1 1
Pn dλ = .
0 ( i=1 xi )! 2
4.4. Estimación insesgada

En esta sección se hará una restricción considerando únicamente a los esti-
madores insesgados, es decir, a los estimadores T (X) que pertenecen a la
clase:
Cτ (θ) = {T (X) | E [T (X)] = τ (θ)} ,
la clase de estimadores insesgados para τ (θ) .
El siguiente ejemplo muestra la idea subyacente en esta sección en cuanto
a la estimación basada en minimizar la varianza de estimadores insesgados.
distribución P oisson(λ). Primero note que
E(Xi ) = λ, V ar(Xi ) = λ y E(Xi2 ) = V ar(Xi ) + E2 (Xi ) = λ + λ2 .
Pn
Considerando ahora la estadı́stica G(X1 , . . . , Xn ) = i=1 Xi , note que G(X)
tiene distribución P oisson(nλ); por lo que E(G) = nλ y V ar(G) = nλ. Sean
a ∈ (0, 1) una constante y
Ta (X1 , . . . , Xn ) = aX̄ + (1 − a)S 2 .
Entonces,
1
E(X̄) = E(G) = λ;
n
1 λ
V ar(X̄) = V ar(G) = ;
n2 n
λ
E(X̄ 2 ) = V ar(X̄) + E2 (X̄) = + λ2 ;
n
n
1 X
E(S 2 ) = E( X 2 − nX̄ 2 )
n − 1 i=1 i
1 λ
= (n(λ + λ2 ) − n( + λ2 ))
n−1 n
1
= (nλ − λ) = λ, y
n−1
E(Ta (X1 , . . . , Xn )) = E(aX̄ + (1 − a)S 2 ) = aE(X̄) + (1 − a)E(S 2 ) = λ.
Ası́, se tiene una familia infinita de estimadores insesgados para λ; entonces
se puede optar por utilizar el estimador que tenga el menor ECM.
Definición 4.12 Un estimador T ∗ (X) insesgado de varianza mı́nima uni-
formemente (UMVUE5 ) para τ (θ) satisface:
5 Por Uniformly Minimum Variance Unbiased Estimator.
4.4. Estimación insesgada 149
(a) T ∗ (X) ∈ Cτ (θ) , es decir, E [T ∗ (X)] = τ (θ) .

(b) Para todo θ ∈ Θ, V ar (T ∗ (X)) ≤ V ar (T (X)) , donde T (X) es cual-
quier otro estimador en Cτ (θ) .
El UMVUE se refiere entonces al mejor estimador insesgado para τ (θ)

en el sentido de que tiene el menor error cuadrático medio para toda θ ∈ Θ.
El objetivo de esta sección es encontrar el UMVUE para τ (θ) , para ello
se discutirán tres resultados en donde se utilizan los conceptos analizados
previamente. En primer lugar se analizará el planteamiento que Cramèr y
Rao hicieron con base en el cálculo de una cota inferior para la varianza de
un estimador insesgado. Esta propuesta tiene ciertas restricciones, como el
hecho de que requiere el cumplimiento de ciertas condiciones de regularidad
para la densidad, entre otras. Posteriormente se enunciará el teorema de
Rao-Blackwell, el cual utiliza la suficiencia de una estadı́stica para la cons-
trucción de UMVUEs bajo la idea de que un estimador que se basa en una
estadı́stica suficiente será mejor que otro que no lo hace. Finalmente se enun-
cia el teorema de Lehmann-Scheffé, el cual, además de la suficiencia, utiliza
el concepto de completez y permite encontrar un UMVUE construyendo un
estimador insesgado a partir de una estadı́stica suficiente y completa, la que
a su vez puede hallarse usando los resultados antes vistos o, en su caso,
identificando a un miembro de la familia exponencial.
4.4.1. La propuesta de Cramèr y Rao

En esta sección se estudia un resultado propuesto por Cramèr y Rao, el cual
se basa en el hecho de que, para ver qué tan bueno es un estimador insesgado
con respecto a otro, es necesario analizar la varianza de dicho estimador. Ası́,
si la varianza o el error estándar de un estimador es una cantidad de interés
para hablar de su bondad, serı́a deseable contar con una expresión con la
cual pueda compararse esta varianza. Esta expresión será una cota inferior
para la varianza, de tal manera que si la varianza de un estimador insesgado
es igual a esa cota, se puede afirmar que el estimador es el UMVUE. Antes de
presentar el teorema de Cramèr y Rao, en donde se da la cota mencionada,
es necesario enunciar algunas definiciones y resultados que servirán para la
demostración de dicho teorema.
Definición 4.13 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) y sea

T(X) un estimador insesgado de τ (θ). Las siguientes se conocen como con-
diciones de regularidad:
El soporte de f (x; θ) se define como sop(f ) = {x : f (x) > 0} y este es
el mismo para toda θ.
∂
Para todo x ∈ sop(f ), ∂θ ln f (x; θ) existe.
∂
R R R RR R ∂
∂θ ... T (x)f (x; θ)dx1 ...dxn = ... ∂θ T (x)f (x; θ)dx1 ...dxn .
∂ ∂
R R R R R R
∂θ ... f (x; θ)dx1 ...dxn = ... ∂θ f (x; θ)dx1 ...dxn .
2
0 < E ∂ ln∂θ f (x;θ)
< ∞.
Observe que esta definición establece principalmente la condición que

debe cumplir una función para que se puedan intercambiar derivadas e inte-
grales, lo cual no siempre se cumple. En general, los miembros de la familia
exponencial cumplen las condiciones de regularidad, pero densidades como la
Uniforme Continua no. Para ver este caso especı́fico de la Uniforme considere
su función de densidad
1
f (x; θ) = I(0,θ) (x) .
θ
A continuación se obtiene la derivada con respecto a θ de la integral, de la
siguiente manera:
Z θ Z θ
∂ ∂ 1
t (x) f (x; θ)dx = t (x) dx.
∂θ 0 ∂θ 0 θ
Utilizando la regla de Leibnitz, la cual es una aplicación del teorema Funda-
mental del Cálculo y de la regla de la cadena, y que establece que si h(x; θ),
a (θ) y b (θ) son diferenciables con respecto a θ, entonces
Z b(θ)
∂ ∂ ∂
h(x; θ)dx = h (b (θ) , θ) b (θ) − h (a (θ) , θ) a (θ)
∂θ a(θ) ∂θ ∂θ
Z b(θ)
∂
+ h(x; θ)dx.
a(θ) ∂θ
En el caso que se está analizando, a (θ) = 0, b (θ) = θ y h (x; θ) = t (x) θ1 .

Z θ Z θ
∂ 1 t (θ) ∂ 1
t (x) dx = + t (x) dx
∂θ 0 θ θ 0 ∂θ θ
Z θ
∂ 1
6= t (x) dx,
0 ∂θ θ
al menos que t(θ)

θ = 0.
Ahora se definirán algunas funciones que están involucradas en la cota
inferior para la varianza propuesta por Cramèr y Rao.
Definición 4.14 La función score o función de puntaje se define como:

∂
Sc(x; θ) = ln f (x; θ).
∂θ
Definición 4.15 La información esperada de Fisher se define como:
" 2 #
∂
= E (Sc)2 .

IX (θ) = E ln f (X; θ)
∂θ
Observación 4.3 La función score también puede escribirse como:

∂ f 0 (x; θ)
Sc(x; θ) = ln f (x; θ) =
∂θ f (x; θ)
n n
∂ Y X ∂
= ln f (xi ; θ) = ln f (xi ; θ). (4.21)
∂θ i=1 i=1
∂θ
Lema 4.1 Si se satisfacen las condiciones de regularidad, entonces:

(a) E(Sc) = 0.
(b) V ar(Sc) = IX (θ).
Demostración.
(a)
Z Z Z
∂
E [Sc(x; θ)] = ··· ln f (x; θ) f (x; θ)dx1 ...dxn
dθ
Z Z Z 0
f (x; θ)
= ... f (x; θ)dx1 ...dxn
f (x; θ)
Z Z Z
∂
= ... f (x; θ)dx1 ...dxn
∂θ
Z Z Z
∂
= ... f (x; θ)dx1 ...dxn
∂θ
∂
= (1) = 0
∂θ
∴ E(Sc) = 0.
(b)
V ar(Sc) = E(Sc2 ) − E2 (Sc) = IX (θ) − 0 = IX (θ).
∴ V ar(Sc) = IX (θ).

Definición 4.16 Si X es una variable aleatoria, entonces a

" 2 #
∂
IX (θ) = E ln f (X; θ)
∂θ
se le conoce como información esperada de Fisher por unidad mues-

tral.
Es más sencillo calcular la información esperada de Fisher por unidad

muestral y el siguiente resultado la relaciona con la información esperada de
Fisher para la muestra, ası́ como con otras expresiones.
Lema 4.2 Si se cumplen las condiciones de regularidad, entonces:

(a) IX (θ) = nIX (θ).
h 2 i
∂
(b) IX (θ) = −E ∂θ 2 ln f (X; θ) .
h i
∂2
(c) IX (θ) = −nE ∂θ 2 ln f (X; θ) .
Demostración.
P 2
(a) Como (θ) = E(Sc2 ) y usando (4.21), ası́ como el hecho de que ( ai ) =
P 2 IX P
ai + i6=j ai aj ,
 !2 
n
X ∂
IX (θ) = E  ln f (Xi ; θ) 
i=1
∂θ
n
" 2 #
X ∂
= E ln f (Xi ; θ)
i=1
∂θ
X ∂
∂

+ E ln f (Xi ; θ) ln f (Xj ; θ) .
∂θ ∂θ
i6=j
Como las variables X1 , ..., Xn son independientes, se tiene que

∂
ln f (Xi ; θ)
∂θ
y
∂
ln f (Xj ; θ) ,
∂θ
también lo son y

∂ ∂
E ln f (Xi ; θ) ln f (Xj ; θ)
∂θ ∂θ
es igual a
∂ ∂
E ln f (Xi ; θ) E ln f (Xj ; θ) ,
∂θ ∂θ
donde, para el caso continuo, y bajo el supuesto de que se cumplen las
condiciones de regularidad:
Z ∞ ∂
∂ ∂θ f (xi ; θ)
E ln f (Xi ; θ) = f (xi ; θ)dxi
∂θ −∞ f (xi ; θ)
Z ∞
∂
= f (xi ; θ)dx
−∞ ∂θ
Z ∞
∂ ∂
= f (xi ; θ)dx = (1) = 0.
∂θ −∞ ∂θ
Ası́,
n
" 2 #
X ∂
IX (θ) = E ln f (Xi ; θ)
i=1
∂θ
" 2 #
∂
= nE ln f (X; θ) ,
∂θ
debido a que las Xi ’s son idénticamente distribuidas.

(b) Observe que
∂2 ∂ f 0 (x; θ)
ln f (x; θ) =
∂θ2 ∂θ f (x; θ)
f (x; θ) f 00 (x; θ) − f 0 (x; θ) f 0 (x; θ)
= 2
[f (x; θ)]
00
0 2
f (x; θ) f (x; θ)
= − .
f (x; θ) f (x; θ)
Ası́,
( 2 )
f 00 (X; θ)
0
∂2

f (X; θ)
−E ln f (X; θ) = −E − ,
∂θ2 f (X; θ) f (X; θ)
y como
f 00 (X; θ) f 00 (x; θ)
Z Z
E = ··· f (x; θ) dx1 · · · dxn
f (X; θ) f (x; θ)
2 Z Z
∂
= · · · f (x; θ) dx1 · · · dxn = 0,
∂θ2
" 2 #
∂2 f 0 (X; θ)

−E ln f (X; θ) = E
∂θ2 f (X; θ)
" 2 #
∂
= E ln f (X; θ)
∂θ
= IX (θ).
(c) Se deduce de los dos resultados anteriores.

Teorema 4.2 (de Cramèr y Rao). Sean X1 , . . . , Xn una muestra aleato-

ria de f (x; θ) y T (X) un estimador insesgado de τ (θ). Si se satisfacen las
condiciones de regularidad, entonces
(τ 0 (θ))2
V ar(T ) ≥ . (4.22)
IX (θ)
| {z }
CICR(τ (θ))
Esta desigualdad se conoce como la desigualdad de Cramèr-Rao o de-

2
[τ 0 (θ)]
sigualdad de la información y a la cantidad IX(θ) como la cota inferior
de Cramèr y Rao (CICR).
En (4.22) la igualdad se da si y sólo si:
n
X ∂
ln f (xi ; θ) = k(θ; n)[T (x) − τ (θ)],
i=1
∂θ
donde k puede depender de θ y de n.

Demostración. Este resultado se deduce de la conocida desigualdad de
Cauchy-Schwarz, la cual establece que si X y Y son variables aleatorias,
entonces:
2
{Cov (X, Y )} ≤ V ar (X) V ar (Y ) ,
dándose la igualdad si y sólo si
Y − E (Y ) = k [X − E (X)] (4.23)
Aplicando esta desigualdad a las variables T (X) y Sc(X; θ), se obtiene:

2
{Cov (T, SC )} ≤ V ar (T ) V ar (SC ) . (4.24)
Usando el lema 4.1, se tiene que V ar(Sc) = IX (θ), por lo que (4.24) se puede
escribir como:
2
{Cov (T, SC )}
V ar(T ) ≥ .
IX (θ)
Por otro lado,
Cov (T, SC ) = E (T SC ) − E (T ) E (SC )
y nuevamente por el lema 4.1, E (SC ) = 0, mientras que:
∂
f (x; θ)
Z Z
E (T SC ) = ··· t (x) ∂θ f (x; θ) dx1 · · · dxn
f (x; θ)
Z Z
∂
= · · · t (x) f (x; θ) dx1 · · · dxn
∂θ
∂ ∂
= E (T (X)) = τ (θ) = τ 0 (θ) ,
∂θ ∂θ
los pasos anteriores se justifican por la definición de SC , las condiciones de
regularidad y el hecho de que T es insesgado para τ (θ) . Ası́,
2
{τ 0 (θ)}
V ar(T ) ≥ .
IX (θ)
Para ver la condición en la que se alcanza la cota, es decir, en la que se da

la igualdad, se usa (4.23), obteniendo:
SC − E (SC ) = k [T − E (T )]
Pn ∂
y como E (SC ) = 0, SC = i=1 ∂θ ln f (xi ; θ) y E (T ) = τ (θ) , se comprueba
la segunda parte del teorema.

N (0, σ 2 ). Para encontrar IX (σ 2 ):

1 − 2σ12 x2
ln f (x; θ) = ln √ e
2πσ 2
1 1 1
= − ln(2π) − ln(σ 2 ) − 2 x2 ,
2 2 2σ
∂ 2 1 x2
ln f (x; σ ) = − + ,
∂σ 2 2σ 2 2(σ 2 )2
∂2 2 1 x2
ln f (x; σ ) = − .
∂(σ 2 )2 2(σ 2 )2 (σ 2 )3
Entonces,
∂2 E(X 2 )

1
IX (σ 2 ) = −nE ln f (X; σ 2
) = n −
∂(σ 2 )2 σ6 2σ 4
2
σ 1 1 1 n
= n 6 − 4 =n 4 − 4 = .
σ 2σ σ 2σ 2σ 4
2σ 4
Entonces, la CICR para estimadores insesgados de σ 2 es n .

exp(θ). Para encontrar IX (θ):
ln f (x; θ) = ln θe−θx = ln(θ) − θx,

de donde
∂ 1
ln f (x; θ) = − x.
∂θ θ
Entonces,
" 2 # " 2 #
∂ 1 n
IX (θ) = nE ln f (X; θ) = nE −X = n V ar(X) = 2 .
∂θ θ θ
Para encontrar la CICR para estimadores insesgados de θ:
τ1 (θ) = θ ⇒ τ10 (θ) = 1.
Entonces,
1 θ2
CICR(θ) = = .
IX (θ) n
Para encontrar la CICR para estimadores insesgados de τ2 (θ) = θ1 :
1 1
τ2 (θ) = ⇒ τ20 (θ) = − 2 .
θ θ
Entonces,
1/θ4 1/θ4 1
CICR(τ2 (θ)) = = = 2.
IX (θ) n/θ2 nθ
Observación 4.4 Para responder a la pregunta: ¿existe alguna función de

θ, τ (θ) , para la cual hay un estimador insesgado cuya varianza coincide con
la CICR?, se usa la segunda parte del teorema, es decir, la condición para
la alcanzabilidad de la cota.
Ejemplo 4.33 Para la distribución Exponencial, ¿existe alguna función de

θ, τ (θ) , para la cual hay un estimador cuya varianza coincide con la CICR?
Usando la segunda parte del teorema de Cramèr y Rao, se tiene que
n n n
X ∂ X ∂ X ∂
ln θe−θxi =

ln f (xi ; θ) = [ln θ − θxi ]
i=1
∂θ i=1
∂θ i=1
∂θ
n n
X 1 n X
= − xi = − xi
i=1
θ θ i=1
Pn
i=1 xi 1 1
= −n − = −n x − .
n θ θ
Ası́, se puede afirmar que τ (θ) = θ1 es una función de θ para la cual existe
un estimador insesgado T (X) = X, cuya varianza coincide con la CICR. En
otras palabras, X es el UMVUE de τ (θ) = θ1 . Aunque en general no es ne-
cesario probarlo, es claro que en este caso: V ar X = θ21n = CICR (τ (θ)) .

Observación 4.5
1. Si la varianza de un estimador insesgado coincide con la CICR, enton-

ces el estimador es un UMVUE. Pero el UMVUE puede existir sin que
su varianza coincida con la CICR.
2. Si la muestra aleatoria es de algún miembro de la familia exponencial,

siempre existe una función de θ para la cual hay un estimador insesgado
cuya varianza coincide con la CICR (basta factorizar
n
X ∂
ln a(θ)b(x) exp{c(θ)d(xi )}
i=1
∂θ
en la forma indicada en la segunda parte del teorema de Cramèr y

Rao).
3. Aun cuando la varianza de un estimador insesgado alcance la CICR,

esta situación se da para una función especı́fica de θ, que puede no ser
la que se esté analizando. En el caso de la distribución Exponencial,
en el ejemplo 4.33 se obtuvo que X es el UMVUE de θ1 usando la se-
gunda parte del teorema de Cramèr y Rao; sin embargo, si el objetivo
es encontrar el UMVUE de θ, este resultado no da información adicio-
nal (salvo la expresión correspondiente para la CICR que sirve para
compararla con la varianza de algún estimador que se proponga).
4. La teorı́a desarrollada por Cramèr y Rao sólo es para densidades que

satisfacen las condiciones de regularidad.
5. Cuando la varianza de un estimador alcanza la CICR también se dice

que es eficiente y la eficiencia de un estimador insesgado se mide como
CICR
V ar(T ) , cantidad que es menor o igual a 1. Por lo que un estimador es
eficiente si y sólo si el cociente anterior es 1.
Dadas estas restricciones se analizarán otros resultados que incorporan

los conceptos de suficiencia y completez, lo cual se hará en las secciones 4.4.2
y 4.4.3.
Generalización
Aquı́ se considerarán brevemente la generalización de la teorı́a de Cramèr y
Rao para cuando se tienen distribuciones de dos o más parámetros. En el
caso de dos parámetros, la información esperada de Fisher (para una muestra
de tamaño n), llamada la matriz de información de Fisher, se define como:
 h 2 i h 2 i 
∂ ∂
E ∂θ ln f (X; θ) E ∂θ ln f (X; θ)
IX (θ) = −  h 21 i h 1 ∂θ 2 i ,
∂2
E ∂θ∂2 ∂θ1 ln f (X; θ) E ∂θ 2
ln f (X; θ)
y para el caso de k parámetros IX (θ) toma la forma:

 h 2 i h 2 i h 2 i 
∂
E ∂θ 2 ln f (X; θ) E ∂θ∂1 ∂θ2 ln f (X; θ) · · · E ∂θ∂1 ∂θk ln f (X; θ)
 h 21 i h 2 i h 2 i 
 E ∂θ∂2 ∂θ1 ln f (X; θ) ∂
E ∂θ 2 ln f (X; θ) · · · E ∂θ∂2 ∂θk ln f (X; θ)
 

 2 
 .. .. .. .. 
 h 2 .

i h 2 . i . h 2 . i


E ∂θ∂k ∂θ1 ln f (X; θ) E ∂θ∂k ∂θ2 ln f (X; θ) · · · ∂
E ∂θ 2 ln f (X; θ)
k
Y la cota inferior de Cramèr y Rao es la inversa de la matriz de información,

−1
es decir, IX (θ).
4.4.2. El teorema de Rao-Blackwell

Como se ha visto, una estadı́stica suficiente conserva toda la información
relevante contenida en la muestra acerca del parámetro de interés. Ası́, los
estimadores basados en estadı́sticas suficientes son mejores (que los que no
están basados en estadı́sticas suficientes) como establece el siguiente resul-
tado.
Teorema 4.3 (Rao-Blackwell). Sean T (X) un estimador insesgado para

τ (θ) y S una estadı́stica suficiente. Sea T ∗ (X) := E(T |S). Entonces,
(a) T ∗ es una estadistica función de S.
(b) T ∗ es insesgado para τ (θ), es decir, E (T ∗ ) = τ (θ).
(c) V ar(T ∗ ) ≤ V ar(T ) para toda θ ∈ Θ.
Demostración.
(a) Usando la definición de la esperanza condicional en el caso continuo,

Z ∞
T∗ = tfT /S (t/s) dt
−∞
es una función de S, además fT /S no depende de θ por ser S una

estadı́stica suficiente, por lo que T ∗ es una estadı́stica.
(b) Por las propiedades de la esperanza condicional,
E (T ∗ ) = E (E (T /S)) = E (T ) = τ (θ).
(c) Usando las propiedades de la varianza condicional,
V ar(T ) = V ar (E (T /S)) + E (V ar (T /S)) ,
lo cual implica que
V ar(T ) = V ar (T ∗ ) + E (V ar (T /S)) ,
y como V ar (T /S) ≥ 0, se obtiene el resultado.

Ejemplo 4.34 Sea X1P , . . . , Xn una muestra aleatoria de la distribución

n
Bernoulli(θ). S(X) = i=1 Xi es una estadı́stica suficiente para θ, lo cual
se ha verificado (basta ver que la distribución Bernoulli pertenece a la familia
exponencial). T (X) = X1 es un estimador insesgado de θ (pues E(X1 ) = θ).
Entonces
n
!
X
∗
T (X) = E(T |S = s) =E X1 | Xi = s
i=1
n
!
X
=0 · P X1 = 0| Xi = s
i=1
n
!
X
+ 1 · P X1 = 1| Xi = s
i=1
n
!
X
=P X1 = 1 | Xi = s
i=1
Pn
P (X1 = 1, i=1 Xi = s)
= Pn .
P ( i=1 Xi = s)
Pn
Donde Xi ∼ Bin(n, θ). Pero
i=1
Pn Pn
P(X1 = 1; i=1 Xi = s) P(X1 = 1)P ( i=2 Xi = s − 1)
Pn = n s

n−s
s θ (1 − θ)
P( i=1 Xi = s)
n−1
n−1
(n−1)!
θ s−1 θs−1 (1 − θ)n−1−s+1 s−1 (s−1)!(n−s)! s
= n s

n−s
= n
= n!
= .
s θ (1 − θ) s s!(n−s)!
n
Por lo tanto, Pn
Xi
T ∗ (X) = i=1
= X.
n
El estimador resultante es insesgado, pues E(X̄) = θ y tiene varianza menor
que X1 , ya que
θ(1 − θ)
V ar(X̄) = ≤ θ(1 − θ) = V ar(X1 ),
n
las cuales son iguales sólo en el caso n = 1.
4.4.3. El teorema de Lehmann-Scheffé

El siguiente resultado muestra que un estimador insesgado función de la
estadı́stica suficiente y completa será el UMVUE.
Teorema 4.4 (Lehmann-Scheffé). Sea X1 , . . . , Xn una muestra aleatoria

de f (x; θ) y sea S una estadı́stica suficiente y completa. Sea T ∗ (X) una
función de S tal que E(T ∗ ) = τ (θ) (T ∗ es insesgado para τ (θ)), entonces T ∗
es el UMVUE de τ (θ).
Demostración. Sea T 0 (X) , función de S, tal que E(T 0 ) = τ (θ). Sea g(S) =
T ∗ − T 0 . Note que
E[g(S)] = E(T ∗ − T 0 ) = E[T ∗ ] − E[T 0 ] = τ (θ) − τ (θ) = 0
∴ E[g(S)] = 0
Entonces, por la completez de S se tiene que P[g(S) = 0] = 1, para toda

θ ∈ Θ. De esta manera, P[T ∗ = T 0 ] = 1 para toda θ ∈ Θ y, por lo tanto, T ∗
es único (c.s.). Es decir, T ∗ es el único estimador insesgado de τ (θ) que es
función de S.
Por otro lado, sea T tal que E[T ] = τ (θ). Por el teorema de Rao-Blackwell,
E[T |S] es estimador insesgado de τ (θ) y es función de S, lo que implica que
T ∗ = E[T |S]. Ası́, por el teorema de Rao-Blackwell, V ar(T ∗ ) ≤ V ar(T ),
para toda θ ∈ Θ.

Exp(θ), donde θ > 0. Como f (x; θ) = θe−θx , entonces
Pn f (x; θ) es de la
familia exponencial con d(x) = x. Entonces, S(X) = i=1 Xi es suficiente
y completa. Para encontrar el UMVUE de θ y de τ (θ) = θ1 , se obtiene
n
!
X 1 n
E(S) = E Xi = nE(Xi ) = n =
i=1
θ θ
y como E[X̄] = θ1 , entonces X es el UMVUE de θ1 , pues es función de la

estadı́stica suficiente y completa y además es insesgado para θ (note que
este resultado coincide con el obtenido mediante la teorı́a Cramèr y Rao,
ejemplo 4.33).
Para encontrar el UMVUE de θ, éste será de la forma Pn k Xi , donde
Pn i=1
S = i=1 Xi tiene distribución Gama (n, θ) . Entonces, observe que:

k k 1
E Pn =E = kE
i=1 Xi S S
Z ∞
1 θn n−1 −θs
=k s e ds
0 s Γ(n)
Z ∞ n
θ
=k sn−2 e−θs ds
0 Γ(n)
θn Γ(n − 1) ∞ θn−1 (n−1)−1 −θs
Z
=k s e ds
Γ(n) θn−1 0 Γ(n − 1)
| {z }
1
θn Γ(n − 1) Γ(n − 1) kθ
=k n−1 =k = .
θ Γ(n) (n − 1)Γ(n − 1)θ−1 n−1
Por lo que, para que k/Y sea insesgado, k debe ser igual a n − 1. Por lo
tanto,
n−1
T ∗ (X) = Pn
i=1 Xi
es el UMVUE de θ.
Para encontrar la CICR para estimadores insesgados de θ (ver ejemplo
4.32):
" 2 #
∂
IX (θ) =nE ln f (X; θ)
∂θ
" 2 #
∂ −θX
=nE ln θe
∂θ
" 2 #
∂
=nE (ln θ − θX)
∂θ
" 2 #
1
=nE −X
θ
n
=nV ar(X) = 2 .
θ
Entonces, la CICR para estimadores insesgados de θ es:
1 θ2
CICR(θ) = = .
IX (θ) n
El segundo momento de T ∗ (X) = Pn−1

n está dado por:
i=1 Xi
(n − 1)2

2 1
E = (n − 1) E 2
S2 S
Z ∞
1 θn n−1 −θs
= (n − 1)2 s e ds
0 s2 Γ(n)
∞
θn
Z
= (n − 1)2 sn−3 e−θs ds
Γ(n) 0
θn Γ(n − 2) ∞ θn−2 (n−2)−1 −θs
Z
= (n − 1)2 s e ds
Γ(n) θn−2 0 Γ(n − 2)
| {z }
1
θn Γ(n − 2)
= (n − 1)2 n−2
θ Γ(n)
Γ(n − 2)
= (n − 1)2
(n − 1)(n − 2)Γ(n − 2)θ−2
(n − 1)θ2
= .
n−2
Entonces,
(n − 1)θ2 θ2
V ar(T ∗ (X)) = − θ2 =
n−2 n−2
es la varianza del UMVUE de θ.
Note que
θ2 θ2
V ar(T ∗ (X)) = > = CICR(θ).
n−2 n
P oisson(θ). Sea τ (θ) = P(X = 0) = e−θ .
(a) Encontrar el estimador máximo verosı́mil de θ y τ (θ).
(b) Encontrar el estimador por momentos de θ.
(c) ¿Pertenece f (x; θ) a la familia exponencial?
(d) Encontrar una estadı́stica suficiente minimal y completa.
(e) Encontrar la CICR para estimadores insesgados de θ y τ (θ).
(f) ¿Existirá una función de θ, para la cual hay un estimador insesgado

cuya varianza coincide con la CICR? Si es ası́, encontrarlo.
(g) Encontrar un estimador insesgado de τ (θ) y usar el teorema de Rao-

Blackwell para hallar un estimador insesgado función de la estadı́stica
suficiente.
(h) Decir cuáles son los UMVUEs de θ y τ (θ), respectivamente.
Solución:
(a)
n n n I(xi )
Y Y e−θ θxi (x )
Pn Y {0,1,...}
L(θ) = f (xi ; θ) = i
I{0,1,...} = e−nθ θ i=1 xi
i=1 i=1
xi ! i=1
xi !
y el logaritmo de la verosimilitud es
 
n n I(xi )
{0,1,...}
X Y
l(θ) = −nθ + ( xi ) ln θ + ln  ,
i=1 i=1
xi !
de donde, Pn
∂ xi
l(θ) = −n + i=1 .
∂θ θ
∂
Entonces, ∂θ l(θ) = 0 si y sólo si
Pn Pn Pn
xi xi xi
−n + i=1 = 0 ⇔ n = i=1 ⇔ θb = i=1 .
θb θb n
Pn
Por lo tanto θ̂M.V. = n1 i=1 Xi = X̄. Para τ (θ), aplicando la pro-
piedad de invarianza de los estimadores máximo verosı́miles τ (θ̂M.V. )
es estimador máximo versı́mil de τ (θ). Por lo tanto e−X̄ es estimador
máximo verosı́mil de τ (θ) = e−θ .
(b) Recuerde que E(X) = θ, entonces el estimador por momentos está

dado por
n
1X
θ̂ = Xi = X̄.
n i=1
(c) Como
e−θ θx (x)
f (x; θ) = I
x! {0,1,...}
si
1 (x)
a(θ) = e−θ , b(x) = I , c(θ) = ln(θ), d(x) = x.
x! {0,1,...}
Entonces,
f (x; θ) = a(θ)b(x)ec(θ)d(x) .
Por lo tanto pertenece a la familia exponencial.
(d) P
Como f (x; θ) pertenece a la familia exponencial entonces T (x) =
n Pn
i=1 d(Xi ) = X
i=1 i es una estadı́stica suficiente minimal y com-
pleta.
(e) La información esperada de Fisher está dada por
" 2 #
∂
IX (θ) =nE ln f (X; θ)
∂θ
" −θ X 2 #
∂ e θ
=nE ln
∂θ X!
" 2 #
∂
=nE (−θ + X ln θ − ln X!)
∂θ
" 2 #
X
=nE −1 +
θ
" 2 #
1
=nE (X − θ)
θ
n h 2
i n nθ n
= 2 E (X − θ) = 2 V ar(X) = 2 = .
θ θ θ θ
Para θ se tiene que
θ
CICR(θ) = .
n
Para τ (θ) = e−θ se tiene que
(τ 0 (θ))2 θe−2θ
CICR(τ (θ)) = n = .
θ n
(f) Utilizando la segunda parte del teorema de Cramèr-Rao

n n
X ∂ X ∂ e−θ θxi
ln f (xi ; θ) = ln
i=1
∂θ i=1
∂θ xi !
n
X ∂
= (−θ + xi ln(θ) − ln(xi !))
i=1
∂θ
n
X xi
= −1 +
i=1
θ
n
1X n n
=−n+ xi = −n + x̄ = (x̄ − θ).
θ i=1 θ θ
Por lo tanto, para θ hay un estimador insesgado, T ∗ (X) = X̄, cuya

varianza coincide con la Cota de Cramèr-Rao, es decir, X̄ es el UMVUE
de θ.
(g) Considere T (X) = I{0} (X1 ). Note que E(T (X)) = E(I{0} (X1 )) =
P(X1 = 0) = e−θ . Por lo tanto,PT (X) es un estimador insesgado de
n
τ (θ) y ya se vio que S(X) = i=1 Xi es una estadı́stica suficiente
minimal y completa. Entonces,
E(T |S = s) = E(I{0} (X1 )|S = s)

n
!
X
= P X1 = 0| Xi = s
i=1
Pn
P(X1 = 0)P( i=2 Xi = s)
= Pn
P( i=1 Xi = s)
−(n−1)θ
((n−1)θ)s
e−θ e s!
= e−nθ (nθ)s
s!
−θ −(n−1)θ
e e ((n − 1)θ)s e−θ e−nθ eθ (n − 1)s θs
= =
e−nθ (nθ)s e−nθ ns θs
s
n−1
= .
n
Pni=1 Xi
Entonces, por el teorema de Rao-Blackwell T ∗ (X) = n−1
n .
(h) X̄ es el UMVUE de θ, lo cual se justifica utilizando el inciso (f) o bien,
notando quePX̄ es insesgado para θ y función de la estadı́stica suficiente
n
y completa, i=1 Xi , por lo que usando el teorema de Lehmann-Scheffé
4.5. Propiedades asintóticas de los estimadores 167
Pni=1 Xi
se llega a la misma conclusión. Además, n−1
n es el UMVUE de
τ (θ) por el inciso (g) y el teorema de Lehmann-Scheffé.
4.5. Propiedades asintóticas de los estimado-

res
Hasta ahora se han estudiado distintas propiedades de los estimadores, pe-
ro la mayorı́a, a excepción de la consistencia vista en el apartado 4.3.2, se
refiere a tamaños de muestra pequeños. En esta sección se abordarán propie-
dades que describen el comportamiento de un estimador cuando el tamaño
de muestra es grande, es decir, las propiedades asintóticas de los estimadores.
Como ya se señaló, la consistencia tiene que ver con la precisión asintótica
de un estimador, esto es, que el error cometido al estimar τ (θ) con Tn (X) es
pequeño cuando el tamaño de muestra es grande. Existe otra propiedad que
tiene que ver con la varianza asintóntica de un estimador, la cual se conoce
como eficiencia.
Ya se ha reiterado que la varianza (de los estimadores) juega un papel
importante en la elección del mejor estimador. De hecho en las observacio-
nes 4.5, se menciona la propiedad de eficiencia. A continuación se da una
definición formal de eficiencia asintótica.
Definición 4.17 Una sucesión de estimadores {Tn } es asintóticamente efi-

ciente para un parámetro τ (θ) si
√
n[Tn − τ (θ)] −→ N [0, CICR(θ)]
en distribución, donde
[τ 0(θ)]2
CICR(θ) = ∂ ;
E ( ∂θ ln f (X; θ))2
esto es, la varianza asintótica de Tn alcanza la cota inferior de Cramér-Rao.
Bajo las condiciones de regularidad (definición 4.13), se puede demostrar

que los estimadores máximo verosı́miles cumplen las propiedades de consis-
tencia y eficiencia. Es decir, si la muestra aleatoria proviene de una población
con función de densidad que satisface las condiciones de regularidad, enton-
ces el estimador máximo verosı́mil del parámetro θ (o de una función τ (θ))
tiene estas propiedades asintóticas.
Para el caso de la consistencia simple, puede consultarse Stuart, Ord y
Arnold (1999). En cuanto a la eficiencia, se utilizará el siguiente resultado
conocido como el método delta:
Lema√ 4.3 Si {Xn } es una sucesión de variables aleatorias que satisfacen

que n (Xn − θ) → N 0, σ 2 en distribución, entonces para una función τ
y un valor especı́fico de θ, se tiene que
√
2

n [τ (Xn ) − τ (θ)] → N 0, σ 2 τ 0 (θ)
en distribución.
Demostración. El resultado es consecuencia del teorema de Slutsky, el

cual establece que para dos sucesiones de variables aleatorias {Xn }n≥1 y
{Yn }n≥1 , tales que Xn → X en distribución y Yn → c en probabilidad ,
donde X es una variable aleatoria y c es una constante, se tiene que:
(i) Xn + Yn → X + c, en distribución,
(ii) Xn Yn → cX, en distribución,
(iii) Si c 6= 0 entonces,
Xn X
→ ,
Yn c
en distribución.
El siguiente resultado se refiere a la eficiencia asintótica de los estimadores

máximo verosı́miles.
Teorema 4.5 Sea X1 , X2 , .., Xn una muestra aleatoria de una población con
función de densidad f (x; θ), sea θb el estimador máximo verosı́mil de θ, y
sea τ (θ) una función continua y diferenciable de θ. Bajo las condiciones de
regularidad sobre f (x; θ) y, por lo tanto de la función de verosimilitud L(θ),
se tiene que √
b − τ (θ)] −→ N [0, CICR(τ (θ))],
n[τ (θ)
donde CICR(τ (θ)) es la cota inferior de Cramér-Rao para estimadores in-
sesgados de τ (θ). Esto es, el estimador máximo verosı́mil de τ (θ) , τ (θ),
b es
un estimador eficiente de τ (θ).
Demostración. Se demostrará el caso τ (θ) = θ, es decir, que θb es asintóti-

camente eficiente. Para ello, recuerde que
n
X
l(θ) = ln f (xi ; θ)
i=1
es la función de log-verosimilitud. Sean l0 , l00 , .. las derivadas (con respecto a

θ) . Expandiendo la primera derivada de la log-verosimilitud alrededor del
valor verdadero del parámetro, el cual se denotará por θ0 ,
l0 (θ) = l0 (θ0 ) + (θ − θ0 )l00 (θ0 ) + . . . ,
donde se ignoran los términos de orden superior.
Sustituyendo el estimador máximo verosı́mil θb en lugar de θ, se tiene que
l0 (θ)
b = l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + . . . ,
pero el estimador máximo verosı́mil es el cero de la función de verosimilitud,

por lo que
l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + · · · = 0.
√
Ası́ que reacomodando los términos y multiplicando por n, se obtiene que:
√ √ −l0 (θ0 )
n(θb − θ0 ) = n 00
l (θ0 )
1 0
− n l (θ0 )
√
= 1 00 .
n l (θ0 )
En 4.4.1 , se vio que

" 2 #
∂
IX (θ) = E ln f (X; θ) .
∂θ
Como
n
0
X ∂
l (θ) = ln f (xi ; θ),
i=1
∂θ
por (4.21)
1
IX (θ0 ) = E [l0 (θ0 )]2 =

CICR(θ)
denota la información esperada de Fisher.
Ahora observe que
" #
∂
1 0 √ 1 X ∂θ f (xi ; θ)
√ l (θ0 ) = n ,
n n i f (xi ; θ)
0
donde Sc(x; θ) = ff (x;θ)
(x;θ)
es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] =
IX (θ), lo cual se probó en el lema 4.1. Ası́, por el teorema del lı́mite central,
1
√ l0 (θ0 ) −→ N [0, I(θ0 )]
n
en distribución y
1
− √ l0 (θ0 ) −→ N [0, I(θ0 )]
n
en distribución. Por otro lado,
#2
∂2
"
∂
1 00 1 X ∂θ f (xi ; θ) 1X ∂θ 2 f (xi ; θ)
l (θ0 ) = − .
n n i f (xi ; θ) n i f (xi ; θ)
Note que la esperanza del primer sumando es IX (θ0 ), mientras que la del
segundo es cero (ver la demostración del lema 4.2). Entonces por la Ley
Débil de los Grandes Números:
1 00
l (θ0 ) −→ I(θ0 ),
n
en probabilidad. En consecuencia, si W es una variable aleatoria tal que
W ∼ N [0, I(θ0 )], entonces
√ − √1n l0 (θ0 )
n(θb − θ0 ) = 1 00
n l (θ0 )
converge en distribución a W/I(θ0 ) ∼ N [0, 1/IX (θ0 )], es decir, a una variable
aleatoria normal con media cero y varianza igual a la cota Inferior de Cramèr
y Rao, lo que demuestra el resultado.
El caso general es consecuencia del método delta, el cual se describe
brevemente a continuación. Una forma alternativa para calcular la varianza
del estimador máximo verosı́mil de τ (θ) es considerando que, debido a la
propiedad de invarianza que tiene el método de máxima verosimilitud,

τd(θ) = τ θb .

Si se aproxima τ θb mediante una expansión en series de Taylor alrededor
de θ, considerando solamente la primera derivada, se obtiene:

τ θb ≈ τ (θ) + θb − θ τ 0 (θ) .
Tomando la varianza de ambos lados, se llega a

h i
2
V ar τ θb ≈ (τ 0 (θ)) V ar θb ,

debido a que θ es una constante. Como ya se habı́a visto, V ar θb está dada
−1
por IX (θ), ası́ que
h i (τ 0 (θ))2
V ar τ θb ≈ ,
IX (θ)
expresión que corresponde a la cota inferior de Cramèr-Rao para estimadores

insesgados de τ (θ) , con lo que puede observarse que la varianza del estimador
máximo verosı́mil alcanza dicha cota (al igual que en el caso τ (θ) = θ).
En conclusión:
√
b − τ (θ)] −→ N [0, CICR(τ (θ))].
n[τ (θ)
Ejemplo 4.37 Considere una muestra aleatoria, X1 , . . . , Xn , de la pobla-

ción con distribución Bernoulli(p); se desea obtener un estimador puntual
p
para el momio, τ (p) = (1−p) , ası́ como la varianza de dicho estimador.
El estimador máximo verosı́mil para p̂ es X̄. Por la propiedad de in-
varianza de los estimadores máximo verosı́miles, se tiene que el estimador
X̄n
máximo verosı́mil para τ (p) es (1− X̄n )
. La varianza de este estimador puede
aproximarse de la siguiente manera:
h i2 
d p
 dp ( (1−p) ) 

p̂
V̂ = 
(1 − p̂) IX (p)

p=p̂
h i2 
1
 (1−p)2 ) 
=  n 
p(1−p)
p=p̂
p̂ X̄n
= 3
= .
n(1 − p̂) n(1 − X̄n )3
Ejemplo 4.38 Considere una sucesión de variables aleatorias, X1 , . . . , Xn ,

independientes e idénticamente distribuidas de una población con distribu-
ción F (·) que es diferenciable. Suponga que se satisface que P (Xi ≤ ψ) =
1/2, es decir, ψ es la mediana poblacional. Sea Mn la mediana muestral y
también suponga que n es impar para simplificar el argumento. Se desea
obtener la distribución asintótica de la mediana muestral.
Se calculará p
lı́m P ( (n)(Mn − ψ) ≤ a),
n→∞
para alguna a. Sean las variables aleatorias Yi0 s definidas como

( p
1 si Xi ≤ ψ + a/ (n)
Yi =
0 en otro caso,
se tiene que las Yi0 s son variables aleatorias Bernoulli con probabilidad de
éxito p
pn = F (ψ + a/ (n)).
p P
Note que el evento {Mn ≤ ψ + a/ (n)} es equivalente al evento { i Yi ≥
(n + 1)/2}. Dado que
pn → p = F (ψ) = 1/2,
P
Yi −npn
se puede utilizar el teorema del lı́mite central, de donde √ i
con-
(npn (1−pn ))
verge a una variable aleatoria Z con distribución normal estándar. Ahora,
√
(n + 1)/2 − npn (n + 1)F (ψ) − nF (ψ + a/ n)
lı́m p = lı́m p
n→∞ (npn (1 − pn ) n→∞ npn (1 − pn )
√
n(F (ψ) − F (ψ + a/ n))
= lı́m p
n→∞ npn (1 − pn )
√
n(F (ψ) − F (ψ + a/ n) 1
= lı́m a √
n→∞ a/ n pn (1 − pn )
= −2af (ψ).
Por lo que p
P ( (n)(Mn − ψ) ≤ a) → P (Z ≥ −2af ψ).
p
Ası́ (n)(Mn − ψ) tiene una distribución normal con media 0 y varianza
1/[2f (ψ)]2 .
4.6. Ejercicios
1. Sea X una variable aleatoria con distribución Gama(α + 1, β), cuya
función de densidad es
β α+1
f (x; α, β) = xα e−βx ,
Γ(α + 1)
con x > 0, α > −1 y β > 0. Obtenga los estimadores de los parámetros
α y β por el método de momentos, para una muestra aleatoria de
tamaño n.
2. Una urna contiene bolas negras y blancas. Se toma una muestra aleato-
ria de tamaño n con reemplazo. ¿Cuál es el estimador máximo verosı́mil
de la razón, R, de blancas a negras en la urna? Para esto suponga que
la bola se obtiene una por una con reemplazo hasta que la bola negra
aparezca. Sea X el número de bolas requeridas no contando la últi-
ma obtenida; este procedimiento se repite n veces para una muestra
aleatoria X1 , . . . , Xn .
4.6. Ejercicios 173
3. Se toma una observación de una variable aleatoria discreta X con fun-

ción de densidad f (x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3}.
x f (x; 1) f (x; 2) f (x; 3)
0 1/3 1/4 0
1 1/3 1/4 0
2 0 1/4 1/4
3 1/6 1/4 1/2
4 1/6 0 1/4
Encuentre el estimador máximo verosı́mil de θ.
4. Sea X una variable aleatoria discreta con función de densidad f (x; θ)

dada en la siguiente tabla, donde θ ∈ {1, 2, 3} y X ∈ {0, 1, 2, 3, 4}.
Se toma una muestra aleatoria de tamaño dos, (X1 , X2 ). Determine el
estimador máximo verosı́mil de θ.
x f (x; 1) f (x; 2) f (x; 3)
0 1/3 1/4 0
1 1/3 1/4 0
2 0 1/4 1/4
3 1/6 1/4 1/2
4 1/6 0 1/4
5. Sea X1 , . . . , Xn una muestra aleatoria de una población con función

de densidad
f (x; θ) = θx−2 I[θ,∞) (x).
Encuentre el estimador máximo verosı́mil de θ. También encuentre el
estimador por momentos para θ.
6. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución

U (θ, 2θ), con θ > 0.
(a) Encuentre el estimador de θ por el método de momentos.

(b) Encuentre el estimador máximo verosı́mil de θ, θ̂M V , y encuentre
una constante k tal que E(k θ̂M V ) = θ.

densidad
1 (x − µ)
f (x; µ, σ) = exp − I(µ,∞) (x),
σ σ
donde µ ∈ R y σ ∈ R+ son desconocidos.
(a) Demuestre que el estimador máximo verosı́mil de µ es X(1) (la

mı́nimaPestadı́stica de orden) y el estimador máximo verosı́mil de
n
σ es n1 i=1 (Xi − X(1) ).
µ µ
(b) ¿Cuáles son los estimadores máximo verosı́miles de σ , σ2 y de
µ + σ?
densidad
θ2
f (x; θ) = (x + 1)e−θx I(0,∞) (x), θ > 0.
θ+1
(a) Demuestre que la densidad de X pertenece a la familia exponen-
cial.
(b) Encuentre una estadı́stica suficiente minimal y completa.
(c) Encuentre el estimador por momentos.
(d) Encuentre el estimador máximo verosı́mil.
densidad
f (x; θ) = θxθ−1 I[0,1] (x), θ > 0.
(a) Encuentre el estimador por momentos de θ.
(b) Encuentre el estimador máximo verosı́mil de θ.
(c) Suponga que el verdadero valor de θ es 2. Utilice simulación en R
para comparar el error cuadrático medio (numéricamente) de los
estimadores en los apartados anteriores en muestras de tamaño
n = 30. ¿Qué conclusiones puede extraer?
densidad
1
f (x; θ) = e−|x−θ| , −∞ < θ < ∞.
2
(a) Analice la suficiencia en esta densidad.
(b) ¿Pertenece f (x; θ) a la familia exponencial?
(c) Halle el estimador por el método de momentos para θ.
(d) Halle el estimador máximo verosı́mil para θ.
P oisson(λ), con función de densidad f (x|λ). Considere que la fun-
ción de distribución a priori de λ es una distribución Gama(α, β), con
función de densidad π(λ).
4.6. Ejercicios 175
(a) Encuentre la distribución a posteriori de λ.

(b) Encuentre el estimador Bayesiano de λ usando la función de pérdi-
da del error cuadrático.

Geométrica(θ). Considere que la función de distribución a priori de θ
es una distribución Beta(α, β).
(a) Encuentre la distribución a posteriori de θ.

(b) Encuentre el estimador Bayesiano de θ usando la función de pérdi-

N ormal(µ, σ 2 ), donde σ 2 es conocida. Considere que la función de
distribución a priori de µ es una distribución N ormal(η, λ2 ).
(a) Encuentre la distribución a posteriori de µ.

(b) Encuentre el estimador Bayesiano de µ usando la función de pérdi-
14. Suponga que ciertas pérdidas siguen una distribución W eibull con
parámetros θ y τ . Se tiene la siguiente muestra de 16 pérdidas: 54,
70, 75, 81, 84, 88, 97, 105, 109, 114, 122, 125, 128, 139, 146, 153. Es-
time los parámetros utilizando el método de percentiles, usando los
percentiles 20th y 70th .
15. Se practican n mediciones del radio de un cı́rculo. Si las mediciones

son independientes entre sı́ y los errores se distribuyen N (0, σ 2 ) con σ 2
desconocida, proponer un estimador insesgado para el perı́metro del
cı́rculo y otro para el área.
16. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño cuatro de una

población con distribución N (0, σ 2 ), donde σ es desconocida. Considere
los siguientes estimadores T1 = X12 − X2 + X4 , T2 = 31 (X12 + X22 + X42 ),
P4 P4
T3 = 41 i=1 Xi2 , T4 = 13 i=1 (Xi − X̄)2 y T5 = 21 |X1 − X2 |.
(a) ¿T1 , T2 , T3 , T4 son insesgados?

(b) De entre T1 , T2 , T3 , T4 , ¿cuál tiene el menor error cuadrático me-
dio?
(c) ¿T5 es un estimador insesgado para σ? Si no lo es, encuentre un
múltiplo de T5 que lo sea. Calcule el error cuadrático medio de
T5 .

de densidad con media µ y varianza σ 2 .
Pn
(a) Pruebe que i=1 ai Xi es un estimador insesgado para µ para
cualquier
Pn valor de las constantes a1 , a2 , . . . , an que satisfagan que
i=1 i a = 1.
Pn Pn
(b) Si i=1 ai = 1, prueba que V ar [ i=1 ai Xi ] se minimiza cuando
ai = 1/n, para i = 1, . . . , n.

densidad
2x
f (x; θ) = 2 I(0,θ) (x), θ > 0.
θ
(a) Estime θ por el método de momentos. Llame a este estimador T1 .
Encuentre su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de θ. Llame a este es-
timador T2 . Encuentre su media y su ECM.
(c) De entre todos los estimadores de la forma aYn , donde a es un
valor constante que depende de n y Yn = máx{X1 , . . . , Xn }, en-
cuentre un estimador para θ con error cuadrático medio unifor-
memente más pequeño. Llame a este estimador T3 . Encuentre su
media y su ECM de T3 .
(d) Encuentre un UMVUE de θ. Nombre a este estimador T4 . En-
cuentre su media y su ECM.
(e) Define T5 = (Y1 + Yn )/2, donde Y1 = mı́n{X1 , . . . , Xn } y
Yn = máx{X1 , . . . , Xn }. Encuentre su media y su ECM. ¿Qué
estimador de θ preferirı́a y por qué?

W eibull(α, β), cuya función de densidad es
β
1 −x
fX (x; α) = βxβ−1 exp I(0,∞) (x),
α α
donde α > 0 es un parámetro desconocido, pero β > 0 se supone

conocido. Encuentre los estimadores máximo verosı́miles de α, α2 y α1
y demuestre que son consistentes en ECM.

tal que
E (Xi ) = θ + b, V ar (Xi ) = σ 2 ,
4.6. Ejercicios 177
donde b 6= 0, es una constante conocida. Pruebe que X no es un es-

timador consistente en error cuadrático medio para θ. Construya un
estimador insesgado para θ que sea consistente.

P areto(α, θ), cuya función de densidad es
αθα
f (x; θ) = , x > θ, θ > 0,
xα+1
con α conocida.
(a) Encuentre el estimador máximo verosı́mil para θ. ¿Es este un

estimador insesgado para θ? Si la respuesta es negativa, encontrar
el estimador insesgado.
(b) Encuentre el estimador por el método de momentos para θ. Nue-
vamente verifique si el estimador es insesgado; en caso contrario,
obtenga el estimador insesgado.
(c) ¿Son consistentes los estimadores obtenidos en los incisos anterio-
res?

Bernoulli(θ), donde x ∈ {0, 1} y 0 ≤ θ ≤ 21 . Note que el espacio
paramétrico es Θ = {θ : 0 ≤ θ ≤ 12 }.
(a) Encuentre el estimador de θ por medio del método de momentos.

Calcule su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de θ. Calcule su media
y su ECM.
(c) ¿Los estimadores son consistentes en ECM?
(d) ¿Qué estimador es más eficiente en ECM?
23. Sea X1 , . . . , Xn una muestra aleatoria discreta de la población con

distribución P oisson(λ), donde x ∈ {0, 1, 2, . . .} y 0 < λ ≤ 2. Note que
el espacio paramétrico es Θ = {λ : 0 < λ ≤ 2}.
(a) Encuentre el estimador de λ por el método de momentos. Calcule

su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de λ. Calcule su media
y su ECM.
(c) ¿Los estimadores son consistentes en ECM?
24. Considere las siguientes funciones de densidad:
f1 (x; p) = px (1 − p)1−x I{0,1} (x) donde 0 < p < 1,
log(θ)
f2 (x; θ) = θx I(0,1) (x) donde θ > 1.
θ−1
En cada caso, para una muestra aleatoria de tamaño n, ¿existirán
estadı́sticas T1 (X) y T2 (X) para ciertas funciones τ1 (p) y τ2 (θ), para
las cuales la varianza de Ti (X), i = 1, 2, coincidan con la CICR?
N (θ, 1).
(a) Encuentre la CICR para la varianza de los estimadores insesgados
de τ1 (θ) = θ, τ2 (θ) = θ2 y τ3 (θ) = P(X > 0).
(b) ¿Existe un estimador insesgado para τ2 (θ) = θ2 ?. Si es ası́, en-
cuéntrelo.
(c) ¿Existe un estimador insesgado para τ3 (θ) = P(X > 0)? Si es ası́,
encuéntrelo.
(d) Encuentre el UMVUE para τ2 (θ) = θ2 .
Beta(θ, 1), donde θ > 0, es decir, con función de densidad
f (x; θ) = θxθ−1 I(0,1) (x).
(a) Encuentre el estimador máximo verosı́mil de τ (θ) = θ/(1 + θ).

(b) Encuentre una estadı́stica suficiente, y compruebe si es completa.
Pn Pn
(c) ¿Es S = i=1 Xi una estadı́stica suficiente?. ¿Es S = i=1 Xi
una estadı́stica completa?
(d) ¿Existe una función de θ, τ (θ), para el cual exista una estimador
insesgado cuya varianza coincida con la CICR? Justifique.
(e) Encuentre un UMVUE para las siguientes funciones de θ:
(i) τ (θ) = θ
(ii) τ (θ) = 1/θ
(iii) τ (θ) = θ/(1 + θ)
Bernoulli(p), con p ∈ (0, 1) con n ≥ 3.
Pn
(a) Sea U = i=1 Xi . Calcule E(X1 |U = u) y obtenga E(X1 |U ).
4.6. Ejercicios 179
(b) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X)

de τ1 (p) = p2 , dado por
T1 (X) = X1 X2 .
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X)

de τ2 (p) = p2 (1 − p) , dado por
T2 (X) = X1 X2 (1 − X3 ).
28. Sea X1 , . . . , Xn una muestra aleatoria de distribución P oisson(λ), con

λ > 0 y n ≥ 2.
(a) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X)
de τ1 (λ) = λ, dado por
1
T1 (X) = (X1 + X2 ).
2
(b) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X)
de τ2 (λ) = e−λ , dado por
T2 (X) = I{0} (X1 ),
1
Pn Xi
(llegará a 1 − n
i=1
).
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T3 (X)
de τ3 (λ) = λe−λ , dado por
T3 (X) = I{1} (X1 ).

de densidad
1
f (x; θ) = I(−θ,θ) (x), θ > 0.
2θ
Encuentre, si existe, el UMVUE para θ.
30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribu-
ción U (0, θ). Sean Y1 y Yn la mı́nima y máxima estadı́sticas de orden,
respectivamente.
(a) Encuentre el estimador por momentos para θ. Llame T1 a dicho
estimador y encuentre su media y error cuadrático medio.
(b) Encuentre el estimador máximo verosı́mil de θ. Llame T2 a dicho
estimador y encuentre su media y error cuadrático medio.
(c) De entre todos los estimadores de la forma aYn , donde a es una

constante que podrı́a depender de n. Encuentre un estimador para
θ que tenga el error cuadrático medio uniformente más pequeño.
Llame T3 a dicho estimador y encuentre su media y error cuadráti-
co medio.
(d) Encuentre el UMVUE de θ. Llame T4 a dicho estimador y en-
cuentre su media y error cuadrático medio.
(e) Sea T5 = Y1 + Yn . Encuentre su media y error cuadrático medio.
(f) Diga ventajas y desventajas de los estimadores T1 , . . . , T5 .

densidad
θ
f (x; θ) = I(0,∞) (x), θ > 0
(1 + x)1+θ
(a) Encuentre el estimador por momentos para θ suponiendo que θ >

1.
(b) Encuentre el estimador máximo verosı́mil de τ (θ) = 1/θ.
(c) Encuentre una estadı́stica suficiente y completa (si es que existe).
(d) Encuentre la CICR para los estimadores insesgado de τ (θ) = 1/θ.
(e) ¿Existe el UMVUE de τ (θ)? Si es ası́, encuéntrelo.
(f) ¿Existe el UMVUE de θ? Si es ası́, encuéntrelo.

densidad
f (x; µ) = e−(x−µ) I(µ,∞) (x), µ ∈ R.
(a) Demuestre que T (X) = X(1) = mı́n {X1 , . . . , Xn } es una es-

tadı́stica suficiente y completa.
(b) Encuentre la única función de X(1) que sea el UMVUE de µ.

P oisson(λ). Sea τ (λ) = (1 + λ)e−λ .
(a) Obtenga el estimador máximo verosı́mil para τ (λ).

(b) Obtenga un estimador insesgado para τ (λ).
(c) Obtenga un UMVUE para τ (λ). Sugerencia: encuentre un esti-
mador insesgado de τ (λ) y utilice el teorema de Rao-Blackwell
para mejorarlo.
4.6. Ejercicios 181

Geométrica(θ) con función de densidad
P(X = x) = θ(1 − θ)x , x = 0, 1, 2, . . . , 0 < θ < 1.
(a) Obtenga el estimador por el método de momentos para θ.

(b) Obtenga el estimador máximo verosı́mil para θ.
(c) Calcule la CICR para la varianza de los estimadores insesgados
de θ.
(d) Encuentre un UMVUE para θ.
N (θ, θ2 ), θ ∈ R.
(a) ¿Existe una estadı́stica suficiente unidimensional para θ?
(b) Encuentra una estadı́stica suficiente bidimensional para θ.
(c) ¿Es X̄ un UMVUE para θ?
(d) ¿θ es un parámetro de localización o escala?
36. Sea T una variable aleatoria que toma valores en {0, 1, 2, ..., 6} y sean
g1 (t) y g2 (t) dos densidades que corresponden a:
La primera, g1 (t) es la probabilidad de que, de 5 monedas lanzadas al
aire, el número de águilas observadas, T sea igual a t.
La segunda, g2 (t) es la probabilidad de que al lanzar un dado numerado
del 1 al 6, T, la cara que quedó hacia arriba, sea igual a t.
Como una convención se denotará por f (t; θ1 ) = g1 (t) y de manera
similar f (t; θ2 ) = g2 (t), ası́, sin ni siquiera especificar la naturaleza
de θ1 y de θ2 . El espacio paramétrico será Θ = {θ1 , θ2 } con sólo dos
elementos.
a) Se observó t = 1. Exhiba la estimación máximo verosı́mil de
θ ∈ Θ.
b) Repita el inciso anterior si lo que se observó fue t = 2.
c) Observe que sucede algo que es muy raro en planteamientos es-
tadı́sticos: hay dos valores de t para los cuales al hacer la estima-
ción máximo verosı́mil de θ, parece que se puede tener la certeza
de que en esos dos casos, ahora sı́, la estimación se convierte en
identificación (del verdadero valor de θ). Diga cuáles son esos dos
valores y explique porqué hay identificación.
Capı́tulo 5
Estimación por intervalos
Es usual iniciar el estudio de la inferencia estadı́stica con el planteamiento

de estimación puntual para el parámetro (o los parámetros) de una distri-
bución. La perspectiva que se analizó en el capı́tulo anterior no precisa qué
tan cerca del parámetro se encuentra la estimación, sin embargo, es posible
medir el error en términos de la variación muestral o error estándar de dicho
estimador; en este caso se habla de un margen de variación para el valor que
el parámetro puede tomar.
En esta parte se abordará otro enfoque: el planteamiento de estimación
por intervalos.
Para inferir respecto a una caracterı́stica de la población, se prefiere aho-
ra proponer un rango de valores que tenga la posibilidad de contener al
parámetro. Esto se logra generalmente mediante un intervalo que es enten-
dido como un conjunto de valores (calculado a partir de los datos de una
muestra) en el cual puede encontrarse el verdadero valor del parámetro con
un determinado nivel de certeza o confianza. Se comenzará introduciendo el
concepto de intervalo de confianza.
5.1. Intervalos de confianza

Es común que en los medios de comunicación como radio, televisión, revistas
o periódicos, ası́ como en redes sociales, se presenten resultados de estudios
estadı́sticos de los temas más diversos. Las conclusiones suelen presentar-
se con frases como la siguiente: “El estudio muestra que en el 75 % de los
casos se experimenta una mejorı́a (de cierta enfermedad), siendo el margen
de error del 6 % y el nivel de confianza del 95 %”. El cálculo de intervalos
de confianza para la estimación de parámetros permite hacer declaraciones
183
184 5. Estimación por intervalos
sobre qué valores se pueden esperar para una caracterı́stica que se esté estu-
diando; aunque, a diferencia de la estimación puntual, se habla de un nivel de
confianza que tendrá una influencia en el intervalo calculado: intuitivamente
la confianza se refiere a la certeza con la que el método dará una respuesta
correcta, y por lo tanto se pedirá que ese nivel de confianza sea alto.
Replanteando el problema de encontrar un rango de valores para θ, se
tiene lo siguiente: si θ ∈ Θ ⊆ R (el espacio paramétrico) y se quiere disminuir
el grado de desconocimiento de θ en f (x; θ), se debe seleccionar un subcon-
junto Θ1 de Θ en el cual pueda afirmarse, con un margen de error pequeño,
que se encuentra el valor de θ que caracteriza la distribución de la población.
Por ejemplo, suponga que se tiene una muestra aleatoria X1 , . . . , Xn de una
población con distribución N (µ, σ 2 ), con σ 2 conocida y µ desconocida y se
desea estimar el parámetro µ. La estadı́stica T (X) = X̄ tiene distribución
N (µ, σ 2 /n), entonces,
X̄ − µ
Z := √ ∼ N (0, 1).
σ/ n
Note que
P[−1.96 < Z < 1.96] = φ(1.96) − φ(−1.96) = φ(1.96) − (1 − φ(1.96))

= 2φ(1.96) − 1 = 2(0.9725) − 1 = 0.95.
A partir de que se sabe que P[−1.96 < Z < 1.96] = 0.95, se obtiene lo
siguiente:
X̄ − µ
−1.96 < √ < 1.96,
σ/ n
si y sólo si
σ σ
−1.96 √ < X̄ − µ < 1.96 √ ,
n n
si y sólo si
σ σ
X̄ − 1.96 √ < µ < X̄ + 1.96 √ ,
n n
de donde
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95.
n n
Lo que indica la expresión

σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95,
n n
5.1. Intervalos de confianza 185
es que hay una probabilidad de 0.95 de obtener una muestra tal que el
intervalo
σ σ
X̄ − 1.96 √ , X̄ + 1.96 √ ,
n n
incluya al valor de µ. Esto motiva la definición 5.1 de intervalo aleatorio que
se verá posteriormente, aunque en este momento, y haciendo referencia al
ejemplo anterior, se puede adelantar que un intervalo en el que al menos uno
de los extremos es una variable aleatoria se llama intervalo aleatorio.
Una vez usada la distribución de X̄ para establecer la conclusión anterior,
se obtiene un valor particular de x̄, con base en una muestra, y se determina
el intervalo numérico

σ σ
x̄ − 1.96 √ , x̄ + 1.96 √ . (5.1)
n n
En este caso no tiene sentido hablar de la probabilidad de que el intervalo

contenga al parámetro, ya que no hay ninguna variable aleatoria. Ahora, el
0.95 expresa el margen de confianza con el que se puede afirmar que el
valor desconocido de µ está entre los extremos del intervalo que ya está fijo,
en el sentido de que repitiendo el muestreo un gran número de veces, se
obtendrı́an intervalos distintos, entre los cuales aproximadamente el 95 % de
estos intervalos contienen el valor correcto
de µ.
Por lo tanto, el intervalo numérico x̄ − 1.96 √σn , x̄ + 1.96 √σn se llama
intervalo de confianza para µ con un nivel del 95 %.
Observación 5.1 Un ejercicio para analizar el concepto de intervalo de con-

fianza consiste en simular algunas muestras de una determinada población
normal, calcular los intervalos correspondientes a un cierto nivel de confianza
y observar la proporción de estos intervalos que contienen al verdadero valor
de la media.
El resultado de un ejercicio de simulación se muestra resumido en las
gráficas de la figura 5.1, en donde se ha utilizado la expresión (5.1) para el
cálculo de los intervalos.
Cada una de las gráficas representa intervalos correspondientes a 100
muestras para diferentes tamaños de muestra, todas con µ = 100.
El ejercicio se hizo utilizando el software estadı́stico R.
Las lı́neas en negro representan los intervalos que no contienen al ver-
dadero valor de la media µ en cada uno de los casos considerados.
Se usó un nivel de confianza del 95 %.
Ası́, la primera gráfica representa los intervalos correspondientes a 100

muestras de tamaño 10 de una distribución normal con media igual a 100 y
σ = 10.
100
100
100
80
80
80
60
60
60
40
40
40
20
20
20
0
85 90 95 100 110 85 90 95 100 110 85 90 95 100 110
Figura 5.1: Intervalos correspondientes a 100 muestras para tamaños de

muestra 10, 30 y 50, respectivamente y desviación estándar de 10.
Si se desea un intervalo del 99 % de confianza en este caso de la distribu-

ción normal, primero se debe observar que:
P[−2.576 < Z < 2.576] = 0.99.
Entonces, a partir de la expresión anterior, se obtiene que

σ σ
x̄ − 2.576 √ , x̄ + 2.576 √
n n
es un intervalo del 99 % de confianza para µ. Note que a mayor nivel de

confianza, mayor es la longitud del intervalo. Usualmente se fija un nivel de
confianza y entonces se genera el intervalo.

Observe también que en el primer ejemplo x̄ − 1.96 √σn , x̄ + 1.96 √σn no
es el único intervalo del 95 % de confianza para µ, pues por ejemplo, también
P[−1.74 < Z < 2.37)] = φ(2.37) − φ(−1.74)

= φ(2.37) − 1 + φ(1.74)
= 0.95.
Sin embargo, el de longitud mı́nima es el originado por P[−1.96 < Z <

1.96] = 0.95.
En general, si para este caso de la distribución N µ, σ 2 , se tiene que:

X̄ − µ
P a< √ < b = γ,
σ/ n
entonces,
X̄ − µ σ σ σ σ
a< √ < b ⇔ a √ < X̄ − µ < b √ ⇔ X̄ − b √ < µ < X̄ − a √ .
σ/ n n n n n
Suponga que se desea minimizar la longitud del intervalo dada por (b−a) √σn ,
con la restricción de que P[a < Z < b] = 0.95, es decir, FZ (b)−FZ (a) = 0.95,
donde FZ (z) es la función de distribución de una población N (0, 1) . Para
este problema de optimización, se define la función
L = b − a − λ(FZ (b) − FZ (a) − 0.95).
Entonces,
∂L
= 0 ⇔ −1 + λfZ (a) = 0 ⇔ λfZ (a) = 1
∂a
y también
∂L
= 0 ⇔ 1 − λfZ (b) = 0 ⇔ λfZ (b) = 1.
∂b
De donde, fZ (a) = fZ (b); por lo tanto, a = −b debido a la simetrı́a (en el
cero) de fZ . Es decir, la distancia b − a será minimizada (para un área fija)
cuando fZ (a) = fZ (b).
Definición 5.1 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ)

y τ (θ) una función de θ. Sean T1 (X) y T2 (X) de forma que T1 ≤ T2 y
P(T1 < τ (θ) < T2 ) = γ (γ no depende de θ). Entonces a (T1 , T2 ) se le llama
un intervalo aleatorio y a un valor del intervalo aleatorio (t1 , t2 ), se le llama
intervalo de confianza o un intervalo del γ(100 %) de confianza para τ (θ).
Como ilustración, considere a X1 , . . . , Xn una muestra aleatoria de la

población con distribución N (θ, 9). Suponga que T1 (X) = X̄ − √6n y T2 (X) =
X̄ + √6n y que (T1 , T2 ) forma un intervalo para τ (θ) = θ. En este caso,

6 6 X̄ − θ
P X̄ − √ < θ < X̄ + √ = P −2 < √ < 2
n n 3/ n
= φ(2) − φ(−2)
= 2φ(2) − 1
= 2(0.9972) − 1 = 0.9544,
siendo 0.9544 el nivel de confianza. Por ejemplo, si se tiene una muestra

aleatoria de 25 observaciones, con una media muestral de 17.5, entonces se
dice que 17.5 − √625 , 17.5 + √625 es un intervalo del 95.44 % de confianza
para θ.
Note que alguna de las dos estadı́sticas (pero no ambas) T1 (X) o T2 (X)
puede ser constante; es decir, alguno de los dos extremos del intervalo alea-
torio (T1 , T2 ) puede ser constante.
Definición 5.2 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ).

Sean T1 (X) una estadı́stica para la cual P(T1 < τ (θ)) = γ; entonces T1 in-
duce el intervalo de confianza unilateral inferior (t1 (x), ∞) con un nivel de
confianza γ. De manera análoga, si T2 (X) es una estadı́stica para la cual
P(τ (θ) < T2 ) = γ; entonces T2 induce el intervalo de confianza unilateral
superior (−∞, t2 (x)) con un nivel de confianza γ (γ no depende de θ).
Observación 5.2 Si ya se ha determinado un intervalo de confianza para

θ, entonces, se puede determinar una familia de intervalos de confianza. De
manera más especı́fica, para un nivel de confianza del γ(100 %) dado; si se
tiene un intervalo de confianza para θ al γ(100 %) de confianza, entonces se
puede obtener un intervalo con el mismo nivel de confianza para τ (θ) donde τ
es una función creciente (estricta). Por ejemplo, si τ es una función creciente
y (T1 , T2 ) es un intervalo de confianza para θ, entonces (τ (T1 ), τ (T2 )) será
un intervalo de confianza para τ (θ) pues
γ = P[T1 (X) < θ < T2 (X)] = P[τ (T1 (X)) < τ (θ) < τ (T2 (X))].
No obstante, el que el intervalo inicial para θ fuera el más corto, esto no

implica que el intervalo para τ (θ) sea el más corto.
A continuación se describe un método para encontrar intervalos de con-

fianza, el cual se conoce como el método de la cantidad pivotal o simplemente
método pivotal.
5.1.1. Método pivotal para encontrar intervalos de

confianza
Definición 5.3 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ).
Sea Q = q(X1 , X2 , ..., Xn ; θ), es decir Q es una función de la muestra alea-
toria y de θ. Si la distribución de Q no depende de θ, entonces a Q se le
llama cantidad pivotal.
Observación 5.3 A veces la cantidad pivotal Q tiene sólo una distribu-

ción asintótica que no depende de θ, en ese caso, se obtendrá una solución
aproximada.

distribución N (θ, 1) y sea τ (θ) = θ. En este caso, X̄ ∼ N (θ, n1 ), entonces
(X̄−θ)
Q1 := √
1/ n
∼ N (0, 1) por lo que Q1 es una cantidad pivotal. También
Q2 := X̄ − θ es una cantidad pivotal pues Q2 ∼ N (0, n1 ) (su distribución
no depende de θ). Pero Q3 := X̄
θ no es una cantidad pivotal, pues Q3 ∼
N (1, θ21n ).
Definición 5.4 (método pivotal para intervalos de confianza) . Sea

Q = q(x1 , . . . , xn ; θ) una cantidad pivotal. Entonces, para cualquier γ ∈
(0, 1), existirán q1 y q2 que dependen de γ tal que
P [q1 < Q < q2 ] = γ.
Si para cada posible muestra (x1 , . . . , xn ) se cumple que
q1 < q(x1 , . . . , xn ; θ) < q2 ,
si y sólo si
t1 (x1 , . . . , xn ) < τ (θ) < t2 (x1 , . . . , xn ) ,
para funciones t1 y t2 que no dependen de θ, entonces (t1 , t2 ) es un intervalo
del γ(100) % de confianza para τ (θ).
La longitud esperada serı́a E [t2 (X1 , . . . , Xn ) − t1 (X1 , . . . , Xn )] .
En este método, la desigualdad q1 < Q < q2 se reescribe, invierte o

pivotea como t1 (x) < τ (θ) < t2 (x).
Como se vio antes en el ejemplo de la distribución normal, puede ha-
ber distintos intervalos que proporcionen el mismo nivel de confianza, por
lo que se busca el que tenga longitud mı́nima. Desde una perspectiva más
general, el siguiente resultado será de utilidad para encontrar el intervalo de
confianza más corto cuando la cantidad pivotal tenga una distribución con
una densidad unimodal.
Proposición 5.1 Sea f (x) una densidad unimodal y F (x) su función de

distribución asociada. Sea [a, b] un intervalo que satisface que
F (b) − F (a) = 1 − α, (5.2)
para α tal que 0 < α < 1. Entonces de entre todos los intervalos que cumplen
(5.2), [a0 , b0 ] tiene la longitud mı́nima si f (a0 ) = f (b0 ) > 0 y a0 ≤ x∗ ≤ b0 ,
donde x∗ es la moda de f (x) . Si además f (x) es simétrica, entonces a0 =
F −1 α2 y b0 = F −1 1 − α2 .
Demostración. Se trata de minimizar la longitud b − a sujeta a F (b) −

F (a) = 1 − α. Usando multiplicadores de Lagrange, se define:
L (a, b, λ) = b − a + λ(1 − α − F (b) + F (a)),
de donde:
∂L
= 1 − λf (a) = 0,
∂a
∂L
= 1 − λf (b) = 0
∂b
y
1 − α − F (b) + F (a) = 0.
De las primeras dos ecuaciones se obtiene que f (a) = f (b) > 0. Si x∗ ∈ /
[a, b] y f (a) = f (b), entonces b − a > b0 − a0 , pues f (x) es unimodal y
F (b) − F (a) = F (b0 ) − F (a0 ) .
Ası́, por ejemplo, si la cantidad pivotal tiene una distribución Ji-cuadrada,

los cuantiles de orden α/2 y 1 − α/2 de esta distribución contendrán a la mo-
da de la distribución para α pequeño. Por facilidad de cálculos suele usarse
α/2 y 1 − α/2, pero si se desea obtener el intervalo más corto se tendrı́an
que buscar a y b tales que f (a) = f (b).
Algunos ejemplos
Ejemplo 5.2 Suponga que se tiene una variable aleatoria con una distribu-
ción Exponencial con parámetro λ = θ1 . Obtenga un intervalo del 90 % de
confianza para θ.
Como X ∼ Exponencial(1/θ), sus funciones de densidad y de distribución
son, respectivamente,
1 −x/θ
f (x; θ) = e ,
θ
FX (x) = 1 − e−x/θ ,
X
con x > 0 y θ > 0. Sea Y = θ , entonces
FY (y) = P [Y ≤ y]

X
= P ≤y
θ
= P [X ≤ θy]
= FX (θy),
que implica que Y ∼ Exponencial(1). Por lo tanto Y = X θ puede ser una

cantidad pivotal ya que es una función de la muestra X y del parámetro θ,
y su distribución no depende de θ.
Ası́ que el intervalo del 90 % de confianza para θ puede determinarse a
partir de
X
P a< < b = 0.90,
θ
donde

X
P <a = P [X < aθ]
θ
= 1 − e−a = 0.05
lo que implica que
e−a = 0.95
a = − log(0.95) = 0.051,
y por otro lado,

X
P >b = P [X > bθ]
θ
= e−b = 0.05
lo que implica que

b = − log(0.05) = 2.996,
entonces

X
0.051 < < 2.996 ,
θ

X X
<θ< .
2.996 0.051
X X

Por lo tanto, 2.996 , 0.051 es el intervalo del 90 % de confianza para θ.
Ejemplo 5.3 Sea X una variable aleatoria con distribución Uniforme en el

intervalo (0, θ). Obtener un intervalo del 95 % de confianza para θ.
Se sabe que
1 (x)
fX (x) = I(0,θ) ,
Zθ x
1 x
FX (x) = dt = .
0 θ θ
X
Sea Y una variable aleatoria definida como Y = θ , entonces
FY (y) = P (Y ≤ y)

X
= P ≤y
θ
= P (X ≤ θy)
= FX (θy)
θy
=
θ
= y.
Por lo tanto, la variable aleatoria Y = X θ tiene una distribución Uniforme

X
en el intervalo (0, 1). Ası́, Q = θ es una cantidad pivotal ya que Q es una
función de la muestra X y del parámetro θ y la distribución de Q no depende
de θ porque Q ∼ U nif orme (0, 1).
Para obtener un intervalo del 95 % de confianza para θ puede usarse la
cantidad pivotal de la siguiente manera:
P [a < Q < b] = 0.95.
Como Q ∼ U nif orme (0, 1), se pueden tomar cualesquiera cantidades a y b

pertenecientes al intervalo (0, 1) tal que b − a = 0.95. Esto implica que se
podrı́a tomar a ∈ (0, 0.05) y b = 0.95 + a. Entonces, el intervalo del 95 %
confianza para θ estarı́a determinado por lo siguiente:

X
P a< <b = 0.95
θ

X X
P <θ< = 0.95.
b a
Por lo tanto, Xb , X

a es un intervalo
del 95 % de confianza para θ. O de
X X
manera equivalente, 0.95+a , a es un intervalo del 95 % de confianza para
θ.
La longitud del intervalo es

X X
L= − ,
a 0.95 + a
y la longitud esperada del intervalo es

1 1
E [L] = − E [X] .
a 0.95 + a
Si se buscara un intervalo de confianza con menor longitud esperada, se

buscarı́a minimizar E [L], lo que equivale a encontrar el valor de a tal que
E [L] alcance su mı́nimo, y este valor es cuando a = 0.05, lo que implica
que b = 1. Por lo tanto,
el intervalo del 95 % para θ con longitud esperada
1
mı́nima es X, 0.05 X .
Ejemplo 5.4 Suponga que X1 , X2 , . . . , Xn P

es una muestra aleatoria de una
n
población con distribución Exponencial(θ). i=1 PXi es una estadı́stica sufi-
2 ni=1 Xi
ciente y tiene distribución Gama(n, θ), además θ ∼ χ2(2n) . Entonces
Pn
2 iX
la variable Q = i=1
θ puede ser la cantidad pivotal para obtener un
intervalo del 100(1 − α) % de confianza para θ. Ası́ que
Pn
2 i=1 Xi
P qα/2 < < q1−α/2 = 1 − α,
θ
donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución
χ2(2n) . El intervalo para θ que se deduce de esta última expresión es
Pn Pn
2 i=1 Xi 2 i=1 Xi
, .
q1−α/2 qα/2
5.1.2. El método de la cantidad pivotal para funciones

de distribución continuas
Cuando se tiene una muestra aleatoria de una población cuya función de
distribución es continua en x, es posible construir una cantidad pivotal como
lo muestra el siguiente resultado.
Proposición 5.2 Sea X1 , ..., Xn una muestra aleatoria de la población con

función de densidad f (x; θ) , tal que la función
Pn de distribución correspon-
diente F (x; θ) es continua en x. Entonces − i=1 ln F (Xi ; θ) o alternativa-
n
Q
mente F (Xi ; θ), es una cantidad pivotal para estimar θ.
i=1
Demostración. F (Xi ; θ) tiene distribución Uniforme en el intervalo (0, 1) ,

pues si U = F (X; θ) , se tiene que
P (U ≤ u) = P [F (X; θ) ≤ u]
P X ≤ F −1 (u)

=
F F −1 (u)

=
= u,
para 0 < u < 1. Por lo tanto, − ln F (Xi ; θ) tiene distribución Exponencial

con parámetro 1, debido a lo siguiente:
P [− ln F (Xi ; θ) ≥ u] = P [ln F (Xi ; θ) ≤ −u]

P F (Xi ; θ) ≤ e−u

=
= e−u ,
para u > 0, es decir,
P [− ln F (Xi ; θ) ≤ u] = 1 − e−u ,
expresión que corresponde a la función de distribución de una variable alea-

toria Exponencial (1).
Ası́ que puede concluirse que
n
X
− ln F (Xi ; θ) , (5.3)
i=1
tiene distribución Gama con parámetros n y 1, al ser la suma de variables

aleatorias independientes con distribución Exponencial (1).
Ahora (5.3) puede usarse como una cantidad pivotal de la siguiente ma-
nera:
" n
# " n
#
X X
P q1 < − ln F (Xi ; θ) < q2 = P −q2 < ln F (Xi ; θ) < −q1
i=1 i=1
" n
#
Y
= P −q2 < ln F (Xi ; θ) < −q1
i=1
" n
#
Y
−q2 −q1
= P e < F (Xi ; θ) < e
i=1
" n
#
Y
= P a< F (Xi ; θ) < b ,
i=1
donde q1 y q2 son los cuantiles de la distribución Gama (n, 1) que corres-

ponderán al nivel de confianza deseado y con 0 < a < b < 1. La expresión
anterior es equivalente a
" n
#
X
P − ln b < − ln F (Xi ; θ) < − ln a .
i=1

Por ejemplo, si se tiene una muestra aleatoria de tamaño n de la población

con densidad
f (x; θ) = θxθ−1 , 0 < x < 1,
cuya función de distribución está dada por
Z x
F (x; θ) = θuθ−1 du
0
x
uθ
= θ = xθ ,
θ u=0
para 0 < x < 1. Si se seleccionan a y b tales que:
" n
#
Y
P a< F (Xi ; θ) < b = 1 − α
i=1
o " #
n
X
P q1 < − ln F (Xi ; θ) < q2 = 1 − α,
i=1
donde q1 = − ln b y q2 = − ln a son los cuantiles de una distribución Gama
(n, 1) seleccionados de tal manera que la probabilidad sea de 1 − α. Para
n n
Xiθ , por lo que
Q Q
este caso particular, F (Xi ; θ) =
i=1 i=1
" n
#
Y
1−α = P a< F (Xi ; θ) < b
i=1
" n
#
Y
= P a< Xiθ <b
i=1
" n
#
Y
= P ln a < ln Xiθ < ln b
i=1
" n
#
X
= P ln a < ln Xiθ < ln b
i=1
" n
#
X
= P ln a < θ ln Xi < ln b
i=1
" n
#
Y
= P ln a < θ ln Xi < ln b
i=1
 
 ln b ln a 
= P
 Qn <θ< Qn
,

ln Xi ln Xi
i=1 i=1
n
Q
donde la última desigualdad se sigue del hecho de que ln Xi es negativo.
i=1
Entonces puede concluirse que
 
 ln b ln a 

 n
Q , n
Q


ln xi ln xi
i=1 i=1
es un intervalo del 100(1 − α) % de confianza para θ.
5.1.3. Método basado en estadı́sticas suficientes

En algunas ocasiones es difı́cil obtener una cantidad pivotal exacta, ası́ que
se usan otras técnicas para obtener intervalos de confianza. El método pre-
sentado a continuación se basa en estadı́sticas suficientes o estimadores que
son funciones de ellas, como los obtenidos por máxima verosimilitud.
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función
de densidad f (x; θ), donde θ ∈ R es el valor verdadero, y Θ ⊆ R es el es-
pacio paramétrico. Sea T (X) una estadı́stica, que puede ser una estadı́stica
suficiente o el estimador máximo verosı́mil (EMV) del parámetro de interés.
En general, la elección de T (X) podrı́a depender de la facilidad de las ope-
raciones necesarias para obtener los intervalos de confianza. Una de esas
operaciones se refiere al cálculo de la función de distribución de T .
Sea fT (t; θ) la función de densidad de T . Se hará el procedimiento para
cuando T es una variable aleatoria continua, pero éste es análogo al caso
discreto.
Defina dos funciones h1 (θ) y h2 (θ) como

Z h1 (θ)
fT (t; θ)dt = p1 , (5.4)
−∞
Z ∞
fT (t; θ)dt = p2 ,
h2 (θ)
donde p1 y p2 son números fijos tales que p1 > 0, p2 > 0 y p1 +p2 < 1. Supon-
ga que h1 (θ) y h2 (θ) son funciones monótonas crecientes, y que h1 (θ) < h2 (θ)
(de manera análoga se podrı́an considerar funciones monótonas decrecien-
tes).
Sea t0 el valor observado de T , obtenido de la muestra observada
x = (x1 , x2 , . . . , xn ), es decir, T (x) = t0 . Para cualquier valor de t0 , pue-
den obtenerse v1 = v1 (t0 ) y v2 = v2 (t0 ) tales que (v1 , v2 ) será el intervalo
del (1 − p1 − p2 )100 % de confianza para θ.
Note que h1 (θ) < t0 < h2 (θ) si y sólo si v1 < θ < v2 para cualquier
muestra observada x. Por definición de h1 (θ) y h2 (θ) se tiene que
P [h1 (θ) < T (X) < h2 (θ)] = 1 − p1 − p2 ,
P [v1 (x) < θ < v2 (x)] = 1 − p1 − p2 ,
lo cual establece que (v1 , v2 ) es el intervalo del (1−p1 −p2 )100 % de confianza
para θ.
Para clarificar esta forma de obtener intervalos de confianza, a continua-
ción se muestran algunos ejemplos.

con distribución U nif orme(0, θ), cuya función de densidad es
1
f (x; θ) = I(0,θ) (x).
θ
Determinar un intervalo de confianza para θ usando estadı́sticas suficientes.
Se sabe que Yn = máx{X1 , . . . , Xn } es una estadı́stica suficiente y es el
estimador máximo verosı́mil de θ, además la función de densidad de Yn es:
n y n−1
fYn (y; θ) = I(0,θ) (y).
θ θ
Dados p1 y p2 , es necesario encontrar h1 (θ) y h2 (θ), las cuales son soluciones
de las ecuaciones (5.4). Entonces, se tienen que encontrar los valores h1 (θ)
y h2 (θ) tales que

Z h1 (θ)
p1 = nθ−n y n−1 dy,
0
Z θ
p2 = nθ−n y n−1 dy.
h2 (θ)
Se tiene que
Z h1 (θ)
n
θ p1 = ny n−1 dy,
0
Z θ
n
θ p2 = ny n−1 dy,
h2 (θ)
resolviendo las integrales,

n
θn p1 = [h1 (θ)] ,
n
θn p2 = θn − [h2 (θ)] ,
de donde,
1/n
h1 (θ) = θp1 ,
h2 (θ) = θ(1 − p2 )1/n .
Por definición de h1 (θ) y h2 (θ) se tiene que P [h1 (θ) < T (X) < h2 (θ)] =
1 − p1 − p2 , es decir,
h i
1/n
P θp1 < Yn < θ(1 − p2 )1/n = 1 − p1 − p2 ,
despejando θ, se obtiene P [v1 (x) < θ < v2 (x)] = 1 − p1 − p2 , es decir,

h i
−1/n
P Yn (1 − p2 )−1/n < θ < Yn p1 = 1 − p1 − p2 .

−1/n
Ası́ que Yn (1 − p2 )−1/n , Yn p1 es un intervalo del (1 − p1 − p2 )100 % de

−1/n
confianza para θ. La longitud del intervalo es L = Yn p1 − (1 − p2 )−1/n

−1/n
y su longitud esperada es E[L] = E [Yn ] p1 − (1 − p2 )−1/n . Para hacer
−1/n
la longitud más corta se necesita minimizar p1 − (1 − p2 )−1/n sujeto a
que 1 − p1 − p2 = 1 − α y 0 < p1 + p2 < 1, lo que se obtiene eligiendo p2 = 0
y p1 = α.

con distribución Bernoulli con parámetro θ ∈ (0, 1). Se desea encontrar un
intervalo de confianza para θ.
En este ejemplo se usará una estadı́stica suficiente
Pn para encontrar un
intervalo de confianza para θ. Se sabe que S(X) = i=1 Xi es una estadı́stica
suficiente para θ, y además S(X) ∼ Binomial(n, θ) donde S(X) toma los
valores enteros s = 0, . . . , n. Suponga que se observa una muestra X = x y
se obtiene el valor de la estadı́stica suficiente S(x) = s0 . Para obtener un
intervalo de confianza del (1 − p1 − p2 )100 % de confianza para θ se necesita
resolver (para θ) las siguientes ecuaciones:
s0
X n
p1 = θs (1 − θ)n−s ,
s=0
s
n
X n s
p2 = θ (1 − θ)n−s .
s=s
s
0
Esto dará las soluciones θ1 y θ2 , respectivamente, tal que el intervalo

(mı́n{θ1 , θ2 }, máx{θ1 , θ2 }) será un intervalo de confianza para θ al (1 − p1 −
p2 )100 %.
Para clarificar el ejemplo, suponga que se observa una muestra de tamaño
n = 20 en donde el valor que toma la estadı́stica suficiente es S = 4. Con-
sidere p1 = 0.0509 y p2 = 0.0159, y se necesita obtener un intervalo del
(1 − p1 − p2 )100 % = 93.32 % de confianza. Para obtener los lı́mites del in-
tervalo de confianza es necesario obtener los valores de θ para los cuales se
cumplen las ecuaciones anteriores, es decir,
4
X 20 s
0.0509 = θ (1 − θ)20−s ,
s=0
s
20
X 20 s
0.0159 = θ (1 − θ)20−s .
s=4
s
Note que en estas ecuaciones el único valor desconocido es θ. Las soluciones

de estas ecuaciones son, aproximadamente, θ1 = 0.40 y θ2 = 0.05, respec-
tivamente, por lo tanto (0.05, 0.40) es el intervalo del 93.32 % de confianza
para θ.
Los valores p1 y p2 se eligen tal que (1 − p1 − p2 )100 % sea el nivel de

confianza requerido, usando la notación igual a (1 − α)100 % como en las
demás secciones de este capı́tulo. En la práctica es usual elegir p1 y p2 de
manera simétrica, es decir, p1 = p2 , sin embargo, dado que muchas veces este
método se aplica en el caso de variables aleatorias discretas, en ocasiones será

difı́cil obtener valores exactos y se usarán cantidades aproximadas.
5.2. Intervalos para muestras de la distribu-

ción normal
Primero se recordarán algunos resultados técnicos para facilitar la construc-
ción de dichos intervalos. La demostración de estos resultados se omitirá en
virtud de que ya se han estudiado con detalle en este texto en el Capı́tulo 3.
(a) Si X ∼ N (0, 1), entonces X 2 ∼ χ2(1) .
(b) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que pa-

ra cualquier j ∈ {1, . . . , n} Xj ∼ χ2(mj ) , entonces X1 + X2 , · · · + Xn ∼
χ2(m1 +···+mn ) .
(c) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que pa-

ra cualquier j ∈ {1, . . . , n}, Xj ∼ N (µ, σ 2 ); entonces
n
X (Xj − µ)2
2
∼ χ2(n) .
j=1
σ
(d) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que pa-

ra cualquier j ∈ {1, . . . , n}, Xj ∼ N (µ, σ 2 ); entonces
n−1 2
S ∼ χ2(n−1) .
σ2
(e) Si X y Y son variables aleatorias independientes tales que X ∼ N (0, 1)
y Y ∼ χ2(k) , entonces
X
p ∼ t(k) .
Y /k
(f) Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con dis-
tribución N (µ, σ 2 ), entonces
X̄ − µ
√ ∼ t(n−1) .
S/ n
(g) Si U y V son variables aleatorias independientes tales que U ∼ χ2(n) y

V ∼ χ2(m) , entonces
U/n
∼ F(n,m) .
V /m
5.2. Intervalos para muestras de la distribución normal 201
Ahora, se encontrarán intervalos de confianza para algunas cantidades

relacionadas con poblaciones Gaussianas.
5.2.1. Intervalos para la media

Caso 1: σ 2 conocida.
Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribu-
ción N (µ, σ 2 ), con σ 2 conocida.
X̄−µ
Se sabe que X̄ ∼ N (µ, σ 2 /n), entonces σ/ √ ∼ N (0, 1).
n
X̄−µ
√ . De aquı́ que Q ∼ N (0, 1).
La cantidad pivotal es Q = σ/ n
Sean zα/2 , z1−α/2 ∈ R tales que P(Q ≤ zα/2 ) = α/2 y P(Q ≤ z1−α/2 ) =
1 − α/2.
Note que
P(zα/2 < Q < z1−α/2 ) = P(Q ≤ z1−α/2 ) − P(Q ≤ zα/2 )

= (1 − α/2) − α/2 = 1 − α.
También observe que por simetrı́a de la densidad normal estándar zα/2 =

−z1−α/2 .
Por ejemplo, si 1 − α = 0.95, entonces α = 0.05, 1 − α/2 = 0.975 y
z0.975 = 1.96.
Ası́,
P(−z1−α/2 < Q < z1−α/2 ) = 1 − α,
si y sólo si
X̄ − µ
P −z1−α/2 < √ < z1−α/2 = 1 − α,
σ/ n
si y sólo si

σ σ
P −z1−α/2 √ < X̄ − µ < z1−α/2 √ = 1 − α,
n n
si y sólo si

σ σ
P −z1−α/2 √ − X̄ < −µ < z1−α/2 √ − X̄ = 1 − α,
n n
si y sólo si

σ σ
P X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √ = 1 − α.
n n
Por lo tanto, un intervalo del 100(1 − α) % de confianza para µ cuando

σ 2 es conocida está dado por

σ σ
X̄ − z1−α/2 √ , X̄ + z1−α/2 √ .
n n
Caso 2: σ 2 desconocida.
Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribu-
ción N (µ, σ 2 ) donde µ y σ 2 son desconocidos.
X̄−µ (n−1)S 2
Se sabe que σ/ √ ∼ N (0, 1) y
n σ2 ∼ χ2(n−1) . Entonces,
X̄−µ
√
σ/ n
r ∼ t(n−1) .
(n−1)S 2
σ2
n−1
Pero,
X̄−µ X̄−µ √ √
√ √ n(X̄−µ)
σ/ n σ/ n σ n(X̄ − µ) X̄ − µ
r = q = S
= = √ ,
(n−1)S 2 S2 σ
S S/ n
σ2 σ2
n−1
√
donde S := S2.
X̄ − µ
∴ √ ∼ t(n−1) .
S/ n
X̄−µ
Es decir, la cantidad pivotal es Q = S/ √ .
n
1−α/2 1−α/2
Sea tn−1 ∈ R, tal que P Y ≤ tn−1 = 1 − α/2, donde Y ∼ t(n−1) .
Entonces,
1−α/2 1−α/2
P −tn−1 < Q < tn−1 = 1 − α,
si y sólo si
1−α/2 X̄ − µ
P −tn−1 < √ < t1−α/2
n−1 = 1 − α,
S/ n
si y sólo si

1−α/2 S 1−α/2 S
P −tn−1 √ < X̄ − µ < tn−1 √ = 1 − α,
n n
si y sólo si

1−α/2 S 1−α/2 S
P −X̄ − tn−1 √ < −µ < −X̄ + tn−1 √ = 1 − α,
n n
si y sólo si

1−α/2 S 1−α/2 S
P X̄ − tn−1 √ < µ < X̄ + tn−1 √ = 1 − α.
n n
∴ un intervalo del 100(1−α) % de confianza para µ cuando σ 2 es desconocida

está dado por
1−α/2 S 1−α/2 S
X̄ − tn−1 · √ , X̄ + tn−1 · √ .
n n
5.2.2. Intervalo para la varianza

Sea X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribu-
ción N (µ, σ 2 ) con µ y σ 2 desconocidos.
2
Se sabe que (n−1)S σ2 ∼ χ2 (n − 1).
2
Por tanto, la cantidad pivotal es Q = (n−1)S
σ2 .
α/2 1−α/2
Se necesitan determinar los cuantiles χn−1 , χn−1 ∈ R tales que
α/2 1−α/2
P(χn−1 < Q < χn−1 ) = 1 − α.
1−α/2 α/2
Es decir, P(Q ≤ χn−1 ) − P(Q ≤ χn−1 ) = (1 − α/2) − (α/2) = 1 − α.
Ahora,
α/2 1−α/2
P(χn−1 < Q < χn−1 ) = 1 − α,
si y sólo si
α/2 (n − 1)S 2 1−α/2
P(χn−1 < < χn−1 ) = 1 − α,
σ2
si y sólo si !
1 σ2 1
P > > 1−α/2 = 1 − α,
α/2
χn−1 (n − 1)S 2 χn−1
si y sólo si !
(n − 1)S 2 2 (n − 1)S 2
P 1−α/2
<σ < α/2
= 1 − α.
χn−1 χn−1
∴ Un intervalo del 100(1 − α) % de confianza para σ 2 está dado por
!
(n − 1)S 2 (n − 1)S 2
1−α/2
, α/2
.
χn−1 χn−1
Por ejemplo, si n = 12 y 1 − α = 0.99, entonces α = 0.01. Por lo tanto

α/2 = 0.005 y 1 − α/2 = 0.995. Ası́, χ0.995
11 = 26.8 y χ0.005
11 = 2.60.
5.2.3. Región de confianza para (µ, σ 2 )

Sea X1 , X2 , . . . , Xn una muestra aleatoria de la distribución N (µ, σ 2 ). En
este caso, al estimar los dos parámetros simultánemente, ya no se hablará de
un intervalo de confianza, ahora se busca construir una región de confianza
en R2 para (µ, σ 2 ). Se consideran las estadı́sticas
√
n(X̄ − µ) (n − 1)S 2
Q1 = y Q2 = ,
σ σ2
que son independientes y tienen una distribución normal estándar y χ2 ,
respectivamente. Se definen las constantes c > 0, a y b tales que 0 < a < b, y
√ √
P [−c ≤ Q1 ≤ c] = 1 − α y P [a ≤ Q2 ≤ b] = 1 − α.
Se sigue que
√
(n − 1)S 2

n(X̄ − µ)
Pµ,σ −c ≤ ≤ c, a ≤ ≤ b
σ σ2
√
(n − 1)S 2

n(X̄ − µ)
= Pµ,σ −c ≤ × Pµ,σ a ≤ ≤ b
σ σ2
= 1 − α,
de donde la región del (1 − α) × 100 % de confianza para (µ, σ 2 ) satisface
c2 σ 2 (n − 1)S 2 (n − 1)S 2

2 2
Pµ,σ (µ − X̄n ) ≤ , ≤σ ≤ = 1 − α.
n b a
5.2.4. Intervalo para la diferencia de medias de pobla-

ciones normales independientes
Sean X1 , . . . , Xn una muestra aleatoria de la distribución N (µx , σx2 ) y
Y1 , . . . , Ym una muestra aleatoria de la distribución N (µy , σy2 ) donde Yj y
Xi son independientes.
Caso 1: σx2 y σy2 conocidas.
Se sabe que X̄ ∼ N (µx , σx2 /n) y Ȳ ∼ N (µy , σy2 /m), entonces
!
σx2 σy2
X̄ − Ȳ ∼ N µx − µy , + .
n m
Por tanto,
X̄ − Ȳ − (µx − µy )
q ∼ N (0, 1).
2
σx σy2
n + m
Entonces, la cantidad pivotal está dada por
X̄ − Ȳ − (µx − µy )
Q= q .
2
σx σy2
n + m
De aquı́ que

P −z1−α/2 < Q < z1−α/2 = 1 − α,
si y sólo si
 
X̄ − Ȳ − (µx − µy )
P −z1−α/2 < q < z1−α/2  = 1 − α,
2
σx σy2
n + m
si y sólo si
r r !
σx2 σy2 σx2 σy2
P −z1−α/2 + < X̄ − Ȳ − (µx − µy ) < z1−α/2 + = 1−α,
n m n m
si y sólo si
" r
σx2 σy2
P −(X̄ − Ȳ ) − z1−α/2 + < −(µx − µy ) <
n m
r #
σx2 σy2
< −(X̄ − Ȳ ) + z1−α/2 + = 1 − α,
n m
si y sólo si
" r
σx2 σy2
P (X̄ − Ȳ ) − z1−α/2 + < µx − µy
n m
r #
σx2 σy2
< (X̄ − Ȳ ) + z1−α/2 + = 1 − α.
n m
∴ Un intervalo del 100(1 − α) % de confianza para µx − µy , cuando σx2 y σy2

son conocidas, está dado por
r r !
σx2 σy2 σx2 σy2
(X̄ − Ȳ ) − z1−α/2 + , (X̄ − Ȳ ) + z1−α/2 + .
n m n m
Caso 2: σx2 y σy2 desconocidas pero σx2 = σy2 = σ 2 .

2
(n−1)Sx (m−1)Sy2
Se sabe que σ2 ∼ χ2(n−1) y σ2 ∼ χ2(m−1) , entonces
(n − 1)Sx2 (m − 1)Sy2
2
+ ∼ χ2(n+m−2) .
σ σ2
1
∴ ((n − 1)Sx2 + (m − 1)Sy2 ) ∼ χ2(n+m−2) . (5.5)
σ2
Y también se sabe que
X̄ − Ȳ − (µx − µy )
q ∼ N (0, 1). (5.6)
σ 2 n1 + m
1

Como se hace el supuesto de que las muestras son independientes, se

tiene que (5.5) y (5.6) son independientes, por lo que
X̄−Ȳ −(µx −µy )
q
σ2 ( n
1
+m1
)
q 2 +(m−1)S 2
∼ t(m+n−2) .
(n−1)Sx y
σ 2 (n+m−2)
Pero,
X̄−Ȳ −(µx −µy )
q
σ2 ( n
1 1
+m ) X̄ − Ȳ − (µx − µy )
q 2 +(m−1)S 2
= q 2 2
(n−1)Sx y 1 1 (n−1)Sx +(m−1)Sy

σ 2 (n+m−2) n + m n+m−2
X̄ − Ȳ − (µx − µy )
= q ,
1 1

2
n + m Sp
2
(n−1)Sx +(m−1)Sy2
donde Sp2 = n+m−2 .
Entonces,
X̄ − Ȳ − (µx − µy )
q ∼ t(m+n−2) .
1 1

+ S 2
n m p
X̄−Ȳ −(µx −µy )

De aquı́ que Q = q sea una cantidad pivotal tal que Q ∼
( n1 + m1 )Sp2
t(m+n−2) .
1−α/2
Ahora, si tn+m−2 representa el cuantil 1 − α/2 de una distribución t de
student con n + m − 2 grados de libertad,

1−α/2 1−α/2
P −tn+m−2 < Q < tn+m−2 = 1 − α,
si y sólo si
 
1−α/2 X̄ − Ȳ − (µx − µy ) 1−α/2
P −tn+m−2 < q < tn+m−2  = 1 − α,
1 1

2
n + m Sp
si y sólo si
" s
1−α/2 1 1
P −(X̄ − Ȳ ) − tn+m−2 + Sp2 < −(µx − µy ) <
n m
s #
1−α/2 1 1
−(X̄ − Ȳ ) + tn+m−2 + Sp2 = 1 − α,
n m
si y sólo si
" s
1−α/2 1 1
P (X̄ − Ȳ ) − tn+m−2 + Sp2 < µx − µy <
n m
s #
1−α/2 1 1
(X̄ − Ȳ ) + tn+m−2 + Sp2 = 1 − α.
n m
∴ Un intervalo del 100(1 − α) % de confianza para µx − µy , cuando σx2 y σy2

son desconocidas pero σx2 = σy2 = σ 2 , está dado por
s s !
1−α/2 1 1 1−α/2 1 1
(X̄ − Ȳ ) − tn+m−2 + Sp2 , (X̄ − Ȳ ) + tn+m−2 + Sp2 .
n m n m
Observación 5.4 El tercer caso: σx2 y σy2 desconocidas y tales que

σx2 6= σy2 ,
es decir, la estimación de la diferencia de medias de dos poblaciones normales
con varianzas diferentes, se conoce como el problema de Behrens-Fisher,
el cual no es sencillo abordar, ver, por ejemplo, Kendall y Stuart (1979). Es
un problema que no está resuelto completamente, hay propuestas de solución
diversas y para tamaños de muestras razonablemente grandes, las diferencias
encontradas son en general mucho menores que las observadas con tamaños
de muestras pequeños.
Welch (1938) desarrolló una aproximación usando un número fraccional
para los grados de libertad de una distribución t, donde
X̄ − Ȳ
T =q 2 2
,
SX SY
n + m
tiene una distribución asintótica t-Student con f grados de libertad, donde

2 2
SX SY 2
( n + m )
f= SX4 Sy4
.
n2 (n−1) + 2
m (m−1)
Esta estadı́stica se recomienda cuando la diferencia de medias es notable

y cuando los tamaños de las muestras son grandes, estudios de simulación
sugieren mayores a 80, ver Paul, Wang y Ullah (2019).
Ejemplo 5.7 Una operación de ensamble en una planta manufacturadora

requiere aproximadamente de un mes de periodo de entrenamiento para que
un empleado nuevo alcance su eficiencia máxima. Se sugirió un nuevo método
de entrenamiento y se hizo una prueba para comparar el método nuevo con
el procedimiento estándar. Se entrenaron dos grupos de nueve empleados
nuevos por un periodo de tres semanas, un grupo usando el nuevo método
(Y ) y el otro siguiendo el procedimiento de entrenamiento estándar (X). Se
registró la duración de tiempo (en minutos) requerido por cada empleado
para ensamblar el aparato al final del periodo de tres semanas.
Suponiendo que los tiempos de ensamblado se distribuyen aproximada-
mente normal y que las varianzas de los tiempos de ensamblado son aproxi-
madamente iguales para los dos métodos, obtener un intervalo del 95 % de
confianza para µx − µy .
Procedimiento Medidas
Estándar X 32 37 35 28 41 44 35 31 34
Nuevo Y 35 31 29 25 34 40 27 32 31
A partir de los datos se obtienen los siguientes valores:
x = 35.22, y = 31.56,
9
X X9
(xi − x)2 = 195.56, (yi − y)2 = 160.22,
i=1 i=1
9
" 9
#
1 X X
Sp2 = 2
(xi − x) + 2
(yi − y) = 22.24.
n + m − 2 i=1 i=1
El cuantil 0.975 de una distribución t con n + m − 2 = 16 grados de libertad

es t0.975
(16) = 2.120. El intervalo del 100(1 − α) % de confianza para µx − µy es
s s !
1−α/2 1 1 1−α/2 1 1
(X̄ − Ȳ ) − tn+m−2 + Sp2 , (X̄ − Ȳ ) + tn+m−2 + Sp2 .
n m n m
Por lo tanto, el intervalo del 95 % de confianza para µx − µy es

r
18
(35.22 − 31.56) − (2.120) (22.24), (35.22 − 31.56)
81
r !
18
+(2.120) (22.24) ,
81
que aproximadamente es (−1.05, 8.37).

Observe que el intevalo para µx − µy contiene al 0 con un nivel de con-
fianza del 95 %.
5.2.5. Intervalo para el cociente de varianzas de pobla-

ciones normales independientes
Sean X1 , . . . , Xn una muestra aleatoria de la distribución N (µx , σx2 ) y
Y1 , . . . , Ym una muestra aleatoria de la distribución N (µy , σy2 ) donde Yj y
Xi son independientes.
2
(n−1)Sx (m−1)Sy2
Se sabe que 2
σx ∼ χ2(n−1) y σy2 ∼ χ2(m−1) , entonces
2
(n−1)Sx
σx2 (n−1)
(m−1)Sy2
∼ F(n−1,m−1) .
σy2 (m−1)
Pero 2
Sx
σx2 Sx2 σy2
Sy2
= .
Sy2 σx2
σy2
2 σ2
Sx y
De aquı́ que Q = Sy2 σx
2 sea una cantidad pivotal tal que Q ∼ F(n−1,m−1) .
α/2 1−α/2
Es necesario determinar los cuantiles fn−1,m−1 fn−1,m−1 , tales que:

α/2 1−α/2
P fn−1,m−1 < Q < fn−1,m−1 = 1 − α,
si y sólo si !
α/2 S 2 σy2 1−α/2
P fn−1,m−1 < x2 2 < fn−1,m−1 = 1 − α,
Sy σx
si y sólo si
!
α/2 Sy2 σy2 1−α/2 Sy2
P fn−1,m−1 2 < 2 < fn−1,m−1 2 = 1 − α,
Sx σx Sx
o !
1 Sx2 σ2 1 Sx2
P 1−α/2 2
< x2 < α/2 2
= 1 − α.
fn−1,m−1 Sy σy fn−1,m−1 Sy
2
σx
∴ Un intervalo del 100(1 − α) % de confianza para σy2 está dado por
!
1 Sx2 1 Sx2
2
, α/2 . (5.7)
1−α/2
fn−1,m−1 Sy f Sy2
n−1,m−1
Observación 5.5 Los valores de la distribución F(n,m) están tabulados para

valores altos de 1 − α (o equivalentemente valores bajos de α). Debido a que
h i α
α/2
P Q < fn,m = ,
2
con Q ∼ F(n,m) , y
" #
1 1 1−α/2
P Q< 1−α/2
= P > fm,n
fm,n Q

1 1−α/2
= 1−P < fm,n (5.8)
Q
α α
= 1− 1− = ,
2 2
se tiene que
α/2 1
fn,m = 1−α/2
.
fm,n
(Note que en (5.8) se ha utilizado el hecho de que si Q ∼ F(n,m) , entonces
1
Q ∼ F(m,n) ).
Por lo anterior, el intervalo (5.7) puede reescribirse de la siguiente ma-

nera: !
1 Sx2 1−α/2 Sx2
, fm−1,n−1 2 .
f
1−α/2 Sy2 Sy
n−1,m−1
En general, para obtener intervalos para los parámetros de un población

Normal, se pueden usar las expresiones que acaban de deducirse, sustitu-
yendo los correspondientes valores de los datos. A manera de ilustración,
suponga que el diámetro de una cisterna en la mayorı́a de los casos es cer-
cano a 3 metros. Se tiene un conjunto de mediciones de 12 cisternas salidas
de la fábrica y se desea obtener un intervalo de confianza para la varianza
5.3. Intervalos de confianza para muestras grandes 211
σ 2 , suponiendo que el diámetro es una variable aleatoria normalmente dis-

tribuida. Los datos correspondientes a los diámetros de las 12 cisternas a las
que se hace referencia son:
3.01, 3.05, 2.99, 2.99, 3.0, 3.02, 2.98, 2.99, 2.97, 2.97, 2.02, 3.01.
Se dedujo que:
!
(n − 1)S 2 (n − 1)S 2
1−α/2
, α/2
χn−1 χn−1
es un intervalo del 100(1 − α) % de confianza para σ 2 . En este caso n = 12,

1 − α = 0.99, α = 0.01 y
Pn 2
(xi − x)
S2 = n=1
= 0.0005455.
n−1
Además,
χ0.995
11 = 26.8, χ0.005
11 = 2.60,
de esta manera el intervalo final queda como
(0.0002246, 0.00230791) .
5.3. Intervalos de confianza para muestras

grandes
En esta sección se usará la propiedad asintótica de los estimadores máximo
verosı́miles, la cual establece que si θbM V es el estimador máximo verosı́mil
de θ, en f (x; θ) que cumple las condiciones de regularidad, entonces cuando
n → ∞,

1
θM V ∼ N θ,
b
IX (θ)
y, de manera más general,

(θ)M V = τ θbM V ∼ N (τ (θ) , CICR) ,
τd
donde CICR representa la Cota Inferior de Cramer y Rao para estimado-

res insesgados de τ (θ) . A partir de estos resultados, puede construirse una
cantidad pivotal para el parámetro de interés.
Ejemplo 5.8 Sea X1 , ..., Xn una muestra aleatoria de la distribución Ex-

ponencial (θ) . Encontrar un intervalo del 100(1 − α) % de confianza para
θ.
1
El estimador máximo verosı́mil de θ está dado por θbM V = X , mien-
n
tras que la información esperada de Fisher es IX (θ) = θ2 . Entonces por la
propiedad asintótica de los estimadores máximo verosı́miles, se tiene que
θ2

1
∼ N θ,
X n
por lo que
1
X
−θ
q ∼ N (0, 1) ,
θ2
n
que puede reescribirse como

√ 1
n X −θ
Q= ∼ N (0, 1) .
θ
Ası́,
 √ 1 
n X −θ
P −z1− α2 ≤ ≤ z1− α2  = 1 − α,
θ
si y sólo si " #
1
−z1− α2 X
−θ z1− α
P √ ≤ ≤ √ 2 = 1 − α,
n θ n
si y sólo si
−z1−α/2

1 z1−α/2
P √ +1≤ ≤ √ +1 = 1 − α,
n θX n
o
−z1−α/2

1 z1−α/2
P √ +1 X ≤ ≤ √ + 1 X = 1 − α,
n θ n
de donde:
√ √ !
n n
√ , √ ,
x n + z1−α/2 x n − z1−α/2
es un intervalo del (1 − α) % de confianza para θ.

Ejemplo 5.9 Sea X la media muestral de una muestra aleatoria de tamaño

n = 25 de una distribución Gama(α, λ) con α = 4 y λ = β1 > 0. Use el
teorema del lı́mite central para obtener un intervalo de confianza para la
media de la distribución Gama con un coeficiente de confianza de 0.954.
Por el teorema del lı́mite central se sabe que

X −E X
q ∼ N (0, 1),
Var X
donde
1
E X = nE [X] = αβ = 4β,
n
1 1 1
nVar (X) = αβ 2 = 4β 2 ,

Var X =
n2 n n
entonces se desea encontrar un intervalo del 95.4 % de confianza para 4β.
Por el teorema del lı́mite central se sabe que
X − 4β
q ∼ N (0, 1),
1 2
n 4β
que implica que

√
X − 4β nX √
q = − 2 n ∼ N (0, 1),
1
2β 2β
n
y además los cuantiles (1 − 0.954)/2 y 1 − (1 − 0.954)/2 de una distribución

Normal(0, 1) son −1.995393 y 1.995393, los cuales se aproximarán a −2 y 2,
entonces,
√
√

nX
0.954 = P −2 < −2 n<2
2β
√
√ √

nX
= P −2 + 2 n < <2+2 n
2β
√ √
nX nX
= P √ < 2β < √
2+2 n −2 + 2 n
√ √
2 nX 2 nX
= P √ < 4β < √
2+2 n −2 + 2 n

2(5)X 2(5)X
= P < 4β <
2 + 2(5) −2 + 2(5)

5X 5X
= P < 4β < .
6 4

5X 5X
Por lo tanto, un intervalo del 95.4 % de confianza para 4β es 6 , 4 .
5.3.1. Intervalo de confianza para el parámetro p de una

distribución binomial
Sea X1 , . . . , Xm una muestra aleatoria de la distribución Binomial (n, p) , es
decir, Xi ∼ Bin(n, p), ∀i = 1, . . . , m. Se procederá a encontrar el estimador
máximo verosı́mil de p y la expresión para la cota de Crámer y Rao para
estimadores insesgados de p, en este caso:

n x n−x
f (x; n, p) = p (1 − p) , con x = 0, . . . , n.
x
La función de verosimilitud para p está dada por:

m m
Y Y n xi n−xi
L (p) = f (xi ; n, p) = p (1 − p)
i=1 i=1
x i
m
x1 +···+xm nm−(x1 +···+xm )
Y n (xi )
= p (1 − p) I{0,...,n} ,
i=1
x i
| {z }
α
por lo que
l (p) = ln L (p) = (x1 +· · ·+xm )ln(p)+(mn−(x1 +· · ·+xm ))ln(1−p)+ln(α)
y
∂l x1 + · · · + xm nm − (x1 + · · · + xm )
= − = 0.
∂p p̂
p̂ 1 − p̂
De donde,
m
P
Xi
i=1 X
pb = = .
nm n
Por otra parte, la información esperada de Fisher está dada por:
2
∂
IX = −mE ln(f (x; n, p)) ,
∂p2
ası́:
n
ln(f (x; n, p)) = x ln(p) + (n − x) ln(1 − p) + ln( ),
x
tomando la derivada con respecto a p:
∂ x n−x
ln(f (x; n, p)) = − ,
∂p p 1−p
y la segunda derivada es
∂2 −x n−x
ln(fX (x)) = 2 − 2.
∂p2 p (1 − p)
Tomando esperanza:
! !
−x n−x np n np
E − 2 =− 2 − 2 − 2 ,
p2 (1 − p) p (1 − p) (1 − p)
lo cual implica que
!!
np n(1 − p)
IX = −m − 2 − 2
p (1 − p)
mn mn mn
= + = .
p 1−p p(1 − p)
De esta manera, se obtiene que la Cota Inferior de Crámer y Rao para
estimadores insesgados de p está dada por:
p(1 − p)
CICR = .
mn
Sea Q una cantidad pivotal definida por
X √
p̂ − p −p mn(X − np)
Q= √ = qn = p .
CICR p(1−p) p(1 − p)n
mn
A partir de esta expresión se puede proceder como en el caso de la distri-

bución exponencial expuesto antes, es decir, suponiendo que esta cantidad
pivotal tiene una distribución Normal estándar y utilizando el método pivo-
tal para despejar p. Si se toma el caso particular en el que m = 1, la cantidad
pivotal anterior se reduce a:
X
−p
Q = qn , (5.9)
p(1−p)
n
donde X tiene distribución Binomial (n, p) , lo cual también se puede ver

como el resultado de considerar una muestra aleatoria de tamaño n de una
distribución Bernoulli(p) , donde X representarı́a la suma de las variables de
dicha muestra. Aún en este caso es complicado obtener el intervalo para p a
partir de esta expresión, pues el parámetro aparece tanto en el numerador
como en el denominador. Un resultado de la teorı́a asintótica establece que
la cantidad
X
−p
qn , (5.10)
p
b(1−bp)
n
X
también tiene distribución N (0, 1) . Note que para este caso, pb = n, por lo
que usando (5.10) como cantidad pivotal, se obtiene que
 
X
− p
P −z1− α2 < q nX X
< z1− α2  = 1 − α,
n (1− n )
n
 s s 
X X X X
X n (1 − n) X n (1 − n )
P  − z1− α2 <p< + z1− α2 = 1 − α,
n n n n
por lo que
r r !
x
x n (1 − nx ) x x
n (1 − nx )
− z1− α2 , + z1− α2 .
n n n n
es un intervalo del 100 (1 − α) % de confianza para p.
5.4. Enfoque Bayesiano en la estimación por

intervalos
En el enfoque Bayesiano la estimación por intervalos para el (los) paráme-
tro(s) desconocidos, θ, de un modelo se basa en la distribución posterior de
los mismos, π(θ|x).
Un intervalo del 100(1−α) % de credibilidad es cualquier intervalo (L, U )
que satisface que
Z U
π(θ|x)dθ = 1 − α.
L
5.4. Enfoque Bayesiano en la estimación por intervalos 217
Estos intervalos de probabilidad no son únicos. Se puede adoptar por

ejemplo un intervalo de colas iguales donde
Z L Z ∞
π(θ|x)dθ = π(θ|x)dθ = α/2,
−∞ U
o uno unilateral donde L = −∞ o U = ∞. En los casos donde la distribución

posterior del parámetro de interés es unimodal, también es posible adoptar
un intervalo de alta densidad posterior, (HPD) por sus siglas en inglés,
donde π(L|x) = π(U |x). En este caso, este intervalo es el de menor longitud.
Ejemplo 5.10 Sea X una variable aleatoria con distribución Binomial(n, θ),
con n fijo, y considere que la distribución apriori o inicial de θ es Beta(a, b),
entonces la distribución a posteriori o final es
π(θ|x) ∝ f (x|θ)π(θ)
∝ θx (1 − θ)n−x θa−1 (1 − θ)b−1
= θx+a−1 (1 − θ)n−x+b−1 .
De esta expresión se concluye que las constantes de normalización correspon-

den a aquellas de una distribución Beta(a+x, b+n−x), que es la distribución
posterior para θ bajo esta distribución inicial conjugada.
Si ahora se considera el escenario con n = 10 y x = 4 éxitos observados en
el experimento de interés, es decir, X ∼ Binomial(10, θ) y se observa x = 4,
para una distribución inicial θ ∼ Beta(2, 2); se tiene que la distribución
posterior π(θ|x) corresponde a una Beta(6, 8). Los intervalos del 99 % de
credibilidad se muestran en la figura 5.2.
3.0
2.5
2.0
Colas Iguales
HPD
1.5
Cola Inferior
Cola Superior
1.0
0.5
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Figura 5.2: Intervalos del 99 % de credibilidad para el ejemplo 5.10.

5.5. Ejercicios
1. (Construcción del concepto de intervalo de confianza mediante simu-
lación en R). Revise cuidadosamente las siguientes gráficas obtenidas
en la figura 5.3, por simulación en R.
Ahı́ se presentan 100 intervalos de confianza variando el tamaño de
muestra según tres posibilidades (10, 30 y 50) y la desviación estándar
según 3 opciones (5, 10 y 15). Ası́, finalmente se tienen 9 combinaciones
según varı́a el tamaño de muestra y la desviación estándar, siendo los
escenarios posibles: n = 10 y σ = 5 hasta n = 50 y σ = 15. Cuando
un intervalo de confianza no contiene el verdadero promedio se ilustra
con una lı́nea negra (el punto medio de cada intervalo es de color gris
oscuro). Conteste lo siguiente:
(a) Determine mediante observación: ¿cuántos intervalos aproxima-
damente no contienen el verdadero valor de la media en cada una
de las simulaciones?, ¿coincide con lo que se espera si la confianza
es del 95 %?
(b) ¿Se espera que la cantidad de intervalos de confianza que no con-
tiene al verdadero valor poblacional sea el mismo para cada uno
de los nueve casos?
(c) Si observa únicamente la primera fila de las simulaciones, expli-
que: ¿cuál es el impacto de la desviación estándar sobre los inter-
valos mostrados en la grafica?, ¿se aplica también para la segunda
fila y tercera fila de simulaciones?
(d) Si observa únicamente la primera columna de las simulaciones,
explique: ¿cuál es el impacto del tamaño de muestra sobre los
intervalos hallados?, ¿se aplica también para la segunda y tercera
columnas de simulaciones?
2. Genere una muestra aleatoria X1 , . . . , Xn , de tamaño n = 30, de una

población con distribución N (µx , σ 2 ) con µx = 5 y σ 2 = 4. Genere otra
muestra aleatoria Y1 , . . . , Ym , de tamaño m = 50, de una población con
distribución N (µy , σ 2 ) con µy = 2 y σ 2 = 4. Obtenga los intervalos de
confianza para µx −µy bajo las condiciones y supuestos de los siguientes
incisos, y grafı́quelos.
(a) Intervalo del 80 % de confianza para µx − µy , suponiendo que σ 2
es conocida.
(b) Intervalo del 80 % de confianza para µx − µy , suponiendo que σ 2
es desconocida común.
5.5. Ejercicios 219
n= 10 Sigma= 5 n= 10 Sigma= 10 n= 10 Sigma= 15

80
80
80
40
40
40
0
0
80 90 100 110 120 80 90 100 110 120 80 90 100 110 120

80
80
80
40
40
40
0
0
80 90 100 110 120 80 90 100 110 120 80 90 100 110 120

80
80
80
40
40
40
0
80 90 100 110 120 80 90 100 110 120 0 80 90 100 110 120
Figura 5.3: Intervalos obtenidos por simulación para diferentes valores de σ

y distintos tamaños de muestra.
(c) Intervalo del 95 % de confianza para µx − µy , suponiendo que σ 2

es conocida.
(d) Intervalo del 95 % de confianza para µx − µy , suponiendo que σ 2
es desconocida común.
Repita el proceso generando cada una de estas muestras 100 veces.
¿Cómo son los intervalos? Identifique los intervalos con mayor longitud
y con menor longitud. Compare y explique los resultados.
3. Suponga que X es una variable aleatoria de la población con función
de densidad dada por
2(θ − x)
fX (x; θ) = I(0,θ) (x),
θ2
donde θ > 0 es un parámetro desconocido. Sea α ∈ (0, 1). Construya
un intervalo del 100(1 − α) % de confianza para θ, utilizando como
cantidad pivotal Q = Xθ .
4. Sea X una variable aleatoria de la población con función de densidad

fX (x; θ) = θxθ−1 I(0,1) (x), donde θ > 0 es un parámetro desconocido.
(a) Encuentre una cantidad pivotal y utilı́cela para encontrar un in-

tervalo de confianza para θ.
(b) Demuestre que Y2 , Y es un intervalo de confianza para θ, donde

1
Y = − ln(X) . Encuentre su nivel de confianza.
5. Sea X una variable aleatoria de una población con función de densidad

fX (x; θ) = θe−θx , donde x > 0 y θ > 0.
(a) Sea (X, 2X) un intervalo de confianza para 1/θ. ¿Cuál es su nivel
de confianza?
(b) Encuentre otro intervalo de confianza para 1/θ que tenga el mismo
nivel de confianza que el intervalo de (a), pero con menor longitud
esperada.
6. Considere una sola observación X de las siguientes distribuciones. Dado

α ∈ (0, 1), encuentre un intervalo del 100(1 − α) % de confianza para
θ.
(a) Laplace-localización
1 −|x−θ|
fX (x; θ) = e IR (x) , θ ∈ R.
2
(b) Cauchy
1 1
fX (x; θ) = IR (x) , θ ∈ R.
π 1 + (x − θ)2
(c) Laplace-escala
1 −|x|/θ
fX (x; θ) = e IR (x) , θ ∈ R+ .
2θ
7. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño 4 de una pobla-

ción con distribución U (0, θ). Sea Y(4) la máxima estadı́stica de orden.
Sean 0 < κ1 < κ2 ≤ 1 constantes tales que
P(κ1 θ < Y(4) < κ2 θ) = 0.95.

√
Verifique que κ1 = 4 0.05 y κ2 = 1 satisfacen estas condiciones. ¿Cuál
es entonces un intervalo del 95 % de confianza para θ?
5.5. Ejercicios 221

U (0, θ). Sea Y = máxi=1,...,n {Xi }. Pruebe que Y /θ es una cantidad
pivotal, y muestre que el intervalo (Y, Y α−1/n ) es el intervalo del (1 −
α)100 % de confianza para θ con menor longitud.
densidad
1
f (x; θ, σ) = e−(x−θ)/σ I(θ,∞) (x),
σ
donde θ ∈ R y σ ∈ R+ . Sea α ∈ (0, 1).
Pn del 100(1 − α) % de con-

(a) Si θ es conocido, encuentre un intervalo
fianza para σ. [Sugerencia: considere i=1 (Xi −θ), o una pequeña
modificación del mismo.]
Pn del 100(1 − α) % de
(b) Si θ es desconocido, encuentre un intervalo
confianza para σ. [Sugerencia: considere i=1 (Xi − X(n) ), o una
pequeña modificación del mismo.]
ción Exponencial(θ), cuya función de densidad es
fXi (x) = θe−θx I(0,∞) (x).
(a) Encuentre un intervalo del 100(1−α) % de confianza para la media
de la población.
(b) Encuentre un intervalo del 100(1 − α) % de confianza para la va-
rianza de la población.
(c) Encuentre una cantidad pivotal basada únicamente en Y1 , donde
Y1 = mı́n{X1 , . . . , Xn },
y úsela para encontrar un estimador de intervalo para θ.
11. Sea Y1 , . . . , Yn una muestra aleatoria de tamaño n de una población con
distribución Uniforme en el intervalo (0, 1/θ). Encuentre un intervalo
del 95 % de confianza para θ.
Gama(α, β). Si α es una constante conocida, obtenga un intervalo de
confianza para la media µ = αβ.
ción U (θ − 21 , θ + 12 ), cuya función de densidad es fX (x; θ) = 1 para
θ− 21 < x < θ+ 12 . Sean Y1 ≤ · · · ≤ Yn sus correspondientes estadı́sticas
de orden.
(a) Muestre que [Y1 , Yn ] es un intervalo de confianza para θ.

(b) Calcule su longitud esperada, es decir, E[Yn − Y1 ].
(c) Encuentre su nivel de confianza.
14. Sean X1 , X2 , . . . , Xn variables aleatorias independientes de una pobla-
ción con función de densidad
fXi (xi ; θ) = eiθ−xi ,
donde xi > iθ.
(a) Obtenga una estadı́stica S que sea suficiente para θ.
(b) Obtenga una cantidad pivotal Q que sea función de S.
(c) Encuentre un intervalo del (1 − α)100 % de confianza para θ de
la forma [S + a, S + b] tal que tenga menor longitud.
densidad
kxk−1
fX (x; θ) = I(0,θ) (x)
θk
donde θ > 0 y k es un entero positivo. Encuentre un intervalo del
(1 − α)100 % de confianza para θ.
16. ¿Qué tan grande debe ser una muestra si se desea construir un intervalo
de confianza del 99 % para la desviación estándar de una población
normal si se desea que la desviación estándar muestral no difiera en
más del 2 % de la desviación poblacional?
ción N (µ, σ 2 ).
(a) Si σ 2 es conocida. Encuentre el valor mı́nimo de n que garantice
que el intervalo del 95 % de confianza para µ tendrá longitud no
mayor que σ/4.
(b) Si σ 2 es desconocida. Encuentre el valor mı́nimo de n que garan-
tice que, con probabilidad 0.90, el intervalo del 95 % de confianza
para µ tendrá longitud no mayor que σ/4.
N (µ, σ 2 ). Sean 0 < a < b. Demuestre que la esperanza de la longitud
del intervalo Pn Pn
2 2

i=1 (Xi − µ) i=1 (Xi − µ)
,
b a
2
es (b − a) nσ
ab .
5.5. Ejercicios 223
19. Sean X̄ y Ȳ las medias de dos muestras aleatorias independientes entre

sı́, cada una de tamaño n, de las distribuciones N (µx , σ 2 ) y N (µy , σ 2 ),
respectivamente, donde la varianza común es conocida. Encuentre n
tal que
σ σ
P X̄ − Ȳ − < µx − µy < X̄ − Ȳ + = 0.9.
5 5
20. Considere X una variable aleatoria tal que X ∼ N (0, σ 2 ), donde σ >
0 es un parámetro desconocido. Considere el siguiente intervalo de
confianza (|X|, 10|X|) para σ.
(a) Calcule P(|X| ≤ σ ≤ 10|X|).

(b) ¿Cuál es la longitud esperada de dicho intervalo?
21. Se desea hacer una comparación entre dos tratamientos para el SI-
DA. Se mide el tiempo de supervivencvia (en años) de cada uno de
estos tratamientos en siete pacientes seleccionados aleatoriamente. La
información se detalla en la siguiente tabla.
Paciente 1 2 3 4 5 6 7
Tratamiento 1 3.1 3.3 1.7 1.2 0.7 2.3 2.9
Tratamiento 2 1.8 2.3 2.2 3.5 1.7 1.6 1.4
Construya un intervalo del 80 % de confianza para la diferencia de
medias. ¿Se necesita hacer alguna suposición adicional?
22. Se realizó un estudio para determinar si la variabilidad en la presión

arterial de hombres y mujeres es la misma o no. Se seleccionó aleato-
riamente a 13 mujeres y a 16 hombres, se les midió la presión arterial
(en milı́metros de mercurio) y los resultados fueron los siguientes:
Hombres 120 120 118 112 120 114 130 114
124 125 130 100 120 108 112 122
Mujeres 122 102 118 126 108 130 104 116
102 122 120 118 130
¿Se puede concluir con un 95 % de confianza que la variabilidad de la
presión arterial de hombres y mujeres es la misma? ¿Se necesitan hacer
suposiciones adicionales?
23. Sean X̄ y Ȳ las medias muestrales, y Sx2 y Sy2 los estimadores insesgados
de la varianza, obtenidos de dos muestras independientes cada una de
tamaño 7 de dos poblaciones normales con varianza común σ 2 y media
desconocida. Encuentre k ∈ R, tal que

( ) !
Sx2 Sy2
P máx , > κ = 0.05.
Sy2 Sx2
24. Se miden los tiempos de compra de 61 compradores seleccionados alea-

toriamente. Si estos tiempos tienen una distribución normal, encuentre
un intervalo del 95 % de confianza para µ si x̄ = 33 y s2 = 256.
25. Se cuenta con dos grupos similares de pacientes, A y B, que consisten
de 50 y 100 individuos, respectivamente. Al grupo A se le administró
una nueva pastilla para dormir y a la segunda una pastilla para dormir
ya existente. En el grupo A, el número promedio de horas de sueño
fue de 7.82 con una desviación estándar de 15 minutos. En el grupo
B, el número promedio de horas de sueño fue de 6.75 con una desvia-
ción estándar de 18 minutos. Construya intervalos del 95 % y 99 % de
confianza para la diferencia de las horas promedio dormidas.
26. Los siguientes datos representan el tiempo de vida útil de un artı́culo,
medido en dı́as: 29.1, 207.6, 81.8, 0.8, 76.1, 108.9, 48.4, 108.1, 52.2,
272.8, 150.5, 80.3, 97.4, 11.5, 46.2, 144.1, 62.5, 262.9, 247.6, 4.1. Este
tiempo se supone distribuı́do como una Exponencial con media θ, es
decir, Exponencial(1/θ).
(a) Encuentre un intervalo de confianza exacto al 95 % para la media
de esta distribución Exponencial.
(b) Encuentre un intervalo de confianza aproximado al 95 % para esta
media utilizando teorı́a asintótica.
(c) Encuentre un intervalo de confianza aproximado al 95 % para es-
ta media utilizando los resultados de distribución asintótica del
estimador máximo verosı́mil.
(d) Comente los resultados obtenidos y las diferencias (si las hubo)
entre los tres procedimientos.
27. Se lanza una moneda 500 veces, y se obtienen 275 águilas y 225 soles.
Obtenga un intervalo de confianza para la probabilidad de obtener
águila. Obtenga también un intervalo del 99 % de confianza. ¿Está
bien construida la moneda?
28. Una urna contiene una proporción desconocida de canicas rojas y blan-
cas. De una muestra aleatoria con reemplazo de 60 canicas se obtuvo
un 70 % de canicas rojas. Encuentre intervalos del 95 % y 99.73 % de
confianza para la proporción de canicas rojas en la urna.
5.5. Ejercicios 225
29. Para estimar la proporción de desempleados en Panamá, un economis-

ta selecciona aleatoriamente a 400 individuos de la población (clase
trabajadora o económicamente activa en algún momento). De los en-
trevistados 25 no tienen empleo. Encuentre un intervalo del 95 % de
confianza para la proporción de desempleados.
30. De una lista electoral de opinión pública se invita a 100 personas de

entre 10,000 adultos a expresar su preferencia por los candidatos A y
B. Treinta personas prefirieron a A. De esto se concluyó que entre 2100
y 3900 de la población prefieren a A. ¿Qué nivel de confianza se usó
en este informe? Note que n = 100 y Y = 30 es el número de éxitos
(las personas que prefirieron a A) y que el intervalo está dado para la
media np.

ción P oisson(λ). Suponga que el tamaño de la muestra es lo suficiente-
mente grande y por lo tanto se cumplen las propiedades del estimador
máximo verosı́mil de λ. Construya un intervalo del (1 − α)100 % de
confianza para λ.
32. Encuentra una cantidad pivotal basada en una muestra aleatoria de

una distribución N (θ, θ) con θ > 0. Usa la cantidad pivotal para en-
contrar un intervalo del (1 − α) % de confianza para θ.
33. Considere una muestra aleatoria X1 , X2 . . . , Xn de un modelo

N ormal(µ, τ ) donde τ = 1/σ 2 . Suponiendo que las distribuciones ini-
ciales corresponden al modelo conjugado, obtenga un intervalo de cre-
dibilidad de 95 %, de colas iguales para cada parámetro. Obtenga para
µ el intervalo HDP del 90 %.
34. Sea X1 y X2 una muestra aleatoria de tamaño n = 2, de una población

con distribución Exponencial(θ), cuya media es igual a 1/θ. Considere
que la distribución a priori para θ es una distribución Gama(2, 4).
Suponga que dada la muestra x̄ = 0.125. Encuentre la probabilidad
posterior del intervalo de credibilidad [3.49, 15.5].
35. Sea X1 , . . . , Xn una muestra aleatoria de tamaño n de una población

con distribución normal con media µ y varianza σ 2 , N (µ, σ 2 ). Obtenga
a y b tal que
(n − 1)s2

P a≤ ≤b = 1 − α.
σ2
Ası́, el intervalo del 100(1 − α) % de confianza para σ es

r r !
n−1 n−1
s, s .
b a
Encuentre valores de a y b tal que minimicen la longitud del intervalo

de confianza. Esto es, minimice
√

1 1
k = s n−1 √ − √ ,
a b
bajo la restricción de que
Z b
G(b) − G(a) = g(u)du = 1 − α,
a
donde G(u) y g(u) son las funciones de distribución y de densidad de

una distribución χ2(n−1) , respectivamente.
[Sugerencia: Debido a la restricción, b es una función de a. En particu-
lar, tomando las derivadas de la ecuación de restricción con respecto
db
a a, muestre que da = g(a) dk dk
g(b) . Determine da . Estableciendo da = 0,
muestre que a y b deben satisfacer
an/2 e−a/2 − bn/2 e−b/2 = 0.
Esta condición, junto con la restricción, son usadas para calcular los
valores de los cuantiles.]
Capı́tulo 6
Pruebas de hipótesis
En los capı́tulos anteriores se ha analizado la inferencia estadı́stica con res-

pecto a la estimación puntual y por intervalos, ahora se estudiarán las prue-
bas o contrastes de hipótesis estadı́sticas que, como se verá, tienen una fuerte
relación con el concepto de estimación.
6.1. Los conceptos fundamentales en las prue-

bas de hipótesis
El lenguaje o argot de una profesión especı́fica se caracteriza por marcar una
frontera mediante un vocabulario poco comprensible para quienes no perte-
necen al gremio, aunque en muchos casos oculte ideas o conceptos sencillos.
La estadı́stica no es la excepción y es precisamente en este tema en donde es
más claro el uso de una terminologı́a jergal de los estadı́sticos, como se verá
en los siguientes párrafos.
Intuitivamente, una hipótesis estadı́stica tiene que ver con una afirma-
ción relacionada con un cierto fenómeno y debe analizarse si dicha afirmación
está sustentada por la evidencia. Por ejemplo, en la nueva ley de justicia pe-
nal en México se ha hecho énfasis en que un acusado debe ser considerado
inocente mientras no se pruebe su culpabilidad, ası́ que la afirmación de que
sea culpable debe sustentarse con la evidencia. En este caso pueden suceder
varias situaciones, como el hecho de que no haya suficientes pruebas para
demostrar que el acusado es culpable, lo cual no significa que sea inocente; o
bien, puede suceder que haya un error en la sentencia y se culpe a un inocente
227
228 6. Pruebas de hipótesis
o se absuelva a un culpable, es decir, cabe la posibilidad de falsos positivos

y falsos negativos. Estos aspectos se analizarán desde la perspectiva de la
estadı́stica matemática.
Una hipótesis estadı́stica puede plantearse como una aseveración rela-
cionada con la distribución de una variable aleatoria1 , lo cual se traduce en
este texto en una afirmación con respecto a alguna caracterı́stica desconoci-
da de una población de interés, expresada en términos de los parámetros del
modelo de probabilidad propuesto para describir el fenómeno en estudio o
bien, en términos de la comparación de dos modelos. La esencia de probar
una hipótesis estadı́stica es el decidir si la aseveración se encuentra apoyada
por la evidencia experimental que se obtiene a través de una muestra aleato-
ria. La decisión acerca de si los datos muestrales respaldan estadı́sticamente
la afirmación se toma con base en la probabilidad de que esto ocurra y, si
ésta es mı́nima (y por lo tanto el tamaño del error es grande), entonces será
rechazada la hipótesis.
Para introducir los principales conceptos en pruebas de hipótesis, se uti-
lizarán dos casos. El primero de ellos lo propuso Fisher (1935) en su obra El
diseño de experimentos, descrito también en Newman (1956) como las ma-
temáticas de una catadora de té; mientras que el segundo caso es un ejemplo
de larga data en la enseñanza de este tema en la Facultad de Ciencias de la
UNAM.
Caso 1: Fisher y la dama del té
El caso conocido como “la dama del té” fue expuesto por Fisher en su obra
las matemáticas de una catadora de té, en donde se señala que una dama
inglesa aseguraba que podı́a saber si se habı́a vertido en primer lugar la
infusión de té o la leche en una taza, con sólo probar la mezcla resultante.
Para analizar la afirmación de la señora se procede a un experimento.
Se le pide probar y clasificar n pares de tazas de té, conteniendo cada par
una taza preparada por cada uno de los dos procedimientos en cuestión,
primero el té y después la leche, y viceversa. En el experimento se pone
especial cuidado en asegurar la semejanza bajo las condiciones en que se
clasifican los pares de tazas de té y se procura la eliminación de cualquier
posible diferencia entre las tazas que resulte irrelevante para el problema. A
la dama se le presentan aleatoriamente las tazas de cada par. Finalmente,
se deja un tiempo razonable entre intentos sucesivos, a fin de asegurar que
la clasificación de cada par de tazas de té es independiente de los pares de
tazas precedentes.
1O simplemente con una variable aleatoria.
6.1. Conceptos fundamentales en pruebas de hipótesis 229
Se desea probar la hipótesis que consiste en afirmar que la dama es una

charlatana, que tendrı́a como contraparte la hipótesis de que ella tiene po-
deres de discriminación.
Caso 2: El juego de azar elegido por un chango

Suponga que se coloca a un changuito dentro de una caja (suficientemente
grande para que quepa en ella) con una pequeña ventana y en cuyo interior se
tienen 5 monedas y un dado honestos, ası́ como papel y lápiz. El experimento
consiste en lo siguiente:
El monito elige un juego al azar, lanzar las cinco monedas o lanzar el

dado.
Si se decide por el dado, el juego consiste en lanzarlo y observar el

número de la cara que aparece hacia arriba.
Si decide usar las monedas, las lanzará una por una y contará el número
de águilas.
Anotará en un papel el número de águilas o el de la cara del dado que

haya salido y lo entregará a través de la ventanita.
El problema consiste en averiguar si el changuito usó el dado o las mo-

nedas. Es decir, se desea probar la afirmación de que el changuito usó el
dado, que tendrı́a como contraparte la hipótesis de que el changuito usó las
monedas.
6.1.1. Hipótesis estadı́sticas

El experimento asociado con el caso de la dama del té se puede ver como la
obtención de una muestra aleatoria de tamaño n de una población con dis-
tribución Bernoulli, es decir, se tienen n variables aleatorias X1 , X2 , . . . , Xn ,
tal que Xi tiene distribución Bernoulli con parámetro p, para i = 1, 2, . . . , n,
con (
1 si la clasificación es correcta,
Xi =
0 si la clasificación no es correcta.
Se quieren probar las siguientes aseveraciones:
La dama es charlatana. vs. La dama tiene “poderes” de discriminación.
Si la dama es charlatana, entonces hará la clasificación adivinando, por lo

que p = 12 (p es la probabilidad de éxito); si tiene poderes de discriminación,
entonces p > 21 , por lo que la hipótesis de que la dama es charlatana se puede

replantear como:
1
Xi ∼ Bernoulli con p = , i = 1, . . . , n.
2
Definición 6.1 Una hipótesis estadı́stica es una aseveración acerca de la
distribución de una o más variables aleatorias. A una hipótesis que especifica
completamente la distribución se le llama hipótesis simple. A una hipótesis
que no es simple se le llama hipótesis compuesta.
Note que en el ejemplo de la dama del té se tiene un contraste de una

hipótesis simple contra una hipótesis compuesta.
En particular a p = 12 se le llama hipótesis nula y a p > 12 hipótesis
alternativa, denotadas por H0 y Ha , respectivamente. De hecho, el término
hipótesis nula fue introducido por Fisher para representar la hipótesis defen-
dida por él: la nula posibilidad de que la dama pudiera distinguir el orden
en que se vertieron el té y la leche. Ası́,
1 1
H0 : p = vs. Ha : p > .
2 2
Por otra parte, en el ejemplo del changuito (caso 2) los posibles resulta-
dos que se pueden obtener (al recibir el papel con el número anotado) son:
0, 1, 2, 3, 4, 5, 6; esto es, el espacio muestral está dado por:
Ω = {0, 1, 2, 3, 4, 5, 6} .
Este problema se puede plantear de la siguiente forma:
H0 : El changuito usó el dado vs. Ha : El changuito usó las monedas,
y de estas dos afirmaciones, el interés radica en ver de alguna manera que

se confirma una y por lo tanto la otra es falsa. En este caso, las hipótesis
se pueden replantear traduciendo el contenido de cada una de ellas a térmi-
nos probabilı́sticos, es decir, cada hipótesis se puede representar por una
aseveración acerca de la distribución de una variable aleatoria, por lo que:
1
H0 : P (X = i) = , i = 1, . . . , 6,
6
vs.
k 5−k
5 1 1
Ha : P (X = k) = 1− , k = 0, 1, . . . , 5,
k 2 2
donde en H0 , X denota el valor de la cara del dado obtenida y en Ha denota
el número de águilas obtenidas (éxitos) de entre los cinco lanzamientos. Lo
que se afirma en H0 y en Ha es acerca de la distribución de una variable

aleatoria, es decir, son hipotésis estadı́sticas (note además que en este ejemplo
las dos hipótesis son simples).
Tanto en el caso de la dama del té como en el del changuito, se desea
discriminar entre las dos hipótesis planteadas; por lo que el problema es
encontrar alguna evidencia que lleve a rechazar alguna y, por lo tanto, a
aceptar la otra.
Definición 6.2 Una prueba de hipótesis es una regla de decisión me-
diante la cual, y con base en la muestra, se puede determinar si se acepta o
se rechaza la hipótesis nula bajo consideración.
Sólo como ilustración, suponga que en el caso de la dama del té, n = 5.
P5
Entonces T (X) = Xi cuenta el número de éxitos y T (X) ∼ Bin(5, p). Se
i=1
podrı́a decidir, por ejemplo, rechazar H0 si T = 5 ó si T = 4 y no rechazarla
si T = 0 ó T = 1; regla que usualmente se expresa como un enunciado
precedido por la letra griega γ, es decir:
5
X 5
X
γ : Rechazar H0 si Xi = 4 o Xi = 5.
i=1 i=1
Esta regla de decisión serı́a entonces una prueba de hipótesis; sin embargo,
por el momento no tiene mayor sustento que el intuitivo.
Ahora, siguiendo con el caso del changuito, es claro que se rechaza H0 si
en el papel aparece el cero (el dado no tiene el número cero) y no se rechaza
H0 si en el papel aparece el 6 (sólo hay cinco monedas). De esta manera, el
espacio muestral queda dividido en dos partes, una de ellas lleva a rechazar
H0 y la otra lleva a no rechazar H0 ; las partes en que queda dividido Ω no
pueden traslaparse, ya que un elemento que perteneciera al traslape llevarı́a
a rechazar y a no rechazar al mismo tiempo a la hipótesis H0 , lo cual serı́a
una contradicción, por lo que se busca una partición del espacio muestral Ω.
Una posible partición de Ω es C = {0, 2, 3}, región que llevarı́a a rechazar
a H0 ; por lo que C c = {1, 4, 5, 6} y al obtener un resultado de este subcon-
junto, no se rechazarı́a H0 . Una vez más, hasta este momento, la regla de
decisión sólo tiene un sustento intuitivo y también puede expresarse como:
γ : Rechazar H0 si el número es 0, 2 o 3.
A la región C se le denomina la región crı́tica o de rechazo de H0 y se
define de la siguiente manera.
Definición 6.3 A la región C que lleva a rechazar la hipótesis nula se le
llama región de rechazo o región crı́tica.
Una vez especificada, basta tomar una muestra y verificar si se encuentra

en la región crı́tica o no.
Se usará la siguiente notación relacionada con algunos de los conceptos
expuestos hasta el momento:
La letra griega γ denota una prueba de hipótesis.
C o Cγ se refiere a la región crı́tica asociada a la prueba γ.
Como antes, la letra Θ denota el espacio paramétrico.
Θ0 se refiere al espacio paramétrico consistente con la hipótesis nula
H0 .
Θ1 se refiere al espacio paramétrico consistente con la hipótesis alter-
nativa Ha .
Observación 6.1 Note que una prueba de hipótesis γ y una región crı́ti-
ca C (o Cγ ) son equivalentes. Considere por ejemplo una muestra aleatoria
X1 , X2 , . . . , Xn de una población con distribución N (θ, 100), se desea probar:
H0 : θ ≤ 75 vs. Ha : θ > 75.
En este caso se tienen dos hipótesis compuestas, donde
Θ0 = {θ : θ ≤ 75} y Θ1 = {θ : θ > 75}.
La siguiente es una región crı́tica asociada a este problema:
C = (x1 , x2 , x3 ) ∈ X | x21 + x22 + x23 ≥ 1 .

De esta manera, la prueba está determinada: se consideran tres variables

aleatorias X1 , X2 y X3 , si los valores observados son tales que x21 +x22 +x23 ≥ 1,
entonces se rechaza la hipótesis nula, en caso contrario, se acepta.
Por lo tanto, la prueba asociada serı́a:
γ : Rechazar H0 si x21 + x22 + x23 ≥ 1.
6.1.2. Tipos y tamaños de los errores

Como en todos los casos de decisión estadı́stica, se puede incurrir en errores
y la idea serı́a efectuar una partición del espacio muestral que sirviera como
regla de decisión considerando los posibles errores que se pueden cometer y
tratando de que su probabilidad de ocurrencia fuera lo más pequeña posible.
Es necesario entonces analizar los tipos de errores que se pueden cometer al
efectuar una prueba estadı́stica.
Esto fue precisamente lo que hizo Fisher en el ejemplo de la dama del té,
señalando que podı́a hacer conclusiones equı́vocas, esto es:
1. Decir que la dama tenı́a poderes cuando en realidad era charlatana, lo

cual es equivalente a rechazar H0 cuando H0 es cierta.
2. Decir que la dama era charlatana cuando en realidad tenı́a poderes, lo

cual es equivalente a aceptar (no rechazar) H0 cuando H0 es falsa.
Fisher llamó a estos errores, error tipo I y error tipo II, respectivamen-
te, quedando este nombre dentro de la literatura estadı́stica para representar
de manera general al yerro de rechazar a la hipótesis nula cuando es cierta
y no rechazarla cuando es falsa, respectivamente. Se acostumbra representar
estos errores en forma tabular como:
H0 cierta H0 falsa
Rechazar H0 Error tipo I Decisión correcta
No rechazar H0 Decisión correcta Error tipo II
El objetivo en pruebas de hipótesis es entonces efectuar el contraste entre

H0 y Ha minimizando los errores que se puedan cometer y maximizando los
aciertos. Para medir los errores que se cometen, lo que se hace es calcular las
probabilidades de dichos errores y a estas probabilidades se les conoce como
los tamaños de los errores.
Definición 6.4 Se define el tamaño de los errores como
α = P(error tipo I) = P [rechazar H0 | H0 cierta]
β = P(error tipo II) = P [no rechazar H0 | Ha cierta]

= P(error tipo II) = P [no rechazar H0 | H0 falsa] .
Rechazar H0 es equivalente a haber obtenido una muestra de la región C

de rechazo de H0 y, por lo tanto, de una “buena” partición de Ω en C y C c
depende el tamaño de los errores.
El objetivo es encontrar un criterio óptimo para particionar a Ω en C y
C c , de tal manera que dicho criterio tome en cuenta el tamaño de los errores
en algún sentido. En el ejemplo del changuito la partición propuesta:
C = {0, 2, 3} y C c = {1, 4, 5, 6} ,
da lugar a los tamaños de error siguientes:

α = P [error tipo I] = P [rechazar H0 | H0 cierta]

= P [X ∈ C | H0 ]
= P [X = 0 o X = 2 o X = 3| H0 ]
= P [X = 0| H0 ] + P [X = 2| H0 ] + P [X = 3| H0 ]
1 1
= 0+ +
6 6
2 1
= = ,
6 3
β = P [error tipo II] = P [no rechazar H0 | Ha cierta]

= P [X ∈ C c | Ha ]
= P [X = 1 ó X = 4 ó X = 5 ó X = 6| Ha ]
= P [X = 1| Ha ] + P [X = 4| Ha ] + P [X = 5| Ha ] + P [X = 6| Ha ]
5 5 1
= + + +0
32 32 32
11
= .
32
Puede verse que estos tamaños de error en realidad son grandes, pero
esto es consecuencia de que se cuenta con una muestra de tamaño uno. Más
adelante se dará un criterio general para obtener una mejor partición de Ω
y por lo tanto, una buena prueba. Para ello se introduce ahora el concepto
de función potencia.
6.1.3. La función potencia

La función potencia juega un papel similar al del error cuadrático medio en
estimación: será el estándar para medir la bondad de una prueba y se define
de la siguiente manera.
Definición 6.5 La potencia de una prueba γ está dada por:
πγ (θ) = P[Rechazar H0 |θ] = P[(X1 , . . . , Xn ) ∈ C|θ].
La función potencia ideal vale 0 para θ ∈ Θ0 (hipótesis nula) y vale 1

para θ ∈ Θ1 (hipótesis alternativa). Es decir,

0 si θ ∈ Θ0 ,
P[Rechazar H0 |θ] =
1 si θ ∈ Θ1 .
Ası́, la idea es no rechazar la hipótesis nula cuando es cierta y rechazarla

cuando es falsa.
Definición 6.6 Sea γ una prueba de hipótesis de H0 : θ ∈ Θ0 contra Ha :

θ ∈ Θ1 . El tamaño de la prueba se define como:
máx πγ (θ),
θ∈Θ0
es decir, es el máximo valor de la potencia cuando H0 es cierta.
Observación 6.2 El tamaño de la prueba también se conoce como el ta-

maño de la región crı́tica, debido a la equivalencia que ya se ha mencionado
entre prueba y región crı́tica. Asimismo, se le puede llamar el nivel de la
prueba.
Observación 6.3 Lo que dice la definición anterior es que el tamaño de

la prueba se entiende como la mayor probabilidad de tomar una decisión
incorrecta suponiendo verdadero cualquier valor del parámetro θ asociado
con la hipótesis nula. Es deseable que se trate de una probabilidad pequeña,
por lo que es usual que α se fije en los valores 0.05 o 0.01.

N (θ, 100) con n = 25. Se considera el contraste H0 : θ ≤ 75 vs. Ha : θ > 75
y se propone la siguiente región crı́tica para esta prueba:
C = {(x1 , . . . , x25 ) ∈ X : x > 75} ,
es decir, la prueba está especificada como:
γ : rechazar H0 si x > 75.
La función potencia está dada por:
πγ (θ) = P(X ∈ C|θ) = P(X > 75|θ),
y como X ∼ N θ, 100

25 , se tiene que:

X −θ 75 − θ
πγ (θ) = P >
2 2

75 − θ 75 − θ
= P Z> =1−Φ ,
2 2
donde Z = X−θ 2 tiene una distribución N (0, 1) y Φ denota la función de

distribución acumulada de Z.
A continuación se calcula la función potencia para algunos valores es-

pecı́ficos de θ:
Si θ = 73,
πγ (θ) = P(Z > 1) = 1 − Φ(1) = 0.1587.
Si θ = 75,
πγ (θ) = P(Z > 0) = 0.5.
Si θ = 77,
πγ (θ) = P(Z > −1) = 1 − Φ(−1) = 1 − [1 − Φ(1)] = Φ(1) = 0.8413.
Si θ = 79,
πγ (θ) = P(Z > −2) = Φ(2) = 0.977.
El tamaño de la prueba está dado por
máx πγ (θ) = 0.5.

θ∈Θ0
La figura 6.1 muestra la gráfica de la función potencia correspondiente a

este ejemplo.
0.0 0.2 0.4 0.6 0.8 1.0
πγ(θ)
60 65 70 75 80 85 90
Figura 6.1: Función potencia del ejemplo 6.1.
Ejemplo 6.2 Sea X una variable aleatoria con distribución Binomial(5, θ).
El problema consiste en contrastar las hipótesis H0 : θ ≤ 1/2 vs. Ha : θ >
1/2.
Considere dos regiones crı́ticas C1 = {x | x = 5} y C2 = {x | x = 3, 4 o 5}.

Bajo la región crı́tica C1 = {x | x = 5}, la función potencia es:
π1 (θ) = P(Rechazar H0 |θ)

= Pθ (X = 5|θ)
= θ5 ,
entonces
1 − π1 (θ) = 1 − θ5 ,
ası́ que el tamaño del error tipo I es α, α ≤ (1/2)5 = 0.03125 y el tamaño

del error tipo II es β < 1 − (1/2)5 = 0.96875.
Usando la región crı́tica C2 = {x | x = 3, 4 o 5}, la función potencia es:
π2 (θ) = P(Rechazar H0 |θ)

= Pθ (X = 3, 4 ó 5|θ)

5 3 2 5 4 1 5 5
= θ (1 − θ) + θ (1 − θ) + θ (1 − θ)0 ,
3 4 5
entonces

5 3 2 5 4 1 5 5
π2 (θ) = θ (1 − θ) + θ (1 − θ) + θ (1 − θ)0 ,
3 4 5

5 0 5 5 1 4 5 2
1 − π2 (θ) = θ (1 − θ) + θ (1 − θ) + θ (1 − θ)3 ,
0 1 2
ası́ que el tamaño del error tipo I es α ≤ 0.5 y el tamaño del error tipo II es
β < 0.5.
Las funciones potencia de ambas regiones crı́ticas se muestran en la figura

6.2. Bajo C1 , el tamaño del error tipo I es menor que cuando se considera
C2 , mientras que el error tipo II es mayor bajo C1 que bajo C2 . La pregunta
ahora serı́a cuál de las dos regiones deberı́a elegirse con base en las respectivas
funciones potencia.
Es entonces conveniente establecer un criterio para determinar cuál podrı́a
ser la mejor región crı́tica. Para ello es necesario definir lo que se considera
una buena prueba y este concepto está relacionado con los tamaños de los
errores y, por lo tanto, con la función potencia. Esto se hará consideran-
do diferentes tipos de contraste, iniciando con el caso de una hipótesis nula
simple contra una hipótesis alternativa también simple.
Funcion potencia
0.0 0.2 0.4 0.6 0.8 1.0

C1
π(θ) C2
0.0 0.2 0.4 0.6 0.8 1.0
Figura 6.2: Funciones potencia del ejemplo 6.2.
6.2. Hipótesis simples

En esta situación se tienen dos distribuciones completamente especificadas,
las cuales se denotarán por f0 = f (x; θ0 ) y f1 = f (x; θ1 ), correspondientes a
las hipótesis nula y alternativa, respectivamente.
Considere una muestra aleatoria X1 , X2 , . . . , Xn de una población con
distribución f0 ó f1 y se desea probar:
H0 : Xi ∼ f0 vs. Ha : Xi ∼ f1 .
Si se tiene una sola observación x1 y las funciones f0 y f1 son tales que

f0 (x1 ) > f1 (x1 ), entonces se puede decidir que la observación viene de f0 .
Bajo este criterio, la observación vendrı́a de f1 si f0 (x1 ) ≤ f1 (x1 ) (es más
probable que la observación venga de f1 que de f0 y se deberı́a rechazar H0 ).
Este simple razonamiento se puede usar en el ejemplo del juego de azar
elegido por un chango, especificando la siguiente regla de decisión: rechazar
H0 si
P [X ∈ C | H0 ] ≤ P [X ∈ C | Ha ] (6.1)
o, de manera equivalente, rechazar H0 si
P [X ∈ C | H0 ]
≤ 1. (6.2)
P [X ∈ C | Ha ]
6.2. Hipótesis simples 239
En la subsección 6.1.2 se calcularon los tamaños de los errores para la

partición
C = {0, 2, 3} y C c = {1, 4, 5, 6} ,
obteniendo:
α = P [error tipo I]
= P [X ∈ C | H0 ]
1
=
3
y
β = P [error II]
= P [X ∈ C c | Ha ]
11
= ,
32
21
por lo que P [X ∈ C | Ha ] = 32 .
Siguiendo un desarrollo análogo se pueden encontrar α y β para cada
partición de Ω que se proponga, en particular:
Si C1 = {0, 2} , C1c = {1, 3, 4, 5, 6} y
1 1 5 10 5 1 21
α1 = 0 + = y β1 = + + + +0= .
6 6 32 32 32 32 32
Si C2 = {0, 3, 4} , C2c = {1, 2, 5, 6} y
1 1 1 5 10 1 16
α2 = 0 + + = y β2 = + + +0= .
6 6 3 32 32 32 32
Si C3 = {0, 1, 4, 5} , C3c = {2, 3, 6} y
1 1 1 3 1 10 10 20
α3 = 0 + + + = = y β3 = + +0= .
6 6 6 6 2 32 32 32
Como puede observarse, para estas tres particiones, cuando α decrece,
β crece mucho y viceversa o ambos son grandes. De la misma manera se
pueden obtener α y β para cada una de todas las posibles particiones de Ω
y comprobar que la pareja que cumple el criterio (6.1), o equivalentemente
(6.2), y que tiene los mı́nimos errores es la primera partición propuesta.
Esta idea intuitiva se retomará más adelante, es necesario ahora dar una
definición de lo que se entenderá por una buena prueba con base en el tamaño
de los errores y de la potencia de esa prueba.
6.2.1. Pruebas más potentes y el lema de Neyman-

Pearson
Para considerar el tamaño de los errores en la búsqueda de una prueba
adecuada, usualmente lo que se hace es fijar el tamaño del error tipo I y
entonces buscar la prueba que tenga tamaño de error tipo II mı́nimo (de
entre todas las que tengan el mismo tamaño de error tipo I).
En este caso simple contra simple, Θ = {θ0 , θ1 }. Se quiere probar
H0 : θ = θ0 vs. Ha : θ = θ1 .
Sea γ una prueba asociada a este contraste de hipótesis y sea πγ (θ) la

función potencia asociada a dicha prueba. Una buena prueba es tal que
πγ (θ0 ) = P(rechazar H0 |H0 ) es pequeña (idealmente cero) y
πγ (θ1 ) = P(rechazar H0 |Ha ) es grande (idealmente 1).
Observación 6.4 Note que en este caso simple contra simple, la función
potencia evaluada en θ0 , es decir, πγ (θ0 ) = P(rechazar H0 |H0 ), coincide con
el tamaño del error tipo I y también con el tamaño de la prueba γ, pues el
único valor en Θ0 es θ0 :
πγ (θ0 ) = tamaño del error tipo I = tamaño de la prueba,
y note también que:
1 − πγ (θ1 ) = P(no rechazar H0 |Ha ) = tamaño del error tipo II,
relación que establece que minimizar el tamaño del error tipo II es equivalente
a maximizar la potencia evaluada en la hipótesis alternativa.
El concepto de lo que debe ser una buena prueba queda plasmado en

la siguiente definición, la cual se identifica como una prueba más potente
y que está vinculada con la observación anterior en el sentido de que se
fija el tamaño del error tipo I y se minimiza el tamaño del error tipo II o,
equivalentemente, se maximiza la función potencia evaluada en Ha , de ahı́
el nombre que se le da a la prueba resultante.
Definición 6.7 Una prueba γ ∗ de H0 : θ = θ0 vs. Ha : θ = θ1 se define

como una prueba más potente de tamaño α (0 < α < 1) si y sólo si:
(i) πγ ∗ (θ0 ) = α,
(ii) πγ ∗ (θ1 ) ≥ πγ (θ1 ), para cualquier otra prueba γ tal que πγ (θ0 ) = α.
Observación 6.5 Como se ha mencionado, una prueba de hipótesis es equi-

valente al conocimiento de una región crı́tica, por lo que la definición anterior
puede darse también en términos de la región crı́tica C ∗ asociada a γ ∗ .
Una mejor región crı́tica C ∗ de tamaño α para probar H0 : θ = θ0 vs.
Ha : θ = θ1 , satisface:
(i) P(X ∈ C ∗ |H0 ) = α,
(ii) P(X ∈ C ∗ | Ha ) ≥ P(X ∈ C|Ha ), para cualquier C tal que P(X ∈

C|H0 ) = α.
El siguiente resultado, conocido como el lema de Neyman-Pearson2 , pro-

porciona un método para obtener pruebas más potentes (o regiones crı́ticas
óptimas).
Lema 6.1 (lema de Neyman-Pearson) . Sea X1 , . . . , Xn una muestra

aleatoria de una población con función de densidad f (x; θ), donde θ ∈ Θ =
{θ0 , θ1 } y sean 0 < α < 1, k un número positivo y C ∗ tales que:
(a) P(X ∈ C ∗ |H0 ) = α,

n
Q
f (xi ;θ0 )
L(θ0 )
(b) λ = L(θ1 ) = i=1
n
Q ≤ k si x ∈ C ∗ ,
f (xi ;θ1 )
i=1
(c) λ > k si x ∈ (C ∗ )c .
Entonces la prueba γ ∗ , asociada a C ∗ , es una prueba más potente para
probar H0 : θ = θ0 vs. Ha : θ = θ1 (es decir, C ∗ es la mejor región
crı́tica).
2 Jerzy Neyman (1894-1981), de nacionalidad polaca, vivió en Estados Unidos desde
1938 (Universidad de California en Berkeley) y Egon Sharpe Pearson (1895-1980),

hijo del reconocido estadı́stico inglés Karl Pearson. Colaboraron durante los años 20 y 30
del siglo XX, abordando problemas de inferencia y construyendo herramientas estadı́sticas
como el lema que lleva su nombre.
Neyman, J. and Pearson, E.S. (1928a, 1928b). On the use and interpretation of certain
test criteria for purposes of statistical inference, Part I. Biometrika, 20A, 175-240. Part
II. Biometrika, 20A, 263-294.
Neyman, J. and Pearson, E.S. (1933a). On the problem of the most efficient tests of
statistical hypotheses. Phil. Trans. Roy. Soc., Ser. A, 231, 289-337. Reprinted in Breakth-
roughs in Statistics Volume I (S. Kotz and N. L. Johnson, eds.), 1992. Springer-Verlag,
Inc., New York.
Neyman, J. and Pearson, E.S. (1933b). The testing of statistical hypotheses in relation
to probabilities a priori. Proc. Camb. Phil. Soc., 24, 492-510
Demostración. Observe primero que la primera hipótesis (a) coincide con

(i) de la definición 6.7 de prueba más potente (o equivalentemente de mejor
región crı́tica). Por otro lado, la hipótesis (b) se puede reescribir como:
1
L(θ1 ) ≥
L(θ0 ), x ∈ C∗ ∩ Cc ⊆ C∗
k
y la hipótesis (c) es equivalente a:
1 c
L(θ1 ) < L(θ0 ), x ∈ (C ∗ ) ∩ C ⊆(C ∗ )c .
k
Observe también que:
c
C = (C ∩ C ∗ ) ∪ (C ∩ (C ∗ ) ) (6.3)
y
C ∗ = (C ∗ ∩ C) ∪ (C ∗ ∩ C c ) . (6.4)
La demostración se hará para el caso continuo. Por demostrar que
P(X ∈ C ∗ | Ha ) ≥ P(X ∈ C|Ha ),
para cualquier C tal que P(X ∈ C|H0 ) = α (ver observación 6.5); que es
equivalente a demostrar que:
Z Z
L(θ1 ) ≥ L(θ1 ),
C∗ C
o bien que: Z Z
L(θ1 ) − L(θ1 ) ≥ 0,
C∗ C
que por las identidades (6.3) y (6.4), es equivalente a demostrar que:
Z Z
L(θ1 ) − L(θ1 ) ≥ 0. (6.5)
C ∗ ∩C c C∩(C ∗ )c
Se procede de la siguiente manera:

Z Z "Z Z #
1
L(θ1 ) − L(θ1 ) ≥ L(θ0 ) − L(θ0 ) =
C ∗ ∩C c C∩(C ∗ )c k C ∗ ∩C c (C ∗ )c ∩C
"Z Z Z Z #
1
= k L(θ0 ) + L(θ0 ) − L(θ0 ) − L(θ0 )
C ∗ ∩C c C∩C ∗ (C ∗ )c ∩C C∩C ∗
Z Z
1
= k L(θ0 ) − L(θ0 )
C∗ C
= 1
k [P [X ∈ C ∗ |H0 ] − P [X ∈ C|H0 ]] = k1 (α − α) = 0.
Con lo que (6.5) queda demostrado.
Note la relación del lema de Neyman-Pearson con el argumento intuiti-

vo que se explicó al inicio de esta sección, proporcionando ası́ un método
sistemático para encontrar una prueba más potente.
A continuación se presentan algunos ejemplos del uso del lema de Neyman-
Pearson.
función de densidad f (x; θ) = θe−θx , θ > 0,
Θ = {θ0 , θ1 } (θ0 > θ1 )
H0 : θ = θ 0 . vs. Ha : θ = θ1 ,
n
Y Yn Pn
L(θ) = θe−θxi = θn e−θxi = θn e−θ i=1 xi .
i=1 i=1
Procediendo de acuerdo al lema de Neyman-Pearson:
Pn n
L(θ0 ) θ0n e−θ0 i=1 xi θ0 Pn Pn
= n −θ Pn x = e−θ0 i=1 xi +θ1 i=1 xi
L(θ1 ) θ1 e 1 i=1 i θ1
n
θ0 Pn
= e−(θ0 −θ1 ) i=1 xi ≤ k ⇔ x ∈ C ∗ ,
θ1
Pn
⇒ e−(θ0 −θ1 ) i=1 xi
≤ k1 ,
n
X n
X
⇒ −(θ0 − θ1 ) xi ≤ k2 ⇒ (θ0 − θ1 ) xi ≥ −k2 ,
i=1 i=1
n
X
⇒ xi ≥ k3 ≡ c ⇔ se rechaza H0 .
i=1
(se han usado k1 , k2 y k3 para denotar a las constantes que van resultando
en cada paso del despeje de la estadı́stica de prueba, hasta llegar a la forma
de la región crı́tica).
Entonces, la prueba de hipótesis queda establecida de la siguiente manera:
n
X
γ ∗ : Se rechaza H0 si Xi ≥ c,
i=1
o ( )
n
X
∗
C = (X1 , . . . , Xn ) ∈ X| Xi ≥ c ,
i=1
donde c se determina fijando el tamañoPn de la prueba y con base en la dis-

tribución de la estadı́stica de prueba i=1 Xi . Si el tamaño de la prueba es
igual a 0.05, se tiene que:
" n #
X
πγ (θ0 ) = P[rechazar H0 |H0 es cierta] = P Xi ≥ c|θ = θ0 = 0.05.
i=1
O equivalentemente:
" n
#
X
1−P Xi ≤ c|θ = θ0 = 0.05.
i=1
Es decir, !
n
X
P Xi ≤ c|θ = θ0 = 0.95.
i=1
n
P
Bajo H0 , Xi ∼ Gama(n, θ0 ), entonces c corresponde al cuantil 0.95 de
i=1
una distribución Gama(n, θ0 ).

distribución Normal, N (µ,σ 2 ), con σ 2 conocida. Se considera el contraste de
hipótesis H0 : µ = µ0 vs. Ha : µ = µ1 , donde µ0 < µ1 .
La función de verosimilitud es
n
Y 1 1
L(µ) = √ exp − 2 (xi − µ)2
i=1 2πσ 2 2σ
( n
)
1 X
= (2πσ 2 )−n/2 exp − 2 (xi − µ)2 .
2σ i=1
Procediendo de acuerdo al lema de Neyman-Pearson, se obtiene el cociente

de verosimilitudes
n o
2 −n/2
1
Pn 2
L(µ0 ) 2πσ exp − 2σ 2 i=1 (x i − µ0 )
= n o
L(µ1 ) 2
(2πσ )
−n/2 1
Pn
exp − 2σ2 i=1 (xi − µ1 )
2
( n n
)
1 X 2 1 X 2
= exp − 2 (xi − µ0 ) + 2 (xi − µ1 )
2σ i=1 2σ i=1

1 1 2 2

= exp nx(µ0 − µ1 ) − 2 n µ0 − µ1 ,
σ2 2σ
L(µ0 )
entonces X ∈ C equivale a que L(µ1 ) ≤ k, esto implica que

1 1 2 2
exp nx(µ 0 − µ1 ) − n(µ0 − µ1 ) ≤ k
σ2 2σ 2
1 1
2
nx(µ0 − µ1 ) − 2 n(µ20 − µ21 ) ≤ k1 = ln k
σ 2σ
1 1
nx(µ0 − µ1 ) ≤ k1 + n(µ20 − µ21 ),
σ2 2σ 2
como µ0 y µ1 son valores fijos establecidos en las hipótesis, entonces se puede
hacer
1
nx(µ0 − µ1 ) ≤ k2 ,
σ2
y además, debido a que se supone que µ0 < µ1 , entonces µ0 − µ1 < 0, por
lo tanto,
σ2
x ≥ k2 ,
n(µ0 − µ1 )
o
x ≥ k3 ;
ası́, se rechaza la hipótesis nula si y sólo si x ≥ c.
Entonces, la prueba de hipótesis queda establecida de la siguiente manera:
γ ∗ : se rechaza H0 si X ≥ c,
o equivalentemente
C ∗ : (X1 , . . . , Xn ) ∈ X | X ≥ c .

El valor de c se determina fijando el tamaño de la prueba y con base

en la distribución de la estadı́stica de prueba X. En este caso, dado que
Xi ∼ N ormal(µ, σ 2 ) y son variables aleatorias independientes
e identica-
mente distribuidas, entonces X ∼ N ormal µ, σ 2 /n .

Bajo la hipótesis nula H0 : µ = µ0 , se tiene que X ∼ N ormal µ0 , σ 2 /n .
Note que esta distribución es totalmente conocida ya que los valores de n y
σ 2 son conocidos y µ0 es el valor establecido bajo la hipósteis nula.
Si el tamaño de la prueba es α, se tiene que
πγ (µ0 ) = P[rechazar H0 |H0 es cierta]

= P X ≥ c|µ = µ0 = α,
o equivalentemente,
1 − P X < c|µ = µ0 = α,

ası́ que c corresponde al cuantil 1−α de una distribución N ormal µ0 , σ 2 /n .
Por otro lado, también se puede calcular la función potencia bajo la
hipótesis alternativa, es decir,
πγ (µ1 ) = P[rechazar H0 |Ha ]

= P X ≥ c|µ = µ1 ,
pero como
πγ (µ1 ) = P[rechazar H0 |Ha ]

= 1 − P[no rechazar H0 |Ha ],
entonces
1 − πγ (µ1 ) = P[no rechazar H0 |Ha ]

= tamaño del error tipo II
= β.
Además se tiene que bajo la hipótesis alternativa Ha : µ = µ1 , se cumple

que
X ∼ N ormal µ1 , σ 2 /n .

La figura 6.3 muestra la relación que existe entre las pruebas de hipótesis
y los tamaños de los errores tipo I (α) y tipo II (β), determinados a partir
de la estadı́stica de prueba S = X. Note que las áreas delimitadas en color
negro y gris, representan a α y β, respectivamente.
fS (s|µ)
H0 : µ = µ0 Ha : µ = µ1
N (µ0 , σ 2 /n) N (µ1 , σ 2 /n)
β α
µ0 µ1 s
x
Figura 6.3: Funciones de densidad de la estadı́stica de prueba S = X bajo

ambas hipótesis y tamaños de los errores.

con distribución Bernoulli(θ), donde θ es igual a θ0 o θ1 . Contrastar las
hipótesis
H0 : θ = θ0 vs. Ha : θ = θ1 ,
con θ0 < θ1 .
Se sabe que la verosimilitud bajo H0 es
Pn Pn
xi
L (θ0 ) = θ0 i=1
(1 − θ0 )n− i=1 xi
,
y la verosimilitud bajo H1 es
Pn Pn
xi
L (θ1 ) = θ1 i=1
(1 − θ1 )n− i=1 xi
,
ası́ que la región crı́tica determinada por λ ≤ k ∗ equivale a

Pn x n
θ0 (1 − θ1 ) i=1 i 1 − θ0
≤ k∗ ,
(1 − θ0 )θ1 1 − θ1
ası́, −n
∗ 1−θ0
Xn ln k 1−θ1
xi ≥ h i ,
i=1 ln θ(1−θ
0 (1−θ1 )
0 )θ1
Pn
es decir, i=1 xi ≥ k 0 donde k 0 es una constante. Ası́ que una prueba más
potente está determinada por:
n
X
γ : Rechazar H0 si Xi ≥ k 0 .
i=1
Suponga que θ0 = 1/4, θ1 = 3/4 y n = 10, entonces k 0 se determina de

tal manera que:
α = P[Rechazar H0 |H0 cierta]

= P[Rechazar H0 |θ = 1/4]
" 10 #
X
0
= P Xi ≥ k |θ = 1/4
i=1
10 y 10−y
X 10 1 3
= ,
0
y 4 4
y=k
P10 1

donde Y = i=1 Xi tiene una distribución Binomial 10, 4 bajo H0 . Si
0 0
α = 0.0197 entonces k = 6, y si α = 0.0781 entonces k = 5.
6.3. Pruebas uniformemente más potentes

El lema de Neyman-Pearson aún puede usarse en algunos casos en donde
la hipótesis nula es simple y la alternativa es compuesta, como se exhibe en
esta parte. Sin embargo, para casos más generales de hipótesis compuestas,
la construcción de una región crı́tica se hará a través del llamado cociente o
razón de verosimiltudes generalizadas, lo cual se abordará en la sección 6.4.
El objetivo de este apartado es la obtención de regiones crı́ticas o pruebas
óptimas en un sentido más general que en el caso de hipótesis simples, a las
cuales se les conoce como pruebas uniformemente más potentes.
6.3.1. Hipótesis simple contra compuesta

Para ilustrar el tipo de contrastes que involucra una hipótesis compuesta, y
en donde aún se utiliza el cociente simple de verosimilitudes, se inicia con el
siguiente ejemplo.
Ejemplo 6.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de la población con

distribución N (0, σ 2 ) y se desea probar
H0 : σ 2 = σ02 vs. Ha : σ 2 > σ02 .
En este caso,
Θ0 = {σ02 } y Θ1 = {σ 2 : σ 2 > σ02 }.
Sea σ12 ∈ Θ1 , es decir, σ12 > σ02 (σ12 es un valor representativo de la hipótesis
alternativa). Usando el lema de Neyman-Pearson, se probará
H0 : σ 2 = σ02 vs. Ha : σ 2 = σ12 ,
tomando como hipótesis alternativa simple al valor representativo de la

hipótesis alternativa original.
Se considera entonces el cociente:
n/2 Pn
1
2
L(σ0 ) 2πσ02
exp(− 2σ1 2 i=1 x2i )
0
= ≤k
L(σ12 ) 1
n/2
1
Pn 2)
2πσ 2 exp(− 2σ 2 x
i=1 i
1 1
n/2" n #
σ12

1 1 1 X 2
⇔ exp − 2 x ≤k
σ02 2 σ12 σ0 i=1 i
2 n
n σ1 1 1 1 X 2
⇔ ln + − 2 x ≤ k1 = ln(k)
2 σ02 2 σ12 σ0 i=1 i
6.3. Pruebas uniformemente más potentes 249
n 2
X n σ1
(σ02 − σ12 ) x2i ≤ k1 − ln 2 (σ12 σ02 )2 = k2
i=1
2 σ 0
Pero como σ02 − σ12 < 0, se obtiene que:

n
X
x2i > c,
i=1
y por lo tanto, la región crı́tica es:

( n
)
X
C∗ = (X1 , X2 , . . . , Xn ) ∈ X | Xi2 > c ,
i=1
que equivale a la prueba

n
X
γ ∗ : Rechazar H0 si Xi2 > c.
i=1
Pn
X2 x2i
Como Xi ∼ N 0, σ 2 , Xσi ∼ N (0, 1) y σ2i ∼ χ2(1) , de donde i=1

σ2 ∼ χ2(n) .
Ası́, el valor de c se puede obtener de la relación:
n
! Pn 2

i=1 xi c
X
2
α=P xi > c | H0 = P > 2 ,
i=1
σ02 σ0
conociendo n, σ02 y fijando el tamaño de la prueba α.
Note que el procedimiento anterior serı́a el mismo para cualquier valor

consistente con la hipótesis alternativa, ası́ que el resultado γ ∗ es una prueba
uniformemente más potente, en el sentido de que se cumple para cualquier
σ12 tal que σ12 > σ02 . Esto conduce a la siguiente definición.
Definición 6.8 Una prueba γ ∗ es una prueba uniformemente más po-

tente para probar
H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1
si:
(i) máx πγ ∗ (θ) = α,
θ∈Θ0
(ii) πγ ∗ (θ) ≥ πγ (θ), para todo θ ∈ Θ1 y para cualquier otra prueba γ tal que
máx πγ (θ) = α.
θ∈Θ0
En palabras, de entre todas las pruebas de tamaño α, la prueba unifor-

memente más potente es aquella que maximiza la potencia para todo θ ∈ Θ1 .
Para hipótesis alternativas del tipo unilateral, es decir,
Ha : θ > θ 0 ,
Ha : θ ≥ θ0 ,
Ha : θ < θ 0
o
Ha : θ ≤ θ0 ,
en donde H0 : θ = θ0 , se puede usar el lema de Neyman-Pearson para en-
contrar una prueba uniformemente más potente tomando un valor represen-
tativo de la hipótesis alternativa y planteando un contraste de dos hipótesis
simples.
Suponga ahora que se desea probar
H0 : µ = µ0 vs. Ha : µ 6= µ0 ,
(observe que la hipótesis alternativa no es del tipo unilateral) para una mues-
tra aleatoria de tamaño n de la distribución Normal µ, σ 2 , donde σ 2 = 1.
Usando el lema de Neyman-Pearson, se procederı́a como en el caso anterior,
es decir, replanteando las hipótesis a través de un valor representativo para
la hipótesis alternativa de tal manera que se tengan dos hipótesis simples:
H0 : µ = µ0 vs. Ha : µ = µ1 ,
donde µ1 6= µ0 . Por el de lema de Neyman-Pearson, se tiene entonces que:

1 n/2 − 12
Pn 2
i=1 (xi −µ0 )

L (µ0 ) 2π e
=
L (µ1 ) 1 n/2 − 12
Pn 2
i=1 (xi −µ1 )

2π e
n 2 n 2
= e− 2 [ i=1 (xi −µ0 ) − i=1 (xi −µ1 ) ]
1
P P
Pn 2 Pn 2 Pn 2 Pn 2
= e− 2 [ i=1 xi −2µ0 i=1 xi +nµ0 − i=1 xi +2µ1 i=1 xi −nµ1 ]
1
Pn
xi (µ1 −µ0 )+n(µ20 −µ21 )]
= e− 2 [2
1
i=1 ≤ k1 ,
si y sólo si
n
X 1
xi (µ1 − µ0 ) − n µ20 − µ21 ≤ k2 ,

−
i=1
2
si y sólo si
n
X
− xi (µ1 − µ0 ) ≤ k3 ,
i=1
o
n
X
xi (µ1 − µ0 ) ≥ −k3 = c,
i=1
obteniéndose que
( n
)
X
∗
C = (X1 , . . . , Xn ) ∈ X | Xi ≥ c , si µ1 − µ0 > 0,
i=1
y
( n
)
X
∗
C = (X1 , . . . , Xn ) ∈ X | Xi ≤ c , si µ1 − µ0 < 0,
i=1
concluyendo que la región crı́tica no queda determinada de manera única, por

lo que para este tipo de pruebas ya no se usará el lema de Neyman-Pearson.
El tema de hipótesis compuestas se abordará desde dos perspectivas: me-
diante una caracterización que permite detectar la existencia de pruebas
uniformemente más potentes (Subsección 6.3.2) y a través del cociente de
verosimilitudes generalizadas (Sección 6.4).
6.3.2. La razón monótona de verosimilitudes y el teo-

rema de Karlin-Rubin
Ahora se analizará una clase de hipótesis asociada a una gran variedad de
problemas, en la cual se puede obtener una prueba uniformemente más
potente (ver definición 6.8) si la familia de la cual se obtiene la mues-
tra cumple una condición conocida como la razón o cociente monótono de
verosimilitudes, la cual se define a continuación.
Definición 6.9 Una familia de densidades {f (x; θ) : θ ∈ Θ}, donde X es

una variable aleatoria univariada, tiene un cociente monótono de verosimi-
litudes en una estadı́stica T (X), si para todo {θ∗ , θ} ⊂ Θ y x ∈ X, se tiene
que
L(θ∗ ; x1 , ..., xn ) L (θ∗ )
= ,
L(θ; x1 , ..., xn ) L (θ)
es una función monótona no creciente (o no decreciente) de t(x), siempre
que θ∗ > θ; con f (x; θ∗ ) > 0 y f (x; θ) > 0.
Ejemplo 6.7 La familia de densidades Poisson(θ) , θ > 0, tiene cociente

Pn
monótono de verosimilitudes en T (X) = i=1 Xi , pues
∗
Pn n
xi
e−nθ (θ∗ ) 1
Q
∗
i=1
/ xi !
L(θ ; x) i=1
= n
L(θ; x) Pn
xi 1
e−nθ
Q
(θ) i=1
/ xi !
i=1
Pn
∗ xi
e−nθ (θ∗ ) i=1
= Pn
x
e−nθ (θ) i=1 i
∗ Pni=1 xi
θ ∗
= e−n(θ −θ) ,
θ
Pn
es una función no decreciente de i=1 xi , con θ∗ > θ.
Observación 6.6 Los miembros de la familia exponencial
f (x; θ) = a(θ)b(x)ec(θ)d(x) , con θ ∈ Θ,
tienen cociente monótono de verosimilitudes. En otras palabras, si c(θ) es

una función estrictamente monótona de θ, entonces {f (x; θ) : θ ∈ Θ ⊆ R}
tiene cociente de verosimilitudes no creciente (o no decreciente) en T (X) =
P n
i=1 d (Xi ).
Lema 6.2 Si la familia de densidades {f (x; θ) : θ ∈ Θ} tiene cociente

monótono de verosimilitudes en S (X), donde S (X) es una estadı́stica sufi-
ciente, entonces la función
fS (s; θ∗ )
V (s, θ∗ , θ) = ,
fS (s; θ)
es una función monótona en s, donde fS (s; θ) es la función de densidad de

la estadı́stica S.
Demostración. Cuando se estudió la suficiencia y el teorema de factori-

zación, se analizó la relación entre la función de verosimilitud y la densidad
de la estadı́stica suficiente. Para el caso discreto esta relación es
X
fS (s) = P (S (X) = s) = P (X1 = x1 , X2 = x2 , ..., Xn = xn )
As
X
= L (θ; x1 , ..., xn )
As
X
= g (s; θ) h (x1 , ..., xn ) ,
As
donde
As = {(x1 , . . . , xn ) ∈ X | S (X) = s} .
Y para el caso continuo,
fS (s) = g (s; θ) m (s) ,
donde m (s) no depende de θ.
En ambos casos, se comprueba que:
fS (s; θ∗ ) g (s; θ∗ )
V (s, θ∗ , θ) = = .
fS (s; θ) g (s; θ)
Por otro lado, la hipótesis establece que se cumple la monotonı́a del cociente
de verosimilitudes en S, la cual es suficiente, es decir:
L(θ∗ ; x) g (S (x) ; θ∗ ) h (x1 , ..., xn ) g (S (x) ; θ∗ )
= = ,
L(θ; x) g (S (x) ; θ) h (x1 , ..., xn ) g (S (x) ; θ)
es una función monótona en S. Lo anterior implica que V (s, θ∗ , θ) es una
función monótona en S.
El siguiente resultado, conocido como el teorema de Karlin-Rubin pro-

porciona una forma de encontrar una prueba uniformemente más potente
para hipótesis compuestas unilaterales.
Teorema 6.1 (teorema de Karlin-Rubin). Sea X1 , X2 , ..., Xn una mues-
tra aleatoria de una población con función de densidad f (x; θ) y se desea
probar las hipótesis
H0 : θ ≤ θ0 vs. Ha : θ > θ0 . (6.6)
Si la familia de densidades {f (x; θ)} tiene la propiedad del cociente
monótono de verosimilitudes no decreciente en S = S(X), la cual es una
estadı́stica suficiente para θ ∈ Θ, entonces la prueba:
γ : Rechazar H0 si S > k, (6.7)
definida por la función:

1 si S(X) > k,
Ψ(X) =
0 si S(X) ≤ k,
donde k es tal que:
E[Ψ(X)] = P (S(X) > k) = α,
es una prueba uniformemente más potente de tamaño α para (6.6).
Demostración. Note que por la suficiencia de S, la verosimilitud puede

escribirse como el producto h (x) g (s; θ) , ası́ que el cociente de verosimiltudes
puede escribirse como
L(θ∗ ; x1 , ..., xn ) g (s; θ∗ )
= ,
L(θ0 ; x1 , ..., xn ) g (s; θ0 )
el cual es no decreciente (θ∗ > θ0 ) en s.

Sea πγ (θ) = P (S > k | θ) la función potencia para la prueba γ. Fije
θ0 > θ0 (es decir, θ0 es un valor consistente con la hipótesis alternativa) y
considere la prueba para las hipótesis simples
H00 : θ = θ0 vs. Ha0 : θ = θ0 . (6.8)
La función potencia πγ (θ) es no decreciente, esto es, para θ0 < θ0 , se tiene que
πγ (θ0 ) ≤ πγ (θ0 ), es decir, FS (k; θ0 ) ≤ FS (k; θ0 ). Para verificarlo, considere
fS (s; θ0 )

d
[FS (s; θ0 ) − FS (s; θ0 )] = fS (s; θ0 ) − fS (s; θ0 ) = fS (s; θ0 ) −1 ,
ds fS (s; θ0 )
siendo el cociente que aparece en el último paréntesis una función monótona
no decreciente (por el lema 6.2), de tal manera que la derivada sólo puede
cambiar de signo de negativo a positivo, con lo que se deduce que cualquier
extremo interior es un mı́nimo. Por lo tanto, la función FS (s; θ0 ) − FS (s; θ0 )
se maximiza cuando s tiende a ∞ o a −∞, es decir cuando dicha función
vale 0, por lo que FS (s; θ0 ) ≤ FS (s; θ0 ) y, por lo tanto, πγ (θ0 ) ≤ πγ (θ0 ), para
θ0 < θ 0 .
De esta manera, supθ≤θ0 πγ (θ) = πγ (θ0 ) = α, donde α corresponde al
tamaño de la prueba.
Si ahora se define
g(s; θ0 )
k 0 = ı́nf ,
s∈T g(s; θ0 )
donde T = {s : s > k, y g(s; θ0 ) > 0 o g(s; θ0 ) > 0}, entonces
g(s; θ0 )
S>k ⇔ > k0
g(s; θ0 )
y dado que S es una estadı́stica suficiente, entonces
S > k ⇔ g(s; θ0 )h(x) > g(s; θ0 )h(x)k 0 ,
lo cual es equivalente a
L (θ0 ) 1
0
≤ 0 = c,
L (θ ) k
y por el lema de Neyman-Pearson esta última desigualdad proporciona una

prueba más potente de tamaño α, es decir, se cumple que πγ (θ0 ) ≥ πγ∗ (θ0 ),
donde πγ∗ es la función potencia de cualquier otra prueba de tamaño α para
(6.8).
Finalmente, cualquier prueba de tamaño α de H0 satisface que
πγ∗ (θ0 ) ≤ máx πγ∗ (θ) ≤ α,
θ∈Θ0
por lo que πγ (θ0 ) ≥ πγ∗ (θ0 ) para cualquier prueba de tamaño α. Como θ0 en
la hipótesis nula es arbitrario, la prueba resultante es uniformemente más
potente de tamaño α para la hipótesis planteada.
De manera similar, se puede demostrar que para la prueba

H0 : θ ≥ θ0 vs. Ha : θ < θ0 ,
la prueba uniformemente más potente es de la forma:
γ : Rechazar H0 si S < k. (6.9)
Por otro lado, si se supone que la razón de verosimilitudes es monótona
no creciente en S, las pruebas (6.7) y (6.9) serı́an con las desigualdades
invertidas.
Ejemplo 6.8 Si X1 , . . . , Xn es una muestra aleatoria de una población con
distribución Uniforme(0, θ), para θ > 0. Sea 0 < θ1 < θ2 , el cociente de
verosimilitudes es
Qn
L(θ2 ; x1 , . . . , xn ) ( θ12 )n i=1 I(0,θ2 ) (xi ) ( 1 )n I(0,θ2 ) (yn )
= 1 n Qn = θ12 n ,
L(θ1 ; x1 , . . . , xn ) ( θ1 ) i=1 I(0,θ1 ) (xi ) ( θ1 ) I(0,θ1 ) (yn )
donde Yn = máxi {X1 , . . . , Xn }. Se puede ver que el cociente de verosimili-

tudes es una función monótona no decreciente en la n-ésima estadı́stica de
orden, pues
( n
L(θ2 ; x1 , . . . , xn ) θ1
θ2 si 0 < yn < θ1
=
L(θ1 ; x1 , . . . , xn ) 0 si θ1 < yn < θ2 .
Si se desea probar
H0 : θ ≤ θ0 vs. Ha : θ > θ0 ,
usando el teorema de Karlin-Rubin, una prueba uniformemente más potente
está dada por:
γ : Rechazar H0 si Yn > k,
donde k se puede obtener de
α = P (Yn > k | H0 ) ,
usando la distribución de la máxima estadı́stica de orden.
Observación 6.7 Por la observación 6.6, cuando se tiene una densidad que
pertenece a la familia exponencial, basta verificar si c (θ) es función creciente
o decreciente de θ para saber si el cociente de verosimilitudes
Pn es monótono (no
decreciente o no creciente, respectivamente) en i=1 d (Xi ) y por el teorema
de Karlin-Rubin, se puede dar la forma Pnde la prueba (uniformemente más
potente), la cual estará en función de i=1 d (Xi ) , pues esta estadı́stica es
suficiente.
Ejemplo 6.9 Sea X1 , X2 , ..., Xn una muestra aleatoria de tamaño n = 49

de una población con distribución Bernoulli de parámetro θ y suponga que
se desea probar:
H0 : θ ≤ 0.01 vs. Ha : θ > 0.01.
La distribución Bernoulli pertenece a la familia exponencial

x
1−x θ
f (x; θ) = θx (1 − θ) = (1 − θ)
1−θ
x ln( 1−θ
θ
)
= (1 − θ) e ,
con
θ
c (θ) = ln ,
1−θ
la cual es una función creciente, por lo que esta
Pn familia de densidades tiene
cociente de verosimilitudes no decreciente en i=1 Xi . De acuerdo al teorema
de Karlin-Rubin, una prueba uniformemente más potente está dada por:
49
X
γ : Rechazar H0 si Xi > k.
i=1
6.4. La razón de verosimilitudes generalizadas

Suponga que se tiene una muestra aleatoria de f (x; θ) con θ ∈ Θ y se desea
probar
H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 ,
6.4. La razón de verosimilitudes generalizadas 257
donde Θ0 ⊆ Θ y Θ1 ⊆ Θ; Θ0 y Θ1 son disjuntos. Usualmente Θ1 = Θ − Θ0 .

Por ejemplo, si se tiene una muestra aleatoria de una distribución N (µ, 100)
y se desea probar H0 : µ ≤ 75 vs. Ha : µ > 75, aquı́ Θ0 = {µ : µ ≤ 75},
Θ = {µ : −∞ < µ < ∞} y Θ − Θ0 = {µ : µ > 75}.
La idea utilizada en el caso simple contra simple y resumida en el lema
de Neyman-Pearson, sugiere una generalización en algún sentido del cocien-
te o razón de verosimilitudes, en virtud de que subyace la idea intuitiva de
que una cantidad ası́ tenderá a ser pequeña cuando H0 es falsa, no obstan-
te, la pregunta es ¿cómo debe hacerse esa generalización? La respuesta se
encuentra en esta sección.
6.4.1. La prueba de la razón de verosimilitudes genera-

lizadas
Definición 6.10 (razón de verosimilitudes generalizadas).
Sea X1 , ..., Xn una muestra aleatoria de f (x; θ) y sea L(θ; x1 , ..., xn ) la fun-
ción de verosimilitud, donde θ ∈ Θ. La razón de verosimilitudes generalizadas
se define como
máx L(θ; x1 , ..., xn )
θ∈Θ0
λ= .
máx L(θ; x1 , ..., xn )
θ∈Θ
Observe que la expresión tomada en el denominador es el valor máximo

que puede alcanzar la verosimilitud L (θ) dentro de Θ que es el campo de
variación de θ. Es decir, máx L(θ; x1 , ..., xn ) = L θb , donde θb es el estimador
θ∈Θ
Como se está considerando el cociente de dos cantidades no negativas,
λ ≥ 0. Como el máximo considerado en el denominador es sobre un conjunto
de valores de θ mayor al considerado en el denominador, λ ≤ 1. Por lo tanto,
se cumple que 0 ≤ λ ≤ 1.
Note también que λ es una función de x1 , ..., xn de modo que cuando las
observaciones se sustituyen por X1 , X2 , ..., Xn , se puede escribir Λ en vez de
λ.
Ası́, el denominador de Λ es la función de verosimilitud evaluada en
el estimador máximo verosı́mil, mientras que el numerador dependerá de
los valores en Θ0 . En ocasiones Θ0 consiste de un sólo valor (cuando se
tiene una hipótesis nula simple H0 : θ = θ0 ) y, en ese caso particular,
máx L(θ; x1 , ..., xn ) = L (θ0 ).
θ∈Θ0
Prueba de la razón de verosimilitudes generalizadas o principio de

la razón de verosimilitudes generalizadas.
Esta prueba establece la siguiente como regla de decisión.
“Rechazar H0 : θ ∈ Θ0 si y sólo si λ ≤ k, donde k es alguna constante fija

tal que 0 ≤ k ≤ 1”.
La constante k se especifica fijando el tamaño de la prueba y Λ es la

estadı́stica de prueba.
Intuitivamente, la prueba de la razón de verosimilitudes generalizadas
tiene sentido, ya que λ tenderá a ser más pequeña cuando H0 es falsa, debido
a que el denominador de λ será mayor que el numerador.
En general, se tendrán buenas pruebas con este método. El problema pue-
de ser encontrar el máx L(θ) o la distribución de Λ, la cual es indispensable
para la evaluación de la potencia de la prueba.
Ejemplo 6.10 Sea X1 , ..., Xn una muestra aleatoria de tamaño n > 1 de

una distribución N (µ, σ 2 ) con σ 2 > 0. Se quiere probar
H0 : µ = 0 vs. Ha : µ 6= 0.
En este caso
Θ = {(µ, σ 2 ) : −∞ < µ < ∞, 0 < σ 2 < ∞}
y
Θ0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < ∞}.
Para θ∈ Θ,
n/2 n
!
1 1 X
L(θ) = L(θ; x1 , ..., xn ) = exp − 2 (Xi − µ)2 . (6.10)
2πσ 2 2σ i=1
Para θ∈ Θ0 ,
n/2 n
!
1 1 X 2
L(θ) = L(θ; x1 , ..., xn ) = exp − 2 X . (6.11)
2πσ 2 2σ i=1 i
A continuación se va a obtener el numerador de λ.

Tomando logaritmos en (6.11):
n
n 1 X 2
ln 2πσ 2 − 2

ln L(θ) = − X ,
2 2σ i=1 i
Pn 2
∂ n 1 i=1 Xi
ln L(θ) = − + ,
∂σ 2 2 σ2 2(σ 2 )2
igualando a cero, se obtiene que:

n
2 1X 2
σ̂ = X .
n i=1 i
Entonces,
 n/2  
n
1 1 X
máx L(θ) =  Pn  exp − Pn · Xi2 
θ∈Θ0 Xi2 2
i=1 Xi
2π i=1
n 2 n i=1
n/2
n
= Pn e−n/2 .
2π i=1 Xi2
Ahora, se obtendrá el denominador de λ. Se sabe que para la distribución
2
Normal(µ,
Pnσ ) los estimadores máximo verosı́miles están dados por µ̂ = X̄ y
1
σ̂ = n i=1 (Xi − X̄)2 . Sustituyendo en (6.10):
2
" #n/2 Pn !
2
1 1 i=1 (Xi − X̄)
L(θ) = Pn 2
exp − Pn 2
i=1 (Xi −X̄) 2 i=1 (Xi −X̄)
2π n n
n/2
n
= Pn e−n/2 ,
2π i=1 (Xi − X̄)2
la cual es la verosimilitud evaluada en los estimadores máximo verosı́miles.
h in/2
máx L(θ) n
e−n/2 Pn n/2
(Xi − X̄)2
Pn 2
θ∈Θ0 2π i=1 Xi i=1
∴λ= =h in/2 = Pn 2 .
máx L(θ) Pn n −n/2 i=1 Xi
θ∈Θ
2π (Xi −X̄) 2 e
i=1
Pero,
n
X n
X n
X
(Xi − X̄)2 = Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1 i=1
n
X n
X
= Xi2 − 2X̄nX̄ + nX̄ 2 = Xi2 − 2nX̄ 2 + nX̄ 2 .
i=1 i=1
Pn 2
Pn 2 2
Entonces, = i=1 (Xi − X̄) + nX̄ .
i=1 Xi
Por lo tanto,
Pn n/2
(Xi − X̄)2

1
λ = Pn i=1 2 2
≤k ⇔ n/2 ≤ k
i=1 (Xi − X̄) + nX̄ 1+ Pn nX̄
2
2
i=1 (Xi −X̄)
√
nX̄ 2 −2/n n|X̄| p
⇔ 1 + Pn 2
≥ k ⇔ q ≥ k −2/n − 1
i=1 (Xi − X̄)
Pn 2
(X − X̄) i=1 i
√
n|X̄|
q
⇔ q Pn 2
≥ (n − 1)(k −2/n − 1) = k 0 .
i=1 (Xi −X̄)
n−1
Por lo tanto, la prueba de la razón de verosimilitudes generalizadas establece

lo siguiente: √
n|X̄|
“Rechazar H0 si q Pn 2
≥ k 0 ”,
i=1 (Xi −X̄)
n−1
0
donde k puede obtenerse fijando el tamaño de la prueba α y conociendo la
distribución de la estadı́stica de prueba. En este caso:
√ X̄
√
nX̄ σ/ n
q Pn
2
= r P ∼ t(n−1) ,
i=1 (Xi −X̄)
n 2

i=1 (Xi −X̄)
n−1 σ2 /(n − 1)
2 2
porque X̄ ∼ N (µ, σn ) y, bajo H0 , X̄ ∼ N (0, σn ). Entonces, X̄
√
σ/ n
∼ N (0, 1)
y Pn 2
(n − 1)S 2 i=1 (Xi − X̄)
= ∼ χ2(n−1) .
σ2 σ2
Ejemplo 6.11 (Comparar medias de 2 muestras normales independientes).
Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución
N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una población
con distribución N ormal(µy , σy2 ), donde ambas muestras son independientes
y además se desconocen todos los parámetros. Se desea probar
H0 : µx = µy vs. Ha : µx 6= µy .
El espacio paramétrico general Θ está definido como un espacio de di-

mensión cuatro,
Θ = (µx , µy , σx2 , σy2 ); µx ∈ R, µy ∈ R, σx2 > 0, σy2 > 0 .

Bajo la hipótesis nula H0 : µx = µy el espacio paramétrico Θ0 está definido

como un espacio de dimensión tres,
Θ0 = (µ, σx2 , σy2 ); µ ∈ R, σx2 > 0, σy2 > 0 ,

donde µ denota la media común bajo H0 , es decir µx = µy = µ.

La función de verosimilitud se define como
L (θ) = L(µx , µy , σx2 , σy2 ; x, y)

"m  
# Y n
(xi − µx )2 2

Y 1 1 (y j − µ y )
= p exp − 2
 q exp − 2

i=1
2πσ 2
x
2σ x j=1 2πσ 2 2σ y
y
m/2 ( m
) n/2
1 1 X 2 1
= exp − (x i − µx )
2πσx2 2σx2 i=1 2πσy2
 
 1 X n 
exp − 2 (yj − µy )2 .
 2σy 
j=1
Bajo Θ los estimadores Pmáximo verosı́miles son µbx = x, µ

by = y, σbx2 =
1
P m 2 2 1 n 2
m i=1 (xi − x) y σ
by = n j=1 (yj − y) , ası́ que el supremo de la función
de verosimilitud L bajo Θ es
máx L (θ)
θ∈Θ
m/2 !n/2
m n n mo n no
= Pm Pn exp − exp − .
2π i=1 (xi − x)2 2π j=1 (yj − y)2 2 2
Si se define µx y µy igual a µ, que es lo que se supone bajo H0 , serı́a

difı́cil maximizar L respecto a µ, σx2 y σy2 , ya que esto equivaldrı́a a encontrar
el estimador de µ dado como la raı́z de una ecuación cúbica. Por lo tanto,
el cociente de verosimilitudes generalizadas λ serı́a una función complicada
en el sentido de encontrar su distribución de probabilidad asociada, lo cual
complica encontrar la región crı́tica y el tamaño del error tipo I.
Para muestras grandes podrı́an usarse las propiedades asintóticas del
cociente de verosimilitudes generalizadas, tal que −2 ln Λ ∼ χ2(1) , y se re-
chazarı́a H0 cuando −2 ln L sea lo suficientemente grande. Este resultado se
analizará en la siguiente sección.
Otra alternativa es suponer que las dos poblaciones tienen la misma va-
rianza, σx2 = σy2 = σ 2 , el problema se simplifica, y resulta que
Θ = (µx , µy , σ 2 ); µx ∈ R, µy ∈ R, σ 2 > 0 ,

y bajo H0 : µx = µy = µ se tiene que
Θ0 = (µ, σ 2 ); µ ∈ R, σ 2 > 0 .

Además, los estimadores máximo verosı́miles bajo Θ son µ bx = x, µ

by = y, y
 
m n
2 1 X 2
X
σ
b = (xi − x) + (yj − y)2  ,
m + n i=1 j=1
y por lo tanto,
 (m+n)/2

m+n m+n
máx L (θ)= hP i exp − .
θ∈Θ
2π
m
(x − x) 2+
Pn
(y − y)2 2
i=1 i j=1 j
Bajo la hipótesis nula H0 los estimadores máximo verosı́miles son:

 
m n
1 X X mx + ny
µ
b= xi + yj  =
m + n i=1 j=1
m+n
y
 
m n
1 X X
b2
σ =  (xi − µ̂)2 + (yj − µ̂)2 
m+n i=1 j=1
 
m n
1  X X mn
= (xi − x)2 + (yj − y)2 + (x − y)2  ,
m + n i=1 j=1
m + n
ası́ que el supremo de la función de verosimilitud L bajo Θ0 es:
máx L (θ) =
θ∈Θ0
 (m+n)/2

m+n m+n
 hP i ×exp − .
2π
m
− x)2
Pn
+ j=1 (yj − y)2 + mn
(x − y)2 2
i=1 (xi m+n
Finalmente, el cociente de verosimilitudes generalizadas es:

máxθ∈Θ0 L (θ)
λ =
máxθ∈Θ L (θ)
 hP
m Pn i (m+n)/2
2 2
(x
i=1 i − x) + (y
j=1 j − y)
=  hP i
m 2+
Pn 2 + mn (x − y)2
(x
i=1 i − x) j=1 j(y − y) m+n
mn 2
!−(m+n)/2
m+n (x − y)
= 1 + Pm 2
Pn 2
,
i=1 (xi − x) + j=1 (yj − y)
lo que implica que la regla de decisión es rechazar H0 al nivel α si λ ≤ λ0 .

Note que λ puede definirse en términos de T , donde
q
mn
m+n (x − y)
T = hr i ,
Pm 2+
Pn 2 /(m + n − 2)
i=1 (x i − x) j=1 (y j − y)
ası́ que
−(m+n)/2
λ = 1 + T 2 /(m + n − 2)

,
además se sabe que T es una variable aleatoria con distribución t de Student
con m + n − 2 grados de libertad, es decir, T ∼ t(m+n−2) . Desarrollando la
desigualdad se puede llegar a que se rechaza H0 al nivel α si
λ ≤ λ0
2
−(m+n)/2
1 + T /(m + n − 2) ≤ λ0
2
1 + T /(m + n − 2) > λ− m+n
2

2

2 − m+n
T > λ0 − 1 × (m + n − 2)
T2 > λ1
|T | > λ2 .
Por lo tanto, la prueba resulta en:
γ : Rechazar H0 al nivel α si |T | > λ2 = q1−α/2 ,
donde q1−α/2 es el cuantil 1 − α/2 de una distribución t(m+n−2) .
Ejemplo 6.12 (Comparar medias de 2 muestras normales apareadas).

Sea (X1 , Y1 ), . . . , (Xn , Yn ) una muestra aleatoria bivariada de dos po-
blaciones con distribución N ormal(µx , σx2 ) y N ormal(µy , σy2 ), donde ambas
muestras son independientes, y además se desconocen todos los parámetros.
Se desea probar
Usualmente esta prueba de hipótesis se plantea como
H0 : µx − µy = 0 vs. Ha : µx − µy 6= 0.
Se puede resolver de manera sencilla definiendo una nueva variable Z =

X−Y . Entonces el problema se simplifica a una muestra aleatoria Z1 , . . . , Zn ,
donde Zi = Xi − Yi para i = 1, . . . , n, tal que la muestra aleatoria tiene una

distribución N ormal(µz , σz2 ), donde µz = µx − µy y σz2 = σx2 + σy2 .
Por lo tanto, el problema de prueba de hipótesis se plantea como
H0 : µz = 0 vs. Ha : µz 6= 0,
para una población normal con varianza σz2 desconocida.
Ejemplo 6.13 (Comparar varianzas de 2 muestras normales independien-
tes).
Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución
N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una población con
distribución N ormal(µy , σy2 ), donde ambas muestras son independientes, y
además se desconocen todos los parámetros. Se desea probar
H0 : σx2 = σy2 vs. Ha : σx2 6= σy2 .
Si ambas muestras son independientes se sabe que
Pm
(Xi − X)2 /σx2 (m − 1)
F = Pi=1 n 2 2
j=1 (Yj − Y ) /σy (n − 1)
tiene una distribución F de Fisher con m − 1 y n − 1 grados de libertad.

En particular, bajo H0 : σx2 = σy2 = σ 2 , entonces la estadı́stica F resulta
en Pm
(Xi − X)2 /(m − 1)
F = Pi=1n 2
.
j=1 (Yj − Y ) /(n − 1)
La estadı́stica F puede obtenerse también planteando el cociente de verosi-
militudes λ.
Note que F tenderá a ser grande cuando σy2 > σx2 , y viceversa. Bajo esta
idea, si se considera H0 : σx2 = σy2 contra Ha : σx2 6= σy2 , la prueba es una
prueba bilateral, ası́ que se rechazarı́a H0 cuando la estadı́stica de prueba F
es muy grande o muy pequeña. Por lo tanto, la prueba resulta en:
γ : Rechazar H0 al nivel α si F < qα/2 ó F > q1−α/2 ,
donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución
F(m−1,n−1) , respectivamente.
6.4.2. La distribución asintótica de la razón de verosi-

militudes
Como se mencionó anteriormente, existen muchos casos en los que es muy
difı́cil encontrar la distribución de la razón de verosimilitudes generalizadas.
En estas circunstancias será de utilidad el siguiente resultado, el cual estable-

ce la distribución asintótica de −2 ln λ. únicamente se hará la demostración
para el caso más común, el cual se enuncia en el teorema 6.2.
Proposición 6.1 Sea X1 , ..., Xn una muestra aleatoria de f (x; θ) donde

θ = (θ1 , ..., θk ). Para la prueba de hipótesis
H0 : θ1 = θ1◦ , . . . , θr = θr◦ , θr+1 , . . . , θk ,
donde θ1◦ , θ2◦ , ..., θr◦ son valores fijos conocidos y θr+1 , ..., θk no están especi-
d
ficados, se cumple que −2 ln λ → χ2(r) (converge en distribución) cuando H0
es cierta.
Demostración. Ver Stuart, A., Ord, J. K., y Arnold, S. (1999).
Note que 1 ≤ r ≤ k; por ejemplo, si r = k, todos los parámetros es-

tarı́an especificados. Como θ = (θ1 , ..., θk ), el espacio paramétrico Θ es k-
dimensional y como H0 especifica a r de las componentes de θ, la dimensión
de Θ0 es k − r. Ası́, los grados de libertad de la distribución asintótica de λ
pueden interpretarse de dos formas: como el número de parámetros especifi-
cados por H0 , o como la diferencia entre las dimensiones de Θ y Θ0 , la cual
es k − (k − r).
Teorema 6.2 Para probar las hipótesis H0 : θ = θ0 vs. Ha : θ 6= θ0 , donde

θ es un parámetro, suponga que X1 , . . . , Xn es una muestra aleatoria de una
población con función de densidad f (x; θ), la cual satisface las condiciones de
regularidad, y sea θ̂ el estimador máximo verosı́mil de θ. Entonces bajo H0 ,
d
cuando n → ∞, se cumple que −2 ln λ → χ2(1) (converge en distribución).
Demostración. Primero se usan las series de Taylor para la expansión de

ln L(θ; x) alrededor de θ̂,
(θ − θ̂)2
ln L(θ; x) = ln L(θ̂; x) + (θ − θ̂)(ln L(θ̂; x))0 + (ln L(θ̂; x))00 + · · · ,
2!
donde
!0
00 L0 (θ̂; x)
ln L(θ̂; x) =
L(θ̂; x)
L00 (θ̂; x) (L0 (θ̂; x))2
= −
L(θ̂; x) (L(θ̂; x))2
00
L (θ̂; x)
0 2
= − ln L(θ̂; x)
L(θ̂; x)
L00 (θ̂; x)
= ,
L(θ̂; x)
pues (ln L(θ̂;x))0 = 0.
Sustituyendo la expansión de Taylor para ln L(θ0 ; x) en
L(θ0 ; x)
−2 ln λ(x) = − − 2 ln
L(θ̂; x)
= −2 ln L(θ0 ; x) + 2 ln L(θ̂; x)
h i
= −2 ln L(θ0 ; x) − ln L(θ̂; x) ,
se obtiene que:
" #
(θ0 − θ̂)2
−2 ln λ(x) ≈ −2 (θ0 − θ̂)(ln L(θ̂; x))0 + (ln L(θ̂; x))00
2!
" #
(θ0 − θ̂)2 00
= −2 (ln L(θ̂; x))
2!
ya que (ln L(θ̂;x))0 = 0. Por lo tanto,

−2 ln λ(x) ≈ −(θ0 − θ̂)2 (ln L(θ̂; x))00
(θ̂ − θ0 )2
= 1 .
−(ln L(θ̂;x))00
Como −(ln L(θ̂; x))00 es la información observada de Fisher, Iˆn (θ̂), y se

p
tiene que n1 Iˆn (θ̂) → I(θ0 ) (en probabilidad), se concluye por la propiedad de
eficiencia asintótica de los estimadores máximo verosı́miles y el teorema de
d
Slutsky3 que −2 ln λ(x) → χ2(1) (en distribución).
3 Si {X } y {Y } son sucesiones de variables aleatorias, tales que X converge a X en

n n n
distribución y Yn converge a a en probabilidad, entonces Xn Yn → aX en distribución.
Ejemplo 6.14 (Comparar proporciones de dos poblaciones independien-

tes). Sea X1 , . . . , Xm una muestra aleatoria de una población con distribu-
ción Bernoulli(θx ), y sea Y1 , . . . , Yn una muestra aleatoria de una población
con distribución Bernoulli(θy ), donde ambas muestras son independientes,
y además se desconocen todos los parámetros. Se desea probar H0 : θx = θy
vs. Ha : θx 6= θy . Esta prueba usualmente se conoce como prueba de compa-
ración de proporciones, y también se puede plantear como
θx θx
H0 : = 1 vs. Ha : 6= 1,
θy θy
o como
H0 : θx − θy = 0 vs. Ha : θx − θy 6= 0.
Para realizar esta prueba se usan las propiedades asintóticas de los esti-
madores máximo verosı́miles. Se tiene que

1
X ∼ N ormal θx , θx (1 − θx )
m
y
1
Y ∼ N ormal θy , θy (1 − θy ) .
n
Además, como las muestras con independientes

1 1
X − Y ∼ N ormal θx − θy , θx (1 − θx ) + θy (1 − θy ) .
m n
Bajo H0 : θx = θy = θ,

1 1
X −Y ∼ N ormal 0, + θ(1 − θ)
m n
X −Y
⇒ q ∼ N ormal (0, 1) .
1
+ n1 θ(1 − θ)

m
El estimador máximo verosı́mil de θ es:

Pm Pn
i=1 xi + j=1 yj mx + ny
θb = = ,
m+n m+n
lo que implica que por propiedades asintóticas de los estimadores máximo
verosı́miles,
X −Y d
q → N ormal (0, 1) .
1 1 b

m + n θ(1 − θ)
b
Finalmente, para probar H0 : θx = θy vs. Ha : θx 6= θy , se utiliza como

estadı́stica de prueba
x−y
Z=q
1
+ 1 θ(1

b − θ)
b
m n
y la prueba es:
γ : Rechazar H0 al nivel α si |Z| > q1−α/2 ,
donde q1−α/2 es el cuantil 1 − α/2 de una distribución normal estándar.
Ejemplo 6.15 (Distribución asintótica del cociente de verosimilitudes).

Contrastar las hipótesis H0 : µ1 = µ2 , σ12 > 0, σ22 > 0 vs. Ha : µ1 6= µ2 ,
σ1 > 0, σ22 > 0, donde µ1 y σ12 son la media y varianza de una población
2
normal, y µ2 y σ22 son la media y la varianza de otra población normal.

El espacio paramétrico es de k = 4 dimensiones, y en la hipótesis nula se
especifica r = 1 parámetros (µ1 = µ2 y −∞ < µ2 < ∞). Ası́ que bajo H0 la
distribución asintóntica de −2 ln λ es χ2(1) .
6.5. El valor p (p-value) y las pruebas estadı́sti-

camente significativas
Un enfoque complementario para pruebas de hipótesis es el cálculo de una
cantidad llamada p-value, en español es frecuentemente llamado nivel de
significancia descriptivo o valor p. Un p-value está definido como la pro-
babilidad, cuando se supone que la hipótesis nula H0 es cierta, de obtener
un resultado muestral tan extremo como, ó más extremo que (en dirección
análoga a la hipótesis alternativa dentro de la región crı́tica), el resultado
muestral observado. Esta probabilidad se puede calcular para los valores de
la estadı́stica, o de alguna función de ésta, como el estimador muestral del
parámetro en la hipótesis nula.
Por ejemplo, suponga que se está probando
H0 : µ = 50 vs. Ha : µ > 50,
y se observa el resultado muestral para X de 52. El p-value se calcula como

P(X ≥ 52|µ = 50). La dirección apropiada aquı́ es de acuerdo a los valores
de X que son mayores o iguales que 52, ya que la alternativa es µ mayor que
50.
6.5. El valor p (p-value) 269
Definición 6.11 Sea T (X) una estadı́stica de prueba tal que valores gran-
des de T dan evidencia a favor de la hipótesis alternativa. Para cada posible
valor de X,
x = (x1 , x2 , ..., xn ) ∈ X,
se define el p-value como
p (x) = máx P [T (X) ≥ t (x)] ,
θ∈Θ0
donde t (x) es el valor de la estadı́stica T (X) en x.

La desigualdad dentro de la probabilidad serı́a invertida si valores pe-
queños de T dan evidencia a favor de la hipótesis alternativa.
Un p-value o valor p, p(x), cumple que 0 ≤ p(x) ≤ 1 para cada valor
de la muestra x. Valores pequeños de p(x) dan evidencia de que la hipótesis
alternativa Ha es verdadera.
Es fácil construir una prueba de nivel α basada en p(X). La prueba
rechaza la hipótesis nula H0 si y sólo si p(x) ≤ α. Una ventaja de reportar el
resultado de una prueba de hipótesis usando el p-value es que cada persona
puede elegir el nivel α, llamado el nivel de significancia de la prueba,
que considere apropiado, entonces puede comparar el p(x) reportado con α y
saber si los datos llevan a aceptar o rechazar H0 . Además, entre más pequeño
sea el p-value, mayor evidencia habrá para rechazar H0 . Por consiguiente, un
p-value reporta el resultado de una prueba sobre una escala más continua,
en lugar de sólo tomar la decisión dicotómica de “aceptar H0 ” o “rechazar
H0 ”.
Si un p-value es pequeño, se dice que la muestra produjo un resultado
que no es usual bajo el supuesto de la hipótesis nula. Como el resultado es
un hecho, esto quiere decir que la afirmación de la hipótesis nula es incon-
sistente con el resultado muestral. En otras palabras, se deberı́a rechazar la
hipótesis nula. Por otro lado, si un p-value es grande, el resultado muestral es
consistente con la hipótesis nula, y por tanto la hipótesis nula no se rechaza.
Si se desea utilizar el p-value para tomar una decisión acerca de si H0 será
rechazada, se tiene que seleccionar un valor para α, el nivel de significancia.
Si el p-value es menor o igual que α, la decisión es rechazar H0 (la prueba
es estadı́sticamente significativa); de otra forma, la decisión es no rechazar
H0 . El p-value es por lo tanto el más pequeño nivel de significancia para el
cual la hipótesis nula serı́a rechazada. El p-value proporciona no solamente
un medio de tomar una decisión acerca de la hipótesis nula, sino también
alguna idea acerca de qué tan fuerte es la evidencia en contra de la hipótesis
nula.
Por ejemplo, suponga que un conjunto de datos A, con una estadı́stica
de prueba T1 tiene un p-value de 0.012, mientras el conjunto de datos B con
una estadı́stica de prueba T2 (ó T1 ) tiene un p-value de 0.045. La evidencia

en contra de la hipótesis nula es mucho más fuerte para el conjunto de datos
A que para el conjunto de datos B porque el resultado muestral observado
es mucho menos probable en el conjunto de datos A.
Si se utiliza la distribución asintótica de una estadı́stica de prueba para
encontrar un p-value, a éste se le puede llamar un p-value aproximado o
p-value asintótico.
Si una prueba tiene una región de rechazo bilateral (de dos colas), no hay
una dirección especı́fica para calcular el p-value. Un enfoque es simplemente
reportar el más pequeño de los dos p-values de las colas, indicando que es el
de una cola. Si la distribución es simétrica, tiene sentido tomar el doble del
p-value para una cola y este criterio es el más utilizado en la práctica. Este
procedimiento se usa aún si la distribución no es simétrica.
Observación 6.8 Los conceptos y resultados desarrollados en el presente
capı́tulo proporcionan una prueba o región crı́tica basada en una estadı́sti-
ca, de la cual debe conocerse su distribución para el cálculo de un cuantil
asociado con dicha distribución y con el tamaño de la prueba α.
Sin embargo, la mayorı́a de los programas de cómputo estadı́stico repor-
tan, en lugar de esta forma tradicional de las pruebas, el denominado p-value
recién definido.
Tratando al valor particular de la estadı́stica (obtenido con los datos)
como un cuantil asociado a la distribución de dicha estadı́stica, se puede
hacer un análisis desde otra perspectiva, comparando probabilidades. Esto
es, la probabilidad asociada al valor particular de la estadı́stica (basado en
los datos) tratado como un cuantil y la probabilidad que representa el valor
α.
Ası́, una prueba de tamaño α: rechazar H0 basándose en la estadı́stica
T (X) , puede expresarse de una manera análoga como “Rechazar H0 si el
p-value es menor que α”. Esta probabilidad asociada al valor particular de la
estadı́stica corresponde a una función de la probabilidad de que la variable
aleatoria que sustenta la prueba sea menor que el valor especı́fico obtenido
de la información de la muestra particular.
En este contexto, α recibe el nombre de nivel de significancia y se debe
comparar con el p-value obtenido, de tal manera que se rechaza H0 si es
p-value ≤ α, diciendo en este caso que la prueba es estadı́sticamente signifi-
cativa.
Ejemplo 6.16 Suponga que se desea obtener una prueba uniformemente
más potente de tamaño α para una muestra aleatoria de tamaño n de una
población con distribución Exponencial con parámetro θ, donde:
H0 : θ = θ0 vs. Ha : θ > θ0 .
De acuerdo al lema de Neyman-Pearson, con θ1 > θ0 , se considera Ha : θ =

θ1 , obteniendo:
Pn
θ0n e−θ0 i=1 xi
λ = Pn
θ1n e−θ1 i=1 xi
n
θ0 Pn
= e−(θ0 −θ1 ) i=1 xi < k,
θ1
de donde se obtiene la región crı́tica
( n
)
X
C∗ = (x1 , x2 , ..., xn ) ∈ X | xi < c
i=1
o, equivalentemente, la prueba es
n
X
γ : Rechazar H0 si xi < c,
i=1
donde c corresponde al cuantil de una distribución Gama(n, θ0 ) . La prueba

resultante es uniformemente más potente debido a que su forma es la misma
para cada posible valor Pnconsistente con la hipótesis alternativa.
Sea T (X) = 2θ0 i=1 Xi , note que, bajo H0 , T (X) tiene distribución
χ2(2n) . Ası́ que la prueba también puede expresarse como
γ : Rechazar H0 si t (x) < χ (α) ,
donde χ (α) corresponde al cuantil α de una variable aleatoria con distribu-

ción χ2(2n) .
El p-value se calcula como
Z t n
1 1 1
p = P (T < t) = xn−1 e− 2 x dx.
0 Γ (n) 2
Ası́, la prueba puede reexpresarse como:
γ : Rechazar H0 si p < α.
Observe que si t (x) < χ (α) , entonces p < α.
Ejemplo 6.17 Sea X1 , X2 , ..., Xn una muestra aleatoria de tamaño n = 49

de una población con distribución Bernoulli de parámetro θ y suponga que
se desea probar:
H0 : θ ≤ 0.01 vs. Ha : θ > 0.01.

Suponga que la prueba está dada de la siguiente manera:

49
X
γ : Rechazar H0 si Xi > c,
i=1
prueba que se justifica mediante el teorema de Karlin-Rubin que se aborda

en la Sección 6.3.2. P49
Bajo H0 , T (X) = i=1 Xi tiene distribución Binomial con n = 49 y
θ = 0.01. Si se desea obtener una prueba de tamaño α = 0.05 o inferior, se
puede proceder a buscar c como:
49
!
X
P Xi > c | H0 = 0.05 (6.12)
i=1
o
49
X 49 t 49−t
(0.01) (0.99) = 0.05, (6.13)
t=c+1
t
P49
donde t = i=1 xi y se desea encontrar c tal que la suma anterior sea de 0.05
(o inferior). Una forma alternativa de pensar el problema es, para diferentes
valores de t (x) , encontrar el valor p o p-value correspondiente, como se
muestra en la siguiente tabla:
P
49
t (x1 , x2 , ..., xn ) P i=1 Xi > t (x) | H 0
0 0.388883
1 0.086411
2 0.013084
3 0.001480
4 0.000132
P49
Ası́, si la muestra es tal que t (x) = i=1 xi = 1, el p-value correspondiente
P49
es 0.086411, pero si t (x) = i=1 xi = 2, el p-value es de 0.013084. Como se
ha establecido que el tamaño de la prueba sea de al menos α = 0.05, es claro
que la prueba es estadı́sticamente significativa si T (X) es mayor o igual que
2, ya que con t = 1 el p-value es mayor que α. Por lo tanto, la prueba se
puede establecer como
49
X
γ : Rechazar H0 si Xi ≥ 2,
i=1
o
γ : Rechazar H0 si p ≤ 0.013084.
Observe que en el ejemplo anterior, de haber usado (6.12), que es equi-

valente a (6.13), se tendrı́a que encontrar el valor de c (de hecho, 1 < c < 2,
para el valor exacto α = 0.05), mientras que con el enfoque del p-value se pu-
do deducir el nivel de significancia mı́nimo para el que se rechaza la hipótesis
nula, el cual
P49corresponde a cuando el valor de la estadı́stica toma el valor 2
o mayor ( i=1 Xi sólo toma valores enteros).
Ejemplo 6.18 (De nuevo la dama del té). Ahora se hará una variante del
caso 1 expuesto al inicio de este capı́tulo. Suponga que se consideran 20
personas en el experimento, una de ellas la dama que asegura discriminar
entre las dos posibles mezclas -té, leche; leche, té-. A cada participante se
le da a probar el contenido de dos tazas con las composiciones en cuestión
y resulta que 12 de ellas las identificaron correctamente, pero la dama del
té hizo la clasificación de manera incorrecta. Bajo las condiciones adecuadas
de aleatoriedad, es decir, cada taza tiene la misma probabilidad de contener
cualquiera de las mezclas, no hay comunicación entre los participantes, entre
otras; se puede suponer que cada individuo tiene probabilidad 0.5 de iden-
tificar correctamente las mezclas adivinando, ası́ que el número esperado de
personas que podrı́an acertar sin tener habilidades de discriminación serı́a
de 10.
Ante la evidencia de los datos, es decir, que 12 personas hayan clasificado
correctamente las tasas, se puede pensar que este resultado no es inconsis-
tente con el valor esperado de 10, sin embargo, se calculará a continuación el
p-value para analizar mejor este resultado. Suponiendo que la hipótesis nula
es que la probabilidad de éxito sea de 21 , la probabilidad de que se obtengan
12 éxitos o más en 20 ensayos Bernoulli es:
20 t 20−t 20
X 20 1 1 20 20 20 1
= + + ... +
t=12
t 2 2 12 13 20 2
= 0.34,
de acuerdo a la cual, no hay evidencia basada en los datos de que el número

correcto de respuestas haya sido consecuencia de algún poder de discrimina-
ción, es decir, el resultado es consistente con la hipótesis de que las personas
están adivinando. Dicho de otra manera, los datos son congruentes con la
hipótesis nula o la prueba es no significativa.
Pero, ¿qué pasa con la dama del té?. Ella asegura que sus habilidades de
discriminación no se pueden descartar con un sólo error.
A continuación se llevan a cabo algunos cálculos para obtener el p-value,
para diferentes valores de n, correspondiente a la probabilidad de cometer
uno o ningún error. Ası́, si n = 5, esta probabilidad es de:
5 0 4 1 5
5 1 1 5 1 1 5 5 1
+ = +
5 2 2 4 2 2 5 4 2
= 0.1875,
que es equivalente a 5 o 4 éxitos de un total de n = 5 ensayos. En la siguiente

tabla se muestran las probabilidades de cometer uno o ningún error para
diferentes valores de n:
n p-value
5 0.1875
6 0.1094
7 0.0625
8 0.0352
9 0.0195
10 0.0107
11 0.0059
12 0.0032
13 0.0017
14 0.0009
15 0.0002
Note la diferencia entre los distintos valores. Por ejemplo, si n = 5, uno o

ningún error serı́a consistente con la hipótesis nula, pero si n = 11, no.
Observación 6.9 En el ejemplo anterior, y de manera general, el p-value es

una función decreciente del tamaño de la muestra, de tal manera que cuando
se tiene un tamaño de muestra grande, es más plausible que una prueba sea
estadı́sticamente significativa que cuando se cuenta con un tamaño pequeño
de muestra. Esto lleva a la conclusión de que hay que tener cuidado con la
interpretación que se le da al p-value, de tal manera que lo recomendable es
considerarlo de manera conjunta con otros aspectos del estudio que se esté
llevando a cabo o en el contexto cientı́fico del fenómeno analizado.
Para una mayor discusión al respecto, se recomienda consultar Berger y
Sellke (1987) y Schervish (1996).
Observación 6.10 Para calcular el p-value correspondiente a una región

de rechazo bilateral, se obtiene como:
p(x) = 2 mı́n {P[T (X) ≥ t(x)] , P[T (X) ≤ t(x)]} .

6.6. Algunas pruebas basadas en razón de verosimilitudes 275
6.6. Algunas pruebas basadas en la razón de

verosimilitudes generalizadas
Las pruebas basadas en el cociente o razón de verosimilitudes generalizadas,
ası́ como aquéllas que usan su distribución asintótica Ji-cuadrada, se utilizan
ampliamente en las diferentes ramas de la estadı́stica.
Por ejemplo, hay una conexión interesante entre estas pruebas y el lla-
mado criterio de información de Akaike o AIC para comparar modelos con
diferente número de parámetros. Esto puede plantearse de manera general
como un modelo cuyo vector de parámetros pertenece al espacio paramétri-
co Θ y otro tal que pertenece a Θ0 ⊂ Θ y donde la diferencia entre las
dimensiones de ambos es r. Bajo H0 ,
máx L(θ; x1 , ..., xn ) máx L(θ; x1 , ..., xn )

θ∈Θ0 θ∈Θ
−2 ln = 2 ln (6.14)
máx L(θ; x1 , ..., xn ) máx L(θ; x1 , ..., xn )
θ∈Θ θ∈Θ0
tiene una distribución asintótica χ2(r) . A partir de (6.14) y, usando el hecho

de que la esperanza de una variable aleatoria con distribución Ji-cuadrada
es igual a sus grados de libertad, se obtiene que

r
E ln máx L(θ; x1 , ..., xn ) − ln máx L(θ; x1 , ..., xn ) = ,
θ∈Θ θ∈Θ0 2
lo que sugiere que aún cuando H0 es cierta, la verosimilitud del modelo al-
ternativo será en promedio 2r unidades mayor, donde r es la diferencia de
dimensión entre ambos espacios paramétricos. La idea es rectificar o pena-
lizar el incremento de verosimilitud que se produce por el hecho de ajustar
un mayor número de parámetros. La expresión
2 ln L(θbM V ; x1 , ..., xn ) − 2r,
se conoce como el criterio de Akaike y discrimina más a favor de modelos

simples al restar 2r a la verosimilitud con más parámetros.
Otra aplicación de relevancia de las pruebas basadas en la razón de vero-
similitudes generalizadas es en las llamadas pruebas de bondad de ajuste, las
cuales pueden entenderse como los métodos que examinan qué tan de acuer-
do está una muestra de datos con una distribución dada como su población.
Como ilustración, suponga que se tiene información estadı́stica de 200
pólizas de automóviles registradas en el 2017 en el estado de Puebla y se
requiere determinar la distribución asociada a la frecuencia de la siniestrali-
dad. Dado que la frecuencia está relacionada a conteos, un actuario planea
probar si la frecuencia de la siniestralidad tiene una distribución Poisson

contra la hipótesis de que no tiene dicha distribución.
En el caso paramétrico que se ha analizado a lo largo de este texto, la
ley de probabilidad usualmente está especificada e involucra solamente un
número finito de parámetros. Por el contrario, en el caso no paramétrico,
la ley de probabilidad no está especificada y el espacio paramétrico es el
espacio de todas las distribuciones (o algún subespacio apropiado de este).
De esta forma, en el caso no paramétrico la formulación básica del problema
frecuentemente requiere un enfoque diferente.
Hay diferentes pruebas no paramétricas, pero a manera de ejemplo y
para ilustrar la importancia de la prueba de la razón de verosimilitudes
generalizadas y su distribución asintótica, se presenta a continuación el caso
de la Ji-cuadrada para bondad de ajuste y el de la independencia en tablas
de contingencia.
6.6.1. Prueba Ji-cuadrada para bondad de ajuste

Karl Pearson introdujo la familia de distribuciones asimétricas como una al-
ternativa a la distribución normal, siendo una de sus principales contribucio-
nes en el contexto de sus estudios relacionados con la teorı́a de la evolución 4 .
En 1900,5 Pearson propuso una medida del ajuste entre una distribución
de probabilidad y una muestra, obteniendo la prueba de la Ji-cuadrada. Esta
prueba sigue siendo uno de los procedimientos estadı́sticos más conocidos y
utilizados en la práctica y se desarrolla como una aplicación de la prueba de
la razón de verosimilitudes generalizadas y su distribución asintótica que se
revisaron en la sección 6.4.
En su forma más simple, se tienen k celdas, en cada una de las cuales debe
caer el resultado de un experimento. Sea pi , i = 1, 2, ..., k, la probabilidad
de que el experimento produzca un resultado que caiga en la i -ésima celda
y sea ni , i = 1, 2, ..., k, elP
número de veces que el resultado cae en la i-ésima
k
celda en un total de n = i=1 ni realizaciones del experimento. En resumen,
se tiene el siguiente esquema:
Celda i 1 2 3 ··· k
Número de observaciones en la celda i n1 n2 n3 ··· nk
Probabilidad de que el resultado esté en la celda i p1 p2 p3 ··· pk
4 Contributions to the mathematical theory of evolution (I a IV) en Philosophical
Transactions of the Royal Society of London.

5 Pearson, K. (1900). “On the criterion that a given system of deviations from the
probable in the case of a correlated system of variables is such that it can be reasonably
supposed to have arisen from random sampling,” Philosophical Magazine 5 th series, 50,
157-175.
Donde se cumple que:

k
X k
X
ni = n y pi = 1.
i=1 i=1
Considerando cada celda por separado, cada vez que el resultado caiga en
dicha celda puede pensarse en un éxito y después de efectuar las n repeticio-
nes del experimento, sólo es relevante el total de veces que el resultado cayó
en la celda. Lo anterior, sugiere asociar una distribución binomial para cada
celda, siendo pi la probabilidad de éxito en un sólo ensayo del experimento
y, como se efectúan n de tales ensayos, el número esperado de éxitos para la
i-ésima celda será la esperanza de la correspondiente variable binomial, es
decir npi . Ası́, para cada una de las celdas se tendrı́a que:
oi n1 n2 . . . nk
ei np1 np2 . . . npk ,
donde oi representa las frecuencias observadas y ei representa las frecuencias

esperadas en un total de n realizaciones del experimento. En este contexto,
es posible plantear el problema de bondad de ajuste mediante la siguiente
pregunta: ¿cómo se puede determinar si un conjunto de resultados experi-
mentales es compatible con los resultados esperados de acuerdo con las pro-
babilidades que fueron postuladas para las celdas? Formalmente, se desea
probar la hipótesis:
H0 : pi = πi , i = 1, 2, ..., k;
donde las πi0 s son los valores postulados de las probabilidades de las celdas.
Ésta es una hipótesis simple; sin embargo, y debido a que ordinariamente no
se tiene una hipótesis alternativa en mente, se emplea aquı́ una prueba de
razón de verosimilitudes generalizadas.
La función de verosimilitud (o densidad conjunta de la muestra), para una
variable aleatoria discreta es la probabilidad de obtener los valores muestrales
observados en el orden en el cual fueron obtenidos, es decir:
L (θ) ≡ L (θ | n1 , n2 , ..., nk ) = pn1 1 pn2 2 pn3 3 ...pknk , donde θ = (p1 , p2 , . . . , pk ).

Pk
Como i=1 pi = 1, solamente k−1 de las pi ’s son parámetros independientes;
por lo tanto, para encontrar
Plos estimadores máximo verosı́miles de las pi ’s,
k−1
se reemplazará pk por 1 − i=1 pi , quedando:
k−1
!nk
nk−1
X
L (θ) = pn1 1 pn2 2 pn3 3 ...pk−1 1− pi .
i=1
La log-verosimilitud está dada por:

k−1
!
X
ln L (θ) = n1 ln p1 + n2 ln p2 + ... + nk−1 ln pk−1 + nk ln 1 − pi
i=1
k−1 k−1
!
X X
= ni ln pi + nk ln 1 − pi .
i=1 i=1
Derivando con respecto a pi e igualando a cero, se obtiene:

∂ ln L (θ) ni nk
= − Pk−1 = 0, i = 1, 2, ..., k − 1
∂pi pi 1 − i=1 pi
ni nk
⇒ = , i = 1, 2, ..., k
pi pk
⇒ ni pk = nk pi , i = 1, 2, ..., k
Sumando las k igualdades se tiene que:
k
X k
X
pk ni = nk pi ,
i=1 i=1
Pk Pk
donde i=1 ni = n y i=1 pi = 1, implicando que:
p k n = nk ,
por lo tanto
nk
. pbk =
n
Este resultado puede generalizarse a las demás pi ’s como:
ni
pbi = , i = 1, 2, ..., k.
n
Bajo la hipótesis nula:
L (θ) = π1n1 π2n2 ...πknk ,
la cual no tiene parámetros desconocidos, por lo que el cociente de verosimi-
litudes generalizadas resulta ser:
máxθ∈Θ0 L (θ)
λ =
máxθ∈Θ L (θ)
π1n1 π2n2 ...πknk
= n1 n1 n2 n2
n
... nnk k

n n
n n n
nπ1 1 nπ2 2

nπk k
= ... ,
n1 n2 nk
donde cada ni tiene distribución Binomial(n, pi ) . Encontrar la distribución

de λ es complicado, ası́ que se puede utilizar la distribución asintótica de
-2 ln λ como una Ji-cuadrada con grados de libertad igual a la diferencia en
el número de parámetros independientes no especificados bajo Θ y Θ0 , en
este caso, k − 1. Entonces la prueba se reduce a considerar:
k
X nπi
−2 ln λ = −2 ni ln ,
i=1
ni
como una variable aleatoria con distribución Ji-cuadrada con k − 1 grados

de libertad y la región crı́tica queda determinada por:
λ ≤ λ0 ,
si y sólo si
ln λ ≤ ln λ0 ,
si y sólo si
−2 ln λ ≥ −2 ln λ0 = c,
donde
k
X nπi
−2 ln λ = −2 ni ln
i=1
ni
k
X πi
= −2 ni ln
i=1
ni /n
k
X ni
= −2 ni ln πi − ln . (6.15)
i=1
n
Por lo tanto, la región crı́tica es:

C = {−2 ln λ ≥ c} ,
o ( )
k
X ni
C = −2 ni ln πi − ln ≥c ,
i=1
n
donde c es tal que
P [−2 ln λ ≥ c | H0 ] = α.
Karl Pearson propuso la siguiente expresión como estadı́stica de prueba
para el problema de bondad de ajuste:
k 2
X (ni − ei )
T = , (6.16)
i=1
ei
donde ei representa el valor esperado en la celda i, es decir npi y, bajo Ho,

ei = nπi .
A continuación se demostrará que la expresión para −2 ln λ dada en (6.15)
es asintóticamente equivalente a (6.16).
La expansión en series de Taylor para ln pi alrededor de pbi = nni es:
2
1 (pi − pbi ) 1
ln pi = ln pbi + (pi − pbi ) + − 2 +ε
pbi 2! pbi
n
2 2
pi − ni

ni ni n n
= ln + pi − − + ε,
n n ni 2 ni
o
ni ni n n i 2 n 2
ln pi − ln = pi − − pi − + ε, (6.17)
n n ni n 2n2i
donde ε representa la suma de términos con signo alternante:
∞
X j+1
ni j nj
(−1) pi − .
j=3
n j!nji
Bajo H0 , pi = πi , ası́ que sustituyendo (6.17) en (6.15), se obtiene que:

k
X ni
−2 ln λ = −2 ni ln πi − ln
i=1
n
k
n i 2 n 2

X ni n
= −2 ni p i − − pi − + ε
i=1
n ni n 2n2i
k k 2 k
X X (nπi − ni ) X
= −2 (nπi − ni ) + + ε0 , (6.18)
i=1 i=1
ni i=1
donde
k
X k
X k
X
(nπi − ni ) = n πi − ni = n − n = 0,
i=1 i=1 i=1
por lo que (6.18) se reduce a
k 2
X (nπi − ni )
−2 ln λ = + ε00 , (6.19)
i=1
ni
y ε00 → 0 cuando n → ∞, con probabilidad 1. (6.19) también puede escribirse

como:
k 2
X (ni − nπi )
−2 ln λ = , (6.20)
i=1
ni
expresión que, bajo la hipótesis nula pi = πi , es muy similar a (6.16), excepto

por el denominador, pues ei = nπi .
Por la Ley Débil de los Grandes Números se sabe que la variable aleatoria
ni
n converge en probabilidad a pi , es decir:
h n i
i
lı́m P − pi > ε = 0, para toda ε > 0,

n→∞ n
lo cual es equivalente a:

1
lı́m P (|ni − npi | > ε) = 0, para toda ε > 0
n→∞ n
o
1
lı́m P (|ni − npi | < ε) = 1, para toda ε > 0,
n→∞ n
concluyendo que cuando n → ∞, es posible sustituir a ni por npi , por lo que
bajo la hipótesis nula, (6.20) se puede escribir como
k 2
X (ni − nπi )
−2 ln λ = ,
i=1
nπi
que es igual a la estadı́stica T dada por (6.16).

Como la distribución asintótica de −2 ln λ es Ji-cuadrada con k−1 grados
de libertad, se concluye que la estadı́stica T tiene esa distribución.
Ejemplo 6.19 Se lanza un dado 60 veces, obteniéndose las siguientes fre-

cuencias por cara:
1 2 3 4 5 6
oi 13 19 11 8 5 4 n = 60
n1 n2 n3 n4 n5 n6
Se quiere probar si el dado es honesto, esto es, si pi denota la probabilidad
de que caiga la cara i (con i puntos), se plantea:
1
H0 : pi = , i = 1, 2, ..., 6.
6
Como la probabilidad asignada a cada cara del dado es la misma, la frecuen-
cia esperada es la misma también para todas las celdas, esto es: ei = nπi =
(60) 61 = 10. Entonces:

1 2 3 4 5 6
oi 13 19 11 8 5 4
ei 10 10 10 10 10 10
Calculando la estadı́stica de prueba:

k 2
X (oi − ei )
T =
i=1
ei
1 2 1 2 1 2 1 2
= (13 − 10) + (19 − 10) + (11 − 10) + (8 − 10)
10 10 10 10
1 2 1 2
+ (5 − 10) + (4 − 10)
10 10
= 15.6
Como k = 6, los grados de libertad de la distribución de la estadı́stica

de prueba son k − 1 = 5 . Por lo tanto, si la prueba tiene un nivel de
significancia de α = 0.05, se obtiene el cuantil 0.95 de una distribución χ2(5)
que es ω0.95 = 11.1. Como T = 15.6 > 11.1 = ω0.95 , se rechaza H0 y por lo
tanto el dado no se considera honesto. Nota: en este problema el p − value
es 0.008084.
Lo anterior se confirma en R bajo los siguientes comandos:
> x < -c(13,19,11,8,5,4)

> chifit < -chisq.test(x)
> chifit
que da como resultado:
Chi-squared test for given probabilities

data: x
X-squared = 15.6, df = 5, p-value = 0.008084
lo cual confirma los resultados previos.
Ejemplo 6.20 La siguiente es una muestra aleatoria de tamaño n = 20,

después de ser ordenadas de menor a mayor las observaciones:
16.7 18.8 24.0 35.1 39.8

17.4 19.3 24.7 35.8 42.1
18.1 22.4 25.9 36.5 43.2
18.2 22.5 27.0 37.6 46.2
Se desea probar:
H0 : La muestra representa observaciones de una variable aleatoria dis-
tribuı́da normalmente con µ = 30 y σ 2 = 100
vs.
Ha : La distribución es otra.
Se formarán arbitrariamente cuatro clases con igual probabilidad asigna-

da, por lo que se especificarán cuatro clases de la distribución N (30, 100) a
partir de los cuantiles de la distribución N (0, 1) .
Sean zp los cuantiles de la distribución N (0, 1), entonces como se desean
cuatro clases con la misma probabilidad, lo que se necesitan son los cuartiles,
es decir, z0.25 , z0.50 y z0.75 :
z0.25 = −0.6745 , z0.50 = 0 , z0.75 = 0.6745.
Si X ∼ N (30, 100), entonces Z = X−30 10 ∼ N (0, 1) y por lo tanto, X =

10Z + 30. Ası́, los cuartiles de una distribución N (30, 100) son:
x0.25 = 10 (−0.6745) + 30 = 23.225,

x0.50 = 10 (0) + 30 = 30,
x0.75 = 10 (0.6745) + 30 = 36.745.
La clase 1 contiene todas las observaciones menores o iguales a 23.26, la

clase 2 contiene a todas las observaciones entre 23.26 y 30 inclusive y ası́
sucesivamente. En resumen:
clase 1 clase 2 clase 3 clase 4
(−∞, 23.26] (23.26, 30] (30, 36.75] (36.75, ∞)
oi 8 4 3 5
ei 5 5 5 5
Las frecuencias esperadas son iguales ya que la p0i s arbitrariamente se toman

iguales:
1
ei = npi = 20 = 5, i = 1, 2, 3, 4.
4
Como k = 4 , los grados de libertad de la Ji-cuadrada son k − 1 = 3 y el
cuantil 1 − α = 0.95 de una distribución χ2(3) es ω0.95 = 7.815. Por su parte,
el valor de la estadı́stica de prueba es:
4 2
X (oi − ei ) 1 2 2 2 2

T = = (8 − 5) + (4 − 5) + (3 − 5) + (5 − 5)
i=1
ei 5
= 2.8.
Como 2.8 < 7.815 no se rechaza H0 y se confirma que los datos presentados
se distribuyen N (30, 100) . Nota: en este caso el p − value es 0.5765.
Ejemplo 6.21 Un manufacturador de elevadores fundamenta sus estánda-

res de seguridad en el principio de que los pesos de los adultos se distribuyen
normalmente con una media de 62 kg. y una desviación estándar de 11 kg.,

es decir, N (62, 121). Sin embargo, recientemente notó que esta información
es de hace 45 años. Naturalmente su departamento R&D desea saber si esta
distribución de pesos es todavı́a apropiada; ya que si la distribución ha cam-
biado, debe hacer una revisión en la recomendación para el máximo número
de personas permitidas en sus elevadores.
Hipótesis: la preocupación del departamento R&D es si ha habido un
cambio en la distribución de los pesos de la población adulta. De esta forma,
la hipótesis alternativa relevante para ellos es que la distribución de pesos
no es normal con µ = 62 kg y σ ≤ 11 kg.
H0 : La muestra proviene de una distribución normal con media 62 y
desviación estándar 11.
vs.
Ha : La muestra no proviene de una distribución normal con media 62 y
desviación estándar 11.
En el muestreo actual, el equipo R&D muestreó a 500 adultos. Sin em-
bargo, para propósito de ilustrar la prueba de la Ji-cuadrada, se usarán
solamente 50 de estos pesos. Los pesos (en kilogramos) fueron:
72.2 64.0 53.4 76.8 86.3 58.1 63.2 73.1 78.0 44.3
85.1 66.6 80.4 76.0 68.8 76.8 58.9 58.1 74.9 72.2
73.1 39.3 52.8 54.2 65.3 74.0 63.2 64.7 68.8 85.1
62.2 76.0 70.5 48.9 78.0 66.6 58.1 32.5 63.2 64.0
68.8 65.3 71.9 72.2 63.2 72.2 70.5 80.4 45.4 59.6
Primero se agrupan estos datos en intervalos (que se eligen arbitrariamente,
en este caso serán de 5 kg de amplitud) para hacer la tabla de frecuencias
observadas:
Intervalo Frecuencia
menor que 40 kg 2
40-49.9 kg 3
50-54.9 kg 3
55-59.9 kg 5
60-64.9 kg 8
65-69.9 kg 7
70-74.9 kg 11
75-79.9 kg 6
80-89.9 kg 5
90 kg o más 0
Con base en la suposición de que la hipótesis nula es cierta, es decir, los
datos son de la distribución N (62, 121), se calcula la frecuencia esperada por
intervalo, para esto primero se obtiene la probabilidad para cada intervalo

y luego se multiplica por el tamaño de la muestra 50. Usando la relación
Z = X−µσ = X−62 0
11 , se calcularán los pi s de la distribución normal estándar:
Ext. izq. Proporción Frecuencia

del intervalo esperada esperada
x−62
Intervalo x z= 11 Φ (x) en el interv. en el interv.
50 × 0.0228 =
< 40 0.0228 1.140
40-49.9 40 -2.00 0.0228 0.1151 5.755
50-54.9 50 -1.09 0.1379 0.1232 6.160
55-59.9 55 -0.64 0.2611 0.1675 8.375
60-64.9 60 -0.18 0.4286 0.1778 8.890
65-69.9 65 0.27 0.6064 0.1609 8.045
70-74.9 70 0.73 0.7673 0.1137 5.685
75-79.9 75 1.18 0.8810 0.0685 3.425
80-89.9 80 1.64 0.9495 0.0451 2.255
≥ 90 90 2.55 0.9946 0.0054 0.270
Como puede apreciarse, hay que unir los dos últimos intervalos ya que la
frecuencia esperada en el último intervalo es menor que uno:
Intervalo Observados Esperados

menor que 40 kg 2 1.140
40-49.9 kg 3 5.755
50-54.9 kg 3 6.160
55-59.9 kg 5 8.375
60-64.9 kg 8 8.890
65-69.9 kg 7 8.045
70-74.9 kg 11 5.685
75-79.9 kg 6 3.425
≥ 80 5 2.525
Por lo tanto, T = 14.429 es el valor de la estadı́stica de prueba. Por otro

lado, como k = 9 celdas, los grados de libertad de la distribución Ji-cuadrada
son k − 1 = 8, de donde el cuantil 0.95 de esta distribución es 15.5. Ası́, el
valor de la estadı́stica de prueba es menor que dicho cuantil, por lo que, al
nivel de significancia α = 0.05, no se rechaza la hipótesis nula. El p− value
es 0.07124.
Observación 6.11 Si los valores esperados ei = npi son pequeños, la dis-

tribución Ji-cuadrada asintótica puede no ser apropiada. ¿Qué tan pequeños
pueden ser los valores de ei ? No hay una regla exacta, pero existen varias
sugerencias que se han propuesto en la literatura, una de las más conocidas

y utilizadas es la siguiente:
Ninguno de los valores esperados ei debe ser menor que 1.
No más del 20 % de los valores esperados ei debe ser menor que 5.
En este sentido, en caso de que estas condiciones se cumplan, se deben unir
celdas adyacentes y recalcular los valores observados y esperados.
Observación 6.12 Si la distribución de probabilidad de X está completa-

mente especificada, excepto para un número c de parámetros desconocidos,
primero será necesario estimar los parámetros (usando los métodos estudia-
dos en al capı́tulo de estimación puntual, preferentemente máxima verosimi-
litud), y después se realizará la prueba de bondad de ajuste. En este caso, la
distribución de la estadı́stica de prueba T será χ2k−1−c , es decir, los grados de
libertad son k −1−c, restando c grados de libertad debido a los c parámetros
estimados.
6.6.2. La prueba de independencia en tablas de contin-

gencia
Otra aplicación de la prueba de la razón (o cociente) de verosimilitudes ge-
neralizadas es la siguiente: considere el problema de probar si dos variables,
que han sido clasificadas por medio de un arreglo de dos entradas, son in-
dependientes. Por ejemplo, los datos para este arreglo se obtuvieron de una
muestra aleatoria de 300 estudiantes, quienes se clasificaron con respecto a:
(1) El tamaño de la escuela preparatoria de la cual se graduaron y (2), a su
promedio en el primer año de estudios profesionales. El problema es probar
si existe alguna relación entre estas dos variables.
Preparatoria
Pequeña Mediana Grande

Promedio ≥5 18 51 46
<5 42 79 64
Este tipo de tabla es conocida como una tabla de contingencia. Las en-
tradas en las celdas para estos datos son frecuencias o conteos en lugar de
medidas continuas, aunque los datos continuos frecuentemente se pueden po-
ner en forma discreta usando intervalos sobre una escala discreta. La edad,
por ejemplo, es una variable continua, pero si la gente se clasifica en dife-
rentes grupos de edad, los intervalos correspondientes a estos grupos pueden
ser tratados como si fueran unidades discretas.
Como la tabla anterior involucra solamente dos variables, a este tipo de

arreglos se le conoce como una tabla de contingencia de dos dimensiones.
Es posible clasificar a los miembros de una población de muchas formas.
Por ejemplo, las personas se pueden dividir en hombres y mujeres, casados
o solteros, los que son elegibles para votar y los que no, y ası́ sucesivamente.
Estos son ejemplos de clasificaciones dicotómicas, no obstante, puede haber
más de dos categorı́as. Las tablas en tres dimensiones y más surgen cuando
una muestra se clasifica con respecto a más de dos variables cualitativas.
Lo que es importante es que las categorı́as en las que se clasifique a los
individuos sean exhaustivas y mutuamente excluyentes. Una clasificación es
exhaustiva cuando proporciona suficientes categorı́as para acomodar a todos
los miembros de la población. Las categorı́as son mutuamente excluyentes
cuando están definidas de tal manera que cada miembro de la población pue-
de ser asignado correctamente a una y sólo una categorı́a. Por ejemplo, en
la siguiente tabla se presenta una muestra de 5375 muertes por tuberculosis,
clasificadas con respecto a dos variables cualitativas: sexo y tipo de tubercu-
losis que causó la muerte (note que las categorı́as de estas variables como
están dadas en la tabla son ambas exhaustivas y mutuamente excluyentes):
Hombres Mujeres Total

Tuberculosis del sistema respiratorio 3534 1319 4853
Otras formas de tuberculosis 270 252 522
Tuberculosis (todas las formas) 3804 1571 5375
Para una versión general de una una tabla de contingencia de dos dimen-
siones, suponga que la clasificación usa r renglones y c columnas, y sea Pij
la probabilidad de que un individuo elegido al azar de la población bajo con-
sideración, caerá en la celda correspondiente al i− ésimo renglón y j − ésima
columna. Además, sea:
c
X
Pi• = Pij la probabilidad de estar en el i − ésimo renglón
j=1
y
r
X
P•j = Pij la probabilidad de estar en la j − ésima columna.
i=1
Al igual que en la prueba de la Ji-cuadrada para bondad de ajuste, se

tiene la condición:
r X
X c r
X c
X
Pij = 1 ⇔ Pi• = 1 y P•j = 1.
i=1 j=1 i=1 j=1
El siguiente arreglo muestra una tabla de contingencia de r×c con r renglones

y c columnas (r y c categorı́as respectivamente para cada una de las variables
involucradas).
1 2 . . . c Pc
1 P11 P12 . . . P1c P1j = P1•
Pj=1
c
2 P21 P22 . . . P2c j=1 P2j = P2•
. . . . . .
. . . . . .
. . . . . .P
c
r P P . . . P j=1 Prj = Pr•
Pr1r Pr2r Prcr
i=1 Pi1 = P•1 i=1 Pi2 = P•2 . . . i=1 Pic = P•c
Sea nij la frecuencia observada en la celda (i, j), entonces, si se tienen n

observaciones en total:
Xr Xc
nij = n
i=1 j=1
y los totales marginales por renglón o columna se pueden escribir como:

r
X c
X
nij = n•j , nij = ni• .
i=1 j=1
El problema de probar si las dos variables clasificadas son independientes

puede plantearse como:
H0 : Pij = Pi• P•j i = 1, 2, ..., r ; j = 1, 2, ..., c.
La función de verosimilitud es como la que se vio en la sección anterior

para la prueba Ji-cuadrada de bondad de ajuste, pero se debe considerar un
doble producto:
r Y
c
n
Y
L (θ) = Pijij . (6.21)
i=1 j=1
Cuando H0 es verdadera:
r Y
Y c
nij
L (θ) = (Pi• P•j ) . (6.22)
i=1 j=1
En las expresiones anteriores todos los parámetros que aparecen son des-
conocidos:
Pij , Pi• y P•j i = 1, 2, ..., r ; j = 1, 2, ..., c;
por lo que los valores esperados (o frecuencia esperada) para cada celda (i, j)
eij = nPij = nPi• P•j (bajo H0 )
necesarios para la prueba, son desconocidos, por lo que se reemplazarán por

sus estimadores máximo verosı́miles correspondientes.
Para encontrar el máximo de la función dada en (6.22) de estas dos
últimas expresiones, observe que:
r−1
X c−1
X
Pr• = 1 − Pi• y P•c = 1 − P•j , (6.23)
i=1 j=1
entonces (bajo H0 ):
Y c
r Y r Y
Y c
nij nij nij
L (θ) = (Pi• P•j ) = (Pi• ) (P•j )
i=1 j=1 i=1 j=1
r
! c

n
Y Y
ni•
= Pi•  P•j•j  .
i=1 j=1
De esta forma:
r
X c
X
ln L (θ) = ni• ln Pi• + n•j ln P•j
i=1 j=1
r−1
X c−1
X
= ni• ln Pi• + nr• ln Pr• + n•j ln P•j + n•c ln P•c
i=1 j=1
Sustituyendo ln Pr• y ln P•c de (6.23), se obtiene:
ln L (ω)
!  
r−1
X r−1
X c−1
X c−1
X
= ni• ln Pi• +nr• ln 1 − Pi• + n•j ln P•j +n•c ln 1 − P•j  .
i=1 i=1 j=1 j=1
Entonces para cada i y cada j fijas,

∂ ln L (ω) 1 (−1)
= ni• + nr• Pr−1 =0 (6.24)
∂Pi• Pi• 1 − i=1 Pi•
∂ ln L (ω) 1 (−1)
= n•j + n•c Pc−1 =0 (6.25)
∂P•j P•j 1 − j=1 P•j
de (6.24):
ni• nr•
= ⇒ ni• Pbr• = nr• Pi• i = 1, 2, ..., r
Pi• Pr•
entonces
r
X r
X
Pbr• ni• = nr• Pi• ,
i=1 i=1
r
P r
P
donde ni• = n y Pi• = 1.
i=1 i=1
Por lo tanto:
nr•
Pbr• = ,
n
y de (6.25),
n•j n•c
= ⇒ n•j Pb•c = n•c P•j j = 1, 2, ..., c
P•j P•c
lo cual implica que:

c
X c
X
Pb•c n•j = n•c P•j ,
j=1 j=1
Pc Pc
donde j=1 n•j = n y j=1 P•j = 1.
Por lo tanto:
n•c
Pb•c = .
n
El desarrollo es válido para cualquier i = 1, 2, ..., r y j = 1, 2, ..., c, por lo
que:
ni• n•j
Pbi• = y Pb•j = .
n n
En consecuencia, la función de verosimiltud maximizada en el espacio
paramétrico definido por H0 es:
r c
Y ni• ni• Y n•j n•j
máx L (θ) = . (6.26)
θ∈Θ0
i=1
n j=1
n
Ahora, la función de verosimilitud en todo el espacio paramétrico es:

r Y
c
n
Y
L (θ) = Pijij
i=1 j=1
y
r X
X c
ln L (θ) = nij ln Pij .
i=1 j=1
De la hipótesis inicial, se puede escribir:

r X
X c
Pij = 1 ,
i=1 j=1
lo que implica que

 
c X
X r−1 c−1
X
Prc = 1 −  Pij + Prj  .
j=1 i=1 j=1
Por lo tanto:
X r−1
c X c−1
X
ln L (Θ) = nij ln Pij + nrj ln Prj + nrc ln Prc
j=1 i=1 j=1
c X
X r−1 c−1
X
= nij ln Pij + nrj ln Prj +
j=1 i=1 j=1
  
Xc X
r−1 c−1
X
nrc ln 1 −  Pij + Prj  .
j=1 i=1 j=1
Derivando con respecto a Pij se obtiene que:
∂ ln L (Θ) nij (−1) nrc

= + P = 0,
∂Pij Pij 1−
c Pr−1
P +
Pc−1
P
j=1 i=1 ij j=1 rj
entonces
nij nrc
= ,
Pij Pbrc
de donde
nij Pbrc = nrc Pij i = 1, 2, ..., r y j = 1, 2, ..., c.
Como:
r X
X c r X
X c
Pij = 1 y nij = n,
i=1 j=1 i=1 j=1
se tiene que:
r X
c r X
c
X X nrc
Pbrc nij = nrc Pij ⇒ Pbrc = .
i=1 j=1 i=1 j=1
n
Al igual que antes, el argumento es válido para cualquier i y j, por lo

tanto:
nij
Pbij = i = 1, 2, ..., r y j = 1, 2, ..., c.
n
Ası́, la función de verosimilitud maximizada en todo el espacio paramétri-
co queda de la siguiente manera:
c
r Y
Y nij nij
máx L (θ) = .
θ∈Θ
i=1 j=1
n
Finalmente, la razón o cociente de verosimilitudes generalizadas es:

Qr ni• ni• Qc n•j n•j

máxθ∈Θ0 L (θ) i=1 n j=1 n
λ= = Qr Qc nij nij ≤ λ0 .
máxθ∈Θ L (θ) i=1 j=1 n
Donde se debe obtener la distribución de λ, por lo que se usa el criterio

asintótico de la razón de verosimilitudes:
−2 ln λ ∼ χ2(ν) ,
donde ν se determina como k−1−s donde k es el número total de parámetros

y s es el número de parámetros independientes (o estimados), en este caso
como
Xr X c
Pij = 1,
i=1 j=1
es equivalente a
r
X c
X
Pi• = 1 y P•j = 1,
i=1 j=1
de donde por (6.23) hay r + c − 2 parámetros independientes, por lo tanto:
ν = k − 1 − s = rc − 1 − (r + c − 2)
= (r − 1) (c − 1) .
La regla de decisión es, entonces: Rechazar H0 al nivel de significancia α

si:
−2 ln λ ≥ ω1−α ,
donde ω1−α es el cuantil 1 − α de una distribución χ2((r−1)(c−1)) .

Se puede demostrar que, por el mismo argumento que se usó en la prueba
de bondad de ajuste,
r X c n n 2
X nij − i•n •j
−2 ln λ = ni• n•j + Rn
i=1 j=1 n
donde Rn → 0 cuando n → ∞ con probabilidad 1 y

ni• n•j
= eij
n
ya que
ni• n•j
eij = npij = nPi• P•j = n .
n2
Por lo tanto la estadı́stica de prueba que se va a utilizar es:
r X c 2
X (nij − eij )
T = ,
i=1 j=1
eij
cuya distribución también es χ2(r−1)(c−1) .
Ejemplo 6.22 Retomando el ejemplo introductorio, en donde se considera

una muestra de 300 estudiantes clasificados por el tipo de preparatoria y el
promedio escolar.
Preparatoria
Pequeña Mediana Grande
Promedio ≥5 18 51 46
<5 42 79 64
Los valores esperados por celda son los siguientes:
n1• n•1 (115) (60) 6900
e11 = = = = 23
n 300 300
n1• n•2 (115) (130)
e12 = = = 49.8
n 300
n1• n•3 (115) (110)
e13 = = = 42.16
n 300
n2• n•1 (185) (60)
e21 = = = 37
n 300
n2• n•2 (185) (130)
e22 = = = 80.16
n 300
n2• n•3 (185) (110)
e23 = = = 67.8
n 300
El valor de la estadı́stica de prueba es:
T = 1.0869 + 0.0289 + 0.3497 + 0.6756 + 0.01678 + 0.2129

= 2.37078.
Si se establece el nivel de significancia como α = 0.05, entonces el cuantil

1−α = 0.95 de una distribución Ji-cuadrada con (r − 1) (c − 1) = (1) (2) = 2
grados de libertad es: ω0.95 = 5.99, por lo que no se rechaza H0 , es decir, no
se rechaza la hipótesis de independencia, por lo que se puede concluir que el
tamaño de la preparatoria de la que provienen los estudiantes y su promedio
escolar durante el primer año de facultad son independientes.
En R, se puede utilizar chisq.test de la siguiente manera:
# Se crea la tabla de contingencia para este ejemplo

> tabla_contingencia = rbind(c(18, 51, 46), c(42, 79, 64))
> colnames(tabla_contingencia)=c("pequena","mediana","grande")
> rownames(tabla_contingencia) = c("mayor_igual_5", "menor_5")
> tabla_contingencia = as.table(tabla_contingencia)
# Usando la función chisq.test
> chisq.test(tabla_contingencia)
El resultado es:
Pearson’s Chi-squared test

data: tabla_contingencia
X-squared = 2.372, df = 2, p-value = 0.3054
Lo que confirma los cálculos previos.
La extensión de las tablas de contingencia de doble entrada a tablas de

contingencia de orden mayor es inmediata. Para una tabla de r1 × r2 × r3 ,
para la hipótesis de independencia completa:
H0 : Pijk = Pi•• P•j• P••k para todo

i = 1, 2, ..., r1 j = 1, 2, ..., r2 y k = 1, 2, ..., r3
Los estimadores de las frecuencias esperadas son:
eijk = nPbijk = nPbi•• Pb•j• Pb••k

n n n
= n i•• •j• ••k
n n n
ni•• n•j• n••k
= ,
n2
y la estadı́stica de prueba es:

r3
r2 X
r1 X 2
X (nijk − eijk )
T =
i=1 j=1 k=1
eijk
con r1 r2 r3 − 1 − (r1 − 1 + r2 − 1 + r3 − 1) = r1 r2 r3 − r1 − r2 − r3 + 2 grados

de libertad.
Otra hipótesis de independencia que se usa muy a menudo es:
H0 : Pijk = Pi•• P•jk
donde, las frecuencias esperadas estimadas son:

ni•• n•jk
eijk =
n
y la estadı́stica de prueba tiene:
r1 r2 r3 − 1 − (r1 − 1 + r2 r3 − 1) = (r1 − 1) (r2 r3 − 1)
grados de libertad.
A continuación se verá cómo medir el grado de asociación entre variables.
El coeficiente de contingencia
Como una medida del grado de asociación entre variables en una tabla de
contingencia en donde se clasifican un total de n unidades experimentales,
Karl Pearson propuso el coeficiente de contingencia C, definido como:
1/2
Q
C= ,
Q+n
donde Q es la estadı́stica de prueba apropiada para la hipótesis de inde-
pendencia. Si las variables son completamente independientes, los valores de
Q y C son ambos pequeños. Además, valores crecientes de C implican un
incremento en el grado de asociación, ya que valores grandes de Q son un
resultado de más alejamiento significativo entre las frecuencias observadas
y esperadas de celdas. Pero el valor de C no puede ser mayor de uno para
cualquier n, una desventaja de C como una medida de asociación es que no
puede alcanzar el valor de 1.
Puede demostrarse fácilmente que para una tabla de contingencia de
doble entrada de r × c, el valor máximo de C es:
1/2
t−1
Cmáx = , donde t = mı́n (r, c) .
t
6.7. Pruebas de hipótesis en el contexto

Bayesiano
En el contexto Bayesiano también se realizan contrastes de hipótesis y en
este caso, es posible hacer pruebas de dos o más de ellas:
H1 : θ ∈ Θ1 , H2 : θ ∈ Θ2 , ··· HJ : θ ∈ ΘJ ,
donde Θ1 , Θ2 , . . . , ΘJ denotan una partición del espacio paramétrico Θ. En

esta sección sólo se presentará el caso del contraste de dos hipótesis, sin
embargo la extensión a un número mayor será natural.
Suponga que X proviene de un modelo f (x|θ) y que se desea evaluar las
hipótesis:
H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 ,
donde Θ0 y Θ1 constituyen una partición del espacio paramétrico Θ. Recuer-
de que para hacer inferencia estadı́stica desde una perspectiva Bayesiana se
requiere una distribución inicial del parámetro θ. Si se asigna una distribu-
ción inicial propia con densidad6 π(θ), entonces es posible evaluar las dos
hipótesis a priori a través del cociente:
R
τ0 P(θ ∈ Θ0 ) π(θ)dθ
= = RΘ0 .
τ1 P(θ ∈ Θ1 ) Θ1
π(θ)dθ
Una vez que se han observado los datos, X = x, la apreciación inicial

acerca del parámetro se actualiza a través de la distribución posterior
π(θ|x) ∝ L(θ|x)π(θ),
donde L(θ|x) denota la función de verosimilitud. Las dos hipótesis planteadas

pueden evaluarse ahora considerando la distribución posterior a través del
cociente R
p0 P(θ ∈ Θ0 |x) π(θ|x)dθ
= = RΘ0 .
p1 P(θ ∈ Θ1 |x) Θ1
π(θ|x)dθ
En el enfoque Bayesiano el contraste de hipótesis consistirá en comparar
las distribuciones de los parámetros y elegir aquella hipótesis con probabili-
dad mayor. Por ejemplo, si sólo se cuenta con información inicial entonces
6 Esta notación para la densidad inicial en esta sección no tiene relación con la función
potencia, la cual también se ha denotado con π a lo largo del presente capı́tulo. En el

contexto Bayesiano se hace la especificación de que se trata de las densidades a priori o
a posteriori y simplemente es para que haya congruencia con la notación utilizada en el
capı́tulo de Estimación Puntual en donde se aborda la estimación Bayesiana.
6.7. Pruebas de hipótesis en el contexto Bayesiano 297
se podrı́an comparar las probabilidades τ0 y τ1 y elegir H0 o Ha de acuerdo

a aquella hipótesis con probabilidad mayor; pero si además se observó una
muestra X = x entonces se podrı́an comparar las probabilidades p0 y p1 y
elegir H0 ó Ha de acuerdo a aquella hipótesis con probabilidad mayor.
Con frecuencia se propone a la estadı́stica conocida como factor de Bayes,
definida como
p0 /p1
FB = ,
τ0 /τ1
como una medida de la evidencia que proporcionan los datos a favor de la
hipótesis nula.
Note que el factor de Bayes compara de manera simultánea las probabili-
dades obtenidas a partir de las distribuciones iniciales τ0 y τ1 y las obtenidas
de las distribuciones posteriores p0 y p1 . Cuando ambas hipótesis son igual-
mente probables de manera inicial, es decir τ0 = τ1 , el factor de Bayes se
reduce a sólo comparar las distribuciones finales p0 y p1 .
La evaluación de la probabilidad relativa de las hipótesis o los mode-
los (asociados a esas hipótesis) se puede hacer utilizando la probabilidad
posterior del modelo asociado:
π(x|Hj )π(Hj )
π(Hj |x) =
π(x)
π(x|Hj )π(Hj )
= PJ
k=1 π(x|Hk )π(Hk )
∝ π(x|Hj )π(Hj ),
donde π(Hj ) es la probabilidad inicial del modelo y j = {0, a}. Es decir,

π(H0 ) y π(Ha ) son las probabilidades iniciales bajo las hipótesis H0 y Ha ,
respectivamente. Además:
Z
π(x|Hj ) = π(x|θ)π(θ|Hj )dθ
es la verosimilitud marginal bajo el modelo Hj , y π(θ|Hj ) es la distribución

inicial para θ cuando Hj es cierta.
Por lo tanto, si se desea contrastar dos hipótesis H0 y Ha , para eva-
luar la probabilidad relativa de estas hipótesis, se deberá calcular π(H0 |x)
y π(Ha |x), y estas probabilidades se podrı́an comparar usando el factor de
Bayes.
Sin embargo, estas evaluaciones deben hacerse tomando en cuenta los
contextos particulares de cada modelo. Los siguientes ejemplos buscan hacer
algunas observaciones en este sentido.
Ejemplo 6.23 Sea X una variable aleatoria de un modelo Normal(µ, 1) ,

si se plantean las hipótesis H0 : µ = 0 contra la alternativa Ha : µ 6= 0;
adoptando una distribución inicial conjugada para µ que sea N ormal(0, S 2 )
con S > 0.
Note que en este caso el espacio paramétrico es Θ = {µ; µ ∈ R} =
(−∞, ∞), el conjunto de los reales. Bajo la hipótesis nula H0 el espacio
paramétrico es Θ0 = {0} y bajo la hipótesis alternativa Ha el espacio pa-
ramétrico es Θ1 = {µ; µ 6= 0, µ ∈ R}.
Para hacer el contraste de hipótesis en el contexto Bayesiano, se requerirá
calcular el factor de Bayes F B = π(H0|x)/π(Ha |x). Note que también puede
obternerse que π(H0 |x) = 1/ 1 + F1B .
Suponiendo que no se tiene mayor información acerca de cuál de las
hipótesis tiene mayor probabilidad inicial, se supondrá que π(H0 ) = π(Ha ).
En esto caso el factor de Bayes se reducirı́a a calcular F B = π(x|H0 )/π(x|Ha ).
Bajo la hipótesis nula, H0 : µ = 0,
π(x|H0 ) = π(x|µ = 0) = N (x|0, 1).
Bajo la hipótesis alternativa Ha : µ 6= 0,
π(x|Ha )
Z
= π(x|µ)π(µ|Ha )dµ
Z
= N (x|µ, 1)N (µ|0, S 2 )dµ
Z
1 1 2 1 1 2
= √ exp − (x − µ) √ exp − 2 µ dµ
2π 2 2πS 2 2S
( )
1 1 1 x2
=p exp − x2 +
2 1 + S12

2π(1 + S 2 ) 2
q
1 + S12
( " #)
x2
Z
1 1 2 x
× √ exp − 1 + 2 µ − 2µ + 2 dµ
2π 2 S 1 + S12 1 + S12

1 1
=p exp − x2
2
2π(1 + S ) 2(1 + S 2 )
= N (x|0, 1 + S 2 ).
Por lo tanto, el factor de Bayes resulta en
N (x|0, 1)
FB = .
N (x|0, 1 + S 2 )
Observe que en este caso el factor de Bayes crece cuando S 2 → ∞ para

cualquier x.
Ejemplo 6.24 Considere el experimento de lanzar una moneda n veces,

donde las variables aleatorias Yi son independientes con distribución Yi ∼
Bernoulli(θ), para i = 1, . . . , n. La hipótesis nula se plantea como H0 :
θ = 0.5 contra la alternativa Ha : θ 6= 0.5, con una distribución inicial
θ ∼ Beta(a, b).
Para hacer el contraste de hipótesis se calculará el factor de Bayes F B =
π(H0 |y)/π(Ha |y). Otra vez, no se tiene mayor información acerca de cuál
de las hipótesis tiene mayor probabilidad inicial, ası́ que se supondrá que
π(H0 ) = π(Ha ), y entonces el factor de Bayes se reducirı́a a calcular F B =
π(y|H0 )/π(y|Ha ).
Bajo la hipótesis nula, H0 : θ = 0.5,
π(y|H0 ) = π(y|θ = 0.5) = 0.5n .
Bajo la hipótesis alternativa, Ha : θ 6= 0.5, se tiene que dadas las obser-

vaciones, la verosimilitud es
Pn Pn
yi
L(θ|y) = θ i=1 (1 − θ)n− i=1 yi
y distribución inicial del parámetro θ es
θa−1 (1 − θ)b−1
π(θ|Ha ) = ,
B(a, b)
donde B(a, b) = Γ(a)Γ(b)

Γ(a+b) es la función beta. Entonces la probabilidad poste-
rior de Y = y dada Ha es
π(y|Ha )
Z
= π(y|θ)π(θ|Ha )dθ
Z
= L(θ|y)π(θ|Ha )dθ
θa−1 (1 − θ)b−1
Z P
n Pn
= θ i=1 yi (1 − θ)n− i=1 yi dθ
B(a, b)
Pn Pn P n Pn
B ( i=1 yi + a , n − i=1 yi + b) θ i=1 yi +a−1 (1 − θ)n− i=1 yi +b−1
Z
= Pn Pn dθ
B(a, b) B ( i=1 yi + a , n − i=1 yi + b)
Pn Pn
B ( i=1 yi + a , n − i=1 yi + b)
= ,
B(a, b)
y el factor de Bayes es:
0.5n
FB = Pn
B( yi +a , n− n i=1 yi +b)
P
i=1
B(a,b)
n
0.5 B(a, b)
= Pn Pn .
B( i=1 y i + a , n − i=1 yi + b)
Ahora considere dos casos particulares con el objetivo de comparar los

resultados obtenidos en el contraste de hipótesis bajo los contextos de es-
tadı́stica Bayesiana y del cociente de verosimilitudes generalizadas.
Sean n = 10 y n = 50 del modelo bajo H0 , con π(θ|H1 ) ∼ Beta(2, 2), la
figura 6.4 muestra las probabilidades posteriores π(H0 |y).
0.8
n=50
n=10
0.6
p(H0|y)
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Figura 6.4: Probabilidad posterior del modelo por tamaño de muestra.
La verosimilitud es L(θ|y) = π(y|θ) y el cociente de verosimilitudes ge-

neralizadas para probar las hipótesis planteadas es:
máxΘ0 L(θ|y) L(θ̂0 )

λ(y) = = ,
máxΘ L (θ|y) L(θ̂)
donde θ̂0 y θ̂ son los estimadores máximo verosı́miles en los espacios pa-
ramétricos correspondientes.
Para este caso:
0.5n
λ(y) = nȳ .
ȳ (1 − ȳ)n−nȳ
La región de rechazo es de la forma {y : λ(y) ≤ k}. Se ha visto que, bajo

ciertas condiciones,
d
−2 ln(λ(y)) → χ2(ν) .
y si el p-value < α, entonces se rechaza H0 con un nivel de significancia α.
Considere ahora que n = 10, 000 y y = 4, 900; el p-valor se aproxima a
P(χ21 > (4.000267)) = 0.04549306 y la probabilidad posterior de H0 ,
1
π(H0 |y) ≈ = 0.8780995.
1 + 1/7.203413
En este caso particular, bajo el cociente de verosimilitudes generalizadas el
p-valor conlleva a rechazar la hipótesis nula, pero usando la probabilidad
posterior se elegirı́a la hipótesis nula y, por lo tanto, las conclusiones serı́an
opuestas.
Estas situaciones que se han ilustrado con los ejemplos pueden obser-
varse ya sea por un efecto del tamaño de muestra, por una hipótesis nula
precisa contra una alternativa muy difusa, o por la probabilidad a priori
asignada a las hipótesis. En este sentido, el enfoque Bayesiano penaliza las
probabilidades iniciales difusas.
Existen muchas otras propuestas para evaluar hipótesis o modelos, aquı́
se plantea una a manera de ilustración.
Para realizar la comparación de estos modelos es usual que se consideren
otras medidas de bondad de ajuste, que como en el caso del factor de Ba-
yes, puedan utilizarse para comparar modelos y que ayuden en la toma de
decisiones. Uno de los criterios muy utilizados en estadı́stica Bayesiana es el
Criterio de Información Bayesiano (BIC, por su nombre en inglés Bayesian
Information Criterion).
Definición 6.12 Criterio de Información Bayesiana (BIC). Sea X una
muestra aleatoria de tamaño n. Suponga que se tienen dos posibles modelos,
f1 (X|θ1 , . . . , θm1 ) y f2 (X|θ1 , . . . , θm2 ),
cada uno parametrizado por m1 y m2 parámetros: θ1 , . . . , θm1 y θ1 , . . . , θm2 ,
respectivamente, los cuales pueden tener elementos en común. El BIC se
define como:

L1 (θ1 , . . . , θm1 |X)
BIC = −2 ln + (m1 − m2 ) ln(n).
L2 (θ1 , . . . , θm2 |X)
Ejemplo 6.25 Suponga que, dada una muestra aleatoria de tamaño n, se
tienen las siguientes hipótesis para un fenómeno de interés:
H0 : Xi ∼ Gama(α, β) vs. Ha : Xi ∼ Exp(θ).
Bajo H0 se tienen m1 = 2 parámetros, y la verosimilitud es:

n
Y
L(α, β|X) = Gama(xi |α, β)
i=1
n
Y β α α−1 −xi β
= x e
i=1
Γ(α) i
n
!α−1
β nα Y
− n
P
i=1 xi β .
= x i e
Γ(α)n i=1
Bajo Ha se tiene m2 = 1 parámetro, y la verosimilitud es:

n
Y
L(θ|X) = Exp(xi |θ)
i=1
Yn
= θe−xi θ
i=1
n − n
P
= θ e i=1 xi θ .
Q100
Considere el caso particular n = 100, x̄ = 0.479, i=1 xi = 2.898146e−44
y las hipótesis: H0 : Xi ∼ Gama(2, 4) vs. Ha : Xi ∼ Exp(0.5).
El BIC se calcula como:
 nα Q 
β n α−1 − Pn xi β
Γ(α) n ( i=1 x i ) e i=1
BIC = −2 ln  Pn  + (m1 − m2 ) ln(n).

θn e− i=1 xi θ
200
4 × (2.898146e − 44) × exp(−191.6568)
= −2 ln + ln(100)
(0.5100 ) exp(−23.95711)
= −152.6433.
En algunos contextos se sugiere que si el BIC ≤ 2 la evidencia que

favorece al primer modelo es muy débil, mientras que si el BIC > 10 la
evidencia de ello es contundente.
6.8. Ejercicios
1. Sea X una variable aleatoria con función de densidad f (x; θ). Considere
H0 : θ = θ0 y Ha : θ = θ1 , tal que la función de densidad es la siguiente:
6.8. Ejercicios 303
x 1 2 3 4 5 6 7
f (x; θ0 ) 0.01 0.01 0.01 0.01 0.01 0.01 0.94
f (x; θ1 ) 0.06 0.05 0.04 0.03 0.02 0.01 0.79
Use el lema de Neyman-Pearson para encontrar la prueba estadı́stica

más potente para contrastar las hipótesis H0 vs. Ha , con tamaño de
prueba α = 0.04. Calcule el tamaño del error tipo II.

densidad f (x; θ). Considere las hipótesis
1
H0 : f (x; θ) = , x ∈ (0, θ) Uniforme(0, θ)
θ
1 −x/θ 1
Ha : f (x; θ) = e , x ∈ (0, ∞) Exponencial( ).
θ θ
(a) Determine la prueba del cociente de verosimilitudes, junto con su
región crı́tica C, asociada a las pruebas H0 vs. Ha .
(b) Obtenga la potencia de la prueba πγ (θ) y haga su gráfica.
3. Suponga que X1 , X2 , X3 , X4 es una muestra aleatoria de la población

con distribución Normal(µ, 4), donde µ es desconocido. Se desea con-
trastar las hipótesis H0 : µ = 1 vs. µ = 4 y se consideran las siguientes
pruebas:
Prueba γ1 : Rechazar H0 si y sólo si X1 > 3.7.

Prueba γ2 : Rechazar H0 si y sólo si 31 (X1 + 2X2 ) > 3.5.
Prueba γ3 : Rechazar H0 si y sólo si 21 (X1 + X3 ) > 3.2.
Prueba γ4 : Rechazar H0 si y sólo si X > 3.1.
Encuentre las probabilidades de los errores tipo I y tipo II para cada

una de las pruebas y compárelas.
4. Se lanza 1000 veces una moneda y el resultado es 560 “soles” y 440

“águilas”. Sea θ la probabilidad de que caiga un “sol”.
(a) ¿Se puede suponer que la moneda está equilibrada o la probabi-

lidad de obtener un “sol” es mayor que la de obtener “águila”?
Plantee las hipótesis.
(b) Obtenga la prueba uniformemente más potente.
(c) Calcule el p-value.
5. Suponga que X1 , X2 , X3 , X4 es una muestra aleatoria de la población

con distribución Exponencial(θ). Se desea contrastar las hipótesis H0 :
θ = 2 vs. θ = 6 y se consideran las siguientes pruebas:
Prueba γ1 : Rechazar H0 si y sólo si X1 > 4.
1
Prueba γ2 : Rechazar H0 si y sólo si 2 (X1 + X2 ) > 3.5.
1
Prueba γ3 : Rechazar H0 si y sólo si 3 (X1 + X2 + X3 ) > 3.4.
Prueba γ4 : Rechazar H0 si y sólo si X > 2.8.
Encuentre las probabilidades de los errores tipo I y tipo II para cada
una de las pruebas y compárelas.
6. Suponga que X1 y X2 son variables aleatorias de una población con
función de densidad de probabilidad
f (x; θ) = θxθ−1
si 0 < x < 1, donde θ > 0 es desconocido. Para contrastar las hipótesis

H0 : θ = 1 vs. Ha : θ = 2 se considera la región crı́tica:

3
C = (x1 , x2 ); (x1 , x2 ) ∈ (0, 1) × (0, 1), x1 x2 ≥ .
4
(a) Muestre que el tamaño de la prueba es α = 14 + 34 log 34 .

7
+ 98 log 34 .

(b) Muestre que la potencia de la prueba en θ = 2 es 16
7. Sea X1 , . . . , X10 una muestra aleatoria de tamaño n = 10 de la pobla-
ción con distribución Bernoulli(p).
(a) Encuentre una prueba más potente de tamaño α = 0.0547 para
probar las hipótesis H0 : p = 12 vs. Ha : p = 14 . Encuentre la
potencia de esta prueba y el tamaño del error tipo II.
(b) Para constrastar las hipótesis H0 : p ≤ 12 vs. Ha : p > 12 , se tiene
una región crı́tica
X10
C = {x; xi ≥ 6}.
i=1
Encuentre el tamaño de la prueba y grafique su función potencia.
8. Suponga que X es una variable aleatoria con función de densidad de
probabilidad f (x; θ), donde x ∈ R. Considere las funciones definidas
de la siguiente manera:
1 −1 1
f0 (x) = 1 + x2 , f1 (x) = exp {−|x|} .
π 2
6.8. Ejercicios 305
Se contrastan las hipótesis
H0 : f (x; θ) = f0 (x) vs. Ha : f (x; θ) = f1 (x).
(a) Muestre que la prueba más potente de tamaño α es: rechazar la

hipótesis nula si y sólo si |X| < k.
(b) Determine k como una función de α.
(c) Calcule la potencia de la prueba.
9. Sea X una observación con función de densidad f (x; θ) = (2θx+1−θ),

donde x ∈ [0, 1] y θ ∈ [−1, 1].
(a) Encuentre la prueba más potente de tamaño α para contrastar

las hipótesis H0 : θ = 0 vs. Ha : θ = 1. (Sugerencia: la prueba
debe estar expresada en términos de α).
(b) Para contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0, la regla
de decisión es: Rechazar H0 si x > 21 , es decir, la región crı́tica es
C = {x : x > 12 }. Encuentre la potencia π(θ) y el tamaño de la
prueba α.
(c) ¿Existe una prueba uniformemente más potente (UMP) de ta-
maño α para contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0?.
¿Cuál es?
(d) Obtenga la prueba del cociente de verosimilitudes generalizadas
para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ 6= 0.
(e) Entre todas las posibles pruebas para contrastar las hipótesis
H0 : θ = 0 vs. Ha : θ = 1, obtenidas del cociente de verosi-
militudes simple (lema de Neyman-Pearson), encuentra la prueba
que minimice α + β, donde α y β son los tamaños de los errores
tipo I y II, respectivamente.

P oisson(λ).
(a) Encuentre la prueba uniformemente más potente para contrastar

las hipótesis
H0 : λ = λ0 vs. Ha : λ > λ0 .
Grafique la función potencia considerando que λ0 = 1, n = 25 y

α = 0.05.
(b) Obtenga la región crı́tica usando el cociente de verosimilitudes

generalizadas para contrastar las hipótesis
H0 : λ = λ0 vs. Ha : λ 6= λ0 .
n
P
Nota: la región crı́tica deberı́a estar definida en términos de Xi .
i=1
(c) Una prueba estadı́stica razonable para contrastar las hipótesis
H0 : λ = λ0 vs. Ha : λ 6= λ0 podrı́a ser la siguiente:
γ: Rechazar H0 si |X̄ − λ0 | ≥ k.
Encuentre el valor de k tal que el tamaño del error tipo I sea
α = 0.05.
Nota: Suponga que n es suficientemente grande tal que puede
usarse el teorema del lı́mite central.
11. Se supone que el número de accidentes de automóvil tiene una distri-
bución Poisson. En años anteriores, el número promedio de accidentes
por año fue de 15, y este año fue de 10. ¿Se puede concluir que el
número de accidentes ha disminuido? Calcule el p-value.
P oisson(λ).
(a) Encuentre una prueba uniformemente más potente (UMP) de ta-
maño α para contrastar las hipótesis H0 : λ ≤ λ0 vs. Ha : λ > λ0 .
(b) Considere el caso particular con λ0 = 1, es decir, H0 : λ ≤ 1 vs.
Ha : λ > 1. Use el teorema del lı́mite central para determinar
el tamaño de la muestra n, tal que la prueba UMP cumpla que
P(Rechazar H0 |λ = 1) = 0.05 y P(Rechazar H0 |λ = 2) = 0.9.
(c) Use la prueba del cociente de verosimilitudes para encontrar una
región crı́tica para probar las hipótesis H0 : λ = λ0 vs. H1 : λ 6=
λ0 .
Nota:
Pn la región crı́tica debe quedar expresada en términos de
i=1 Xi .
13. Considere una muestra aleatoria de n observaciones independientes de

una misma distribución. Determine la región de rechazo de la prueba
de razón de verosimilitudes para probar H0 vs. Ha en los tres casos
siguientes.
(a1) Ho : θ = θ0 vs Ha : θ 6= θ0 , cuando la muestra aleatoria proviene
de una distribución P oisson(θ).
6.8. Ejercicios 307
(a2) Si θ0 = 1, n = 4, (x1 , x2 , x3 , x4 ) = (2, 1, 3, 4), α = .05. ¿Qué

concluirı́a de la prueba?
(b1) Ho : p = p0 vs. Ha : p 6= p0 , cuando la muestra aleatoria
proviene de una distribución Bernoulli(p).
(b2) Si Ho : p = 1/2 vs. Ha : p 6= 1/2 y las observaciones reportan
P40
i=1 xi = 10, n = 40. ¿Qué concluirı́a de la prueba con α = .05?
(c1) Ho : σ 2 = σ02 vs. Ha : σ 2 6= σ02 cuando la muestra aleatoria
proviene de una distribución N (0, σ 2 ).
(c2) Si Ho : σ 2 = 1 vs. Ha : σ 2 6= 1 y las observaciones reportan
P40 2
i=1 xi = 80, n = 40. ¿Qué concluirı́a de la prueba con α = .05?
14. Sea X1 y X2 una muestra aleatoria de la población con distribución

U nif orme(θ, θ + 1). Para constrastar las hipótesis
H0 : θ = 0 vs. Ha : θ > 0,
se tienen dos posibles pruebas estadı́sticas (reglas de decisión):
γ1 : Rechazar H0 si X1 > 0.95,
γ2 : Rechazar H0 si X1 + X2 > k.
(a) Encuentre el valor de k tal que γ2 tenga el mismo tamaño que γ1 .
(b) Calcula las funciones potencia de cada prueba, πγ1 (θ) y πγ2 (θ).
Grafı́quelas.
(c) ¿Qué prueba es más potente? Explique.
(d) Muestre cómo obtener una prueba estadı́stica tal que tenga el
mismo tamaño que γ2 pero que sea más potente.
U nif orme(0, θ), y sean Y1 , . . . , Yn sus estadı́sticas de orden. Para con-
trastar las hipótesis H0 : θ = θ0 vs. Ha : θ 6= θ0 , con θ0 fijo. La
prueba estadı́stica γ (regla de decisión) es: Rechazar H0 si Yn > θ0 ó
Yn < θ0 α1/n .
(a) Encuentre la función potencia πγ (θ) y grafı́quela.
(b) Encuentre otra prueba estadı́stica γ2 , que tenga el mismo tamaño
de prueba y muestre que γ es una prueba más potente que γ2 .
U nif orme(θ, θ + 1). Sean Y1 ≤ · · · ≤ Yn las estadı́sticas de orden. Para
contrastar las hipótesis
H0 : θ = 0 vs. Ha : θ > 0,
se utiliza la siguiente prueba estadı́stica

γ: Rechazar H0 si Yn ≥ 1 o si Y1 ≥ k,
donde k es una constante.
(a) Determine el valor de k para que el tamaño de la prueba sea α.
(b) Calcule la función potencia de la prueba y grafı́quela.
(c) Calcule los valores de n y k tal que el tamaño de la prueba sea
α = 0.1 y la potencia sea al menos de 0.8 para todo θ > 1.
17. Sea X una variable aleatoria con distribución Logı́stica(θ, 1), con fun-
ción de densidad
e(x−θ)
f (x; θ) = , x ∈ R, θ ∈ R.
[1 + e(x−θ) ]2
Usando una observación (muestra de tamaño n = 1):
(a) Encuentre una prueba más potente γ ∗ de tamaño α (con mejor
región crı́tica C ∗ ) para contrastar las hipótesis
H0 : θ = 0 vs. Ha : θ = 1.
(b) Para (a), si α = 0.2, calcule el tamaño del error tipo II.
(c) Obtenga la prueba uniformemente más potente γ ∗ de tamaño α
para contrastar las hipótesis
H0 : θ ≤ 0 vs. Ha : θ > 0.
18. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente in-

dependientes, con distribución Exponencial(θ) y Exponencial(η), res-
pectivamente, con función de densidad f (x; θ) = θe−θx y f (y; η) =
ηe−ηy .
(a) Use la prueba del cociente de verosimilitudes generalizadas para
encontrar la región crı́tica C asociada a las hipótesis:
H0 : θ = η vs. Ha : θ 6= η.
(b) Muestre que C se puede simplificar en términos de la siguiente

estadı́stica Pn
Xi
i=1 P
T = Pn m .
i=1 Xi + j=1 Yj
¿Cuál es la distribución de T bajo H0 ? [Nota: la distribución de

T no depende de θ ni de η cuando H0 es cierta.]
6.8. Ejercicios 309
19. Sea X una observación con función de densidad f (x; θ) = (1 + θ)xθ ,

donde x ∈ [0, 1] y θ > −1.
(a) Encuentre la prueba más potente de tamaño α para contrastar

las hipótesis H0 : θ = 0 vs. Ha : θ = 1.
(b) ¿Existe una prueba uniformemente más potente de tamaño α para
contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0? En caso
afirmativo, encuéntrela.
(c) Dentro de las posibles pruebas del cociente de verosimilitudes para
constrastar las hipótesis H0 : θ = 0 vs. Ha : θ = 1, encuentre una
prueba que minimice 2α + β, donde α y β son los tamaños de los
errores tipo I y tipo II.
(d) Realice la prueba del cociente de verosimilitudes generalizadas
para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ 6= 0.
20. Sea X una observación de una variable aleatoria con distribución

Beta(θ, 1).
(a) Sea C = {X; X > 1/2} la región crı́tica para probar las hipótesis
H0 : θ ≤ 1 vs. Ha : θ > 1. Encuentre el tamaño de la prueba y
grafique su función potencia.
(b) Encuentre la prueba más potente de tamaño α para contrastar
las hipótesis H0 : θ = 1 vs. Ha : θ = 2.
(c) Encuentre una prueba uniformemente más potente (UMP) de ta-
maño α para constrastar las hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1.
21. Sea X una variable aleatoria con distribución Beta(θ, 1) con función
de densidad f (x; θ) = θxθ−1 , donde x ∈ (0, 1) y θ > 0.
(a) Se selecciona una muestra de tamaño n = 2. Para contrastar las

hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1 se usa la región crı́tica
C = {(x1 , x2 ); 43 x1 ≤ x2 }. Encuentre la función potencia y el
tamaño de la prueba. Grafique la función potencia.
(b) Se selecciona una muestra de tamaño n = 2. Encuentre la prueba
más potente de tamaño α = 12 (1 − log(2)) para contrastar las
hipótesis H0 : θ = 1 vs. Ha : θ = 2.
(c) Para una observación, n = 1, encuentre una prueba uniformemen-
te más potente (UMP) de tamaño α para constrastar las hipótesis
H0 : θ ≤ 1 vs. Ha : θ > 1.
22. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente

independientes, con distribución Beta(θ, 1) y Beta(η, 1), respectiva-
mente.
(a) Use la prueba del cociente de verosimilitudes generalizadas para
encontrar la región crı́tica C asociada a las hipótesis:
H0 : θ = η vs. Ha : θ 6= η.
(b) Muestre que C se puede simplificar en términos de una función de

la siguiente estadı́stica:
Pn
i=1 log(X
Pmi
)
T = Pn .
i=1 log(Xi ) + j=1 log(Yj )
(c) ¿Cuál es la distribución de T bajo H0 ?

(d) Muestre cómo obtener una prueba estadı́stica de tamaño α = 0.1.
23. Suponga que X1 , . . . , Xn es una muestra aleatoria de una población
con distribución Rayleigh con función de densidad de probabilidad
2
2x x
fX (x) = exp − ,
θ θ
con x > 0, donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga una
prueba uniformemente más potente de tamaño α para contrastar las
hipótesis H0 : θ ≥ θ0 vs. Ha : θ < θ0 , donde θ0 > 0 es un valor fijo.
24. Suponga que X1 , . . . , Xn es una muestra aleatoria de una población
con con función de densidad
f (x; θ) = θ−1 x(1−θ)/θ ,
con x ∈ (0, 1), donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga
una prueba uniformemente más potente de tamaño α para contrastar
las hipótesis H0 : θ ≤ θ0 vs. Ha : θ > θ0 donde θ0 > 0 es un valor fijo.
25. Considere una secuencia de n ensayos multinomiales cada uno con
k + 1 posibles respuestas O1 , . . . , Ok+1 , sea Yi el número de ensayos
que resultaron con respuesta Oi , i = 1, . . . , k + 1. Entonces la función
de densidad conjunta de (Y1 , . . . , Yk+1 ) es la distribución multinomial
n! yk+1
P(Y1 = y1 , . . . , Yk+1 = yk+1 ) = py1 · · · pk+1 ,
y1 ! · · · yk+1 ! 1
6.8. Ejercicios 311
donde
Pk+1 pi es laPprobabilidad de obtener la respuesta Oi en un ensayo,
k+1
i=1 pi = 1, i=1 yi = n. Considere la prueba de hipótesis
H0 : (p1 , . . . , pk+1 )
= (p01 , . . . , p0k+1 ) vs Ha : (p1 , . . . , pk+1 ) 6= (p01 , . . . , p0k+1 ).
Demuestre que la estadı́stica −2 log λ esta dada por la expresión si-

guiente
k+1
X Yi
−2 log λ = 2 Yi log 0 .
i=1
np i
26. Considere que (X1 , . . . , Xn ) es una muestra aleatoria de n observacio-

nes independientes de una distribución N (µ, σ 2 ) y la prueba
H0 : (µ, σ) = (µ0 , σ0 ) vs. Ha : (µ, σ) 6= (µ0 , σ0 ).
Demuestre que la estadı́stica −2 log λ esta dada por la expresión si-

guiente:
n 2 nσ̂ 2
−2 log λ = (x̄ − µ0 ) + − n − n[log σ̂ 2 − log σ02 ].
σ02 σ02

Pareto con función de densidad
θν θ
f (x; θ, ν) = , x ∈ [ν, ∞), θ > 0, ν > 0.
xθ+1
(a) Encuentre los estimadores máximo verosı́miles de θ y ν.
(b) Muestre que la prueba del cociente de verosimilitudes para con-
trastar las hipótesis:
H0 : θ = 1, (ν desconocido) vs. Ha : θ 6= 1, (ν desconocido),
tiene región crı́tica de la forma C : {x; T (x) ≤ c1 ó T (x) ≥ c2 },

donde 0 < c1 < c2 y
Qn
i=1 Xi
T (x) = log .
(mı́ni Xi )n
(c) Muestre que bajo H0 , 2T tiene una distribución Ji-cuadrada, y

encuentre el número de grados de libertad.
[Sugerencia: obtenga la distribución conjunta de los n−1 términos

no triviales Xi /(mı́ni Xi ) condicional a (mı́ni Xi ). Junte los n −
1 términos, y note que la distribución de T dada (mı́ni Xi ) no
depende de (mı́ni Xi ), ası́ que la distribución de T resulta ser no
condicional].
28. Considere una muestra aleatoria Y1 , . . . , Yn de una población con dis-
tribución N (µ, σ 2 ), con σ 2 conocida. Se desean probar las hipótesis:
H0 : µ = µ0 vs. Ha : µ = µ1 , µ0 < µ1 .
Las probabilidades iniciales están dadas por

(
π0 si µ = µ0
p(µ) =
π1 si µ = µ1
¿Bajo qué condiciones se rechaza H0 ?

29. Sea X una variable aleatoria con distribución N ormal(µ, 1). Cosidere
las hipótesis H0 : |µ| ≤ c vs. Ha : |µ| > c cuando la distribución inicial
es f (µ) = 1.
(a) Grafique la probabilidad de H0 como una función de c.
(b) Determine los valores de c para los cuales su máximo es 0.95 y el
factor de Bayes es 1.
30. Sea (X1 , . . . , Xn ) una muestra aleatoria de n observaciones indepen-
dientes de una distribución N (µ, 1),
1 1 (x)
f (x; µ) = √ exp − (x − µ)2 I(−∞,∞) .
2π 2
I. Considere la prueba de hipótesis
H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 < µ0 .
(a) Usando el lema de Neyman–Pearson encuentre la región crı́ti-

ca C ∗ , tal que P [(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α.
(b) Si las observaciones muestrales reportan x̄ = −1/2, que con-
cluirı́a de la prueba con µ0 = 0, µ1 = −1, α = 0.05, n = 25.
Reporte la potencia de la prueba: 1−β = 1−P[(x1 , . . . , xn ) ∈
C¯∗ | Ha ].
II. Considere la prueba de hipótesis
H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 > µ0 .
6.8. Ejercicios 313
(a) Usando el lema de Neyman–Pearson encuentre la región crı́ti-

ca C ∗ , tal que P[(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α.
(b) Si las observaciones muestrales reportan x̄ = 2/3, que con-
cluirı́a de la prueba con µ0 = 0, µ1 = 1, α = 0.05, n = 25.
Reporte la potencia de la prueba: 1−β = 1−P[(x1 , . . . , xn ) ∈
C¯∗ | Ha ].
31. Sea (X1 , . . . , Xn ) una muestra aleatoria de n observaciones indepen-

dientes de una distribución N (0, σ 2 ),
1 1
f (x; σ 2 ) = √ exp − 2 x2 .
σ 2π 2σ
Considere la prueba de hipótesis
H0 : σ 2 = σ02 vs. Ha : σ 2 = σ12 , σ12 > σ02
(a) Usando el lema de Neyman–Pearson encuentre la región crı́tica

C ∗ , tal que P [(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α.
Pn
(b) Si las observaciones muestrales reportan i=1 x2i = 37.5, qué con-
cluirı́a de la prueba con σ02 = 1, σ12 = 2, α = 0.05, n = 25? Reporte
la potencia de la prueba 1 − P [(x1 , . . . , xn ) ∈ C¯∗ | Ha ].

ción N ormal(µ, σ 2 ), donde µ es desconocido pero σ 2 es conocida. Sea
α ∈ (0, 1). Para contrastar las hipótesis H0 : µ = µ0 vs. Ha : µ > µ0
la prueba uniformemente más potente de tamaño α es
√
γ : Rechazar H0 si y sólo si n(X − µ0 )/σ > z1−α ,
donde z1−α es el cuantil 1 − α de una distribución normal estándar.

La prueba uniformemente más potente garantiza que el tamaño del
error tipo II de la prueba γ es el mı́nimo posible en µ = µ1 (> µ0 ) entre
todas las pruebas posibles de tamaño α, pero no hay garantı́a que este
mı́nimo sea pequeño a menos que n sea determinado adecuadamente.
Se requiere una prueba uniformemente más potente con tamaño de
error tipo II menor o igual que β, con β ∈ (0, 1) cuando µ = µ1 (> µ0 ).
Muestre que el tamaño de la muestra n debe ser el menor valor entero
tal que se cumpla la desigualdad
2
(z1−α + z1−β )σ
n≥ .
(µ1 − µ0 )
33. Considere dos distribuciones normales independientes N (µ1 , 400) y

N (µ2 , 225). Sea θ = µ2 − µ1 y sea x̄ y ȳ las medias muestrales de
dos muestras aleatorias independientes cada una de tamaño n de estas
dos distribuciones. Se rechaza Ho : θ = 0 si y sólo si x̄ − ȳ ≥ c. Si
π(θ) es la función potencia de esta prueba, encuentre c y n tales que
π(0) = 0.5 y π(10) = 0.90.
N (µx , σx2 ), y sea Y1 , . . . , Ym una muestra aleatoria de una población con
distribucón N (µy , σy2 ), donde las Xi0 s son independientes de las Yj0 s,
las varianzas son iguales (σx2 = σy2 = σ 2 ), y los tamaños de muestra
pueden ser distintos (n 6= m).
Considere las hipótesis:
(a) Obtenga la región crı́tica usando la prueba de la razón de verosi-

militudes.
Nota: la estadı́stica de prueba generalmente se expresa como:
X̄ − Ȳ
T =q ,
Sp2 ( n1 + 1
m)
n m
!
1 X X
Sp2 = (Xi − X̄)2 + (Yi − Ȳ )2 .
n+m−2 i=1 i=1
(b) Muestre que bajo H0 , T ∼ tn+m−2 .

(c) Se obtuvo una muestra a partir de dos poblaciones (A y B). De-
termine si la media de los grupos es la misma. Calcula el p-value.
Grupo A Grupo B
294 251 279 248 274 284 274 272
240 264 232 263 220 264 256 255
254 218 251 210 254 250 242
35. Sea (X1 , Y1 ), . . . , (Xn , Yn ) una muestra aleatoria de la población con
distribución normal bivariada
2
Xi µx σx ρ
∼ N ormal2 , .
Yi µy ρ σy2
con σx2 , σy2 y ρ desconocidos. Se desea contrastar las hipótesis
H0 : µx = µy vs. H1 : µx 6= µy .
6.8. Ejercicios 315
(a) Obtenga la región crı́tica usando la prueba de la razón de verosi-

militudes.
Nota: la estadı́stica de prueba puede expresarse como:
W
Tw = q ,
1 2
S
n w
1
Pn 2 1
Pn
donde Wi = Xi − Yi , W = n i=1 Wi , Sw = n−1 i=1 (Wi −
W )2 .
2
(b) Calcule µw = E(Wi ), σw = Var(Wi ) y Cov(Wi , Wj ).
Concluya que W1 , . . . , Wn es una muestra aleatoria de una pobla-
2
ción con distribución N ormal(µw , σw ).
Justifique que bajo H0 , Tw ∼ tn−1 .
(c) Se obtuvo una muestra de tamaño n = 10 a partir de dos pobla-
ciones (A y B). Determine si la media de los grupos es la misma
(use α = 0.05). Calcule el p-value.
Grupo A (Xi ) Grupo B (Yi ) Grupo A (Xi ) Grupo B (Yi )

13.2 16.7 11.6 10.2
9.9 11.8 7.4 10.6
9.0 14.4 14.2 10.9
10.0 14.5 12.6 11.1
13.0 9.3 7.2 12.2
36. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente

independientes, con distribución N ormal(µx , σx2 ) y N ormal(µy , σy2 ),
respectivamente, con parámetros desconocidos.
(a) Use la prueba de la razón de verosimilitudes generalizadas para
encontrar la región crı́tica C asociada a las hipótesis
H0 : σx2 = σy2 vs. Ha : σx2 6= σy2 .
(b) Se obtuvieron muestras de tamaño n = 10 y m = 12 a partir de

dos poblaciones (A y B). Determine si las varianzas de los grupos
es la misma (use α = 0.05). Calcule el p-value.
Grupo A (Xi ) Grupo B (Yi )

3.6 3.0 5.3 4.6 2.9 2.9 5.5 4.3 5.8 4.1 3.4
5.7 2.9 6.9 4.8 8.1 6.7 4.3 5.9 5.0 4.7 5.2
37. De acuerdo a cierto modelo genético, las proporciones de los individuos

con 4 tipos de sangre deberán relacionarse de la siguiente manera:
Probabilidad Frecuencias Observaciones
Tipo O q2 XO 40
2
Tipo A p + 2pq XA 263
Tipo B r2 + 2qr XB 382
Tipo AB 2pr XAB 315
Donde p + q + r = 1. Dados los tipos de sangre de n individuos:
(a) ¿Cómo probarı́a si el modelo es adecuado? Realice el procedimien-
to de manera teórica.
(b) Realice la prueba con los valores observados (n = 1000), para
saber si el modelo es adecuado.
38. Un determinado modelo genético sugiere que las probabilidades para
una distribución trinomial (multinomial con 3 categorı́as) son: θ1 =
p2 , θ2 = 2p(1 − p), y θ3 = (1 − p)2 , con 0 < p < 1. Suponga que
X1 , X2 , X3 representan las frecuencias en una muestra de tamaño n
(fijo) de observaciones independientes. Obtenga la prueba de bondad
de ajuste Ji-cuadrada para esta distribución considerando que p es
desconocida.
39. Un grupo de 4 monedas se lanzó 160 veces, y se obtuvieron los siguien-
tes datos. ¿Las monedas están equilibradas?
Número de caras 0 1 2 3 4
Frecuencia 16 48 55 33 8
40. Sea Q la estadı́stica de prueba Ji-cuadrada.
(a) Demuestre que la siguiente igualdad se cumple:
" k # k
X (oi − ei )2 X npi (1 − pi ) (npi − ei )2

E[Q] = E = + ,
i=1
ei i=1
ei ei
donde pi es la probabilidad de la i-ésima categorı́a, con i =

1, . . . , k, oi son los valores observados, y ei son los valores es-
perados.
(b) Demuestre que si H0 : pi = πi es verdadera, E[Q] = k − 1.
41. En el control de calidad de un producto se seleccionan 100 muestras,
cada una de tamaño 20, a partir de un proceso de producción. Los datos
se muestran a continuación, donde se mide el número de productos
6.8. Ejercicios 317
defectuosos. Pruebe la hipótesis nula de que el número de defectos

tiene una distribución Binomial.
Número de defectos 0 1 2 3 4 5 6 7 8 ó más

Frecuencia 11 27 38 13 7 2 1 1 0
42. Una máquina produce artı́culos de plástico en grupos de tres artı́culos

a la vez. El proceso es poco confiable y se observan algunos artı́culos
defectuosos. En un experimento se produjeron 512 grupos de artı́culos
y en estos el número de grupos con i defectos, para i = 0, 1, 2, 3, fueron:
213 (i = 0), 228 (i = 1), 57 (i = 2), y 14 (i = 3). Pruebe la hipótesis de
que cada artı́culo tiene una constante (pero desconocida) probabilidad
θ de estar defectuosa, independientemente de los otros artı́culos.
43. Se seleccionan 6 grupos de 100 semillas para sembrar. En cada uno de

los 6 grupos, el número de semillas que no germinaron fueron: 12, 20,
9, 17, 24 y 16. Pruebe la hipótesis de que la proporción de semillas no
germinadas fue la misma para todos los grupos.
44. Los siguientes datos muestran los resultados de un ensayo médico para
probar dos tratamientos, un tratamiento viejo y un tratamiento nuevo,
para una enfermedad. Se eligieron 1100 pacientes para recibir cada
tratamiento.
Tratamiento Sobrevivieron Murieron Total

Viejo 505 595 1100
Nuevo 195 905 1100
Total 700 1500 2200
Pruebe la hipótesis de que los tratamientos tienen la misma tasa de

supervivencia. ¿Qué tratamiento preferirı́a?
Considere que el ensayo se llevó a cabo en dos hospitales, para los

cuales los datos se muestran a continuación. Los médicos del hospital
A, un famoso hospital de investigación, diseñaron el ensayo médico.
Sus pacientes tienden a estar severamente más enfermos y ellos son a
quienes se les aplica con mayor frecuencia el nuevo tratamiento. ¿La
efectividad de los dos tratamientos es la misma, considerando los dife-
rentes resultados en ambos hospitales?
Hospital A
Viejo 5 95 100
Nuevo 100 900 1000
Total 105 995 1100
Hospital B
Viejo 500 500 1000
Nuevo 95 5 100
Total 595 505 1100
Apéndice A
Algunos conceptos y
resultados de probabilidad
En este apéndice se enumeran algunos de los resultados y conceptos más

importantes de la teorı́a de la probabilidad que se utilizan en la inferen-
cia estadı́stica. El objetivo es que el lector pueda consultarlos en el mismo
texto, pero no se profundiza en ellos, por lo que se recomienda consultar
libros especializados en el tema para un análisis o estudio más formal de la
probabilidad.
A.1. Espacios de probabilidad

Definición A.1 (espacio de probabilidad). Un espacio de probabilidad
es una terna
(Ω, F, P)
donde:
Ω es un conjunto arbitrario, aunque en la teorı́a de la probabilidad se

le conoce como espacio muestral, y es el conjunto de posibles resultados
de un experimento aleatorio.
F es una σ-álgebra de subconjuntos de Ω que satisface:
1. Ω ∈ F.
2. Si A ∈ F, entonces Ac ∈ F.
3. Si A1 , A2 , . . . , An ∈ F, entonces A1 ∪ A2 ∪ · · · ∪ An ∈ F.
319
320 A. Algunos conceptos y resultados de probabilidad
P : F → [0, 1] es una función conocida como medida de probabilidad

que cumple:
1. P(Ω) = 1.
2. P(A) ≥ 0 ∀A ∈ F.
3. Si S An ∈ F y Ai ∩ Aj = ∅ para i 6= j, entonces
A1 , A2 , . . . , P
n n
P ( i=1 Ai ) = i=1 P(Ai ).
Proposición A.1 (algunas propiedades de P). A continuación se men-

cionan algunas propiedades de la medida de probabilidad.
1. Sean A, B ∈ F, si A ⊆ B entonces P(A) ≤ P(B).
2. P(∅) = 0.
3. Sean A ∈ F, entonces P(Ac ) = 1 − P(A).
4. Sean A, B ∈ F, entonces P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
5. Desigualdad de Boole: Sean A1 , . . . , An ∈ F, entonces
n
! n
[ X
P Ai ≤ P(Ai ).
i=1 i=1
6. Fórmula de inclusión-exclusión: Sean A1 , . . . , An ∈ F, entonces

n
! n
[ X X
P Ai = P(Ai ) − P(Ai ∩ Aj )
i=1 i=1 i6=j
X
+ P(Ai1 ∩ Ai2 ∩ Ai3 ) + · · ·
i1 <i2 <i3
n
!
\
n+1
+ · · · + (−1) P Ai .
i=1
A.2. Probabilidad condicional e

independencia
Definición A.2 (probabilidad condicional). Sean A y B en F tal que
P(B) > 0. Entonces la probabilidad de A condicionada a B, o la probabilidad
de A dado B, es
P(A ∩ B)
P(A|B) = .
P(B)
A.3. Variables aleatorias 321
Algunas propiedades y teoremas que se obtienen a partir de la probabi-

lidad condicional son los siguientes.
Proposición A.2 P(·|B) es una medida de probabilidad.
Teorema A.1 (probabilidad

Sn total). Sean B1 , B2 , . . . , Bn ∈ F tales que
Bi ∩ Bj = ∅ ∀ i 6= j y i=1 Bi = Ω, entonces para A ∈ F:
n
X
P(A) = P(A|Bi )P(Bi ).
i=1
Teorema A.2 (teorema Sn de Bayes) . Sean B1 , B2 , . . . , Bn ∈ F tales que

Bi ∩ Bj = ∅ ∀ i 6= j y i=1 Bi = Ω, entonces para A ∈ F:
P(A ∩ Bj ) P(A|Bj )P(Bj )
P(Bj |A) = = Pn .
P(A) i=1 P(A|Bi )P(Bi )
Definición A.3 (independencia). Se dice que A ∈ F y B ∈ F son inde-

pendientes si y sólo si P(A ∩ B) = P(A)P(B).
Definición A.4 Se dice que A1 , A2 , . . . , An ∈ F son independientes si y

sólo si
P(Ai ∩ Aj ) = P(Ai )P(Aj ) para todo i 6= j.
P(Ai ∩ Aj ∩ Ak ) = P(Ai )P(Aj )P(Ak ) para todo i 6= j 6= k.
..
.
P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 ) · · · P(An ).
Teorema A.3 Si A y B son independientes entonces:

A y B c son independientes.
Ac y B son independientes.
Ac y B c son independientes.
A.3. Variables aleatorias

Definición A.5 (variable aleatoria). Sea (Ω, F, P) un espacio de proba-
bilidad. Una variable aleatoria es una función X : Ω → R que es F-medible,
es decir, que
∀x ∈ R, X −1 (−∞, x] = {ω ∈ Ω : X(ω) ≤ x} ∈ F.
Definición A.6 (función de distribución). Sea (Ω, F, P) un espacio de

probabilidad y X : Ω → R una variable aleatoria. La función de distribución
de X es una función FX : R → [0, 1] definida como:
FX (x) = P ({ω ∈ Ω : X(ω) ≤ x}) := P(X ≤ x).
La función de distribución (acumulativa) satisface algunas propiedades:

es no decreciente y continua por la derecha, además lı́mx→−∞ FX (x) = 0 y
lı́mx→∞ FX (x) = 1.
Definición A.7 (función de densidad de probabilidad) . Se dice que

fX : R → [0, 1] es una función de densidad de probabilidad (asociada a X)
si satisface que:
Para el caso de variables aleatorias discretas, fX : N → [0, 1], donde
N es un conjunto a lo más numerable, definida como
fX (x) = P(X = x)
y que cumple:
1. fX (x) ≥ 0 ∀x ∈ R.
P
2. x fX (x) = 1.
Para el caso de variables aleatorias continuas, fX : R → R+ satisface:

1. fX (x) ≥ 0 ∀x ∈ R.
R∞
2. −∞ fX (x)dx = 1.
A.4. Distribuciones conjuntas y condicionales

Definición A.8 (función de distribución acumulativa conjunta). Sean
X1 , . . . , Xk , k variables aleatorias, todas definidas sobre el mismo espacio de
probabilidad (Ω, F, P). La función de distribución acumulativa conjunta de
X1 , . . . , Xk , denotada por FX1 ,...,Xk (·, . . . , ·), está definida como
FX1 ,...,Xk (x1 , . . . , xk ) = P (X1 ≤ x1 , . . . , Xk ≤ xk ) ,
para todo (x1 , . . . , xk ) .
Por lo tanto, la función de distribución acumulativa conjunta es una fun-

ción con dominio en Rk (espacio k-Euclidiano) y contradominio el intervalo
cerrado [0, 1].
A.4. Distribuciones conjuntas y condicionales 323
Anteriormente se comentó que la función de distribución acumulativa de

una variable aleatoria unidimensional tiene ciertas propiedades; lo mismo
sucede para la distribución acumulativa conjunta, se verán a continuación
dichas propiedades para la función de dos variables.
Proposición A.3 (propiedades de la función de distribución biva-

riada). Si FX,Y (·, ·) es la función de distribución acumulativa conjunta de
X y Y , se cumple lo siguiente:
1.
FX,Y (−∞, y) = lı́m FX,Y (x, y) = 0 ∀y,

x→−∞
FX,Y (x, −∞) = lı́m FX,Y (x, y) = 0 ∀x,
y→−∞
FX,Y (∞, ∞) = lı́m F
x→∞ X,Y
(x, y) = 1.
y→∞
2. Si x1 < x2 y y1 < y2 , entonces
P (x1 < X ≤ x2 , y1 < Y ≤ y2 )

= FX,Y (x2 , y2 ) − FX,Y (x2 , y1 ) − FX,Y (x1 , y2 ) + FX,Y (x1 , y1 ) .
3. FX,Y (x, y) es continua en cada argumento, esto es
lı́m FX,Y (x + h, y) = lı́m+ F (x, y + h) = FX,Y (x, y) .

h→0+ h→0
Cualquier función que satisface las propiedades (1) a (3) se conoce como
una función de distribución acumulativa bivariada.
Definición A.9 (función de distribución acumulativa marginal).

Si FX,Y (·, ·) es la función de distribución acumulativa conjunta de X y Y ,
entonces las funciones de distribución acumulativa FX (·) y FY (·) se conocen
también como funciones de distribución acumulativas marginales de X y Y,
respectivamente.
Observación A.1 FX (x) = FX,Y (x, ∞) y FY (y) = FX,Y (∞, y) ; esto es,
el conocimiento de la función de distribución acumulativa conjunta de X y
Y implica el conocimiento de las dos funciones de distribución acumulativa
marginal.
p
Observación A.2 FX (x) + FY (y) − 1 ≤ FX,Y (x, y) ≤ FX (x) FY (y)
para todas x y y.
A.4.1. Variables aleatorias discretas

Si X1 , . . . , Xk son variables aleatorias definidas sobre el mismo espacio de
probabilidad, entonces (X1 , . . . , Xk ) se conoce como una variable aleatoria
k-dimensional, o vector aleatorio de dimensión k.
Definición A.10 (variables aleatorias discretas conjuntas). La varia-

ble aleatoria k-dimensional (X1 , . . . , Xk ) se define como una variable alea-
toria discreta k-dimensional si puede tomar valores sólo sobre un número
contable de puntos (x1 , . . . , xk ) en el espacio real k-dimensional. También se
suele decir que las variables aleatorias X1 , . . . , Xk son variables aleatorias
discretas conjuntas.
Definición A.11 (función de densidad discreta conjunta).

Si (X1 , . . . , Xk ) es una variable aleatoria discreta k-dimensional, enton-
ces la función de densidad discreta conjunta de (X1 , . . . , Xk ), denotada por
fX1 ,...,Xk (·, . . . , ·) se define como
fX1 ,...,Xk (x1 , . . . , xk ) = P (X1 = x1 , . . . , Xk = xk ) ,
para (x1 , . . . , xk ), un valor de (X1 , . . . , Xk ) , y es igual a cero en otro caso.

P
Observación A.3 fX1 ,...,Xk (x1 , . . . , xk ) = 1, donde la suma es sobre
todos los valores posibles de (X1 , . . . , Xk ).
Teorema A.4 Si X y Y son variables aleatorias discretas conjuntas, enton-

ces el conocimiento de FX,Y (·, ·) es equivalente al conocimiento de fX,Y (·, ·) .
Este teorema se generaliza a variables aleatorias discretas k-dimensionales.
Demostración. Sea (x1 , y1 ) , . . . , (xk , yk ) el conjunto de puntos de posi-

P
bles valores de (X, Y ). Si fX,Y (·, ·) está dada, entonces FX,Y (x, y) =
fX,Y (xi , yi ) , donde la suma es sobre todas las i’s para las cuales xi ≤ x y
yi ≤ y. Recı́procamente, si FX,Y (·, ·) está dada, entonces para (xi , yi ) , un
valor posible de (X, Y ),
fX,Y (xi , yi ) = FX,Y (xi , yi ) − lı́m FX,Y (xi − h, yi )

0<h→0
− lı́m FX,Y (xi , yi − h) + lı́m FX,Y (xi − h, yi − h) .
0<h→0 0<h→0
Definición A.12 (densidad discreta marginal). Si X y Y son variables

aleatorias discretas, entonces a las funciones de densidad de X y Y, fX (·) y
fY (·) , se les conoce también como funciones de densidad marginales. Más

generalmente, sea X1 , . . . , Xkn cualquier subconjunto de las variables aleato-
rias discretas X1 , . . . , Xk ; entonces fX1 ,...,Xkn (x1 , . . . , xkn ) es también lla-
mada una densidad marginal.
Observación A.4 Si X1 , . . . , Xk son variables aleatorias discretas conjun-

tamente distribuidas, entonces cualquier densidad discreta marginal puede
encontrarse de la densidad conjunta, lo recı́proco no es cierto. Por ejemplo,
si X y Y son variables aleatorias conjuntamente distribuidas con valores
(x1 , y1 ) , (x2 , y2 ) , . . ., entonces
X
fX (xk ) = fX,Y (xk , yi ) ,
yi
X
fY (yk ) = fX,Y (xi , yk ) .
xi
A.4.2. Variables aleatorias continuas

Definición A.13 (variables aleatorias continuas conjuntas y función
de densidad). La variable aleatoria k-dimensional (X1 , . . . , Xk ) se define
como una variable aleatoria continua k-dimensional si y sólo si existe una
función
fX1 ,...,Xk (·, . . . , ·) ≥ 0
tal que
Z xk Z x1
FX1 ,...,Xk (x1 , . . . , xk ) = ··· fX1 ,...,Xk (u1 , . . . , uk ) du1 · · · duk ,
−∞ −∞
para toda (x1 , . . . , xk ). La función fX1 ,...,Xk (·, . . . , ·) se define como la fun-
ción de densidad de probabilidad conjunta.
Al igual que en el caso univariado, la función de densidad de probabilidad

conjunta tiene dos propiedades:
1. fX1 ,...,Xk (x1 , . . . , xk ) ≥ 0.
R∞ R∞
2. −∞ · · · −∞ fX1 ,...,Xk (x1 , . . . , xk ) dx1 · · · dxk = 1.
En el caso de las funciones de densidad de probabilidad univariadas, estas
funciones son utilizadas para encontrar la probabilidad P [a < X ≤ b] como
Rb R
f (x) dx o, de forma general, P [X ∈ B] = B fX (x) dx.
a X
En el caso bivariado, el volumen da las probabilidades. Por ejemplo, sea
fX1 ,X2 (x1 , x2 ) una función de densidad de probabilidad conjunta para las
variables aleatorias continuas conjuntas (X1 , X2 ) y sea R alguna región en

el plano cartesiano, entonces
Z Z
P [(X1 , X2 ) ∈ R] = fX1 ,X2 (x1 , x2 ) dx1 dx2 .
R
Si en particular,
R = {(x1 , x2 ) : a1 < x1 ≤ b1 , a2 < x2 ≤ b2 } ,
entonces
Z b2 Z b1
P (a1 < x1 ≤ b1 , a2 < x2 ≤ b2 ) = fX1 ,X2 (x1 , x2 ) dx1 dx2 .
a2 a1
Teorema A.5 Si X y Y son variables aleatorias continuas conjuntamente

distribuidas, entonces el conocimiento de FX,Y (·, ·) es equivalente al cono-
cimiento de fX,Y (·, ·) y viceversa. Lo anterior se generaliza para variables
aleatorias continuas k-dimensionales.
Para una fX,Y (·, ·) dada, FX,Y (·, ·) puede obtenerse para cualquier (x, y)
como: Z y Z x
FX,Y (x, y) = fX,Y (u, v) dudv.
−∞ −∞
Ası́mismo, para una FX,Y (·, ·) dada, entonces fX,Y (·, ·) puede obtenerse
como:
∂ 2 FX,Y (x, y)
fX,Y (x, y) = ,
∂x∂y
para los valores x, y, donde FX,Y (·, ·) es diferenciable.
Definición A.14 (función de densidad de probabilidad marginal) .
Si X y Y son variables aleatorias continuas conjuntamente distribuidas, en-
tonces fX (·) y fY (·) se llaman funciones de densidad de probabilidad margi-
nal. Generalizando, sea Xi1 , . . . , Xim cualquier subconjunto de las variables
aleatorias continuas conjuntamente distribuidas X1 , . . . , Xk , entonces
fXi1 ,...,Xim (xi1 , . . . , xim ) ,
se llama la densidad marginal de la variable aleatoria m-dimensional
(Xi1 , . . . , Xim ).
Si X y Y son variables aleatorias continuas, entonces
Z ∞
fX (x) = fX,Y (x, y) dy,
−∞
Z ∞
fY (y) = fX,Y (x, y) dx.
−∞
A.4.3. Distribución condicional e independencia

estocástica
Definición A.15 (función de densidad discreta condicional). Sean X
y Y variables aleatorias discretas con función de densidad discreta conjunta
fX,Y (·, ·) . La función de densidad discreta condicional de Y dada X = x
denotada por fY |X (·|x) se define como
fX,Y (x, y)
fY |X (y|x) = ,
fX (x)
si fX (x) > 0, donde fX (x) es la densidad marginal de X. Similarmente,
fX,Y (x, y)
fX|Y (x|y) = ,
fY (y)
si fY (y) > 0.
De la definición anterior se tiene que fX|Y (·|y) o fY |X (·|x) deben cumplir

con las propiedades de una función de densidad de probabilidad.
Definición A.16 (función de densidad continua condicional). Si X

y Y son variables aleatorias continuas conjuntamente distribuidas, entonces
la distribución acumulativa condicional de Y dado X = x está definida como
Z y
FY |X (y|x) = fY |X (v|x) dv,
−∞
para toda x tal que fX (x) > 0.
Ya se revisó el concepto de probabilidad condicional entre variables alea-

torias, por lo que corresponde revisar ahora el concepto de independencia
entre variables aleatorias.
Definición A.17 (independencia estocástica) . Sea (X1 , . . . , Xk ) una

variable aleatoria k-dimensional. X1 , . . . , Xk son definidas como estocásti-
camente independientes si y sólo si
k
Y
FX1 ,...,Xk (x1 , . . . , xk ) = FXi (xi ) ,
i=1
para toda x1 , . . . , xk .
Definición A.18 (independencia estocástica) . Sea (X1 , . . . , Xk ) una

variable aleatoria discreta k-dimensional con función de densidad discreta
conjunta fX1 ,...,Xk (·, . . . , ·) , X1 , . . . , Xk son estocásticamente independientes
si y sólo si
k
Y
fX1 ,...,Xk (x1 , . . . , xk ) = fXi (xi ) ,
i=1
para todos los valores (x1 , . . . , xk ) de (X1 , . . . , Xk ) .
Observación A.5 A menudo se suele omitir el término “estocástica”.
En el pasado se vio que la independencia de eventos estuvo cercanamente

relacionado al concepto de probabilidad condicional, de igual forma la inde-
pendencia de variables aleatorias está cercanamente relacionada con la idea
de distribuciones condicionales de variables aleatorias.
Si X y Y son dos variables aleatorias independientes, entonces fX,Y (x, y) =
fX (x) fY (y) por definición de independencia; sin embargo
fX,Y (x, y) = fY |X (y|x) fX (x)
por definición de densidad condicional, lo cual implica que fY |X (y|x) =

fY (y) ; esto es, la densidad condicional de Y dado X es la densidad no
condicional de Y , por lo que para demostrar que dos variables aleatorias no
son independientes, es suficiente demostrar que fY |X (y|x) depende de x.
Teorema A.6 Si X1 , . . . , Xk son variables aleatorias independientes y

g1 (·) , . . . , gk (·) , son k funciones tales que Yj = gj (Xj ), para j = 1, . . . , k,
entonces Y1 , . . . , Yk son independientes.
A.5. Momentos de variables aleatorias

A.5.1. Esperanza y varianza
Definición A.19 (esperanza). La , también conocida como valor esperado
o media, se denota como E(X) = µX y se define como:
P
 xP(X = x) si X es discreta;
E(X) = Rx∞

−∞
xfX (x)dx si X es continua.
A.5. Momentos de variables aleatorias 329
La esperanza de una función de una variable aleatoria

Si X es una variable aleatoria y g(x) es una función real, entonces, la espe-
ranza es:
P
 g(x)P(X = x) si X es discreta;
E[g(X)] = Rx∞

−∞
g(x)fX (x)dx si X es continua.
Definición A.20 (varianza). Si X es una variable aleatoria entonces su

varianza está dada por:
Var(X) = E (X − E(X))2 = E (X − µX )2 .

Con lo que se puede dar una expresión para la varianza, pues resulta
ser la esperanza de una función de una variable aleatoria, en donde g (x) =
(x − E(X))2 . Ası́,
P
 (x − µX )2 P(X = x) si X es discreta;
Var(X) = Rx∞

−∞
(x − µX )2 fX (x)dx si X es continua.
Proposición A.4 (algunas propiedades de E(X)). Si X y Y son varia-

bles aleatorias, entonces,
1. Si P(X ≥ 0) = 1, entonces E(X) ≥ 0.
2. Si P(X ≥ Y ) = 1, entonces E(X) ≥ E(Y ).
3. Si a y b son constantes reales, entonces E(aX + b) = aE(X) + b.
Proposición A.5 (algunas propiedades de Var(X)) . Si X es variable
aleatoria, entonces
1. Var(X) ≥ 0.
2. Var(X) = 0 ⇔ P (X = c) = 1 donde c es una constante real.
3. Var(aX + b) = a2 Var(X).
A.5.2. Momentos

El k-ésimo momento de una variable aleatoria X se define como E X k y se
puede calcular de la siguiente manera:
P
 xk P(X = x) si X es discreta;
E X k = Rx∞


−∞
xk fX (x)dx si X es continua.
Se puede dar una relación de la varianza de una variable aleatoria X con

su segundo momento de la siguiente manera:
Var(X) = E (X − µX )2

= E X 2 − 2µX X + µ2X

= E X 2 − 2µX E(X) + µ2X

= E X 2 − E2 (X).

A.5.3. Función generadora de momentos

La función generadora de momentos de una variable aleatoria X, denotada
por mX (t), se define como mX (t) = E etX . Ası́,
P
 etx P(X = x) si X es discreta;
mX (t) = E etX = Rx∞


−∞
etx fX (x)dx si X es continua.
Esta función recibe el nombre de “generadora de momentos” debido a la

siguiente observación:
(tX)2 (tX)3

tX

E e = E 1 + tX + + + ···
2! 3!
t2 t3
= 1 + tE(X) + E X 2 + E X 3 + · · · ,

2! 3!
entonces,
∂ t2
E(etX ) = E(X) + tE(X 2 ) + E(X 3 ) + · · · ,
∂t 2!
evaluando en t = 0 se tiene que m0X (0) = E(X).
También nótese que,
∂2
E(etX ) = E(X 2 ) + tE(X 3 ) + · · · ,
∂t2
de nuevo, evaluando en t = 0 se tiene que m00X (0) = E X 2 .

(k)
En general mX (0) = E X k , de ahı́ el nombre.
Ejemplo A.1 [Función generadora de momentos de la distribución Pois-

son]. Sea X una variable aleatoria con distribución P oisson(λ), es decir:
e−λ λx
fX (x) = I(x){0,1,2,...} con λ > 0.
x!

Calcular E (X) y E X 2 .
∞
X e−λ λx
mX (t) = E etX etx

=
x=0
x!
∞ x
−λ
X (et λ)
= e
x=0
x!
t
= e−λ ee λ
t
−1)
= eλ(e .
t
−1)
∴ mX (t) = eλ(e .
Diferenciando se llega a que
t
m0x (t) = eλ(e −1)
λet ,
t t
m00x (t) = eλ(e −1)
λet + eλ(e −1) 2 2t
λ e .
Evaluando en t = 0,
0
m0X (0) = eλ(e −1)
λe0 = λ = E(X),
0 0
m00X (0) = eλ(e −1)
λe0 + eλ(e −1) 2 2(0)
λ e = λ + λ2 = E(X 2 ).
Usando los resultados anteriores se puede obtener Var(X):
Var(X) = E (X − E(X))2 = E X 2 − E2 (X) = λ + λ2 − λ2 = λ.

∴ E(X) = λ = Var(X).
A.5.4. Esperanza de g (X1 , . . . , Xn )

Aquı́, igual que antes se procederá a revisar la definición de esperanza ma-
temática de variables aleatorias k-dimensionales y posteriormente se verá
lo relacionado con respecto a la media y a la varianza para finalizar con el
concepto de esperanza matemática de una función de una variable aleatoria
k-dimensional.
Definición A.21 (esperanza matemática) . Sea (X1 , . . . , Xk ) una

variable aleatoria k-dimensional con densidad f(X1 ,...,Xk ) (·, . . . , ·) . El valor
esperado de una función g (·, . . . , ·) de la variable aleatoria k-dimensional,
denotada por E [g (X1 , . . . , Xk )] , está definida como
X
E [g (X1 , . . . , Xk )] = g (x1 , . . . , xk ) fX1 ,...,Xk (x1 , . . . , xk )
si la variable aleatoria (X1 , . . . , Xk ) es discreta, donde la suma es sobre todos

los posibles valores de (X1 , . . . , Xk ), y
Z ∞ Z ∞
E [g (X1 , . . . , Xk )] = ··· g (x1 , . . . , xk ) fX1 ,...,Xk (x1 , . . . , xk ) dx1 · · · dxk
−∞ −∞
si la variable aleatoria (X1 , . . . , Xk ) es continua.
Por supuesto, lo anterior es cierto si la suma converge o la integral existe.
Observación A.6 En particular, si g (x1 , . . . , xk ) = xi entonces,
E [g (X1 , . . . , Xk )] = E [Xi ] .
2
Observación A.7 Si g (x1 , . . . , xn ) = (xi − E (xi )) entonces
E [g (X1 , . . . , Xn )] = Var (Xi ) .
A continuación se define la covarianza entre dos variables aleatorias.
Definición A.22 Sean X y Y variables aleatorias. La covarianza entre X

y Y se define como
Cov (X, Y ) = E {[X − E (X)] [Y − E (Y )]} .
Teorema A.7 Sean X y Y variables aleatorias, entonces
Cov (X, Y ) = E (XY ) − E (X) E (Y ) .
Sea E (X) = µX y E (Y ) = µY ,
Cov (X, Y ) = E [(X − µX ) (Y − µY )] = E [XY − XµY − Y µX + µX µY ]

= E [XY ] − µY E [X] − µX E [Y ] + µX µY
= E [XY ] − µY µX − µX µY + µX µY
= E [XY ] − µY µX .
A.5.5. Coeficiente de correlación ρxy

Si X y Y son variables aleatorias, entonces se define el coeficiente de corre-
lación, denotado por ρx,y , de la siguiente manera:
Cov(X, Y )
ρxy = p .
Var(X)Var(Y )
Se puede probar que −1 ≤ ρxy ≤ 1.

A.5.6. Esperanza condicional

Definición A.23 (esperanza condicional). Sea (X, Y ) una variable alea-
toria bidimensional y g (·, ·) una función de dos variables. La esperanza con-
dicional de g (X, Y ) dado que X = x, denotada por E [g (X, Y ) |X = x] , está
definida como
Z ∞
E [g (X, Y ) |X = x] = g (x, y) fY |X (y|x) dy,
−∞
si X y Y son continuas, y
X
E [g (X, Y ) |X = x] = g (x, y) fY |X (y|x) ,
y
si X y Y son discretas y la suma se realiza sobre todos los posibles valores

de Y .
Observación A.8 Para el caso continuo,
Z ∞
E [g (Y ) |X = x] = g (y) fY |X (y|x) dy,
−∞
y para el caso discreto,

X
E [g (Y ) |X = x] = g (y) fY |X (y|x) .
y
Teorema A.8 Sea (X, Y ) una variable aleatoria bidimensional entonces

E [g (Y )] = E [E [g (Y ) |X]] ,
y en particular,
E [Y ] = E [E [Y |X]] .
Definición A.24 (curva de regresión). E [Y |X = x] se llama la curva de
regresión de Y sobre x, también denotada por
µY |X=x = µY |x .
Definición A.25 (varianza condicional). La varianza condicional de Y
dado X = x está definida por
2
Var [Y |X = x] = E Y 2 |X = x − (E [Y |X = x]) .

Teorema A.9 Var [Y ] = E [Var (Y |X)] + Var [E (Y |X)].

Teorema A.10 Sea (X, Y )una variable aleatoria bidimensional, y sean g1 (·)
y g2 (·) funciones de una variable. Entonces,
1. E [(g1 (Y ) + g2 (Y )) |X = x] = E [g1 (Y ) |X = x] + E [g2 (Y ) |X = x].
2. E [(g1 (Y ) g2 (X)) |X = x] = g2 (x) E [g1 (Y ) |X = x].
A.5.7. Función generadora de momentos conjunta y mo-

mentos
Definición A.26 (momentos conjuntos) . Los momentos conjuntos de
X1 , . . . , Xk están definidos por E [X1r1 X2r2 X3r3 · · · Xkrk ] donde las ri0 s son cero
o cualquier entero positivo; los momentos conjuntos alrededor de las medias
están definidos como:
r r r
E [(X1 − µX1 ) 1 (X2 − µX2 ) 2 · · · (Xk − µXk ) k ] .
Observación A.9 Si ri = rj = 1 y todas las demás rl = 0, entonces es-

te momento particular conjunto
de Xi y Xj alrededor de sus medias es
E (Xi − µXi ) Xj − µXj , representa la covarianza entre Xi y Xj .
Definición A.27 (función generadora de momentos conjunta) . La

función generadora de momentos conjunta de (X1 , X2 , . . . , Xk ) está definida
por   
Xk 
mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ) = E exp tj Xj  ,
 
j=1
si la esperanza existe para todos los valores de t1 , t2 , . . . , tk tales que −h <

tj < h, para alguna h > 0, j = 1, 2, . . . , k. El r-ésimo momento de Xj podrı́a
obtenerse de la función mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ) diferenciándola r veces
con respecto a tj y entonces
r tomando
el lı́mite cuando todas las t0 s se aproxi-
s
man a cero. También E Xi Xj se obtiene al diferenciar r veces con respecto
a Xi y s veces con respecto a Xj la función mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ).
Observación A.10 Las funciones generadoras de momentos marginales pue-

den ser obtenidas a partir de la función generadora de momentos conjunta:
mX (t1 ) = mX,Y (t1 , 0) = lı́m mX,Y (t1 , t2 ) ,

t2→0
mY (t2 ) = mX,Y (0, t2 ) = lı́m mX,Y (t1 , t2 ) .
t1→0
A.5.8. Independencia y esperanza

Teorema A.11 Si X y Y son independientes, y g1 (·) y g2 (·) son dos fun-
ciones, cada una de un solo argumento, entonces
E [g1 (X) g2 (Y )] = E [g1 (X)] E [g2 (Y )] .
Corolario A.1 Si X y Y son independientes, entonces Cov (X, Y ) = 0. La

afirmación inversa en general no se cumple.
Definición A.28 (variables aleatorias no correlacionadas) . Dos va-

riables aleatorias X y Y se definen como no correlacionadas si y solo si
Cov (X, Y ) = 0.
Teorema A.12 Si X y Y son independientes, entonces

1. Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) = Var(X) + Var(Y ).
2. Var(X − Y ) = Var(X) + Var(Y ) − 2Cov(X, Y ) = Var(X) + Var(Y ).
Note que Cov(X, X) = Var(X).
Teorema A.13 Dos variables aleatorias conjuntamente distribuidas X y Y

son independientes si y sólo si mX,Y (t1 , t2 ) = mX (t1 ) mY (t2 ) para toda
t1 , t2 para las cuales −h < ti < h, i = 1, 2, para alguna h > 0.
Suma de variables aleatorias independientes

Considere a X1 , . . . , Xn como variables aleatorias independientes con función
de densidad de probabilidad respectiva fXi (xi ), i = 1, 2, . . . , n. Se desea
n
P
determinar cómo se distribuye Y = X1 + · · · + Xn = Xj . Se utilizará la
j=1
función generadora de momentos para esto,
mY (t) = E etY

  
n
X
= E exp t Xj 
j=1
E etX1 +···+tXn

=
= E etX1 · · · etXn

= E etX1 · · · E etXn

= mX1 (t) · · · mXn (t)

Yn
= mXj (t).
j=1
n
Y
∴ mY (t) = mXj (t).
j=1
Y si además X1 , . . . , Xn son identicamente distribuidas, entonces,

n
mPnj=1 Xj (t) = (mX1 (t)) .
A.6. Resumen de familias paramétricas

A.6.1. Uniforme Discreta
Definición A.29 Se dice que la variable aleatoria discreta X tiene dis-
tribución Uniforme Discreta en el conjunto {1, 2, . . . , N }, se denota X ∼
U nif (N ), si su función de densidad de probabilidad está dada por:
1
fX (x) = P(X = x) = I{1,2,...,N } (x).
N
Proposición A.6 Si X ∼ U nif (N ), entonces:

N +1
(a) E(X) = 2 .
(N +1)(2N +1)
(b) E(X 2 ) = 6 .
N 2 −1
(c) Var(X) = 12 .
A.6.2. Bernoulli
Definición A.30 Se dice que la variable aleatoria discreta X tiene distri-
bución Bernoulli con parámetro p ∈ (0, 1), se denota X ∼ Bernoulli(p), si
su función de densidad de probabilidad está dada por:

1 − p
 si x = 0,
fX (x) = P(X = x) = p si x = 1,

0 en otro caso.

De manera equivalente,
fX (x) = px (1 − p)1−x I{0,1} (x).
Proposición A.7 Si X ∼ Bernoulli(p), entonces:
(a) ∀n ∈ N+ , E(X n ) = p. En particular E(X) = E(X 2 ) = p.
(b) Var(X) = p(1 − p).
(c) mX (t) = et p + (1 − p).

A.6. Resumen de familias paramétricas 337
A.6.3. Binomial
Suponga que se tienen n ensayos Bernoulli (toman valores 0 o 1, asociados
con fracaso o éxito) independientes cada uno con la misma probabilidad de
éxito p ∈ (0, 1). Sea X el número de éxitos en n ensayos Bernoulli indepen-
dientes, entonces
n x
P(X = x) = p (1 − p)n−x .
x
Definición A.31 Se dice que la variable aleatoria discreta X tiene distribu-

ción Binomial con parámetros n ∈ N+ y p ∈ (0, 1), se denota X ∼ Bin(n, p),
si su función de densidad de probabilidad está dada por:

n x
fX (x) = P(X = x) = p (1 − p)n−x I{0,1,2,...,n} (x).
x
Proposición A.8 Si X ∼ Bin(n, p), entonces:

n
(a) mX (t) = (et p + (1 − p)) .
(b) E(X) = np.
(c) E(X 2 ) = n2 p2 − np2 + np.
(d) Var(X) = np(1 − p).
Proposición A.9 fX (x) = nx px (1 − p)n−x es creciente si x < (n + 1)p, y

es decreciente si x > (n + 1)p.
A.6.4. Poisson
Definición A.32 Se dice que la variable aleatoria discreta X tiene distribu-
ción Poisson con parámetro λ > 0, se denota X ∼ P oisson(λ), si su función
de densidad de probabilidad está dada por:
e−λ λx
fX (x) = P(X = x) = I{0,1,2,...} (x).
x!
Proposición A.10 Si X ∼ P oisson(λ), entonces:
t
(a) mX (t) = e−λ(1−e ) .
(b) E(X) = λ.
(c) E(X 2 ) = λ(λ + 1).

(d) Var(X) = λ.
Proposición A.11 (relación entre la binomial y la Poisson) . Con-

sidérese una variable aleatoria X tal que X ∼ Bin(n, p). Sea λ = np. Si
n → ∞ y p → 0, entonces X ∼ P oisson(λ).
A.6.5. Geométrica
Suponga que se tiene una sucesión de ensayos Bernoulli independientes, en
donde la probabilidad de éxito de todos ellos es igual a p ∈ (0, 1). Sea X el
número de fracasos antes del primer éxito. Entonces
P(X = x) = (1 − p)x p.

bución Geométrica con parámetro p ∈ (0, 1), se denota X ∼ Geo(p), si su
función de densidad de probabilidad está dada por:
fX (x) = P(X = x) = (1 − p)x pI{0,1,2,...} (x).
Proposición A.12 Si X ∼ Geo(p), entonces:

p
(a) mX (t) = 1−(1−p)et .
1−p
(b) E(X) = p .
1−p 2(1−p)2
(c) E(X 2 ) = p + p2 .
1−p
(d) Var(X) = p2 .
A.6.6. Binomial negativa

Suponga que se tiene una sucesión de ensayos Bernoulli independientes, en
donde la probabilidad de éxito de todos ellos es igual a p ∈ (0, 1). Sea X el
número de fracasos antes del r-ésimo éxito. Entonces

r+x−1 r
P(X = x) = p (1 − p)x , x = 0, 1, 2, . . .
x
bución Binomial Negativa con parámetros r ∈ N y p ∈ (0, 1), se denota
X ∼ BinN eg(r, p), si su función de densidad de probabilidad está dada por:

r+x−1 r
fX (x) = P(X = x) = p (1 − p)x I{0,1,2,...} (x).
x
Proposición A.13 Si X ∼ BinN eg(r, p), entonces:

r
p
(a) mX (t) = 1−(1−p)e t .
r(1−p)
(b) E(X) = p .
r(1−p)
(c) Var(X) = p2 .
A.6.7. Hipergeométrica
Definición A.35 Se dice que la variable aleatoria discreta X tiene dis-
tribución Hipergeométrica con parámetros n, N, r ∈ N, se denota X ∼
HiperGeo(n, N, r), si su función de densidad de probabilidad está dada por:
r N −r

x n−x
fX (x) = P(X = x) = N
I{0,1,...,mı́n{n,r}} (x).
n
Proposición A.14 Si X ∼ HiperGeo(n, N, r), entonces:

rn
(a) E(X) = N .
h i
rn (n−1)(r−1)
(b) E(X 2 ) = N N −1 +1 .
h i
rn (n−1)(r−1) rn
(c) Var(X) = N N −1 +1− N .
A.6.8. Logarı́tmica
bución Logarı́tmica con parámetro p ∈ (0, 1), se denota X ∼ Lg(p), si su
1 px
fX (x) = P(X = x) = − I{1,2,...} (x).
log(1 − p) x
Proposición A.15 Si X ∼ Lg(p), entonces:

log(1−pet )
(a) mX (t) = log(1−p) .
ap 1
(b) E(X) = log(1−p) , donde a := − log(1−p) .

ap(1−ap) 1
(c) Var(X) = (1−p)2 =µ 1−p − µ , donde µ = E(X).
A.6.9. Uniforme continua

Definición A.37 Se dice que la variable aleatoria continua X tiene distri-
bución Uniforme continua en el intervalo (a, b), se denota X ∼ U nif (a, b),
si su función de densidad de probabilidad está dada por:
1
fX (x) = I(a,b) (x).
b−a
Proposición A.16 Si X ∼ U nif (a, b), entonces:
1 bt
(a) mX (t) = t(b−a) (e − eat ).
a+b
(b) E(X) = 2 .
a2 +ab+b2
(c) E2 (X) = 3 .
(b−a)2
(d) Var(X) = 12 .
A.6.10. Exponencial
bución Exponencial con parámetro λ ∈ R+ , se denota X ∼ exp(λ), si su
fX (x) = λe−λx I(0,∞) (x).
Proposición A.17 Si X ∼ Exp(λ), entonces:

λ
(a) mX (t) = λ−t , t < λ.
(b) E(X) = λ1 .
λ+1
(c) E(X 2 ) = λ2 .
1
(d) Var(X) = λ2 .
A.6.11. Gama
Se define la función Gama, Γ(·), de la siguiente manera:
Z ∞
Γ(t) = xt−1 e−x dx.
0
La función Gama satisface algunas propiedades:

(i) Γ(n + 1) = nΓ(n) con n ∈ R+ . En particular si n ∈ Z+ , entonces

Γ(n + 1) = n!.
π 1
(ii) Γ(p)Γ(1 − p) = sen(pπ) con p ∈ (0, 1). En particular con p = 2,
√
Γ( 2 )Γ( 2 ) = sen( π ) = π, es decir (Γ( 12 ))2 = π ⇒ Γ( 21 ) = π.
1 1 π
2
√
π(n−1)
(iii) Para n impar, Γ( n2 ) = 2n−1 ( n−1
.
2 )!
R∞ Γ(α)
(iv) 0
xα−1 e−λx dx = λx .
n→∞ √
(v) Forma asintótica de Stirling: Γ(n+1) −→ 2πnnn e−n . En particular
n→∞ √
n! −→ 2πnnn e−n .
R∞
(vi) Γ(2) = Γ(1) = 0
e−x dx = 1.

bución Gama con parámetros r > 0 y λ > 0, se denota X ∼ Gama(r, λ), si
su función de densidad está dada por:
λr r−1 −λx
fX (x) = x e I(0,∞) (x).
Γ(r)
Proposición A.18 Si X ∼ Gama(r, λ), entonces:

r
λ
(a) mX (t) = λ−t si t < λ.
(b) E(X) = λr .
r(r+1)
(c) E(X 2 ) = λ2 .
r
(d) Var(X) = λ2 .

bución Gama Generalizada con parámetros a > 0, p > 0 y σ > 0, se denota
X ∼ GamaG(a, p, σ), si su función de densidad está dada por:
a a
fX (x) = xap−1 e−(x/σ) I(0,∞) (x).
σ ap Γ(p)
A.6.12. Ji-cuadrada
Definición A.41 Se dice que la variable aleatoria continua X tiene dis-
tribución Ji-cuadrada con k grados de libertad si X ∼ Gama(k/2, 1/2), se
denota X ∼ χ2(k) , es decir, si su función de densidad está dada por:
( 12 )k/2 k −1 −x/2
fX (x) = x2 e I(0,∞) (x).
Γ(k/2)
Proposición A.19 Si X ∼ χ2(k) , entonces:
k/2
1
(a) mX (t) = 1−2t .
(b) E(X) = k.
(c) E(X 2 ) = k(k + 2).
(d) Var(X) = 2k.
A.6.13. Beta
bución Beta con parámetros α > 0 y β > 0, se denota X ∼ Beta(α, β), si
1
fX (x) = xα−1 (1 − x)β−1 I(0,1) (x),
B(α, β)
R1
donde B(u, v) = 0
tu−1 (1 − t)v−1 dt es conocida como la función beta.
Existe una relación entre las funciones Beta y Gama:
Γ(α)Γ(β)
B(α, β) = .
Γ(α + β)
Proposición A.20 Si X ∼ Beta(α, β), entonces:
α
(a) E(X) = α+β .
α(α+1)
(b) E(X 2 ) = (α+β+1)(α+β) .
αβ
(c) Var(X) = (α+β)2 (α+β+1) .
Γ(α+r)Γ(α+β)
(d) E(X r ) = Γ(α)Γ(α+β+r) .
Nota: no existe forma analı́tica para la función generadora de momentos

para una variable aleatoria con distribución Beta.
A.6.14. Normal
bución Normal con parámetros µ ∈ R y σ 2 > 0, se denota X ∼ N (µ, σ 2 ), si

1 1
fX (x) = √ exp − 2 (x − µ)2 IR (x).
2πσ 2 2σ
Proposición A.21 Si X ∼ N (µ, σ 2 ), entonces:
(a) E(X) = µ.
(b) E(X 2 ) = σ 2 + µ2 .
(c) Var(X) = σ 2 .
(d) mX (t) = exp µt + 12 t2 σ 2 .

A.6.15. t de Student
bución t de Student con k grados de libertad, se denota X ∼ N (µ, σ 2 ), si su
función de densidad está dada por:
Γ( k+1
2 ) 1 1
fX (x) = k
√ k+1 IR (x).
Γ( 2 ) kπ 1 + x2 2
k
A.6.16. F de Fisher
bución F de Fisher con parámetros m, n > 0, se denota X ∼ F (m, n), si su
m−2
Γ( m+n
2 )
m m/2 x 2
fX (x) = m n m+n I(0,∞) (x).
Γ( 2 )Γ( 2 ) n 1 + (m )x 2
n
A.6.17. Log-Normal
tribución Log-Normal con parámetros µ ∈ R y σ 2 ∈ R+ , se denota X ∼
LgN (µ, σ 2 ), si su función de densidad está dada por:
( 2 )
1 1 log(x) − µ
fX (x) = √ exp − I(0,∞) (x).
x 2πσ 2 2 σ
Proposición A.22 Si X ∼ LgN (µ, σ 2 ), entonces:

σ2
(a) E(X) = exp µ + 2 .

(b) E(X 2 ) = exp 2(µ + σ 2 ) .
(c) Var(X) = exp(2µ + σ 2 )[exp(σ 2 ) − 1].
r2 σ2
(d) E(X r ) = exp(rµ + 2 ).
A.6.18. Logı́stica
bución Logı́stica con parámetros µ ∈ R y σ ∈ R+ , se denota X ∼ Logistic(µ, σ),
si su función de densidad está dada por:
e−(x−µ)/σ
fX (x) = IR (x).
σ(e−(x−µ)/σ )2
Proposición A.23 Si X ∼ Logistic(µ, σ), entonces:
(a) E(X) = µ.
πσ 2
(b) E(X 2 ) = µ2 + 3 .
πσ 2
(c) Var(X) = 3 .
A.6.19. Log-logı́stica
tribución Log-Logı́stica con parámetros α, λ ∈ R+ , se denota X ∼ log −
Logistic(α, λ), si su función de densidad está dada por:
λα(λt)α−1
fX (x) = I(0,∞) (x).
(1 + (λt)α )2
Proposición A.24 Si X ∼ log − Logistic(α, λ), entonces
Ln(X) ∼ Logistic(µ = −Ln(λ), σ = 1/α).

A.6.20. Pareto
tribución clásica de Pareto con parámetros α, σ ∈ R+ , se denota X ∼
P aI(α, σ), si su función de densidad está dada por:
ασ α
I[σ,∞) (x).
fX (x) =
xα+1
Proposición A.25 Si X ∼ P aI(α, σ), entonces:
ασ
(a) E(X) = α−1 , si α > 1.
ασ r
(b) E(X r ) = α−r , si α > r.
ασ 2
(c) Var(X) = α(α−1)2 (α−2) , si α > 2.
bución Pareto tipo II con parámetros α, σ ∈ R+ , se denota X ∼ P aII(α, σ),
α 1
fX (x) = I(0,∞) (x).
σ (1 + σx )α+1
Proposición A.26 Si X ∼ P aII(α, σ), entonces:
σ
(a) E(X) = α−1 , si α > 1.
Γ(α−r)Γ(r+1)σ r
(b) E(X r ) = Γ(α) , si α > r.
ασ 2
(c) Var(X) = α(α−1)2 (α−2) , si α > 2.
Proposición A.27 Si X ∼ P aII(α, σ), entonces X − σ ∼ P aII(α, σ).
1
Proposición A.28 Si X ∼ Beta(α, 1), entonces X ∼ P aI(α, 1).
tribución Pareto generalizada con parámetros k, σ ∈ R+ , se denota X ∼
GP a(k, σ), si su función de densidad está dada por:
1
1 kx k−1
fX (x) = 1− I(0,∞) (x).
σ σ
Proposición A.29 Si X ∼∼ GP a(k, σ), entonces:
h r i
(a) E 1 − kXσ
1
= 1+rk .
σ
(b) E(X) = 1+k .
σ2
(c) Var(X) = (1+k)2 (1+2k) , si α > 2.
A.6.21. Gaussiana inversa

tribución Gaussiana inversa con parámetros µ, λ ∈ R+ , se denota X ∼
IG(µ, λ), si su función de densidad está dada por:
r
λ λ 2
fX (x) = exp − 2 (x − µ) I(0,∞) (x).
2πx3 2µ x
Proposición A.30 Si X ∼ IG(µ, λ), entonces:
(a) E(X) = µ.
(b) E(X 2 ) = µ2 (1 + µλ ).
µ3
(c) Var(X) = λ .
q
λ 2µ2 t
(d) mX (t) = exp µ 1− 1− λ .
A.6.22. Gompertz
La siguiente distribución la propuso Benjamin Gompertz para ajustar tablas
de mortalidad.

bución Gompertz con parámetros b, c ∈ R+ , se denota X ∼ Gom(b, c), si su

cx b cx
fX (x) = be exp − (e − 1) I(0,∞) (x).
c
A.6.23. Makeham
bución Makeham con parámetros a, b, c ∈ R+ , se denota X ∼ M ak(a, b, c),

cx b cx
fX (x) = (a + be ) exp −ax − (e − 1) I(0,∞) (x).
c
A.6.24. Benktander
Las distribuciones de Benktander (Benktander & Segerdahl (1960), Benk-
tander (1960)) surgen con la idea de encontrar una distribución cuya vida
residual media se encuentre entre las vidas residuales medias de las distri-
buciones exponencial y de Pareto.
Definición A.55 Se definen las distribuciones de Benktander.

(I) Benktander tipo I (con a > 0, b ∈ (0, 1] y σ > 0):
(
1 − ( σx )−(1−b) exp[− ab (xb − σ b )] si x ≥ σ,
F (x) =
0 si x < σ.
(II) Benktander tipo II (con a > 0, b ≥ 0 y σ > 0):

(
a+2b log(x) x −a−1
1 − a+2b log(σ) ( σ ) exp[−b(log2 (x) − log2 (σ))] si x ≥ σ,
F (x) =
0 si x < σ.
Proposición A.31 Si X tiene una distribución Benktander tipo I, enton-

ces,
(1 + a + 2b log(σ))σ
E(X) = .
a + 2b log(σ)
Proposición A.32 Si X tiene una distribución Benktander tipo II, enton-
ces,
1
E(X) = σ 1 + b .
aσ
A.6.25. Gumbel
bución Gumbel con parámetros µ ∈ R y σ > 0, se denota X ∼ Gum(µ, σ),

1 x−µ x−µ
fX (x) = exp − exp − exp − IR (x).
σ σ σ
Proposición A.33 Si X ∼ Gum(µ, σ), entonces:
(a) E(X) = µ − σψ(1).
π
(b) E(X 2 ) = µ2 + 6σ 2 − 2σψ(1) + (ψ(1))2 .
π
(c) Var(X) = 6σ 2 .
A.6.26. Weibull
bución Weibull con parámetros µ ∈ R, σ > 0 y α > 0, se denota X ∼
W ei(σ, α, µ), si su función de densidad está dada por:
α
α x−µ
fX (x) = α (x − µ)α−1 exp − I(µ,∞) (x).
σ σ
Proposición A.34 Si X ∼ W ei(σ, α, µ), entonces:
(a) E(X) = µ + σΓ 1 + α1 .

(b) E(X 2 ) = µ2 + 2σµΓ(1 + α1 ) + σ 2 Γ 1 + α2 .

(c) Var(X) = σ 2 Γ 1 + α2 − Γ2 1 + α1 .

A.6.27. Fréchet
tribución Fréchet con parámetros µ ∈ R, σ > 0 y α > 0, se denota X ∼
F rechet(σ, α, µ), si su función de densidad está dada por:
α
α −α−1 σ
fX (x) = ασ (x − µ) exp − I(µ,∞) (x).
x−µ
Proposición A.35 Si X ∼ F rechet(σ, α, µ), entonces:
(a) E(X) = µ + σΓ 1 − α1 .

(b) E(X 2 ) = µ2 + 2σµΓ 1 − α1 + σ 2 Γ 1 − α2 .

(c) Var(X) = σ 2 Γ 1 − α2 − Γ2 1 − α1 .

A.7. Convergencia
Sean X1, X2 , ... variables aleatorias en (Ω, F, P) y X una variable aleatoria
en el mismo espacio. {Xn }n∈N representa la sucesión de variables aleatorias
X1, X2 , ....
A.7.1. Convergencia puntual

Definición A.59 La sucesión {Xn }n∈N converge a X ó lı́mn→∞ Xn = X
en Ω, si para todo ε > 0 y ω ∈ Ω, existe nε,ω ∈ N, tal que:
| Xn (ω) − X(ω) |< ε, para todo n ≥ nε,ω .
Notación: Xn → X.
A.7. Convergencia 349
Convergencia uniforme
Definición A.60 La sucesión {Xn }n∈N converge uniformemente a X ó
lı́mn→∞ Xn = X en Ω, si para todo ε > 0, existe nε , tal que:
| Xn (ω) − X(ω) |< ε, para todo n ≥ nε y ω ∈ Ω.
u
Notación: Xn −
→X .
Observación A.11 La convergencia puntual es una propiedad local en el
punto ω de la sucesión. En la convergencia uniforme, dado ε ∈ R+ , a partir
de cierto ı́ndice N todas las funciones Xn (ω) estarán comprendidas entre
X(ω) ± ε, para todos los valores de ω. Ası́, la convergencia uniforme implica
la convergencia puntual.
A continuación se hace una revisión de los modos de convergencia más
importantes en la teorı́a de la probabilidad, los cuales además están rela-
cionados con teoremas lı́mite importantes que se usan en la estadı́stica. Se
sugiere consultar textos como Karr (1993), en donde se analizan los resulta-
dos asociados a este tema.
A.7.2. Convergencia casi segura

Definición A.61 Sean {Xn }n∈N y X variables aleatorias en (Ω, F, P). Se
dice que Xn converge casi seguramente o con probabilidad 1 a X, si
existe A ∈ F nulo, es decir P (A) = 0, tal que Xn (ω) → X(ω), para todo
ω ∈ Ac .
c.s.
Notación: Xn −−→ X.
La definición es equivalente a:
n o
P ω ∈ Ω : lı́m Xn (ω) = X(ω) = 1.
n→∞
Que suele escribirse simplemente como:

P lı́m Xn = X = 1.
n→∞
Observación A.12 Este concepto suaviza el de convergencia usual o pun-

tual, el cuál exige la convergencia de Xn (ω) → X(ω), para todo ω ∈ Ω. En la
convergencia casi segura puede haber puntos en los que Xn (ω) no converja a
X(ω), pero estos puntos forman un conjunto de probabilidad
h nula. Si A =i ∅,
P∞
se tiene convergencia puntual. Resultado: Si n=1 P {| Xn − X |< ε} <
c.s.
∞. Entonces Xn → X.
A.7.3. Convergencia! en probabilidad

p
Definición A.62 Se dice que {Xn }n∈N converge en probabilidad a X (Xn −
→
X) si:
lı́m P {ω ∈ Ω :| Xn (ω) − X(ω) |> ε} = 0, para todo ε ∈ R+ .

n→∞
p
Notación: Xn −
→ X.
A.7.4. Convergencia en r-media (o r-ésima media)

Definición A.63 Se dice que {Xn }n∈N converge en r-media a X, si para
r > 0, se tiene que:
lı́m E[| Xn (ω) − X(ω) |r ] = 0.

n→∞
r
Se denota por Xn − → X. Si r = 1, se le llama convergencia en media; si
r = 2, se le llama convergencia en media cuadrática.
A.7.5. Convergencia en distribución

Definición A.64 Sean {Fn }n∈N y F las funciones de distribución de
{Xn }n∈N y de X, respectivamente. Se dice que {Xn }n∈N converge en distri-
bución a X, si:
lı́m Fn (x) = F (x), para todo x punto de continuidad de F.

n→∞
d
Notación: Xn −
→ X.
Observación A.13 [relación entre los modos de convergencia]. La conver-

gencia casi segura implica la convergencia en probabilidad, la cual a su vez,
implica la convergencia en distribución. La convergencia en r-ésima media
implica también la convergencia en probabilidad. En general, las implicacio-
nes restantes entre los modos de convergencia no se cumplen.
Apéndice B
Tablas de distribuciones
de probabilidad
B.1. Cuantiles para la distribución normal

estándar
Sea X una variable aleatoria con distribución normal estándar, X ∼ N (0, 1),
su función de distribución acumulativa es:
Z x
1 2
Φ(x) = P(X ≤ x) = √ e−u /2 du.
−∞ 2π
Note que sólo se presentan las tablas para x ≥ 0. Para obtener las probabi-
lidades para x < 0 use la propiedad de simetrı́a tal que Φ(−x) = 1 − Φ(x).
351
352 B. Tablas de distribuciones de probabilidad
P(X ≤ x)
x 0.0000 0.0100 0.0200 0.0300 0.0400 0.0500 0.0600 0.0700 0.0800 0.0900
0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
B.2. Cuantiles para la distribución Ji-cuadrada 353
B.2. Cuantiles para la distribución Ji-cuadrada

Sea X una variable aleatoria con distribución Ji-cuadrada con k grados de
libertad, X ∼ χ2(k) , su función de distribución acumulativa es:
Z x
1
FX (x) = P(X ≤ x) = uk/2−1 e−u/2 du.
0 Γ(k/2)2k/2
P(X ≤ x)
k 0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995
1 0.000 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300
13 3.565 4.107 5.009 5.892 7.042 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.559
25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290
27 11.808 12.879 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.993
29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.336
30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672
B.3. Cuantiles para la distribución t de Stu-

dent
Sea X una variable aleatoria con distribución t de Student con k grados de
libertad, X ∼ t(k) , su función de distribución acumulativa es:
Z x
Γ((k + 1)/2)
FX (x) = P(X ≤ x) = √ (1 + u2 /k)−(k+1)/2 du
−∞ Γ(k/2) πk
P(X ≤ x)
k 0.900 0.950 0.975 0.990 0.995 0.999
1 3.078 6.314 12.706 31.821 63.657 318.309
2 1.886 2.920 4.303 6.965 9.925 22.327
3 1.638 2.353 3.182 4.541 5.841 10.215
4 1.533 2.132 2.776 3.747 4.604 7.173
5 1.476 2.015 2.571 3.365 4.032 5.893
6 1.440 1.943 2.447 3.143 3.707 5.208
7 1.415 1.895 2.365 2.998 3.499 4.785
8 1.397 1.860 2.306 2.896 3.355 4.501
9 1.383 1.833 2.262 2.821 3.250 4.297
10 1.372 1.812 2.228 2.764 3.169 4.144
11 1.363 1.796 2.201 2.718 3.106 4.025
12 1.356 1.782 2.179 2.681 3.055 3.930
13 1.350 1.771 2.160 2.650 3.012 3.852
14 1.345 1.761 2.145 2.624 2.977 3.787
15 1.341 1.753 2.131 2.602 2.947 3.733
16 1.337 1.746 2.120 2.583 2.921 3.686
17 1.333 1.740 2.110 2.567 2.898 3.646
18 1.330 1.734 2.101 2.552 2.878 3.610
19 1.328 1.729 2.093 2.539 2.861 3.579
20 1.325 1.725 2.086 2.528 2.845 3.552
21 1.323 1.721 2.080 2.518 2.831 3.527
22 1.321 1.717 2.074 2.508 2.819 3.505
23 1.319 1.714 2.069 2.500 2.807 3.485
24 1.318 1.711 2.064 2.492 2.797 3.467
25 1.316 1.708 2.060 2.485 2.787 3.450
26 1.315 1.706 2.056 2.479 2.779 3.435
27 1.314 1.703 2.052 2.473 2.771 3.421
28 1.313 1.701 2.048 2.467 2.763 3.408
29 1.311 1.699 2.045 2.462 2.756 3.396
30 1.310 1.697 2.042 2.457 2.750 3.385
∞ 1.282 1.645 1.960 2.326 2.576 3.090
B.4. Cuantiles para la distribución F de Fisher 355
B.4. Cuantiles para la distribución F de

Fisher
Sea X una variable aleatoria con distribución F de Fisher con m y n grados
de libertad, X ∼ F (m, n), su función de distribución acumulativa es:
m−2
x
Γ( m+n
2 )
Z m m/2 u 2
FX (x) = P(X ≤ x) = m n m+n du
0 Γ( 2 )Γ( 2 ) n 1+ m u 2
n
m
P(X ≤ x) n 1 2 3 4 5 6 7 8
0.950 1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883
0.975 1 647.789 799.500 864.163 899.583 921.848 937.111 948.217 956.656
0.990 1 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070
0.950 2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371
0.975 2 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373
0.990 2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374
0.950 3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845
0.975 3 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540
0.990 3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489
0.950 4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041
0.975 4 12.218 10.649 9.979 9.605 9.364 9.197 9.074 8.980
0.990 4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799
0.950 5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818
0.975 5 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757
0.990 5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289
0.950 6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147
0.975 6 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600
0.990 6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102
0.950 7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726
0.975 7 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899
0.990 7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840
0.950 8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438
0.975 8 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433
0.990 8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029
0.950 9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230
0.975 9 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102
0.990 9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467
0.950 10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072
0.975 10 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855
0.990 10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057
0.950 11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948
0.975 11 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664
0.990 11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744
0.950 12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849
0.975 12 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512
0.990 12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499
0.950 13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767
0.975 13 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388
0.990 13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302
0.950 14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699
0.975 14 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285
0.990 14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140
0.950 15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641
0.975 15 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199
0.990 15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004
0.950 16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591
0.975 16 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125
0.990 16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890
m
P(X ≤ x) n 9 10 11 12 13 14 15 16
0.950 1 240.543 241.882 242.983 243.906 244.690 245.364 245.950 246.464
0.975 1 963.285 968.627 973.025 976.708 979.837 982.528 984.867 986.919
0.990 1 6022.473 6055.847 6083.317 6106.321 6125.865 6142.674 6157.285 6170.101
0.950 2 19.385 19.396 19.405 19.413 19.419 19.424 19.429 19.433
0.975 2 39.387 39.398 39.407 39.415 39.421 39.427 39.431 39.435
0.990 2 99.388 99.399 99.408 99.416 99.422 99.428 99.433 99.437
0.950 3 8.812 8.786 8.763 8.745 8.729 8.715 8.703 8.692
0.975 3 14.473 14.419 14.374 14.337 14.304 14.277 14.253 14.232
0.990 3 27.345 27.229 27.133 27.052 26.983 26.924 26.872 26.827
0.950 4 5.999 5.964 5.936 5.912 5.891 5.873 5.858 5.844
0.975 4 8.905 8.844 8.794 8.751 8.715 8.684 8.657 8.633
0.990 4 14.659 14.546 14.452 14.374 14.307 14.249 14.198 14.154
0.950 5 4.772 4.735 4.704 4.678 4.655 4.636 4.619 4.604
0.975 5 6.681 6.619 6.568 6.525 6.488 6.456 6.428 6.403
0.990 5 10.158 10.051 9.963 9.888 9.825 9.770 9.722 9.680
0.950 6 4.099 4.060 4.027 4.000 3.976 3.956 3.938 3.922
0.975 6 5.523 5.461 5.410 5.366 5.329 5.297 5.269 5.244
0.990 6 7.976 7.874 7.790 7.718 7.657 7.605 7.559 7.519
0.950 7 3.677 3.637 3.603 3.575 3.550 3.529 3.511 3.494
0.975 7 4.823 4.761 4.709 4.666 4.628 4.596 4.568 4.543
0.990 7 6.719 6.620 6.538 6.469 6.410 6.359 6.314 6.275
0.950 8 3.388 3.347 3.313 3.284 3.259 3.237 3.218 3.202
0.975 8 4.357 4.295 4.243 4.200 4.162 4.130 4.101 4.076
0.990 8 5.911 5.814 5.734 5.667 5.609 5.559 5.515 5.477
0.950 9 3.179 3.137 3.102 3.073 3.048 3.025 3.006 2.989
0.975 9 4.026 3.964 3.912 3.868 3.831 3.798 3.769 3.744
0.990 9 5.351 5.257 5.178 5.111 5.055 5.005 4.962 4.924
0.950 10 3.020 2.978 2.943 2.913 2.887 2.865 2.845 2.828
0.975 10 3.779 3.717 3.665 3.621 3.583 3.550 3.522 3.496
0.990 10 4.942 4.849 4.772 4.706 4.650 4.601 4.558 4.520
0.950 11 2.896 2.854 2.818 2.788 2.761 2.739 2.719 2.701
0.975 11 3.588 3.526 3.474 3.430 3.392 3.359 3.330 3.304
0.990 11 4.632 4.539 4.462 4.397 4.342 4.293 4.251 4.213
0.950 12 2.796 2.753 2.717 2.687 2.660 2.637 2.617 2.599
0.975 12 3.436 3.374 3.321 3.277 3.239 3.206 3.177 3.152
0.990 12 4.388 4.296 4.220 4.155 4.100 4.052 4.010 3.972
0.950 13 2.714 2.671 2.635 2.604 2.577 2.554 2.533 2.515
0.975 13 3.312 3.250 3.197 3.153 3.115 3.082 3.053 3.027
0.990 13 4.191 4.100 4.025 3.960 3.905 3.857 3.815 3.778
0.950 14 2.646 2.602 2.565 2.534 2.507 2.484 2.463 2.445
0.975 14 3.209 3.147 3.095 3.050 3.012 2.979 2.949 2.923
0.990 14 4.030 3.939 3.864 3.800 3.745 3.698 3.656 3.619
0.950 15 2.588 2.544 2.507 2.475 2.448 2.424 2.403 2.385
0.975 15 3.123 3.060 3.008 2.963 2.925 2.891 2.862 2.836
0.990 15 3.895 3.805 3.730 3.666 3.612 3.564 3.522 3.485
0.950 16 2.538 2.494 2.456 2.425 2.397 2.373 2.352 2.333
0.975 16 3.049 2.986 2.934 2.889 2.851 2.817 2.788 2.761
0.990 16 3.780 3.691 3.616 3.553 3.498 3.451 3.409 3.372
Bibliografı́a
[1] Berger, J. O. and Sellke, T. (1987). Testing a point null hypothesis:

The irreconcilability of p values and evidence. Journal of the American
Statistical Association, 82(397):112–122.
[2] Campbell, N. A. and Mahon, R. J. (1974). A multivariate study of

variation in two species of rock crab of genus Leptograpsus. Australian
Journal of Zoology, 22:417–425.
[3] Canavos, G. C. (2003). Probabilidad y Estadı́stica. Aplicaciones y Méto-

dos. Mc Graw Hill, México.
[4] Casella, G. and Berger, R. L. (2002). Statistical Inference. Duxbury

Advanced Series in Statistics and Decision Sciences. Thomson Learning,
2nd edition.
[5] Conover, W. J. (1999). Practical Nonparametric Statistics. John Wiley

& Sons, 3rd edition.
[6] Contento R., M.R. (2012). Construcción del concepto de intervalo de

confianza mediante simulación en R. Universidad Nacional de Colom-
bia. Tesis para magister en enseñanza de las ciencias exactas y naturales.
[7] Dixit, U. J. (2016). Examples in Parametric Inference with R. Springer,

Berlin.
[8] Efron, B. (1998). R. A. Fisher in the 21st Century. Statistical Science,

13(2):95–114.
[9] Everitt, B. S. (1992). The Analysis of Contingency Tables. Chapman

and Hall/CRC, New York, 2nd edition.
[10] Fisher, R. A. (1935). The Design of Experiments. Oliver & Boyd,

Edinburgh.
357
358 Bibliografı́a
[11] Fisher, S. R. A. (1956). Mathematics of a lady tasting tea. In Newman,

J. R., editor, The World of Mathematics, volume 3, pages 1512–1521.
Simon & Schuster, New York.
[12] Gibbons, J. D. and Chakraborti, S. (2010). Nonparametric Statistical
Inference. CRC Press, New York, 5th edition.
[13] Gómez V., M. A. (2009). Karl Pearson, el Creador de la Estadı́stica
Matemática. In Basulto, J. and Garcı́a, J. J., editors, Historia de la
Probabilidad y la Estadı́stica IV, pages 351–356, Huelva. Congreso In-
ternacional de Historia de la Estadı́stica y la Probabilidad, Servicio de
Publicaciones de la Universidad de Huelva.
[14] Hall, A. R. (2005). Generalized Method of Moments. Advanced Texts
in Econometrics. Oxford University Press, Oxford.
[15] Hogg, R. V., McKean, J., and Craig, A. T. (2014). Introduction to
Mathematical Statistics. Pearson Education International, 7th edition.
[16] Johnson, R. A. and Bhattacharyya, G. K. (2010). Statistics: Principles
and Methods. John Wiley & Sons, 6th edition.
[17] Kapadia, A. S., Chan, W., and Moyé, L. A. (2005). Mathematical Sta-
tistics with Applications. Statistics: A Series of Textbooks and Mono-
graphs. Chapman & Hall/CRC Press, 1st edition.
[18] Karr, A. F. (2012). Probability. Springer Texts in Statistics. Springer
Science & Business Media, LLC.
[19] Kellison, S. G. and London, R. L. (2011). Risk Models and Their Esti-
mation. ACTEX Academic Series. ACTEX Publications.
[20] Kendall, M. and Stuart, A. (1979). The Advanced Theory of Statistics.
Volume II, Inference and relationship. MacMillan, New York.
[21] Koop, G., Poirier, D. J., and Tobias, J. L. (2007). Bayesian Econometric
Methods. Cambridge University Press.
[22] Lindgren, B. W. (1993). Statistical Theory. Chapman & Hall/CRC
Press, 4th edition.
[23] Lock, R. H. (1993). 1993 new car data. Journal of Statistics Education,
1(1).
[24] Marin, J.-M. and Robert, C. (2007). Bayesian Core: A Practical Ap-
proach to Computational Bayesian Statistics. Springer.
359
[25] Mayorga, J.H. (2004). Inferencia Estadı́stica. Universidad Nacional de

Colombia. Unibiblos, 1era. edición.
[26] Mood, A. M., Graybill, F. A., and Boes, D. C. (1974). Introduction to

the Theory of Statistics. Series in Probability and Statistics. Mc Graw
Hill Education, 3rd edition.
[27] Moore, D. S. (2005). Estadı́stica Aplicada Básica. Antoni Bosch, 2da

edition.
[28] Mukhopadhyay, N. (2006). Introductory Statistical Inference. Statistics:

A Series of Textbooks and Monographs. Chapman & Hall/CRC Press,
1st edition.
[29] Newman, J. R. (1956). The World of Mathematics, Vol. III. Simon and
Schuster, New York.
[30] Paul, S., Wang, Y. and Ullah, I. (2019). A review of the Behrens-Fisher
problem and some of its analogs: does the same size fit all? REVSTAT
Statistical Journal volume 17, number 4, 563-597.
[31] Pearson, E. S. (1974). Memories of the impact of Fisher’s work in

the 1920s. International Statistical Review / Revue Internationale de
Statistique, 42(1):5–4.
[32] Rao, C. R. (1997). Statistics and Truth: Putting Chance to Work. World
Scientific, Singapore, 2nd edition.
[33] Reid, N. (2015). Tests of significance. In Wright, J. D., editor, Inter-

national Encyclopedia of the Social & Behavioral Sciences, volume 21,
pages 957–962. Elsevier, Oxford, 2nd edition.
[34] Rencher, A. C. and Schaalje, G. B. (2008). Linear Models in Statistics.

John Wiley & Sons, 2nd edition.
[35] Ross, S. (2010). A First Course in Probability. Pearson, 9th edition.
[36] Savage, L. J. (1976). On rereading R. A. Fisher. The Annals of Statis-

tics, 4(3):441–500.
[37] Schervish, M. J. (1995). Theory of Statistics. Springer Series in Statis-

tics. Springer.
[38] Schervish, M. J. (1996). P values: What they are and what they are
not. The American Statistician, 50(3):203–206.
360 Bibliografı́a
[39] Snedecor, G. W. (1934). Analysis of Variance and Covariance. Colle-

giate Press, Ames, Iowa.
[40] Snedecor, G. W. (1937). Statistical Methods. Iowa State College Press.

[41] Stuart, A., Ord, J. K., and Arnold, S. (1999). Vol. 2a: Classical inference
and the linear model. In Kendall’s Advanced Theory of Statistics. Wiley,
London, 6th edition.
[42] Sudhir, P., Wang, Y.-G., and Ullah, I. (2018). A review of the Behrens-
Fisher problem and some of its analogs: Does the same size fit all?
Revstat Statistical Journal.
[43] Velez I., R. and Garcı́a P., A. (2012). Principios de Inferencia Es-
tadı́stica. Universidad Nacional de Educación a Distancia (UNED), 2nd
edition.
[44] Welch, B. L. (1938). The significance of the difference between
two means when the population variances are unequal. Biometrika,
29(3/4):350–362.
[45] Yañez C., S. (2000). La estadı́stica una ciencia del siglo XX. R. A.
Fisher, el genio. Revista Colombiana de Estadı́stica, 23(2):1–14.
[46] Zacks, S. (1971). Theory of Statistical Inference. Probability & Mathe-
matical Statistics Series. John Wiley & Sons.
[47] Zehna, P. W. (1966). Invariance of maximum likelihood estimators. The
Annals of Mathematical Statistics, 37(3):744.
[48] Zsohar, P. (2012). Short introduction to the generalized method of
moments. Hungarian Statistical Review, 16 (Special Number):150–170.
[49] http://www.dm.uba.ar/materias/estadistica M/.
[50] http://www.statslab.cam.ac.uk/˜rrw1/.
Índice analı́tico
AIC, 275 Diagrama de tallo y hojas, 21

Distribución
Behrens-Fisher, 207 F, 54
Boxplot, 24 t, 57
t de Student, 343
Cantidad pivotal, 189 Bernoulli, 77, 336
Clase de estimadores insesgados, Beta, 342
148 Binomial, 337
Cociente Binomial negativa, 338
de verosimilitud, 248 clásica de Pareto, 345
Coeficiente de contingencia, 295 de Benktander, 347
Coeficiente de correlación, 34, 332 Exponencial, 340
Condiciones de regularidad, 149 F de Fisher, 343
Consistencia, 144 Fréchet, 348
en ECM, 144 Gama, 45, 341
Contrastes Gama generalizada, 341
de hipótesis, 227 Gaussiana inversa, 346
Convergencia Geométrica, 77, 338
casi segura, 349 Gompertz, 346
en distribución, 350 Gumbel, 347
en probabilidad, 350 Hipergeométrica, 339
puntual, 348 inicial, 126
uniforme, 349 Ji-cuadrada, 46, 342
Cota inferior de Cramèr, 154 Log-Logı́stica, 344
Covarianza, 332 Log-Normal, 343
Criterio de información de Akaike, Logarı́tmica, 339
275 Logı́stica, 344
Cuartiles, 28 Makeham, 346
Curtosis, 32 Normal, 343
Pareto generalizada, 345
Desviación estándar, 30 Pareto tipo II, 345
361
362 Índice analı́tico
Poisson, 77, 337 puntual, 4

uniforme continua, 340 Estimación puntual, 105
uniforme discreta, 336 Estimador
Weibull, 348 máximo verosı́mil, 114
Exponencial, 76 por el método de momentos,
final, 127 109
posterior, 127 Estimadores
Distribución de la muestra, 8 basados en verosimilitud, 112
Eficiencia asintótica, 167 Factor de Bayes, 297

Enfoque Bayesiano, 216 Familia de localización y escala, 8
Error Familia exponencial, 76
tamaño de, 233 Familias conjugadas, 127
tipo I, 233 Fisher, 55, 107
tipo II, 233 Frecuencia
cuadrático medio, 139 relativa, 17
Escala relativa acumulada, 17
de intervalo, 13 Frecuencias, 17
de razón, 14 Función
nominal, 13 de densidad continua condi-
ordinal, 13 cional, 327
Escalas de medición, 13 de densidad de probabilidad,
Espacio de probabilidad, 2, 319 322
Espacio muestral, 39 de densidad de probabilidad
Espacio parametral, 4 conjunta, 325
Espacio paramétrico, 4 de densidad de probabilidad
Esperanza marginal, 326
condicional, 333 de densidad discreta condicio-
esperanza, 328 nal, 327
Estadı́stica, 1, 39 de distribución, 322
completa, 84 de distribución acumulativa,
de prueba, 243 322
suficiente, 64 de distribución acumulativa con-
Bayesiana, 4 junta, 322
descriptiva, 11 de pérdida, 146
Estadı́sticas generadora de momentos, 330
auxiliares, 90 generadora de momentos con-
Estadı́sticas de orden, 59 junta, 334
Estimación potencia, 234
por intervalos, 183 de puntaje, 151
por intervalos, 4 Función de verosimilitud, 114
Índice analı́tico 363
Gosset, 58 Medidas
Grados de libertad, 265 de tendencia central, 27
Gráfica Medidas de dispersión, 29
de barras, 18 Momentos, 329
de pay, 18 Muestra, 5
Muestra aleatoria, 6, 8
Hipótesis Muestreo
compuesta, 230 estratificado, 5
estadı́stica, 227 por conglomerados, 5
prueba de, 231 aleatorio simple, 5
simple, 230 Método
Histograma, 21 de medianas, 133
de momentos, 106
Independencia, 321 de mı́nimos cuadrados, 133,
Independencia estocástica, 328 143
Inferencia Bayesiana, 126 de percentiles, 133
Inferencia estadı́stica, 4 Método basado en estadı́sticas su-
Información ficientes, 196
esperada de Fisher, 151 Método pivotal para intervalos de
por unidad muestral, 152 confianza, 189
Intervalo Métodos de estimación, 106
para el cociente de varianzas
de poblaciones indepen- Nivel de significancia, 270
dientes, 209
para la diferencia de medias p-value, 268
de poblaciones indepen- Partición, 80
dientes, 204 Pearson, 48, 106
para la varianza, 203 Percentil, 28
aleatorio, 185 Probabilidad
Intervalo intercuatil, 24 condicional, 320
Intervalos total, 321
para la media, 201 Propiedad de invarianza, 120
Intervalos de confianza, 183 Prueba
para muestras grandes, 211 de independencia, 286
Ji-cuadrada para bondad de
Lema ajuste, 276
Neyman-Pearson, 240 Prueba más potente, 240
Pruebas
Media de hipótesis, 227
muestral, 27 de hipótesis, 296
Mediana Pruebas de bondad de ajuste, 275
muestral, 27 Pruebas de hipótesis, 4
364 Índice analı́tico
Pruebas más potentes, 240

Pruebas uniformemente más po-
tentes, 248
R, 15
Rango, 31
intercuartil, 31
Razón
de verosimilitudes, 256
Razón monótona
de verosimilitud, 251
Región crı́tica, 231
Región de rechazo, 231
Series de Taylor, 265

Sesgo, 139
muestral, 32
negativo, 32
positivo, 32
Suficiencia minimal, 78
Tablas de contingencia, 286

Tamaño de la prueba, 235
Teorema
de Bayes, 321
de factorización, 70
de Lehmann-Scheffé, 160
de Rao-Blackwell, 159
de Karlin-Rubin, 251, 253
UMVUE, 148
Variable aleatoria, 321

Variables
aleatorias continuas, 325
aleatorias discretas, 324
Varianza, 329
condicional, 333
Varianza asintótica, 167
Varianza muestral, 29

Inferencia Estadistica para Estud. - Color - PP

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Inferencia Estadistica para Estud. - Color - PP

Cargado por

Copyright:

Formatos disponibles

Jaime Vázquez Alamilla

Lizbeth Naranjo Albarrán

Facultad de Ciencias, UNAM

Esta obra contó con el apoyo del proyecto PAPIME PE-107117

Inferencia estadística para estudiantes de ciencias

© D.R. 2019. Universidad Nacional Autónoma de México.

Diseño de portada: Laura Uribe Hernández y Celia Ayala Escorza

Prohibida la reproducción parcial o total de la obra por cualquier medio,

Impreso y hecho en México.

A nuestro maestro de Inferencia Estadı́stica, el Dr. Federico O’Reilly

A los colegas profesores e investigadores que nos hicieron comentarios

A Rafael Reyes Sánchez por su extraordinario apoyo en la edición y

A los ayudantes (profesores adjuntos), quienes con su labor han sido

A nuestros estudiantes de la Facultad de Ciencias de la Universidad Na-

2.6. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . 29

3. Estadı́sticas y distribuciones muestrales 39

4. Estimación puntual 105

4.3.1. Error cuadrático medio y estimadores insesgados . . . 139

5. Estimación por intervalos 183

6. Pruebas de hipótesis 227

6.4. La razón de verosimilitudes generalizadas . . . . . . . . . . . 256

A. Algunos conceptos y resultados de probabilidad 319

A.6.14. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 343

B. Tablas de distribuciones de probabilidad 351

Índice analı́tico 361

2.1. Gráfica de barras correspondiente a las especies B (blue) u O

2.2. Gráfica de pay para las especies de cangrejos. . . . . . . . . . 19

2.3. Diagrama de pay para las 5 respuestas de una encuesta. . . . 20

2.4. Histogramas para la caracterı́stica ancho del caparazón de los

2.5. Diagrama de caja y brazos para la caracterı́stica ancho del

2.6. Diagramas de caja y brazos para la caracterı́stica ancho del

2.7. Gráfica de caja y brazos para la caracterı́stica ancho del ca-

2.8. Gráfica de dispersión para la base crabs y que ilustra la rela-

2.9. Gráfica de correlación para las medidas morfológicas de los

3.1. Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada

3.2. Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesi-

4.1. Karl Pearson con Francis Galton. Ambos fundaron la revista

5.1. Intervalos correspondientes a 100 muestras para tamaños de

6.1. Función potencia del ejemplo 6.1. . . . . . . . . . . . . . . . . 236

Mis felicitaciones por un libro muy necesitado; y me enorgullece como

Dr. Federico O’Reylli Togno

El progreso de la ciencia con frecuencia se adscribe a la experimentación.

estadı́stica juega un papel importante en los estudios de mercado y otros pro-

1.1. La probabilidad y la estadı́stica

valor de λ, serı́a posible obtener un valor numérico para las probabilidades

1.2. Enfoques de la estadı́stica

Enfoque descriptivo: resumen y descripción de un conjunto de datos

Enfoque de inferencia: análisis e interpretación de la información

De acuerdo a lo que se desea conocer del parámetro, la inferencia es-

Definición 1.1 Al conjunto de valores que el parámetro θ puede tomar se

En el caso de la distribución Bernoulli Θ = [0, 1].

La inferencia estadı́stica también suele denominarse estadı́stica inductiva

La necesidad de trabajar con un conjunto reducido de la población está aso-

1.2.1. El concepto de muestra aleatoria

La población de objetos puede ser una colección de personas y la carac-

(3) Las observaciones se obtienen como resultado de realizaciones indepen-

Esta descripción incluye a (1) como un caso especial, aunque no necesa-

(1, 2) (1, 3) (1, 4) (2, 3) (2, 4) (3, 4)

(2, 1) (3, 1) (4, 1) (3, 2) (4, 2) (4, 3)

Cada uno de estos 12 resultados tiene probabilidad 1/12. A partir de esto,

P(X1 = 1) = P[(1, 2), (1, 3) o (1, 4)]

P(X2 = 1) = P[(2, 1), (3, 1) o (4, 1)]

De esta manera, se diseña un experimento y se lleva a cabo para propor-