Está en la página 1de 382

Jaime Vázquez Alamilla

Lizbeth Naranjo Albarrán


Ruth Fuentes Garcı́a
Margarita Chávez Cano

inferencia estadı́stica
para estudiantes de ciencias

Facultad de Ciencias, UNAM


519.5
Vázquez Alamilla, Jaime, autor.
Inferencia estadística para estudiantes de ciencias / Jaime
Vázquez Alamilla, Lizbeth Naranjo Albarrán, Ruth Fuentes García,
Margarita Chávez Cano. -- Ciudad de México : Universidad Nacio-
nal Autónoma de México, Facultad de Ciencias, 2019.
xv, 384 páginas: ilustraciones ; 22 cm
Incluye índice
Bibliografía: paginas 375-378
ISBN: 978-607-30-2477-8
1. Estadística matemática. 2. Probabilidades. I. Naranjo Al-
barrán, Lizbeth, autor. II. Fuentes García, Ruth, autor. III. Chávez
Cano, Margarita, autor. IV. Universidad Nacional Autónoma de Mé-
xico, Facultad de Ciencias, editor. V. Título.
Biblioteca Nacional de México scdd 22

Esta obra contó con el apoyo del proyecto PAPIME PE-107117

Inferencia estadística para estudiantes de ciencias


1a edición, 29 de septiembre de 2019

© D.R. 2019. Universidad Nacional Autónoma de México.


Facultad de Ciencias.
Ciudad Universitaria. Delegación Coyoacán,
C. P. 04510, Ciudad de México
Coordinación de servicios editoriales: editoriales@ciencias.unam.mx
Plaza Prometeo: tienda.fciencias.unam.mx

ISBN: 978-607-30-2477-8

Diseño de portada: Laura Uribe Hernández y Celia Ayala Escorza

Prohibida la reproducción parcial o total de la obra por cualquier medio,


sin la autorización por escrito del titular de los derechos patrimoniales.

Impreso y hecho en México.


Agradecimientos
A la Dirección General de Asuntos del Personal Académico por el apoyo
para la realización de esta obra a través del Proyecto Papime PE107117.

A nuestro maestro de Inferencia Estadı́stica, el Dr. Federico O’Reilly


Togno, por sus sugerencias y por haber accedido a escribir el prólogo de este
libro, pero sobre todo por habernos transmitido el gusto por esta materia.
Es un honor, siendo él uno de los pilares de la estadı́stica en México.

A los colegas profesores e investigadores que nos hicieron comentarios


acerca de las notas que antecedieron a este texto. En particular al Dr. Eduar-
do Gutiérrez Peña por sus valiosas observaciones.

A Rafael Reyes Sánchez por su extraordinario apoyo en la edición y


formato de este libro.

A los ayudantes (profesores adjuntos), quienes con su labor han sido


parte fundamental del éxito de los cursos de Inferencia Estadı́stica que hemos
impartido. Gracias también por sus aportaciones para la realización de este
documento.

A nuestros estudiantes de la Facultad de Ciencias de la Universidad Na-


cional Autónoma de México, porque ellos son la razón de nuestro trabajo y
quienes nos motivaron a escribir el libro.
Índice general

Prólogo XV

Introducción XVII

1. ¿Qué es la estadı́stica? 1
1.1. La probabilidad y la estadı́stica . . . . . . . . . . . . . . . . . 2
1.2. Enfoques de la estadı́stica . . . . . . . . . . . . . . . . . . . . 3
1.2.1. El concepto de muestra aleatoria . . . . . . . . . . . . 6
1.3. Familia de localización y escala . . . . . . . . . . . . . . . . . 8

2. Estadı́stica descriptiva 11
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Datos y variables . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Escalas de medición . . . . . . . . . . . . . . . . . . . 13
2.2.3. Formas de recolección . . . . . . . . . . . . . . . . . . 14
2.3. Los datos y R . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1. Cargando los datos . . . . . . . . . . . . . . . . . . . . 15
2.4. Representación gráfica de los datos . . . . . . . . . . . . . . . 16
2.4.1. Frecuencia, frecuencia relativa y frecuencia acumulada 17
2.4.2. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . 17
2.4.3. Gráficas de barras . . . . . . . . . . . . . . . . . . . . 18
2.4.4. Gráficas de pay o pastel . . . . . . . . . . . . . . . . . 18
2.4.5. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . 21
2.4.6. Histograma . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.7. Boxplot o diagrama de caja y brazos . . . . . . . . . . 24
2.5. Medidas muestrales de tendencia central . . . . . . . . . . . 27
2.5.1. La media muestral . . . . . . . . . . . . . . . . . . . . 27
2.5.2. La mediana muestral . . . . . . . . . . . . . . . . . . . 27
2.5.3. Porcentiles o percentiles . . . . . . . . . . . . . . . . . 28

v
vi Índice general

2.6. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . 29


2.6.1. Varianza y desviación estándar muestrales . . . . . . . 29
2.6.2. Rango muestral . . . . . . . . . . . . . . . . . . . . . . 31
2.6.3. Rango intercuartil . . . . . . . . . . . . . . . . . . . . 31
2.7. Otras medidas de resumen . . . . . . . . . . . . . . . . . . . . 32
2.8. Relaciones lineales entre variables . . . . . . . . . . . . . . . . 33
2.9. Anexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.10. Ejercicio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3. Estadı́sticas y distribuciones muestrales 39


3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2. Distribución de las estadı́sticas . . . . . . . . . . . . . . . . . 44
3.2.1. Distribución de la media muestral . . . . . . . . . . . 44
3.2.2. La distribución de la varianza muestral . . . . . . . . 45
3.2.3. La distribución F de Fisher y el cociente de varianzas
muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.4. La distribución t de Student y algunas estadı́sticas re-
lacionadas . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3. Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.1. r-ésima estadı́stica de orden (Yr ) . . . . . . . . . . . . 60
3.3.2. Distribución conjunta de las estadı́sticas de orden mı́ni-
ma y máxima . . . . . . . . . . . . . . . . . . . . . . . 61
3.4. Estadı́sticas suficientes . . . . . . . . . . . . . . . . . . . . . . 63
3.4.1. El concepto de suficiencia . . . . . . . . . . . . . . . . 65
3.4.2. El teorema de factorización . . . . . . . . . . . . . . . 70
3.4.3. La familia exponencial . . . . . . . . . . . . . . . . . . 76
3.4.4. Suficiencia minimal . . . . . . . . . . . . . . . . . . . . 78

3.5. Completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.6. Algunas generalizaciones . . . . . . . . . . . . . . . . . . . . . 88
3.7. Estadı́sticas auxiliares . . . . . . . . . . . . . . . . . . . . . . 90
3.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4. Estimación puntual 105


4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . 106
4.2.1. Método de momentos . . . . . . . . . . . . . . . . . . 108
4.2.2. Estimadores basados en verosimilitud . . . . . . . . . 112
4.2.3. Verosimilitud en el enfoque Bayesiano . . . . . . . . . 125
4.2.4. Otros métodos de estimación . . . . . . . . . . . . . . 133
4.3. Evaluación de estimadores . . . . . . . . . . . . . . . . . . . . 138
Índice general vii

4.3.1. Error cuadrático medio y estimadores insesgados . . . 139


4.3.2. Consistencia . . . . . . . . . . . . . . . . . . . . . . . 144
4.3.3. Funciones de pérdida y estimación . . . . . . . . . . . 146
4.4. Estimación insesgada . . . . . . . . . . . . . . . . . . . . . . . 148
4.4.1. La propuesta de Cramèr y Rao . . . . . . . . . . . . . 149
4.4.2. El teorema de Rao-Blackwell . . . . . . . . . . . . . . 159
4.4.3. El teorema de Lehmann-Scheffé . . . . . . . . . . . . . 160
4.5. Propiedades asintóticas de los estimadores . . . . . . . . . . . 167
4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

5. Estimación por intervalos 183


5.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . 183
5.1.1. Método pivotal para encontrar intervalos de confianza 189
5.1.2. El método de la cantidad pivotal para funciones de
distribución continuas . . . . . . . . . . . . . . . . . . 193
5.1.3. Método basado en estadı́sticas suficientes . . . . . . . 196
5.2. Intervalos para muestras de la distribución normal . . . . . . 200
5.2.1. Intervalos para la media . . . . . . . . . . . . . . . . . 201
5.2.2. Intervalo para la varianza . . . . . . . . . . . . . . . . 203
5.2.3. Región de confianza para (µ, σ 2 ) . . . . . . . . . . . . 204
5.2.4. Intervalo para la diferencia de medias de poblaciones
normales independientes . . . . . . . . . . . . . . . . . 204
5.2.5. Intervalo para el cociente de varianzas de poblaciones
normales independientes . . . . . . . . . . . . . . . . . 209
5.3. Intervalos de confianza para muestras grandes . . . . . . . . . 211
5.3.1. Intervalo de confianza para el parámetro p de una dis-
tribución binomial . . . . . . . . . . . . . . . . . . . . 214
5.4. Enfoque Bayesiano en la estimación por intervalos . . . . . . 216
5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

6. Pruebas de hipótesis 227


6.1. Conceptos fundamentales en pruebas de hipótesis . . . . . . . 227
6.1.1. Hipótesis estadı́sticas . . . . . . . . . . . . . . . . . . . 229
6.1.2. Tipos y tamaños de los errores . . . . . . . . . . . . . 232
6.1.3. La función potencia . . . . . . . . . . . . . . . . . . . 234
6.2. Hipótesis simples . . . . . . . . . . . . . . . . . . . . . . . . . 238
6.2.1. Pruebas más potentes y el lema de Neyman-Pearson . 240
6.3. Pruebas uniformemente más potentes . . . . . . . . . . . . . 248
6.3.1. Hipótesis simple contra compuesta . . . . . . . . . . . 248
6.3.2. La razón monótona de verosimilitudes y el teorema de
Karlin-Rubin . . . . . . . . . . . . . . . . . . . . . . . 251
viii Índice general

6.4. La razón de verosimilitudes generalizadas . . . . . . . . . . . 256


6.4.1. La prueba de la razón de verosimilitudes generalizadas 257
6.4.2. La distribución asintótica de la razón de verosimilitudes264
6.5. El valor p (p-value) . . . . . . . . . . . . . . . . . . . . . . . . 268
6.6. Algunas pruebas basadas en razón de verosimilitudes . . . . . 275
6.6.1. Prueba Ji-cuadrada para bondad de ajuste . . . . . . 276
6.6.2. La prueba de independencia en tablas de contingencia 286
6.7. Pruebas de hipótesis en el contexto Bayesiano . . . . . . . . . 296
6.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

A. Algunos conceptos y resultados de probabilidad 319


A.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . 319
A.2. Probabilidad condicional e independencia . . . . . . . . . . . 320
A.3. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 321
A.4. Distribuciones conjuntas y condicionales . . . . . . . . . . . . 322
A.4.1. Variables aleatorias discretas . . . . . . . . . . . . . . 324
A.4.2. Variables aleatorias continuas . . . . . . . . . . . . . . 325
A.4.3. Distribución condicional e independencia estocástica . 327
A.5. Momentos de variables aleatorias . . . . . . . . . . . . . . . . 328
A.5.1. Esperanza y varianza . . . . . . . . . . . . . . . . . . . 328
A.5.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 329
A.5.3. Función generadora de momentos . . . . . . . . . . . . 330
A.5.4. Esperanza de g (X1 , . . . , Xn ) . . . . . . . . . . . . . . 331
A.5.5. Coeficiente de correlación ρxy . . . . . . . . . . . . . . 332
A.5.6. Esperanza condicional . . . . . . . . . . . . . . . . . . 333
A.5.7. Función generadora de momentos conjunta y momentos 334
A.5.8. Independencia y esperanza . . . . . . . . . . . . . . . 334
A.6. Resumen de familias paramétricas . . . . . . . . . . . . . . . 336
A.6.1. Uniforme Discreta . . . . . . . . . . . . . . . . . . . . 336
A.6.2. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 336
A.6.3. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 337
A.6.4. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 337
A.6.5. Geométrica . . . . . . . . . . . . . . . . . . . . . . . . 338
A.6.6. Binomial negativa . . . . . . . . . . . . . . . . . . . . 338
A.6.7. Hipergeométrica . . . . . . . . . . . . . . . . . . . . . 339
A.6.8. Logarı́tmica . . . . . . . . . . . . . . . . . . . . . . . . 339
A.6.9. Uniforme continua . . . . . . . . . . . . . . . . . . . . 340
A.6.10. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 340
A.6.11. Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
A.6.12. Ji-cuadrada . . . . . . . . . . . . . . . . . . . . . . . . 342
A.6.13. Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
Índice general ix

A.6.14. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 343


A.6.15. t de Student . . . . . . . . . . . . . . . . . . . . . . . 343
A.6.16. F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 343
A.6.17. Log-Normal . . . . . . . . . . . . . . . . . . . . . . . . 343
A.6.18. Logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 344
A.6.19. Log-logı́stica . . . . . . . . . . . . . . . . . . . . . . . 344
A.6.20. Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
A.6.21. Gaussiana inversa . . . . . . . . . . . . . . . . . . . . 346
A.6.22. Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . 346
A.6.23. Makeham . . . . . . . . . . . . . . . . . . . . . . . . . 346
A.6.24. Benktander . . . . . . . . . . . . . . . . . . . . . . . . 347
A.6.25. Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . 347
A.6.26. Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . 348
A.6.27. Fréchet . . . . . . . . . . . . . . . . . . . . . . . . . . 348
A.7. Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
A.7.1. Convergencia puntual . . . . . . . . . . . . . . . . . . 348
A.7.2. Convergencia casi segura . . . . . . . . . . . . . . . . . 349
A.7.3. Convergencia! en probabilidad . . . . . . . . . . . . . 350
A.7.4. Convergencia en r-media (o r-ésima media) . . . . . . 350
A.7.5. Convergencia en distribución . . . . . . . . . . . . . . 350

B. Tablas de distribuciones de probabilidad 351


B.1. Cuantiles para la distribución normal estándar . . . . . . . . 351
B.2. Cuantiles para la distribución Ji-cuadrada . . . . . . . . . . . 353
B.3. Cuantiles para la distribución t de Student . . . . . . . . . . 354
B.4. Cuantiles para la distribución F de Fisher . . . . . . . . . . . 355

Bibliografı́a 357

Índice analı́tico 361


Índice de figuras

2.1. Gráfica de barras correspondiente a las especies B (blue) u O


(orange) de los cangrejos. . . . . . . . . . . . . . . . . . . . . 19

2.2. Gráfica de pay para las especies de cangrejos. . . . . . . . . . 19

2.3. Diagrama de pay para las 5 respuestas de una encuesta. . . . 20

2.4. Histogramas para la caracterı́stica ancho del caparazón de los


cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.5. Diagrama de caja y brazos para la caracterı́stica ancho del


caparazón de la base de datos de los cangrejos crabs. . . . . . 24

2.6. Diagramas de caja y brazos para la caracterı́stica ancho del


caparazón por especie y por sexo para los datos de los cangrejos. 25

2.7. Gráfica de caja y brazos para la caracterı́stica ancho del ca-


parazón para las diferentes variables asociadas a especie y sexo. 26

2.8. Gráfica de dispersión para la base crabs y que ilustra la rela-


ción entre las diferentes medidas morfológicas para los cangrejos. 33

2.9. Gráfica de correlación para las medidas morfológicas de los


cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.1. Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada


y estudió su distribución asintóntica. Se le considera el padre
de la estadı́stica. Imagen tomada de commons.wikipedia.org
(public domain). . . . . . . . . . . . . . . . . . . . . . . . . . 48

xi
xii Índice de figuras

3.2. Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesi-


tan sus héroes y Fisher fue sin duda el héroe de la estadı́stica
del siglo XX. Sus ideas transformaron nuestra disciplina de
tal forma que hasta un César o un Alejandro hubieran envi-
diado”: Efron (1998). “Lo que es y fue importante para mı́,
es cómo Fisher, en los 1920..., hizo que los estadı́sticos refle-
xionáramos acerca de las ideas fundamentales”: Egon Pear-
son (1974). Dos citas que hacen alusión a la importancia de
las contribuciones de Fisher en la estadı́stica. La distribución
que lleva su nombre fue producto del trabajo que realizó con
George Snedecor (1881-1974) de la Universidad de Iowa.
Imagen tomada de commons.wikipedia.org (public domain). . 55
3.3. William Sealy Gosset (1876-1937), quien usó el pseudónimo
de Student para publicar su trabajo, desarrolló la distribución
t como respuesta a problemas prácticos de variedades de ce-
bada, trabajando en la cervecerı́a Guiness. Imagen tomada de
commons.wikimedia.org (public domain). . . . . . . . . . . . 58

4.1. Karl Pearson con Francis Galton. Ambos fundaron la revista


Biometrika en 1901. Imagen tomada de commons.wikipedia.org
(public domain). . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2. Placa English Heritage dedicada a Fisher en la casa Inverforth.108
4.3. Gráfica de la función de verosimilitud para una muestra de
tamaño n de la distribución Uniforme continua en el intervalo
[0, θ]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.4. Estimación máximo verosı́mil para la familia Gama. . . . . . 125
4.5. Dulces smarties. Tomada de pixabay.com (imágenes gratuitas
de alta calidad). . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.6. Comportamiento de las funciones a priori, a posteriori y de
verosimilitud para la proporción de marcas defectuosas y dis-
tintos valores de la muestra en el ejemplo 4.22. . . . . . . . . 133
4.7. El estimador T1 = X es insesgado para µ en el ejemplo 4.26. . 142
4.8. El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado
para σ 2 , pero tiene un error cuadrático medio menor que T2
(ejemplo 4.26). . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.9. Ilustración de la consistencia de X en el contexto del ejemplo
4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.10. Ilustración de la consistencia de S 2 en el contexto del ejemplo
4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Índice de figuras xiii

5.1. Intervalos correspondientes a 100 muestras para tamaños de


muestra 10, 30 y 50, respectivamente y desviación estándar
de 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
5.2. Intervalos del 99 % de credibilidad para el ejemplo 5.10. . . . 217
5.3. Intervalos obtenidos por simulación para diferentes valores de
σ y distintos tamaños de muestra. . . . . . . . . . . . . . . . 219

6.1. Función potencia del ejemplo 6.1. . . . . . . . . . . . . . . . . 236


6.2. Funciones potencia del ejemplo 6.2. . . . . . . . . . . . . . . . 238
6.3. Funciones de densidad de la estadı́stica de prueba S = X bajo
ambas hipótesis y tamaños de los errores. . . . . . . . . . . . 246
6.4. Probabilidad posterior del modelo por tamaño de muestra. . 300
Prólogo

Es para mı́ un honor el que los autores me hayan pedido escribir el prólogo
a este libro. Lo es porque tengo un respeto muy grande por su trayectoria
académica y porque todos ellos fueron destacados estudiantes de la Maestrı́a
en Estadı́stica en la que tuve la suerte de participar desde su inicio; de hecho,
todos fueron mis alumnos del curso de Inferencia Estadı́stica que durante
muchos años he impartido. Es importante hacer notar que algunos de estos
autores obtuvieron posteriormente su doctorado mientras que otros atendie-
ron tareas académico-administrativas y de superación. Su participación en
el Departamento de Matemáticas de la Facultad de Ciencias es y ha sido de
enorme valor.
Me tocó estar en el inicio de la Maestrı́a en Estadı́stica e Investigación
de Operaciones, que se ubicó dentro del CCH con la participación muy des-
tacada de la Facultad de Ciencias y del ahora IIMAS. Esto, a principios de
los años 70, en que se inició formalmente un posgrado en estadı́stica.
Esa maestrı́a, junto con otros posgrados, en los 90’s se integraron en
el ahora Posgrado en Ciencias Matemáticas de la UNAM, siendo una de
sus áreas la estadı́stica y teniendo ya la posibilidad de ofrecer el nivel de
doctorado en ese campo particular.
En el posgrado, una materia central dentro de la estadı́stica sigue siendo
la inferencia. Pues bien, los autores de este libro cursaron la materia de
Inferencia Estadı́stica conmigo. Una de ellas la cursó en los inicios, durante
los 70’s, otros dos durante los 90’s, y la más reciente, cursó esa materia ya
entrado el 2000. Sus experiencias compartidas y el interés por hacer un libro
en estadı́stica los llevaron a escribir este tomo que yo califico como excelente.
Este libro, además de satisfacer sobradamente necesidades de los alum-
nos de la Facultad de Ciencias que quieran aprender estadı́stica, contiene
material de nivel de maestrı́a. El libro resulta una fuente de consulta y un
sólido texto para cursos serios introductorios y para cursos intermedios, in-
cluido, repito, el nivel de maestrı́a. Algunas discusiones hechas en el libro
rememoran discusiones en clase cuando he impartido el curso.

xv
xvi Prólogo

Mis felicitaciones por un libro muy necesitado; y me enorgullece como


universitario que un libro hecho por universitarios comprometidos tenga una
calidad que yo califico de internacional. Me siento muy afortunado también
por poder decir que con los autores he mantenido lazos académicos y de
amistad por muchos años.

Dr. Federico O’Reylli Togno


Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas
Universidad Nacional Autónoma de México
Introducción

Se puede decir que la estadı́stica es una disciplina reciente con relación a otras
ramas de las matemáticas, no obstante que desde la antigüedad existieron
actividades relacionadas con el manejo de cifras, tales como las cuentas y
datos vinculados con las poblaciones de las ciudades o, más generalmente,
de los estados; situación que posiblemente es la génesis del término “es-
tadı́stica”. En Rao (1997), el estadı́stico hindú Radhakrishna Rao menciona
que “la estadı́stica tiene gran antigüedad pero escasa historia”, frase que
refleja el hecho de que la estadı́stica es joven como área formal, pero que
prácticamente ha estado presente a lo largo de la historia de la humanidad.
Entre los cientı́ficos que más han aportado a la estadı́stica para conver-
tirla en la disciplina con el carácter matemático y de importante aplicación
para ayudar a explicar fenómenos del mundo real, sobresalen Francis Gal-
ton (1822-1911), Karl Pearson (1857-1936), Charles Spearman (1863-1945),
Ronald Fisher (1890-1962) y Jerzy Neyman (1894-1981), sólo por mencionar
algunos.
La inferencia estadı́stica es una disciplina que se basa en gran medida en
la probabilidad y que ayuda a resolver problemas haciendo conclusiones de
alguna caracterı́stica de la población, usando para ello datos muestrales de la
misma. Por ejemplo, los estadı́sticos pueden realizar estudios de opinión, en
donde a través del punto de vista de algunos ciudadanos que componen una
muestra suficientemente representativa, se puede medir el pulso de temas de
interés para el paı́s.
La estadı́stica involucra conceptos y resultados que pueden resumirse en
grandes temas: análisis exploratorio de datos, distribuciones muestrales, es-
timación puntual, estimación por intervalo y pruebas de hipótesis, los cuales
son fundamentales en el estudio y la aplicación de esta disciplina.
Para la lectura de este documento es importante contar con conocimien-
tos de teorı́a de la probabilidad, ası́ como de cálculo diferencial e integral en
una y varias variables.

xvii
Capı́tulo 1

¿Qué es la estadı́stica?

El progreso de la ciencia con frecuencia se adscribe a la experimentación.


El investigador lleva a cabo un experimento, una encuesta o un conjunto
de mediciones; obtiene datos y con base en ellos se busca sustentar una
hipótesis o responder a una pregunta de investigación. Es decir, a partir de
un experimento particular, es deseable generalizar hacia la clase de todos los
experimentos similares.
La estadı́stica no se refiere únicamente a la recolección de datos y a la
presentación de cuadros y tablas resumen. Actualmente se comprende co-
mo la ciencia que basa la inferencia en datos observados y toma decisiones
en términos de incertidumbre. Aunque en su estado actual no puede ma-
nejar todas las situaciones que se presentan alrededor de la incertidumbre,
constantemente se desarrollan nuevas técnicas de análisis.
La estadı́stica está presente en muchos ámbitos: el cientı́fico, el social y el
empresarial, sólo por mencionar algunos. Por ejemplo, tanto en la iniciativa
privada como en el ámbito gubernamental, es vital contar con un manejo
adecuado de la información y el análisis de grandes bases de datos que sirva
a los diferentes agentes de la economı́a y la polı́tica al momento de tomar
decisiones. Actualmente existen profesionales de la estadı́stica que utilizan
diversas técnicas de este campo en empresas privadas, tales como casas en-
cuestadoras que se dedican a hacer estudios de mercado, o bien en industrias
relacionadas con diversos campos de la actividad económica.
Ejemplos de instituciones en donde el uso de la estadı́stica es fundamen-
tal son: el INEGI, las secretarı́as de estado, el IMP, PEMEX, el Banco de
México y las aseguradoras, sólo por mencionar algunas, pues el análisis y mo-
delado de datos puede hacerse prácticamente en cualquier entidad en donde
se cuente con información de cierto fenómeno o proceso. Adicionalmente, la

1
2 1. ¿Qué es la estadı́stica?

estadı́stica juega un papel importante en los estudios de mercado y otros pro-


cesos en donde es necesario obtener datos para posteriormente analizarlos y
llegar a conclusiones mediante un modelo que dependerá de la naturaleza de
dicha información. Algunos estadı́sticos participan en el diseño y validación
de encuestas y conteos rápidos relacionados con procesos electorales.
Se puede decir entonces que la estadı́stica se ocupa de los métodos cientı́fi-
cos para recolectar, organizar, resumir, presentar y analizar datos usando
modelos, ası́ como de obtener conclusiones válidas y tomar decisiones con
base en ese análisis. Es la rama de la matemática que utiliza conjuntos de
datos para obtener inferencias basadas en el cálculo de probabilidades.
En los siguientes párrafos se pretende explicar la relación entre la proba-
bilidad y la estadı́stica, ası́ como establecer la diferencias entre los enfoques
para analizar un conjunto de datos.

1.1. La probabilidad y la estadı́stica


La teorı́a de probabilidad permite modelar ciertos fenómenos que ocurren en
la naturaleza, siendo el modelo básico un espacio de probabilidad (Ω, F, P) y
una variable aleatoria X definida en ese espacio. En el contexto paramétrico,
dada una variable aleatoria X, se tiene asociada una función de densidad
f (x; θ), la cual actúa en función de caracterı́sticas desconocidas llamadas
parámetros.
Gracias al conocimiento de la función de densidad de probabilidad, y
por lo tanto de la función de distribución de una variable aleatoria X, se
facilita la construcción de espacios de probabilidad adaptados a fenómenos
aleatorios concretos. Es decir, gracias a la teorı́a de la probabilidad se pue-
de construir un modelo para describir una determinada variable aleatoria
real a través de su función de distribución. Por ejemplo, gracias a la teorı́a
de la probabilidad se pueden hacer aseveraciones como “el número de ac-
cidentes que ocurren en una importante intersección vial de la Ciudad de
México durante un determinado periodo de tiempo se puede modelar como
una variable aleatoria X que tiene una distribución Poisson(λ)” o “la vida
(tiempo de supervivencia) de un cierto tipo de foco tiene una distribución
Exponencial (λ)”. Asimismo, se pueden contestar preguntas probabilı́sticas
relacionadas con la variable aleatoria como: ¿cuál es la probabilidad de que
no haya accidentes en ese cruce importante de avenidas en un dı́a determi-
nado? o ¿cuál es la probabilidad de que el foco dure más de un determinado
periodo de tiempo? Sin embargo, las respuestas a estas preguntas quedan
en términos de parámetros; por ejemplo, si X tiene distribución Poisson(λ),
P(X = 0) = e−λ , está en función de λ, donde λ > 0. Si se conociera el
1.2. Enfoques de la estadı́stica 3

valor de λ, serı́a posible obtener un valor numérico para las probabilidades


de interés asociadas a la variable aleatoria.
De esta manera, si se desea profundizar en la forma de adaptar un mo-
delo probabilı́stico a cada fenómeno concreto, serı́a necesario llevar a cabo
observaciones del fenómeno en cuestión con la finalidad de poder hacer con-
clusiones acerca de los parámetros de una población y llegar a resultados
numéricos en el cálculo de probabilidades.
Es aquı́ donde la estadı́stica juega un papel importante al analizar e in-
terpretar la información obtenida de una cierta población con la finalidad
de poder concluir sobre la ley de probabilidad que rige un fenómeno aleato-
rio. Este procedimiento se conoce como inferencia estadı́stica o estadı́stica
matemática.
Cuando se tiene un conjunto de observaciones acerca del fenómeno con-
siderado, se entra al terreno de la estadı́stica con la finalidad de obtener
información acerca de la población en estudio con base en un conocimien-
to parcial o no exhaustivo de dicha población, ya que en la mayorı́a de los
casos, una observación exhaustiva es imposible o muy costosa. Por ejemplo,
si se desea saber la intención del voto para una elección presidencial, no
se encuestará a todos los ciudadanos en edad de votar, sino a una muestra
representativa de la población (cómo elegir una muestra representativa, el
tamaño adecuado de la misma y la forma de hacer la encuesta es objeto de
estudio de otra materia), y con las observaciones obtenidas y los métodos
de inferencia estadı́stica se puede decir con cierta precisión el porcentaje de
la población que en ese momento votarı́a por cada uno de los candidatos
de la contienda electoral.
Con frecuencia el término estadı́stica se entiende como el proceso de reco-
lección de datos u observaciones, ası́ como el tratamiento numérico que se le
da a estos datos a través de gráficas y medidas que resumen la información,
pero es necesario recalcar que el objetivo de la inferencia estadı́stica es ob-
tener conclusiones acerca de alguna caracterı́stica de la población en estudio
a través del análisis e interpretación de las observaciones. Sin embargo, el
tratamiento numérico de los datos no es menos importante e idealmente un
procedimiento de inferencia va antecedido por un tratamiento descriptivo.

1.2. Enfoques de la estadı́stica


La estadı́stica se puede analizar desde dos enfoques: el descriptivo y el de
inferencia o inferencial.

Enfoque descriptivo: resumen y descripción de un conjunto de datos


mediante gráficas y medidas descriptivas.
4 1. ¿Qué es la estadı́stica?

Enfoque de inferencia: análisis e interpretación de la información


obtenida de una muestra de la población para hacer conclusiones ge-
nerales acerca de las caracterı́sticas desconocidas de dicha población.

De acuerdo a lo que se desea conocer del parámetro, la inferencia es-


tadı́stica puede abordarse de la siguiente manera:
1. Estimación puntual: consiste en obtener un valor numérico único
para el parámetro, que represente de la mejor manera el proceso que
generó las observaciones.
2. Estimación por intervalos: consiste en obtener un rango de valores
que el parámetro puede tomar, que represente de la mejor manera el
proceso que generó las observaciones.
3. Pruebas de hipótesis: consiste en contrastar dos aseveraciones acer-
ca de la distribución de una variable aleatoria (usualmente representa-
das en términos de valores que el parámetro puede tomar).
Asimismo, la inferencia estadı́stica se puede realizar desde una perspec-
tiva diferente (no clásica) conocida como método Bayesiano o estadı́stica
Bayesiana, el cual es un paradigma en el que se asocia una distribución ini-
cial al parámetro y, junto con las observaciones, se obtiene una distribución
final para dicho parámetro. Con base en este planteamiento, se hacen infe-
rencias desde la óptica de estimación puntual o por intervalos y de pruebas
Bayesianas.
También puede hablarse de inferencia estadı́stica paramétrica y no pa-
ramétrica. En el primer caso se conoce la forma de la distribución pero se
desconocen los parámetros y es sobre éstos que se realizará la inferencia. En
el segundo caso se desconocen la forma de la distribución y los parámetros
y las inferencias se hacen sobre ciertas caracterı́sticas que no tienen por qué
corresponder a parámetros de una distribución.

Definición 1.1 Al conjunto de valores que el parámetro θ puede tomar se


le llama espacio paramétrico (o parametral) y se le denota por Θ.

Ejemplos:

En el caso de la distribución Bernoulli Θ = [0, 1].


En el caso de la distribución Poisson Θ = (0, ∞).

La inferencia estadı́stica también suele denominarse estadı́stica inductiva


o inferencia inductiva, pues va de lo particular a lo general al hacer conclu-
siones de una población a partir de una muestra representativa de la misma.
1.2. Enfoques de la estadı́stica 5

La necesidad de trabajar con un conjunto reducido de la población está aso-


ciada a varios factores, siendo uno de los más importantes el económico. Se
puede decir que la población es el conjunto de observaciones o individuos
sobre los que se desea información y de ella se extrae un subconjunto al que
se denomina muestra. El procedimiento para obtener las observaciones con
las cuales se intenta disminuir el grado de desconocimiento de θ debe ser tal
que la recolección de datos se realice siempre bajo las mismas condiciones y
sin importar los resultados anteriores.
En un contexto experimental, la definición de la muestra puede depender
de cuáles son los tratamientos que se desea comparar, bajo qué condicio-
nes y si las comparaciones se harán con tamaños de muestra y repeticiones
iguales. En la literatura sobre diseño de experimentos se aborda este
tipo de planteamiento. Si se hace referencia al estudio de poblaciones, hay
diferentes formas de obtener una muestra representativa. Aunque la teorı́a
del muestreo requiere una asignatura aparte, a continuación se resumen las
principales caracterı́sticas de los muestreos probabilı́sticos más usuales.
Muestreo aleatorio simple: se trata de un procedimiento de muestreo (sin
remplazo), en el que se seleccionan n unidades de las N en la población,
de forma que cualquier posible muestra del mismo tamaño tenga la misma
probabilidad de ser elegida.
Muestreo por conglomerados: se divide la población en grupos de acuerdo
con su proximidad geográfica o de otro tipo (conglomerados). Se busca que
cada grupo sea heterogéneo y que tenga representadas todas las caracterı́sti-
cas de la población. Se selecciona una muestra de conglomerados al azar y
se toma el conglomerado completo o una muestra del mismo.
Muestreo estratificado: se divide la población en grupos homogéneos (es-
tratos) de acuerdo con las caracterı́sticas a estudiar. Por ejemplo, en un estu-
dio de las caracterı́sticas socioeconómicas de una ciudad los estratos pueden
ser las colonias de la misma, ya que las colonias suelen presentar carac-
terı́sticas diferenciales. Se selecciona una muestra aleatoria de cada estrato
tratando de que todos los estratos de la población queden representados.
En un muestreo estratificado se consideran todos los estratos y en cada
uno se considera una muestra de individuos. En el muestreo por conglome-
rados se seleccionan al azar los conglomerados que serán considerados y una
vez elegidos se estudian todos los individuos de cada conglomerado.
Existen otros tipos de muestreo, pero todo lo que se verá en los siguientes
capı́tulos está pensado para observaciones obtenidas con muestreo aleatorio
simple.
6 1. ¿Qué es la estadı́stica?

1.2.1. El concepto de muestra aleatoria


El muestreo aleatorio simple garantiza una muestra representativa de la po-
blación y la obtención de observaciones independientes. Esta terminologı́a de
muestreo puede entenderse si se considera una de las siguientes situaciones
que aparecen frecuentemente en la estadı́stica:

(1) Se extraen los objetos, uno cada vez, de una colección finita llamada
población y se determina una caracterı́stica particular de interés de ca-
da objeto extraı́do. Después de cada observación y antes de la siguiente
extracción, se devuelve el objeto extraı́do y se mezcla la población de
objetos.

(2) Se extraen los objetos de una población finita como en (1), excepto
que los objetos no se remplazan.

La población de objetos puede ser una colección de personas y la carac-


terı́stica observada puede ser el peso, color de ojos, preferencia polı́tica o
alguna otra.
Si se supone que cada selección es aleatoria, el muestreo en (1) recibe el
nombre de muestreo aleatorio con remplazo y en (2) muestreo aleatorio sin
remplazo o muestreo aleatorio simple.
En cierto sentido, el muestreo aleatorio sin remplazo es mejor que el
muestreo aleatorio con remplazo, ya que algunas veces la mezcla que se
requiere con el remplazo de los objetos no siempre es fácil de conseguir.
Considerando los casos extremos, suponga que hay solamente 2 objetos en la
población; cuando se extrae uno de ellos, la selección de un segundo objeto
proporciona la información completa acerca de la población original si el
primero no fue remplazado. Por otro lado, si una población es muy grande
con respecto al tamaño de la muestra que va a ser extraı́da, es prácticamente
lo mismo si los objetos extraı́dos son o no son remplazados; el muestreo sin
remplazo se convierte en muestreo con remplazo cuando el tamaño de la
población es infinito.
La diferencia básica entre los tipos de muestreo (1) y (2) no está en las
distribuciones marginales de las observaciones individuales, porque en ambos
casos estas observaciones son idénticamente distribuidas. Sin embargo, en el
caso (1) el resultado de cualquier observación no está afectado por los resul-
tados de cualesquiera otras observaciones; las observaciones son fenómenos
aleatorios independientes. En el caso (2) las observaciones no son indepen-
dientes.
Hay otro tipo de situación que ocurre continuamente, diferente de (1) y
(2), en la cual los resultados son matemáticamente del mismo tipo que (1):
1.2. Enfoques de la estadı́stica 7

(3) Las observaciones se obtienen como resultado de realizaciones indepen-


dientes repetidas de un experimento, bajo condiciones que son idénticas
con respecto a los factores que pueden ser controlados.

Esta descripción incluye a (1) como un caso especial, aunque no necesa-


riamente se refiere a una “población” tangible de la cual se va a seleccionar
un objeto. Sin embargo, es posible imaginar una población muy grande de
posibles resultados, en donde en cada repetición del experimento se cuen-
ta con la misma colección que estaba disponible en el primer ensayo. Esto
es, repetir el experimento bajo condiciones idénticas significarı́a que el pri-
mer resultado es “remplazado” y es nuevamente uno de los candidatos a
ser “extraı́dos” la siguiente vez. En ambos tipos de muestreo (1) y (3), las
observaciones son independientes e idénticamente distribuidas. El término
muestreo aleatorio sin más especificación se referirá a tal proceso.
Suponga que cuando se extrae un objeto la caracterı́stica a medir se
denota por X. A la distribución de X se le llama la distribución poblacional.

Ejemplo 1.1 Una urna contiene cuatro bolas numeradas del 1 al 4. Se ex-
traen 2 aleatoriamente, una cada vez. Sea X1 el número de la primera bola
extraı́da y X2 el número de la segunda bola extraı́da. Hay 12 posibles resul-
tados del experimento:

(1, 2) (1, 3) (1, 4) (2, 3) (2, 4) (3, 4)

(2, 1) (3, 1) (4, 1) (3, 2) (4, 2) (4, 3)

Cada uno de estos 12 resultados tiene probabilidad 1/12. A partir de esto,


se pueden calcular las distribuciones de X1 y X2 . Por ejemplo,

P(X1 = 1) = P[(1, 2), (1, 3) o (1, 4)]


1 1 1 1
= P[(1, 2)] + P[(1, 3)] + P[(1, 4)] = + + = .
12 12 12 4
Similarmente:

P(X2 = 1) = P[(2, 1), (3, 1) o (4, 1)]


1 1 1 1
= P[(2, 1)] + P[(3, 1)] + P[(4, 1)] = + + = .
12 12 12 4
De la misma forma se encuentra que para X1 cada uno de los valores posibles
1, 2, 3 y 4 tiene probabilidad 1/4 y que X2 tiene exactamente la misma
distribución, la distribución poblacional.
8 1. ¿Qué es la estadı́stica?

De esta manera, se diseña un experimento y se lleva a cabo para propor-


cionar la observación X1 de la caracterı́stica observable X. El experimento
se repite bajo las mismas condiciones proporcionando el X2 . El proceso con-
tinúa hasta tener n observaciones X1 , X2 , . . . , Xn de la caracterı́stica X;
a estas observaciones se les llaman los valores muestrales de X y se dice
que constituyen una muestra aleatoria. Note que cuando se ha obtenido una
muestra se tienen n observaciones numéricas (x1 , x2 , . . . , xn ), pero cuando
se está planificando el procedimiento de muestreo y diseñando el método
para obtener inferencias aún no se sabe qué valores numéricos se obtendrán
y deben considerarse n variables aleatorias; estas variables aleatorias serán,
en el contexto que se discute, independientes e idénticamente distribuidas.

Definición 1.2 Si X1 , . . . , Xn es un conjunto de variables aleatorias, inde-


pendientes e idénticamente distribuidas, entonces se dice que X1 , . . . , Xn es
una muestra aleatoria (m.a.).

Observación 1.1 Si X1 , . . . , Xn es una muestra aleatoria, entonces su fun-


ción de densidad conjunta está dada por
n
Y
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ).
i=1

Observación 1.2 La distribución de la muestra aleatoria (o simple-


mente distribución de la muestra) será la función de densidad conjunta
de las variables aleatorias que componen la muestra aleatoria y, por la obser-
vación anterior, se calculará como el producto de las densidades marginales
de dichas variables.

En el siguiente capı́tulo se estudiará el análisis exploratorio de datos


y en el capı́tulo 3 se analizarán funciones de la muestra aleatoria y sus
caracterı́sticas con la finalidad de usarlas posteriormente en el proceso de
estimación de parámetros.
Para cerrar este capı́tulo, se abordan brevemente los conceptos de paráme-
tros de localización y escala.

1.3. Familia de localización y escala


Una familia de localización y escala es una familia de distribuciones con
elementos obtenidos por traslación y cambio de escala de una familia de
elementos estándar.
1.3. Familia de localización y escala 9

Sea Z una variable aleatoria con distribución conocida. A las distribu-


ciones de probabilidad de la variable aleatoria X que se pueden definir de la
forma:
X = a + bZ, a, b ∈ R, b > 0
se le denomina familia de localización y escala construida a partir de la
distribución de Z.
En particular, si Z es una variable aleatoria continua con función de
densidad de probabilidad f (·), la familia de funciones de densidad:
   
1 x−a
f (x; a, b) = f , a ∈ R, b > 0
b b

forman la familia de localización y escala de f (x).


El parámetro de escala expande a la distribución si b > 1 y la contrae si
b < 1. El parámetro de localización a traslada a la densidad por |a| unidades
a la derecha si a > 0 o a la izquierda si a < 0.
• Si b = 1 se tiene una familia de localización: f (x; a) = f (x − a) .
• Si a = 0 se tiene una familia de escala: f (x; b) = 1b f xb .

Ejemplo 1.2 La familia de distribuciones normales:


 1/2  
1 1
f (x) = exp − x2
2π 2
 1/2  
1 1 2
f (x; a, b) = exp − 2 (x − a) , con a = µ y b = σ
2πb2 2b

Ejemplo 1.3 La familia de distribuciones exponenciales:

f (x) = e−x , x > 0


1 −(x−a)/b
f (x; a, b) = e ,x>a
b
f (x; a) = e−(x−a) , x > a

Ejemplo 1.4 La familia de distribuciones Cauchy:


1 1
f (x) = , x∈R
π 1 + x2
1 1
f (x; a, b) =  , x∈R
πb 1 + x−a 2
b
Capı́tulo 2

Estadı́stica descriptiva

Se ha planteado ya que la recolección de datos es un proceso que requiere


planeación. Una vez que los datos están disponibles, su complejidad puede
variar tanto en el número, como en el tipo de variables que se miden o regis-
tran. Un procedimiento de análisis comienza con la extracción de resúmenes
útiles; ası́, cualquier procedimiento inductivo acerca de una población en
estudio debe confirmar las hipótesis planteadas mediante el análisis explo-
ratorio. Es por ello que la estadı́stica descriptiva es el inicio de cualquier
procedimiento de análisis estadı́stico. En este capı́tulo se proporcionan los
elementos básicos para llevar a cabo un análisis exploratorio de datos.

2.1. Introducción
La estadı́stica descriptiva se distingue de la inferencia estadı́stica en que
la primera tiene como objetivo resumir un conjunto de datos en lugar de
utilizarlos para hacer inferencias de la población que se cree que dichos da-
tos representan. Esto generalmente significa que la estadı́stica descriptiva,
a diferencia de la inferencia estadı́stica, no se desarrolla sobre la base de
la teorı́a de la probabilidad. Su objetivo primario es entonces analizar un
grupo determinado, resumiendo los datos de manera que se pueda enfatizar
la información relevante que sea útil para el planteamiento de preguntas y
modelos.
Este tema se puede abordar desde diferentes ángulos, pero considerando
el objetivo del presente texto, que está más enfocado a la inferencia estadı́sti-
ca, sólo se hace una breve revisión de los conceptos más importantes de la
estadı́stica descriptiva. Se utilizan para ello datos que están disponibles en
el paquete estadı́stico R, con el fin de ilustrar también el uso y resultados de

11
12 2. Estadı́stica descriptiva

este software. La razón principal para usar R es que este paquete es asequi-
ble por ser de uso libre y que, además de la popularidad que ha adquirido
en los últimos años en el ámbito educativo, se utiliza ampliamente en otros
sectores.
También se exhiben los términos más importantes del análisis explorato-
rio de datos.

2.2. Datos y variables


Una premisa básica en el análisis estadı́stico es que el origen del conocimien-
to estadı́stico está en los datos. Cualquier procedimiento inductivo acerca de
una población en estudio debe confirmar la fuerza de las diferencias encon-
tradas mediante un procedimiento exploratorio. Es por ello que la estadı́stica
descriptiva debe anteceder a cualquier procedimiento de inferencia.
Una muestra es una parte de la población obtenida y se entiende por
datos a las mediciones u observaciones recolectadas de una muestra. Los
individuos son las personas, animales o cosas descritos en un conjunto de
datos; a veces se les llaman unidades experimentales. Una variable es cual-
quier caracterı́stica de un individuo. Las variables pueden tomar distintos
valores para distintos individuos.
Por ejemplo, los datos para un estudio del nivel socioeconómico y cultural
de los estudiantes de la Facultad de Ciencias tienen que hacer referencia a
todos los alumnos. Estos son los individuos descritos por el conjunto de
datos. Para cada individuo, los datos contienen los valores de variables como
la edad en años, el sexo (hombre o mujer), situación laboral (trabaja o no),
tipo de horario (matutino, vespertino, mixto), ingreso mensual del principal
sostén económico de su familia, tipo de entretenimientos (cine, TV, teatro,
otro), práctica de deportes (sı́, no), deporte preferido, entre otros.
No existe una única clasificación con respecto a la naturaleza de los datos.
A continuación se darán dos clasificaciones de los datos considerando dos
criterios: el tipo de escala en la que se miden los datos y la manera en la que
se recolectó la información.

2.2.1. Tipos de variables


De acuerdo a su tipo, se puede clasificar a las variables en cualitativas y
cuantitativas.
Los datos cuantitativos son aquellos en los que las observaciones se miden
en una escala numérica. Los datos no-numéricos que sólo se pueden clasificar
por categorı́as se conocen como datos cualitativos o datos categóricos.
2.2. Datos y variables 13

El número de hijos que tienen las familias en cierto poblado, el sueldo


que perciben los trabajadores de cierta empresa, son datos cuantitativos.
Sin embargo, el tipo de sangre (O, A, B, AB) de los pacientes de cierto
hospital y el estado civil de las personas (soltero, casado, divorciado) son
datos categóricos.

2.2.2. Escalas de medición


Para considerar la precisión con la que se evalúan los diferentes valores,
existen cuatro niveles de medición, los cuales se usarán de acuerdo al tipo
de variable que se esté usando.
Dato categórico en escala nominal. Como su nombre lo dice, este
tipo de variables hace referencia a “nombres”. Básicamente es una cla-
sificación de los datos con respecto a cierto criterio. En esta escala no
hay ningún tipo de orden entre los datos. Son simples identificadores y
son completamente arbitrarios. La única operación que se puede rea-
lizar con este tipo de escala es el de conteo de los datos con el mismo
identificador. Ejemplos de datos en esta escala son el tipo de sangre de
los pacientes de cierto hospital y el estado civil de las personas.
Dato categórico en escala ordinal. Desde un punto de vista formal no
tienen un orden; sin embargo, se le puede asignar uno que tenga sentido
ya sea “creciente” o “decreciente”. Por ejemplo, pequeño, mediano o
grande; o mucho, poco o nada. Los valores de esta escala representan
categorı́as con cierto orden asociado pero no en una cantidad especı́fica,
es decir, no se puede determinar la distancia entre las categorı́as, sólo es
interpretable el orden entre sus valores. Se pueden hacer operaciones
de igualdad y “orden de magnitud”. Generalmente representan una
cualidad que se está “midiendo” y establecen si una observación tiene
más de una cualidad que otra. Un ejemplo de datos en esta escala es
el nivel socio-económico de las personas en una ciudad.
Dato cuantitativo en escala de intervalo. Mediante esta escala se
puede medir exactamente la intensidad con la que se posee una ca-
racterı́stica. Para ello se usa una unidad de medición cuyo origen se
denomina “cero flotante” para enfatizar que cuando dicho origen
se alcanza no implica la ausencia del atributo. Esta escala representa
magnitudes, con la propiedad de igualdad de la distancia entre puntos
de escala de la misma amplitud. Aquı́ se puede determinar el orden
(formal) entre sus valores, hacerse comparaciones de igualdad, y medir
la distancia existente entre cada valor de la escala. La distancia igual
entre puntos de la escala significa que puede saberse cuántas unidades
14 2. Estadı́stica descriptiva

de más tiene una observación comparada con otra, con respecto a cier-
ta caracterı́stica analizada. El ejemplo por excelencia de este tipo de
escala es cualquier escala de temperatura, ya que el cero en ellas no
significa que no haya temperatura.

Dato cuantitativo en escala de razón. Se dice que esta escala es la más


completa. Tiene las mismas propiedades que la escala de intervalo, pero
sı́ existe la noción de cero “absoluto”, ya que se sitúa un punto cero fijo
que al ser alcanzado implica ausencia de un atributo. En este caso, es
posible realizar operaciones aritméticas de producto y cociente, y ası́
comparar mediante proporciones o razones. A iguales diferencias entre
los números asignados corresponden iguales diferencias en el grado de
atributo estudiado. Ejemplos de datos en esta escala son longitud, peso,
distancia, ingresos, precios, etc.

Ahora, suponga que se va a realizar un estudio médico y para ello se


dispone de un conjunto de variables referentes a un grupo de pacientes. Las
variables son:

(a) Género (hombre o mujer).

(b) Edad (en años).

(c) Raza (asiática, blanca, negra u otras).

(d) Fumador (sı́ o no).

(e) Presión sanguı́nea sistólica (milı́metros de mercurio).

(f) Nivel de calcio en la sangre (microgramos por mililitro).

(g) Practica algún deporte o actividad deportiva (1 a 4 dı́as de la semana;


5 a 7 dı́as de la semana; ningún dı́a de la semana).

Como variables categóricas se distinguen a género (en escala nominal),


raza (en escala nominal), fumador (en escala nominal) y actividad deportiva
(en escala ordinal). Como variables cuantitativas se tienen a edad (en escala
de razón), presión sanguı́nea (en escala de intervalo) y nivel de calcio (en
escala de razón).

2.2.3. Formas de recolección


También se puede clasificar a los datos con respecto a la manera en la que
se recolectaron.
2.3. Los datos y R 15

Los datos en sección cruzada son datos que se recolectan de diferentes


elementos o variables en el mismo punto del tiempo (o en el mismo
intervalo de tiempo).
Los datos en serie de tiempo o longitudes son datos que se recolectan
de un mismo elemento o variable en diferentes puntos en el tiempo (o
para diferentes periodos de tiempo).

2.3. Los datos y R


R es un lenguaje y entorno de programación para análisis estadı́stico y gráfi-
co. Se trata de un proyecto de software libre, resultado de la implementación
GNU del lenguaje S. R y S-Plus -versión comercial de S- son, probablemente,
los dos lenguajes más utilizados en investigación por la comunidad estadı́sti-
ca, siendo además muy populares en el campo de la investigación biomédica,
la bioinformática y las matemáticas financieras. R se puede descargar gra-
tuitamente en la página oficial del proyecto http://www.r-project.org/.
Para ilustrar los conceptos fundamentales de la estadı́stica descriptiva,
se considerará un conjunto de datos, crabs que se encuentra en la biblioteca
de R MASS. Los datos corresponden a un marco de datos (data frame) de
200 renglones y 8 columnas, describiendo 5 medidas morfológicas de 50 can-
grejos cada uno de dos colores y de ambos sexos, de la especie Leptograpsus
recolectada en Fremantle, W. Australia1 .

2.3.1. Cargando los datos


Se cargarán los datos desde R de la siguiente manera:
> library(MASS)
> data(crabs)
> help(crabs)
> attach(crabs)
Los datos cargados están en el formato data.frame que es un formato
que está compuesto de varios campos. La ventaja de este tipo de formato es
que se pueden agrupar variables de varios formatos en una sola. Para saber
los campos que contiene el data.frame se puede utilizar la instrucción ls()
de la siguiente manera:
> ls(crabs)
[1] "BD" "CL" "CW" "FL" "index" "RW" "sex" "sp"
1 Campbell, N.A. and Mahon, R.J. (1974). A multivariate study of variation in two

species of rock crab of genus Leptograpsus. Australian Journal of Zoology 22, 417-425.
16 2. Estadı́stica descriptiva

Este conjunto de datos contiene las siguientes columnas:

sp especie - “B” o “O” para blue u orange.

sex sexo del cangrejo.

index ı́ndice 1 a 50, dentro de cada unos de los cuatro grupos.

FL tamaño del lóbulo frontal (mm).

RW ancho trasero (mm).

CL longitud del caparazón (mm).

CW ancho del caparazón (mm).

BD profundidad del cuerpo (mm).

En este punto se tienen las variables listas para realizar el análisis des-
criptivo.

2.4. Representación gráfica de los datos


Una vez que se obtiene una muestra, para entender con más claridad el tipo
de información que se está analizando, es muy común representar dicha infor-
mación a través de tablas o gráficas. Estas representaciones gráficas son muy
útiles ya que dan un recurso visual que muchas veces facilita el análisis de la
información al mostrar algunos patrones con respecto al comportamiento de
las variables que se están estudiando. En un primer curso de estadı́stica se
estudian datos asociados a una sola variable. Las representaciones gráficas
más comunes son:

Tabla de frecuencias.

Gráfica de pastel.

Gráfica de barras.

Histograma.

La información categórica generalmente se resume en tablas o gráfica-


mente con gráficas de barras, diagramas de puntos y gráficas de pastel.
2.4. Representación gráfica de los datos 17

2.4.1. Frecuencia, frecuencia relativa y frecuencia


acumulada
Suponga que se tienen los n elementos de una muestra de tamaño n, obtenida
de una población, con k valores asociados a los eventos observados al realizar
el experimento aleatorio que define la muestra, x1 , x2 , x3 , . . . , xk , y que de
ésta hay fi resultados idénticos a xi (i ∈ {1, . . . , k}).
Los números f1 , f2 , f3 , . . . , fk se conocen como freciencias de ocurrencia
de los valores x1 , x2 , x3 , . . . , xk , respectivamente; y satisfacen

f1 + · · · + fk = n.

Al cociente de una frecuencia fi entre el total de observaciones n (el


tamaño de la muestra), se le conoce como frecuencia relativa de ocurrencia
del valor xi correspondiente. Representando la frecuencia relativa de xi con
fi∗ , se tiene que
fi
fi∗ = , i ∈ {1, . . . , k}.
n
A partir de la definición de frecuencia relativa se obtienen de inmediato
las condiciones para que un conjunto de números sean frecuencias relativas
de los valores de una muestra. Éstas son

0 ≤ f1∗ ≤ · · · ≤ fk∗ ≤ 1 y f1∗ + · · · + fk∗ = 1.

Se conoce como frecuencia relativa acumulada de un valor xi , a la suma


de frecuencias relativas de todos los valores anteriores o iguales al valor xi .
Si Fi representa la frecuencia relativa acumulada de xi entonces

Fi = f1∗ + · · · + fi∗ .

2.4.2. Tablas de frecuencias


Las tablas son muy usadas para resumir información. En R la función para
crear tablas es la función table(). En su uso más simple, table(x) en-
cuentra todos los valores únicos en el vector x y tabula las frecuencias y su
ocurrencia.
La variable sexo (sex) puede ser tabulada como

> table(sex)
sex
F M
100 100
18 2. Estadı́stica descriptiva

Si se quisieran tabular conjuntamente las variables sexo (sex) y la especie


del cangrejo (sp), se harı́a de la siguiente manera:
> table(sex,sp)
sp
sex B O
F 50 50
M 50 50

2.4.3. Gráficas de barras


Los datos categóricos también se pueden resumir de manera gráfica. La re-
presentación más común quizá sea la gráfica de barras. Una gráfica de barras
es un arreglo simple que acomoda los niveles de la variable en algún orden
y representa su frecuencia con una barra.
Una gráfica de barras es una gráfica en la que las “barras” representan
las frecuencias (o frecuencias relativas) de las diferentes categorı́as.
En R, las gráficas de barras se hacen con la función barplot(). Ésta
usa un resumen de la información, frecuentemente el que hace la función
table(). Los datos resumidos pueden estar en frecuencias o en proporciones.
El resultado gráficamente será el mismo, sin embargo, la escala del eje Y será
distinto.
> barplot(table(sp),xlab="Especie",ylab="Frecuencia")
En la figura 2.1 se presenta una gráfica de barras para la base de datos
de los cangrejos.

2.4.4. Gráficas de pay o pastel


La gráfica de pay o pastel se utiliza para representar las frecuencias relativas
o proporciones de las distintas posibles respuestas de una variable categórica.
Esta grafica, ası́ como la gráfica de barras es ampliamente utilizada en los
medios de difusión de información.
Para hacer una gráfica de pay en R se utiliza la función pie(), que utiliza
argumentos similares al histograma para cambiar colores y agregar nombres:
> pie(table(sp),radius = 0.68, cex=1.1,
col = c("cornflowerblue","coral4"),
labels=NA, main="Especies")
> text(0.1,-0.3,"50%", cex=1.2)
> text(0.1,0.3,"50%", cex=1.2)
> legend(-1.1,-0.56,c("Orange", "Blue"),
fill=c("cornflowerblue","coral4"),cex=0.8)
2.4. Representación gráfica de los datos 19

100

75
Frecuencia

Especie
50 Blue
Orange

25

B O

Figura 2.1: Gráfica de barras correspondiente a las especies B (blue) u O


(orange) de los cangrejos.

En la figura 2.2 se muestra una gráfica de pay correspondiente a la base


de los cangrejos.

Especie
Orange
Blue

Figura 2.2: Gráfica de pay para las especies de cangrejos.


20 2. Estadı́stica descriptiva

Para ejemplificar el caso de más categorı́as, considere una encuesta con


5 posibles respuestas A, B, C, D y E, codificadas, respectivamente como 1,
2, 3, 4 y 5. Las respuestas obtenidas fueron

4, 2, 3, 2, 1, 2, 3, 3, 3, 3, 4, 3, 5, 3, 3, 2, 2, 4, 3, 2

Para generar el diagrama de pay se realiza lo siguiente:


> respuesta<-scan()
1: 4 2 3 2 1 2 3 3 3 3 4 3 5 3 3 2 2 4 3 2
21:
Read 20 items
La tabla de los resultados obtenidos en la encuesta es:
> (Tabla=table(respuesta))
respuesta
1 2 3 4 5
1 6 9 3 1
> names(Tabla) = c("A","B","C","D","E")
> pie(Tabla, main="Encuesta")
Una gráfica para los datos de la encuesta descritos arriba, puede obser-
varse en la figura 2.3.

Respuesta
A
B
C
D
E

Figura 2.3: Diagrama de pay para las 5 respuestas de una encuesta.


2.4. Representación gráfica de los datos 21

2.4.5. Diagrama de tallo y hojas


El diagrama de tallo y hojas es una variante del histograma para desplegar
la información muestral, especialmente cuando las observaciones tienen dos
dı́gitos y no son conjuntos muy grandes de datos. Algo conveniente de este
diagrama es el hecho de que se conserva la información de las observaciones
en lugar de sólo agruparlas en intervalos. Esta manera de desplegar los datos
se obtiene al ordenar las observaciones de acuerdo a su dı́gito principal. Para
ilustrar mejor este diagrama, antes de hacerlo en R se construirá el siguiente
ejemplo. Supóngase que se tienen las siguientes observaciones:

75 98 42 75 84 87 65 59 63 86 78 37 99 66 90 79 80 89
68 57 95 55 79 88 76 60 77 49 92 83 71 78 53 81 77 58
93 85 70 62 80 74 69 90 62 84 64 73 48 72

Ordenando los datos se tiene lo siguiente:

37 42 48 49 53 55 57 58 59 60 62 62 63 64 65 66 68 69
70 71 72 73 74 75 75 76 77 77 78 78 79 79 80 80 81 83
84 84 85 86 87 88 89 90 90 92 93 95 98 99

Primero se listan los dı́gitos principales a la izquierda de la lı́nea vertical.


Después, para cada observación se anota el segundo dı́gito a la derecha de la
lı́nea vertical en el renglón de su dı́gito principal. Por último, se ordenan los
dı́gitos de cada renglón y a la derecha de la lı́nea para que estén en orden
ascendente. Ası́, el diagrama queda de la siguiente manera:
> stem(x)

3 7
4 289
5 35789
6 022345689
7 01234556778899
8 00134456789
9 0023589

2.4.6. Histograma
Un histograma es la representación visual de la distribución de un conjunto
de datos. Es decir, se intenta tener una idea acerca de cómo se comportan
pensando en una función de densidad empı́rica. El histograma tiene algunas
similitudes con la gráfica de barras (ver la función barplot()), en el sentido
22 2. Estadı́stica descriptiva

que también utiliza barras para indicar una frecuencia, pero a diferencia del
diagrama de barras, cada barra en el histograma representa la frecuencia
de un intervalo sobre el rango de las observaciones que se tienen. Cuando
se elabora un histograma, se toma una decisión acerca de cómo se va a
dividir el rango de la muestra en intervalos y cuán altas se dibujarán las
barras, dado que únicamente tienen que estar en la proporción correcta. R
tiene varios métodos para la selección de estos intervalos (Sturges, Scott y
Freedman–Diaconis). Las dos maneras de establecer la altura de las barras
son la frecuencia absoluta del intervalo y aquella que hace al área de la barra
igual a la frecuencia relativa del intervalo. Bajo este último método, el área
total de las barras sumará 1, lo cual es conveniente cuando se está pensando
en ajustar el modelo de una distribución de probabilidad.
En la función hist(), la longitud de los intervalos está controlada por el
parámetro breaks. Este puede ser especificado por el nombre de un algoritmo
que los genere, el número de intervalos deseados o la localización exacta de
los extremos de los intervalos deseados (breaks).
La siguiente instrucción imprime gráficas: 2 renglones, 2 columnas:

> par(mfrow=c(2,2))

O, un renglón y 2 columnas:

> par(mfrow=c(1,2))

Para graficar los histogramas la instrucción de R es:

> hist(CW,breaks="Sturges",freq=TRUE,col="lightgray",main=
"Ancho del caparazon", ylab="Frecuencia absoluta")
> hist(CW,breaks=30,probability=TRUE,col="gray",main="Ancho
del caparazon", ylab="Frecuencia relativa")

Los histogramas aparecen en la figura 2.4.


Puede notarse que los histogramas anteriores se graficaron de tal modo
que muestran la frecuencia absoluta (freq=TRUE o probability=FALSE) y
la frecuencia relativa (freq=FALSE o probability=TRUE) de los intervalos
dados, respectivamente.

Procedimiento y consideraciones para la construcción de una tabla


de frecuencias y un histograma
1. Determinar los valores mı́nimo y máximo de las observaciones y calcu-
lar la diferencia entre estos valores. A este número se le conoce como
rango.
2.4. Representación gráfica de los datos 23

Ancho del caparazón Ancho del caparazón

40 0.06
Frecuencia absoluta

Frecuencia relativa
30
0.04

20

0.02
10

0 0.00

20 30 40 50 20 30 40 50
CW CW

Figura 2.4: Histogramas para la caracterı́stica ancho del caparazón de los


cangrejos.

2. Seleccionar el número de clases M de tal forma que estas clases abar-


quen toda la información. Usualmente,
√ una forma aproximada para
elegir el número de clases es M = n ó M = log(n) + 1, donde n es
el número total de observaciones. La idea es utilizar suficientes clases
para mostrar la variación de los datos pero no tantas como para que
haya pocos datos en algunas de las clases. Una regla es que la longi-
tud de las clases debe ser ligeramente mayor que el cociente max−min
M
donde M es el número de clases.
3. El primer intervalo debe tener extremo inferior ligeramente menor que
el mı́nimo de los datos y el último intervalo debe tener extremo superior
ligeramente mayor que el máximo de los datos. Los lı́mites de la clase
son los valores mı́nimo y máximo en cada clase. La marca de clase es
el punto medio del intervalo de clase.
4. Ninguno de los datos debe estar en las fronteras de las clases.
5. Para una tabla de frecuencias se deben enlistar los intervalos de clase
y escribir el número de datos en cada clase, fi , y también la frecuencia
relativa fi∗ = fni .
24 2. Estadı́stica descriptiva

6. La base de cada barra será la longitud de la clase y la altura será la


correspondiente frecuencia de dicha clase (es decir, el número de datos
que pertenecen a dicha clase).

2.4.7. Boxplot o diagrama de caja y brazos


El boxplot o diagrama de caja y brazos es una manera de representar los
datos de una muestra a través de la información de sus cuartiles (ver sección
2.5). Estos diagramas tienen unas lı́neas que indican la variabilidad presente
fuera del intervalo intercuatil. Es una gráfica que suministra información
sobre los valores mı́nimo y máximo, los cuartiles Q1 , Q2 (mediana) y Q3 , y
sobre la existencia de valores atı́picos y la simetrı́a de la distribución.
Los diagramas de caja muestran la variación de una muestra sin hacer
suposiciones de la distribución probabilı́stica de la cual provienen, es decir,
tienen un enfoque no-paramétrico.
En R existe la instrucción boxplot() para dibujar este diagrama. En el
caso de los datos que se han estado utilizando (crabs):
> boxplot(CW,ylab="Ancho del caparazon")
La gráfica de caja y brazos para “ancho del caparazón” se muestra en la
figura 2.5.

50
Ancho del caparazón

40

30

20

Cangrejos

Figura 2.5: Diagrama de caja y brazos para la caracterı́stica ancho del ca-
parazón de la base de datos de los cangrejos crabs.

También se usan los diagramas de cajas y brazos cuando se busca com-


parar una variable cuantitativa con una variable cualitativa:
2.4. Representación gráfica de los datos 25

> par(mfrow=c(1,2))
> boxplot(CW~sp, xlab="Especie",ylab="Ancho del caparazon")
> boxplot(CW~sex, xlab="Sexo",ylab="Ancho del caparazon")
Para una gráfica de caja y brazos con estas caracterı́sticas, véase la
figura 2.6.

50 50
Ancho del caparazón

Ancho de caparazón
40 40
Especie Sexo
Blue Femenino
Orange Masculino

30 30

20 20

B O F M
Especie Sexo

Figura 2.6: Diagramas de caja y brazos para la caracterı́stica ancho del


caparazón por especie y por sexo para los datos de los cangrejos.

Inclusive se puede comparar una variable cuantitativa con más de una


variable cualitativa de manera simultánea:
> boxplot(CW~sp+sex, xlab="Especie y Sexo",ylab="Ancho del
caparazon")
Ver la figura 2.7.

Procedimiento para construir un diagrama de caja y brazos


1. Dibujar un eje de medida vertical y marcar Q1 , Q2 (la mediana) y Q3
en este eje.
2. Construir una caja rectangular cuya base inferior es el cuantil Q1 (pri-
mer cuartil) y su base superior es el cuantil Q3 (tercer cuartil).
26 2. Estadı́stica descriptiva

B O

50
Ancho del caparazón

40
Sexo
Femenino
Masculino

30

20

F M F M

Figura 2.7: Gráfica de caja y brazos para la caracterı́stica ancho del capa-
razón para las diferentes variables asociadas a especie y sexo.

3. Dibujar una lı́nea horizontal dentro de la caja a la altura de la mediana


Q2 .

4. Sea RI el rango intercuartil, es decir, RI = Q3 − Q1 . Dibujar un


segmento de recta del punto medio de la base inferior de la caja hacia
abajo de longitud 1.5 · RI .

5. Dibujar un segmento de recta del punto medio de la base superior de


la caja hacia arriba de longitud 1.5 · RI . A estos dos últimos segmentos
se les conoce como “brazos”.

6. Marcar en el diagrama con puntos aquellas observaciones que estén


por encima y por debajo en una distancia de a lo más 1.5 · RI . A estas
observaciones se les conoce como observaciones atı́picas moderadas.

7. Marcar en el diagrama con asteriscos aquellas observaciones que estén


por encima y por debajo en una distancia de al menos 1.5 · RI . A estas
observaciones se les conoce como observaciones atı́picas extremas.
2.5. Medidas muestrales de tendencia central 27

2.5. Medidas muestrales de tendencia central

Los métodos gráficos vistos en la sección anterior ayudan a visualizar los


patrones de un conjunto de observaciones. Para obtener un resumen más
objetivo, el siguiente paso será obtener valores numéricos para saber dónde
están centrados los datos y la variabilidad presente en ellos. Las dos medidas
de tendencia central más comúnmente utilizadas son la media y la mediana.

2.5.1. La media muestral


La media muestral de un conjunto de n observaciones x1 , x2 , . . . , xn es la
suma de estas observaciones divididas entre n. La media muestral se denota
como x. Es decir, Pn
xi
x = i=1 .
n
Para calcular la media muestral del ancho del caparazón en R, se puede
hacer de la siguiente manera
> (sumaCW=sum(CW))
[1] 7282.9
> nCW<-length(CW)
> (mediaCW<-sumaCW/nCW)
[1] 36.4145
Otra manera es utilizar la función mean() que calcula la media muestral
de un conjunto de datos
> mean(CW)
[1] 36.4145

2.5.2. La mediana muestral


Otra medida de tendencia central muestral utilizada es la mediana definida
de la siguiente manera.
La mediana muestral de un conjunto de n observaciones x1 , x2 , . . . , xn ,
es el valor mc definido en los siguiente dos casos:
Si n es impar, mc es el valor que ocupa la posición n+12 una vez que
los datos han sido ordenados, es decir, mc = x(n+1)/2 .
Si n es par, la mediana es la media aritmética de los dos valores cen-
trales. Cuando n es par, los datos que están en el centro de la muestra
x +x
ocupan las posiciones n2 y n2 + 1; ası́, mc = (n/2) 2((n/2)+1) .
28 2. Estadı́stica descriptiva

Para calcular la mediana muestral en R, se puede construir una función,


de acuerdo a la definición anterior, como se especifica a continuación:
mediana<-function(x){
n<-length(x)
x<-sort(x) # sort() ordena el conjunto de datos
if(n%%2==0){ # n%%2 es n modulo 2
med<-(x[n/2]+x[1+(n/2)])/2
}else{
med<-x[ceiling(n/2)]} # ceiling() es la funcion techo
return(med)
}
Aplicando esta función, se tiene lo siguiente:
> mediana(CW)
[1] 36.8
Existe una función predefinida en R para el cálculo de la mediana mues-
tral, que es median():
> median(CW)
[1] 36.8

2.5.3. Porcentiles o percentiles


Si el tamaño de la muestra es razonablemente grande, es útil muchas veces
extender el concepto de la mediana y dividir los datos ordenados en cuartos.
Ası́, el punto que divide a la muestra en dos partes es la mediana y los puntos
que dividen a la muestra en cuartos son llamados cuartiles. De manera aún
más general se tiene la siguiente definición.
El 100 × p percentil es el valor tal que, una vez que se han ordenado
los datos de menor a mayor, al menos una proporción del 100 × p % de las
observaciones son menores o iguales a este valor.
Aunque el término correcto es porcentil, por referirse a porcentaje, es
común usar el término percentil.
Existen varias maneras equivalentes de calcular los percentiles, aquı́ se
proporciona una de ellas:
1. Se ordena la muestra de menor a mayor.
2. Se calcula el producto (tamaño de la muestra) × (proporción) = np.
Si np no es entero, el percentil p × 100 será el valor x(dnpe) , donde d·e
es la función techo.
x(k) +x(k+1)
Si k = np es entero, el percentil p × 100 será el valor 2 .
2.6. Medidas de dispersión 29

Claramente, los cuartiles son los percentiles 25, 50 y 75.


Para el cálculo de los percentiles en R, existe la función quantile(), que
recibe la muestra, el valor de p y el método type, la definición dada aquı́
corresponde a type=2, ası́, para calcular el tercer cuartil CW, se hace de la
siguiente manera:

> quantile(CW,0.75,type=2)
75%
42

Pueden darse diversos valores de p, agrupándolo como un vector. Para


calcular los cuartiles 1, 2 y 3 de ambas series se hará de la siguiente manera:

> quantile(CW,c(0.25,0.5,0.75),type=2)
25% 50% 75%
31.5 36.8 42.0

2.6. Medidas de dispersión


Las medidas de dispersión, también llamadas medidas de variabilidad, mues-
tran la variabilidad de una distribución, indicando por medio de un número,
si las diferentes puntuaciones de una variable están muy alejadas de la media
o mediana, o alguna otra medida de tendencia central. Cuanto mayor sea ese
valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a
la media. Ası́ se sabe si todos los casos son parecidos o varı́an mucho entre
ellos.

2.6.1. Varianza y desviación estándar muestrales


Varianza muestral
Para calcular la variabilidad de una distribución respecto de su media, se
calcula la media de las desviaciones de las puntuaciones respecto a la media
aritmética. Pero la suma de las desviaciones es siempre cero, ası́ que lo que
usualmente se toma es un promedio de los cuadrados de las desviaciones. Es
decir, la varianza muestral para un conjunto de observaciones x1 , x2 , . . . , xn
está definida como:
n
2 1 X 2
s = (xi − x) .
n − 1 i=1

Para hacer el cálculo en R, se puede hacer lo siguiente:


30 2. Estadı́stica descriptiva

> difs.CW=CW-mediaCW # Diferencias respecto a la media


> difs.cuad.CW=difs.CW^2 # Diferencias cuadradas
> sum.difs.cuad.CW=sum(difs.cuad.CW) # Suma
> var.CW=(sum.difs.cuad.CW)/(nCW-1) # Varianza muestral
> var.CW # Imprime el resultado
[1] 61.96768
Haciendo el cálculo de la varianza muestral para CM con menos variables
auxiliares
> x=CW # Para hacer la notacion menos pesada
> var.CW=sum((x-mean(x))^2)/(length(x)-1) # Varianza muestral
> var.CW # Imprimir el resultado
[1] 61.96768
Ahora, utilizando la función var(), la cual calcula automáticamente la
varianza muestral
> var(CW)
[1] 61.96768

Desviación estándar muestral


La varianza a veces no se interpreta claramente, ya que se mide en unidades
cuadráticas. Para evitar ese problema se define otra medida de dispersión,
que es la desviación tı́pica, o desviación estándar, que se halla como la raı́z
cuadrada positiva de la varianza. La desviación tı́pica informa sobre la dis-
persión de los datos respecto al valor de la media en las mismas unidades
que los datos; cuanto mayor sea su valor, más dispersos estarán los datos.
Ası́, la desviación estándar muestral estará dada por
v

u n
u 1 X 2
s = s2 = t (xi − x) .
n − 1 i=1

Haciendo el cálculo en R. La función sqrt() calcula la raı́z cuadrada del


valor dado
> (desv.est.CW=sqrt(var.CW))
[1] 7.871955
También se puede utilizar la función sd():
> sd(CW)
[1] 7.871955
2.6. Medidas de dispersión 31

2.6.2. Rango muestral


Se denomina rango estadı́stico o recorrido estadı́stico al intervalo entre el
valor máximo y el valor mı́nimo, por ello tiene las mismas unidades que
los datos. El rango muestral es el tamaño del intervalo más pequeño que
contiene a todas las observaciones. Permite obtener una idea de la dispersión
de los datos: cuanto mayor es el rango, más dispersos están los datos de un
conjunto. Para un conjunto de observaciones {x1 , x2 , . . . , xn }, el rango está
definido por:

Rango = máx {x1 , x2 , . . . , xn } − mı́n {x1 , x2 , . . . , xn } .

Haciendo el cálculo en R,

> (rango.CW<-max(CW)-min(CW))
[1] 37.5

2.6.3. Rango intercuartil


El rango intercuartil es la diferencia entre el tercer y el primer cuartil de una
muestra. Es una medida de la dispersión estadı́stica; a diferencia del rango,
no se ve afectada de la misma manera por datos atı́picos. Sea Q1 y Q3 los
cuartiles 1 y 3 respectivamente de una muestra {x1 , x2 , . . . , xn }, entonces el
rango intercuartil estará dado por:

rango intercuartil = Q3 − Q1 .

Haciendo el cálculo en R:

> CW.Q1.Q3<-quantile(CW,c(0.25,0.75),type=2)
> (CW.R.I<-diff(CW.Q1.Q3))
10.5

Resumen de la información y comparativo

Se hace ahora un resumen de los resultados obtenidos para el ancho del


caparazón de los cangrejos (CW) estudiado. Las estadı́sticas muestrales son:
32 2. Estadı́stica descriptiva

CW
mı́n 17.1
Tendencia Q1 31.5
central x 36.4145
me 36.8
Q3 42.0
máx 54.6
Rango muestral 37.5
Dispersión Rango intercuartil 10.5
Desv. Estándar 7.871955
Varianza 61.96768

2.7. Otras medidas de resumen


Sesgo
Se habla de sesgo negativo o hacia la izquierda si la cola izquierda es
más larga, es decir, si la distribución está concentrada a la derecha.

Se habla de sesgo positivo o hacia la derecha si la cola derecha es más


larga, es decir, si la distribución está concentrada a la izquierda.

Se define el sesgo como:


µ3
Sesgo = .
σ3
En este caso, µ3 es el tercer momento alrededor de la media.
El sesgo muestral se define como:
1
Pn 3
m3 n i=1 (xi − x̄)
3/2
= 1
P n .
m2 ( n i=1 (xi − x̄)2 )3/2

Curtosis
La curtosis se define como:
µ4
,
σ4
donde µ4 es el cuarto momento alrededor de la media y σ es la desviación
estándar.
En ocasiones se mide con referencia a la distribución normal que tiene
una curtosis igual a 3,
µ4
γ2 = 4 − 3.
σ
2.8. Relaciones lineales entre variables 33

La distribución normal tiene entonces una medida γ2 = 0 y se llama me-


socúrtica. Las distribuciones con una curtosis positiva se llaman leptocúrti-
cas y son muy picudas y con colas pesadas. Las distribuciones con curtosis
negativa se llaman platicúrticas y tienen picos menores o son aplanadas y
con colas ligeras.
La curtosis muestral se define como:
1
Pn
m4 (xi − x̄)4
K = 2 − 3 = 1 Pni=1
n
− 3.
m2 ( n i=1 (xi − x̄)2 )2

2.8. Relaciones lineales entre variables


Considere las variables aleatorias continuas para la base crabs; si se observa
una gráfica de dispersión para ellas, se nota que existe una relación lineal
entre las parejas de variables.
> pairs(crabs[,4:8])
El resultado de esta instrucción se presenta en la gráfica de dispersión de
la figura 2.8.

6 10 14 18 20 30 40 50
● ●● ● ● ●●●●
● ●

●● ● ●●● ●●
● ●
● ●●●
●●● ●
● ●● ● ●●
●● ● ●●●
●●●●● ● ●●●●

●● ●
●●●
●● ● ● ●● ●

10 15 20
●●●● ●● ● ●● ●
●●● ● ●● ● ●
●●
●●●●
● ● ●
●● ●●
●●● ●
●●●


●●●●
●●
●●●●●
●●●●
● ●●●●
● ●●
●●

●●●●● ●
●●●

●●●
●●
●● ●● ● ●●● ●
● ●
●●

●●●●





●● ● ●●● ● ●●
● ●● ●
● ● ●
●●

●●


● ●●
●●
●● ●●● ●● ● ●●



● ●
●●

●●
●●
● ●●●● ●
●●
● ●



●●●●
●●●

● ●
● ●●●

●●
●●


●●●

●●●
● ● ●● ●● ●●
● ●
●● ● ● ●●●●●● ●● ●

●●●

FL
●●●●●
●●
● ●
●● ●● ●●
●●●
● ●●● ●●● ●
●●●
●● ●●
●●
●● ●●
●●● ●
●●
●●
●●●


●●
● ●● ●●
●●●



●●

●●


●●
●●
●● ● ●


●●

● ●

●●

●●

● ● ●
●●


●●






●●
●●
● ●
●●●●●●●●
●●
● ●●●
●●●
● ●●●
●● ●●
● ●●
●●
●●
●●●


●●


●●●● ●● ●●●
●●●

●● ●●
●●
●●●●● ●
●●●
●●
●●

● ●
●●● ●●● ●
●●●
● ●● ●
● ●●
●●●
●●●●





●●
●●
●●
● ● ●●●●●
●●●●●

●●
●●●
●● ●● ●
●●
●●●

●●
●●

● ●


●●





●●

●●
●●
●●
● ●


●●●
●●●●
● ●● ● ●●●
●● ●
●●
●● ●●● ●●
●●
●●●
● ●
●●
●●
●●●

●●●●●●
● ● ●●
●●
● ●●●●●● ● ●

●●●



●●●●●●

● ●●
●●

●●

● ●
● ●●

●●

● ●●
●●
●●

● ● ● ●
● ● ● ●

● ● ● ●

● ●● ● ● ● ●● ●
●●
●● ●●●● ●● ●●


● ● ●●● ●●●●●●●●● ● ●● ●

●● ●● ●
● ● ●● ● ●● ●
●● ●
16

● ● ● ● ●
● ●●●● ● ●●●● ●●
●●● ● ●● ●● ●●●●● ●● ●●●●●●●●●
●● ●●●● ● ● ●●●● ● ●
●●● ● ●●
● ●●
● ●●

●● ●●
●●●● ● ● ●●●●● ●● ● ●●●●
● ●●
● ● ●●● ●●● ●● ●●
●●●
● ● ●●●● ●●●●● ●●●
●● ●●● ●●

●●

●●
●●



●●





●●
●●
●●
●●
●●

● ●



●●















●●
●●



●●


●●
●●



●●●●
●●●
● ●

●●

●●
●●●●●●
●●
●●
RW ●●



●●●

●●
●●





●●


●●


●●●

●●
●●













●●●



●●
●●●● ●●●
●● ●
●●●



●●







●●
●●


●● ●●●●
●●

●●

●●●







●●



●●
●●

●●












●●●●
●● ●









●●●●●
● ●●
●●

●●
● ●●
●●●


●●● ●●●●


●●●
●●

●●







●●
●●
●●

●●●
●●
●●
●●
●●
●●
●●●



●●






●●
●●


●●●●
●●

●●●●

●●
●●


●●

●●
●●●


●●




●●

10

●● ●● ●
● ●
●● ●●
● ●●●●● ●
● ● ●●
●●
●●●●●

● ●●
● ● ●●

●● ● ●●● ●●●
●●●●
● ● ●
● ● ● ●●●
●●●

● ●
●●●●● ●●●
●●●
● ●●●
● ●●
● ●● ●●●●●
●●●
●●
● ●●●

●● ●
●●
● ●
●● ●●
●●
●● ●●
●● ●
●● ●
●●
●● ● ●●● ●●
● ● ●●
6

● ● ● ● ● ●● ● ● ●● ●
15 25 35 45

●●
● ● ●
●● ● ●●● ●●

● ● ● ● ● ●●● ●●
●● ●
●●●●●●●● ●
●●
● ●●
●● ● ●● ●

●●



●●


●●●
●●●●
● ●●●● ●● ●
● ●●●●
●●●● ●●

●●●
●●

●●● ●

●●

●●
● ●●●
●●●

●●●● ●● ●
●●
● ●● ●
● ●
● ●● ● ●●

●●●●
●●●●● ●
● ●●●●●●● ●
●●
● ●
●● ●●● ●●
●●●
●● ●
●●
●●●●●●

●● ●●●
● ●

● ● ●●
●●●●
● ●●●
● ●●
●●●●
●●●


●●

●●
● ● ●
●●●●


●●



●●● ●
●●
● ●●

● ● ● ●●








●● ●
●●
●●




● ●
●●●
●●●● ● ● ●● ●
● ●
●●●●●

CL
●●



●● ●● ●●
● ●●
●●
●● ●
●●

● ●

●●
●●●

●●●

●●●

●●
●●
● ● ●


●● ●
● ●
●●


●●
●●

● ●
●●




●●


●●
● ●
● ●

●●●


●●●
● ●
● ●
●●

●● ●●
● ●●● ●●●● ● ●●●
●●●
●●
●●●





●●● ●



●●●


●●●●●● ●
●●





●● ●●●
●●●●
●●


●●
●●
●●●
●●


●●●● ●●
● ●


● ●
●●●
●● ●●
●●

●●
● ●
●●

●●
●●
●●●
●●●
● ●● ● ●●
●● ●
● ●● ●
●● ●
●●



●● ●
● ●●●●
●● ●
●● ●●●

● ●


●●
●●●●


●●

●●●
● ●●●● ●
● ●
●●●●

● ● ●

●●●●●
●●
●●●● ●
● ●●●
●● ●●● ●●●
●●●●
● ●
●●●●●
●●




●●● ●
●●
● ●
●●● ●●

●● ●● ●● ●●
● ● ● ●

● ● ● ●

● ● ● ● ●
●● ●●●
● ●●●
●● ● ●
●●
● ●●●●

● ●● ●

●●
●●●

● ● ●● ● ●
●●●●
● ● ●
● ●● ●●● ●●

●●

● ● ●
●● ●●●●
●● ●●●●● ● ●●●
● ●
● ●● ● ●●
●●



●●
●●
● ●● ●
●●

●● ● ●●
●●
●●● ●●●●●

● ●
●●
●●

●●
●● ●●●●●●●
●●●
●●
●● ●
●● ●●

●●●● ●●●●● ● ●● ●●

●●

●●
●●
●● ●
● ●●
●●●


●●
●●● ●
●● ●●
40

● ●●●
● ●
●●● ●●

●●
● ●
●● ●








●●●
● ●

●●●
●●

● ●● ●


●●

● ●●●
● ●
●●
●●●

●●










●●

●● ●●

●●●●
●●

●●




● ●●●
●●●

CW
●●

●● ●●

● ●
●● ●● ●



●●
●● ●

●●

●●
●● ●
●●
●●● ●●●


●● ● ●● ● ●●
●● ●●
● ●
●●
●●●●●●●

●●
●●●● ●●
●●●●
●● ●●
●●



●● ●●●●


●●

●●

●●●
●●


● ●
●●

●●

●●
●● ●
●●●





●●

●●●
●●●●● ●

●●

●●
●●●
●●
● ●
●●

●●●●●●
●●●


●●

●●
●●
●●
●●
● ●●●
● ●●●


●●
●●
●●●
●● ●● ●
●●
●●
●●● ●
● ●
●●
●● ●●
●●
●●





●●● ●●●
●●

●●
●●
●●
●●●
● ●
●●

●●

●●●
● ●
●●●
●●
●●●

●●
● ● ●●● ●● ●
●● ●●
● ●●●

●●
●●●● ●
● ●●
●●





● ●


●●

●●●
● ●
● ●●●
●●

●●
●●
●●●●

●● ●●

●●●●●● ●●●
●●
●●
● ● ●●
●● ●●●
●● ● ● ●●
20

● ●● ●● ●
●● ●● ●● ●●
● ● ● ●


● ●
● ● ●
●● ●●
●●
● ● ● ● ● ●●●
10 15 20



●●●● ●●●

● ● ●


●● ● ●●●

● ●
●●●
● ●● ●●
●● ●●●●
● ●●


●● ● ●
● ●● ● ●
●●●● ●● ●●●●
●●●
●●


●●
●●
●●
●● ●
●●
●●● ●● ●
●●

● ●●
●● ●
●●



●●
●●● ●●●●●

●●●●●


●●
●●●● ●
●●
●●●●●●●● ●
● ●● ● ●
●●
●●
●●
●●●
●●●●
● ● ●●
●●
● ●● ● ● ●


●●
● ●●
●●●

●●●

● ●
●●● ●


●●

●●●
●●




●●
●● ● ● ●●


●●


● ●

● ●

●●● ●●





●●

●●● ●●


●●

● ●●●
●●

BD
●●●●●

●●●
● ●●●●●
● ●●●●
●● ●●●●
●●●● ● ●● ●
●●●●●●●
●●
●● ●●● ●●●●● ●●
● ●
● ●


●●●

●●

●●










●●●
● ●

● ●

●●


●●
●●● ●
●●
●●

●●
● ●●●●
●●
●●

●● ●
●●




●●
●●●●
● ●●●●


●●
●●




●●





●●
● ●
●●
●●
●● ●●●●●●●●●●
● ●●●● ●

●●● ●
●●●●●



●●●●

●● ● ●●●●
●●●●● ●
● ●●
●●
●● ●●● ●●●
●● ●●●

●●

●●

● ●● ●
●●● ●● ●
●●●

● ● ●●
●●●●●
●●

●●

●●
●●
●● ●
●●●

●●
●●●
●●
● ● ●●●

●●●●
●● ●●
●●●

●●
●●
●●●
●●●
●● ●
● ●
●●●●●● ●●
● ●●
●●● ●●●●●●


●●●●
●● ●●●●● ●●●
● ●● ●●●●●●
●●●● ●
● ●● ●●●● ●●●
●●

● ●●● ●
● ●●
●●
● ●●
●● ●
●●● ●●● ●●● ●●
● ● ● ●

10 15 20 15 25 35 45 10 15 20

Figura 2.8: Gráfica de dispersión para la base crabs y que ilustra la relación
entre las diferentes medidas morfológicas para los cangrejos.
34 2. Estadı́stica descriptiva

Coeficiente de correlación de Pearson


Para dos variables aleatorias continuas X y Y , se define el coeficiente de
correlación como:
Cov(X, Y )
ρXY = p 2 2 .
(σX σY )
Note que −1 ≤ ρXY ≤ 1, ası́ valores cercanos a −1 y 1 indican una fuerte
relación lineal con pendiente negativa y positiva, respectivamente.
Para una muestra aleatoria de variables (xi , yi ), i = 1, 2, . . . , n; se define
el coeficiente de correlación muestral (conocido como coeficiente de correla-
ción de Pearson) de la siguiente manera:
Pn
(xi − x̄)(yi − ȳ)
r = p Pn i=1 Pn .
[ i=1 (xi − x̄)2 ] [ i=1 (yi − ȳ)2 ]
La información muestral para las variables continuas en los datos crabs,
puede resumirse en la gráfica de la figura 2.9, obtenida con la instrucción:

FL 0.8

0.6

0.91 RW 0.4

0.2

0.98 0.89 CL 0

−0.2

0.96 0.9 1 CW −0.4

−0.6

0.99 0.89 0.98 0.97 BD −0.8

−1

Figura 2.9: Gráfica de correlación para las medidas morfológicas de los can-
grejos.
2.9. Anexo 35

>library(corplot)
>corrplot.mixed(cor(crabs[,4:8]),lower="number",upper="color")

Note que, como se ha observado en el diagrama o gráfica de dispersión,


la asociación lineal es fuerte entre las variables.

2.9. Anexo
A continuación se dan las instrucciones para elaborar algunas de las gráficas
de este capı́tulo a través de la biblioteca ggplot2 de R.
En la siguiente liga se puede encontrar una guı́a rápida para visualización
de datos usando ggplot2.
https://rstudio.com/wp-content/uploads/2016/12/
ggplot2-cheatsheet-2.1-Spanish.pdf

######## Estadistica descriptiva con ggplot2 para los ########


######## ejemplos del capı́tulo 2 ########
>library(MASS)
>library(ggplot2)
>data("crabs")
>help("crabs")
>ls(crabs)
>summary(crabs)

>crabplot = ggplot(data=crabs)

# GRAFICA DE BARRAS
# fill se utiliza para que los ponga de distinto colores de
# acuerdo a sp scale_fill_discrete es para modificar
# las leyendas
>barplot = crabplot + geom_bar(aes(x=sp, fill=sp), alpha=0.4)
+ labs(x=" ", y="Frecuencia") +
scale_fill_brewer(labels=c("Blue","Orange"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=-1)
>barplot
#Las escalas de colores se pueden ver en
#RColorBrewer::display.brewer.all()

# GRAFICA DE PAY para el ejemplo de los cangrejos


>pieplot = crabplot + geom_bar(aes(x=as.factor(1),
36 2. Estadı́stica descriptiva

fill=as.factor(sp)), width=1)
>pieplot = pieplot + coord_polar(theta ="y") + labs(x="",y="")+
scale_fill_brewer(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=1) + theme_void()
>pieplot
# Alternativa: scale_fill_discrete(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"))
# theme_void() para quitar las coordenadas

#Para el ejemplo de la encuesta


>respuesta = c(4,2,3,2,1,2,3,3,3,3,4,3,5,3,3,2,2,4,3,2)
>t_respuesta = as.data.frame(prop.table(table(respuesta)))
>t_respuesta$respuesta = c("A","B","C","D","E")

>pieplot_encuesta = ggplot(data=t_respuesta, aes(x=factor(1),


y=Freq, fill=as.factor(respuesta))) +
geom_bar(width=1, stat="identity")
>pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y")
+ guides(fill=guide_legend("Respuesta")) +
labs(x="", y="") + theme_void()
>pieplot_encuesta

# otra opción para el ejemplo de la encuesta


>pieplot_encuesta = ggplot(data=t_respuesta,
aes(x=factor(1),y=Freq, fill=as.factor(respuesta)))
+ geom_bar(width=1, stat="identity")
pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y") +
scale_fill_brewer(labels=c("A", "B","C","D","E"),
guide=guide_legend("Respuesta"), type = "seq",
palette="Accent", direction=1) +
labs(x="", y="") + theme_void()
>pieplot_encuesta

#+ guides(fill=guide_legend("Respuesta")) se
#sustituyo por scale_fill_brewer

# HISTOGRAMA
#Frecuencia absoluta
>histogram_abs = crabplot + geom_histogram(aes(x=CW),
binwidth = 4.755) + labs(title="Ancho del caparazón",
2.9. Anexo 37

y="Frecuencia absoluta")
>histogram_abs

#Frecuencia relativa
>histogram_rel = crabplot +
geom_histogram(aes(x=CW, y=..density..),bins=30) +
labs(title="Ancho del caparazón", y="Frecuencia relativa")
>histogram_rel
#Para que aparezcan juntas (ver nota al final de este anexo)
>ggplot2.multiplot(histogram_abs, histogram_rel, cols=2)

# BOXPLOT
>boxplot_cangrejos = crabplot +
geom_boxplot(aes(x="", y=CW),fill="blue", alpha=0.3) +
labs(x="Cangrejos", y="Ancho del caparazón") +
scale_fill_brewer(type = "seq", palette="Set1", direction=-1)
>boxplot_cangrejos

# Especie
>boxplot_especie = crabplot +
geom_boxplot(aes(x=as.factor(sp), y=CW, fill=as.factor(sp)),
alpha=0.3) + labs(x="Especie", y="Ancho del caparazón") +
scale_fill_brewer(labels=c("Blue", "Orange"),
guide=guide_legend("Especie"), type = "seq",
palette="Set1", direction=-1)
>boxplot_especie

#Sexo
>boxplot_sexo = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
labs(x="Sexo", y="Ancho de caparazón")+
scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_sexo

>ggplot2.multiplot(boxplot_especie,boxplot_sexo, cols=2)

#Sexo/Especie
>boxplot_espsex = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
38 2. Estadı́stica descriptiva

facet_grid(.~as.factor(sp))
+ labs(x="", y="Ancho del caparazón")
+ scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_espsex
# guides(fill=guide_legend("Sexo"))

# Nota: para gráficas múltiples usar easyGgplot2


>install.packages("devtools")
>library(devtools)
>install_github("easyGgplot2","kassambara")
>library(easyGgplot2)
# Usar este comando para gráficas múltiples en una
# figura ggplot2.multiplot(plot1,plot2,plot3,plot4,cols=2)

2.10. Ejercicio
Realice un análisis exploratorio para las variables de la base Cars93, incluida
en la biblioteca MASS de R. La base considera autos seleccionados aleato-
riamente de entre los autos de pasajeros disponibles en el mercado en 19932 ,
listados por el Consumer Reports issue y el PACE Buying Guide.

2 Lock, R. H. (1993). 1993 New Car Data. Journal of Statistics Education (1).
Capı́tulo 3

Estadı́sticas y
distribuciones muestrales

3.1. Introducción
De acuerdo a la definición 1.2, una muestra aleatoria representa un con-
junto de variables aleatorias X1 , . . . , Xn , las cuales son independientes e
idénticamente distribuidas. En este capı́tulo se estudiarán las propiedades
de funciones de la muestra aleatoria que serán fundamentales en el proceso
de inferencia.

Definición 3.1 El espacio de las muestras o espacio muestral es el


conjunto de valores que puede tomar la muestra aleatoria X1 , . . . , Xn y se
denotará por X.

Definición 3.2 Una estadı́stica es cualquier función T (X1 , . . . , Xn ) de la


muestra aleatoria que no depende de parámetros desconocidos.

Se denotará una estadı́stica por T (X1 , . . . , Xn ) o simplemente T (X),


donde X = X1 , . . . , Xn .

Observación 3.1 Note que una estadı́stica, al ser función de variables


aleatorias, es a su vez una variable aleatoria. De manera formal, se está
pidiendo implı́citamente que la función T : Rn → Rk sea Borel medible (me-
dible en la σ-álgebra B n ), donde k es la dimensión de la estadı́stica; no obs-
tante, la condición de medibilidad suele omitirse debido a que las funciones
de la muestra aleatoria que de manera habitual se utilizan, son claramente

39
40 3. Estadı́sticas y distribuciones muestrales

medibles. Pero la importancia de señalar la medibilidad en este momento


es enfatizar el hecho de que las estadı́sticas son variables aleatorias, puesto
que no es posible anticipar el valor que tomarán al obtener observaciones
concretas. Lo anterior tiene la implicación de que será necesario considerar
la función de densidad (o de distribución) de las estadı́sticas, lo que a su vez
permitirá calcular sus caracterı́sticas tales como la esperanza o la varian-
za. En este contexto, es común hablar de la distribución muestral de una
estadı́stica T (X) al referirse a la distribución de la variable aleatoria T (X).

Entre las estadı́sticas más comunes que se utilizarán en procedimientos de


inferencia destacan la media muestral, la varianza muestral y las estadı́sticas
de orden, las cuales se estudiarán con mayor detalle en este capı́tulo. A
continuación se enlistan algunas de estas funciones de la muestra aleatoria
con su respectiva notación.
Pn
Xi
T (X) = i=1
n := X̄ media muestral.
Pn 2
i=1 (Xi −X̄)
T (X) = n−1 := S 2 varianza muestral.

T (X) = mı́n {X1 , X2 , . . . , Xn } := X(1) mı́nima estadı́stica de orden.

T (X) = máx {X1 , X2 , . . . , Xn } := X(n) máxima estadı́stica de orden.


n
1
Xir := Mr
P
T (X) = n r-ésimo momento muestral.
i=1

A continuación se probará que, en general, la esperanza de la media mues-


tral es igual a la media poblacional, mientras que la varianza de la media
muestral es la varianza poblacional dividida entre el tamaño de la mues-
tra. Asimismo, la esperanza de la varianza muestral es igual a la varianza
poblacional.

Proposición 3.1 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que


E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces

σ2
E(X̄) = µ y Var(X̄) = .
n
Demostración.
 Pn  n
i=1 Xi 1X 1
E(X̄) = E = E(Xi ) = · nµ = µ.
n n i=1 n
3.1. Introducción 41

Ahora,

 Pn n
nσ 2 σ2

i=1 Xi 1 X
Var(X̄) = Var = 2
Var(Xi ) = 2 = .
n n i=1 n n

A continuación se da una identidad que será de utilidad más adelante.

Observación 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), enton-


ces
n
X n
X
(Xi − µ)2 = (Xi − X̄)2 + n(X̄ − µ)2 . (3.1)
i=1 i=1

Demostración. Ahora se comprobará (3.1):

n
X n
X
(Xi − µ)2 = (Xi − X̄ + X̄ − µ)2
i=1 i=1
n
X
(Xi − X̄)2 + 2(Xi − X̄)(X̄ − µ) + (X̄ − µ)2
 
=
i=1
n
X n
X
= (Xi − X̄)2 + 2(X̄ − µ) (Xi − X̄) + n(X̄ − µ)2
i=1 i=1
n
X
= (Xi − X̄)2 + n(X̄ − µ)2 .
i=1

En el siguiente resultado se probará que, en general, E(S 2 ) = σ 2 .

Proposición 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que


E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces

E(S 2 ) = σ 2 .
42 3. Estadı́sticas y distribuciones muestrales

Demostración.
" n #
2 1 X
2
E(S ) = E (Xi − X̄)
n−1 i=1
" n #
1 X
2 2
= E (Xi − µ) − n(X̄ − µ)
n−1 i=1
( n )
1 X 
2
  2

= E (Xi − µ) − nE (X̄ − µ)
n − 1 i=1
" n #
1 X
= Var(Xi ) − n · Var(X̄)
n − 1 i=1
nσ 2
 
1 2
= nσ −
n−1 n
= σ2 .

Ejemplo 3.1 Se quiere conocer la probabilidad θ de obtener sol con una


moneda, es decir, se está estudiando la variable aleatoria que toma valores
X = 1 si se obtiene sol y X = 0 si se obtiene águila, donde θ = P(X =
1), y para ello se realizarán tres lanzamientos de la moneda. En este caso,
f (x; θ) = θx (1 − θ)1−x con x = 0, 1; por lo tanto se está considerando una
muestra aleatoria de tamaño tres de la distribución Bernoulli(θ). En la tabla
siguiente se muestran los posibles resultados, la distribución de la muestra
especificada a través de su función de densidad, ası́ como los valores que
pueden tomar las estadı́sticas X y S 2 bajo los diferentes escenarios.

Resultados x1 , x2 , x3 Distribución x̄ s2
s,s,s 1,1,1 θ3 1 0
2
s,s,a 1,1,0 θ (1 − θ) 2/3 1/3
s,a,s 1,0,1 θ2 (1 − θ) 2/3 1/3
a,s,s 0,1,1 θ2 (1 − θ) 2/3 1/3
a,a,s 0,0,1 θ(1 − θ)2 1/3 1/3
a,s,a 0,1,0 θ(1 − θ)2 1/3 1/3
s,a,a 1,0,0 θ(1 − θ)2 1/3 1/3
a,a,a 0,0,0 (1 − θ)3 0 0
3.1. Introducción 43

Entonces, la función de densidad conjunta está dada por


3
Y 3
Y
fX1 ,X2 ,X3 (x1 , x2 , x3 ) = f (xi ; θ) = θxi (1 − θ)1−xi
i=1 i=1
3
P 3
P
xi 3− xi
= θi=1 (1 − θ) i=1 ,
y las funciones de densidad de la media y la varianza muestrales son:


 (1 − θ)3 si x̄ = 0;
3θ(1 − θ)2 si x̄ = 1/3;

fX̄ (x̄) =

 3θ2 (1 − θ) si x̄ = 2/3;
θ3 si x̄ = 1.

(
θ3 + (1 − θ)3 si s2 = 0;
fS 2 (s2 ) =
3θ(1 − θ) + 3θ (1 − θ) si s2 = 1/3.
2 2

Se obtendrán ahora las caracterı́sticas numéricas de X y S 2 para ilustrar las


propiedades que se presentaron previamente.
   
1 2
= θ3 (1) + 3θ(1 − θ)2 + 3θ2 (1 − θ) + (1 − θ)3 (0)

E X
3 3
= θ3 + θ 1 − 2θ + θ2 + 2θ2 (1 − θ)


= θ3 + θ − 2θ2 + θ3 + 2θ2 − 2θ3


= θ.
Por otro lado,
 2  2
 2
3 2 1 2 2
E X = θ (1) + 3θ(1 − θ) + 3θ (1 − θ) + (1 − θ)3 (0)
3 3
1  4 2
= θ3 + θ 1 − 2θ + θ2 + θ − θ3

3 3
3 1 2 2 1 3 4 2 4 3
= θ + θ− θ + θ + θ − θ
3 3 3 3 3
2 2 1
= θ + θ.
3 3
Y
2 2 1
θ + θ − θ2

Var X =
3 3
1 2 1
= − θ + θ
3 3
1
= θ (1 − θ) ,
3
44 3. Estadı́sticas y distribuciones muestrales

es decir, la varianza poblacional dividida entre el tamaño de muestra.


Finalmente,
 
2 1 
3θ(1 − θ)2 + 3θ2 (1 − θ)
 
E S =
3
= θ − 2θ2 + θ3 + θ2 − θ3
= θ − θ2
= θ (1 − θ) .

3.2. Distribución de las estadı́sticas muestra-


les bajo normalidad
Suponiendo ahora que las variables de la muestra aleatoria tienen una dis-
tribución
 normal, se analizará
 la distribución y las propiedades de la media
X̄ y la varianza S 2 muestrales.

3.2.1. Distribución de la media muestral


Proposición 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una población
con distribución N (µ, σ 2 ), entonces

X̄ ∼ N (µ, σ 2 /n).

Demostración. Se obtendrá la función generadora de momentos de X̄.


Para ello, se usará el hecho de que si Xi ∼ N (µ, σ 2 ), la función generadora
de momentos de Xi está dada por:
 
1 2 2
mXi (t) = exp tµ + t σ .
2

Ası́,
 Pn  n
!
Xi Y t
tX̄ t· i=1 X
mX̄ (t) =E(e )=E e n =E en i
i=1
n
Y  t 
= E e n Xi pues X1 , . . . , Xn son independientes
i=1
Yn
= mXi (t/n)
i=1
3.2. Distribución de las estadı́sticas 45

n
Y t 1 t2 2
= e n µ+ 2 · n2 σ pues X1 , . . . , Xn son idénticamente distribuidas
i=1
1 2 σ2
=etµ+ 2 t n ,

1 2 σ2
∴ mX̄ (t) = etµ+ 2 t n ,
 2

de donde se concluye que X̄ ∼ N µ, σn . 

3.2.2. La distribución de la varianza muestral


Enseguida se revisarán las distribuciones Gama y Ji-cuadrada, las cuales
serán de utilidad en los resultados que se analizarán más adelante.
La distribución Gama
Se dice que la variable aleatoria continua X tiene distribución Gama con
parámetros de forma r > 0 y de escala λ > 0, si su función de densidad de
probabilidad está dada por

λr r−1 −λx
f (x; r, λ) = x e , x > 0,
Γ(r)
R∞
donde Γ(r) = 0
xr−1 e−x dx es conocida como la función Gama, la cual
satisface:

Γ(r + 1) = rΓ(r) y si r ∈ N entonces Γ(r + 1) = r!.

La notación X ∼ Gama(r, λ), significa que X tiene esta distribución.


Las expresiones para su media, varianza y función generadora de momen-
tos se resumen a continuación:

E(X) = λr ,

r
V ar(X) = λ2 ,

 r
λ
mX (t) = λ−t .
46 3. Estadı́sticas y distribuciones muestrales

La distribución Ji-cuadrada es un caso particular de la distribución Ga-


ma, de tal manera que las propiedades de la segunda pueden utilizarse para
deducir las de la primera, la cual se presenta a continuación.
Distribución Ji-cuadrada
Se dice que la variable aleatoria continua X tiene distribución Ji-cuadrada
con k grados de libertad si su función de densidad de probabilidad está dada
por

1 k/2

k 1
f (x; k) = 2
k
 x 2 −1 e− 2 x , x > 0.
Γ 2

Se denota como X ∼ χ2(k) . Además:

k/2
E(X) = 1/2 = k,

k/2
Var(X) = 1/4 = 2k,

1/2 k 1
mx (t) = ( 1/2−t ) 2 = ( 1−2t )k/2 .

Estas propiedades pueden deducirse de las expresiones correspondientes


para la distribución Gama, notando que la distribución Ji-cuadrada es un
caso particular con r = k2 y λ = 12 .
El siguiente resultado establece una relación entre la distribución normal
y la distribución Ji-cuadrada.

Teorema 3.1 Sean X1 , . . . , Xn variables aleatorias independientes tales que


∀i ∈ {1, . . . , n}, Xi ∼ N (µi , σi2 ). Sea Zi = Xiσ−µ
i
i
, entonces:

1. Zi2 ∼ χ2(1) .

n
Zi2 ∼ χ2(n) .
P
2.
i=1

Demostración.

1. Como Zi ∼ N (0, 1), entonces


3.2. Distribución de las estadı́sticas 47

Z ∞

tZi2
 2 1 2
mZi2 (t) = E e = etzi √ e−zi /2 dzi
−∞ 2π
Z ∞
1 − 1 zi2 (1−2t)
= √ e 2 dzi
−∞ 2π
r Z ∞
1 1 1 2
= q e− 2 zi (1−2t) dzi
1 − 2t −∞ 2π( 1 )
1−2t
r Z ∞
1 1 1 1 2
= q e− 2 · 1/(1−2t) zi dzi
1 − 2t −∞ 2π( 1 )
1−2t
| {z }
1
 1/2
1
= ,
1 − 2t
la cual corresponde a la función generadora de momentos de una dis-
tribución χ2(1) .
2. Para la segunda parte se utilizará el hecho de que la suma de variables
aleatorias independientes con distribución Gama tiene también distri-
bución Gama con parámetro de forma igual a la suma de los parámetros
de forma de las variables que componen la suma, cuando el parámetro
de escala es el mismo para todas las variables aleatorias; además de
que la distribución Ji-cuadrada es un caso particular de la distribu-
ción Gama. OP bien, calculando directamente la función generadora de
n
momentos de i=1 Zi2 :
n n  1/2  n/2
Y Y 1 1
mPn Zi2 (t) = mZi2 (t) = = .
i=1
i=1 i=1
1 − 2t 1 − 2t

En el siguiente resultado se analizará la distribución de S 2 . La prime-


ra parte se refiere a la independencia entre X y el vector de desviaciones
(X1 − X̄, . . . , Xn − X̄), la cual se justificará de dos formas: usando la fun-
ción generadora de momentos y mediante una transformación. Otra manera
de abordar este resultado es a través de la independencia entre una forma
lineal y una forma cuadrática y las propiedades de la distribución normal
multivariada (ver Rencher y Schaalje (2008)); sin embargo, en este texto no
se estudiará ese enfoque.
48 3. Estadı́sticas y distribuciones muestrales

Teorema 3.2 Considere a X1 , . . . , Xn una muestra aleatoria de la distri-


bución N (µ, σ 2 ). Entonces

1. X̄ y el vector (X1 − X̄, . . . , Xn − X̄) son independientes.


2. X̄ y S 2 son independientes.
(n−1)S 2
3. σ2 ∼ χ2(n−1) .

2σ 4
4. E(S 2 ) = σ 2 y Var(S 2 ) = n−1 .

Figura 3.1: Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada y


estudió su distribución asintóntica. Se le considera el padre de la estadı́stica.
Imagen tomada de commons.wikipedia.org (public domain).
3.2. Distribución de las estadı́sticas 49

Demostración.

1. Se considera la distribución conjunta de Y1 , Y2 , . . . , Yn , donde:

Y1 = X̄, Y2 = X2 − X̄, Y3 = X3 − X̄, . . . , Yn = Xn − X̄.

Con este cambio de variable,


 
Y1 − Y2 − Y3 − · · · − Yn = X̄ − X2 − X̄ − · · · − Xn − X̄
= nX̄ − X2 − · · · − Xn
= X1 + X2 + · · · + Xn − X2 − · · · − Xn
= X1 .

Expresando las Xi ’s en términos de las Yi ’s se obtiene:

X1 = Y1 − Y2 − Y3 − · · · − Yn ,

X2 = Y1 + Y2 ,

X3 = Y1 + Y3 ,

.. ..
. .

Xn = Y1 + Yn .

 
∂Xi
El Jacobiano de esta transformación es igual a n, pues la matriz ∂Yj
tiene la forma:
 
1 −1 −1 −1 ··· −1

 1 1 0 0 ··· 0 

 1 0 1 0 ··· 0 
,
 

 1 0 0 1 ··· 0 
 .. .. .. .. .. .. 
 . . . . . . 
1 0 0 0 ··· 1

la cual se puede transformar mediante operaciones elementales de ren-


glones: para cada i, 2 ≤ i ≤ n, se suma el renglón i-ésimo al primer
50 3. Estadı́sticas y distribuciones muestrales

renglón, obteniendo la matriz:


 
n 0 0 0 ··· 0
 1 1
 0 0 ··· 0 

 1 0 1 0 ··· 0 
,
 
 1 0
 0 1 ··· 0 
 .. .. .. .. .. .. 
 . . . . . . 
1 0 0 0 ··· 1
cuyo determinante es:


1 0 0 ··· 0

0 1 0 ··· 0
n = n.

.. .. ..

. . .

0 0 0 ··· 1

Por otro lado, de acuerdo a (3.1):


n
X n
X
2 2
(xi − µ) = (xi − x̄ + x̄ − µ)
i=1 i=1

n
X 2 2
= (xi − x̄) + n (x̄ − µ) ,
i=1

la función de densidad conjunta  de X1 , X2 , . . . , Xn (la muestra aleato-


ria de la distribución N µ, σ 2 ) se puede escribir como:
 n  Pni=1 (xi −x̄)2 n(x̄−µ)2 
2
 1 − 2σ 2
− 2σ2
fX1 ,...,Xn x1 , . . . , xn ; µ, σ = √ e ,
2πσ
con −∞ < xi < ∞, i = 1, 2, . . . , n. Como y1 = x y, por lo tanto,
x1 − x = −y2 − y3 − · · · − yn , la función de densidad conjunta de
Y1 , Y2 , . . . , Yn es:

Xn 
2
n yi
 (−y2 − y3 − · · · − yn )2 n(y1 − µ)2 
  
1 i=2
(n) √ exp − − − ,
2πσ 
 2σ 2 2σ 2 2σ 2 

−∞ < yi < ∞, i = 1, 2, . . . , n. El resultado obtenido es producto de la


función de densidad de Y1 , es decir, de
(y1 − µ)2
 
1
exp − , −∞ < y1 < ∞,
2σ 2 /n
p
2πσ 2 /n
3.2. Distribución de las estadı́sticas 51

y una función de y2 , . . . , yn . De esta manera, Y1 es independiente de


las n − 1 variables aleatorias Y2 , Y3 , . . . , Yn y la función de y2 , . . . , yn
es la función de densidad de Y2 , Y3 , . . . , Yn . En conclusión, Y1 = X es
independiente de −Y2 −Y3 −· · ·−Yn = X1 −X, Y2 = X2 −X, . . . , Yn =
Xn − X.
Pn
(X −X̄)2
2. X̄ y S 2 son independientes porque S 2 = i=1n−1i es función de
(X1 − X̄, . . . , Xn − X̄). O bien, puede verificarse notando que la variable

n(X − µ)2 n(Y1 − µ)2


W1 = 2
=
σ σ2
es independiente de:
n
X n
X
(Xi − X)2 (−Y2 − · · · − Yn )2 + Yi2
i=1 i=2
W2 = = .
σ2 σ2

3. Observe que Pn
(n − 1)S 2 i=1 (Xi − X̄)2
=
σ2 σ2

Usando nuevamente la identidad


n
X n
X
(Xi − µ)2 = (Xi − X̄)2 + n(X̄ − µ)2
i=1 i=1

se tiene que
Pn Pn
i=1 (Xi − µ)2 i=1 (Xi − X̄)2 n(X̄ − µ)2
= + (3.2)
σ2 σ2 σ2
n
(Xi −µ)2
P
Pn  2 2
Pero note que i=1
σ2 = i=1 Xiσ−µ ∼ χ2(n) y también n(X̄−µ) σ2 =
 2
X̄−µ

σ/ n
∼ χ2(1) ; y como X̄ es independiente de X1 − X̄, . . . , Xn − X̄,
entonces Pn 2
i=1 (Xi − X̄)
2
∼ χ2(n−1) ,
σ
debido a que bajo el supuesto de independencia y por (3.2), la función
P n 2
i=1 (Xi −µ)
generadora de momentos de σ2 se puede escribir como el
52 3. Estadı́sticas y distribuciones muestrales
Pn 2
i=1 (Xi −X̄) n(X̄−µ)2
producto de las funciones generadoras de W = σ2 y σ2 ,
es decir:
−n/2 −1/2
(1 − 2t) = mW (t) × (1 − 2t) , t < 1/2
de donde,
−n/2+1/2 −(n−1)/2
mW (t) = (1 − 2t) = (1 − 2t) .
2
(n − 1)S
∴ ∼ χ2(n−1) .
σ2
4. Anteriormente se probó que E(S 2 ) = σ 2 , sin embargo conociendo ya
2
la distribución de (n−1)S
σ2 , se puede obtener de la siguiente manera,
además de deducir la varianza correspondiente.
2
Como (n−1)S
σ2 ∼ χ2(n−1) , entonces
(n − 1)S 2
 
(n − 1)
E S 2 = n − 1 ⇒ E S 2 = σ2 .
 
E 2
=n−1⇒ 2
σ σ
2
También, como (n−1)S
σ2 ∼ χ2(n−1) , se tiene que
(n − 1)S 2 (n − 1)2
 
Var 2
= 2(n − 1) ⇒ Var(S 2 ) = 2(n − 1)
σ σ4
2(n − 1)σ 4 2σ 4
⇒ Var(S 2 ) = 2
= .
(n − 1) n−1
2σ 4
∴ Var S 2 =

.
n−1


Demostración. Demostración alternativa para las partes 1, 2 y 3:


Se define la siguiente transformación:
1
Y1 = √ (X1 + · · · + Xn ),
n
1
Y2 = √ (X1 − X2 ),
2
1
Y3 = √ (X1 + X2 − 2X3 ),
6
..
.
1
Yn = p (X1 + X2 + · · · + Xn−1 − (n − 1)Xn ).
n(n − 1)
3.2. Distribución de las estadı́sticas 53

Para la cual, la matriz Jacobiana correspondiente es:


√1 √1 √1 √1
 
n n n
... n
√1 −1

 2

2
0 . . . 0 

√1 √1 −2
√ ··· 0
 
J =  6 6 6 .
 
 .. .. .. 
 . . . 
· · · √−(n−1)
 
√ 1 √ 1 √ 1
n(n−1) n(n−1) n(n−1) n(n−1)

Esta matriz es una matriz ortogonal, esto significa que JJ t = J t J = I,


por lo tanto es posible escribir:
| det(J)| = | det(J t )|
= | det(JJ t )1/2 | = 1.
Ahora, la función de densidad conjunta de X1 , X2 , . . . , Xn es:
n  
Y 1 1 2
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = √ exp − 2 (xi − µ)
i=1
2πσ 2σ
 n ( n
)
1 1 X 2
= √ exp − 2 (xi − µ)
2πσ 2σ i=1
 n ( n
)
1 1 X 2
= √ exp − 2 (x − 2µxi + µ2 ) ,
2πσ 2σ i=1 i

para −∞ < x1 , x2 , . . . , xn < ∞. Entonces la función de densidad conjunta


de Y1 , . . . , Yn es:
n ( n
!)


1 1 X
2 2
g(y1 , y2 , . . . , yn ) = √ exp − 2 yi − 2µ ny1 + nµ
2πσ 2σ i=1
n ( " n #)


1 1 X 2 2
= √ exp − 2 y + (y1 − nµ) ,
2πσ 2σ i=2 i
Pn 2
donde
Pn −∞ < y1 , y2 , . . . , yn < ∞. Además puede verse que i=1 xi =
2
i=1 yi , esto puede verificarse desarrollando para diferentes valores de n;
por ejemplo, para n = 2 :
1 1
Y12 + Y22 = (X1 + X2 )2 + (X1 − X2 )2
2 2
1 2 1 1 1
= X1 + X1 X2 + X22 + X12 − X1 X2 + X22
2 2 2 2
= X12 + X22 .
54 3. Estadı́sticas y distribuciones muestrales

Note que la función de densidad conjunta de Y1 , . . . , Yn puede reescribirse


como:
n−1 ( n
)

   
1 1 1 1 X
√ exp − 2 (y1 − nµ)2 √ exp − 2 y2 ,
2πσ 2σ 2πσ 2σ i=2 i

donde se observa que Y1 se distribuye como una N ( nµ, σ 2 ) y que Y1 , . . . , Yn
son variables aleatorias independientes con una distribución N (0, σ 2 ) para
Y2 , . . . , Yn . De la transformación definida, se puede escribir: X̄ = n−1/2 Y1 y
n
X n
X n
X n
X
(Xi − X̄)2 = Xi2 − nX̄ 2 = Yi2 − Y12 = Yi2 ,
i=1 i=1 i=1 i=2
Pn
concluyendo que X̄ es función de Y1 únicamente y que i=1 (Xi − X̄)2 depen-
de funcionalmentePnde Y2 , . . . , Yn . Pero Y1 y Y2 , . . . , Yn son independientes,
por lo que X̄ y i=1 (Xi − X̄)2 son independientes.

Como X̄ = n−1/2 Y1 donde Y1 ∼ N ( nµ, σ 2 ) entonces la distribución
2 2 Pn Y 2
de X̄ es N (µ, σn ). Ahora, i=1 (Xiσ−2X̄) = i=2 σi2 , que es una suma de
P n

(n − 1) variables Ji-cuadradas independientes, por lo tanto tiene distribución


χ2n−1 .


Ahora se presentarán dos distribuciones de probabilidad importantes en


la inferencia estadı́stica: la F de Fisher y la t de Student, ası́ como las
propiedades que serán de utilidad más adelante.

3.2.3. La distribución F de Fisher y el cociente de va-


rianzas muestrales
Distribución F de Fisher
Se dice que una variable aleatoria X tiene la distribución F de Fisher con
parámetros m y n (m y n grados de libertad), si su función de densidad está
dada por:
m−2
Γ( m+n
2 )
 m m/2 x 2
f (x; m, n) = x > 0, m, n ∈ N+ .
Γ( m
2 )Γ( n
2 ) n m
[1 + ( n )x]
m+n
2

Se denota como X ∼ F (m, n).


Teorema 3.3 Si U y V son variables aleatorias independientes tales que
U ∼ χ2(m) y V ∼ χ2(n) , entonces
U/m
∼ F (m, n).
V /n
3.2. Distribución de las estadı́sticas 55

Figura 3.2: Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesitan


sus héroes y Fisher fue sin duda el héroe de la estadı́stica del siglo XX. Sus
ideas transformaron nuestra disciplina de tal forma que hasta un César o
un Alejandro hubieran envidiado”: Efron (1998). “Lo que es y fue importan-
te para mı́, es cómo Fisher, en los 1920..., hizo que los estadı́sticos refle-
xionáramos acerca de las ideas fundamentales”: Egon Pearson (1974). Dos
citas que hacen alusión a la importancia de las contribuciones de Fisher en
la estadı́stica. La distribución que lleva su nombre fue producto del trabajo
que realizó con George Snedecor (1881-1974) de la Universidad de Iowa.
Imagen tomada de commons.wikipedia.org (public domain).

Demostración. Para probar este resultado se utilizará el teorema de cam-


bio de variable. Sean
U/m nU
X= = y Y = V.
V /n mV

La función de densidad conjunta de U y V está dada por


1 m/2 1 n/2
 
m 1 n 1
2 −1 − u 2 2 −1 e− 2 v
fU,V (u, v) = fU (u)fV (v) = u2 e 2 n v
Γ( m 2 ) Γ( 2 )
1 (m+n)/2

− 21 (u+v) m n
= 2
n e u 2 −1 v 2 −1 .
Γ( m2 )Γ( 2 )
56 3. Estadı́sticas y distribuciones muestrales

Como U = m n XY y además V = Y , entonces el Jacobiano de la trans-


formación está dado por
m
y mx m

J =
n n = y.
0 1 n

La función de densidad conjunta de (X, Y ) está determinada por


m+n
m (1) 2 − 12 ( m
 m  m2 −1 n
fX,Y (x, y) = y · 2m e n x+1)y xy y 2 −1
n Γ( 2 )Γ( n2 ) n
m+n
( 12 ) 2  m  m2 m+n m 1 m
= m n y 2 −1 x 2 −1 e− 2 ( n x+1)y .
Γ( 2 )Γ( 2 ) n

Y como la densidad marginal de X está dada por


Z ∞
fX (x) = fX,Y (x, y)dy,
−∞

se tiene que:
m+n
( 12 ) 2  m  m2 m Z ∞ m+n 1 m
fX (x) = x 2 −1 y 2 −1 e− 2 ( n x+1)y dy
Γ( m2 )Γ( n
2 ) n 0
1 m+n
(2) 2
 m
m 2 m −1
 Γ( m+n
2 )
= m n x2 m+n
Γ( 2 )Γ( 2 ) n 1 m
[ ( x + 1)] 2
2 n
m m−2
Γ( m+n
2 ) (mn) x
2 2
= · ,
Γ( m
2 )Γ( n
2)
m m+n
( n x + 1) 2

que corresponde a la función de densidad de una variable aleatoria con dis-


tribución F , es decir, X = U/m
V /n ∼ F (m, n). 

La distribución F en el marco del muestreo de la distribución nor-


mal
Sean X1 , X2 , . . . , Xm+1 una muestra aleatoria de la distribución N (µx , σx2 ) y
Y1 , Y2 , . . . , Yn+1 una muestra aleatoria de la distribución N (µy , σy2 ), de tal
manera que ambas muestras son independientes entre sı́.

1
Pm+1 1
Pn+1 1
Pm+1
En este caso X̄ = m+1 i=1 Xi , Ȳ = n+1 j=1 Yj , Sx2 = m i=1 (Xi −
1
Pn+1
X̄) y Sy = n j=1 (Yj − Ȳ )2 .
2 2
3.2. Distribución de las estadı́sticas 57

Entonces,
mSx2 2
nSy2
∼ χ (m) y ∼ χ2(n) .
σx2 σy2
Por el teorema anterior, se concluye que:

Sx2 /σx2
∼ F (m, n).
Sy2 /σy2

3.2.4. La distribución t de Student y algunas estadı́sti-


cas relacionadas
Distribución t de Student
Se dice que una variable aleatoria continua X tiene distribución t de Student
con k grados de libertad, si su función de densidad está dada por

Γ( k+1
2 ) 1 1
f (x; k) = √ , con k = 1, 2, . . .
Γ( k2 ) 2 k+1
kπ (1 + xk ) 2

Se denota como X ∼ t(k) .

Teorema 3.4 Si Z y U son variables aleatorias independientes tales que


Z ∼ N (0, 1) y U ∼ χ2(k) , entonces √Z ∼ t(k) .
U/k

Demostración. La prueba de este resultado es similar a la del teorema


3.3, definiendo las variables

Z
X=p y Y = U.
U/k

La distribución t a partir de una muestra con distribución normal



Si X1 , . . . , Xn es una muestra aleatoria de la distribución normal N µ, σ 2 ,
se sabe que
σ2
 
X ∼ N µ, ,
n
de donde:
X −µ
Z= √ ∼ N (0, 1) .
σ/ n
58 3. Estadı́sticas y distribuciones muestrales

Figura 3.3: William Sealy Gosset (1876-1937), quien usó el pseudónimo de


Student para publicar su trabajo, desarrolló la distribución t como respuesta
a problemas prácticos de variedades de cebada, trabajando en la cervecerı́a
Guiness. Imagen tomada de commons.wikimedia.org (public domain).

Por otra parte:


(n − 1) S 2
∼ χ2(n−1) .
σ2
Por el teorema 3.4,
X−µ

σ/ n X −µ
q = √ ∼ t(n−1) .
(n−1)S 2 S/ n
σ 2 (n−1)

Ahora considere a X1 , . . . , Xm una muestra aleatoria de la distribución


N µX , σ 2 y a Y1 , . . . , Yn una muestra aleatoria de la distribución N µY , σ 2 ,
tales que Xi es independiente de Yj , i {1, . . . , m} y j {1, . . . , n} . Por los
resultados vistos previamente, se puede concluir que

σ2 σ2
   
X ∼ N µX , y Y ∼ N µY , , (3.3)
m n
3.3. Estadı́sticas de orden 59

mientras que
2
(m − 1) SX (n − 1) SY2
∼ χ2(m−1) y ∼ χ2(n−1) (3.4)
σ2 σ2
De (3.3) se tiene que
σ2 σ2
 
X −Y ∼N µX − µY , + ,
m n
y por lo tanto,
X − Y − (µX − µY )
q ∼ N (0, 1) .
1
+ n1

σ2 m
De (3.4) y las propiedades de la distribución Ji-cuadrada se sabe que:
2
(m − 1) SX + (n − 1) SY2
∼ χ2(m+n−2) .
σ2
Ası́ que por el teorema 3.4 se concluye que
X−Y −(µX −µY )
q
σ2 ( m
1 1
+n ) X − Y − (µX − µY )
q 2 +(n−1)S 2
=q 2 +(n−1)S 2 ,
(m−1)SX (m−1)SX 1 1
σ 2 (m+n−2)
Y
(m+n−2)
Y
m + n

tiene distribución t de Student con m + n − 2 grados de libertad.

3.3. Estadı́sticas de orden


Sea X1 , . . . , Xn una muestra aleatoria de una población con función de den-
sidad f (x; θ). Considérese la muestra ordenada en forma ascendente X(1) ≤
X(2) ≤ . . . ≤ X(n) , sus elementos son llamados estadı́sticas de orden. Para
facilitar la notación, sea X(i) := Yi .
Las Yi0 s no son independientes, pues si Yj ≥ y entonces Yj+1 ≥ y, y
en general Yi no tiene por qué coincidir con Xi . Ası́, por ejemplo, Yn =
máx {X1 , . . . , Xn } puede ser cualquiera de las Xi0 s :


 X1 si X1 ≥ X2 , . . . , Xn .
 X2 si X2 ≥ X1 , X3 , . . . , Xn .

Yn = .. ..


 . .
Xn si Xn ≥ X1 , . . . , Xn−1 .

En los siguientes párrafos se deducirán las funciones de distribución y


densidad para las estadı́sticas de orden, únicamente para el caso continuo.
60 3. Estadı́sticas y distribuciones muestrales

3.3.1. r-ésima estadı́stica de orden (Yr )


Sea X1 , . . . , Xn una muestra aleatoria de una distribución continua con fun-
ción de densidad f (x; θ) y función de distribución F (x; θ).
Para obtener FYr (y) = P(Yr ≤ y), observe que el evento {Yr ≤ y} ocurre
si
Pn sólo si al menos r de las Xi ’s son menores o iguales a y, es decir si
y
i=1 Zi ≥ r, donde
(
1 si Xi ≤ y,
Zi =
0 si Xi > y.
Pn
Note que Zi ∼ Bernoulli[P(Xi ≤ y)], entonces i=1 Zi ∼ Bin(n, F (y)).
| {z }
F (y)
Por lo tanto,
n
! n  
X X n
FYr (y) = P(Yr ≤ y) = P Zi ≥ r = [F (y)]j [1 − F (y)]n−j .
i=1 j=r
j

n  
X n
∴ FYr (y) = [F (y)]j [1 − F (y)]n−j .
j=r
j

Usando este resultado se obtiene la distribución de Y1 , la mı́nima es-


tadı́stica de orden, de la siguiente manera:
n  
X n
FY1 (y) = [F (y)]j [1 − F (y)]n−j
j=1
j
=[F (y) + 1 − F (y)]n − [1 − F (y)]n
=1 − [1 − F (y)]n .

Y diferenciando se deduce la función de densidad correspondiente:

fY1 (y) = n[1 − F (y)]n−1 f (y).

De la misma forma, se obtiene la distribución de la máxima estadı́stica de


orden Yn :
FYn (y) = [F (y)]n . (3.5)

De donde:
fYn (y) = n[F (y)]n−1 f (y).
3.3. Estadı́sticas de orden 61

3.3.2. Distribución conjunta de las estadı́sticas de orden


mı́nima y máxima
En teorı́a de la probabilidad se estudia que una propiedad de la función de
distribución de dos variables FX,Y (x, y) es la siguiente:

P[a < X ≤ b, c < Y ≤ d] = FX,Y (a, c) + FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c).

Lo que, junto con las otras propiedades:

lı́m FX,Y (x, y) = lı́m FX,Y (x, y) = 0


x→−∞ y→−∞

y
lı́m FX,Y (x, y) = FX (x)
y→∞

conduce a:

P[y1 < Y1 , Yn ≤ yn ] = FYn (yn ) − FY1 ,Yn (y1 , yn ). (3.6)

Por otro lado, se tiene que, por ser Y1 y Yn la mı́nima y la máxima


estadı́sticas de orden, se satisface:
P(y1 < Y1 , Yn ≤ yn ) =P(y1 < X1 ≤ yn , y1 < X2 ≤ yn , . . . , y1 < Xn ≤ yn )
n
Y Yn
= P[y1 < Xi ≤ yn ] = (F (yn ) − F (y1 ))
i=1 i=1
n
=(F (yn ) − F (y1 )) .

Por lo tanto,

P(y1 < Y1 , Yn ≤ yn ) = (F (yn ) − F (y1 ))n . (3.7)

Igualando (3.6) y (3.7) se obtiene que:

FYn (yn ) − FY1 ,Yn (y1 , yn ) = (F (yn ) − F (y1 ))n .

De esta manera, FY1 ,Yn (y1 , yn ) = FYn (yn )−(F (yn )−F (y1 ))n . Y por (3.5)
se llega a que:

FY1 ,Yn (y1 , yn ) = [F (yn )]n − (F (yn ) − F (y1 ))n .

Para obtener fY1 ,Yn (y1 , yn ) se usará la propiedad que relaciona a las
funciones de densidad y de distribución para el caso de dos variables, a
saber,
∂2
FX,Y (x, y) = fX,Y (x, y) ,
∂y∂x
62 3. Estadı́sticas y distribuciones muestrales

ası́:

FY ,Y (y1 , yn ) = n(F (yn ) − F (y1 ))n−1 f (y1 ),
∂y1 1 n
y
∂2
FY ,Y (y1 , yn ) = nf (y1 )(n − 1)(F (yn ) − F (y1 ))n−2 f (yn ).
∂yn ∂y1 1 n
De esta forma se concluye que:

fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn ). (3.8)

Ejemplo 3.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución U (0, 1). Obtener: fY1 (y1 ), fYn (yn ) y fY1 ,Yn (y1 , yn ).
(x) Ry
En este caso, f (x) = I(0,1) y F (y) = 0 dx = y. Entonces
FY1 (y) = 1 − [1 − F (y)]n = 1 − [1 − y]n y por tanto fY1 (y) = n(1 − y)n−1 .
FYn (y) = y n y por tanto fYn (y) = ny n−1 .
(y1 ) (yn )
fY1 ,Yn (y1 , yn ) = n(n − 1)(yn − y1 )n−2 I(0,1) I(0,1) .

Algunas aplicaciones que tienen las expresiones obtenidas previamente


en esta sección, incluyen el cálculo de densidades correspondientes a funcio-
nes de las estadı́sticas de orden, por ejemplo, el rango R := Yn − Y1 y el
promedio T := Yn +Y 2
1
.
Para obtener fR,T (r, t) se utilizará la siguiente igualdad:

fR,T (r, t) = |J| fY1 Yn (y1−1 (r, t), yn−1 (r, t)).

Para encontrar la distribución conjunta del rango y el promedio, note lo


siguiente:
Yn = R + Y1 y sustituyendo en la expresión para T, se tiene que
T = Y1 +R+Y
2
1
= Y1 + R2 . Por lo tanto Y1 = T − R2 , entonces Yn =
R
R + Y1 = T + 2 .

(R, T ) 7→ (T − R2 , T + R2 ) = (Y1 , Yn ) es la transformación involucrada.



−1/2 1
J = = − 1 − 1 = −1.
1/2 1 2 2

Entonces al sustituir se obtiene

fR,T (r, t) =
h  r  r in−2  r  r
n(n − 1) F t + −F t− f t− f t+ . (3.9)
2 2 2 2
3.4. Estadı́sticas suficientes 63

Otra expresión relacionada con las estadı́sticas de orden que puede ser de
interés es la densidad conjunta de Y1 , . . . , Yn , suponiendo nuevamente que
estas variables corresponden a las estadı́sticas de orden de una muestra alea-
toria X1 , . . . , Xn . Ası́,
n
Y
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ) ,
i=1

en cualquier punto (x1 , . . . , xn ) de Rn . Pero la densidad de Y1 , . . . , Yn estarı́a


dada por
n
Y
fY1 ,...,Yn (y1 , . . . , yn ; θ) = n! f (yi ; θ) ,
i=1

debido a que, al ordenar la muestra, cada punto (y1 , . . . , yn ) acumula la


densidad
fX1 ,...,Xn (x1 , . . . , xn ; θ) (3.10)
de cada punto (x1 , . . . , xn ) obtenido al permutar de forma arbitraria las coor-
denadas de (y1 , . . . , yn ) . Lo anterior se hace porque fY1 ,...,Yn (y1 , . . . , yn ; θ),
a diferencia de (3.10), está concentrada en la región de Rn en donde y1 ≤
y2 ≤ · · · ≤ yn y vale cero fuera de esa región; es decir, (y1 , . . . , yn ) se obtiene
de permutar la muestra, ası́ que n! considera las posibles permutaciones.

3.4. Estadı́sticas suficientes


Una muestra aleatoria contiene información del parámetro desconocido θ en
f (x; θ) , por lo que para lograr el objetivo de disminuir el grado de desco-
nocimiento de dicho parámetro, se usará la muestra aleatoria. Como ya se
ha señalado, una estadı́stica es una función de la muestra aleatoria y, como
se verá utilizando métodos de estimación, las estadı́sticas resultan ser los
estimadores de los parámetros. Usualmente las estadı́sticas representan una
reducción de dimensión con respecto a la muestra original X1 , . . . , Xn ; el
caso más común es una función T que va de Rn a R. Una pregunta que pue-
de plantearse en este momento, es si estas estadı́sticas contienen la misma
información (con respecto a θ) que la muestra original o, si en el proceso
de transformación de la muestra aleatoria, se pierde información acerca del
parámetro desconocido. Es claro que no se desea perder la información ori-
ginal que contiene la muestra aleatoria, por lo que si se tuviera que elegir
entre una estadı́stica que contiene la misma información que la muestra con-
tra otra que no, la decisión serı́a quedarse con la primera. Este razonamiento
lleva a un concepto muy importante en estadı́stica, el de suficiencia.
64 3. Estadı́sticas y distribuciones muestrales

Se puede decir que una estadı́stica S (X1 , X2 , . . . , Xn ) es suficiente si


conserva toda la información que contiene la muestra aleatoria X1 , . . . , Xn
acerca de θ. En otras palabras, es suficiente conocer la estadı́stica

S (X1 , X2 , . . . , Xn )

para saber del parámetro lo mismo que con X1 , . . . , Xn ; de ahı́ el nombre de


estadı́stica suficiente. Una forma alternativa de parafrasearlo es la siguiente:
una estadı́stica suficiente para un parámetro θ es aquella que usa toda la
información contenida en la muestra con respecto a θ; no obstante, no es
claro cómo se podrı́a saber si una estadı́stica es suficiente o no utilizando
esta descripción del concepto, al menos de que se tratara de un caso en
donde sea posible “recuperar” los datos a través de la estadı́stica que se esté
analizando.
Como ilustración de estas ideas, suponga que se tiene el caso descrito
en el ejemplo 3.1, en donde se quiere estudiar la probabilidad θ de obte-
ner sol con una cierta moneda. En este ejemplo, se considera una muestra
aleatoria de tamaño 3: X1 , X2 , X3 , de una distribución Bernoulli(θ) y es un
ejercicio en donde se pueden escribir de manera sencilla los ocho posibles
valores de la muestra aleatoria. A continuación se reproduce parcialmente el
cuadro obtenido en el ejemplo 3.1, incluyendo los valores para la estadı́stica
S (X1 , X2 , X3 ) = X.

Resultados x1 , x2 , x3 Distribución x̄
s,s,s 1, 1, 1 θ3 1
2
s,s,a 1, 1, 0 θ (1 − θ) 2/3
s,a,s 1, 0, 1 θ2 (1 − θ) 2/3
a,s,s 0, 1, 1 θ2 (1 − θ) 2/3
a,a,s 0, 0, 1 θ(1 − θ)2 1/3
a,s,a 0, 1, 0 θ(1 − θ)2 1/3
s,a,a 1, 0, 0 θ(1 − θ)2 1/3
a,a,a 0, 0, 0 (1 − θ)3 0
Si se propone ahora otra estadı́stica definida como T (X1 , X2 , X3 ) =
X1 X2 + X3 , los posibles valores que puede tomar son (en el orden de la
tabla anterior): 2, 1, 0, 0, 1, 1, 1, 0.
Regresando a la discusión sobre la suficiencia, es claro que con

T (X1 , X2 , X3 ) = X1 X2 + X3

no se puede obtener o “recuperar” la información original, pues el primer


sumando siempre dará cero cuando al menos uno de X1 o X2 sean cero,
mientras que X sı́ permite reconstruir la información original en el sentido
3.4. Estadı́sticas suficientes 65

de que si se sabe que, por ejemplo, x = 31 , se puede concluir que se obtuvieron


dos águilas y un sol (o dos ceros y un uno). En otras palabras, S (X1 , X2 , X3 )
es suficiente y T (X1 , X2 , X3 ) no.
Observe también que una estadı́stica, en general, condensa la información
muestral en el sentido de que para cada valor t(x) de T (X) se obtiene un
subconjunto del conjunto de las posibles muestras. Sean {At } los elementos
de la partición generada por la estadı́stica T (asociada a T o inducida por
T ), definida como el conjunto de clases de equivalencia formadas por

At = {(x1 , x2 , . . . , xn ) ∈ X : T (x1 , x2 , . . . , xn ) = t} .

Ası́, la estadı́stica X = X1 +Xn2 +X3 genera la siguiente partición de las posi-


bles muestras, especificada por los valores que toma la estadı́stica:

A1 = {(1, 1, 1)} , A 13 = {(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} , (3.11)


A 23 = {(1, 1, 0) , (0, 1, 1) , (1, 0, 1)} y A0 = {(0, 0, 0)} ,

mientras que la estadı́stica T (X1 , X2 , X3 ) = X1 X2 + X3 genera la siguiente


partición:

A0 = {(0, 1, 0) , (1, 0, 0) , (0, 0, 0)} , (3.12)


A1 = {(0, 0, 1) , (1, 1, 0) , (0, 1, 1) , (1, 0, 1)} , y
A2 = {(1, 1, 1)} .

Puede decirse entonces que una estadı́stica suficiente condensa la infor-


mación muestral (en clases de equivalencia) sin perder información relevante.
Note que otras estadı́sticas que sean funciones uno a uno de estadı́sticas sufi-
cientes, también
P3 son suficientes. En este ejemplo puede verse fácilmente que
la estadı́stica i=1 Xi es suficiente y, de hecho, genera la misma partición del
conjunto de posibles muestras que generó S (X1 , X2 , X3 ) = X, sólo que en
este caso, los valores de X1 + X2 + X3 (en el orden de la tabla) son: 3, 1, 2, 0.
Ası́, lo que resulta de interés para hacer inferencia sobre el parámetro es
saber la clase de equivalencia en la que está x.
A continuación se da una definición formal de suficiencia.

3.4.1. El concepto de suficiencia


Definición 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con
función de densidad f (x; θ). La estadı́stica S(X) es suficiente si y sólo si la
función de densidad condicional de X1 , . . . , Xn dada S(X) = s no depende
de θ para cualquier valor s.
66 3. Estadı́sticas y distribuciones muestrales

Note que esta definición concuerda con la idea intuitiva discutida antes,
pues lo que dice es que, dado el conocimiento de S(X), la muestra aleatoria
no proporciona información adicional acerca de θ, es decir, toda la informa-
ción está contenida en S(X).
Usando la definición de estadı́stica suficiente, se analizará la suficiencia
de S(X) y T (X) del ejemplo descrito en los párrafos anteriores. Ası́,

P(X1 = 0, X2 = 0, X3 = 0, T = 0)
P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) =
P(T = 0)
(1 − θ)3
=
2θ(1 − θ)2 + (1 − θ)3
1−θ 1−θ
= = .
2θ + 1 − θ 1+θ
Es decir P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) depende de θ, por lo tanto,
la estadı́stica T no es suficiente. Esto puede verificarse para otros valores.
Por otro lado,

P(X1 = 0, X2 = 0, X3 = 0, S = 0)
P(X1 = 0, X2 = 0, X3 = 0|S(X) = 0) =
P(S = 0)
3
(1 − θ)
= = 1,
(1 − θ)3

que no depende de θ. En este último caso, debe verificarse para todos los
posibles valores y llegar a la conclusión de que esta probabilidad condicional
no depende de θ, para cualquier valor s (lo cual efectivamente ocurre).
El concepto de estadı́stica suficiente enfatiza el hecho de que cualquier
conocimiento adicional al valor de la estadı́stica, no da mayor información
acerca de θ. En el ejemplo, si S(X) = 23 , se puede decir que se obtuvieron
dos soles y un águila, pero no sólo eso: es posible concluir que cualquier
X = (X1 , . . . , Xn ) que satisfaga que S(X) = s, tiene la misma distribución
de probabilidad. Para verificarlo, suponga que sólo se tiene conocimiento
de que S(X) = s, pero no se conoce especı́ficamente el valor muestral que
generó este resultado (en el ejemplo hay tres posibles valores muestrales que
hacen que S(X) = 23 , a saber (0, 1, 1) , (1, 0, 1) y (1, 1, 0)). Conociendo la
densidad condicional P (X = x | S(X) = s) , donde

x ∈ As = {(x1 , x2 , . . . , xn ) ∈ X | S(x1 , x2 , . . . , xn ) = s} ,

se puede usar un proceso de simulación para generar un vector X 0 tal que

P X 0 = x | S(X) = s = P (X = x | S(X) = s) .

3.4. Estadı́sticas suficientes 67

Ası́

P (X = x) = P (X = x, S(X) = s)
= P (X = x | S(X) = s) P (S(X) = s)
P X 0 = x | S(X) = s P (S(X) = s)

=
P X 0 = x, S(X) = s

=
P X0 = x ,

=

de tal manera que X y X 0 tienen la misma distribución. En conclusión,


toda la información acerca de θ está contenida en el conocimiento de que
S(X) = s.
Los siguientes ejemplos ilustran la definición de suficiencia.

Ejemplo 3.3 Sea X1 , X2 , . . . , Xn una


Pn muestra aleatoria de una población
con distribución Bernoulli (θ). ¿Es i=1 Xi una estadı́stica suficiente?.
1−xi
En este caso, f (xi ; θ) = θxi (1 − θ) , por lo que, de acuerdo a la defi-
nición de suficiencia:
! Pn Pn
n Xi n− Xi
X θ i=1 (1 − θ) i=1
P X1 = x1 , . . . , Xn = xn | Xi = s =  
n s n−s
i=1 θ (1 − θ)
s
n−s
θs (1 − θ)
=  
n s n−s
θ (1 − θ)
s
1
= n ,

s

Pn
que no depende de θ, por lo que P i=1 Xi es una estadı́stica suficiente para
n
θ. Note que se usó el hechoPde que i=1 Xi tiene distribución Bin(n, θ), ası́
n
como la condición de que i=1 Xi = s.

Ejemplo 3.4 Sea X1 , X2 , . . . , XP


n una muestra aleatoria de una población
n
con distribución Poisson(θ). ¿Es i=1 Xi una estadı́stica suficiente?.
e−θ θ x
Recordando que si X ∼ P oisson(θ) entonces f (xi ; θ) = x! , se tiene
que:
68 3. Estadı́sticas y distribuciones muestrales

Pn
e−nθ
Qθ n
i=1 Xi
n
Pn xi ! X
P [X1 = x1 , . . . , Xn = xn | i=1 Xi = s] = i=1
s ;y Xi = s
e−nθ (nθ) i=1
s!
e−nθ
Q n
θs
i=1 i !
x
= −nθ s
e (nθ)
s!
s!
= n ,
Y
s
n xi !
i=1
Pn
que no depende de θ; por lo tanto, i=1PXi es una estadı́stica suficiente para
n
θ. En este caso se usó el hecho de que i=1 Xi ∼ P oisson (nθ) .

Observe que en los ejemplos anteriores, a no ser que la suma de los enteros
x1 , x2 , . . . , xn sea igual a s, la probabilidad condicional es igual a cero.

Observación 3.3 En general, sea k (s; θ) la función de densidad de la es-


tadı́stica
S (X1 , X2 , . . . , Xn ) := S (X) ,
donde X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función
de densidad f (x; θ), θ ∈ Θ. La probabilidad condicional de X1 = x1 , X2 =
x2 , . . . , Xn = xn , dado que S (X) = s, es igual a

f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)


P [X1 = x1 , . . . , Xn = xn | S (X) = s] = ,
k (s; θ)

siempre que x1 , . . . , xn , sean tales que S (x1 , x2 , . . . , xn ) = s, y esta proba-


bilidad condicional vale cero en otro caso. Se dice que S (X1 , X2 , . . . , Xn ) es
una estadı́stica suficiente para θ si y sólo si esta razón no depende de θ.
Con las distribuciones del tipo continuo, no se puede hablar de la proba-
bilidad de que X1 = x1 , X2 = x2 , . . . , Xn = xn . En este caso, se establece
que si la razón
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ) f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
= ,
k (s; θ) k (s; θ)
no depende de θ, entonces la distribución condicional de X1 , X2 , . . . , Xn dado
S (X) = s, no depende de θ. En general, las matemáticas para probar que
una estadı́stica es suficiente en una distribución continua, pueden representar
una dificultad mayor que para el caso discreto.
3.4. Estadı́sticas suficientes 69

Ejemplo 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución normal N (µ, σ 2 ), donde σ 2 es conocida. La media muestral,
S(X) = X̄ = (X1 + · · · + Xn )/n, es una estadı́stica suficiente para µ. Para
comprobarlo, se verificará que el cociente

fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2
(3.13)
k (s; µ, σ 2 )

no depende de µ (σ 2 es conocida), donde k s; µ, σ 2 es la función de densidad
de X̄. La función de densidad conjunta de la muestra es

n
−(xi − µ)2
 
 Y
fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 = (2πσ 2 )−1/2 exp
i=1
2σ 2
 Pn
− i=1 (xi − µ)2

= (2πσ 2 )−n/2 exp
2σ 2
 Pn
− i=1 (xi − x̄ + x̄ − µ)2

= (2πσ 2 )−n/2 exp ,
2σ 2
al desarrollar el cuadrado en el exponente, esta expresión es equivalente a
" Pn Pn #
2 2
2 −n/2 − i=1 (xi − x̄) + 2(x̄ − µ) i=1 (xi − x̄) + n(x̄ − µ)
(2πσ ) exp ,
2σ 2
Pn
y como i=1 (xi − x̄) = 0, se tiene que

fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 =

" Pn #
2 2
2 −n/2 − i=1 (xi − x̄) + n(x̄ − µ)
(2πσ ) exp .
2σ 2

Recordando que la media muestral X̄ tiene distribución N (µ, σ 2 /n), entonces


el cociente (3.13) está dado por

fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2
k (s; µ, σ 2 )
 Pn 
2 −n/2 −( i=1 (xi −x̄)2 +n(x̄−µ)2 )
(2πσ ) exp 2σ 2
= h 2
i
(2πσ 2 /n)−1/2 exp −n(x̄−µ)
2σ 2
 Pn
− i=1 (xi − x̄)2

(n−1)
= n−1/2 (2πσ 2 )− 2 exp ,
2σ 2
que no depende de µ. Por lo tanto, la media muestral es una estadı́stica
suficiente para µ.
70 3. Estadı́sticas y distribuciones muestrales

3.4.2. El teorema de factorización


El siguiente resultado conocido como el teorema de factorización de Neyman
o simplemente teorema de factorización, permite encontrar una estadı́stica
suficiente sin hallar la función de densidad de la estadı́stica de interés y, más
aún, sin tener que proponer dicha estadı́stica.

Teorema 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con


función de densidad f (x; θ); S(X) es suficiente si y sólo si, la función de
densidad conjunta de X1 , . . . , Xn puede factorizarse como:

fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn ) ,

donde g y h son funciones no negativas tales que g (S(x); θ) depende de la


muestra sólo a través de S(x) y también depende de θ; y h (x1 , . . . , xn ) no
depende de θ.

Es decir, el teorema de factorización establece que

fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn )


| {z } | {z }
depende de θ y de la depende sólo de la muestra
muestra sólo a través de S

Demostración. (Caso discreto):


⇒ S(X) es suficiente.
Si x1 , x2 , . . . , xn , son tales que S (x1 , x2 , . . . , xn ) = s, la densidad con-
junta de X1 , . . . , Xn puede escribirse como

P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ; S(X) = s) .

Usando la definición de probabilidad condicional, la expresión anterior es


equivalente a

P (X1 = x1 , . . . , Xn = xn )
= P ( X1 = x1 , . . . , Xn = xn | S(X) = s) · P [S(X) = s] . (3.14)

Por la suficiencia de S(X), la probabilidad condicional en (3.14) no depende


de θ, por lo que la densidad conjunta de X1 , . . . , Xn se puede expresar como:

P (X1 = x1 , . . . , Xn = xn ) = h(x1 , . . . , xn ) · g(S(x); θ),

donde
h(x1 , . . . , xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s)
3.4. Estadı́sticas suficientes 71

y
g(S(x); θ) = P [S(X) = s] .
⇐ Por demostrar que S(X) es suficiente, es decir, se debe probar que

P [ X1 = x1 , . . . , Xn = xn | S(X)]

no depende de θ, bajo el supuesto de que la factorización es válida.


Se tiene que
P [X1 = x1 , . . . , Xn = xn , S(X) = s]
P [ X1 = x1 , . . . , Xn = xn | S(X) = s] =
P[S(X) = s]
pero X
P[S(X) = s] = P[X1 = x1 , . . . , Xn = xn ], (3.15)
As

donde:
As = {(x1 , x2 , . . . , xn ) ∈ X : S(x1 , x2 , . . . , xn ) = s}
y X representa el conjunto de todos los posibles valores de (X1 , . . . , Xn ) . Es
decir, As consta de todos aquellos (x1 , x2 , . . . , xn ) tales que S(x) = s (ver,
por ejemplo, (3.11) y (3.12)).
Por la hipótesis, P[X1 = x1 , . . . , Xn = xn ] se puede factorizar como el
producto g(S(x); θ)h(x), de tal manera que (3.15) se puede escribir como:
X X
P[S(X) = s] = g(S(x); θ)h(x) = g(s; θ) h(x)
As As

y
g(S(x); θ)h(x)
P [ X1 = x1 , . . . , Xn = xn | S(X) = s] = P
g(s; θ) As h(x)
g(s; θ)h(x)
= P
g(s; θ) As h(x)
h(x)
= P ,
As h(x)

si (x1 , x2 , . . . , xn ) es tal que S(x) = s y vale cero en otro caso. Es decir,

P [ X1 = x1 , . . . , Xn = xn | S(X) = s]

no depende de θ, por lo que S(X) es una estadı́stica suficiente. 

Demostración. (Caso continuo):


72 3. Estadı́sticas y distribuciones muestrales

Se supone primero la factorización, es decir,

fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) = Πni=1 f (xi , θ)


= g (S (x) ; θ) h (x1 , x2 , . . . , xn ) .

Sea V1 = S (X1 , . . . , Xn ) y considere la transformación uno a uno definida


de la siguiente manera

v1 = S (x1 , x2 , . . . , xn ) ,

vi = ui (x1 , x2 , . . . , xn ) , para i = 2, . . . , n;
con funciones inversas

xi = wi (v1 , v2 , . . . , vn ) para i = 1, 2, . . . , n

y Jacobiano J = [∂wi /∂vj ], que denota la entrada (i, j) de la matriz.


Entonces la densidad conjunta de las variables V1 , V2 , . . . , Vn está dada
por:

kV1 ,...,Vn (v1 , . . . , vn ; θ)


= |J| g (v1 ; θ) h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) .

Ası́, la densidad de V1 puede obtenerse como

kV1 (v1 ; θ)
Z ∞ Z ∞
= ··· kV1 ,...,Vn (v1 , . . . , vn ; θ) dv2 · · · dvn
−∞ −∞
Z ∞ Z ∞
= g (v1 ; θ) ··· |J| h (w1 (v1 , . . . , vn ) , . . . , wn (v1 , . . . , vn )) dv2 · · · dvn .
−∞ −∞

Observe que θ no está involucrada ni en el Jacobiano, ni en los lı́mites de


integración, además de que la función h no depende de θ. Por lo tanto, la
integral múltiple es una función exclusivamente de v1 . Sea

m (v1 )
Z ∞ Z ∞
= ··· |J| h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) dv2 · · · dvn ,
−∞ −∞

con lo que
kV1 (v1 ; θ) = g (v1 ; θ) m (v1 ) .
3.4. Estadı́sticas suficientes 73

Note que si m (v1 ) > 0, es posible escribir:

kV1 (v1 ; θ)
g (v1 ; θ) = ,
m (v1 )
o
kV1 (S (x) ; θ)
g (S (x) ; θ) = ,
m [S (x)]
con lo que la factorización que se ha supuesto como hipótesis, se puede
reescribir como:

fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) = g (S (x) ; θ) h (x1 , x2 , . . . , xn )


kV1 (S (x) ; θ)
= h (x1 , x2 , . . . , xn )
m [S (x)]
h (x1 , x2 , . . . , xn )
= kV1 (S (x) ; θ) ,
m [S (x)]

de donde:

fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) h (x1 , x2 , . . . , xn )


=
kV1 (S (x) ; θ) m [S (x)]

no depende de θ, lo cual implica que V1 = S (X) es una estadı́stica suficiente


(ver observación 3.3).
Inversamente, si V1 = S (X) es suficiente, la factorización se puede hacer
tomando la función g como la densidad de S (X) , es decir, como kV1 (S (x) ; θ) .


Ejemplo 3.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución Poisson(θ). Hallar una estadı́stica suficiente para θ.
Usando el teorema de factorización:
Pn
e−nθ i=1 Xi (xi )
Qn
fX1 ,...,Xn (x1 , . . . , xn ; θ) = Qθ n
i=1 xi !
i=1 I{0,1,... }

n
Pn 1 Y (xi )
= e|−nθ θ{z i=1 X}i Qn I{0,1,... }
i=1 x i ! i=1
g(S(x);θ) | {z }
h(x1 ,...,xn )

Pn
∴ S(X) = i=1 Xi es una estadı́stica suficiente para θ.
74 3. Estadı́sticas y distribuciones muestrales

Ejemplo 3.7 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución Uniforme (0, θ). Para encontrar una estadı́stica suficiente para
θ, se tiene que:
n n
Y 1 Y (xi )
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ) = I .
i=1
θn i=1 (0,θ)

Como todas las observaciones son positivas, es decir xi > 0, para i =


1, 2, . . . , n, se tiene que
n
(x )
Y
i
I(0,θ) =1
i=1

siempre y cuando yn = máx {x1 , . . . , xn } < θ. Por lo tanto, la densidad


conjunta puede escribirse como
1 (yn )
fX1 ,...,Xn (x1 , . . . , xn ; θ) = I ,
θn (0,θ)
concluyendo que, por el teorema de factorización, Yn = máx {X1 , . . . , Xn }
(yn )
es suficiente, con g (s (x1 , x2 , . . . , xn ) ; θ) = θ1n I(0,θ) y h (x1 , x2 , . . . , xn ) = 1.
Observe que esta factorización no es única, pueden proponerse otras; pero
Yn será la estadı́stica suficiente.

Ejemplo 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad:
θxθ−1 , 0 < x < 1, 0 < θ

f (x; θ) =
0, en otro caso.
Se usará el teorema de factorización para probar que el producto

S (X1 , X2 , . . . , Xn ) = X1 X2 · · · Xn

es una estadı́stica suficiente para θ. La función de densidad conjunta de


X1 , X2 , . . . , Xn es:

fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = Πni=1 θxθ−1


i
= θn Πni=1 xθ−1
i
  
n n θ 1
= θ (Πi=1 xi )
Πni=1 xi
donde 0 < xi < 1, i = 1, 2, . . . , n. En el teorema de factorización, sean:
θ
g (s (x1 , x2 , . . . , xn ) ; θ) = θn (Πni=1 xi )
3.4. Estadı́sticas suficientes 75

y
1
h (x1 , x2 , . . . , xn ) = .
Πni=1 xi
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, el producto X1 X2 · · · Xn = Πni=1 Xi
es una estadı́stica suficiente para θ. Observe que si se hubiera querido usar
la definición para este ejercicio, era necesario obtener la densidad de la es-
tadı́stica dada por el producto S(X) = X1 X2 · · · Xn = Πni=1 Xi ; de ahı́ lo
valioso del teorema de factorización.
Observación 3.4 La muestra ordenada (Y1 , . . . , Yn ) siempre es una estadı́sti-
ca suficiente, pues en el esquema de muestreo aleatorio que se está conside-
rando, la función de densidad conjunta no depende del orden de las variables.
A pesar de que la muestra ordenada tiene la misma dimensión que la mues-
tra original, al ordenar se elimina la información irrelevante con relación a la
posición con la que se produce cada observación. Una forma de comprobarlo
es usando el teorema de factorización. La función de densidad conjunta de
X1 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
= n!f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) .
En el teorema de factorización, sean:
g (s (x1 , x2 , . . . , xn ) ; θ) = f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ)
y
h (x1 , x2 , . . . , xn ) = n!.
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, la muestra ordenada (Y1 , . . . , Yn )
es una estadı́stica suficiente.
Ejemplo 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Logı́stica(µ,σ):
e−(x−µ)/σ
f (x; µ, σ) = , − ∞ < x < ∞, −∞ < µ < ∞, σ > 0.
σ[1 + e−(x−µ)/σ ]2
La función de densidad conjunta de X1 , X2 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
n
Y e−(xi −µ)/σ
=
i=1
σ[1 + e−(xi −µ)/σ ]2
n
Y e−(yi −µ)/σ
= n! ,
i=1
σ[1 + e−(yi −µ)/σ ]2
76 3. Estadı́sticas y distribuciones muestrales

donde y1 , . . . , yn es la muestra ordenada. Debido a que no es posible factori-


zar la función de densidad conjunta de otra manera tal que se pueda aplicar
el teorema de factorización, entonces la muestra ordenada (Y1 , . . . , Yn ) es
una estadı́stica suficiente.

Cabe aclarar que la muestra ordenada se usará como la estadı́stica sufi-


ciente sólo cuando no sea posible obtener otra estadı́stica suficiente.

3.4.3. La familia exponencial


Hay un conjunto de familias paramétricas de distribuciones que, por sus
propiedades, tiene gran relevancia dentro de la inferencia estadı́stica. Este
conjunto se conoce como la clase exponencial o la familia exponencial y su
importancia en este momento es que las densidades de esta clase tienen una
relación con el concepto de suficiencia, en el sentido de que si se sabe que
una densidad pertenece a la familia exponencial, es posible encontrar una
estadı́stica suficiente de una forma sencilla. En esta parte se revisará el caso
de densidades con un sólo parámetro, mientras que en la sección 3.6 se verá el
caso de dos o más parámetros. Algunas de las distribuciones más conocidas
como la Binomial, la Geométrica, la Binomial negativa, la Poisson, la Gama,
la Normal y la Beta, pertenecen a la familia exponencial.

Definición 3.4 Se dice que f (x; θ) pertenece a la familia exponencial (o


clase exponencial) si puede factorizarse como:

f (x; θ) = a(θ)b(x)ec(θ)d(x) , θ ∈ Θ, − ∞ < x < ∞,

donde a(θ) y c(θ) son funciones de θ, y b(x) y d(x) son funciones de x.

Ejemplo 3.10 Las siguientes distribuciones pertenecen a la familia expo-


nencial:

1. Si X tiene distribución Exponencial con parámetro θ, es decir,

X ∼ exp (θ),

su función de densidad está dada por


(x)
f (x; θ) = θ · e−θ·x · I(0,∞) .

(x)
En este caso, a(θ) = θ, b(x) = I(0,∞) , c(θ) = −θ y d(x) = x.
3.4. Estadı́sticas suficientes 77

2. Si X tiene distribución Poisson con parámetro θ, es decir

X ∼ Poisson (θ),

su función de densidad es

e−θ θx (x) 1 (x)


f (x; θ) = I{0,1,...} = e−θ · I{0,1,...} · ex·ln(θ) ,
x! x!
de donde puede verse que pertenece a la familia exponencial.

3. Si X tiene distribución Bernoulli con parámetro θ, es decir

X ∼ Bernoulli (θ),

con
= (1 − θ) · I{0,1} · ex·ln( 1−θ ) ,
1−x (x) θ
f (x; θ) = θx (1 − θ)

se tiene que pertenece a la familia exponencial.

4. Si X tiene distribución Geométrica con parámetro θ, es decir

X ∼ Geométrica(θ),

su función de densidad se puede escribir como


x (x) (x)
f (x; θ) = θ (1 − θ) I{0,1,...} = θ · I{0,1,...} ex·ln(1−θ) ,

con lo que se concluye que la distribución Geométrica pertenece a la


familia exponencial.

Note que la distribución Uniforme en el intervalo (0, θ) no pertenece a la


familia exponencial.
El resultado que se enuncia a continuación proporciona la relación entre
los miembros de la familia exponencial y la suficiencia.

Proposición 3.4 Sea X1 , . . . , Xn una muestra aleatoria de una población


con función de densidad de la forma

f (x; θ) = a(θ)b(x)ec(θ)d(x) ,
Pn
es decir, f (x; θ) pertenece a la familia exponencial. Entonces i=1 d(xi ) es
una estadı́stica suficiente.
78 3. Estadı́sticas y distribuciones muestrales

Demostración. Usando el teorema de factorización, se tiene que:


Qn
fX1 ,...,Xn (x1 , . . . , xn ; θ) = i=1 a(θ)b(xi )ec(θ)d(xi )

h Pn i n
Y
n
= a (θ) ec(θ) i=1 d(xi )
· b(xi )
| {z } i=1
g(S(X);θ)
| {z }
h(X1 ,...,Xn )

n
P
∴ S(X) = d(Xi ) es una estadı́stica suficiente para θ. 
i=1

En la siguiente tabla se muestran algunas de las distribuciones más co-


nocidas que pertenecen a la familia o clase exponencial, aunque en la sección
3.6 se ampliará esta lista.

Algunos miembros de la familia exponencial


f (x; θ) = a (θ) b (x) exp [c (θ) d (x)]
Distribución f (x; θ) a (θ) b (x) c(θ)  d (x)
x 1−x θ
Bernoulli (θ) θ (1 − θ) 1−θ 1 ln 1−θ x
 
n x
 n−x n n
 θ
Binomial (n, θ) x θ (1 − θ) (1 − θ) x ln 1−θ x
x
Geométrica (θ) θ (1 − θ) θ 1 ln (1 − θ) x
−θ x
e θ −θ 1
Poisson (θ) x! e x! ln θ x
Exponencial (θ) θe−θx θ 1 −θ x
x 2
x − 2θ 1
Rayleigh (θ) θ2 e
2
θ2 x − 2θ12 x2

3.4.4. Suficiencia minimal

La idea de la suficiencia es no perder información relevante del parámetro


(contenida en la muestra) al usar una estadı́stica. Pero puede haber diferentes
estadı́sticas que satisfagan esa condición y lo ideal serı́a encontrar la que
condense más la información. A tales estadı́sticas se les llama suficientes
minimales.
Intuitivamente, una estadı́stica es suficiente minimal si cualquier reduc-
ción de la misma da lugar a estadı́sticas que ya no son suficientes; es decir,
ya no se puede “resumir” más la estadı́stica, puesto que se perderı́a infor-
mación contenida en la muestra acerca del parámetro. Lo anterior también
está asociado con la noción de clases de equivalencia o partición del espacio
3.4. Estadı́sticas suficientes 79

muestral inducida por cada estadı́stica. Ambos enfoques se analizan en los


siguientes párrafos.
Para ilustrar la idea de suficiencia minimal, considere una muestra alea-
toria X1 , X2 , . . . , Xn de la distribución Bernoulli con parámetro θ, ası́ como
las siguientes estadı́sticas

S1 (X) = (X(1) , . . . , X(n) ) = (Y1 , ..., Yn ) ,


 
X[ n2 ] X n
S2 (X) =  Xi , Xi  ,
 
i=1 i=[ n
2 +1]

donde [v] indica la parte entera de v, y


n
X
S3 (X) = Xi .
i=1

Considerando que
Pn Pn n
Y
xi n− xi
fX1 ,...,Xn (x1 , . . . , xn ; θ) = θ i=1 (1 − θ) i=1
I{0,1} (xi )
i=1
 Pni=1 xi Yn
n θ
= (1 − θ) I{0,1} (xi ) ,
1−θ i=1

por el teorema de factorización, las tres estadı́sticas son suficientes en la


distribución Bernoulli, pues la densidad conjunta también puede escribirse
como
 x(1)  x(2)  x(n) Yn
n θ θ θ
(1 − θ) ··· I{0,1} (xi )
1−θ 1−θ 1−θ i=1

P[i=1
2]
n
 xi  Pn n
xi Y
n θ θ [
i= n +1
2 ]
= (1 − θ) I{0,1} (xi ) .
1−θ 1−θ i=1

La diferencia entre las tres estadı́sticas radica en el distinto grado de sim-


plificación obtenido por eliminación de información que es irrelevante para
el conocimiento de θ. S1 (X) tiene dimensión n, S2 (X) tienen dimensión 2 y
S3 (X) tiene dimensión 1. S3 es más resumida que S1 y S2 , mientras que S2
es más resumida que S1 . Observe entonces que conociendo S1 o S2 se puede
conocer S3 , pero no al revés, y conociendo S1 se puede conocer S2 , pero no
al revés. Si una estadı́stica suficiente es más resumida que cualquier otra, se
80 3. Estadı́sticas y distribuciones muestrales

le llama suficiente minimal. En el ejemplo, note que S3 puede escribirse


como función de S1 o de S2 , y el hecho de que S3 sea más resumida que
S1 significa que existe una función (medible) ϕ tal que S3 puede escribirse
como S3 = ϕ (S1 ) . Lo anterior se formaliza en la definición 3.5.
Siguiendo la idea del párrafo anterior, suponga que S 0 (X) es más resu-
mida que S (X) . En términos de la partición inducida por una estadı́stica,
si {As0 } son los elementos de la partición asociados con S 0 (X) y {As } son
los elementos de la partición asociados con S(X), se tendrı́a que cada As es
un subconjunto de algún As0 . Si en el ejemplo (de la distribución Bernoulli),
se toma n = 3, se tienen los siguientes valores de S1 , S2 y S3 , de donde se
pueden revisar las particiones asociadas:

(X1 , X2 , X3 ) S1 (X) S2 (X) S3 (X)


(0, 0, 0) (0, 0, 0) (0, 0) 0
(0, 0, 1) (0, 0, 1) (0, 1) 1
(0, 1, 0) (0, 0, 1) (0, 1) 1
(1, 0, 0) (0, 0, 1) (1, 0) 1
(1, 1, 0) (0, 1, 1) (1, 1) 2
(1, 0, 1) (0, 1, 1) (1, 1) 2
(0, 1, 1) (0, 1, 1) (0, 2) 2
(1, 1, 1) (1, 1, 1) (1, 2) 3

Note que S1 y S3 inducen la misma partición (de 4 elementos), aún cuando en


S3 hay una reducción en la dimensión; mientras que S2 induce una partición
de 6 elementos, a saber:

A1 = {(0, 0, 0)} ,
A2 = {(0, 0, 1) , (0, 1, 0)} ,
A3 = {(1, 0, 0)} ,
A4 = {(1, 1, 0) , (1, 0, 1)} ,
A5 = {(0, 1, 1)} y
A6 = {(1, 1, 1)} ,

siendo cada uno de éstos un subconjunto de alguno de los elementos de la


partición inducida por S3 . Por ejemplo, A2 es un subconjunto de

{(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} ,

que corresponde al subconjunto del espacio muestral tal que S3 = 1.


Una forma de referirse a una partición inducida por S(X), tal que As ⊆
As0 para alguna estadı́stica S 0 (X), es como una partición más fina (es
3.4. Estadı́sticas suficientes 81

decir, S(X) induce una partición más fina que S 0 (X) o S 0 (X) induce una
partición menos fina que S(X)). En estos términos, si S 0 (X) es más resumida
que S(X), entonces S(X) genera una partición más fina que S 0 (X). En el
ejemplo, S2 (X) induce una partición más fina que S3 (X) .
En este contexto, la suficiencia minimal está asociada con la partición
menos fina que conserva la suficiencia.

Definición 3.5 Se dice que una estadı́stica es suficiente minimal si y sólo


si (i) es suficiente y (ii) es función de cualquier otra estadı́stica suficiente;
es decir, S 0 (X) es suficiente minimal si y sólo si existe ϕ tal que S 0 (X) =
ϕ [S(X)] , donde S(X) es cualquier otra estadı́stica suficiente.

Observación 3.5 Note que por la discusión previa, la definición 3.5 se pue-
de reescribir de una forma alternativa. Sean {As0 } los elementos de la parti-
ción asociados con S 0 (X) y {As } los elementos de la partición asociados con
S(X), se tiene que:

1. S 0 (X) es suficiente minimal si cada As es un subconjunto de algún As0 ,


donde S (X) es suficiente, o

2. S 0 (X) es suficiente minimal si cualquier otra estadı́stica suficiente S (X)


induce una partición más fina que S 0 (X). También se puede decir que
S 0 (X) induce una partición menos fina –o más gruesa– que S (X).

En términos de las clases de equivalencia, cualquier estadı́stica con una


partición más fina que la minimal, será suficiente.

Observación 3.6 Las estadı́sticas suficientes minimales no son únicas, pues


al igual que las estadı́sticas suficientes, cualquier función biyectiva resulta ser
también una estadı́stica suficiente minimal.

Se proporcionará un método para encontrar estadı́sticas suficientes mi-


nimales. Para ello, será necesario introducir algunos conceptos.
Note que el que S 0 (X) sea función de S(X) (en la definición 3.5) significa
que si S (x) = S (x0 ) , entonces S 0 (x) = S 0 (x0 ) . Lo anterior puede verificarse
de la siguiente manera: si

x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )

y se cumple que S (x) = S (x0 ) , se tiene que x y x0 ∈ As y como As ⊆ As0


(por ser S 0 (X) minimal) entonces x y x0 ∈ As0 , lo cual implica que S 0 (x) =
S 0 (x0 ) .
Se tiene entonces la siguiente definición.
82 3. Estadı́sticas y distribuciones muestrales

Definición 3.6 Sean S (X) y S 0 (X) dos estadı́sticas. Se dice que S 0 (X) es
función de S(X) si para cualesquiera x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en el espacio muestral X, que satisfacen que S (x) = S (x0 ) , se cumple que
S 0 (x) = S 0 (x0 ).

Para lo que sigue, también es necesario recordar que el soporte de una


función de densidad f (x; θ) , θ ∈ Θ, es el conjunto

Sopf = {x : f (x; θ) > 0 para alguna θ ∈ Θ} .

A continuación se define una relación de equivalencia en Sopf , relación que


será de utilidad para caracterizar a la suficiencia minimal.

Definición 3.7 Para dos valores x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en Sopf , se dice que x y x0 son equivalentes en verosimilitud si existe
H (x, x0 ) > 0, tal que para todo θ ∈ Θ,

fX1 ,...,Xn (x; θ) = H (x, x0 ) fX1 ,...,Xn (x0 ; θ),

es decir,
L(θ | x) = H (x, x0 ) L(θ | x0 ).
Esta relación se denota como
v
x ∼ x0 .

El siguiente resultado relaciona la equivalencia en verosimilitud con la


suficiencia.

Lema 3.1 Sea S (X) una estadı́stica suficiente y sean x y x0 dos valores en
v
Sopf . Si S (x) = S (x0 ) = s, entonces x ∼ x0 .

Demostración. Si x, x0 ∈ Sopf , existe θ para el cual fX1 ,...,Xn (x0 ; θ) > 0 y


como S (X) es una estadı́stica suficiente, el teorema de factorización implica
que
fX1 ,...,Xn (x; θ) g (s; θ) h (x) h (x)
= = = H (x, x0 ) ,
fX1 ,...,Xn (x0 ; θ) g (s; θ) h (x0 ) h (x0 )
por lo que fX1 ,...,Xn (x; θ) se puede escribir como H (x, x0 ) fX1 ,...,Xn (x0 ; θ).


En el lema anterior, el hecho de que S (x) = S (x0 ) = s, implica que el


cociente
fX1 ,...,Xn (x; θ)
fX1 ,...,Xn (x0 ; θ)
no depende de θ.
3.4. Estadı́sticas suficientes 83

Teorema 3.6 Sea X1 , ..., Xn una muestra aleatoria de una población con
función de densidad f (x; θ) y sea S 0 (X) una estadı́stica suficiente para θ.
Suponga que para dos valores muestrales x = (x1 , ..., xn ) y x0 = (x01 , ..., x0n )
v
en Sopf que son equivalentes en verosimilitud, es decir x ∼ x0 , se tiene que
0 0 0 0
S (x) = S (x ) . Entonces S (X) es suficiente minimal.

Demostración. Sea S (x) cualquier estadı́stica que sea suficiente para θ y


v
x, x0 ∈ Sopf , tal que S (x) = S (x0 ) = s, entonces por el lema 3.1, x ∼ x0 , lo
0 0 0
cual a su vez implica (por la hipótesis) que S (x) = S (x ) . Por la definición
3.6 S 0 (X) es función de S (X), lo cual, junto con el hecho de que S 0 (X) es
suficiente, lleva a la conclusión de que S 0 (X) es suficiente minimal. 

Este resultado es muy importante debido a que proporciona un método


sistemático para encontrar una estadı́stica suficiente minimal. En resumen, lo
que debe hacerse es lo siguiente: para dos valores muestrales x = (x1 , ..., xn ) y
x0 = (x01 , ..., x0n ) en Sopf , verificar la implicación que tiene la equivalencia en
verosimilitud sobre la o las estadı́sticas implicadas en la función de densidad
conjunta. Lo anterior equivale a calcular el cociente

fX1 ,...,Xn (x; θ)


fX1 ,...,Xn (x0 ; θ)

y ver bajo qué condición (sobre las estadı́sticas involucradas) este cociente
no depende de θ. Si se cumple la hipótesis del teorema 3.6, es decir,

fX1 ,...,Xn (x; θ)


“ no depende de θ ⇒ S 0 (x) = S 0 (x0 ) ”,
fX1 ,...,Xn (x0 ; θ)

entonces S 0 es suficiente minimal.

Ejemplo 3.11 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución Bernoulli(θ), entonces:

n− n
Qn Pn P
xi 1−xi i=1 xi
fX1 ,...,Xn (x; θ) i=1 θ (1 − θ) θ i=1 xi (1 − θ)
= 1−x0i
= n− n
P 0
fX1 ,...,Xn (x0 ; θ)
Qn x0i
Pn 0
i=1 xi
i=1 θ (1 − θ) θ i=1 xi (1 − θ)

 Pni=1 xi −Pni=1 x0i


θ
= ,
1−θ
Pn Pn Pn
el cual no depende de θ si y sólo si i=1 xi = i=1 x0i . Ası́, i=1 Xi es una
estadı́stica suficiente minimal.
84 3. Estadı́sticas y distribuciones muestrales

Ejemplo 3.12 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución Uniforme en el intervalo (0, θ) . En este caso,

1
Qn (xi )
fX1 ,...,Xn (x; θ) θn i=1 I(0,θ)
= Qn (x0i )
fX1 ,...,Xn (x0 ; θ) 1
θn i=1 I(0,θ)
n(y ) (θ)
I(0,θ) I(yn ,∞)
= (y 0 )
= (θ)
,
I(0,θ)
n
I(y0 ,∞)
n

cociente que no depende de θ si y sólo si yn = yn0 , concluyendo que Yn es


una estadı́stica suficiente minimal.

Suficiencia minimal y la familia exponencial


Se sabe que f (x; θ) pertenece a la familia exponencial si se cumple que:

f (x; θ) = a(θ)b(x)ec(θ)d(x)

Tomando X = (X1 , . . . , Xn ) y X 0 = (X10 , . . . , Xn0 ) y usando el teorema 3.6,


se tiene que:
Qn
f (x;θ) i=1 a(θ)b(xi ) exp{c(θ)d(xi )}
f (x0 ;θ) =
i=1 a(θ)b(xi ) exp{c(θ)d(xi )}
Qn 0 0

(a(θ))n i=1 b(xi ) exp{c(θ) i=1 d(xi )}


Qn Pn
=
i=1 b(xi ) exp{c(θ)
(a(θ))n n i=1 d(xi )}
Q 0
Pn 0

Qn
b(xi ) Pn Pn
= Qi=1
n 0 exp {c(θ) [ i=1 d(xi ) − i=1 d(x0i )]} .
i=1 b(xi )

Pn Pn
Este cociente no depende de θ si sólo si i=1 d(xi ) = i=1 d(x0i ).
Pn
∴ i=1 d(Xi ) es suficiente minimal.
Pn
Es decir, si f (x; θ) pertenece a la familia exponencial, i=1 d(Xi ) es una
estadı́stica suficiente minimal.

3.5. Completez
El concepto de estadı́stica completa se utilizará en uno de los resultados más
importantes que servirán para encontrar estimadores insesgados de varianza
mı́nima.
3.5. Completez 85

Definición 3.8 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) , θ ∈ Θ. Se


dice que la estadı́stica T (X) es completa si y sólo si, para cualquier función
g de T, se tiene que si E(g(T )) = 0 ∀θ ∈ Θ, entonces

P(g(T ) = 0) = 1, ∀θ ∈ Θ.

También se dice que la familia de densidades de T es completa.

Se puede pensar entonces que T es completa si una estadı́stica, función


de T, cuya esperanza es 0, vale 0 con probabilidad 1.

Ejemplo 3.13 Sea X1 , X2 , . . . , Xn una muestra aleatoria


Pn de una población
con distribución Bernoulli (θ) , 0 < θ < 1, y T (X) = i=1 Xi . Para ver si
T es completa, se considera E(g(T )) = 0, que es equivalente a:
n  
X n t n−t
E(g(T )) = g(t) θ (1 − θ) = 0,
t=0
t

de donde
n   t
n
X n θ
(1 − θ) g(t) = 0,
t=0
t 1−θ

n   t
X n θ
g(t) = 0,
t=0
t 1−θ
 
θ
el cual es un polinomio en 1−θ , que vale cero si cada uno de los coeficientes
 t
θ
de 1−θ vale cero, es decir, si
 
n
g(t) = 0, para toda t = 0, 1, 2, . . . , n,
t

pero nt 6= 0, ası́ queP



g(t) = 0, ∀t ∈ {0, 1, 2, . . . , n}, lo que lleva a la conclu-
n
sión de que T (X) = t=1 Xi es una estadı́stica completa.
Observe que si en esta distribución se toma T (X) = X1 −X2 y g (T ) = T,
se tiene que E(X1 − X2 ) = E (X1 ) − E (X2 ) = 0, pero X1 − X2 no vale cero
con probabilidad 1, ası́ que X1 − X2 no es completa.

Ejemplo 3.14 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución Uniforme continua en el intervalo (0, θ) . Para ver si

T (X) = Yn = máx {X1 , . . . , Xn }


86 3. Estadı́sticas y distribuciones muestrales

es completa, se hace
Z
E(g(T )) = g(t)fT (t)dt = 0.

En el caso de la máxima estadı́stica de orden,

tn−1 (t)
fT (t) = n I , t = yn .
θn (0,θ)
Ası́
Z θ
n n−1
E(g(T )) = g(t) t dt
0 θn
Z θ
n
= g(t)tn−1 dt = 0, ∀θ > 0,
θn 0

entonces Z θ
g(t)tn−1 dt = 0, ∀θ > 0.
0
Lo cual implica que
g(θ)θn−1 = 0 ∀θ > 0,
y por lo tanto, g(θ) = 0, ∀θ > 0, lo que lleva a concluir que la máxima
estadı́stica de orden es una estadı́stica completa.

Observación 3.7 En general, puede decirse que una familia paramétrica de


distribuciones f (x; θ) es completa si E [g (X)] = 0 implica que g (x) = 0 casi
seguramente (c.s.). En este contexto, si f (x; θ) pertenece a la familia expo-
nencial, entonces f (x; θ) es completa. Para verificarlo, se considerará el caso
particular en el que c (θ) = θ y d (x) = x, es decir: f (x; θ) = a (θ) b (x) eθx .
Ahora, si para toda θ, se cumple que:
Z ∞
g (x) f (x; θ) dx = 0,
−∞

se tiene que Z ∞
g (x) a (θ) b (x) eθx dx = 0,
−∞
o Z ∞
[g (x) b (x)] eθx dx = 0,
−∞

la cual corresponde a la transformada de Laplace de la función g (x) b (x) .


Por la propiedad de unicidad de la transformada, la única función que tiene
3.5. Completez 87

una transformada igual a cero es la función que vale cero c.s., es decir,
g (x) b (x) = 0 c.s., de donde se obtiene que g (x) = 0 c.s., considerando
b (x) 6= 0. Ası́ que f (x; θ) es completa.

Observación 3.8 Si f (x; θ) pertenece a la familia exponencial, entonces


n
P
d (Xi ) es completa.
i=1

En sı́ntesis, una de las ventajas que se tiene al identificar a un miembro


de la familia exponencial está explicada en el siguiente resultado.

Teorema 3.7 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad f (x; θ) con θ ∈ Θ ⊆ R, donde f (x; θ) pertenece a
la familia exponencial, es decir, f (x; θ) = a(θ)b(x) exp{c(θ)d(x)}. Entonces,
n
P
la estadı́stica d(Xi ) es suficiente minimal y completa.
i=1

Aunque este resultado es un resumen de lo que ya se justificó en la sección


3.4.4 (suficiencia minimal y la familia exponencial) y de las observaciones
anteriores, la parte correspondiente a la completez puede consultarse con
mayor detalle en Zacks (1971), página 69, o Schervish (1995), páginas 108-
110.
De esta manera, es posible encontrar estadı́sticas suficientes y completas
fácilmente cuando la muestra proviene de un miembro de la familia expo-
nencial. Por ejemplo, sea X1 , X2 , . . . , Xn una muestra aleatoria de una po-
blación con distribución Geométrica (θ), con θ ∈ [0, 1]; para encontrar una
estadı́stica suficiente y completa, observe que f (x; θ) pertenece a la familia
exponencial, ya que como se vio antes,

f (x; θ) = θ(1 − θ)x I{0,1,...} (x)


= θ exp{x ln(1 − θ)}I{0,1,...} (x),

con

a(θ) = θ,
b(x) = I{0,1,...} (x),
c(θ) = ln(1 − θ),
d(x) = x.
n
P
De donde, puede concluirse que S (X) = Xi es una estadı́stica suficiente
i=1i
(minimal) y completa.
88 3. Estadı́sticas y distribuciones muestrales

3.6. Algunas generalizaciones


La primera generalización de los resultados vistos previamente se refiere al
teorema de factorización para un conjunto de estadı́sticas suficientes.

Teorema 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad f (x; θ) , donde θ es un vector de parámetros. Las es-
tadı́sticas S1 (X) , S2 (X) , . . . , Sr (X) , r ≥ k, son conjuntamente suficientes
si y sólo si existen dos funciones: g(S1 , . . . , Sr ; θ) que depende de
X1 , X2 , . . . , Xn sólo a través de S1 , . . . , Sr y de θ; y h(X) cualquier fun-
ción no negativa que sólo depende de la muestra, para las cuales la densidad
conjunta
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ1 , θ2 , . . . , θk )
puede factorizarse como:

fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,θ) = g(S1 , . . . , Sr ; θ) h(x).

Ejemplo 3.15 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución N (µ, σ 2 ). Encontrar estadı́sticas suficientes para θ =(µ, σ 2 ).
La densidad conjunta de X1 , X2 , . . . , Xn puede escribirse como
n
Y 1 1 2
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,µ, σ 2 ) = √ e− 2σ2 (xi −µ)
i=1 2πσ 2
 n/2
1 1
Pn 2
= e− 2σ2 i=1 (xi −µ)
2πσ 2
  n2
1 Pn
x2i −2µ
Pn
xi +nµ2 )
e− 2σ2 (
1
= i=1 i=1 ,
2πσ 2
n n
x2i y
P P
la densidad conjunta depende de x1 , x2 , . . . , xn sólo a través de xi ,
 n  i=1 i=1
n
Xi2 son conjuntamente suficientes.
P P
por lo que las estadı́sticas Xi ,
i=1 i=1  n 
n
2 2
P P
Note que (X, S ) es una función uno a uno de Xi , Xi , por lo que
i=1 i=1
también son suficientes para la distribución Normal.

Familias exponenciales k-paramétricas


Cuando la familia paramétrica tiene más de un parámetro, es decir, su fun-
ción de densidad es de la forma f (x; θ) con θ∈ Θ ⊆ Rk , se dice que pertenece
3.6. Algunas generalizaciones 89

a la familia exponencial k-paramétrica si y sólo si puede expresarse de la


forma  
Xk 
f (x; θ) = a(θ)b(x) exp cj (θ)dj (x)
 
j=1

Ejemplo 3.16 Sea X ∼ Gama(r, λ), ¿pertenece a la familia exponencial


k-paramétrica?.
En este caso,
λr r−1 −λx
f (x; r, λ) = x e I(0,∞) (x)
Γ(r)
λr −λx+(r−1) ln(x)
= e I(0,∞) (x),
Γ(r)
por lo que:
r
λ
a(θ) = Γ(r) , b(x) = I(0,∞) (x),
c1 (θ) = −λ, d1 (x) = x,
c2 (θ) = r − 1, d2 (x) = ln x,
por lo tanto, se concluye que la densidad Gama pertenece a la familia expo-
nencial.

Ejemplo 3.17 La distribución Normal µ, σ 2 pertenece a la familia expo-
nencial.
Para comprobarlo, la densidad puede escribirse como:
1 1 2
f x; µ, σ 2 e− 2σ2 (x−µ)

= √
2πσ 2
1 2
−2xµ+µ2 )
e− 2σ2 (x
1
= √
2πσ 2
1 µ2 1 2
+ σµ2 x
= √ e− 2σ2 e− 2σ2 x ,
2πσ 2
µ2
√ 1 e− 2σ2 , b (x) = 1, c1 = − 2σ1 2 , d1 = x2 , c2 = µ

de donde: a µ, σ 2 = 2πσ 2 σ2 y
d2 = x.

Ejemplo 3.18 La distribución Beta (θ1 , θ2 ) pertenece a la familia exponen-


cial, pues la densidad se puede escribir como:
1 θ −1
f (x; θ1 , θ2 ) = xθ1 −1 (1 − x) 2 I(0,1) (x)
B (θ1 , θ2 )
1
= I(0,1) (x) e(θ1 −1) ln x+(θ2 −1) ln(1−x) .
B (θ1 , θ2 )
90 3. Estadı́sticas y distribuciones muestrales

Por último, se enuncia una extensión del resultado que relaciona a la


familia exponencial con la suficiencia.

Teorema 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad f (x; θ) , con θ ∈ Θ ⊆ Rk , que pertenece a la familia
exponencial k-paramétrica, es decir:
 
X k 
f (x; θ) = a(θ)b(x) exp cj (θ)dj (x) .
 
j=1

Entonces, el conjunto de estadı́sticas


n n n
!
X X X
d1 (Xi ), d2 (Xi ), . . . , dk (Xi )
i=1 i=1 i=1

son suficientes y completas.

Con este resultado y considerando


 n el ejemplo 3.16,
 se puede afirmar que
P Pn
si X ∼ Gama(r, λ), entonces Xi , ln(Xi ) son suficientes y com-
i=1 i=1 Pn Pn 
2
pletas. También puede concluirse
Pn lo mismo Pn para i=1 Xi , i=1 Xi en la
distribución Normal y para ( i=1 ln Xi , i=1 ln (1 − Xi )) en la distribución
Beta.

3.7. Estadı́sticas auxiliares


En esta sección se estudiará un tipo especial de estadı́sticas llamadas auxilia-
res. Como se verá, una estadı́stica auxiliar no contiene información acerca de
θ, es una variable aleatoria cuya distribución es fija y conocida, sin relación
con θ. Sin embargo, cuando se usa en conjunto con otras estadı́sticas, puede
contener información valiosa para hacer inferencias acerca del parámetro.

Definición 3.9 A una estadı́stica T (X) cuya distribución no depende del


parámetro θ, se le llama estadı́stica auxiliar.

Ejemplo 3.19 Sea X1 , . . . , Xn una muestra aleatoria de la población con


distribución Uniforme continua sobre el intervalo (θ, θ + 1), −∞ < θ < ∞.
Sean Y1 = X(1) , . . . , Yn = X(n) las estadı́sticas de orden de la muestra. La
estadı́stica Rango R = Yn − Y1 , es una estadı́stica auxiliar. Para verificarlo,
se mostrará que la densidad de R no depende de θ.
3.7. Estadı́sticas auxiliares 91

La función de distribución de cada Xi es



0,
 si x ≤ θ,
F (x; θ) = x − θ, si θ < x < θ + 1,

1, si x ≥ θ + 1,

mientras que la función de densidad está dada por


(x)
f (x; θ) = I(θ,θ+1) .

Por lo tanto, usando la expresión (3.8) deducida en la sección 3.3.2 la función


de densidad conjunta de Y1 y Yn es

fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn )
(
n(n − 1)(yn − y1 )n−2 si θ < y1 < yn < θ + 1,
=
0 en otro caso.

Haciendo la transformación R = Yn − Y1 y T = (Y1 + Yn ) /2, la cual tiene la


transformación inversa Y1 = (2T − R)/2 y Yn = (2T + R)/2 con Jacobiano
igual a −1 (ver sección 3.3.2), y usando la expresión (3.9), la función de
densidad conjunta de R y T está dada por
(
n(n − 1)rn−2 si 0 < r < 1; θ + (r/2) < t < θ + 1 − (r/2),
fR,T (r, t) =
0 en otro caso.

Por lo tanto, la función de densidad de probabilidad para R es


Z θ+1−(r/2)
fR (r) = n(n − 1)rn−2 dt
θ+(r/2)

= n(n − 1)rn−2 (1 − r), 0 < r < 1.

Esta es la función de densidad de una variable aleatoria con distribución


Beta con α = n − 1 y β = 2. Y ası́, la función de densidad es la misma para
toda θ; por lo tanto, la distribución de R no depende de θ, concluyéndose
que R = Yn − Y1 es una estadı́stica auxiliar.

El siguiente resultado, conocido como el teorema de Basu, permite ve-


rificar la independencia de dos estadı́sticas sin necesidad de encontrar su
distribución conjunta.

Teorema 3.10 (teorema de Basu). Si S(X) es una estadı́stica suficiente


y completa y T (X) es una estadı́stica auxiliar, entonces S(X) y T (X) son
independientes.
92 3. Estadı́sticas y distribuciones muestrales

Demostración. Se hará para el caso discreto. Como T (X) es una estadı́sti-


ca auxiliar, entonces P(T (X) = t) no depende de θ. También la probabilidad
condicional
P(T (X) = t|S(X) = s) = P(X ∈ {x : T (x) = t}|S(X) = s),
no depende de θ porque S(X) es una estadı́stica suficiente.
Por lo tanto, para demostrar que S(X) y T (X) son independientes, basta
comprobar que
P(T (X) = t|S(X) = s) = P(T (X) = t),
para todos los posibles valores de s ∈ S. Observe que
X
P(T (X) = t) = P(T (X) = t|S(X) = s)P(S(X) = s). (3.16)
s∈S
X
Por otro lado, dado que P(S(X) = s) = 1, se puede escribir
s∈S
X
P(T (X) = t) = P(T (X) = t) P(S(X) = s)
s∈S
X
= P(T (X) = t)P(S(X) = s). (3.17)
s∈S

Sea g (S) definida como


g(s) = P(T (X) = t|S(X) = s) − P(T (X) = t),
la cual no depende de θ, pues como se habı́a señalado, ni P(T (X) = t|S(X) =
s) (por la suficiencia de S), ni P(T (X) = t) (por ser T una estadı́stica
auxiliar) dependen de θ; ası́ que g (S) es una estadı́stica.
Por (3.16) y (3.17), se deduce que
X
E [g(S)] = g(s)P(S(X) = s)
s∈S
X
= [P(T (X) = t|S(X) = s) − P(T (X) = t)] P(S(X) = s)
s∈S
X
= P(T (X) = t|S(X) = s)P(S(X) = s)
s∈S
X
− P(T (X) = t)P(S(X) = s)
s∈S
= P(T (X) = t) − P(T (X) = t)
= 0, para toda θ,
3.8. Ejercicios 93

y como S(X) es una estadı́stica completa, se tiene que g(s) = 0, para s ∈ S;


por lo que
P(T (X) = t|S(X) = s) = P(T (X) = t),
concluyéndose que S(X) y T (X) son independientes. 

En el teorema de Basu se hace el supuesto de que S (X) es suficiente y


completa, esto implica que S (X) también es suficiente minimal (ver Scher-
vish (1995),
sección 2.1).

Ejemplo 3.20 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución Uniforme en el intervalo (0, θ) y sean Y1 y Yn las estadı́sticas de
orden mı́nima y máxima, respectivamente. Entonces las estadı́sticas T (X) =
Y1
Yn y S (X) = Yn , son variables aleatorias independientes. Para verificarlo,
recuerde que Yn es una estadı́stica suficiente y completa para θ (ver ejemplos
3.7 y 3.14). De acuerdo con el teorema de Basu basta mostrar que T (X) es
una estadı́stica auxiliar, por lo que se calculará la función de distribución de
T (X) usando la expresión general para la función de densidad conjunta de
Y1 y Yn dada por (3.8) e integrando sobre la región adecuada:
 
Y1
FT (t) = P ≤t , 0<t<1
Yn
= P [Y1 ≤ tYn ]
Z θ Z tyn
n(n − 1)  yn y1 n−2
= 2
− dy1 dyn
0 0 θ θ θ
= 1 − (1 − t)n−1 I(0,1) (t) + I[1,∞) (t).
 

Por lo tanto, la función de densidad de T (X) no depende de θ. Ası́, T (X)


y S (X) son estadı́sticas (variables aleatorias) independientes.

3.8. Ejercicios

1. Suponga que X es una variable aleatoria discreta con función de den-


sidad dada por 
 0.2 si x = 0,
fX (x) = 0.3 si x = 3,
0.5 si x = 12.

Sea X1 , X2 y X3 una muestra aleatoria de esta distribución. Obtenga:


94 3. Estadı́sticas y distribuciones muestrales

(a) La distribución de la muestra (es decir, haga la lista de todos los


posibles valores de la muestra aleatoria y sus respectivas proba-
bilidades).
(b) La distribución muestral de la media muestral X.
(c) La distribución muestral de la mediana muestral.
2. Sea X una variable aleatoria discreta que toma los valores 1, 2 y 3
con probabilidades 16 , 21 y 13 , respectivamente. Considere las posibles
muestras aleatorias simples de tamaño dos.
(a) Determine la distribución de la media muestral (es decir, fX̄ (·)).
(b) Compruebe que la esperanza de la media muestral es igual a la
media poblacional.
(c) Compruebe que la varianza de la media muestral es igual a la
varianza poblacional dividida entre el tamaño de muestra.
3. En un dado están marcados los resultados 1, 2 y X. Para hacer infe-
rencias acerca de las probabilidades p1 , p2 y pX de cada resultado, se
lanza tres veces el dado.
(a) Construya el espacio muestral y la distribución de la muestra (de
tamaño 3).
(b) Obtenga la distribución de T1 , T2 y TX , siendo Ti la frecuencia
de resultados iguales a i.
(c) Determine la distribución de TX , su media y su varianza.
(d) Calcule la covarianza entre T1 y T2 .
4. De una población con distribución Poisson(θ), se obtiene una muestra
aleatoria de tamaño n. Determine la distribución de la media muestral.
5. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad n o
f (x; θ) = e−(x−θ) exp −e−(x−θ) ,
donde θ es un número real.
Pn
(a) Obtenga la distribución de T = i=1 e−Xi .
(b) Calcule E[ln(T )] y Var[ln(T )].
6. Sea X1 , . . . , Xn una muestra aleatoria de una población cuya función
de densidad es
θ
f (x; θ) = 1+θ
, x > 0,
(1 + x)
3.8. Ejercicios 95

siendo θ un parámetro
Pn mayor que cero. Determine la distribución de
la estadı́stica T = i=1 ln (1 + Xi ).

7. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribu-


ción Rayleigh, cuya función de densidad es

2 −x2 /θ
f (x; θ) = xe , I(0,∞) (x),
θ
con θ > 0.
Pn
(a) Obtenga la distribución de T = i=1 Xi2 .
(b) Obtenga E(T ) y Var(T ).
(c) Demuestre que T es una estadı́stica suficiente para θ.

8. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


N (µ, σ 2 ). Encuentre la media y la varianza de
sP
n
− X̄)2
i=1 (Xi
S= .
n−1


9. Sea X una variable aleatoria con distribución χ2(1) . Defina Z1 = +
X

y Z2 = − X. Obtenga las distribuciones de Z1 y Z2 .

10. Sea X una variable aleatoria con distibución F (m, n). Demuestre que
1
(a) Z = X ∼ F (n, m).
mX/n
(b) Z = 1+mX/n ∼ Beta(m/2, n/2).

11. Sea X una variable aleatoria con distibución t(k) . Demuestre que

(a) La distribución de X se aproxima a una distribución N (0, 1) cuan-


do k crece.
(b) Y = X 2 ∼ F (1, k).

12. Demuestre el teorema 3.4. Es decir, si Z y U son variables aleato-


rias independientes con distribución N (0, 1) y χ2(k) , respectivamente,
demuestre que
Z
p ∼ t(k) .
U/k
96 3. Estadı́sticas y distribuciones muestrales

13. Sea Xi , i = 1, 2, 3, una muestra aleatoria de la población con distribu-


ción N (i, i2 ), respectivamente. En cada una de las siguientes situacio-
nes utilice las Xi ’s para construir una estadı́stica con la distribución
indicada.

(a) χ2 con 3 grados de libertad.


(b) t de Student con 2 grados de libertad.
(c) F con 1 y 2 grados de libertad.

14. Sea X1 , X2 una muestra aleatoria de la población con distribución


N (0, 1). Para cada uno de los siguientes incisos obtenga las distribu-
ciones de las estadı́sticas T (X).

(a) T (X) = (X2 − X1 )/ 2.
(b) T (X) = (X1 + X2 )2 /(X2 − X1 )2 .
(c) T (X) = X12 /X22 .
p
(d) T (X) = (X2 + X1 )/ (X1 − X2 )2 .

15. Sea Z1 , Z2 una muestra aleatoria de la población con distribución


N (0, 1), y sea X1 , X2 una muestra aleatoria de la población con dis-
tribución N (1, 1). Suponga que las Z’s son independientes de las X’s.
Para cada uno de los siguientes incisos obtenga las distribuciones de
las estadı́sticas T = T (X, Z).

(a) T = X̄ + Z̄.
p
(b) T = (Z1 + Z2 )/ [(X2 − X1 )2 + (Z2 − Z1 )2 ]/2.
 
(c) T = (X1 − X2 )2 + (Z1 − Z2 )2 + (Z1 + Z2 )2 /2.
(d) T = (X2 + X1 − 2)2 /(X2 − X1 )2 .

16. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


N (0, 1). Sean
k n
1X 1 X
Xk = Xi , X n−k = Xi .
k i=1 n−k
i=k+1

Para cada uno de los siguientes incisos obtenga las distribuciones de


las estadı́sticas T (X).

(a) T (X) = 21 (X k + X n−k ).


2 2
(b) T (X) = kX k + (n − k)X n−k .
3.8. Ejercicios 97

(d) T (X) = X1 /Xn .

17. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


N (µ, σ 2 ). Sean
k k
1X 1 X
Xk = Xi , Sk2 = (Xi − X k )2 ,
k i=1 k − 1 i=1
n n
1 X
2 1 X
X n−k = Xi , Sn−k = (Xi − X n−k )2 ,
n−k n−k−1
i=k+1 i=k+1
n n
1 X 1 X
X= Xi , S2 = (Xi − X)2 .
n i=1
n−1 i=1

Para cada uno de los siguientes incisos obtenga las distribuciones de


las estadı́sticas T (X).
  2
(a) T (X) = (k − 1)Sk2 + (n − k − 1)Sn−k
2
/σ .
(b) T (X) = 21 (X k + X n−k ).

(c) T (X) = (X̄ − µ)/(S/ n).
(d) T (X) = Sk2 /Sn−k
2
.

18. Sean X1 , . . . , Xn y Z1 , . . . , Zn muestras aleatorias independientes entre


sı́ de la distribución Normal tales que E(Xi ) = E(Zi ) = µ, Var(Xi ) =
σ 2 y Var(Zi ) = 2σ 2 para cualquier i ∈ {1, 2, . . . , n}. Defina
n
X n
X
U= (Xi − X̄)2 , V = (Zi − Z̄)2 .
i=1 i=1

2U +V
Determine la distribución de 2σ 2 .

19. Un inversionista bursátil compra o vende acciones de CEMEX, S. A.


mediante el siguiente procedimiento: selecciona al azar una muestra de
dı́as para los que determina el ı́ndice medio, X de la empresa Edifica-
ciones, S. A.; selecciona también al azar otra muestra de dı́as, para los
que determina el ı́ndice medio, Z, de CEMEX, S. A. Compra acciones
de CEMEX, S. A. cuando Z ≤ X, vendiendo en caso contrario.
El inversionista supone que ambos ı́ndices bursátiles se distribuyen
normal e independientemente con una diferencia de medias de 1.432
unidades en favor de la primera y que los ı́ndices bursátiles de ambas
empresas se comportan de forma independiente todos los dı́as.
98 3. Estadı́sticas y distribuciones muestrales

Calcular la probabilidad de que el inversionista compre bajo el supuesto


de que seleccionó 60 dı́as para calcular el primer ı́ndice y obtuvo una
varianza muestral de 23 y 50 dı́as para el segundo con una varianza de
7.
20. Sea X1 , X2 una muestra aleatoria de la población con distribución
N (0, 1). Defina Y = mı́n(X1 , X2 ). Demuestre que Y 2 ∼ χ2(1) .
21. Sea X1 , X2 una muestra aleatoria de la población con distribución
Pareto, cuya función de densidad es
α
f (x; α) = I[1,∞] (x), α > 0.
xα+1
Sean Y1 y Y2 las correspondiente estadı́sticas de orden. ¿Qué puede
decir de la distribución de las variables aleatorias presentadas en los
siguientes incisos?
(a) Y2 .
(b) Y2 − Y1 .
(c) Y2 /Y1 .
22. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución
U (0, 1).
(a) Obtenga la distribución conjunta de Y1 , Y2 , Y3 (las correspondien-
tes estadı́sticas de orden).
(b) Obtenga la función de densidad de la mediana, es decir, de Y2 .
(c) Obtenga la función de densidad del rango R = Y3 − Y1 .
23. Sean Y1 , Y2 , Y3 , Y4 las estadı́sticas de orden de una muestra aleatoria
de tamaño 4 de la población con función de densidad

fX (x) = exp (−x) I(0,∞) (x) .

Obtenga lo siguiente:
(a) P (3 ≤ Y4 ).
(b) E (Y1 ).
(c) La función de densidad conjunta de Y1 y Y4 .
24. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribu-
ción Exponencial de parámetro θ = 1, es decir Xi ∼ exp(1). Y sean
Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre que
nYn y n(Y2 − Y1 ) son independientes.
3.8. Ejercicios 99

25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Uniforme U (θ − 1/2, θ + 1/2).

(a) Obtenga la distribución de la mı́nima estadı́stica de orden Y1 , ası́


como de la máxima Yn .
(b) Obtenga las esperanzas de Y1 y Yn .

26. Sea X1 , X2 , . . . , Xn una muestra aleatoria de la población con distri-


bución Uniforme U (0, θ). Demuestre que Y1 /Yn y Yn son variables
aleatorias independientes, donde Y1 y Yn son las estadı́sticas de orden
mı́nima y máxima respectivamente.

27. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad
a
fX (x; a, θ) = a xa−1 , si 0 < x < θ.
θ
Sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre
que Y1 /Y2 , Y2 /Y3 , . . . , Yn−1 /Yn son variables aleatorias mutuamente
independientes y obtenga la distribución de cada una de ellas.

28. Sea Ui , i = 1, 2, . . . , una muestra aleatoria de la población con distri-


bución U (0, 1), y sea X una variable aleatoria con función de densidad
c
P(X = x) = , x = 1, 2, 3, . . . ,
x!
donde c = 1/(e − 1). Obtenga la distribución de Y = mı́n(U1 , . . . , UX ).
[Nota: La distribución condicional de Y dada X = x, Y |X = x, es
la distribución de la mı́nima estadı́stica de orden de una muestra de
tamaño x].

29. Sea X1 , X2 una muestra aleatoria de la población con distribución


N (0, 1). Obtenga la distribución del rango, R = Y2 − Y1 .

30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


U (0, 1). Sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden.

(a) Obtenga la media y varianza de Yn − Y1 .


(b) Obtenga la media y varianza de (Y1 + Yn )/2.
(c) Obtenga la media y varianza de Yk+1 (mediana) considerando que
n = 2k + 1, con k = 0, 1, . . . .
(d) Compare las medias y las varianzas de X, Yk+1 , (Y1 + Yn )/2.
100 3. Estadı́sticas y distribuciones muestrales

31. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


N (µ, σ 2 ). Demuestre que:
Pn 2 2
(a) S(X) = i=1 Xi es una estadı́stica suficiente para σ cuando
µ = 0.
2
(b) S(X) = i=1 (xi −µ)
Pn
n es una estadı́stica suficiente para σ 2 cuando
µ es conocida.
Pn (xi −x̄)2
(c) S(X) = i=1 n no es una estadı́stica suficiente para σ 2
cuando µ es desconocida.
32. Sea X una variable aleatoria con distribución N (0, θ) .
(a) ¿Es S(X) = X una estadı́stica suficiente para θ?.
(b) ¿Es S(X) =| X | una estadı́stica suficiente para θ?.
33. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Gama(α, β) cuya función de densidad es
1
f (x; α, θ) = xα−1 e−x/β ,
Γ(α)β α
con α > 0, β > 0 y 0 < x < ∞.
Pn
(a) Demuestre que si α = 1, S(X) = i=1 Xi es una estadı́stica
suficiente para β.
Qn
(b) Demuestre que si β es conocido, S(X) = i=1 Xi es una estadı́sti-
ca suficiente para α.
(c) Si α y β son desconocidos, obtenga una estadı́stica suficiente (bi-
dimensional) para los parámetros (α, β).
34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Beta (α, 2) , α > 0, β = 2, cuya función de densidad es
Γ (α + 2) α−1 1
f (x; α) = x (1 − x) , 0 < x < ∞,
Γ (α) Γ (2)
cero en cualquier otro caso. Demuestre que S(X) = X1 X2 · · · Xn =
Πni=1 Xi (el producto) es una estadı́stica suficiente para α.
35. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
W eibull(α, β), cuya función de densidad es
 β
1 β−1 x
fX (x; α) = βx exp − I(0,∞) (x),
α α
3.8. Ejercicios 101

donde α > 0 es un parámetro desconocido, pero β > 0 es un parámetro


conocido. Encuentre una estadı́stica suficiente para θ.

36. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Cauchy(θ) cuya función de densidad es

1
f (x; θ) =   , -∞ < x < ∞, − ∞ < θ < ∞.
2
π 1 + (x − θ)

(a) ¿Puede escribirse la función de densidad conjunta de X1 , X2 , . . . ,


Xn como en el teorema de factorización?
(b) ¿Existe una estadı́stica suficiente para el parámetro θ?

Sugerencia: al hacer la integral (para calcular la esperanza) considere


el cambio de variable x − θ = tan η.

37. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribu-


ción W eibull(α, β), donde α > 0 es desconocida, pero β > 0 se supone
conocido, con función de densidad
 β
1 β−1 x
f (x; α) = βx exp − I(0,∞) (x).
α α

Esta función de densidad se usa frecuentemente como un modelo pa-


ra las longitudes de vida de sistemas fı́sicos. Demuestra que S(X) =
Pn β
i=1 Xi es una estadı́stica suficiente para α.

38. *Sea X1 , . . . , Xn una muestra aleatoria de una población cuya función


de densidad es
 
1 (x − µ)
fX (x; µ, σ) = exp − I(µ,∞) (x),
σ σ

con µ ∈ R y σ ∈ R+ .
Pn
(a) Demuestre que S(X) = Y1 , n1 i=1 (Xi − Y1 ) es una estadı́stica


suficiente para (µ, σ) si ambos parámetros son desconocidos.


Pn
(b) Demuestre que si µ es conocido entonces S(X) = n1 i=1 (Xi − µ)
es una estadı́stica suficiente para σ.
(c) Demuestre que si σ es conocido entonces S(X) = Y1 es una es-
tadı́stica suficiente para µ.
102 3. Estadı́sticas y distribuciones muestrales

39. *Considere la siguiente función de densidad dependiente de tres paráme-


tros α, p y σ,
    p−1
1 x−α x−α
f (x; α, p, σ) = exp − ,
σΓ(p) σ σ
con p > 0, σ > 0 y α ≤ x < ∞. Demuestre que:
(a) Existe una estadı́stica suficiente para p cuando α y σ son conoci-
dos.
(b) Existe una estadı́stica suficiente para σ cuando α y p son conoci-
dos.
(c) De forma conjunta existe un par de estadı́sticas suficientes para
(p, σ) cuando α es conocida.
(d) Si σ es conocida y p = 1, existe una estadı́stica suficiente para α.
40. Sea X1 , . . . , Xn una muestra aleatoria de las distribuciones f (x; θ) es-
pecificadas a continuación. Encuentre una estadı́stica suficiente mini-
mal y completa para θ.
(a) f (x; θ) = θxθ−1 I(0,1) (x), θ > 0.
1 3
(b) f (x; θ) = 6θ 4 x exp(−x/θ)I(0,∞) (x), θ > 0.
(c) Binomial(k, θ) (k fijo).
(d) Binomialnegativa(k, θ) (k fijo).
41. Sea X1 , . . . , Xn una muestra aleatoria de la población cuya función de
densidad es
θ2
f (x; θ) = (x + 1)e−θx I(0,∞) (x), θ > 0.
θ+1
(a) Demuestre que la función de densidad de X pertenece a la familia
exponencial.
(b) Obtenga una estadı́stica suficiente minimal y completa.
42. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Pareto, con función de densidad

f (x; x0 , θ) = θxθ0 x−θ−1 , x0 ≤ x, θ > 1.

donde x0 > 0. Obtenga una estadı́stica suficiente para θ:


(a) Usando el teorema de factorización.
3.8. Ejercicios 103

(b) Usando la propiedad de la familia exponencial.

¿Las estadı́sticas suficientes son las mismas?

43. *Sea X1 , . . . , Xn una muestra de aleatoria de la población con distri-


bución Gaussiana Inversa, IG(µ, λ), cuya función de densidad es
1/2
λ(x − µ)2
  
λ
f (x; µ, λ) = exp − I(0,∞) (x).
2πx3 2µ2 x
 
Demuestre que S(X) = X̄, Pn n1 −X̄ −1 es una estadı́stica suficien-
i=1 Xi

te y completa.

44. Sea X1 , X2 , X3 una muestra


Paleatoria de la población con distribución
3
Bernoulli(θ). Defina T = i=1 Xi , T1 = X1 y T2 = (T, T1 ).

(a) Obtenga las particiones inducidas sobre el espacio muestral a par-


tir de T , T1 y T2 , respectivamente.
(b) Muestre que T es una estadı́stica suficiente minimal para θ, pero
T2 no lo es.
[Nota: primero muestre que T conduce a la partición suficiente
minimal sobre el espacio muestral, pero que T2 no conduce a tal
partición].

45. Sea X una variable aleatoria con distribución Uniforme U (−θ, θ).

(a) ¿S(X) = X es una estadı́stica suficiente minimal para θ?


(b) ¿S(X) = X es una estadı́stica completa?

46. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Uniforme U (θ, θ+1). Demuestre que S(X) = (Y1 , Yn ) es una estadı́stica
suficiente minimal y que no es completa.

47. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Uniforme U (θ1 , θ2 ), con θ1 < θ2 .

(a) Demuestra que si θ1 es conocido, entonces S(X) = Yn es una


estadı́stica suficiente minimal y completa para θ2 .
(b) Demuestra que si θ2 es conocido, entonces S(X) = Y1 es una
estadı́stica suficiente minimal y completa para θ1 .
(c) Si θ1 y θ2 son desconocidos, obtenga una estadı́stica suficiente
(bidimensional) minimal y completa para los parámetros (θ1 , θ2 ).
104 3. Estadı́sticas y distribuciones muestrales

48. Para cada una de las siguientes distribuciones, sea X1 , . . . , Xn una


muestra aleatoria. Obtenga una estadı́stica suficiente y completa para
θ, o en su caso muestre que no existe alguna.
2x
(a) f (x; θ) = θ 2 , 0 < x < θ, θ > 0.
ln(θ)θ x
(b) f (x; θ) = θ−1 , 0 < x < 1, θ > 1.
θ
(c) f (x; θ) = (1+x)1+θ
0 < x < ∞, θ > 0.
,
(d) f (x; θ) = e−(x−θ) exp −e−(x−θ) , −∞ < x, θ < ∞.


49. Sea T una estadı́stica auxiliar para θ con función de densidad fT (t).
Sea g(·) una función diferenciable uno-a-uno que no depende de θ.
Demuestre que T ∗ = g(T ) también es una estadı́stica auxiliar para θ.
50. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µ, σ 2 ), donde σ 2 es conocido.
(a) Demuestre que S(X) = X es una estadı́stica suficiente y completa
para µ, y que T (X) = S 2 es una estadı́stica auxiliar.
(b) Demuestre que X y S 2 son estadı́sticas independientes.
Capı́tulo 4

Estimación puntual

En este capı́tulo se abordarán los tópicos relacionados con estimación pun-


tual. Se inicia con la exposición de los métodos de estimación más impor-
tantes, tales como el de máxima verosimilitud, el de momentos y otros como
el de medianas y percentiles. Ası́mismo, se da una introducción al método
Bayesiano y más adelante al de mı́nimos cuadrados.
Posteriormente se revisan las propiedades deseables de un estimador pun-
tual como una forma de analizar su bondad. Se habla del error cuadrático
medio, estimadores insesgados y la propiedad de consistencia, para dar lugar
al ulterior desarrollo de la teorı́a para encontrar a los mejores estimadores
insesgados.

4.1. Introducción
Suponga que se dispone de una población en la que se estudia una variable
aleatoria X con distribución conocida y parámetro (o parámetros) descono-
cido(s) y se tiene interés en disminuir el grado de desconocimiento de θ en
f (x; θ) . De la población se extrae una muestra aleatoria simple de tamaño n:
X1 , X2 , ..., Xn y se trata de calcular, a partir de los valores muestrales, una
función de los mismos que proporcione una estadı́stica θb = T (X1 , X2 , ..., Xn )
que le asigne un valor al parámetro desconocido de la población, de forma
que sean lo más cercanos en algún sentido. A θb se le llama estimador.
El objetivo de la estimación puntual es entonces encontrar un valor para
θ, denotado como θ, b que sea función de la muestra aleatoria y que permita
modelar o describir de manera adecuada el fenómeno aleatorio.

105
106 4. Estimación puntual

Definición 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una distribución


con función de densidad f (x; θ). Un estimador es una estadı́stica T (X) cuyos
valores t(x) sirven para aproximar o estimar los valores de θ.

La notación θ̂ = T (X) expresa que el estimador de θ es la estadı́stica


T (X). Los valores del estimador, o sea t(x), son realizaciones de la variable
aleatoria T (X).
Si por ejemplo, se tiene una población N (µ, σ 2 ), un posible estimador
para µ es µ̂ = X̄, es decir, en este caso el estimador de µ serı́a la estadı́stica
X (la media muestral). En los siguientes párrafos se presentarán los métodos
más conocidos para encontrar estimadores.
En ocasiones, en lugar del parámetro θ, se desea estimar una función
de dicho parámetro. En general, se denotará como τ (θ) a cualquier
función de θ.

4.2. Métodos de estimación


El primero de los métodos que se abordará fue aportación de Karl Pearson
(1857-1936) y se conoce como el método de momentos para la estimación de
parámetros.
Karl Pearson “fue historiador, escribió sobre folklore, fue socialista con-
vencido, abogado, matemático aplicado, biómetra, estadı́stico, maestro y
biógrafo. Sin duda, su contribución más importante es el nacimiento de la
estadı́stica aplicada. Es por lo que se le debe mayor crédito, en frase de él
mismo: Hasta que los fenómenos de cualquier rama del conocimiento no ha-
yan sido sometidos a medida y número, no se puede decir que se trate de una
ciencia. Además del método de momentos para la obtención de estimadores,
introdujo el sistema de curvas de frecuencias para disponer de distribucio-
nes que pudieran aplicarse a los distintos fenómenos aleatorios, desarrolló la
correlación lineal para aplicarla a la teorı́a de la herencia y de la evolución.
Introdujo el método de la Ji-cuadrada para dar una medida del ajuste entre
datos y distribuciones, para contrastar la homogeneidad entre varias mues-
tras y la independencia entre variables. Fundó los Anales de la Eugenesia y
en 1900, junto con Galton y Weldon, fundó la revista Biometrika de la que
fue editor hasta su muerte. En una descripción autobiográfica decı́a: una
explicación para mi vida, se debe a una combinación de dos caracterı́sticas
que he heredado: capacidad para trabajar mucho y capacidad para relacionar
las observaciones de los demás”1 .
1 Gómez Villegas, M.A. (2009). Karl Pearson, el creador de la estadı́stica matemática.
Historia de la probabilidad y la estadı́stica IV, J. Basulto y J.J. Garcı́a (eds.). Congreso
internacional de historia de la estadı́stica y la probabilidad, 351-356.
4.2. Métodos de estimación 107

También se introducirá el {indexmétodo! de máxima verosimilitud pro-


puesto por Ronald A. Fisher en 1922, y que intuitivamente pretende obtener
el estimador de un parámetro seleccionando el que maximiza la probabilidad
de obtener los datos que realmente fueron observados.
Hablar de Fisher2 equivale a referirse al desarrollo de la estadı́stica du-
rante el siglo XX. Basta decir que la mayor parte de los términos que se usan
en Inferencia estadı́stica los introdujo él, por ejemplo, parámetro, estadı́stica
(función de la muestra aleatoria), verosimilitud, score o puntaje, estadı́stica
auxiliar, información, hipótesis nula y errores tipo I y II, sólo por mencionar
algunos.

Figura 4.1: Karl Pearson con Francis Galton. Ambos fundaron la revista
Biometrika en 1901. Imagen tomada de commons.wikipedia.org (public do-
main).

2 La imagen anterior fue tomada de commons.wikipedia.org (public domain). By


AnemoneProjectors (talk) (Flickr) (Sir Ronald Aylmer Fisher plaque) [CC BY-SA 2.0
(https://creativecommons.org/licenses/by-sa/2.0)], via Wikimedia Commons.
108 4. Estimación puntual

Sin duda que el trabajo de Fisher es la piedra angular sobre la que se sus-
tenta la estadı́stica como ciencia. Egon Pearson (1974), hijo de Karl Pearson,
habla de las diferencias conceptuales entre su padre y Fisher3 : Galton y K.
Pearson trabajaron con muestras grandes por su interés en la reproducción
libre de las especies en su medio natural, esto ocurre con humanos, animales
y plantas. Por su parte, Fisher trabajó con muestras pequeñas relaciona-
das con datos experimentales, por lo que era necesario analizar con cuidado
las bases de la inferencia estadı́stica para una adecuada interpretación. Fis-
her estudió resultados exactos en muestras pequeñas, pero también obtuvo
propiedades asintónticas óptimas de los estimadores máximo verosı́miles.

Figura 4.2: Placa English Heritage dedicada a Fisher en la casa Inverforth.

En esta parte se hablará además del enfoque Bayesiano en la teorı́a de la


estimación puntual, el cual se basa en el teorema de Bayes.

4.2.1. Método de momentos


Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de
densidad f (x; θ). A E(Xir ) se le conoce
Pn
como el r-ésimo momento poblacional
r
i=1 Xi
y se denota por µr , mientras que n es el r-ésimo momento muestral
y se denota por Mr .
3 Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int.

Stat. Rev. 42 (1).


4.2. Métodos de estimación 109

El método de estimación por momentos consiste en igualar los momentos


muestrales con los momentos poblacionales y resolver para θ (o θ1 , ..., θk , si
la distribución tiene k parámetros). Esto es, µr = Mr , donde r = 1, ..., k y k
representa el número de parámetros a estimar.
De manera general, si X1 , X2 , . . . , Xn es una muestra aleatoria de una
población con función de densidad f (x; θ1 , θ2 , ..., θk ), en la estimación por
momentos se resuelve el siguiente sistema de ecuaciones

µ = M 1 , µ 2 = M2 , . . . , µ k = Mk
|1 {z }
k ecuaciones con k incógnitas
La solución a este sistema θ̂ = (θˆ1 , . . . , θˆk ) se conoce como el estimador
por el método de momentos.

Ejemplo 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución P oisson(θ). Como

E(X) = θ,

entonces Pn
i=1 Xi
θ̂ = .
n
Ejemplo 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución exp(θ). Como
1
E(X) = ,
θ
entonces
1
X̄ = .
θ
Por lo tanto,
θ̂ = 1/X̄.

Ejemplo 4.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución N (µ, σ 2 ). Como

E(X) = µ y V ar(X) = σ 2 ,

entonces
E(X 2 ) = µ2 + σ 2 .
Por lo tanto,
n
1X 2
X̄ = µ̂ y X̄ 2 + σ̂ 2 = X .
n i=1 i
110 4. Estimación puntual

Es decir,
n
2 1X 2
σ̂ = X − X̄ 2 .
n i=1 i
Pero note que
n
X n
X
(Xi − X̄)2 = (Xi2 − 2X̄Xi + X̄ 2 )
i=1 i=1
n
X n
X
= Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1
n
X n
X
= Xi2 2
− 2nX̄ + nX̄ = 2
Xi2 − nX̄ 2 .
i=1 i=1

n n
1X 1X 2
∴ (Xi − X̄)2 = X − X̄ 2 .
n i=1 n i=1 i

Entonces los estimadores por momentos para µ y σ 2 son


n
1X
µ̂ = X̄ y σ̂ 2 = (Xi − X̄)2 .
n i=1

Ejemplo 4.4 Suponga que se tiene la siguiente muestra de tamaño 10 :

1, 1, 1, 2, 2, 3, 5, 7, 8, 10.

Estimar los parámetros µ y σ 2 usando el método de momentos si la distri-


bución normal se ajusta a través de los datos de la muestra.
En este caso, las estadı́sticas muestrales están dadas por
10
X 10
X
xi = 40 y x2i = 258.
i=1 i=1

Usando el método de momentos y el ejemplo anterior:


40
µ
b= =4
10
y
2 + 42 =
258
σc .
10
De donde
2 = 9.8.
σc
4.2. Métodos de estimación 111

Ejemplo 4.5 Hallar los estimadores por el método de momentos de la distri-


bución Gama y usar los datos del ejemplo anterior para dar valores numéricos
de rb y λ.
b Igualando los primeros momentos muestrales y poblacionales, se
obtiene:
r 40
E (X) = = = 4. (4.1)
λ 10
y
 r (r + 1) 258
E X2 = = = 25.8.
λ2 10
Se tiene un sistema de dos ecuaciones. Para encontrar la solución, se consi-
dera el cociente:

E X2 rb + 1 25.8
2 = rb
= 2 = 1.6125.
4
[E (X)]

y resolviendo para r :
rb = 1.6327.
Sustituyendo este valor en (4.1) y despejando λ, se obtiene:

b = 1.6327 = 0.408 2.
λ
4
El rango del estimador no necesariamente coincide con el espacio del
parámetro a estimar. Considere en el siguiente ejemplo una distribución Bi-
nomial con k y p desconocidos.

Ejemplo 4.6 Suponga que X ∼Binomial(k, p). Una posible aplicación con
esta distribución es que se busque estimar las tasas de ocurrencia de un
crimen, conociendo que existe un número importante de casos que no se de-
nuncian o reportan, es decir, no se sabe cuál es exactamente el valor de k.
Utilizando el método de momentos, se consideran los dos primeros momen-
tos poblacionales de la distribución binomial, ası́ como los correspondientes
momentos muestrales:
X¯n = kp (4.2)
y
n
1X 2
X = kp(1 − p) + k 2 p2 . (4.3)
n i=1 i

De (4.2) se obtiene
X¯n
p̂ = , (4.4)
k
112 4. Estimación puntual

sustituyendo este resultado en lugar de p en (4.3):


n
1X 2 X¯n 2
Xi = X¯n (1 − ) + X¯n (4.5)
n i=1 k

y como
n n
1X 2 1X 2 2
Xi − X¯n = X + X¯n ,
n i=1 n i=1 i

(4.5) es equivalente a
n
1X X¯n
(Xi − X¯n )2 = X¯n (1 − )
n i=1 k
2
¯ X¯n
= Xn − ,
k
ası́ que despejando el valor de k, se obtiene
2 n
X¯n 1X
= X¯n − (Xi − X¯n )2 ,
k n i=1
k 1
= Pn ,
¯
Xn
2
X¯n − 1
n i=1 (Xi − X¯n )2
2
X¯n
k̂ = n .
X¯n − 1
− X¯n )2
P
n i=1 (Xi

Por lo tanto, el valor estimado de p es

X¯n
p̂ = .
k
b

Observe que no se puede garantizar que k será un número entero positivo


y que p ∈ [0, 1]. Sin embargo, en general el método permite obtener una
propuesta para estimar rápidamente los parámetros desconocidos.

4.2.2. Estimadores basados en verosimilitud


Para introducir este método se presenta primero el siguiente ejemplo (Mood,
Graybill y Boes, 1973), el cual considera que se tiene una urna en donde se
sabe que hay bolas negras y blancas, de las cuales se desconoce el número de
cada una de ellas, pero se tiene el dato de que la razón es de 3 a 1, aunque
también se ignora si hay más bolas blancas que negras o viceversa. Se desea
4.2. Métodos de estimación 113

estimar la proporción de bolas negras en la urna y para ello, se toma una


muestra de tamaño 3 con reemplazo de esta población, X1 , X2 , X3 . Note que
Xi tiene distribución Bernoulli(θ), i = 1, 2, 3.
Observe que:

θ es la probabilidad de obtener bola negra, es decir, θ = P(Xi = 1).

θ sólo puede tomar los valores 14 y 34 , debido a que la razón establecida


es de 3 a 1.
P3
X := i=1 Xi es el número de bolas negras en la muestra. Y por lo
tanto, X puede tomar los valores x = 0, 1, 2, 3.

X ∼ Bin(n = 3, θ).

En el cuadro 4.1 se presentan las probabilidades de obtener 0, 1, 2 y 3


bolas negras, con ambos valores del parámetro. Si en la muestra se obtienen

Valor de θ P (X = 0) P (X = 1) P (X = 2) P (X = 3)
θ = 1/4 27/64 27/64 9/64 1/64
θ = 3/4 1/64 9/64 27/64 27/64
1
Cuadro 4.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ = 4 y
θ = 43 .

0 bolas negras, es decir

(x1 = 0, x2 = 0, x3 = 0) ,

entonces θ̂ = 1/4 porque es más probable obtener (con este valor de θ) 0


bolas negras que con θ̂ = 3/4. Ahora, si en la muestra se obtienen 2 bolas
negras entonces θ̂ = 3/4, ya que es más probable obtener 2 bolas negras con
θ̂ = 3/4 que con θ̂ = 1/4. Es decir, se escoge el valor de θ que maximiza la
probabilidad de obtener una muestra especı́fica (x1 , x2 , x3 ).
Esta es la idea subyacente en el método de máxima verosimilitud para
estimar parámetros. De manera general, es necesario definir una función que
represente la ”probabilidad” de obtener una cierta muestra de entre todas
las posibles en X (el espacio muestral o de las muestras). Dicha función,
para un valor muestral fijo, depende únicamente de los parámetros de la
distribución en cuestión y el problema es encontrar aquel valor del parámetro
o de los parámetros que maximicen esta función para una realización fija
de la muestra. En el ejemplo anterior, el parámetro sólo puede tomar dos
valores, pero en general se estará resolviendo un problema de optimización
114 4. Estimación puntual

sobre el espacio paramétrico correspondiente a la distribución con la que se


esté trabajando (una vez que se ha observado una muestra).
Para abordar este tema, se iniciará con la definición de la función de
verosimilitud.
Definición 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con
función de densidad f (x; θ). Se define la función de verosimilitud como
la función de densidad conjunta de la muestra y se denota como L(θ) o
L(θ | x). Es decir:
n
Y
L(θ) = fX1 ,...,Xn (x1 , ..., xn ; θ) = fXi (xi ; θ).
i=1

Definición 4.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con


función de densidad f (x; θ) y L(θ) la correspondiente función de verosimili-
tud. A θ̂ = T (X) se le llama el estimador máximo verosı́mil de θ, si satisface
que para cualquier θ ∈ Θ, se tiene que L(θ̂) ≥ L(θ).

Método general
Sea f (x; θ1 , θ2 , . . . , θk ) una función de densidad con k parámetros. Si (θˆ1 , ...θˆk )
satisface el sistema
∂L(θ1 , θ2 , ..., θk )
= 0 i = 1, 2, ..., k;
∂θi
entonces (θˆ1 , ..., θˆk ) es el estimador máximo verosı́mil de θ.
Note que
∂ 1 ∂
ln(L(θ1 , θ2 , . . . , θk )) = · L(θ1 , θ2 , . . . , θk ).
∂θi L(θ1 , θ2 , . . . , θk ) ∂θi
Por lo tanto,
∂ ∂
ln(L(θ1 , θ2 , . . . , θk )) = 0 ⇔ L(θ1 , θ2 , . . . , θk ) = 0.
∂θi ∂θi
Es decir, ln(L(θ1 , θ2 , . . . , θk )) alcanza su máximo en el mismo punto que
L(θ1 , θ2 , . . . , θk ).
En virtud de la observación anterior se define la log-verosimilitud de
f (x; θ1 , θ2 , . . . , θk ) como
l (θ1 , θ2 , . . . , θk ) = ln(L(θ1 , θ2 , . . . , θk )).
Frecuentemente, por practicidad, se calcula el máximo de l (θ) en vez del
de L(θ).
4.2. Métodos de estimación 115

Ejemplo 4.7 [Distribución Bernoulli]. Sea X1 , . . . , Xn una muestra alea-


toria de una población con distribución Bernoulli(θ). Obtener el estimador
máximo verosı́mil de θ.
Yn n
Y Pn Pn
L(θ) = f (xi , θ) = θxi (1 − θ)1−xi = θ i=1 xi (1 − θ)n− i=1 xi .
i=1 i=1

Entonces,
 Pn Pn 
l (θ) = ln(L(θ)) = ln θ i=1 xi (1 − θ)n− i=1 xi
n n
!
X X
= ln(θ) xi + ln(1 − θ) n − xi .
i=1 i=1

Luego, Pn Pn
∂ i=1 xi n − i=1 xi
l (θ) = − .
∂θ θ 1−θ
Por lo tanto,
Pn Pn
∂ i=1 xi n− i=1 xi 1 n 1 1
l (θ) = 0 ⇔ = ⇔ − 1 = Pn −1⇔ = ,
∂θ θb 1 − θb θb i=1 xi θb x̄
de donde se concluye que
θb = X.
Ahora se verificará que es un máximo
Pn Pn Pn Pn !
∂ 2 l(θ) i=1 xi n − i=1 xi i=1 xi n− i=1 xi
| b= − − =− + < 0.
∂θ2 θ θb2 b2
(1 − θ) θb2 (1 b2
− θ)

∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄.


Ejemplo 4.8 [Distribución Exp(θ)]. Sea X1 , . . . , Xn una muestra aleatoria
de una población con distribución Exp(θ). Obtener el estimador máximo
verosı́mil de θ.
Yn n
Y Pn n
Y
L(θ) = f (xi , θ) = θe−θxi I(0,∞) (xi ) = θn e−θ i=1 xi I(0,∞) (xi ).
i=1 i=1 i=1

Entonces,
n
!
Pn Y
l (θ) = ln(L(θ)) = ln θn e−θ i=1 xi
I(0,∞) (xi )
i=1
n
X n
X
= n ln(θ) − θ xi + ln(I(0,∞) (xi )).
i=1 i=1
116 4. Estimación puntual

Luego,
n
∂ n X
l (θ) = − xi .
∂θ θ i=1

Por lo tanto,
n Pn
∂ n X 1 i=1 xi 1
l (θ) = 0 ⇔ = xi ⇔ = ⇔ = x̄,
∂θ θ
b
i=1 θb n θb

y ası́
1
θb = .

Ahora se verificará que es un máximo

∂ 2 l(θ) n
| b= − < 0.
∂θ2 θ θb2
1
∴ El estimador máximo verosı́mil de θ es θ̂M V = .

Ejemplo 4.9 [Distribución P oisson(θ)]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución P oisson(θ). Obtener el estimador
máximo verosı́mil de θ.
n n n n
e−θ θxi I{0,1,2,...} (xi )
P
Y Y xi Y
−nθ
L(θ) = f (xi , θ) = I{0,1,2,...} (xi ) = e θ i=1 .
i=1 i=1
xi ! i=1
xi !

Entonces,
n
!
−nθ
Pn Y I{0,1,2,...} (xi )
l (θ) = ln(L(θ)) = ln e θ i=1 xi

i=1
xi !
n n  
X X I{0,1,2,...} (xi )
= −nθ + ln(θ) xi + ln .
i=1 i=1
xi !

Luego, Pn
∂ i=1 xi
l (θ) = −n + .
∂θ θ
Por lo tanto,
Pn Pn
∂ i=1 xi i=1 xi
l (θ) = 0 ⇔ n = ⇔ θb = .
∂θ θb n
4.2. Métodos de estimación 117

De esta manera,
θb = X.
Ahora se verificará que es un máximo
Pn
∂ 2 l(θ) i=1 xi
| b= − < 0.
∂θ2 θ θb2
∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄.

Ejemplo 4.10 [Distribución Normal]. Sea X1 , . . . , Xn una muestra aleato-


ria de una población con distribución N (µ, σ 2 ). Obtener los estimadores
máximo-verosı́miles de µ y σ 2 .
Primero se obtiene la función de verosimilitud:
n
Y 1 (xi −µ)2
L µ, σ 2 e−

= √ 2σ 2

i=1 2πσ 2
  n2
1 1
Pn 2
= e− 2σ2 i=1 (xi −µ) .
2πσ 2
La log-verosimilitud está dada por
n
n 1 X 2
l µ, σ 2 = − ln 2πσ 2 − 2

(xi − µ) .
2 2σ i=1

Obteniendo las derivadas con respecto a los parámetros


n
∂l 1 X
= (xi − µ) ,
∂µ σ 2 i=1
n
∂l n 1 X 2
= − + (xi − µ) .
∂σ 2 2σ 2 2σ 4 i=1

Igualando a cero se obtiene


n
X
xi − nb
µ=0
i=1

y
n
n 1 X 2
− + (xi − µ
b) = 0,
σ2
2b σ 4 i=1
2b
de donde
µ
b=X (4.6)
118 4. Estimación puntual

y
Pn 2
2Xi − X i=1
σ
b = . (4.7)
n
Las segundas derivadas están dadas por
∂2l n
= − ,
∂µ2 σ2
Pn 2
∂2l n (xi − µ)
i=1
2 = − ,
∂ (σ 2 ) 2σ 4 σ6
Pn
∂2l ∂2l i=1 (xi − µ)
= = − .
∂µ∂σ 2 ∂σ 2 ∂µ σ4
Sea
∂2l ∂2l
!
∂µ2 ∂σ 2 ∂µ
H= ∂2l ∂2l
∂µ∂σ 2 ∂(σ 2 )2
la matriz de segundas derivadas. Observe que
∂ 2 l

n
= − < 0, (4.8)
∂µ2 (bµ,bσ2 ) σ 2 σb2
mientras que
Pn !
i=1 (xi −x)
− bn2
P σ
− Pnσb4
det H|(bµ,bσ2 ) = det n 2
i=1 (xi −x) n i=1 (xi −x)
− b4
σ σ4
2b − b6
σ
!
− σbn2 0
= det n
Pn
i=1 (xi −x)
2
0 σ4 −
2b b6
σ
2 n 2
n2
P
n − x)i=1 (xi
= − 6
+
2b
σ σ8
nb
n2 n2 σ
b2
= − 6+ 8
2b
σ σ
b
n2 n2 n2
= − 6+ 6 = > 0. (4.9)
2b
σ σ
b σ6
2b
Por (4.8)
 y (4.9), se ve que H es definida negativa y por lo tanto, el óptimo
µ b2 es un máximo, concluyéndose que (4.6) y (4.7) son los estimadores
b, σ
máximo verosı́miles de µ y σ 2 .
Ejemplo 4.11 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución Uniforme en el intervalo [θ− 12 , θ+ 12 ],
es decir,
f (x; θ) = I[θ− 12 ,θ+ 21 ] (x).
4.2. Métodos de estimación 119

Obtener el estimador máximo verosı́mil de θ.


La función de verosimilitud está dada por
n
si para toda i, xi ∈ [θ − 21 , θ + 12 ]

Y 1
L (θ) = I[θ− 12 ,θ+ 12 ] (xi ) =
0 si para alguna i, xi ∈/ [θ − 12 , θ + 21 ].
i=1

Es decir, el máximo valor de L (θ) es 1 cuando xi ∈ [θ − 12 , θ + 12 ] para toda


i, lo cual ocurre si
1 1
y1 ≥ θ − y yn ≤ θ + ,
2 2
es decir, si
1 1
yn − ≤ θ ≤ y1 + .
2 2
Por lo tanto,
1 si θ ∈ yn − 12 , y1 + 21
  
L (θ) =
0 en otro caso.
Cualquier valor θb de θ en Yn − 12 , Y1 + 12 es un estimador máximo verosı́mil,
 

por ejemplo, T (X) = Y1 +Y 2


n
.
Ejemplo 4.12 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución Uniforme en el intervalo [0, θ]. Hallar
el estimador máximo verosı́mil de θ.
La función de densidad está dada por
 1
θ, 0 ≤ x ≤ θ,
f (x; θ) =
0 en otro caso.
La función de verosimilitud es
n
Y
L (θ) = f (xi ; θ)
i=1
1

θn si xi ≤ θ, para toda i
=
0 si al menos una de las xi > θ
1

θn si máx {x1 , x2 , ..., xn } ≤ θ
=
0 en otro caso
1

θn si θ ≥ yn
=
0 si θ < yn ,
donde yn = máx {x1 , x2 , ..., xn } . Note que
dL (θ) n
= − n+1 < 0.
dθ θ
120 4. Estimación puntual

Ası́, la función de verosimilitud vale cero si θ < yn y θ1n si θ ≥ yn , siendo


en este caso una función decreciente, como se muestra en la figura 4.3.

L(θ)

Yn θ
Figura 4.3: Gráfica de la función de verosimilitud para una muestra de ta-
maño n de la distribución Uniforme continua en el intervalo [0, θ].

Ası́, el estimador máximo verosı́mil de θ es

θb = Yn = máx {X1 , . . . , Xn } .

Propiedad de invarianza de los estimadores máximo-verosimiles


En algunas ocasiones, el objetivo no es estimar un parámetro de la distribu-
ción sino una función de éste, τ (θ). Por ejemplo, el interés podrı́a ser estimar
la desviación estándar de una distribución normal, σ, en lugar de la varian-
za σ 2 ; o estimar la trasformación del momio en una distribución Bernoulli,
θ/(1 − θ), en lugar de la probabilidad de éxito θ. Por lo tanto, se busca un
estimador de la función τ (θ), es decir, τd (θ).
Una propiedad de los estimadores máximo verosı́miles es la propiedad de
invarianza. Esto significa que si buscamos un estimador máximo verosı́mil
para una función de θ, denotada por τ (θ), y si sabemos que el estimador
máximo verosı́mil de θ es θ̂, entonces el estimador máximo verosı́mil de τ (θ),
denotado por τd (θ), es τ (θ̂).
Por lo tanto, la propiedad de invarianza de los estimadores máximo ve-
rosı́miles enuncia que
τd
(θ) = τ (θ),
b

es decir, que para encontrar el estimador máximo verosı́mil de una función


4.2. Métodos de estimación 121

del parámetro basta simplemente evaluar la función en el estimador máximo


verosı́mil.
Para esto es necesario tomar en cuenta las caracterı́sticas de la función
τ (θ), por ejemplo, si la función de τ (θ) es biyectiva, entonces la propiedad de
invarianza se cumple y existe un sólo máximo, dado que podemos invertir la
función. Esto se puede ver fácilmente considerando que si η = τ (θ), entonces
la función inversa de τ (θ) es τ −1 (η) = θ, la cual está bien definida por ser
una función biyectiva, y la función de verosimilitud de τ (θ), escrita como
una función de η, está dada por
n
Y
L∗ (η) = f (xi ; τ −1 (η)) = L(τ −1 (η)),
i=1

y para encontrar el estimador máximo verosı́mil, basta obtener lo siguiente

sup L∗ (η) = sup L(τ −1 (η)) = sup L(θ).


η η θ

Por tanto, el máximo de L∗ (η) se alcanza en η = τ (θ) = τ (θ̂), mostrando ası́


que el estimador máximo verosı́mil de τ (θ) es τ (θ̂).
En algunos casos, no es posible usar la propiedad de invarianza de los
estimadores máximo verosı́miles debido a que muchas funciones de interés
no son funciones biyectivas. Por ejemplo, para estimar µ2 , donde µ es la
media de una distribución normal, la función τ (µ) = µ2 no es una función
biyectiva. Si τ (θ) no es una función biyectiva, entonces para algún valor η
puede haber más de un valor de θ que satisfaga que τ (θ) = η. En estos
casos, la correspondencia entre la maximización sobre η y la correspondiente
maximización sobre θ deben analizarse. Por ejemplo, si θ̂ es el estimador
máximo verosı́mil de θ, podrı́a existir otro valor de θ, digamos θ0 , para el
cual también se cumple que τ (θ̂) = τ (θ0 ). Ası́, en el caso de que τ (θ) no
sea una función biyectiva, no necesariamente existirá una única solución.
En estos casos será necesario usar una definición más general de la función
máximo verosı́mil de τ (θ). Una definición de verosimilitud más general para
τ (θ) es la siguiente.

Definición 4.4 La función de verosimilitud inducida por τ (θ), denotada por


L∗ , está dada por
L∗ (η) = sup L(θ).
{θ:τ (θ)=η}

En este caso, el valor η̂ que maximiza a la función L∗ (η) es el estimador


máximo verosı́mil de η = τ (θ). Además, puede verse a partir de las igualda-
des anteriores que el máximo de L∗ y el máximo de L coinciden.
122 4. Estimación puntual

Teorema 4.1 Si θ̂ es el estimador máximo verosı́mil de θ, entonces para


cualquier función τ (θ), el estimador máximo verosı́mil de τ (θ) es τ (θ̂) 4 .

Demostración. Sea η̂ el valor que maximiza L∗ (η). Es necesario mostrar


que L∗ (η̂) = L∗ (τ (θ̂)). Además, como se mencionó anteriormente, el máximo
de L y el máximo de L∗ coinciden, ası́ que se tiene lo siguiente,

L∗ (η̂) = sup sup L(θ)


η {θ:τ (θ)=η}

= sup L(θ)
θ

= L(θ̂),

donde la primera igualdad se cumple por definición de L∗ (η) ya que L∗ (η) =


sup{θ:τ (θ)=η} L(θ), la segunda igualdad se obtiene debido a que la maximi-
zación iterada es igual a la maximización no condicional sobre θ, y la última
igualdad se cumple por definición de θ̂, ya que θ̂ es el estimador máximo
verosı́mil de L(θ). Además,

L(θ̂) = sup L(θ)


{θ:τ (θ)=τ (θ̂)}

= L∗ (τ (θ̂)),

donde la primera igualdad se obtiene debido a que θ̂ es el estimador máximo


verosı́mil de θ, y la segunda igualdad se obtiene por la definición de L∗ (η).
Por lo tanto, se muestra que L∗ (η̂) = L∗ (τ (θ̂)) y que τ (θ̂) es el estimador
máximo verosı́mil de τ (θ). 

Con este teorema es posible encontrar estimadores máximo verosı́miles


de funciones de parámetros que no son biyectivas, por ejemplo, se puede
ver que el estimador máximo verosı́mil de µ2 , donde µ es la media de una
distribución normal, es X̄ 2 .

Observación 4.1 La propiedad de invarianza de los estimadores máximo


verosı́miles también se cumple en el caso multivariado. La demostración
del teorema anterior es válida aun si θ es un vector de parámetros. Si el
estimador máximo verosı́mil de θ = (θ1 , . . . , θk ) es θ̂ = (θ̂1 , . . . , θ̂k ), y si
τ (θ) = τ (θ1 , . . . , θk ) es alguna función de los parámetros, entonces el esti-
mador máximo verosı́mil de τ (θ1 , . . . , θk ) es τ (θ̂1 , . . . , θ̂k ).
4 Esta propiedad fue demostrada por Zehna (1966) en el artı́culo Invariance of Maxi-

mum Likelihood Estimators en la revista Annals of Mathematical Statistics.


4.2. Métodos de estimación 123

Ejemplo 4.13 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución N (µ, 1), con µ desconocido. Se busca el estimador máximo ve-
rosı́mil de τ (µ) = log(µ). Como µ̂ = X̄ es el estimador máximo verosı́mil de
µ, entonces por la propiedad de invarianza log(X̄) es el estimador máximo
verosı́mil de log(µ).

Ejemplo 4.14 Sea X1 , . . . , Xn una muestra aleatoria de la distribución nor-


mal N (µ, σ 2 ). Se sabe que el estimador máximo verosı́mil de µ es X̄. Para
encontrar el estimador máximo verosı́mil de τ (µ) = sen (µ)

τd
(µ) = τ (µ̂) = sen(µ̂) = sen(X̄).

Ejemplo 4.15 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


Bernoulli(θ). Se desea encontrar el estimador máximo verosı́mil de τ (θ) =
θ(1 − θ). Se sabe que el estimador máximo verosı́mil de θ es θ̂M V = X̄.
Entonces
τd
(θ) = τ (θ̂M V ) = τ (X̄) = X̄(1 − X̄).
MV

Ejemplo 4.16 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución Bernoulli(θ), con θ desconocido. Se busca el estimador máximo
θ
verosı́mil del momio τ (θ) = (1−θ) . Como θ̂ = X̄ es el estimador máximo

verosı́mil de θ, entonces por la propiedad de invarianza (1−X̄)
es el estimador
θ
máximo verosı́mil de (1−θ) .

Estimación máximo verosı́mil usando métodos numéricos

En la práctica lo más común es que las derivadas de la función de log-


verosimilitud con respecto a los parámetros involucrados, no se puedan resol-
ver de forma analı́tica, por lo que es necesario recurrir a métodos numéricos
como el de Newton Raphson. En R existen diferentes funciones que sirven
para abordar este tipo de problemas. Lo anterior se ilustrará con un ejemplo.
Para ahondar en este tema, se recomienda consultar Dixit (2016).

Ejemplo 4.17 Considere a la familia de distribuciones Gama, con su espa-


cio paramétrico multidimensional Θ = {(α, λ) : α > 0, λ > 0}. Para obtener
el estimador máximo verosı́mil para el vector de parámetros θ = (α, λ) a
partir de una muestra aleatoria de tamaño n, X1 , X2 , . . . , Xn , la función de
verosimilitud es:
124 4. Estimación puntual

n
Y
L(θ) = L(α, λ) = f (xi ; α, λ)
i=1
n
Y λα α−1 −λxi
= x e
i=1
Γ(α) i
 α n n
λ Pn Y
= e−λ i=1 xi xiα−1 .
Γ(α) i=1

La función de log-verosimilitud es entonces:


ln L(θ) = l(α, λ)
n
X n
X
= n (α ln λ − ln Γ(α)) − λ xi + (α − 1) ln xi .
i=1 i=1

Para encontrar los estimadores que maximizan esta función, se debe en-
contrar el punto crı́tico, lo que implica resolver el sistema de ecuaciones:
  X n
∂ d
l(α, λ) = n ln λ − ln Γ(α) + ln xi = 0,
∂α dα i=1
n
∂ α X
l(α, λ) = n − xi = 0.
∂λ λ i=1

De la segunda ecuación se obtiene que α̂λ̂ = x̄, o equivalentemente λ̂ = α̂x̄ ,


y sustituyendo esta relación en la primera:
  X n
d
n ln(α̂) − ln(x̄) − ln Γ(α̂) + ln xi = 0. (4.10)
dα i=1

Esta última no tiene solución exacta analı́ticamente, pero se puede resol-


ver numéricamente. La derivada del logaritmo de la función Gama se conoce
como la función digama, y en R se obtiene con la función digamma:
d
ψ(α) = ln Γ(α̂).

Se utilizan datos simulados para mostrar esta aproximación numérica.
Se generó una
Pnmuestra de tamaño 250, con α = 0.2 y λ = 5, tal que x̄ =
0.051762 y i=1 log xi = −1555.084. En la figura 4.4 se puede observar
que para el valor α̂ = 0.2221 la derivada (4.10) cruza el cero, y se obtiene
λ̂ = 4.2908.
4.2. Métodos de estimación 125

80
60
derivada

40
20
0

0.00 0.10 0.20 0.30

alpha

Figura 4.4: Estimación máximo verosı́mil para la familia Gama.

4.2.3. Verosimilitud en el enfoque Bayesiano


Considere una muestra aleatoria X1 , . . . , Xn de una población con distri-
bución Gama(µ, s), con media µ. En esta sección se denotará a la función
de densidad como fX (x|θ) y a la verosimilitud como L (θ|x1 , . . . , xn ) , la
razón de este cambio se comprenderá más adelante. Ası́, para el caso de la
distribución Gama(µ, s), su función de densidad está dada por
ss
fX (x|µ, s) = xs−1 exp{−sx/µ},
Γ(s)µs
mientras que la correspondiente función de verosimilitud es
n
Y ss
L(µ, s|x1 , . . . , xn ) = xs−1 exp{−sxi /µ}
s i
i=1
Γ(s)µ
sns
= T s−1 exp{−sT2 /µ},
Γn (s)µns 1
126 4. Estimación puntual

Qn Pn
donde T1 = i=1 xi y T2 = i=1 xi . Observe que la verosimilitud depende
de la muestra sólo a través de estas estadı́sticas suficientes T1 y T2 . Suponga
que se desea estimar el parámetro µ. Al otro parámetro que no es el que se
está estimando, en este caso s, se le suele llamar un parámetro de ruido.
Utilizando exclusivamente la verosimilitud para proponer un estimador
para el parámetro de interés µ y teniendo en cuenta la posibilidad de un
muestreo repetido, el estimador máximo verosı́mil para µ es el valor del
parámetro µb ∈ Θ que maximiza la función de verosimilitud; es decir, el valor
del parámetro para el cual la muestra observada es más probable.
Por construcción, el rango del estimador coincide con el espacio pa-
ramétrico, aunque hereda las dificultades de cualquier problema de opti-
mización, a saber:

Encontrar el máximo global y verificar que lo sea.

Que sea sensible a cambios numéricos.

Ahora, si se consideran dos valores de µ, el cociente de verosimilitudes


para el caso de la distribución Gama, estarı́a dado por:
sns
L(µ1 , s|x1 , . . . , xn ) Γn (s)µns T1s−1 exp{−sT2 /µ1 }
1
= sns
,
L(µ2 , s|x1 , . . . , xn ) Γn (s)µns T1s−1 exp{−sT2 /µ2 }
2
 ns
µ1
= exp{−sT2 [1/µ1 − 1/µ2 ]},
µ2

el cual depende del valor del parámetro s. En general no es claro cómo tratar
el parámetro de ruido, pero desde el enfoque clásico de maximizar la función
de verosimilitud como se vio en la sección 4.2.2, simplemente se toma el valor
del estimador sb.
Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se
condiciona completamente en los datos observados y se concluye sobre la
población en estudio basándose en:

1. La verosimilitud L(θ|x), que representa la información que hay en los


datos x= (x1 , . . . , xn ); y

2. π(µ) una distribución de probabilidad que se conoce como distribución


inicial o a priori y que describe las ideas subjetivas que se tienen
sobre el valor de µ. Estas ideas se conciben como externas a los datos
y pueden ser deducidas de experiencias previas o bien de conocimiento
experto.
4.2. Métodos de estimación 127

La inferencia se expresa a través de una distribución posterior, final o a


posteriori de los párametros que se denotará como π(θ|x) y que se obtiene
a través del teorema de Bayes:

L(θ|x)π(θ)
π(θ|x) = R . (4.11)
L(θ|x)π(θ)dθ

La estadı́stica Bayesiana (por Thomas Bayes (1702-1761), matemático


del siglo XVIII), representa un enfoque diferente a la inferencia estadı́stica
clásica o frecuentista. En el enfoque Bayesiano también se supone que los
datos se obtienen de una distribución perteneciente a una familia paramétrica
conocida; sin embargo, a diferencia de la estadı́stica clásica, que considera
que los parámetros son fijos pero desconocidos, aquı́ se hace el supuesto de
que son variables aleatorias.
En resumen, el enfoque denominado frecuentista no supone que hay co-
nocimiento previo de θ. El enfoque Bayesiano, por el contrario, se basa en el
supuesto de que se tiene alguna información previa acerca de θ. Esta informa-
ción se expresa por medio de una distribución sobre θ, llamada distribución
inicial o a priori. Aquı́ se supondrá que esta distribución a priori tiene una
densidad π(θ) y puede tener distintas interpretaciones según el problema que
se esté abordando, por ejemplo, que dicha distribución está sustentada en
experiencias previas similares o que expresa una creencia subjetiva.
En ambos casos, la verosimilitud provee la información que hay en las
observaciones y que permite evaluar y elegir un valor del parámetro sobre
otros, pues en el proceso de inferencia se busca obtener estimadores que con-
cilien de la mejor manera el modelo con los datos observados. Será entonces
de interés examinar la incertidumbre que hay en este proceso para elegir un
buen estimador.
En el contexto Bayesiano se debe considerar la evaluación de la dependen-
cia de las conclusiones con respecto a las distribuciones iniciales, las cuales
se han dado de manera subjetiva. En muchos casos, la selección de la distri-
bución inicial también contempla la posibilidad de calcular de forma cerrada
el denominador en (4.11). Un caso particular de esta selección se da con las
familias conjugadas.

Definición 4.5 Una distribución inicial π(θ) es conjugada si para π(θ) ∈


P y L(θ|x) ∈ F, se tiene que π(θ|x) ∈ P, donde P y F son familias de
distribuciones.

A continuación se da un primer ejemplo para ilustrar algunas de las


funciones que se han mencionado en el enfoque Bayesiano.
128 4. Estimación puntual

Figura 4.5: Dulces smarties. Tomada de pixabay.com (imágenes gratuitas de


alta calidad).

Ejemplo 4.18 Los paquetes de los llamados dulces Smarties vienen con k
colores diferentes, los cuales se repiten con la misma frecuencia.
Suponga que no se conoce k y secuencialmente se examinan 3 dulces,
resultando un rojo, un verde y un rojo. La densidad para X = el segundo
dulce es de diferente color que el primero, pero el tercero es del mismo color
que el primero, está dada por:
f (x | k) = P (el segundo es de diferente color que el primero) ×
×P (el tercero es del mismo color que el primero)
  
k−1 1 k−1
= = .
k k k2
A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f (x|k) =
(k − 1)/k 2 . Si en lugar de 3 se examinan 4 y resulta que ese cuarto es de
color naranja (con los tres primeros rojo, verde, rojo), se tiene que
(k − 1) (k − 2)
f (x | k) = .
k3
Ahora suponga que se tiene información a priori o se cree que el número
1 3 3 3
de colores es 5,6,7 u 8, con probabilidades iniciales 10 , 10 , 10 y 10 , respecti-
vamente.
Para el caso de tres dulces, si k = 5, entonces
4
f (x|k) = (5 − 1)/52 = = 0.16,
25
4.2. Métodos de estimación 129
 
1
f (x|k)π (k) = (0.16) = 0.016
10
y
1

(0.16) 10
π (k | x) = 8 = 0.13.
P
f (x|k)π (k)
k=5
A continuación se resumen los valores de estas funciones para los distintos
valores de k y para ambos escenarios, es decir, cuando se tiene rojo, verde y
rojo (cuadro 4.2)

k π(k) f (x|k) π(k)f (x|k) π(k|x)


5 .1 .160 .016 .13
6 .3 .139 .042 .33
7 .3 .122 .037 .29
8 .3 .109 .033 .26

Cuadro 4.2: Cálculo de la distribución a posteriori cuando los dulces exami-


nados son rojo, verde y rojo.

Y para cuando el cuarto dulce es naranja (cuadro 4.3).

k π(k) f (x|k) π(k)f (x|k) π(k|x)


5 .1 .096 .010 .11
6 .3 .093 .028 .31
7 .3 .087 .026 .30
8 .3 .082 .025 .28

Cuadro 4.3: Cálculo de la distribución a posteriori cuando los dulces exami-


nados son rojo, verde, rojo y naranja.

Observe que la distribución a posteriori para k es una pequeña modifica-


ción de la a priori.
La estadı́stica Bayesiana se basa en el cálculo de distribuciones condicio-
nales. Los siguientes ejemplos ilustran el uso de la definición de densidades
condicionales en términos de las densidades conjuntas y marginales.
Ejemplo 4.19 Una moneda cargada se lanza n veces. Suponga que xi vale
1 si se obtiene sol y 0 si no, en el i-ésimo lanzamiento. No se tiene idea de
qué tan cargada está la moneda, entonces se considera una distribución a
priori Uniforme para θ, de tal manera que la densidad a priori está dada por:
π(θ) = 1, 0 ≤ θ ≤ 1.
130 4. Estimación puntual

Sea t el número de soles. Entonces la distribución a posteriori de θ es:

θt (1 − θ)n−t × 1
π(θ|x1 , . . . , xn ) = R 1
0
φt (1 − φ)n−t × 1dφ

π(θ|x) ∝ θt (1 − θ)n−t ,
de donde se puede ver que si se inserta una constante de proporcionalidad
apropiada, entonces se tiene una densidad Beta(t + 1, n − t + 1), que serı́a
la distribución a posteriori de θ dada x.

En el ejemplo anterior se utiliza ∝ para denotar que π(θ|x) es proporcio-


nal a θt (1 − θ)n−t . En general, ∝ se lee como “es proporcional a”.

Ejemplo 4.20 Suponga que X1 , X2 , . . . , Xn es una muestra aleatoria de


una población con distribución N (µ, 1) y que π(µ) ∼ N (0, τ −2 ) para τ −2
conocida. Entonces
( n
!)
1 X 2 2 2
π(µ|x1 , . . . , xn ) ∝ exp − (xi − µ) + µ τ
2 i=1
(  Pn 2 )
1 2 i=1 xi
∝ exp − (n + τ ) µ − .
2 n + τ2
Ası́,  Pn 
xi
i=1 1
µ|x1 , . . . , xn ∼ N 2
, .
n+τ n + τ2
Ejemplo 4.21 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Exponencial(λ) y la distribución a priori para el parámetro
λ es una Exponencial(µ), donde µ es fija y conocida. Entonces:
n
Y Pn
π(λ|x1 , . . . , xn ) ∝ µe−λµ λe−λxi = λn e−λ(µ+ i=1 xi )
,
i=1
Pn
es decir, λ ∼ Gama(n + 1, µ + i=1 xi ).

Ejemplo 4.22 Suponga que se examina una máquina que hace partes de
automóviles y se denota a θ como la proporción de marcas defectuosas. Un
dı́a se examinan 10 piezas denotadas por X1 , . . . , X10 , donde Xi = 1 indica
que la pieza i es defectuosa y Xi = 0 que no tiene defecto. Esto puede verse
como una muestra aleatoria con distribución Bernoulli de parámetro θ, cuya
función de densidad es fX (x; θ) = θx (1 − θ)1−x I{0,1} (x) para 0 ≤ θ ≤ 1, que
4.2. Métodos de estimación 131

indica que la probabilidad de que una parte sea defectuosa es θ. Ası́ que la
densidad conjunta de las 10 observaciones es

P10 P10 10
Y
xi
fX (x; θ) = θ i=1 (1 − θ)10− i=1 xi
I{0,1} (xi )
i=1
= L (θ | x) .

Con el método de máxima verosimilitud el estimador de θ es θ̂ = X̄. Suponga


que el experto tiene información adicional acerca de θ y que él ha observado
que a lo largo de los dı́as la proporción de partes defectuosas cambia, es
decir, el valor de θ cambia y que este cambio puede representarse como una
variable aleatoria con función de densidad π(θ) = 6θ(1−θ)I[0,1] (θ), esto es, θ
tiene una distribución Beta con parámetros 2 y 2, denotada como Beta(2, 2).
¿Cómo se puede usar esta información adicional para estimar θ?

Como ya se ha señalado, en el método Bayesiano se considera que θ es


una cantidad cuya variación puede describirse por medio de una distribución
de probabilidad (llamada distribución a priori). La distribución a priori
es una distribución subjetiva, basada en las creencias del experto y se for-
mula antes de obtener los datos. Se selecciona una muestra a partir de una
población sujeta al parámetro θ, entonces la distribución a priori se actua-
liza utilizando la información de la muestra y se obtiene la disribución a
posteriori. Esta actualización se hace usando la regla de Bayes. La distri-
bución a posteriori es una distribución condicional, y es condicional dada
la muestra. La distribución a posteriori se usa para hacer inferencia acerca
de θ (obtener el estimador puntual, intervalos de credibilidad y pruebas de
hipótesis).

La distribución conjunta de X1 , . . . , X10 y θ es

g(x, θ) = fX (x; θ) × π(θ)


| {z } |{z}
distribución conjunta distribución a priori
P10 P10
xi
= θ i=1 (1 − θ)10− i=1 xi
× 6θ(1 − θ)
y 10−y
= θ (1 − θ) × 6θ(1 − θ)
y+1 10−y+1
= 6θ (1 − θ) ,
132 4. Estimación puntual

P10
donde y = i=1xi . Calculando la distribución marginal de la muestra, m(x),
Z Z
m(x) = fX (x; θ)π(θ)dθ = g(x, θ)dθ
Z
= 6θy+1 (1 − θ)10−y+1 dθ

Γ(y + 2)Γ(10 − y + 2)
= 6
Γ(10 + 2 + 2)
Γ(y + 2)Γ(12 − y)
= 6 .
Γ(14)
Ası́, la distribución a posteriori de θ dada la muestra x es
g(x, θ)
π(θ|x) =
m(x)
6θy+1 (1 − θ)10−y+1
=
6 Γ(y+2)Γ(12−y)
Γ(14)
Γ(14)
= θy+1 (1 − θ)11−y ,
Γ(y + 2)Γ(12 − y)
que es una distribución Beta(y + 2, 12 − y).
Un estimador para θ es la media de la distribución a posteriori (ver
Sección 4.3.3), la cual darı́a el estimador de Bayes de θ,
y+2
θ̂ = .
14
En el cuadro 4.4 se resumen los valores de los estimadores máximo verosı́mil
y de Bayes para distintos valores de la muestra.

Muestra y 0 1 2 3 4 5 6 7 8 9 10
θ̂ EMV 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ̂ Bayes 0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86

Cuadro 4.4: Valores de los estimadores máximo verosı́mil y de Bayes para


distintos valores de la muestra.

Las gráficas de la figura 4.6 muestran el comportamiento de la distribu-


ción a posteriori ante la evidencia de los datos y el conocimiento previo del
parámetro.
En el caso de no utilizar familias conjugadas, la obtención de la constante
de normalización para las distribuciones posteriores no se puede hacer de
manera analı́tica y es necesario recurrir a métodos de simulación.
4.2. Métodos de estimación 133

Y=0 Y=2
5

5
Prior Prior
4

4
Verosimilitud Verosimilitud
Densidad

Densidad
Posterior Posterior
3

3
2

2
1

1
0

0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

θ θ

Y=5 Y=10
5

5
Prior Prior
4

4
Verosimilitud Verosimilitud
Densidad

Densidad
Posterior Posterior
3

3
2

2
1

1
0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

θ θ

Figura 4.6: Comportamiento de las funciones a priori, a posteriori y de ve-


rosimilitud para la proporción de marcas defectuosas y distintos valores de
la muestra en el ejemplo 4.22.

4.2.4. Otros métodos de estimación


Además de los métodos de momentos y los basados en verosimilitud, existen
alternativas para encontrar el estimador de un parámetro, por ejemplo, el
método de medianas, su extensión, el método de percentiles, y el
método de mı́nimos cuadrados. Los primeros dos se revisan en esta
sección, mientras que el último se abordará en la sección 4.3.1.
El método de medianas únicamente se puede aplicar a modelos depen-
dientes de un sólo parámetro y consiste en lo siguiente: suponga que x e0.5
representa a la mediana de la muestra mientras que x0.5 denota a la me-
diana de la distribución. Recuerde que x0.5 es el valor de x para el cual
FX (x0.5 ) = 21 , donde FX (x) es la función de distribución de la variable
aleatoria continua X, o alternativamente,
Z x0.5 Z −∞
1
f (x; θ) dx = f (x; θ) dx = .
−∞ x0.5 2
134 4. Estimación puntual

El método consiste en igualar las medianas y resolver para el parámetro


desconocido, el cual está involucrado en la expresión resultante para x0.5 .
La extensión de este método para el caso de dos o más parámetros puede
hacerse a través del método de percentiles que se describe a continuación.

Método de porcentiles o percentiles


Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el p-ésimo(×100)
percentil de la distribución. Para usar este método se calculan los correspon-
dientes percentiles de la muestra y se igualan con los de la distribución (los
cuales se encuentran en términos de los parámetros desconocidos) y se resuel-
ve para cada parámetro. Observe que si p = 21 , entonces xp es la mediana,
ası́ que el método de las medianas se puede ver como un caso particular.

Ejemplo 4.23 Suponiendo que se tiene una muestra aleatoria de tamaño n


de una población con distribución Exponencial, se desea estimar el parámetro
θ en f (x; θ) = θ exp (−θx) . Primero se resuelve FX (x0.5 ) = 21 o
Z x0.5
1
θe−θx dx = ,
0 2
de donde
1
1 − e−θx0.5 =
2
o
1
e−θx0.5 = ,
2
resultando:
ln 12
x0.5 = − . (4.12)
θ
Igualando (4.12) con x
e0.5 , es decir con la mediana muestral, se obtiene que
1
ln
θb = − 2 .
x
e0.5

Ejemplo 4.24 Usando el método de percentiles, estimar los parámetros en


una distribución Weibull con función de densidad

f (x; θ) = γλxγ−1 exp {−λxγ } .

Dados los percentiles muestrales x


e0.5 = 10000 y x
e0.9 = 100000, ¿cuál es el
estimador para el parámetro γ?
4.2. Métodos de estimación 135

La función de distribución correspondiente es


Z x
FX (x) = γλuγ−1 exp {−λuγ } du
0
Z ∞
= 1− γλuγ−1 exp {−λuγ } du
x

y
∞ ∞
−γλuγ−1 −λuγ
Z
γ−1 γ
γλu exp {−λu } du = e
x −γλuγ−1
x
γ
= e−λx .

Por lo tanto:
FX (x) = 1 − exp {−λxγ } ,
la cual tiene dos parámetros. Si xp es el valor de x tal que FX (xp ) = p,
entonces xp es el 100p-ésimo percentil de la distribución, que para este caso
darı́a las ecuaciones:

FX (x0.5 ) = 1 − exp {−λxγ0.5 } = 0.50

y
FX (x0.9 ) = 1 − exp {−λxγ0.9 } = 0.90,
de donde:
exp {−λxγ0.5 } = 0.50
y
exp {−λxγ0.9 } = 0.10,
que es equivalente a

λxγ0.5 = − ln (0.50) = 0.69315

y
λxγ0.9 = − ln (0.10) = 2.30259.
Es decir:
  γ1
0.69315
x0.5 =
λ
y
  γ1
2.30259
x0.9 = .
λ
136 4. Estimación puntual

Igualando con los respectivos percentiles muestrales, se obtiene:


  γ1
0.69315
= 10000 (4.13)
λ
y
  γ1
2.30259
= 100000. (4.14)
λ
Dividiendo (4.14) entre (4.13):
  γ1
2.30259
= 10
0.69315
o sea,
2.30259
10γ = = 3.32192.
0.69315
De donde se obtiene que
ln 3.32192
γ
b= = 0.521.
ln 10
Usando (4.13), se puede obtener el estimador de λ :
0.69315 0.521
= (10000) = 121.34.
λ
Ası́,
b = 0.69315 = 457 .
λ
121.34 80 000
Si los percentiles muestrales no están dados explı́citamente, se puede usar
el siguiente método para calcularlos: para una muestra de tamaño n, sean
x1 , x2 , ..., xn los valores muestrales en orden ascendente. Sea k = (n + 1) p,
donde p es el orden del percentil que se busca. Sea l la parte entera de k
(l = 1, 2, ..., n − 1) y sea m la parte fraccional de k, 0 ≤ m < 1. Se define

ep = (1 − m) xl + mxl+1
x (4.15)

como el p-ésimo percentil (×100) de la muestra. Observe que xl y xl+1 repre-


sentan los elementos l-ésimo y (l + 1)-ésimo de la muestra, respectivamente.

Ejemplo 4.25 En una muestra de ratas de laboratorio se obtienen los tiem-


pos de muerte dados a continuación: x = 3, 4, 5.7, 7, 8, 10, 10 y 12, donde
el tiempo se mide en dı́as. Usando el método de percentiles, estimar los
4.2. Métodos de estimación 137

parámetros B y c del modelo de supervivencia Gompertz, cuya función de


distribución está dada por:
 
B
FX (x) = 1 − exp (1 − cx ) ,
ln c
con los percentiles 0.25 y 0.65.
Los percentiles 0.25 y 0.65 son tales que
 
B
1 − exp (1 − cx0.25 ) = 0.25
ln c
y  
B
1 − exp (1 − cx0.65 ) = 0.65
ln c

B
(1 − cx0.25 ) = ln 0.75
ln c
B
(1 − cx0.65 ) = ln 0.35
ln c

ln c
cx0.25 = 1 − ln 0.75
B
ln c
cx0.65 = 1 − ln 0.35 .
B
Ası́,
ln 1 − ln 0.75 lnBc
 
x0.25 = (4.16)
ln c
y
ln 1 − ln 0.35 lnBc
 
x0.65 = . (4.17)
ln c
Usando (4.15), se tiene que para el percentil 0.25, k = (9+1)(0.25) = 2.5,
de donde se obtiene xe0.25 = (0.5) (x2 ) + (0.5)(x3 ) = (0.5) (4) + (0.5)(5) = 4.5.
Para el cuantil 0.65, k = (9 + 1)(0.65) = 6. 5, por lo tanto x e0.65 = (0.5)x6 +
(0.5)x7 = (0.5)8 + (0.5)10 = 9.
Igualando los percentiles obtenidos en (4.16) y (4.17) con los percentiles
muestrales, resultan las siguientes ecuaciones:

ln 1 − ln 0.75 lnBc
 
= 4.5 (4.18)
ln c
y
ln 1 − ln 0.35 lnBc
 
= 9.
ln c
138 4. Estimación puntual

Dividiendo la segunda entre la primera, resulta

ln 1 − ln 0.35 lnBc
 
 =2
ln 1 − ln 0.75 lnBc


⇒  2
ln c ln c
1 − ln 0.35 = 1 − ln 0.75
B B
⇒  2
ln c ln c
ln 0.35 = 1 − 1 − ln 0.75
B B
⇒  
2
ln 0.35z = 1 − 1 − 2z ln 0.75 + (ln 0.75) z 2 ,
ln c
donde z = B . Simplificando la última expresión se obtiene:
2
(ln 0.75) z 2 − z [2 ln 0.75 − ln 0.35] = 0,

o
0.83z 2 − (0.4744) z = 0,
de donde
0.4744
z= = 5.7163.
0.083
Es decir, lnBc = 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustitu-
yendo este último valor en (4.18), se tiene:

ln 1 − ln 0.75 5.7163B
 
B
= 4.5
5.7163B
y despejando B, se llega al resultado B
b = 0.03780. Finalmente, b
c = 1.2412.

Existen diferentes propuestas para obtener estimadores, entonces es ne-


cesario establecer criterios para evaluarlos y compararlos. En las siguiente
secciones se abordará este tema.

4.3. Evaluación de estimadores


Dado que hay varios métodos para encontrar estimadores, una pregunta
natural es, si se pueden tener estimadores distintos para una parámetro,
¿cuál es mejor o cuál se debe elegir? Es necesario contar con criterios para
responder a esta pregunta y poder decidir cuál estimador es mejor en algún
sentido.
4.3. Evaluación de estimadores 139

4.3.1. Error cuadrático medio y estimadores insesgados


El primer criterio que se analizará es el del error cuadrático medio, concepto
que se introduce a continuación.

Definición 4.6 Sea T (X1 , . . . , Xn ) un estimador de τ (θ). Se define el error


cuadrático medio (ECM) de T como

ECMT (θ) = E[(T (X) − τ (θ))2 ].

Es decir, el error cuadrático medio mide el error cometido al estimar τ (θ)


con T (X). Esta medida es un error promedio al considerar los valores que
puede tomar la variable aleatoria T (X) y se calcula como la esperanza de los
errores al cuadrado, tomando los errores como la diferencia entre los valores
de la variable aleatoria y el valor del parámetro.
La idea es que si se tienen dos estimadores T1 (X) y T2 (X) para τ (θ) y
ECMT1 (θ) < ECMT2 (θ), entonces se elige a T1 como estimador para τ (θ).
Si se desarrolla la expresión E[(T (X) − τ (θ))2 ], se obtiene que

ECMT (θ) = E[T 2 − 2τ (θ)T + (τ (θ))2 ]


= E(T 2 ) − 2τ (θ)E(T ) + τ 2 (θ)
= E(T 2 ) − E2 (T ) + E2 (T ) − 2τ (θ)E(T ) + τ 2 (θ)
= V ar(T ) + [E(T ) − τ (θ)]2
| {z }
sesgo de T

A E(T ) − τ (θ) se le conoce como sesgo de T . Es importante hacer notar


que si el sesgo de T es cero, entonces ECMT (θ) = V ar(T ).

Definición 4.7 Un estimador T (X) de τ (θ) es insesgado si E [T (X)] = τ (θ)


(es decir, en promedio, el estimador es igual al parámetro).

Nota: si T es insesgado, entonces ECMT (θ) = V ar(T ).

Observación 4.2 1. En el caso continuo, el error cuadrático medio E[(T −


τ (θ))2 ] puede calcularse como
Z Z
... (t(x1 , x2 , . . . , xn ) − τ (θ))2 fX1 (x1 ; θ) . . . fXn (xn ; θ)dx1 . . . dxn .

2. El ECM puede pensarse también como una medida de la dispersión de


T alrededor de τ (θ).
140 4. Estimación puntual

3. ECMT1 (θ) y ECMT2 (θ) pueden cruzarse, es decir, en general no se


cumple que para todo θ ∈ Θ, ECMT1 (θ) < ECMT2 (θ) (ó ECMT1 (θ) >
ECMT2 (θ) ).

Ejemplo 4.26 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


N (µ, σ 2 ). Considere
T1 (X) = X̄
un estimador para µ. Sean
n
1 X
T2 (X) = S 2 = (Xi − X̄)2
n − 1 i=1
y
n
2 1X n−1 2
T3 (X) = σ̂M V = (Xi − X̄)2 = S ,
n i=1 n

estimadores para σ 2 .
Para revisar si son insesgados:
Note que
E(T1 (X)) = E(X̄) = µ.
Por lo tanto, T1 sı́ es insesgado.
También note que
E [T2 (X)] = E(S 2 ) = σ 2 .
Por lo tanto, T2 sı́ es insesgado.
Sin embargo,
 
n−1 2 n − 1  2 n − 1 2
E(T3 (x)) = E S = E S = σ .
n n n
Por lo tanto, T3 no es insesgado.
Para encontrar el error cuadrático medio de T1 , T2 y T3 :
Como T1 es insesgado, entonces
σ2
ECMT1 (µ, σ 2 ) = V ar(X̄) = .
n

Como T2 es insesgado, entonces


2σ 4
ECMT2 (µ, σ 2 ) = V ar(S 2 ) = .
n−1
4.3. Evaluación de estimadores 141

Sin embargo, como T3 no es insesgado, entonces

ECMT3 (µ, σ 2 ) = V ar(T3 ) + (sesgo2 ).

Pero
(n − 1)2 2σ 4
 
n−1 2 2(n − 1) 4
V ar(T3 ) = V ar S = 2
= σ .
n n n−1 n2

Y
 2
2 2 2 n−1 2
(sesgo) = (E(T3 ) − σ ) = σ − σ2
n
2
σ4

n−1−n
= σ4 = .
n n2

Por lo tanto,

2(n − 1) 4 σ 4 2n − 1 4
ECMT3 (µ, σ 2 ) = 2
σ + 2 = σ .
n n n2

Pero note que


2 2 2 1 2 2n − 1 2
< ⇒ − 2 < ⇒ <
n n−1 n n n−1 n2 n−1
(2n − 1)σ 4 2σ 4
⇒ 2
< ⇒ ECMT3 < ECMT2 .
n n−1
Con esto se puede observar que aunque T2 es insesgado, T3 tiene un
menor ECM, lo cual exhibe que no siempre un estimador insesgado
tiene el menor ECM.

Ilustración mediante simulación


Se simula un conjunto de M = 1000 muestras de tamaño n = 3 cada una.
Los estimadores T1 (X), T2 (X) y T3 (X) del ejemplo 4.26, se grafican en las
figuras 4.7 y 4.8.
142 4. Estimación puntual

T1 insesgado

2


● ●
● ●

● ●

● ●
● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ●
●● ● ● ●

1 ● ●
● ● ● ●● ●
● ●
● ● ● ●
● ● ● ● ●
● ●
● ●● ● ● ● ●
● ● ●
● ●
● ● ● ● ● ●
● ● ●● ●
● ● ● ● ●● ● ●
● ● ● ●● ●
● ● ● ● ● ● ● ●
●●
● ● ● ●
● ● ● ● ● ●●
● ● ● ● ●● ● ●
● ● ● ● ●
●●● ● ● ●●

● ● ● ● ● ● ● ●● ● ● ● ●
● ● ● ● ● ● ● ● ●●
● ● ● ● ● ● ●● ● ● ●
● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●
● ● ● ●● ● ● ●

µ
● ● ● ●● ● ●● ●
● ● ●● ● ● ●●● ●● ●●● ● ●● ●

Estimación

● ● ● ● ●● ● ● ●● ●
● ●● ●
● ● ● ● ●● ● ● ● ● ● ●
● ● ● ● ●
● ●● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●●●
● ● ● ● ● ● ●● ●● ●● ●
●● ●
●● ●
● ● ● ● ● ●
● ● ● ● ● ●●● ● ● ●
● ● ● ● ●
● ●● ● ●
● ● ●
● ●●●
● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ●● ● ●●●● ● ●● ●● ●●
● ● ● ● ● ● ●● ● ●
●● ● ●● ●● ●● ● ● ●● ●
●● ●
●● ●
● ●● ● ● ● ● ●
● ●●●● ●● ●● ● ● ● ●● ●
● ●●● ●● ● ● ●● ●
●● ● ● ●● ● ●●
● ●
● ●
● ● ●● ● ●● ●
● ●
● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●●
●●
0

● ● ● ● ● ● ● ● ●● ● ● ●
● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ● ●● ●● ● ● ●●

●● ● ● ●● ●
● ●● ● ● ●● ● ●● ● ●● ● ● ●●
● ● ●● ● ● ●●● ● ● ●● ●
● ●●● ● ● ● ● ●● ●
●●

● ● ● ● ●
● ● ●
● ●
● ● ●● ● ● ● ● ● ● ●
●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ●
● ● ● ● ● ●● ● ● ● ●
●● ●●
● ● ●●


● ● ● ● ● ● ● ●
● ● ● ● ●● ● ●
● ● ●● ● ● ●

●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●
●●
●● ● ● ● ● ● ●● ● ● ● ●●
●● ● ●● ●

● ●
● ● ●●
● ● ● ●● ●
●● ● ● ●
● ● ● ● ●● ● ● ●
● ● ●● ● ● ● ● ● ● ●● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
●● ● ● ● ● ● ●●
● ●● ● ● ● ● ● ● ● ●● ●
● ● ● ●● ● ●● ●
● ● ●● ● ●
● ● ● ● ● ●● ●
● ● ●● ● ● ●● ● ●
●● ● ●
● ● ●● ● ● ● ● ● ● ●
● ● ● ●● ● ●● ● ●● ● ● ●●●
● ● ● ●
● ●● ●● ●

● ● ● ● ● ● ● ● ● ●
●●
● ●● ● ●● ● ● ● ●● ● ●●
● ● ● ●
● ● ● ● ● ● ● ●● ● ● ● ●●


● ● ● ●

● ● ● ●
● ● ● ● ● ● ●● ● ● ●
● ● ●
−1

● ● ● ●
● ● ● ● ● ● ●● ● ● ●

● ● ● ● ●
● ● ●● ● ● ● ●
● ●
● ● ● ● ● ●
● ● ●●
● ●
● ●●


● ●● ●


0 200 400 600 800 1000

Muestras

Figura 4.7: El estimador T1 = X es insesgado para µ en el ejemplo 4.26.

T2 insesgado T3 sesgado
8


6

● ● ●
Estimación

Estimación

● ● ●
● ●
● ●


● ●

4

● ● ● ●

● ● ● ●
● ●
● ●
●● ●

● ● ●
● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ●● ● ●
● ● ●● ● ● ●
● ● ● ●
● ● ● ●

● ● ●● ● ● ●
● ● ●
● ● ●●● ●
● ● ● ●●
● ●● ●●
● ● ●
● ● ● ●
● ●● ● ● ● ●● ●
● ●● ● ● ● ● ● ●● ●
● ● ●● ●

●● ● ●● ●● ● ●
● ● ● ● ●

●● ●● ● ● ● ● ● ● ● ● ● ●
●● ● ●
2

● ●● ●● ● ● ●●●● ● ●● ● ● ● ● ●
●● ●● ● ● ● ● ●●● ●

● ● ● ●● ●●

● ● ● ● ●● ● ● ● ●
● ● ● ● ● ●● ●
●●●
● ● ●●
● ● ● ● ● ● ●● ●
● ●● ● ● ● ● ● ● ●●● ● ● ●●

σ σ

● ●
●● ● ●● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ● ●●● ●●
● ●● ●● ●● ●● ● ● ● ●● ● ●● ● ● ●
●● ●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●
●● ● ● ●● ● ●
● ● ● ●● ● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ●● ● ●●●
● ● ● ●●

● ● ● ●● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ●● ●● ● ●●
● ●●●● ●● ●● ● ● ● ●●●● ● ● ●● ● ●
● ● ● ● ● ●●● ● ● ●●●
●● ● ● ● ●● ● ●●
●● ●

● ●● ● ●● ● ● ●● ● ● ●● ●
● ● ●●●● ●● ● ● ● ● ●● ●●● ●● ● ●● ●●● ● ●● ●● ●● ● ● ● ●
● ●● ● ●● ●● ●
● ●●●
● ● ●●
● ● ●●●●● ● ●●● ●● ●
● ● ● ● ●●● ● ●●● ● ●
●●●●● ●
● ● ●● ● ●
● ●
● ●● ● ● ● ●● ●● ●● ● ● ●●● ● ● ● ● ●● ●● ● ●● ●
● ●
● ●
●●
●●
● ●● ●●● ●
● ● ● ●
● ●●●● ● ●●●
● ●●●
● ●● ●● ● ● ●●
● ●●●● ●● ●●● ● ● ●●● ● ●● ●●●●● ●● ● ● ●● ●
● ●
● ● ●
● ●●
● ● ● ● ● ● ● ●
●● ● ●● ● ●● ●● ●● ●
●● ●● ● ● ● ●
●● ● ● ●●● ●●

● ●●
● ● ● ● ●●● ● ●
● ●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ●●● ●● ● ●●● ● ●

● ●● ● ● ●●● ●

●● ● ●●●●●●●●● ● ●● ●●● ● ● ● ● ● ●●●● ●●●● ● ●● ● ●
●● ●● ●● ● ●●●● ● ●●
●●●● ●●

● ● ●●●●
●●

●● ● ●● ● ●●●
●●● ● ● ● ● ●●●●●
● ●
●●● ●
●●
● ●● ● ●●● ●●
●●

● ● ● ●●●● ● ●● ●● ● ●●
●●●
● ● ●● ●
●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●
●● ● ●●
● ● ● ●
●●●● ● ●●● ●●
● ●●● ●●●
●●●● ●
●● ●●● ●
●● ●
● ● ●● ● ● ● ●●● ● ● ●● ●● ●
● ● ● ● ● ● ● ●●●
● ● ● ●● ●

● ●● ●● ● ●●●
● ● ●
●● ●
●●●● ● ● ● ●● ●● ● ●● ●● ●●●● ● ● ● ●● ●●●
●● ●
●●●●● ● ● ●● ● ●● ●
●●●● ●● ●●●●● ●●● ●● ● ●
● ●●
●●● ●● ● ● ●●● ●●●● ● ●●●● ● ●● ● ●
●●●
●● ●● ●●● ● ●●

●●
●●●●● ● ● ●●● ●●
●●●●● ●●●●
●● ●● ●● ●● ● ● ●● ●

● ● ●● ●●● ● ●
●● ●● ● ● ● ●●●●●● ●
● ●

● ● ●● ● ●●●
●●●● ●● ●● ●● ●●●●● ●● ●●●●●● ●●● ● ●● ●
●●●
● ● ●●● ●●●●●●●
● ●●●
●●●●●●●
● ●● ● ● ●
●●
●●●
●●
●● ● ● ●
●●●●● ● ● ● ●
●● ●● ●

● ● ●●● ● ● ●● ● ● ●●●
●●
● ● ● ●
●● ● ●
●● ●●● ●●● ● ●●●● ●● ●●● ●● ●● ●●● ●● ● ● ●● ●●● ●● ● ● ●●●●● ●● ●● ●● ●●● ●●●

●● ● ●● ●●● ● ●● ●
●● ●●● ● ●

● ●●● ● ●●●●
● ● ●
● ●●●●● ● ●●●●●●
●●●● ●
●●
●●●●● ●●● ●● ●● ●●
●● ●●● ●●●●● ● ●● ●●● ● ●●●● ●●●
●●●● ●●●●●●● ● ●●●●●●● ● ● ● ●●● ●●● ●●●●● ●●●●●
● ●●●●● ● ●●●

●● ●●●●●●
●● ●●●●
● ●
●●●●●

● ●●● ●● ●● ●
●●●●● ●● ●●

●●●●●● ● ●●●● ●●●
●●●● ● ●
●●●● ●●● ●● ●●●● ●● ●●● ●●● ●●● ●●●● ●●●
● ●● ●
● ● ●●
●●● ●● ●●●● ● ●
● ● ●● ●

●● ●


●●● ●● ●
●● ●● ●● ●●

●●● ●●●● ●●●●●
● ● ● ● ● ●●● ● ●● ●●● ● ● ●●
● ●●
● ●●
●● ●●●●
● ● ●● ●

● ●●


●●●● ●●● ●
● ●
●● ●●●
● ●●

●● ●●●●●●●●●●●●
● ● ● ●●●●●●●●● ●●●●●● ●●● ●●
● ●
●●●● ●● ● ●●●
● ● ●●●
●● ●●
● ● ● ● ●● ●●●●● ● ● ● ●
●● ● ●
● ● ● ● ●● ●● ● ●
● ●●● ●
● ● ●●
●●● ●●
●●● ●● ●●
●● ●
●●● ● ●●●● ●●● ●● ●●● ●● ●● ●
● ●●●●●● ●
●●
● ●●
0

●● ●●● ● ●● ●● ●●●● ●● ●● ● ● ● ●●● ●●●●●


● ●● ●
●● ●● ●● ● ● ●● ●● ●● ● ● ●● ●

0 200 400 600 800 0 200 400 600 800

Muestras Muestras

Figura 4.8: El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado


para σ 2 , pero tiene un error cuadrático medio menor que T2 (ejemplo 4.26).
4.3. Evaluación de estimadores 143

Método de mı́nimos cuadrados para estimación de parámetros


Existe otro procedimiento de estimación conocido como el método de mı́ni-
mos cuadrados, el cual se usa en distintas aplicaciones para encontrar los
estimadores de los parámetros relacionados con modelos de diversa ı́ndole.
Se ilustrará con un ejemplo en el marco del criterio del error cuadrático
medio.

Ejemplo 4.27 Considere un conjunto de n puntos en el plano

(x1 , y1 ), . . . , (xn , yn )

y el siguiente experimento: se escoge X con P {X = xi } = 1/n, para i =


1, . . . , n; si X = xi se asigna Y = yi . Suponga que Y tiene la forma aX + b
y se desea encontrar un estimador para Y , de tal manera que se minimice el
error cuadrático medio, el cual es:
n
1X
E[(Y − (aX + b))2 ] = [yi − (axi + b)]2 .
n i=1
Pn 2
Para la función S(a, b) = i=1 [yi − (axi + b)] , los valores que minimizan
la expresión satisfacen:
n n n
∂S(a, b) X X X
= −2 yi xi + 2 ax2i + 2b xi = 0,
∂a i=1 i=1 i=1

n n
∂S(a, b) X X
= −2 yi + 2 axi + 2nb = 0,
∂b i=1 i=1

de donde, las soluciones que minimizan el ECM están dadas por


n n
bb = 1 1X
X
yi − b
a xi
n i=1 n i=1

y !
n n n n n n
X 1X X X 1X X
a
b x2i − xi xi = yi xi − yi xi .
i=1
n i=1 i=1 i=1
n i=1 i=1

A estos estimadores se les conoce como el estimador de mı́nimos cuadra-


dos para a y b. A Yb = b
aX + bb se le llama el estimador de mı́nimos cuadrados
de Y .
144 4. Estimación puntual

4.3.2. Consistencia
La consistencia es otra propiedad deseable en un estimador y tiene que ver
con tamaños de muestra grandes, es decir, es una propiedad asintótica. Esen-
cialmente, un estimador es consistente, si para n (el tamaño de muestra)
grande, el error cometido al estimar τ (θ) con Tn (X) , es pequeño (tiende a
cero).
Definición 4.8 (consistencia en ECM). Sea T1 , T2 , ..., Tn una sucesión
de estimadores de τ (θ), donde Tn está basado en una muestra de tamaño
n. Esta sucesión de estimadores de τ (θ) es consistente en error cuadrático
medio (ECM) si:
lı́m E[(Tn (X) − τ (θ))2 ] = 0. (4.19)
n→∞

Note que (4.19) es una convergencia en media cuadrática, de la sucesión


{Tn } a τ (θ).
Ejemplo 4.28 Sea X1 , . . . , Xn una muestra aleatoria
Pn de la distribución
σ 2 ). Considere los estimadores X¯n = n1 i=1 Xi para µ y Sn2 =
N (µ,P
1 n 2 2
n−1 i=1 (Xi − X̄) para σ . Note que

σ 2 n→∞
E[(X¯n − µ)2 ] = V ar(X¯n ) = −→ 0.
n
Por lo tanto X¯n es consistente para µ. También note que
2σ 4 n→∞
E[(Sn2 − σ 2 )2 ] = V ar(Sn2 ) = −→ 0.
n−1
Por lo tanto Sn2 es consistente para σ 2 .
El error cuadrático medio, ECM, es el criterio para medir la bondad de
un estimador. Una propiedad desable de un estimador es que proporcione,
para muestras grandes, un error (ECM) pequeño en la estimación, es decir,
que sea consistente.

Ilustración del concepto de consistencia mediante simulación


Se simula un conjunto de n = 1000 muestras de tamaño i, para i = 2, . . . , n.
Los estimadores X n y Sn2 son consistentes, y se pueden observar las gráficas
correspondientes en las figuras 4.9 y 4.10.
Definición 4.9 Se dice que una sucesión de estimadores {Tn }n∈N es con-
sistente simple si y sólo si
∀ > 0 lı́m P(|Tn − τ (θ)| < ) = 1. (4.20)
n→∞
4.3. Evaluación de estimadores 145

La consistencia en ECM implica la consistencia simple. Esto se puede


analizar desde dos perspectivas: la primera, notando que (4.20) es una con-
vergencia en probabilidad y usando el hecho de que la convergencia en r-ési-
ma media implica la convergencia en probabilidad; la segunda, utilizando la
desigualdad de Chebyshev:

2 E[(Tn − τ (θ))2 ]
P(|Tn − τ (θ)| ≥ ) = P([Tn − τ (θ)] ≥ 2 ) ≤
2
y la definición de consistencia en ECM.

Xbar consistente
0.6


0.4



µ


0.2


● ●●
Estimación

● ●●

● ● ● ● ●
●● ●
●● ●
● ● ● ● ● ● ●
●● ● ●
● ● ● ● ● ●
● ● ● ● ●●● ● ● ● ●
● ● ● ●● ● ●●● ● ● ●● ●● ● ● ● ● ●
● ● ●● ● ●● ● ● ●
●● ●● ● ●●●● ● ●● ● ● ●
● ●● ● ● ● ● ●● ● ● ● ●
●●● ●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●
● ● ●● ●● ● ● ● ●● ● ● ● ●
● ● ● ●●● ● ●● ● ●● ●●● ● ● ● ●● ● ● ●● ●● ●●●●
●● ●● ●● ●●


●●
● ● ●● ●● ●
●● ●
● ●● ● ● ● ● ●●● ● ● ●● ● ●● ● ●● ● ●●●● ● ●
● ●● ● ● ● ●●● ●●●●●● ●● ● ●
● ● ●●●●● ●●●●●●●● ● ●

0.0

● ● ● ● ● ● ●● ● ● ● ● ●●●● ●● ● ● ●●● ●● ●●●● ●● ●● ● ● ● ● ●●


● ● ● ●●● ● ● ● ● ●● ●● ●
●●●●● ●
● ● ● ● ● ● ●●●● ●●●● ●●● ●● ● ●● ●● ●●●● ●● ●●●●●
●● ● ● ●●●●●●● ●● ●●
●● ●● ● ● ●●
●●
●●●● ●●●● ● ●●
● ● ● ● ●●●● ● ●●● ● ● ● ● ● ●● ●● ● ●●●● ● ● ● ●● ●●●

●● ● ●●●● ● ●● ● ●●● ●● ●●● ● ●● ●●● ●●
● ●●●●●●●●● ●●
● ● ● ● ● ●
●● ●● ● ● ● ● ● ●● ● ● ●
● ● ● ●

● ● ● ●
●● ●●●●
● ●●● ● ● ●●● ● ●●
●●●●● ●●●● ● ● ●● ●
●● ●
● ● ●●● ● ● ●●● ●●● ●●● ● ● ●● ●
● ●● ● ●●● ● ●
●●
●● ● ●● ● ●●● ●
● ●●●● ●
● ●●●● ● ● ● ● ● ●● ● ● ●● ● ●● ●
● ● ● ●●●●● ●●●●●●●●● ●
● ● ●●●●
●● ●

●● ●●●● ●● ● ● ● ● ●● ●●●● ● ●●● ● ●● ● ● ●● ●●●●●

●● ●●● ●● ●● ● ●● ●

● ●


● ●●●● ● ● ●● ●● ● ● ●

●● ●● ● ● ●●
● ● ●
●● ● ● ●
● ● ● ● ● ● ●●● ● ● ● ● ● ● ●
●● ●●● ● ● ● ● ●●●● ● ●● ● ● ●
●● ●●●● ●●● ● ● ● ● ●●● ● ●●● ● ●● ● ●● ●● ● ●● ● ● ● ● ● ●
● ● ● ●●●●● ●

● ●
●●●● ●

● ●● ● ●●● ●● ● ● ●● ● ● ● ●● ● ●● ●


● ● ● ● ●● ●● ● ●● ●●●
● ●● ●
● ●●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ●● ● ●● ● ● ● ● ●●
● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●
●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●
●● ● ● ● ● ● ●● ● ● ● ●
● ●●● ● ● ● ●
● ● ● ● ●● ● ● ●
●● ●● ● ● ● ●●
● ● ● ●
● ●
●● ● ● ● ● ●
−0.2

● ●● ● ●● ●
● ●
● ● ●● ● ●

● ● ●

●● ●

● ●

−0.4

● ●

0 200 400 600 800 1000

Tamaño de muestra

Figura 4.9: Ilustración de la consistencia de X en el contexto del ejemplo


4.28.
146 4. Estimación puntual

S2 consistente
2.0

●●

● ●

1.5



Estimación

● ●

● ●

σ
● ● ●●

● ● ●
●● ● ● ●
● ● ●
●● ● ● ●●
● ●
● ● ●● ● ● ● ● ●
● ● ●●● ● ● ●● ● ● ●
●● ● ●●● ● ● ●● ● ● ●● ●● ●● ●
● ●● ● ● ● ●● ●● ● ●
● ●
● ● ● ● ●
● ●●●●● ● ●●●● ●● ●
●● ●
● ● ●
● ● ● ● ● ● ●● ●●● ●
● ● ●
● ● ● ●● ● ● ● ●●
● ● ●● ● ● ● ●●● ●
● ●●● ●● ●● ●●● ●
●● ●
● ● ● ●●
● ● ●
● ●● ●● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ●●● ●●●● ●●●● ●●●●
● ● ●● ● ● ●
●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●●●● ● ● ●● ● ●● ● ●● ● ● ● ●●● ●
● ● ● ● ● ●● ●●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●● ●●● ● ●● ● ● ● ● ●● ●● ●
1.0

● ●
●● ● ●●●● ● ● ●●●● ●●● ●● ● ●●
●● ●● ● ●● ● ●●
● ●●●●●● ●●●
● ● ●●
● ● ● ●● ●● ● ●●● ● ●●●
●●
● ●
●● ●● ●●
●● ●● ● ● ● ● ●●●●● ●● ●●● ●●● ●

●●●●●
●●● ● ●● ●● ●
● ● ●● ● ●
●● ● ● ● ● ●● ●

● ●● ● ●
● ●● ● ●● ●
●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●
●●● ●● ● ● ●● ●
●●● ● ●● ●● ●
●● ● ●●● ● ● ●
● ●● ●● ●● ●●●●●●
●●●●●●●
●●●●●
● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●●●● ●●●●●
● ● ● ●
●● ● ●●● ●● ● ●●
● ● ●●●
● ●●
●●●● ●
● ●●● ● ● ●●●
●● ●● ● ● ●●● ● ● ●● ● ●

● ●●●● ●● ●● ● ● ● ●
●● ● ●●●●● ●● ● ●● ● ●●●● ● ●● ● ● ● ●●
● ● ●● ●
● ●

● ● ● ● ● ●●●● ●●

● ● ● ● ● ● ●●● ●●● ● ● ●● ● ●● ●● ●● ● ●●● ●●●● ● ●●● ● ●● ● ● ●●● ● ● ● ●●● ● ●
● ● ● ● ●● ●● ●
● ●●● ●●● ● ●●●●● ● ● ●● ● ●● ●● ● ●● ● ● ●

● ●●
● ●●●● ● ● ● ●●● ●● ●●● ●

● ●● ● ●●● ● ● ●● ●
● ●● ● ● ● ● ● ●
●● ● ● ●● ● ●● ●
● ● ● ● ●
●● ●● ● ● ●●● ●● ● ●● ●
● ●
●● ●●●● ●
● ●
● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●●
● ●● ● ●●
● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ● ● ●
●● ● ●● ● ●
● ●● ●● ● ● ● ●● ● ● ●
● ●● ●● ●
● ● ●●
● ●

● ●● ● ● ● ● ●● ● ● ●

● ●● ● ● ● ● ● ● ● ● ●

●●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
●● ● ● ●●●● ●


● ●● ●
● ●●
● ●

●● ● ●




● ●
0.5



0 200 400 600 800 1000

Tamaño de muestra

Figura 4.10: Ilustración de la consistencia de S 2 en el contexto del ejemplo


4.28.

4.3.3. Funciones de pérdida y estimación


El enfoque Bayesiano al problema de estimación de parámetros es a través
de una función de pérdida L(θ, a), la cual mide la pérdida en que se incurre
cuando se estima el valor de un parámetro mediante a, siendo que el verdade-
ro valor es θ. Entonces θ̂ se selecciona de tal manera que minimice E[L(θ, θ̂)],
donde esta esperanza se toma con respecto a θ usando la distribución a
posteriori π(θ|x).

Definición 4.10 A L(θ, a) = (a − θ)2 se le llama la función de pérdida


del error cuadrático.

Observe que:
Z Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ = (a − θ)2 π(θ|x1 , . . . , xn )dθ.

Diferenciando esta expresión con respecto a a, se obtiene:


4.3. Evaluación de estimadores 147

Z Z
2 (a − θ)π(θ|x1 , . . . , xn )dθ = 0 =⇒ a = θπ(θ|x1 , . . . , xn )dθ

Por lo tanto, la pérdida del error cuadrático se minimiza en θ̂, la media o


esperanza a posteriori de θ.

Definición 4.11 A L(θ, a) = |a − θ| se le llama la función de pérdida


del error absoluto.

En este caso,
Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ
Z a Z ∞
= (a − θ)π(θ|x1 , . . . , xn )dθ + (θ − a)π(θ|x1 , . . . , xn )dθ.
−∞ a
Diferenciando con respecto a a, se llega a que el mı́nimo debe cumplir que:
Z a Z ∞
π(θ|x1 , . . . , xn )dθ − π(θ|x1 , . . . , xn )dθ = 0
θ=−∞ a

1
Ası́, ambas integrales deberı́an ser iguales a 2 y θ̂ es la mediana a poste-
riori.

Ejemplo 4.29 Sea X1 , . . . , Xn una muestra aleatoria de una población con


distribución P oisson(λ), Suponga que λ ∼ Exponencial(1), de modo que

π(λ) = e−λ , λ > 0.

La distribución a posteriori es
n
Y e−λ λxi Pn
π(λ|x1 , . . . , xn ) = e−λ ∝ e−λ(n+1) λ i=1 xi
,
i=1
xi !
Pn
es decir, Gama( i=1 xi + 1, n + 1). Entonces, usando la función de pérdida
del error cuadrático medio:
Pn
xi + 1
θ̂ = media a posteriori = i=1 .
n+1
Y bajo la función de pérdida del error absoluto, θ̂ es la solución a:
Pn Pn
θ̂
e−λ(n+1) λ xi xi +1
Z
i=1 (n + 1) i=1 1
Pn dλ = .
0 ( i=1 xi )! 2
148 4. Estimación puntual

4.4. Estimación insesgada


En esta sección se hará una restricción considerando únicamente a los esti-
madores insesgados, es decir, a los estimadores T (X) que pertenecen a la
clase:
Cτ (θ) = {T (X) | E [T (X)] = τ (θ)} ,
la clase de estimadores insesgados para τ (θ) .
El siguiente ejemplo muestra la idea subyacente en esta sección en cuanto
a la estimación basada en minimizar la varianza de estimadores insesgados.
Ejemplo 4.30 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución P oisson(λ). Primero note que
E(Xi ) = λ, V ar(Xi ) = λ y E(Xi2 ) = V ar(Xi ) + E2 (Xi ) = λ + λ2 .
Pn
Considerando ahora la estadı́stica G(X1 , . . . , Xn ) = i=1 Xi , note que G(X)
tiene distribución P oisson(nλ); por lo que E(G) = nλ y V ar(G) = nλ. Sean
a ∈ (0, 1) una constante y
Ta (X1 , . . . , Xn ) = aX̄ + (1 − a)S 2 .
Entonces,
1
E(X̄) = E(G) = λ;
n
1 λ
V ar(X̄) = V ar(G) = ;
n2 n
λ
E(X̄ 2 ) = V ar(X̄) + E2 (X̄) = + λ2 ;
n
n
1 X
E(S 2 ) = E( X 2 − nX̄ 2 )
n − 1 i=1 i
1 λ
= (n(λ + λ2 ) − n( + λ2 ))
n−1 n
1
= (nλ − λ) = λ, y
n−1
E(Ta (X1 , . . . , Xn )) = E(aX̄ + (1 − a)S 2 ) = aE(X̄) + (1 − a)E(S 2 ) = λ.
Ası́, se tiene una familia infinita de estimadores insesgados para λ; entonces
se puede optar por utilizar el estimador que tenga el menor ECM.
Definición 4.12 Un estimador T ∗ (X) insesgado de varianza mı́nima uni-
formemente (UMVUE5 ) para τ (θ) satisface:
5 Por Uniformly Minimum Variance Unbiased Estimator.
4.4. Estimación insesgada 149

(a) T ∗ (X) ∈ Cτ (θ) , es decir, E [T ∗ (X)] = τ (θ) .


(b) Para todo θ ∈ Θ, V ar (T ∗ (X)) ≤ V ar (T (X)) , donde T (X) es cual-
quier otro estimador en Cτ (θ) .

El UMVUE se refiere entonces al mejor estimador insesgado para τ (θ)


en el sentido de que tiene el menor error cuadrático medio para toda θ ∈ Θ.
El objetivo de esta sección es encontrar el UMVUE para τ (θ) , para ello
se discutirán tres resultados en donde se utilizan los conceptos analizados
previamente. En primer lugar se analizará el planteamiento que Cramèr y
Rao hicieron con base en el cálculo de una cota inferior para la varianza de
un estimador insesgado. Esta propuesta tiene ciertas restricciones, como el
hecho de que requiere el cumplimiento de ciertas condiciones de regularidad
para la densidad, entre otras. Posteriormente se enunciará el teorema de
Rao-Blackwell, el cual utiliza la suficiencia de una estadı́stica para la cons-
trucción de UMVUEs bajo la idea de que un estimador que se basa en una
estadı́stica suficiente será mejor que otro que no lo hace. Finalmente se enun-
cia el teorema de Lehmann-Scheffé, el cual, además de la suficiencia, utiliza
el concepto de completez y permite encontrar un UMVUE construyendo un
estimador insesgado a partir de una estadı́stica suficiente y completa, la que
a su vez puede hallarse usando los resultados antes vistos o, en su caso,
identificando a un miembro de la familia exponencial.

4.4.1. La propuesta de Cramèr y Rao


En esta sección se estudia un resultado propuesto por Cramèr y Rao, el cual
se basa en el hecho de que, para ver qué tan bueno es un estimador insesgado
con respecto a otro, es necesario analizar la varianza de dicho estimador. Ası́,
si la varianza o el error estándar de un estimador es una cantidad de interés
para hablar de su bondad, serı́a deseable contar con una expresión con la
cual pueda compararse esta varianza. Esta expresión será una cota inferior
para la varianza, de tal manera que si la varianza de un estimador insesgado
es igual a esa cota, se puede afirmar que el estimador es el UMVUE. Antes de
presentar el teorema de Cramèr y Rao, en donde se da la cota mencionada,
es necesario enunciar algunas definiciones y resultados que servirán para la
demostración de dicho teorema.

Definición 4.13 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) y sea


T(X) un estimador insesgado de τ (θ). Las siguientes se conocen como con-
diciones de regularidad:
El soporte de f (x; θ) se define como sop(f ) = {x : f (x) > 0} y este es
el mismo para toda θ.
150 4. Estimación puntual


Para todo x ∈ sop(f ), ∂θ ln f (x; θ) existe.

R R R RR R ∂
∂θ ... T (x)f (x; θ)dx1 ...dxn = ... ∂θ T (x)f (x; θ)dx1 ...dxn .
∂ ∂
R R R R R R
∂θ ... f (x; θ)dx1 ...dxn = ... ∂θ f (x; θ)dx1 ...dxn .
 2 
0 < E ∂ ln∂θ f (x;θ)
< ∞.

Observe que esta definición establece principalmente la condición que


debe cumplir una función para que se puedan intercambiar derivadas e inte-
grales, lo cual no siempre se cumple. En general, los miembros de la familia
exponencial cumplen las condiciones de regularidad, pero densidades como la
Uniforme Continua no. Para ver este caso especı́fico de la Uniforme considere
su función de densidad
1
f (x; θ) = I(0,θ) (x) .
θ
A continuación se obtiene la derivada con respecto a θ de la integral, de la
siguiente manera:
Z θ Z θ
∂ ∂ 1
t (x) f (x; θ)dx = t (x) dx.
∂θ 0 ∂θ 0 θ
Utilizando la regla de Leibnitz, la cual es una aplicación del teorema Funda-
mental del Cálculo y de la regla de la cadena, y que establece que si h(x; θ),
a (θ) y b (θ) son diferenciables con respecto a θ, entonces
Z b(θ)
∂ ∂ ∂
h(x; θ)dx = h (b (θ) , θ) b (θ) − h (a (θ) , θ) a (θ)
∂θ a(θ) ∂θ ∂θ
Z b(θ)

+ h(x; θ)dx.
a(θ) ∂θ

En el caso que se está analizando, a (θ) = 0, b (θ) = θ y h (x; θ) = t (x) θ1 .


Z θ Z θ  
∂ 1 t (θ) ∂ 1
t (x) dx = + t (x) dx
∂θ 0 θ θ 0 ∂θ θ
Z θ  
∂ 1
6= t (x) dx,
0 ∂θ θ

al menos que t(θ)


θ = 0.
Ahora se definirán algunas funciones que están involucradas en la cota
inferior para la varianza propuesta por Cramèr y Rao.
4.4. Estimación insesgada 151

Definición 4.14 La función score o función de puntaje se define como:



Sc(x; θ) = ln f (x; θ).
∂θ
Definición 4.15 La información esperada de Fisher se define como:
" 2 #

= E (Sc)2 .
 
IX (θ) = E ln f (X; θ)
∂θ

Observación 4.3 La función score también puede escribirse como:


∂ f 0 (x; θ)
Sc(x; θ) = ln f (x; θ) =
∂θ f (x; θ)
n n
∂ Y X ∂
= ln f (xi ; θ) = ln f (xi ; θ). (4.21)
∂θ i=1 i=1
∂θ

Lema 4.1 Si se satisfacen las condiciones de regularidad, entonces:


(a) E(Sc) = 0.
(b) V ar(Sc) = IX (θ).
Demostración.
(a)
Z Z Z  

E [Sc(x; θ)] = ··· ln f (x; θ) f (x; θ)dx1 ...dxn

Z Z Z 0
f (x; θ)
= ... f (x; θ)dx1 ...dxn
f (x; θ)
Z Z Z

= ... f (x; θ)dx1 ...dxn
∂θ
Z Z Z

= ... f (x; θ)dx1 ...dxn
∂θ

= (1) = 0
∂θ
∴ E(Sc) = 0.
(b)
V ar(Sc) = E(Sc2 ) − E2 (Sc) = IX (θ) − 0 = IX (θ).
∴ V ar(Sc) = IX (θ).

152 4. Estimación puntual

Definición 4.16 Si X es una variable aleatoria, entonces a


" 2 #

IX (θ) = E ln f (X; θ)
∂θ

se le conoce como información esperada de Fisher por unidad mues-


tral.

Es más sencillo calcular la información esperada de Fisher por unidad


muestral y el siguiente resultado la relaciona con la información esperada de
Fisher para la muestra, ası́ como con otras expresiones.

Lema 4.2 Si se cumplen las condiciones de regularidad, entonces:


(a) IX (θ) = nIX (θ).
h 2 i

(b) IX (θ) = −E ∂θ 2 ln f (X; θ) .
h i
∂2
(c) IX (θ) = −nE ∂θ 2 ln f (X; θ) .

Demostración.
P 2
(a) Como (θ) = E(Sc2 ) y usando (4.21), ası́ como el hecho de que ( ai ) =
P 2 IX P
ai + i6=j ai aj ,

 !2 
n
X ∂
IX (θ) = E  ln f (Xi ; θ) 
i=1
∂θ
n
" 2 #
X ∂
= E ln f (Xi ; θ)
i=1
∂θ
X  ∂ 


+ E ln f (Xi ; θ) ln f (Xj ; θ) .
∂θ ∂θ
i6=j

Como las variables X1 , ..., Xn son independientes, se tiene que


 

ln f (Xi ; θ)
∂θ
y  

ln f (Xj ; θ) ,
∂θ
4.4. Estimación insesgada 153

también lo son y
  
∂ ∂
E ln f (Xi ; θ) ln f (Xj ; θ)
∂θ ∂θ

es igual a    
∂ ∂
E ln f (Xi ; θ) E ln f (Xj ; θ) ,
∂θ ∂θ
donde, para el caso continuo, y bajo el supuesto de que se cumplen las
condiciones de regularidad:
  Z ∞ ∂
∂ ∂θ f (xi ; θ)
E ln f (Xi ; θ) = f (xi ; θ)dxi
∂θ −∞ f (xi ; θ)
Z ∞

= f (xi ; θ)dx
−∞ ∂θ
Z ∞
∂ ∂
= f (xi ; θ)dx = (1) = 0.
∂θ −∞ ∂θ

Ası́,
n
" 2 #
X ∂
IX (θ) = E ln f (Xi ; θ)
i=1
∂θ
" 2 #

= nE ln f (X; θ) ,
∂θ

debido a que las Xi ’s son idénticamente distribuidas.


(b) Observe que

∂2 ∂ f 0 (x; θ)
ln f (x; θ) =
∂θ2 ∂θ f (x; θ)
f (x; θ) f 00 (x; θ) − f 0 (x; θ) f 0 (x; θ)
= 2
[f (x; θ)]
00
 0 2
f (x; θ) f (x; θ)
= − .
f (x; θ) f (x; θ)

Ası́,
( 2 )
f 00 (X; θ)
 0
∂2
 
f (X; θ)
−E ln f (X; θ) = −E − ,
∂θ2 f (X; θ) f (X; θ)
154 4. Estimación puntual

y como
f 00 (X; θ) f 00 (x; θ)
  Z Z
E = ··· f (x; θ) dx1 · · · dxn
f (X; θ) f (x; θ)
2 Z Z

= · · · f (x; θ) dx1 · · · dxn = 0,
∂θ2

" 2 #
∂2 f 0 (X; θ)
 
−E ln f (X; θ) = E
∂θ2 f (X; θ)
" 2 #

= E ln f (X; θ)
∂θ
= IX (θ).

(c) Se deduce de los dos resultados anteriores.




Teorema 4.2 (de Cramèr y Rao). Sean X1 , . . . , Xn una muestra aleato-


ria de f (x; θ) y T (X) un estimador insesgado de τ (θ). Si se satisfacen las
condiciones de regularidad, entonces

(τ 0 (θ))2
V ar(T ) ≥ . (4.22)
IX (θ)
| {z }
CICR(τ (θ))

Esta desigualdad se conoce como la desigualdad de Cramèr-Rao o de-


2
[τ 0 (θ)]
sigualdad de la información y a la cantidad IX(θ) como la cota inferior
de Cramèr y Rao (CICR).
En (4.22) la igualdad se da si y sólo si:
n
X ∂
ln f (xi ; θ) = k(θ; n)[T (x) − τ (θ)],
i=1
∂θ

donde k puede depender de θ y de n.


Demostración. Este resultado se deduce de la conocida desigualdad de
Cauchy-Schwarz, la cual establece que si X y Y son variables aleatorias,
entonces:
2
{Cov (X, Y )} ≤ V ar (X) V ar (Y ) ,
4.4. Estimación insesgada 155

dándose la igualdad si y sólo si

Y − E (Y ) = k [X − E (X)] (4.23)

Aplicando esta desigualdad a las variables T (X) y Sc(X; θ), se obtiene:


2
{Cov (T, SC )} ≤ V ar (T ) V ar (SC ) . (4.24)

Usando el lema 4.1, se tiene que V ar(Sc) = IX (θ), por lo que (4.24) se puede
escribir como:
2
{Cov (T, SC )}
V ar(T ) ≥ .
IX (θ)
Por otro lado,
Cov (T, SC ) = E (T SC ) − E (T ) E (SC )
y nuevamente por el lema 4.1, E (SC ) = 0, mientras que:

f (x; θ)
Z Z
E (T SC ) = ··· t (x) ∂θ f (x; θ) dx1 · · · dxn
f (x; θ)
Z Z

= · · · t (x) f (x; θ) dx1 · · · dxn
∂θ
∂ ∂
= E (T (X)) = τ (θ) = τ 0 (θ) ,
∂θ ∂θ
los pasos anteriores se justifican por la definición de SC , las condiciones de
regularidad y el hecho de que T es insesgado para τ (θ) . Ası́,
2
{τ 0 (θ)}
V ar(T ) ≥ .
IX (θ)

Para ver la condición en la que se alcanza la cota, es decir, en la que se da


la igualdad, se usa (4.23), obteniendo:

SC − E (SC ) = k [T − E (T )]
Pn ∂
y como E (SC ) = 0, SC = i=1 ∂θ ln f (xi ; θ) y E (T ) = τ (θ) , se comprueba
la segunda parte del teorema. 

Ejemplo 4.31 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


N (0, σ 2 ). Para encontrar IX (σ 2 ):
156 4. Estimación puntual

 
1 − 2σ12 x2
ln f (x; θ) = ln √ e
2πσ 2
1 1 1
= − ln(2π) − ln(σ 2 ) − 2 x2 ,
2 2 2σ
∂ 2 1 x2
ln f (x; σ ) = − + ,
∂σ 2 2σ 2 2(σ 2 )2
∂2 2 1 x2
ln f (x; σ ) = − .
∂(σ 2 )2 2(σ 2 )2 (σ 2 )3
Entonces,
∂2 E(X 2 )
   
1
IX (σ 2 ) = −nE ln f (X; σ 2
) = n −
∂(σ 2 )2 σ6 2σ 4
 2   
σ 1 1 1 n
= n 6 − 4 =n 4 − 4 = .
σ 2σ σ 2σ 2σ 4
2σ 4
Entonces, la CICR para estimadores insesgados de σ 2 es n .

Ejemplo 4.32 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


exp(θ). Para encontrar IX (θ):

ln f (x; θ) = ln θe−θx = ln(θ) − θx,




de donde
∂ 1
ln f (x; θ) = − x.
∂θ θ
Entonces,
" 2 # " 2 #
∂ 1 n
IX (θ) = nE ln f (X; θ) = nE −X = n V ar(X) = 2 .
∂θ θ θ

Para encontrar la CICR para estimadores insesgados de θ:

τ1 (θ) = θ ⇒ τ10 (θ) = 1.

Entonces,
1 θ2
CICR(θ) = = .
IX (θ) n
Para encontrar la CICR para estimadores insesgados de τ2 (θ) = θ1 :
1 1
τ2 (θ) = ⇒ τ20 (θ) = − 2 .
θ θ
4.4. Estimación insesgada 157

Entonces,
1/θ4 1/θ4 1
CICR(τ2 (θ)) = = = 2.
IX (θ) n/θ2 nθ

Observación 4.4 Para responder a la pregunta: ¿existe alguna función de


θ, τ (θ) , para la cual hay un estimador insesgado cuya varianza coincide con
la CICR?, se usa la segunda parte del teorema, es decir, la condición para
la alcanzabilidad de la cota.

Ejemplo 4.33 Para la distribución Exponencial, ¿existe alguna función de


θ, τ (θ) , para la cual hay un estimador cuya varianza coincide con la CICR?
Usando la segunda parte del teorema de Cramèr y Rao, se tiene que
n n n
X ∂ X ∂  X ∂
ln θe−θxi =

ln f (xi ; θ) = [ln θ − θxi ]
i=1
∂θ i=1
∂θ i=1
∂θ
n   n
X 1 n X
= − xi = − xi
i=1
θ θ i=1
 Pn   
i=1 xi 1 1
= −n − = −n x − .
n θ θ

Ası́, se puede afirmar que τ (θ) = θ1 es una función de θ para la cual existe
un estimador insesgado T (X) = X, cuya varianza coincide con la CICR. En
otras palabras, X es el UMVUE de τ (θ) = θ1 . Aunque en general no es ne-
cesario probarlo, es claro que en este caso: V ar X = θ21n = CICR (τ (θ)) .


Observación 4.5

1. Si la varianza de un estimador insesgado coincide con la CICR, enton-


ces el estimador es un UMVUE. Pero el UMVUE puede existir sin que
su varianza coincida con la CICR.

2. Si la muestra aleatoria es de algún miembro de la familia exponencial,


siempre existe una función de θ para la cual hay un estimador insesgado
cuya varianza coincide con la CICR (basta factorizar
n
X ∂
ln a(θ)b(x) exp{c(θ)d(xi )}
i=1
∂θ

en la forma indicada en la segunda parte del teorema de Cramèr y


Rao).
158 4. Estimación puntual

3. Aun cuando la varianza de un estimador insesgado alcance la CICR,


esta situación se da para una función especı́fica de θ, que puede no ser
la que se esté analizando. En el caso de la distribución Exponencial,
en el ejemplo 4.33 se obtuvo que X es el UMVUE de θ1 usando la se-
gunda parte del teorema de Cramèr y Rao; sin embargo, si el objetivo
es encontrar el UMVUE de θ, este resultado no da información adicio-
nal (salvo la expresión correspondiente para la CICR que sirve para
compararla con la varianza de algún estimador que se proponga).

4. La teorı́a desarrollada por Cramèr y Rao sólo es para densidades que


satisfacen las condiciones de regularidad.

5. Cuando la varianza de un estimador alcanza la CICR también se dice


que es eficiente y la eficiencia de un estimador insesgado se mide como
CICR
V ar(T ) , cantidad que es menor o igual a 1. Por lo que un estimador es
eficiente si y sólo si el cociente anterior es 1.

Dadas estas restricciones se analizarán otros resultados que incorporan


los conceptos de suficiencia y completez, lo cual se hará en las secciones 4.4.2
y 4.4.3.

Generalización
Aquı́ se considerarán brevemente la generalización de la teorı́a de Cramèr y
Rao para cuando se tienen distribuciones de dos o más parámetros. En el
caso de dos parámetros, la información esperada de Fisher (para una muestra
de tamaño n), llamada la matriz de información de Fisher, se define como:
 h 2 i h 2 i 
∂ ∂
E ∂θ ln f (X; θ) E ∂θ ln f (X; θ)
IX (θ) = −  h 21 i h 1 ∂θ 2 i ,
∂2
E ∂θ∂2 ∂θ1 ln f (X; θ) E ∂θ 2
ln f (X; θ)

y para el caso de k parámetros IX (θ) toma la forma:


 h 2 i h 2 i h 2 i 

E ∂θ 2 ln f (X; θ) E ∂θ∂1 ∂θ2 ln f (X; θ) · · · E ∂θ∂1 ∂θk ln f (X; θ)
 h 21 i h 2 i h 2 i 
 E ∂θ∂2 ∂θ1 ln f (X; θ) ∂
E ∂θ 2 ln f (X; θ) · · · E ∂θ∂2 ∂θk ln f (X; θ)
 

 2 
 .. .. .. .. 
 h 2 .

i h 2 . i . h 2 . i


E ∂θ∂k ∂θ1 ln f (X; θ) E ∂θ∂k ∂θ2 ln f (X; θ) · · · ∂
E ∂θ 2 ln f (X; θ)
k

Y la cota inferior de Cramèr y Rao es la inversa de la matriz de información,


−1
es decir, IX (θ).
4.4. Estimación insesgada 159

4.4.2. El teorema de Rao-Blackwell


Como se ha visto, una estadı́stica suficiente conserva toda la información
relevante contenida en la muestra acerca del parámetro de interés. Ası́, los
estimadores basados en estadı́sticas suficientes son mejores (que los que no
están basados en estadı́sticas suficientes) como establece el siguiente resul-
tado.

Teorema 4.3 (Rao-Blackwell). Sean T (X) un estimador insesgado para


τ (θ) y S una estadı́stica suficiente. Sea T ∗ (X) := E(T |S). Entonces,

(a) T ∗ es una estadistica función de S.

(b) T ∗ es insesgado para τ (θ), es decir, E (T ∗ ) = τ (θ).

(c) V ar(T ∗ ) ≤ V ar(T ) para toda θ ∈ Θ.

Demostración.

(a) Usando la definición de la esperanza condicional en el caso continuo,


Z ∞
T∗ = tfT /S (t/s) dt
−∞

es una función de S, además fT /S no depende de θ por ser S una


estadı́stica suficiente, por lo que T ∗ es una estadı́stica.

(b) Por las propiedades de la esperanza condicional,

E (T ∗ ) = E (E (T /S)) = E (T ) = τ (θ).

(c) Usando las propiedades de la varianza condicional,

V ar(T ) = V ar (E (T /S)) + E (V ar (T /S)) ,

lo cual implica que

V ar(T ) = V ar (T ∗ ) + E (V ar (T /S)) ,

y como V ar (T /S) ≥ 0, se obtiene el resultado.


160 4. Estimación puntual

Ejemplo 4.34 Sea X1P , . . . , Xn una muestra aleatoria de la distribución


n
Bernoulli(θ). S(X) = i=1 Xi es una estadı́stica suficiente para θ, lo cual
se ha verificado (basta ver que la distribución Bernoulli pertenece a la familia
exponencial). T (X) = X1 es un estimador insesgado de θ (pues E(X1 ) = θ).
Entonces
n
!
X

T (X) = E(T |S = s) =E X1 | Xi = s
i=1
n
!
X
=0 · P X1 = 0| Xi = s
i=1
n
!
X
+ 1 · P X1 = 1| Xi = s
i=1
n
!
X
=P X1 = 1 | Xi = s
i=1
Pn
P (X1 = 1, i=1 Xi = s)
= Pn .
P ( i=1 Xi = s)
Pn
Donde Xi ∼ Bin(n, θ). Pero
i=1
Pn Pn
P(X1 = 1; i=1 Xi = s) P(X1 = 1)P ( i=2 Xi = s − 1)
Pn = n s

n−s
s θ (1 − θ)
P( i=1 Xi = s)
n−1
 n−1
 (n−1)!
θ s−1 θs−1 (1 − θ)n−1−s+1 s−1 (s−1)!(n−s)! s
= n s

n−s
= n
 = n!
= .
s θ (1 − θ) s s!(n−s)!
n
Por lo tanto, Pn
Xi
T ∗ (X) = i=1
= X.
n
El estimador resultante es insesgado, pues E(X̄) = θ y tiene varianza menor
que X1 , ya que
θ(1 − θ)
V ar(X̄) = ≤ θ(1 − θ) = V ar(X1 ),
n
las cuales son iguales sólo en el caso n = 1.

4.4.3. El teorema de Lehmann-Scheffé


El siguiente resultado muestra que un estimador insesgado función de la
estadı́stica suficiente y completa será el UMVUE.
4.4. Estimación insesgada 161

Teorema 4.4 (Lehmann-Scheffé). Sea X1 , . . . , Xn una muestra aleatoria


de f (x; θ) y sea S una estadı́stica suficiente y completa. Sea T ∗ (X) una
función de S tal que E(T ∗ ) = τ (θ) (T ∗ es insesgado para τ (θ)), entonces T ∗
es el UMVUE de τ (θ).

Demostración. Sea T 0 (X) , función de S, tal que E(T 0 ) = τ (θ). Sea g(S) =
T ∗ − T 0 . Note que

E[g(S)] = E(T ∗ − T 0 ) = E[T ∗ ] − E[T 0 ] = τ (θ) − τ (θ) = 0

∴ E[g(S)] = 0

Entonces, por la completez de S se tiene que P[g(S) = 0] = 1, para toda


θ ∈ Θ. De esta manera, P[T ∗ = T 0 ] = 1 para toda θ ∈ Θ y, por lo tanto, T ∗
es único (c.s.). Es decir, T ∗ es el único estimador insesgado de τ (θ) que es
función de S.
Por otro lado, sea T tal que E[T ] = τ (θ). Por el teorema de Rao-Blackwell,
E[T |S] es estimador insesgado de τ (θ) y es función de S, lo que implica que
T ∗ = E[T |S]. Ası́, por el teorema de Rao-Blackwell, V ar(T ∗ ) ≤ V ar(T ),
para toda θ ∈ Θ. 

Ejemplo 4.35 Sea X1 , . . . , Xn una muestra aleatoria de la distribución


Exp(θ), donde θ > 0. Como f (x; θ) = θe−θx , entonces
Pn f (x; θ) es de la
familia exponencial con d(x) = x. Entonces, S(X) = i=1 Xi es suficiente
y completa. Para encontrar el UMVUE de θ y de τ (θ) = θ1 , se obtiene

n
!
X 1 n
E(S) = E Xi = nE(Xi ) = n =
i=1
θ θ

y como E[X̄] = θ1 , entonces X es el UMVUE de θ1 , pues es función de la


estadı́stica suficiente y completa y además es insesgado para θ (note que
este resultado coincide con el obtenido mediante la teorı́a Cramèr y Rao,
ejemplo 4.33).
Para encontrar el UMVUE de θ, éste será de la forma Pn k Xi , donde
Pn i=1
S = i=1 Xi tiene distribución Gama (n, θ) . Entonces, observe que:
162 4. Estimación puntual

     
k k 1
E Pn =E = kE
i=1 Xi S S
Z ∞
1 θn n−1 −θs
=k s e ds
0 s Γ(n)
Z ∞ n
θ
=k sn−2 e−θs ds
0 Γ(n)
θn Γ(n − 1) ∞ θn−1 (n−1)−1 −θs
Z
=k s e ds
Γ(n) θn−1 0 Γ(n − 1)
| {z }
1
θn Γ(n − 1) Γ(n − 1) kθ
=k n−1 =k = .
θ Γ(n) (n − 1)Γ(n − 1)θ−1 n−1

Por lo que, para que k/Y sea insesgado, k debe ser igual a n − 1. Por lo
tanto,
n−1
T ∗ (X) = Pn
i=1 Xi

es el UMVUE de θ.
Para encontrar la CICR para estimadores insesgados de θ (ver ejemplo
4.32):
" 2 #

IX (θ) =nE ln f (X; θ)
∂θ
" 2 #
∂ −θX
=nE ln θe
∂θ
" 2 #

=nE (ln θ − θX)
∂θ
" 2 #
1
=nE −X
θ
n
=nV ar(X) = 2 .
θ

Entonces, la CICR para estimadores insesgados de θ es:

1 θ2
CICR(θ) = = .
IX (θ) n
4.4. Estimación insesgada 163

El segundo momento de T ∗ (X) = Pn−1


n está dado por:
i=1 Xi

(n − 1)2
   
2 1
E = (n − 1) E 2
S2 S
Z ∞
1 θn n−1 −θs
= (n − 1)2 s e ds
0 s2 Γ(n)

θn
Z
= (n − 1)2 sn−3 e−θs ds
Γ(n) 0
θn Γ(n − 2) ∞ θn−2 (n−2)−1 −θs
Z
= (n − 1)2 s e ds
Γ(n) θn−2 0 Γ(n − 2)
| {z }
1
θn Γ(n − 2)
= (n − 1)2 n−2
θ Γ(n)
Γ(n − 2)
= (n − 1)2
(n − 1)(n − 2)Γ(n − 2)θ−2
(n − 1)θ2
= .
n−2
Entonces,
(n − 1)θ2 θ2
V ar(T ∗ (X)) = − θ2 =
n−2 n−2
es la varianza del UMVUE de θ.
Note que
θ2 θ2
V ar(T ∗ (X)) = > = CICR(θ).
n−2 n
Ejemplo 4.36 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
P oisson(θ). Sea τ (θ) = P(X = 0) = e−θ .

(a) Encontrar el estimador máximo verosı́mil de θ y τ (θ).

(b) Encontrar el estimador por momentos de θ.

(c) ¿Pertenece f (x; θ) a la familia exponencial?

(d) Encontrar una estadı́stica suficiente minimal y completa.

(e) Encontrar la CICR para estimadores insesgados de θ y τ (θ).

(f) ¿Existirá una función de θ, para la cual hay un estimador insesgado


cuya varianza coincide con la CICR? Si es ası́, encontrarlo.
164 4. Estimación puntual

(g) Encontrar un estimador insesgado de τ (θ) y usar el teorema de Rao-


Blackwell para hallar un estimador insesgado función de la estadı́stica
suficiente.
(h) Decir cuáles son los UMVUEs de θ y τ (θ), respectivamente.

Solución:
(a)
n n n I(xi )
Y Y e−θ θxi (x )
Pn Y {0,1,...}
L(θ) = f (xi ; θ) = i
I{0,1,...} = e−nθ θ i=1 xi

i=1 i=1
xi ! i=1
xi !

y el logaritmo de la verosimilitud es
 
n n I(xi )
{0,1,...}
X Y
l(θ) = −nθ + ( xi ) ln θ + ln  ,
i=1 i=1
xi !

de donde, Pn
∂ xi
l(θ) = −n + i=1 .
∂θ θ

Entonces, ∂θ l(θ) = 0 si y sólo si
Pn Pn Pn
xi xi xi
−n + i=1 = 0 ⇔ n = i=1 ⇔ θb = i=1 .
θb θb n
Pn
Por lo tanto θ̂M.V. = n1 i=1 Xi = X̄. Para τ (θ), aplicando la pro-
piedad de invarianza de los estimadores máximo verosı́miles τ (θ̂M.V. )
es estimador máximo versı́mil de τ (θ). Por lo tanto e−X̄ es estimador
máximo verosı́mil de τ (θ) = e−θ .

(b) Recuerde que E(X) = θ, entonces el estimador por momentos está


dado por
n
1X
θ̂ = Xi = X̄.
n i=1

(c) Como
e−θ θx (x)
f (x; θ) = I
x! {0,1,...}
si
1 (x)
a(θ) = e−θ , b(x) = I , c(θ) = ln(θ), d(x) = x.
x! {0,1,...}
4.4. Estimación insesgada 165

Entonces,

f (x; θ) = a(θ)b(x)ec(θ)d(x) .

Por lo tanto pertenece a la familia exponencial.

(d) P
Como f (x; θ) pertenece a la familia exponencial entonces T (x) =
n Pn
i=1 d(Xi ) = X
i=1 i es una estadı́stica suficiente minimal y com-
pleta.

(e) La información esperada de Fisher está dada por

" 2 #

IX (θ) =nE ln f (X; θ)
∂θ
"  −θ X 2 #
∂ e θ
=nE ln
∂θ X!
" 2 #

=nE (−θ + X ln θ − ln X!)
∂θ
" 2 #
X
=nE −1 +
θ
" 2 #
1
=nE (X − θ)
θ
n h 2
i n nθ n
= 2 E (X − θ) = 2 V ar(X) = 2 = .
θ θ θ θ

Para θ se tiene que

θ
CICR(θ) = .
n

Para τ (θ) = e−θ se tiene que

(τ 0 (θ))2 θe−2θ
CICR(τ (θ)) = n = .
θ n
166 4. Estimación puntual

(f) Utilizando la segunda parte del teorema de Cramèr-Rao


n n
X ∂ X ∂ e−θ θxi
ln f (xi ; θ) = ln
i=1
∂θ i=1
∂θ xi !
n
X ∂
= (−θ + xi ln(θ) − ln(xi !))
i=1
∂θ
n 
X xi 
= −1 +
i=1
θ
n
1X n n
=−n+ xi = −n + x̄ = (x̄ − θ).
θ i=1 θ θ

Por lo tanto, para θ hay un estimador insesgado, T ∗ (X) = X̄, cuya


varianza coincide con la Cota de Cramèr-Rao, es decir, X̄ es el UMVUE
de θ.
(g) Considere T (X) = I{0} (X1 ). Note que E(T (X)) = E(I{0} (X1 )) =
P(X1 = 0) = e−θ . Por lo tanto,PT (X) es un estimador insesgado de
n
τ (θ) y ya se vio que S(X) = i=1 Xi es una estadı́stica suficiente
minimal y completa. Entonces,

E(T |S = s) = E(I{0} (X1 )|S = s)


n
!
X
= P X1 = 0| Xi = s
i=1
Pn
P(X1 = 0)P( i=2 Xi = s)
= Pn
P( i=1 Xi = s)
−(n−1)θ
((n−1)θ)s
e−θ e s!
= e−nθ (nθ)s
s!
−θ −(n−1)θ
e e ((n − 1)θ)s e−θ e−nθ eθ (n − 1)s θs
= =
e−nθ (nθ)s e−nθ ns θs
 s
n−1
= .
n
Pni=1 Xi
Entonces, por el teorema de Rao-Blackwell T ∗ (X) = n−1
n .
(h) X̄ es el UMVUE de θ, lo cual se justifica utilizando el inciso (f) o bien,
notando quePX̄ es insesgado para θ y función de la estadı́stica suficiente
n
y completa, i=1 Xi , por lo que usando el teorema de Lehmann-Scheffé
4.5. Propiedades asintóticas de los estimadores 167

Pni=1 Xi
se llega a la misma conclusión. Además, n−1
n es el UMVUE de
τ (θ) por el inciso (g) y el teorema de Lehmann-Scheffé.

4.5. Propiedades asintóticas de los estimado-


res
Hasta ahora se han estudiado distintas propiedades de los estimadores, pe-
ro la mayorı́a, a excepción de la consistencia vista en el apartado 4.3.2, se
refiere a tamaños de muestra pequeños. En esta sección se abordarán propie-
dades que describen el comportamiento de un estimador cuando el tamaño
de muestra es grande, es decir, las propiedades asintóticas de los estimadores.
Como ya se señaló, la consistencia tiene que ver con la precisión asintótica
de un estimador, esto es, que el error cometido al estimar τ (θ) con Tn (X) es
pequeño cuando el tamaño de muestra es grande. Existe otra propiedad que
tiene que ver con la varianza asintóntica de un estimador, la cual se conoce
como eficiencia.
Ya se ha reiterado que la varianza (de los estimadores) juega un papel
importante en la elección del mejor estimador. De hecho en las observacio-
nes 4.5, se menciona la propiedad de eficiencia. A continuación se da una
definición formal de eficiencia asintótica.

Definición 4.17 Una sucesión de estimadores {Tn } es asintóticamente efi-


ciente para un parámetro τ (θ) si

n[Tn − τ (θ)] −→ N [0, CICR(θ)]
en distribución, donde
[τ 0(θ)]2
CICR(θ) =  ∂ ;
E ( ∂θ ln f (X; θ))2

esto es, la varianza asintótica de Tn alcanza la cota inferior de Cramér-Rao.

Bajo las condiciones de regularidad (definición 4.13), se puede demostrar


que los estimadores máximo verosı́miles cumplen las propiedades de consis-
tencia y eficiencia. Es decir, si la muestra aleatoria proviene de una población
con función de densidad que satisface las condiciones de regularidad, enton-
ces el estimador máximo verosı́mil del parámetro θ (o de una función τ (θ))
tiene estas propiedades asintóticas.
Para el caso de la consistencia simple, puede consultarse Stuart, Ord y
Arnold (1999). En cuanto a la eficiencia, se utilizará el siguiente resultado
conocido como el método delta:
168 4. Estimación puntual

Lema√ 4.3 Si {Xn } es una sucesión de variables aleatorias que satisfacen


que n (Xn − θ) → N 0, σ 2 en distribución, entonces para una función τ
y un valor especı́fico de θ, se tiene que
√  
2

n [τ (Xn ) − τ (θ)] → N 0, σ 2 τ 0 (θ)

en distribución.

Demostración. El resultado es consecuencia del teorema de Slutsky, el


cual establece que para dos sucesiones de variables aleatorias {Xn }n≥1 y
{Yn }n≥1 , tales que Xn → X en distribución y Yn → c en probabilidad ,
donde X es una variable aleatoria y c es una constante, se tiene que:

(i) Xn + Yn → X + c, en distribución,

(ii) Xn Yn → cX, en distribución,

(iii) Si c 6= 0 entonces,
Xn X
→ ,
Yn c
en distribución.

El siguiente resultado se refiere a la eficiencia asintótica de los estimadores


máximo verosı́miles.

Teorema 4.5 Sea X1 , X2 , .., Xn una muestra aleatoria de una población con
función de densidad f (x; θ), sea θb el estimador máximo verosı́mil de θ, y
sea τ (θ) una función continua y diferenciable de θ. Bajo las condiciones de
regularidad sobre f (x; θ) y, por lo tanto de la función de verosimilitud L(θ),
se tiene que √
b − τ (θ)] −→ N [0, CICR(τ (θ))],
n[τ (θ)
donde CICR(τ (θ)) es la cota inferior de Cramér-Rao para estimadores in-
sesgados de τ (θ). Esto es, el estimador máximo verosı́mil de τ (θ) , τ (θ),
b es
un estimador eficiente de τ (θ).

Demostración. Se demostrará el caso τ (θ) = θ, es decir, que θb es asintóti-


camente eficiente. Para ello, recuerde que
n
X
l(θ) = ln f (xi ; θ)
i=1
4.5. Propiedades asintóticas de los estimadores 169

es la función de log-verosimilitud. Sean l0 , l00 , .. las derivadas (con respecto a


θ) . Expandiendo la primera derivada de la log-verosimilitud alrededor del
valor verdadero del parámetro, el cual se denotará por θ0 ,
l0 (θ) = l0 (θ0 ) + (θ − θ0 )l00 (θ0 ) + . . . ,
donde se ignoran los términos de orden superior.
Sustituyendo el estimador máximo verosı́mil θb en lugar de θ, se tiene que
l0 (θ)
b = l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + . . . ,

pero el estimador máximo verosı́mil es el cero de la función de verosimilitud,


por lo que
l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + · · · = 0.

Ası́ que reacomodando los términos y multiplicando por n, se obtiene que:
√ √ −l0 (θ0 )
n(θb − θ0 ) = n 00
l (θ0 )
1 0
− n l (θ0 )

= 1 00 .
n l (θ0 )

En 4.4.1 , se vio que


" 2 #

IX (θ) = E ln f (X; θ) .
∂θ

Como
n
0
X ∂
l (θ) = ln f (xi ; θ),
i=1
∂θ
por (4.21)
1
IX (θ0 ) = E [l0 (θ0 )]2 =

CICR(θ)
denota la información esperada de Fisher.
Ahora observe que
" #

1 0 √ 1 X ∂θ f (xi ; θ)
√ l (θ0 ) = n ,
n n i f (xi ; θ)
0
donde Sc(x; θ) = ff (x;θ)
(x;θ)
es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] =
IX (θ), lo cual se probó en el lema 4.1. Ası́, por el teorema del lı́mite central,
1
√ l0 (θ0 ) −→ N [0, I(θ0 )]
n
170 4. Estimación puntual

en distribución y
1
− √ l0 (θ0 ) −→ N [0, I(θ0 )]
n
en distribución. Por otro lado,
#2
∂2
"

1 00 1 X ∂θ f (xi ; θ) 1X ∂θ 2 f (xi ; θ)
l (θ0 ) = − .
n n i f (xi ; θ) n i f (xi ; θ)

Note que la esperanza del primer sumando es IX (θ0 ), mientras que la del
segundo es cero (ver la demostración del lema 4.2). Entonces por la Ley
Débil de los Grandes Números:
1 00
l (θ0 ) −→ I(θ0 ),
n
en probabilidad. En consecuencia, si W es una variable aleatoria tal que
W ∼ N [0, I(θ0 )], entonces
√ − √1n l0 (θ0 )
n(θb − θ0 ) = 1 00
n l (θ0 )

converge en distribución a W/I(θ0 ) ∼ N [0, 1/IX (θ0 )], es decir, a una variable
aleatoria normal con media cero y varianza igual a la cota Inferior de Cramèr
y Rao, lo que demuestra el resultado.
El caso general es consecuencia del método delta, el cual se describe
brevemente a continuación. Una forma alternativa para calcular la varianza
del estimador máximo verosı́mil de τ (θ) es considerando que, debido a la
propiedad de invarianza que tiene el método de máxima verosimilitud,
 
τd(θ) = τ θb .
 
Si se aproxima τ θb mediante una expansión en series de Taylor alrededor
de θ, considerando solamente la primera derivada, se obtiene:
   
τ θb ≈ τ (θ) + θb − θ τ 0 (θ) .

Tomando la varianza de ambos lados, se llega a


h  i  
2
V ar τ θb ≈ (τ 0 (θ)) V ar θb ,
 
debido a que θ es una constante. Como ya se habı́a visto, V ar θb está dada
−1
por IX (θ), ası́ que
h  i (τ 0 (θ))2
V ar τ θb ≈ ,
IX (θ)
4.5. Propiedades asintóticas de los estimadores 171

expresión que corresponde a la cota inferior de Cramèr-Rao para estimadores


insesgados de τ (θ) , con lo que puede observarse que la varianza del estimador
máximo verosı́mil alcanza dicha cota (al igual que en el caso τ (θ) = θ).
En conclusión:

b − τ (θ)] −→ N [0, CICR(τ (θ))].
n[τ (θ)

Ejemplo 4.37 Considere una muestra aleatoria, X1 , . . . , Xn , de la pobla-


ción con distribución Bernoulli(p); se desea obtener un estimador puntual
p
para el momio, τ (p) = (1−p) , ası́ como la varianza de dicho estimador.
El estimador máximo verosı́mil para p̂ es X̄. Por la propiedad de in-
varianza de los estimadores máximo verosı́miles, se tiene que el estimador
X̄n
máximo verosı́mil para τ (p) es (1− X̄n )
. La varianza de este estimador puede
aproximarse de la siguiente manera:
h i2 
d p
 dp ( (1−p) ) 
 

V̂ = 
(1 − p̂) IX (p)

p=p̂
h i2 
1
 (1−p)2 ) 
=  n 
p(1−p)
p=p̂
p̂ X̄n
= 3
= .
n(1 − p̂) n(1 − X̄n )3

Ejemplo 4.38 Considere una sucesión de variables aleatorias, X1 , . . . , Xn ,


independientes e idénticamente distribuidas de una población con distribu-
ción F (·) que es diferenciable. Suponga que se satisface que P (Xi ≤ ψ) =
1/2, es decir, ψ es la mediana poblacional. Sea Mn la mediana muestral y
también suponga que n es impar para simplificar el argumento. Se desea
obtener la distribución asintótica de la mediana muestral.
Se calculará p
lı́m P ( (n)(Mn − ψ) ≤ a),
n→∞

para alguna a. Sean las variables aleatorias Yi0 s definidas como


( p
1 si Xi ≤ ψ + a/ (n)
Yi =
0 en otro caso,
172 4. Estimación puntual

se tiene que las Yi0 s son variables aleatorias Bernoulli con probabilidad de
éxito p
pn = F (ψ + a/ (n)).
p P
Note que el evento {Mn ≤ ψ + a/ (n)} es equivalente al evento { i Yi ≥
(n + 1)/2}. Dado que
pn → p = F (ψ) = 1/2,
P
Yi −npn
se puede utilizar el teorema del lı́mite central, de donde √ i
con-
(npn (1−pn ))
verge a una variable aleatoria Z con distribución normal estándar. Ahora,

(n + 1)/2 − npn (n + 1)F (ψ) − nF (ψ + a/ n)
lı́m p = lı́m p
n→∞ (npn (1 − pn ) n→∞ npn (1 − pn )

n(F (ψ) − F (ψ + a/ n))
= lı́m p
n→∞ npn (1 − pn )

n(F (ψ) − F (ψ + a/ n) 1
= lı́m a √
n→∞ a/ n pn (1 − pn )
= −2af (ψ).
Por lo que p
P ( (n)(Mn − ψ) ≤ a) → P (Z ≥ −2af ψ).
p
Ası́ (n)(Mn − ψ) tiene una distribución normal con media 0 y varianza
1/[2f (ψ)]2 .

4.6. Ejercicios
1. Sea X una variable aleatoria con distribución Gama(α + 1, β), cuya
función de densidad es
β α+1
f (x; α, β) = xα e−βx ,
Γ(α + 1)
con x > 0, α > −1 y β > 0. Obtenga los estimadores de los parámetros
α y β por el método de momentos, para una muestra aleatoria de
tamaño n.
2. Una urna contiene bolas negras y blancas. Se toma una muestra aleato-
ria de tamaño n con reemplazo. ¿Cuál es el estimador máximo verosı́mil
de la razón, R, de blancas a negras en la urna? Para esto suponga que
la bola se obtiene una por una con reemplazo hasta que la bola negra
aparezca. Sea X el número de bolas requeridas no contando la últi-
ma obtenida; este procedimiento se repite n veces para una muestra
aleatoria X1 , . . . , Xn .
4.6. Ejercicios 173

3. Se toma una observación de una variable aleatoria discreta X con fun-


ción de densidad f (x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3}.
x f (x; 1) f (x; 2) f (x; 3)
0 1/3 1/4 0
1 1/3 1/4 0
2 0 1/4 1/4
3 1/6 1/4 1/2
4 1/6 0 1/4
Encuentre el estimador máximo verosı́mil de θ.

4. Sea X una variable aleatoria discreta con función de densidad f (x; θ)


dada en la siguiente tabla, donde θ ∈ {1, 2, 3} y X ∈ {0, 1, 2, 3, 4}.
Se toma una muestra aleatoria de tamaño dos, (X1 , X2 ). Determine el
estimador máximo verosı́mil de θ.
x f (x; 1) f (x; 2) f (x; 3)
0 1/3 1/4 0
1 1/3 1/4 0
2 0 1/4 1/4
3 1/6 1/4 1/2
4 1/6 0 1/4

5. Sea X1 , . . . , Xn una muestra aleatoria de una población con función


de densidad
f (x; θ) = θx−2 I[θ,∞) (x).
Encuentre el estimador máximo verosı́mil de θ. También encuentre el
estimador por momentos para θ.

6. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución


U (θ, 2θ), con θ > 0.

(a) Encuentre el estimador de θ por el método de momentos.


(b) Encuentre el estimador máximo verosı́mil de θ, θ̂M V , y encuentre
una constante k tal que E(k θ̂M V ) = θ.

7. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad  
1 (x − µ)
f (x; µ, σ) = exp − I(µ,∞) (x),
σ σ
donde µ ∈ R y σ ∈ R+ son desconocidos.
174 4. Estimación puntual

(a) Demuestre que el estimador máximo verosı́mil de µ es X(1) (la


mı́nimaPestadı́stica de orden) y el estimador máximo verosı́mil de
n
σ es n1 i=1 (Xi − X(1) ).
µ µ
(b) ¿Cuáles son los estimadores máximo verosı́miles de σ , σ2 y de
µ + σ?
8. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
θ2
f (x; θ) = (x + 1)e−θx I(0,∞) (x), θ > 0.
θ+1
(a) Demuestre que la densidad de X pertenece a la familia exponen-
cial.
(b) Encuentre una estadı́stica suficiente minimal y completa.
(c) Encuentre el estimador por momentos.
(d) Encuentre el estimador máximo verosı́mil.
9. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
f (x; θ) = θxθ−1 I[0,1] (x), θ > 0.
(a) Encuentre el estimador por momentos de θ.
(b) Encuentre el estimador máximo verosı́mil de θ.
(c) Suponga que el verdadero valor de θ es 2. Utilice simulación en R
para comparar el error cuadrático medio (numéricamente) de los
estimadores en los apartados anteriores en muestras de tamaño
n = 30. ¿Qué conclusiones puede extraer?
10. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
1
f (x; θ) = e−|x−θ| , −∞ < θ < ∞.
2
(a) Analice la suficiencia en esta densidad.
(b) ¿Pertenece f (x; θ) a la familia exponencial?
(c) Halle el estimador por el método de momentos para θ.
(d) Halle el estimador máximo verosı́mil para θ.
11. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
P oisson(λ), con función de densidad f (x|λ). Considere que la fun-
ción de distribución a priori de λ es una distribución Gama(α, β), con
función de densidad π(λ).
4.6. Ejercicios 175

(a) Encuentre la distribución a posteriori de λ.


(b) Encuentre el estimador Bayesiano de λ usando la función de pérdi-
da del error cuadrático.

12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Geométrica(θ). Considere que la función de distribución a priori de θ
es una distribución Beta(α, β).

(a) Encuentre la distribución a posteriori de θ.


(b) Encuentre el estimador Bayesiano de θ usando la función de pérdi-
da del error cuadrático.

13. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


N ormal(µ, σ 2 ), donde σ 2 es conocida. Considere que la función de
distribución a priori de µ es una distribución N ormal(η, λ2 ).

(a) Encuentre la distribución a posteriori de µ.


(b) Encuentre el estimador Bayesiano de µ usando la función de pérdi-
da del error cuadrático.

14. Suponga que ciertas pérdidas siguen una distribución W eibull con
parámetros θ y τ . Se tiene la siguiente muestra de 16 pérdidas: 54,
70, 75, 81, 84, 88, 97, 105, 109, 114, 122, 125, 128, 139, 146, 153. Es-
time los parámetros utilizando el método de percentiles, usando los
percentiles 20th y 70th .

15. Se practican n mediciones del radio de un cı́rculo. Si las mediciones


son independientes entre sı́ y los errores se distribuyen N (0, σ 2 ) con σ 2
desconocida, proponer un estimador insesgado para el perı́metro del
cı́rculo y otro para el área.

16. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño cuatro de una


población con distribución N (0, σ 2 ), donde σ es desconocida. Considere
los siguientes estimadores T1 = X12 − X2 + X4 , T2 = 31 (X12 + X22 + X42 ),
P4 P4
T3 = 41 i=1 Xi2 , T4 = 13 i=1 (Xi − X̄)2 y T5 = 21 |X1 − X2 |.

(a) ¿T1 , T2 , T3 , T4 son insesgados?


(b) De entre T1 , T2 , T3 , T4 , ¿cuál tiene el menor error cuadrático me-
dio?
(c) ¿T5 es un estimador insesgado para σ? Si no lo es, encuentre un
múltiplo de T5 que lo sea. Calcule el error cuadrático medio de
T5 .
176 4. Estimación puntual

17. Sea X1 , . . . , Xn una muestra aleatoria de una población con función


de densidad con media µ y varianza σ 2 .
Pn
(a) Pruebe que i=1 ai Xi es un estimador insesgado para µ para
cualquier
Pn valor de las constantes a1 , a2 , . . . , an que satisfagan que
i=1 i a = 1.
Pn Pn
(b) Si i=1 ai = 1, prueba que V ar [ i=1 ai Xi ] se minimiza cuando
ai = 1/n, para i = 1, . . . , n.

18. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad
2x
f (x; θ) = 2 I(0,θ) (x), θ > 0.
θ
(a) Estime θ por el método de momentos. Llame a este estimador T1 .
Encuentre su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de θ. Llame a este es-
timador T2 . Encuentre su media y su ECM.
(c) De entre todos los estimadores de la forma aYn , donde a es un
valor constante que depende de n y Yn = máx{X1 , . . . , Xn }, en-
cuentre un estimador para θ con error cuadrático medio unifor-
memente más pequeño. Llame a este estimador T3 . Encuentre su
media y su ECM de T3 .
(d) Encuentre un UMVUE de θ. Nombre a este estimador T4 . En-
cuentre su media y su ECM.
(e) Define T5 = (Y1 + Yn )/2, donde Y1 = mı́n{X1 , . . . , Xn } y
Yn = máx{X1 , . . . , Xn }. Encuentre su media y su ECM. ¿Qué
estimador de θ preferirı́a y por qué?

19. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


W eibull(α, β), cuya función de densidad es
 β
1 −x
fX (x; α) = βxβ−1 exp I(0,∞) (x),
α α

donde α > 0 es un parámetro desconocido, pero β > 0 se supone


conocido. Encuentre los estimadores máximo verosı́miles de α, α2 y α1
y demuestre que son consistentes en ECM.

20. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


tal que
E (Xi ) = θ + b, V ar (Xi ) = σ 2 ,
4.6. Ejercicios 177

donde b 6= 0, es una constante conocida. Pruebe que X no es un es-


timador consistente en error cuadrático medio para θ. Construya un
estimador insesgado para θ que sea consistente.

21. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


P areto(α, θ), cuya función de densidad es

αθα
f (x; θ) = , x > θ, θ > 0,
xα+1
con α conocida.

(a) Encuentre el estimador máximo verosı́mil para θ. ¿Es este un


estimador insesgado para θ? Si la respuesta es negativa, encontrar
el estimador insesgado.
(b) Encuentre el estimador por el método de momentos para θ. Nue-
vamente verifique si el estimador es insesgado; en caso contrario,
obtenga el estimador insesgado.
(c) ¿Son consistentes los estimadores obtenidos en los incisos anterio-
res?

22. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Bernoulli(θ), donde x ∈ {0, 1} y 0 ≤ θ ≤ 21 . Note que el espacio
paramétrico es Θ = {θ : 0 ≤ θ ≤ 12 }.

(a) Encuentre el estimador de θ por medio del método de momentos.


Calcule su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de θ. Calcule su media
y su ECM.
(c) ¿Los estimadores son consistentes en ECM?
(d) ¿Qué estimador es más eficiente en ECM?

23. Sea X1 , . . . , Xn una muestra aleatoria discreta de la población con


distribución P oisson(λ), donde x ∈ {0, 1, 2, . . .} y 0 < λ ≤ 2. Note que
el espacio paramétrico es Θ = {λ : 0 < λ ≤ 2}.

(a) Encuentre el estimador de λ por el método de momentos. Calcule


su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de λ. Calcule su media
y su ECM.
(c) ¿Los estimadores son consistentes en ECM?
178 4. Estimación puntual

24. Considere las siguientes funciones de densidad:

f1 (x; p) = px (1 − p)1−x I{0,1} (x) donde 0 < p < 1,

log(θ)
f2 (x; θ) = θx I(0,1) (x) donde θ > 1.
θ−1
En cada caso, para una muestra aleatoria de tamaño n, ¿existirán
estadı́sticas T1 (X) y T2 (X) para ciertas funciones τ1 (p) y τ2 (θ), para
las cuales la varianza de Ti (X), i = 1, 2, coincidan con la CICR?
25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (θ, 1).
(a) Encuentre la CICR para la varianza de los estimadores insesgados
de τ1 (θ) = θ, τ2 (θ) = θ2 y τ3 (θ) = P(X > 0).
(b) ¿Existe un estimador insesgado para τ2 (θ) = θ2 ?. Si es ası́, en-
cuéntrelo.
(c) ¿Existe un estimador insesgado para τ3 (θ) = P(X > 0)? Si es ası́,
encuéntrelo.
(d) Encuentre el UMVUE para τ2 (θ) = θ2 .
26. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Beta(θ, 1), donde θ > 0, es decir, con función de densidad

f (x; θ) = θxθ−1 I(0,1) (x).

(a) Encuentre el estimador máximo verosı́mil de τ (θ) = θ/(1 + θ).


(b) Encuentre una estadı́stica suficiente, y compruebe si es completa.
Pn Pn
(c) ¿Es S = i=1 Xi una estadı́stica suficiente?. ¿Es S = i=1 Xi
una estadı́stica completa?
(d) ¿Existe una función de θ, τ (θ), para el cual exista una estimador
insesgado cuya varianza coincida con la CICR? Justifique.
(e) Encuentre un UMVUE para las siguientes funciones de θ:
(i) τ (θ) = θ
(ii) τ (θ) = 1/θ
(iii) τ (θ) = θ/(1 + θ)
27. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Bernoulli(p), con p ∈ (0, 1) con n ≥ 3.
Pn
(a) Sea U = i=1 Xi . Calcule E(X1 |U = u) y obtenga E(X1 |U ).
4.6. Ejercicios 179

(b) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X)


de τ1 (p) = p2 , dado por

T1 (X) = X1 X2 .

(c) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X)


de τ2 (p) = p2 (1 − p) , dado por

T2 (X) = X1 X2 (1 − X3 ).

28. Sea X1 , . . . , Xn una muestra aleatoria de distribución P oisson(λ), con


λ > 0 y n ≥ 2.
(a) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X)
de τ1 (λ) = λ, dado por
1
T1 (X) = (X1 + X2 ).
2
(b) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X)
de τ2 (λ) = e−λ , dado por

T2 (X) = I{0} (X1 ),

1
Pn Xi
(llegará a 1 − n
i=1
).
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T3 (X)
de τ3 (λ) = λe−λ , dado por

T3 (X) = I{1} (X1 ).

29. Sea X1 , . . . , Xn una muestra aleatoria de una población con función


de densidad
1
f (x; θ) = I(−θ,θ) (x), θ > 0.

Encuentre, si existe, el UMVUE para θ.
30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribu-
ción U (0, θ). Sean Y1 y Yn la mı́nima y máxima estadı́sticas de orden,
respectivamente.
(a) Encuentre el estimador por momentos para θ. Llame T1 a dicho
estimador y encuentre su media y error cuadrático medio.
(b) Encuentre el estimador máximo verosı́mil de θ. Llame T2 a dicho
estimador y encuentre su media y error cuadrático medio.
180 4. Estimación puntual

(c) De entre todos los estimadores de la forma aYn , donde a es una


constante que podrı́a depender de n. Encuentre un estimador para
θ que tenga el error cuadrático medio uniformente más pequeño.
Llame T3 a dicho estimador y encuentre su media y error cuadráti-
co medio.
(d) Encuentre el UMVUE de θ. Llame T4 a dicho estimador y en-
cuentre su media y error cuadrático medio.
(e) Sea T5 = Y1 + Yn . Encuentre su media y error cuadrático medio.
(f) Diga ventajas y desventajas de los estimadores T1 , . . . , T5 .

31. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad
θ
f (x; θ) = I(0,∞) (x), θ > 0
(1 + x)1+θ

(a) Encuentre el estimador por momentos para θ suponiendo que θ >


1.
(b) Encuentre el estimador máximo verosı́mil de τ (θ) = 1/θ.
(c) Encuentre una estadı́stica suficiente y completa (si es que existe).
(d) Encuentre la CICR para los estimadores insesgado de τ (θ) = 1/θ.
(e) ¿Existe el UMVUE de τ (θ)? Si es ası́, encuéntrelo.
(f) ¿Existe el UMVUE de θ? Si es ası́, encuéntrelo.

32. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de


densidad
f (x; µ) = e−(x−µ) I(µ,∞) (x), µ ∈ R.

(a) Demuestre que T (X) = X(1) = mı́n {X1 , . . . , Xn } es una es-


tadı́stica suficiente y completa.
(b) Encuentre la única función de X(1) que sea el UMVUE de µ.

33. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


P oisson(λ). Sea τ (λ) = (1 + λ)e−λ .

(a) Obtenga el estimador máximo verosı́mil para τ (λ).


(b) Obtenga un estimador insesgado para τ (λ).
(c) Obtenga un UMVUE para τ (λ). Sugerencia: encuentre un esti-
mador insesgado de τ (λ) y utilice el teorema de Rao-Blackwell
para mejorarlo.
4.6. Ejercicios 181

34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución


Geométrica(θ) con función de densidad

P(X = x) = θ(1 − θ)x , x = 0, 1, 2, . . . , 0 < θ < 1.

(a) Obtenga el estimador por el método de momentos para θ.


(b) Obtenga el estimador máximo verosı́mil para θ.
(c) Calcule la CICR para la varianza de los estimadores insesgados
de θ.
(d) Encuentre un UMVUE para θ.
35. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (θ, θ2 ), θ ∈ R.
(a) ¿Existe una estadı́stica suficiente unidimensional para θ?
(b) Encuentra una estadı́stica suficiente bidimensional para θ.
(c) ¿Es X̄ un UMVUE para θ?
(d) ¿θ es un parámetro de localización o escala?
36. Sea T una variable aleatoria que toma valores en {0, 1, 2, ..., 6} y sean
g1 (t) y g2 (t) dos densidades que corresponden a:
La primera, g1 (t) es la probabilidad de que, de 5 monedas lanzadas al
aire, el número de águilas observadas, T sea igual a t.
La segunda, g2 (t) es la probabilidad de que al lanzar un dado numerado
del 1 al 6, T, la cara que quedó hacia arriba, sea igual a t.
Como una convención se denotará por f (t; θ1 ) = g1 (t) y de manera
similar f (t; θ2 ) = g2 (t), ası́, sin ni siquiera especificar la naturaleza
de θ1 y de θ2 . El espacio paramétrico será Θ = {θ1 , θ2 } con sólo dos
elementos.
a) Se observó t = 1. Exhiba la estimación máximo verosı́mil de
θ ∈ Θ.
b) Repita el inciso anterior si lo que se observó fue t = 2.
c) Observe que sucede algo que es muy raro en planteamientos es-
tadı́sticos: hay dos valores de t para los cuales al hacer la estima-
ción máximo verosı́mil de θ, parece que se puede tener la certeza
de que en esos dos casos, ahora sı́, la estimación se convierte en
identificación (del verdadero valor de θ). Diga cuáles son esos dos
valores y explique porqué hay identificación.
Capı́tulo 5

Estimación por intervalos

Es usual iniciar el estudio de la inferencia estadı́stica con el planteamiento


de estimación puntual para el parámetro (o los parámetros) de una distri-
bución. La perspectiva que se analizó en el capı́tulo anterior no precisa qué
tan cerca del parámetro se encuentra la estimación, sin embargo, es posible
medir el error en términos de la variación muestral o error estándar de dicho
estimador; en este caso se habla de un margen de variación para el valor que
el parámetro puede tomar.
En esta parte se abordará otro enfoque: el planteamiento de estimación
por intervalos.
Para inferir respecto a una caracterı́stica de la población, se prefiere aho-
ra proponer un rango de valores que tenga la posibilidad de contener al
parámetro. Esto se logra generalmente mediante un intervalo que es enten-
dido como un conjunto de valores (calculado a partir de los datos de una
muestra) en el cual puede encontrarse el verdadero valor del parámetro con
un determinado nivel de certeza o confianza. Se comenzará introduciendo el
concepto de intervalo de confianza.

5.1. Intervalos de confianza


Es común que en los medios de comunicación como radio, televisión, revistas
o periódicos, ası́ como en redes sociales, se presenten resultados de estudios
estadı́sticos de los temas más diversos. Las conclusiones suelen presentar-
se con frases como la siguiente: “El estudio muestra que en el 75 % de los
casos se experimenta una mejorı́a (de cierta enfermedad), siendo el margen
de error del 6 % y el nivel de confianza del 95 %”. El cálculo de intervalos
de confianza para la estimación de parámetros permite hacer declaraciones

183
184 5. Estimación por intervalos

sobre qué valores se pueden esperar para una caracterı́stica que se esté estu-
diando; aunque, a diferencia de la estimación puntual, se habla de un nivel de
confianza que tendrá una influencia en el intervalo calculado: intuitivamente
la confianza se refiere a la certeza con la que el método dará una respuesta
correcta, y por lo tanto se pedirá que ese nivel de confianza sea alto.
Replanteando el problema de encontrar un rango de valores para θ, se
tiene lo siguiente: si θ ∈ Θ ⊆ R (el espacio paramétrico) y se quiere disminuir
el grado de desconocimiento de θ en f (x; θ), se debe seleccionar un subcon-
junto Θ1 de Θ en el cual pueda afirmarse, con un margen de error pequeño,
que se encuentra el valor de θ que caracteriza la distribución de la población.
Por ejemplo, suponga que se tiene una muestra aleatoria X1 , . . . , Xn de una
población con distribución N (µ, σ 2 ), con σ 2 conocida y µ desconocida y se
desea estimar el parámetro µ. La estadı́stica T (X) = X̄ tiene distribución
N (µ, σ 2 /n), entonces,

X̄ − µ
Z := √ ∼ N (0, 1).
σ/ n

Note que

P[−1.96 < Z < 1.96] = φ(1.96) − φ(−1.96) = φ(1.96) − (1 − φ(1.96))


= 2φ(1.96) − 1 = 2(0.9725) − 1 = 0.95.

A partir de que se sabe que P[−1.96 < Z < 1.96] = 0.95, se obtiene lo
siguiente:
X̄ − µ
−1.96 < √ < 1.96,
σ/ n
si y sólo si
σ σ
−1.96 √ < X̄ − µ < 1.96 √ ,
n n
si y sólo si
σ σ
X̄ − 1.96 √ < µ < X̄ + 1.96 √ ,
n n
de donde  
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95.
n n
Lo que indica la expresión
 
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95,
n n
5.1. Intervalos de confianza 185

es que hay una probabilidad de 0.95 de obtener una muestra tal que el
intervalo  
σ σ
X̄ − 1.96 √ , X̄ + 1.96 √ ,
n n
incluya al valor de µ. Esto motiva la definición 5.1 de intervalo aleatorio que
se verá posteriormente, aunque en este momento, y haciendo referencia al
ejemplo anterior, se puede adelantar que un intervalo en el que al menos uno
de los extremos es una variable aleatoria se llama intervalo aleatorio.
Una vez usada la distribución de X̄ para establecer la conclusión anterior,
se obtiene un valor particular de x̄, con base en una muestra, y se determina
el intervalo numérico
 
σ σ
x̄ − 1.96 √ , x̄ + 1.96 √ . (5.1)
n n

En este caso no tiene sentido hablar de la probabilidad de que el intervalo


contenga al parámetro, ya que no hay ninguna variable aleatoria. Ahora, el
0.95 expresa el margen de confianza con el que se puede afirmar que el
valor desconocido de µ está entre los extremos del intervalo que ya está fijo,
en el sentido de que repitiendo el muestreo un gran número de veces, se
obtendrı́an intervalos distintos, entre los cuales aproximadamente el 95 % de
estos intervalos contienen el valor correcto
 de µ. 
Por lo tanto, el intervalo numérico x̄ − 1.96 √σn , x̄ + 1.96 √σn se llama
intervalo de confianza para µ con un nivel del 95 %.

Observación 5.1 Un ejercicio para analizar el concepto de intervalo de con-


fianza consiste en simular algunas muestras de una determinada población
normal, calcular los intervalos correspondientes a un cierto nivel de confianza
y observar la proporción de estos intervalos que contienen al verdadero valor
de la media.
El resultado de un ejercicio de simulación se muestra resumido en las
gráficas de la figura 5.1, en donde se ha utilizado la expresión (5.1) para el
cálculo de los intervalos.
Cada una de las gráficas representa intervalos correspondientes a 100
muestras para diferentes tamaños de muestra, todas con µ = 100.
El ejercicio se hizo utilizando el software estadı́stico R.
Las lı́neas en negro representan los intervalos que no contienen al ver-
dadero valor de la media µ en cada uno de los casos considerados.
Se usó un nivel de confianza del 95 %.
186 5. Estimación por intervalos

Ası́, la primera gráfica representa los intervalos correspondientes a 100


muestras de tamaño 10 de una distribución normal con media igual a 100 y
σ = 10.
100

100

100
80

80

80
60

60

60
40

40

40
20

20

20
0

85 90 95 100 110 85 90 95 100 110 85 90 95 100 110

Figura 5.1: Intervalos correspondientes a 100 muestras para tamaños de


muestra 10, 30 y 50, respectivamente y desviación estándar de 10.

Si se desea un intervalo del 99 % de confianza en este caso de la distribu-


ción normal, primero se debe observar que:

P[−2.576 < Z < 2.576] = 0.99.

Entonces, a partir de la expresión anterior, se obtiene que


 
σ σ
x̄ − 2.576 √ , x̄ + 2.576 √
n n

es un intervalo del 99 % de confianza para µ. Note que a mayor nivel de


confianza, mayor es la longitud del intervalo. Usualmente se fija un nivel de
confianza y entonces se genera el intervalo.
5.1. Intervalos de confianza 187
 
Observe también que en el primer ejemplo x̄ − 1.96 √σn , x̄ + 1.96 √σn no
es el único intervalo del 95 % de confianza para µ, pues por ejemplo, también

P[−1.74 < Z < 2.37)] = φ(2.37) − φ(−1.74)


= φ(2.37) − 1 + φ(1.74)
= 0.95.

Sin embargo, el de longitud mı́nima es el originado por P[−1.96 < Z <


1.96] = 0.95. 
En general, si para este caso de la distribución N µ, σ 2 , se tiene que:
 
X̄ − µ
P a< √ < b = γ,
σ/ n

entonces,

X̄ − µ σ σ σ σ
a< √ < b ⇔ a √ < X̄ − µ < b √ ⇔ X̄ − b √ < µ < X̄ − a √ .
σ/ n n n n n

Suponga que se desea minimizar la longitud del intervalo dada por (b−a) √σn ,
con la restricción de que P[a < Z < b] = 0.95, es decir, FZ (b)−FZ (a) = 0.95,
donde FZ (z) es la función de distribución de una población N (0, 1) . Para
este problema de optimización, se define la función

L = b − a − λ(FZ (b) − FZ (a) − 0.95).

Entonces,
∂L
= 0 ⇔ −1 + λfZ (a) = 0 ⇔ λfZ (a) = 1
∂a
y también
∂L
= 0 ⇔ 1 − λfZ (b) = 0 ⇔ λfZ (b) = 1.
∂b
De donde, fZ (a) = fZ (b); por lo tanto, a = −b debido a la simetrı́a (en el
cero) de fZ . Es decir, la distancia b − a será minimizada (para un área fija)
cuando fZ (a) = fZ (b).

Definición 5.1 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ)


y τ (θ) una función de θ. Sean T1 (X) y T2 (X) de forma que T1 ≤ T2 y
P(T1 < τ (θ) < T2 ) = γ (γ no depende de θ). Entonces a (T1 , T2 ) se le llama
un intervalo aleatorio y a un valor del intervalo aleatorio (t1 , t2 ), se le llama
intervalo de confianza o un intervalo del γ(100 %) de confianza para τ (θ).
188 5. Estimación por intervalos

Como ilustración, considere a X1 , . . . , Xn una muestra aleatoria de la


población con distribución N (θ, 9). Suponga que T1 (X) = X̄ − √6n y T2 (X) =
X̄ + √6n y que (T1 , T2 ) forma un intervalo para τ (θ) = θ. En este caso,
   
6 6 X̄ − θ
P X̄ − √ < θ < X̄ + √ = P −2 < √ < 2
n n 3/ n
= φ(2) − φ(−2)
= 2φ(2) − 1
= 2(0.9972) − 1 = 0.9544,

siendo 0.9544 el nivel de confianza. Por ejemplo, si se tiene una muestra


aleatoria de 25 observaciones, con una media muestral de 17.5, entonces se
dice que 17.5 − √625 , 17.5 + √625 es un intervalo del 95.44 % de confianza
para θ.
Note que alguna de las dos estadı́sticas (pero no ambas) T1 (X) o T2 (X)
puede ser constante; es decir, alguno de los dos extremos del intervalo alea-
torio (T1 , T2 ) puede ser constante.

Definición 5.2 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ).


Sean T1 (X) una estadı́stica para la cual P(T1 < τ (θ)) = γ; entonces T1 in-
duce el intervalo de confianza unilateral inferior (t1 (x), ∞) con un nivel de
confianza γ. De manera análoga, si T2 (X) es una estadı́stica para la cual
P(τ (θ) < T2 ) = γ; entonces T2 induce el intervalo de confianza unilateral
superior (−∞, t2 (x)) con un nivel de confianza γ (γ no depende de θ).

Observación 5.2 Si ya se ha determinado un intervalo de confianza para


θ, entonces, se puede determinar una familia de intervalos de confianza. De
manera más especı́fica, para un nivel de confianza del γ(100 %) dado; si se
tiene un intervalo de confianza para θ al γ(100 %) de confianza, entonces se
puede obtener un intervalo con el mismo nivel de confianza para τ (θ) donde τ
es una función creciente (estricta). Por ejemplo, si τ es una función creciente
y (T1 , T2 ) es un intervalo de confianza para θ, entonces (τ (T1 ), τ (T2 )) será
un intervalo de confianza para τ (θ) pues

γ = P[T1 (X) < θ < T2 (X)] = P[τ (T1 (X)) < τ (θ) < τ (T2 (X))].

No obstante, el que el intervalo inicial para θ fuera el más corto, esto no


implica que el intervalo para τ (θ) sea el más corto.

A continuación se describe un método para encontrar intervalos de con-


fianza, el cual se conoce como el método de la cantidad pivotal o simplemente
método pivotal.
5.1. Intervalos de confianza 189

5.1.1. Método pivotal para encontrar intervalos de


confianza
Definición 5.3 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ).
Sea Q = q(X1 , X2 , ..., Xn ; θ), es decir Q es una función de la muestra alea-
toria y de θ. Si la distribución de Q no depende de θ, entonces a Q se le
llama cantidad pivotal.

Observación 5.3 A veces la cantidad pivotal Q tiene sólo una distribu-


ción asintótica que no depende de θ, en ese caso, se obtendrá una solución
aproximada.

Ejemplo 5.1 Sea X1 , . . . , Xn una muestra aleatoria de la población con


distribución N (θ, 1) y sea τ (θ) = θ. En este caso, X̄ ∼ N (θ, n1 ), entonces
(X̄−θ)
Q1 := √
1/ n
∼ N (0, 1) por lo que Q1 es una cantidad pivotal. También
Q2 := X̄ − θ es una cantidad pivotal pues Q2 ∼ N (0, n1 ) (su distribución
no depende de θ). Pero Q3 := X̄
θ no es una cantidad pivotal, pues Q3 ∼
N (1, θ21n ).

Definición 5.4 (método pivotal para intervalos de confianza) . Sea


Q = q(x1 , . . . , xn ; θ) una cantidad pivotal. Entonces, para cualquier γ ∈
(0, 1), existirán q1 y q2 que dependen de γ tal que

P [q1 < Q < q2 ] = γ.

Si para cada posible muestra (x1 , . . . , xn ) se cumple que

q1 < q(x1 , . . . , xn ; θ) < q2 ,

si y sólo si
t1 (x1 , . . . , xn ) < τ (θ) < t2 (x1 , . . . , xn ) ,
para funciones t1 y t2 que no dependen de θ, entonces (t1 , t2 ) es un intervalo
del γ(100) % de confianza para τ (θ).
La longitud esperada serı́a E [t2 (X1 , . . . , Xn ) − t1 (X1 , . . . , Xn )] .

En este método, la desigualdad q1 < Q < q2 se reescribe, invierte o


pivotea como t1 (x) < τ (θ) < t2 (x).
Como se vio antes en el ejemplo de la distribución normal, puede ha-
ber distintos intervalos que proporcionen el mismo nivel de confianza, por
lo que se busca el que tenga longitud mı́nima. Desde una perspectiva más
general, el siguiente resultado será de utilidad para encontrar el intervalo de
confianza más corto cuando la cantidad pivotal tenga una distribución con
una densidad unimodal.
190 5. Estimación por intervalos

Proposición 5.1 Sea f (x) una densidad unimodal y F (x) su función de


distribución asociada. Sea [a, b] un intervalo que satisface que

F (b) − F (a) = 1 − α, (5.2)

para α tal que 0 < α < 1. Entonces de entre todos los intervalos que cumplen
(5.2), [a0 , b0 ] tiene la longitud mı́nima si f (a0 ) = f (b0 ) > 0 y a0 ≤ x∗ ≤ b0 ,
donde x∗ es la moda de f (x)  . Si además f (x) es simétrica, entonces a0 =
F −1 α2 y b0 = F −1 1 − α2 .

Demostración. Se trata de minimizar la longitud b − a sujeta a F (b) −


F (a) = 1 − α. Usando multiplicadores de Lagrange, se define:

L (a, b, λ) = b − a + λ(1 − α − F (b) + F (a)),

de donde:
∂L
= 1 − λf (a) = 0,
∂a
∂L
= 1 − λf (b) = 0
∂b
y
1 − α − F (b) + F (a) = 0.
De las primeras dos ecuaciones se obtiene que f (a) = f (b) > 0. Si x∗ ∈ /
[a, b] y f (a) = f (b), entonces b − a > b0 − a0 , pues f (x) es unimodal y
F (b) − F (a) = F (b0 ) − F (a0 ) . 

Ası́, por ejemplo, si la cantidad pivotal tiene una distribución Ji-cuadrada,


los cuantiles de orden α/2 y 1 − α/2 de esta distribución contendrán a la mo-
da de la distribución para α pequeño. Por facilidad de cálculos suele usarse
α/2 y 1 − α/2, pero si se desea obtener el intervalo más corto se tendrı́an
que buscar a y b tales que f (a) = f (b).

Algunos ejemplos
Ejemplo 5.2 Suponga que se tiene una variable aleatoria con una distribu-
ción Exponencial con parámetro λ = θ1 . Obtenga un intervalo del 90 % de
confianza para θ.
Como X ∼ Exponencial(1/θ), sus funciones de densidad y de distribución
son, respectivamente,
1 −x/θ
f (x; θ) = e ,
θ
FX (x) = 1 − e−x/θ ,
5.1. Intervalos de confianza 191

X
con x > 0 y θ > 0. Sea Y = θ , entonces

FY (y) = P [Y ≤ y]
 
X
= P ≤y
θ
= P [X ≤ θy]
= FX (θy),

que implica que Y ∼ Exponencial(1). Por lo tanto Y = X θ puede ser una


cantidad pivotal ya que es una función de la muestra X y del parámetro θ,
y su distribución no depende de θ.
Ası́ que el intervalo del 90 % de confianza para θ puede determinarse a
partir de  
X
P a< < b = 0.90,
θ
donde
 
X
P <a = P [X < aθ]
θ
= 1 − e−a = 0.05

lo que implica que

e−a = 0.95
a = − log(0.95) = 0.051,

y por otro lado,


 
X
P >b = P [X > bθ]
θ
= e−b = 0.05

lo que implica que


b = − log(0.05) = 2.996,
entonces
 
X
0.051 < < 2.996 ,
θ
 
X X
<θ< .
2.996 0.051
X X

Por lo tanto, 2.996 , 0.051 es el intervalo del 90 % de confianza para θ.
192 5. Estimación por intervalos

Ejemplo 5.3 Sea X una variable aleatoria con distribución Uniforme en el


intervalo (0, θ). Obtener un intervalo del 95 % de confianza para θ.
Se sabe que
1 (x)
fX (x) = I(0,θ) ,
Zθ x
1 x
FX (x) = dt = .
0 θ θ
X
Sea Y una variable aleatoria definida como Y = θ , entonces

FY (y) = P (Y ≤ y)
 
X
= P ≤y
θ
= P (X ≤ θy)
= FX (θy)
θy
=
θ
= y.

Por lo tanto, la variable aleatoria Y = X θ tiene una distribución Uniforme


X
en el intervalo (0, 1). Ası́, Q = θ es una cantidad pivotal ya que Q es una
función de la muestra X y del parámetro θ y la distribución de Q no depende
de θ porque Q ∼ U nif orme (0, 1).
Para obtener un intervalo del 95 % de confianza para θ puede usarse la
cantidad pivotal de la siguiente manera:

P [a < Q < b] = 0.95.

Como Q ∼ U nif orme (0, 1), se pueden tomar cualesquiera cantidades a y b


pertenecientes al intervalo (0, 1) tal que b − a = 0.95. Esto implica que se
podrı́a tomar a ∈ (0, 0.05) y b = 0.95 + a. Entonces, el intervalo del 95 %
confianza para θ estarı́a determinado por lo siguiente:
 
X
P a< <b = 0.95
θ
 
X X
P <θ< = 0.95.
b a

Por lo tanto, Xb , X

a  es un intervalo
 del 95 % de confianza para θ. O de
X X
manera equivalente, 0.95+a , a es un intervalo del 95 % de confianza para
θ.
5.1. Intervalos de confianza 193

La longitud del intervalo es


X X
L= − ,
a 0.95 + a
y la longitud esperada del intervalo es
 
1 1
E [L] = − E [X] .
a 0.95 + a

Si se buscara un intervalo de confianza con menor longitud esperada, se


buscarı́a minimizar E [L], lo que equivale a encontrar el valor de a tal que
E [L] alcance su mı́nimo, y este valor es cuando a = 0.05, lo que implica
que b = 1. Por lo tanto,
 el intervalo del 95 % para θ con longitud esperada
1
mı́nima es X, 0.05 X .

Ejemplo 5.4 Suponga que X1 , X2 , . . . , Xn P


es una muestra aleatoria de una
n
población con distribución Exponencial(θ). i=1 PXi es una estadı́stica sufi-
2 ni=1 Xi
ciente y tiene distribución Gama(n, θ), además θ ∼ χ2(2n) . Entonces
Pn
2 iX
la variable Q = i=1
θ puede ser la cantidad pivotal para obtener un
intervalo del 100(1 − α) % de confianza para θ. Ası́ que
 Pn 
2 i=1 Xi
P qα/2 < < q1−α/2 = 1 − α,
θ

donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución
χ2(2n) . El intervalo para θ que se deduce de esta última expresión es
 Pn Pn 
2 i=1 Xi 2 i=1 Xi
, .
q1−α/2 qα/2

5.1.2. El método de la cantidad pivotal para funciones


de distribución continuas
Cuando se tiene una muestra aleatoria de una población cuya función de
distribución es continua en x, es posible construir una cantidad pivotal como
lo muestra el siguiente resultado.

Proposición 5.2 Sea X1 , ..., Xn una muestra aleatoria de la población con


función de densidad f (x; θ) , tal que la función
Pn de distribución correspon-
diente F (x; θ) es continua en x. Entonces − i=1 ln F (Xi ; θ) o alternativa-
n
Q
mente F (Xi ; θ), es una cantidad pivotal para estimar θ.
i=1
194 5. Estimación por intervalos

Demostración. F (Xi ; θ) tiene distribución Uniforme en el intervalo (0, 1) ,


pues si U = F (X; θ) , se tiene que

P (U ≤ u) = P [F (X; θ) ≤ u]
P X ≤ F −1 (u)
 
=
F F −1 (u)

=
= u,

para 0 < u < 1. Por lo tanto, − ln F (Xi ; θ) tiene distribución Exponencial


con parámetro 1, debido a lo siguiente:

P [− ln F (Xi ; θ) ≥ u] = P [ln F (Xi ; θ) ≤ −u]


P F (Xi ; θ) ≤ e−u
 
=
= e−u ,

para u > 0, es decir,

P [− ln F (Xi ; θ) ≤ u] = 1 − e−u ,

expresión que corresponde a la función de distribución de una variable alea-


toria Exponencial (1).
Ası́ que puede concluirse que
n
X
− ln F (Xi ; θ) , (5.3)
i=1

tiene distribución Gama con parámetros n y 1, al ser la suma de variables


aleatorias independientes con distribución Exponencial (1).
Ahora (5.3) puede usarse como una cantidad pivotal de la siguiente ma-
nera:
" n
# " n
#
X X
P q1 < − ln F (Xi ; θ) < q2 = P −q2 < ln F (Xi ; θ) < −q1
i=1 i=1
" n
#
Y
= P −q2 < ln F (Xi ; θ) < −q1
i=1
" n
#
Y
−q2 −q1
= P e < F (Xi ; θ) < e
i=1
" n
#
Y
= P a< F (Xi ; θ) < b ,
i=1
5.1. Intervalos de confianza 195

donde q1 y q2 son los cuantiles de la distribución Gama (n, 1) que corres-


ponderán al nivel de confianza deseado y con 0 < a < b < 1. La expresión
anterior es equivalente a
" n
#
X
P − ln b < − ln F (Xi ; θ) < − ln a .
i=1


Por ejemplo, si se tiene una muestra aleatoria de tamaño n de la población


con densidad
f (x; θ) = θxθ−1 , 0 < x < 1,
cuya función de distribución está dada por
Z x
F (x; θ) = θuθ−1 du
0
x

= θ = xθ ,
θ u=0
para 0 < x < 1. Si se seleccionan a y b tales que:
" n
#
Y
P a< F (Xi ; θ) < b = 1 − α
i=1
o " #
n
X
P q1 < − ln F (Xi ; θ) < q2 = 1 − α,
i=1
donde q1 = − ln b y q2 = − ln a son los cuantiles de una distribución Gama
(n, 1) seleccionados de tal manera que la probabilidad sea de 1 − α. Para
n n
Xiθ , por lo que
Q Q
este caso particular, F (Xi ; θ) =
i=1 i=1
" n
#
Y
1−α = P a< F (Xi ; θ) < b
i=1
" n
#
Y
= P a< Xiθ <b
i=1
" n
#
Y
= P ln a < ln Xiθ < ln b
i=1
" n
#
X
= P ln a < ln Xiθ < ln b
i=1
196 5. Estimación por intervalos

" n
#
X
= P ln a < θ ln Xi < ln b
i=1
" n
#
Y
= P ln a < θ ln Xi < ln b
i=1
 
 ln b ln a 
= P
 Qn <θ< Qn
,

ln Xi ln Xi
i=1 i=1

n
Q
donde la última desigualdad se sigue del hecho de que ln Xi es negativo.
i=1
Entonces puede concluirse que
 
 ln b ln a 

 n
Q , n
Q


ln xi ln xi
i=1 i=1

es un intervalo del 100(1 − α) % de confianza para θ.

5.1.3. Método basado en estadı́sticas suficientes


En algunas ocasiones es difı́cil obtener una cantidad pivotal exacta, ası́ que
se usan otras técnicas para obtener intervalos de confianza. El método pre-
sentado a continuación se basa en estadı́sticas suficientes o estimadores que
son funciones de ellas, como los obtenidos por máxima verosimilitud.
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función
de densidad f (x; θ), donde θ ∈ R es el valor verdadero, y Θ ⊆ R es el es-
pacio paramétrico. Sea T (X) una estadı́stica, que puede ser una estadı́stica
suficiente o el estimador máximo verosı́mil (EMV) del parámetro de interés.
En general, la elección de T (X) podrı́a depender de la facilidad de las ope-
raciones necesarias para obtener los intervalos de confianza. Una de esas
operaciones se refiere al cálculo de la función de distribución de T .
Sea fT (t; θ) la función de densidad de T . Se hará el procedimiento para
cuando T es una variable aleatoria continua, pero éste es análogo al caso
discreto.
5.1. Intervalos de confianza 197

Defina dos funciones h1 (θ) y h2 (θ) como


Z h1 (θ)
fT (t; θ)dt = p1 , (5.4)
−∞
Z ∞
fT (t; θ)dt = p2 ,
h2 (θ)

donde p1 y p2 son números fijos tales que p1 > 0, p2 > 0 y p1 +p2 < 1. Supon-
ga que h1 (θ) y h2 (θ) son funciones monótonas crecientes, y que h1 (θ) < h2 (θ)
(de manera análoga se podrı́an considerar funciones monótonas decrecien-
tes).
Sea t0 el valor observado de T , obtenido de la muestra observada
x = (x1 , x2 , . . . , xn ), es decir, T (x) = t0 . Para cualquier valor de t0 , pue-
den obtenerse v1 = v1 (t0 ) y v2 = v2 (t0 ) tales que (v1 , v2 ) será el intervalo
del (1 − p1 − p2 )100 % de confianza para θ.
Note que h1 (θ) < t0 < h2 (θ) si y sólo si v1 < θ < v2 para cualquier
muestra observada x. Por definición de h1 (θ) y h2 (θ) se tiene que

P [h1 (θ) < T (X) < h2 (θ)] = 1 − p1 − p2 ,

que es equivalente a

P [v1 (x) < θ < v2 (x)] = 1 − p1 − p2 ,

lo cual establece que (v1 , v2 ) es el intervalo del (1−p1 −p2 )100 % de confianza
para θ.
Para clarificar esta forma de obtener intervalos de confianza, a continua-
ción se muestran algunos ejemplos.

Ejemplo 5.5 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución U nif orme(0, θ), cuya función de densidad es
1
f (x; θ) = I(0,θ) (x).
θ
Determinar un intervalo de confianza para θ usando estadı́sticas suficientes.
Se sabe que Yn = máx{X1 , . . . , Xn } es una estadı́stica suficiente y es el
estimador máximo verosı́mil de θ, además la función de densidad de Yn es:
n  y n−1
fYn (y; θ) = I(0,θ) (y).
θ θ
Dados p1 y p2 , es necesario encontrar h1 (θ) y h2 (θ), las cuales son soluciones
de las ecuaciones (5.4). Entonces, se tienen que encontrar los valores h1 (θ)
198 5. Estimación por intervalos

y h2 (θ) tales que


Z h1 (θ)
p1 = nθ−n y n−1 dy,
0
Z θ
p2 = nθ−n y n−1 dy.
h2 (θ)

Se tiene que
Z h1 (θ)
n
θ p1 = ny n−1 dy,
0
Z θ