Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
inferencia estadı́stica
para estudiantes de ciencias
ISBN: 978-607-30-2477-8
Prólogo XV
Introducción XVII
1. ¿Qué es la estadı́stica? 1
1.1. La probabilidad y la estadı́stica . . . . . . . . . . . . . . . . . 2
1.2. Enfoques de la estadı́stica . . . . . . . . . . . . . . . . . . . . 3
1.2.1. El concepto de muestra aleatoria . . . . . . . . . . . . 6
1.3. Familia de localización y escala . . . . . . . . . . . . . . . . . 8
2. Estadı́stica descriptiva 11
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Datos y variables . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Escalas de medición . . . . . . . . . . . . . . . . . . . 13
2.2.3. Formas de recolección . . . . . . . . . . . . . . . . . . 14
2.3. Los datos y R . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1. Cargando los datos . . . . . . . . . . . . . . . . . . . . 15
2.4. Representación gráfica de los datos . . . . . . . . . . . . . . . 16
2.4.1. Frecuencia, frecuencia relativa y frecuencia acumulada 17
2.4.2. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . 17
2.4.3. Gráficas de barras . . . . . . . . . . . . . . . . . . . . 18
2.4.4. Gráficas de pay o pastel . . . . . . . . . . . . . . . . . 18
2.4.5. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . 21
2.4.6. Histograma . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.7. Boxplot o diagrama de caja y brazos . . . . . . . . . . 24
2.5. Medidas muestrales de tendencia central . . . . . . . . . . . 27
2.5.1. La media muestral . . . . . . . . . . . . . . . . . . . . 27
2.5.2. La mediana muestral . . . . . . . . . . . . . . . . . . . 27
2.5.3. Porcentiles o percentiles . . . . . . . . . . . . . . . . . 28
v
vi Índice general
3.5. Completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.6. Algunas generalizaciones . . . . . . . . . . . . . . . . . . . . . 88
3.7. Estadı́sticas auxiliares . . . . . . . . . . . . . . . . . . . . . . 90
3.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Bibliografı́a 357
xi
xii Índice de figuras
Es para mı́ un honor el que los autores me hayan pedido escribir el prólogo
a este libro. Lo es porque tengo un respeto muy grande por su trayectoria
académica y porque todos ellos fueron destacados estudiantes de la Maestrı́a
en Estadı́stica en la que tuve la suerte de participar desde su inicio; de hecho,
todos fueron mis alumnos del curso de Inferencia Estadı́stica que durante
muchos años he impartido. Es importante hacer notar que algunos de estos
autores obtuvieron posteriormente su doctorado mientras que otros atendie-
ron tareas académico-administrativas y de superación. Su participación en
el Departamento de Matemáticas de la Facultad de Ciencias es y ha sido de
enorme valor.
Me tocó estar en el inicio de la Maestrı́a en Estadı́stica e Investigación
de Operaciones, que se ubicó dentro del CCH con la participación muy des-
tacada de la Facultad de Ciencias y del ahora IIMAS. Esto, a principios de
los años 70, en que se inició formalmente un posgrado en estadı́stica.
Esa maestrı́a, junto con otros posgrados, en los 90’s se integraron en
el ahora Posgrado en Ciencias Matemáticas de la UNAM, siendo una de
sus áreas la estadı́stica y teniendo ya la posibilidad de ofrecer el nivel de
doctorado en ese campo particular.
En el posgrado, una materia central dentro de la estadı́stica sigue siendo
la inferencia. Pues bien, los autores de este libro cursaron la materia de
Inferencia Estadı́stica conmigo. Una de ellas la cursó en los inicios, durante
los 70’s, otros dos durante los 90’s, y la más reciente, cursó esa materia ya
entrado el 2000. Sus experiencias compartidas y el interés por hacer un libro
en estadı́stica los llevaron a escribir este tomo que yo califico como excelente.
Este libro, además de satisfacer sobradamente necesidades de los alum-
nos de la Facultad de Ciencias que quieran aprender estadı́stica, contiene
material de nivel de maestrı́a. El libro resulta una fuente de consulta y un
sólido texto para cursos serios introductorios y para cursos intermedios, in-
cluido, repito, el nivel de maestrı́a. Algunas discusiones hechas en el libro
rememoran discusiones en clase cuando he impartido el curso.
xv
xvi Prólogo
Se puede decir que la estadı́stica es una disciplina reciente con relación a otras
ramas de las matemáticas, no obstante que desde la antigüedad existieron
actividades relacionadas con el manejo de cifras, tales como las cuentas y
datos vinculados con las poblaciones de las ciudades o, más generalmente,
de los estados; situación que posiblemente es la génesis del término “es-
tadı́stica”. En Rao (1997), el estadı́stico hindú Radhakrishna Rao menciona
que “la estadı́stica tiene gran antigüedad pero escasa historia”, frase que
refleja el hecho de que la estadı́stica es joven como área formal, pero que
prácticamente ha estado presente a lo largo de la historia de la humanidad.
Entre los cientı́ficos que más han aportado a la estadı́stica para conver-
tirla en la disciplina con el carácter matemático y de importante aplicación
para ayudar a explicar fenómenos del mundo real, sobresalen Francis Gal-
ton (1822-1911), Karl Pearson (1857-1936), Charles Spearman (1863-1945),
Ronald Fisher (1890-1962) y Jerzy Neyman (1894-1981), sólo por mencionar
algunos.
La inferencia estadı́stica es una disciplina que se basa en gran medida en
la probabilidad y que ayuda a resolver problemas haciendo conclusiones de
alguna caracterı́stica de la población, usando para ello datos muestrales de la
misma. Por ejemplo, los estadı́sticos pueden realizar estudios de opinión, en
donde a través del punto de vista de algunos ciudadanos que componen una
muestra suficientemente representativa, se puede medir el pulso de temas de
interés para el paı́s.
La estadı́stica involucra conceptos y resultados que pueden resumirse en
grandes temas: análisis exploratorio de datos, distribuciones muestrales, es-
timación puntual, estimación por intervalo y pruebas de hipótesis, los cuales
son fundamentales en el estudio y la aplicación de esta disciplina.
Para la lectura de este documento es importante contar con conocimien-
tos de teorı́a de la probabilidad, ası́ como de cálculo diferencial e integral en
una y varias variables.
xvii
Capı́tulo 1
¿Qué es la estadı́stica?
1
2 1. ¿Qué es la estadı́stica?
Ejemplos:
(1) Se extraen los objetos, uno cada vez, de una colección finita llamada
población y se determina una caracterı́stica particular de interés de ca-
da objeto extraı́do. Después de cada observación y antes de la siguiente
extracción, se devuelve el objeto extraı́do y se mezcla la población de
objetos.
(2) Se extraen los objetos de una población finita como en (1), excepto
que los objetos no se remplazan.
Ejemplo 1.1 Una urna contiene cuatro bolas numeradas del 1 al 4. Se ex-
traen 2 aleatoriamente, una cada vez. Sea X1 el número de la primera bola
extraı́da y X2 el número de la segunda bola extraı́da. Hay 12 posibles resul-
tados del experimento:
Estadı́stica descriptiva
2.1. Introducción
La estadı́stica descriptiva se distingue de la inferencia estadı́stica en que
la primera tiene como objetivo resumir un conjunto de datos en lugar de
utilizarlos para hacer inferencias de la población que se cree que dichos da-
tos representan. Esto generalmente significa que la estadı́stica descriptiva,
a diferencia de la inferencia estadı́stica, no se desarrolla sobre la base de
la teorı́a de la probabilidad. Su objetivo primario es entonces analizar un
grupo determinado, resumiendo los datos de manera que se pueda enfatizar
la información relevante que sea útil para el planteamiento de preguntas y
modelos.
Este tema se puede abordar desde diferentes ángulos, pero considerando
el objetivo del presente texto, que está más enfocado a la inferencia estadı́sti-
ca, sólo se hace una breve revisión de los conceptos más importantes de la
estadı́stica descriptiva. Se utilizan para ello datos que están disponibles en
el paquete estadı́stico R, con el fin de ilustrar también el uso y resultados de
11
12 2. Estadı́stica descriptiva
este software. La razón principal para usar R es que este paquete es asequi-
ble por ser de uso libre y que, además de la popularidad que ha adquirido
en los últimos años en el ámbito educativo, se utiliza ampliamente en otros
sectores.
También se exhiben los términos más importantes del análisis explorato-
rio de datos.
de más tiene una observación comparada con otra, con respecto a cier-
ta caracterı́stica analizada. El ejemplo por excelencia de este tipo de
escala es cualquier escala de temperatura, ya que el cero en ellas no
significa que no haya temperatura.
species of rock crab of genus Leptograpsus. Australian Journal of Zoology 22, 417-425.
16 2. Estadı́stica descriptiva
En este punto se tienen las variables listas para realizar el análisis des-
criptivo.
Tabla de frecuencias.
Gráfica de pastel.
Gráfica de barras.
Histograma.
f1 + · · · + fk = n.
Fi = f1∗ + · · · + fi∗ .
> table(sex)
sex
F M
100 100
18 2. Estadı́stica descriptiva
100
75
Frecuencia
Especie
50 Blue
Orange
25
B O
Especie
Orange
Blue
4, 2, 3, 2, 1, 2, 3, 3, 3, 3, 4, 3, 5, 3, 3, 2, 2, 4, 3, 2
Respuesta
A
B
C
D
E
75 98 42 75 84 87 65 59 63 86 78 37 99 66 90 79 80 89
68 57 95 55 79 88 76 60 77 49 92 83 71 78 53 81 77 58
93 85 70 62 80 74 69 90 62 84 64 73 48 72
37 42 48 49 53 55 57 58 59 60 62 62 63 64 65 66 68 69
70 71 72 73 74 75 75 76 77 77 78 78 79 79 80 80 81 83
84 84 85 86 87 88 89 90 90 92 93 95 98 99
3 7
4 289
5 35789
6 022345689
7 01234556778899
8 00134456789
9 0023589
2.4.6. Histograma
Un histograma es la representación visual de la distribución de un conjunto
de datos. Es decir, se intenta tener una idea acerca de cómo se comportan
pensando en una función de densidad empı́rica. El histograma tiene algunas
similitudes con la gráfica de barras (ver la función barplot()), en el sentido
22 2. Estadı́stica descriptiva
que también utiliza barras para indicar una frecuencia, pero a diferencia del
diagrama de barras, cada barra en el histograma representa la frecuencia
de un intervalo sobre el rango de las observaciones que se tienen. Cuando
se elabora un histograma, se toma una decisión acerca de cómo se va a
dividir el rango de la muestra en intervalos y cuán altas se dibujarán las
barras, dado que únicamente tienen que estar en la proporción correcta. R
tiene varios métodos para la selección de estos intervalos (Sturges, Scott y
Freedman–Diaconis). Las dos maneras de establecer la altura de las barras
son la frecuencia absoluta del intervalo y aquella que hace al área de la barra
igual a la frecuencia relativa del intervalo. Bajo este último método, el área
total de las barras sumará 1, lo cual es conveniente cuando se está pensando
en ajustar el modelo de una distribución de probabilidad.
En la función hist(), la longitud de los intervalos está controlada por el
parámetro breaks. Este puede ser especificado por el nombre de un algoritmo
que los genere, el número de intervalos deseados o la localización exacta de
los extremos de los intervalos deseados (breaks).
La siguiente instrucción imprime gráficas: 2 renglones, 2 columnas:
> par(mfrow=c(2,2))
O, un renglón y 2 columnas:
> par(mfrow=c(1,2))
> hist(CW,breaks="Sturges",freq=TRUE,col="lightgray",main=
"Ancho del caparazon", ylab="Frecuencia absoluta")
> hist(CW,breaks=30,probability=TRUE,col="gray",main="Ancho
del caparazon", ylab="Frecuencia relativa")
40 0.06
Frecuencia absoluta
Frecuencia relativa
30
0.04
20
0.02
10
0 0.00
20 30 40 50 20 30 40 50
CW CW
50
Ancho del caparazón
40
30
20
Cangrejos
Figura 2.5: Diagrama de caja y brazos para la caracterı́stica ancho del ca-
parazón de la base de datos de los cangrejos crabs.
> par(mfrow=c(1,2))
> boxplot(CW~sp, xlab="Especie",ylab="Ancho del caparazon")
> boxplot(CW~sex, xlab="Sexo",ylab="Ancho del caparazon")
Para una gráfica de caja y brazos con estas caracterı́sticas, véase la
figura 2.6.
50 50
Ancho del caparazón
Ancho de caparazón
40 40
Especie Sexo
Blue Femenino
Orange Masculino
30 30
20 20
B O F M
Especie Sexo
B O
50
Ancho del caparazón
40
Sexo
Femenino
Masculino
30
20
F M F M
Figura 2.7: Gráfica de caja y brazos para la caracterı́stica ancho del capa-
razón para las diferentes variables asociadas a especie y sexo.
> quantile(CW,0.75,type=2)
75%
42
> quantile(CW,c(0.25,0.5,0.75),type=2)
25% 50% 75%
31.5 36.8 42.0
Haciendo el cálculo en R,
> (rango.CW<-max(CW)-min(CW))
[1] 37.5
rango intercuartil = Q3 − Q1 .
Haciendo el cálculo en R:
> CW.Q1.Q3<-quantile(CW,c(0.25,0.75),type=2)
> (CW.R.I<-diff(CW.Q1.Q3))
10.5
CW
mı́n 17.1
Tendencia Q1 31.5
central x 36.4145
me 36.8
Q3 42.0
máx 54.6
Rango muestral 37.5
Dispersión Rango intercuartil 10.5
Desv. Estándar 7.871955
Varianza 61.96768
Curtosis
La curtosis se define como:
µ4
,
σ4
donde µ4 es el cuarto momento alrededor de la media y σ es la desviación
estándar.
En ocasiones se mide con referencia a la distribución normal que tiene
una curtosis igual a 3,
µ4
γ2 = 4 − 3.
σ
2.8. Relaciones lineales entre variables 33
6 10 14 18 20 30 40 50
● ●● ● ● ●●●●
● ●
●
●● ● ●●● ●●
● ●
● ●●●
●●● ●
● ●● ● ●●
●● ● ●●●
●●●●● ● ●●●●
●
●● ●
●●●
●● ● ● ●● ●
10 15 20
●●●● ●● ● ●● ●
●●● ● ●● ● ●
●●
●●●●
● ● ●
●● ●●
●●● ●
●●●
●
●
●●●●
●●
●●●●●
●●●●
● ●●●●
● ●●
●●
●
●●●●● ●
●●●
●
●●●
●●
●● ●● ● ●●● ●
● ●
●●
●
●●●●
●
●
●
●
●
●● ● ●●● ● ●●
● ●● ●
● ● ●
●●
●
●●
●
●
● ●●
●●
●● ●●● ●● ● ●●
●
●
●
● ●
●●
●
●●
●●
● ●●●● ●
●●
● ●
●
●
●
●●●●
●●●
●
● ●
● ●●●
●
●●
●●
●
●
●●●
●
●●●
● ● ●● ●● ●●
● ●
●● ● ● ●●●●●● ●● ●
●
●●●
FL
●●●●●
●●
● ●
●● ●● ●●
●●●
● ●●● ●●● ●
●●●
●● ●●
●●
●● ●●
●●● ●
●●
●●
●●●
●
●
●●
● ●● ●●
●●●
●
●
●
●●
●
●●
●
●
●●
●●
●● ● ●
●
●
●●
●
● ●
●
●●
●
●●
●
● ● ●
●●
●
●
●●
●
●
●
●
●
●
●●
●●
● ●
●●●●●●●●
●●
● ●●●
●●●
● ●●●
●● ●●
● ●●
●●
●●
●●●
●
●
●●
●
●
●●●● ●● ●●●
●●●
●
●● ●●
●●
●●●●● ●
●●●
●●
●●
●
● ●
●●● ●●● ●
●●●
● ●● ●
● ●●
●●●
●●●●
●
●
●
●
●
●●
●●
●●
● ● ●●●●●
●●●●●
●
●●
●●●
●● ●● ●
●●
●●●
●
●●
●●
●
● ●
●
●
●●
●
●
●
●
●
●●
●
●●
●●
●●
● ●
●
●
●●●
●●●●
● ●● ● ●●●
●● ●
●●
●● ●●● ●●
●●
●●●
● ●
●●
●●
●●●
●
●●●●●●
● ● ●●
●●
● ●●●●●● ● ●
●
●●●
●
●
●
●●●●●●
●
● ●●
●●
●
●●
●
● ●
● ●●
●
●●
●
● ●●
●●
●●
●
● ● ● ●
● ● ● ●
● ● ● ●
●
● ●● ● ● ● ●● ●
●●
●● ●●●● ●● ●●
●
●
● ● ●●● ●●●●●●●●● ● ●● ●
●
●● ●● ●
● ● ●● ● ●● ●
●● ●
16
● ● ● ● ●
● ●●●● ● ●●●● ●●
●●● ● ●● ●● ●●●●● ●● ●●●●●●●●●
●● ●●●● ● ● ●●●● ● ●
●●● ● ●●
● ●●
● ●●
●
●● ●●
●●●● ● ● ●●●●● ●● ● ●●●●
● ●●
● ● ●●● ●●● ●● ●●
●●●
● ● ●●●● ●●●●● ●●●
●● ●●● ●●
●●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●●●●
●●●
● ●
●
●●
●
●●
●●●●●●
●●
●●
RW ●●
●
●
●
●●●
●
●●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●●●● ●●●
●● ●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●● ●●●●
●●
●●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●● ●
●
●
●
●
●
●
●
●
●
●●●●●
● ●●
●●
●
●●
● ●●
●●●
●
●
●●● ●●●●
●
●●●
●●
●
●●
●
●
●
●
●
●
●
●●
●●
●●
●
●●●
●●
●●
●●
●●
●●
●●●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●●●●
●●
●
●●●●
●
●●
●●
●
●
●●
●
●●
●●●
●
●
●●
●
●
●
●
●●
●
10
●● ●● ●
● ●
●● ●●
● ●●●●● ●
● ● ●●
●●
●●●●●
●
● ●●
● ● ●●
●
●● ● ●●● ●●●
●●●●
● ● ●
● ● ● ●●●
●●●
●
● ●
●●●●● ●●●
●●●
● ●●●
● ●●
● ●● ●●●●●
●●●
●●
● ●●●
●
●● ●
●●
● ●
●● ●●
●●
●● ●●
●● ●
●● ●
●●
●● ● ●●● ●●
● ● ●●
6
● ● ● ● ● ●● ● ● ●● ●
15 25 35 45
●●
● ● ●
●● ● ●●● ●●
●
● ● ● ● ● ●●● ●●
●● ●
●●●●●●●● ●
●●
● ●●
●● ● ●● ●
●
●●
●
●
●
●●
●
●
●●●
●●●●
● ●●●● ●● ●
● ●●●●
●●●● ●●
●
●●●
●●
●
●●● ●
●
●●
●
●●
● ●●●
●●●
●
●●●● ●● ●
●●
● ●● ●
● ●
● ●● ● ●●
●
●●●●
●●●●● ●
● ●●●●●●● ●
●●
● ●
●● ●●● ●●
●●●
●● ●
●●
●●●●●●
●
●● ●●●
● ●
●
● ● ●●
●●●●
● ●●●
● ●●
●●●●
●●●
●
●
●●
●
●●
● ● ●
●●●●
●
●
●●
●
●
●
●●● ●
●●
● ●●
●
● ● ● ●●
●
●
●
●
●
●
●
●
●● ●
●●
●●
●
●
●
●
● ●
●●●
●●●● ● ● ●● ●
● ●
●●●●●
CL
●●
●
●
●
●● ●● ●●
● ●●
●●
●● ●
●●
●
● ●
●
●●
●●●
●
●●●
●
●●●
●
●●
●●
● ● ●
●
●
●● ●
● ●
●●
●
●
●●
●●
●
● ●
●●
●
●
●
●
●●
●
●
●●
● ●
● ●
●
●●●
●
●
●●●
● ●
● ●
●●
●
●● ●●
● ●●● ●●●● ● ●●●
●●●
●●
●●●
●
●
●
●
●
●●● ●
●
●
●
●●●
●
●
●●●●●● ●
●●
●
●
●
●
●
●● ●●●
●●●●
●●
●
●
●●
●●
●●●
●●
●
●
●●●● ●●
● ●
●
●
● ●
●●●
●● ●●
●●
●
●●
● ●
●●
●
●●
●●
●●●
●●●
● ●● ● ●●
●● ●
● ●● ●
●● ●
●●
●
●
●
●● ●
● ●●●●
●● ●
●● ●●●
●
● ●
●
●
●●
●●●●
●
●
●●
●
●●●
● ●●●● ●
● ●
●●●●
●
● ● ●
●
●●●●●
●●
●●●● ●
● ●●●
●● ●●● ●●●
●●●●
● ●
●●●●●
●●
●
●
●
●
●●● ●
●●
● ●
●●● ●●
●
●● ●● ●● ●●
● ● ● ●
● ● ● ●
●
● ● ● ● ●
●● ●●●
● ●●●
●● ● ●
●●
● ●●●●
●
● ●● ●
●
●●
●●●
●
● ● ●● ● ●
●●●●
● ● ●
● ●● ●●● ●●
●
●●
●
● ● ●
●● ●●●●
●● ●●●●● ● ●●●
● ●
● ●● ● ●●
●●
●
●
●
●●
●●
● ●● ●
●●
●
●● ● ●●
●●
●●● ●●●●●
●
● ●
●●
●●
●
●●
●● ●●●●●●●
●●●
●●
●● ●
●● ●●
●
●●●● ●●●●● ● ●● ●●
●
●●
●
●●
●●
●● ●
● ●●
●●●
●
●
●●
●●● ●
●● ●●
40
● ●●●
● ●
●●● ●●
●
●●
● ●
●● ●
●
●
●
●
●
●
●
●
●●●
● ●
●
●●●
●●
●
● ●● ●
●
●
●●
●
● ●●●
● ●
●●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●● ●●
●
●●●●
●●
●
●●
●
●
●
●
● ●●●
●●●
●
CW
●●
●
●● ●●
●
● ●
●● ●● ●
●
●
●
●●
●● ●
●
●●
●
●●
●● ●
●●
●●● ●●●
●
●
●● ● ●● ● ●●
●● ●●
● ●
●●
●●●●●●●
●
●●
●●●● ●●
●●●●
●● ●●
●●
●
●
●
●● ●●●●
●
●
●●
●
●●
●
●●●
●●
●
●
● ●
●●
●
●●
●
●●
●● ●
●●●
●
●
●
●
●
●●
●
●●●
●●●●● ●
●
●●
●
●●
●●●
●●
● ●
●●
●
●●●●●●
●●●
●
●
●●
●
●●
●●
●●
●●
● ●●●
● ●●●
●
●
●●
●●
●●●
●● ●● ●
●●
●●
●●● ●
● ●
●●
●● ●●
●●
●●
●
●
●
●
●
●●● ●●●
●●
●
●●
●●
●●
●●●
● ●
●●
●
●●
●
●●●
● ●
●●●
●●
●●●
●
●●
● ● ●●● ●● ●
●● ●●
● ●●●
●
●●
●●●● ●
● ●●
●●
●
●
●
●
●
● ●
●
●
●●
●
●●●
● ●
● ●●●
●●
●
●●
●●
●●●●
●
●● ●●
●
●●●●●● ●●●
●●
●●
● ● ●●
●● ●●●
●● ● ● ●●
20
● ●● ●● ●
●● ●● ●● ●●
● ● ● ●
●
● ●
● ● ●
●● ●●
●●
● ● ● ● ● ●●●
10 15 20
●
●
●●●● ●●●
●
● ● ●
●
●
●● ● ●●●
●
● ●
●●●
● ●● ●●
●● ●●●●
● ●●
●
●
●● ● ●
● ●● ● ●
●●●● ●● ●●●●
●●●
●●
●
●
●●
●●
●●
●● ●
●●
●●● ●● ●
●●
●
● ●●
●● ●
●●
●
●
●
●●
●●● ●●●●●
●
●●●●●
●
●
●●
●●●● ●
●●
●●●●●●●● ●
● ●● ● ●
●●
●●
●●
●●●
●●●●
● ● ●●
●●
● ●● ● ● ●
●
●
●●
● ●●
●●●
●
●●●
●
● ●
●●● ●
●
●
●●
●
●●●
●●
●
●
●
●
●●
●● ● ● ●●
●
●
●●
●
●
● ●
●
● ●
●
●●● ●●
●
●
●
●
●
●●
●
●●● ●●
●
●
●●
●
● ●●●
●●
BD
●●●●●
●
●●●
● ●●●●●
● ●●●●
●● ●●●●
●●●● ● ●● ●
●●●●●●●
●●
●● ●●● ●●●●● ●●
● ●
● ●
●
●
●●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●
● ●
●
● ●
●
●●
●
●
●●
●●● ●
●●
●●
●
●●
● ●●●●
●●
●●
●
●● ●
●●
●
●
●
●
●●
●●●●
● ●●●●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
● ●
●●
●●
●● ●●●●●●●●●●
● ●●●● ●
●
●●● ●
●●●●●
●
●
●
●●●●
●
●● ● ●●●●
●●●●● ●
● ●●
●●
●● ●●● ●●●
●● ●●●
●
●●
●
●●
●
● ●● ●
●●● ●● ●
●●●
●
● ● ●●
●●●●●
●●
●
●●
●
●●
●●
●● ●
●●●
●
●●
●●●
●●
● ● ●●●
●
●●●●
●● ●●
●●●
●
●●
●●
●●●
●●●
●● ●
● ●
●●●●●● ●●
● ●●
●●● ●●●●●●
●
●
●●●●
●● ●●●●● ●●●
● ●● ●●●●●●
●●●● ●
● ●● ●●●● ●●●
●●
●
● ●●● ●
● ●●
●●
● ●●
●● ●
●●● ●●● ●●● ●●
● ● ● ●
10 15 20 15 25 35 45 10 15 20
Figura 2.8: Gráfica de dispersión para la base crabs y que ilustra la relación
entre las diferentes medidas morfológicas para los cangrejos.
34 2. Estadı́stica descriptiva
FL 0.8
0.6
0.91 RW 0.4
0.2
0.98 0.89 CL 0
−0.2
−0.6
−1
Figura 2.9: Gráfica de correlación para las medidas morfológicas de los can-
grejos.
2.9. Anexo 35
>library(corplot)
>corrplot.mixed(cor(crabs[,4:8]),lower="number",upper="color")
2.9. Anexo
A continuación se dan las instrucciones para elaborar algunas de las gráficas
de este capı́tulo a través de la biblioteca ggplot2 de R.
En la siguiente liga se puede encontrar una guı́a rápida para visualización
de datos usando ggplot2.
https://rstudio.com/wp-content/uploads/2016/12/
ggplot2-cheatsheet-2.1-Spanish.pdf
>crabplot = ggplot(data=crabs)
# GRAFICA DE BARRAS
# fill se utiliza para que los ponga de distinto colores de
# acuerdo a sp scale_fill_discrete es para modificar
# las leyendas
>barplot = crabplot + geom_bar(aes(x=sp, fill=sp), alpha=0.4)
+ labs(x=" ", y="Frecuencia") +
scale_fill_brewer(labels=c("Blue","Orange"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=-1)
>barplot
#Las escalas de colores se pueden ver en
#RColorBrewer::display.brewer.all()
fill=as.factor(sp)), width=1)
>pieplot = pieplot + coord_polar(theta ="y") + labs(x="",y="")+
scale_fill_brewer(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=1) + theme_void()
>pieplot
# Alternativa: scale_fill_discrete(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"))
# theme_void() para quitar las coordenadas
#+ guides(fill=guide_legend("Respuesta")) se
#sustituyo por scale_fill_brewer
# HISTOGRAMA
#Frecuencia absoluta
>histogram_abs = crabplot + geom_histogram(aes(x=CW),
binwidth = 4.755) + labs(title="Ancho del caparazón",
2.9. Anexo 37
y="Frecuencia absoluta")
>histogram_abs
#Frecuencia relativa
>histogram_rel = crabplot +
geom_histogram(aes(x=CW, y=..density..),bins=30) +
labs(title="Ancho del caparazón", y="Frecuencia relativa")
>histogram_rel
#Para que aparezcan juntas (ver nota al final de este anexo)
>ggplot2.multiplot(histogram_abs, histogram_rel, cols=2)
# BOXPLOT
>boxplot_cangrejos = crabplot +
geom_boxplot(aes(x="", y=CW),fill="blue", alpha=0.3) +
labs(x="Cangrejos", y="Ancho del caparazón") +
scale_fill_brewer(type = "seq", palette="Set1", direction=-1)
>boxplot_cangrejos
# Especie
>boxplot_especie = crabplot +
geom_boxplot(aes(x=as.factor(sp), y=CW, fill=as.factor(sp)),
alpha=0.3) + labs(x="Especie", y="Ancho del caparazón") +
scale_fill_brewer(labels=c("Blue", "Orange"),
guide=guide_legend("Especie"), type = "seq",
palette="Set1", direction=-1)
>boxplot_especie
#Sexo
>boxplot_sexo = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
labs(x="Sexo", y="Ancho de caparazón")+
scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_sexo
>ggplot2.multiplot(boxplot_especie,boxplot_sexo, cols=2)
#Sexo/Especie
>boxplot_espsex = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
38 2. Estadı́stica descriptiva
facet_grid(.~as.factor(sp))
+ labs(x="", y="Ancho del caparazón")
+ scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_espsex
# guides(fill=guide_legend("Sexo"))
2.10. Ejercicio
Realice un análisis exploratorio para las variables de la base Cars93, incluida
en la biblioteca MASS de R. La base considera autos seleccionados aleato-
riamente de entre los autos de pasajeros disponibles en el mercado en 19932 ,
listados por el Consumer Reports issue y el PACE Buying Guide.
2 Lock, R. H. (1993). 1993 New Car Data. Journal of Statistics Education (1).
Capı́tulo 3
Estadı́sticas y
distribuciones muestrales
3.1. Introducción
De acuerdo a la definición 1.2, una muestra aleatoria representa un con-
junto de variables aleatorias X1 , . . . , Xn , las cuales son independientes e
idénticamente distribuidas. En este capı́tulo se estudiarán las propiedades
de funciones de la muestra aleatoria que serán fundamentales en el proceso
de inferencia.
39
40 3. Estadı́sticas y distribuciones muestrales
σ2
E(X̄) = µ y Var(X̄) = .
n
Demostración.
Pn n
i=1 Xi 1X 1
E(X̄) = E = E(Xi ) = · nµ = µ.
n n i=1 n
3.1. Introducción 41
Ahora,
Pn n
nσ 2 σ2
i=1 Xi 1 X
Var(X̄) = Var = 2
Var(Xi ) = 2 = .
n n i=1 n n
n
X n
X
(Xi − µ)2 = (Xi − X̄ + X̄ − µ)2
i=1 i=1
n
X
(Xi − X̄)2 + 2(Xi − X̄)(X̄ − µ) + (X̄ − µ)2
=
i=1
n
X n
X
= (Xi − X̄)2 + 2(X̄ − µ) (Xi − X̄) + n(X̄ − µ)2
i=1 i=1
n
X
= (Xi − X̄)2 + n(X̄ − µ)2 .
i=1
E(S 2 ) = σ 2 .
42 3. Estadı́sticas y distribuciones muestrales
Demostración.
" n #
2 1 X
2
E(S ) = E (Xi − X̄)
n−1 i=1
" n #
1 X
2 2
= E (Xi − µ) − n(X̄ − µ)
n−1 i=1
( n )
1 X
2
2
= E (Xi − µ) − nE (X̄ − µ)
n − 1 i=1
" n #
1 X
= Var(Xi ) − n · Var(X̄)
n − 1 i=1
nσ 2
1 2
= nσ −
n−1 n
= σ2 .
Resultados x1 , x2 , x3 Distribución x̄ s2
s,s,s 1,1,1 θ3 1 0
2
s,s,a 1,1,0 θ (1 − θ) 2/3 1/3
s,a,s 1,0,1 θ2 (1 − θ) 2/3 1/3
a,s,s 0,1,1 θ2 (1 − θ) 2/3 1/3
a,a,s 0,0,1 θ(1 − θ)2 1/3 1/3
a,s,a 0,1,0 θ(1 − θ)2 1/3 1/3
s,a,a 1,0,0 θ(1 − θ)2 1/3 1/3
a,a,a 0,0,0 (1 − θ)3 0 0
3.1. Introducción 43
X̄ ∼ N (µ, σ 2 /n).
Ası́,
Pn n
!
Xi Y t
tX̄ t· i=1 X
mX̄ (t) =E(e )=E e n =E en i
i=1
n
Y t
= E e n Xi pues X1 , . . . , Xn son independientes
i=1
Yn
= mXi (t/n)
i=1
3.2. Distribución de las estadı́sticas 45
n
Y t 1 t2 2
= e n µ+ 2 · n2 σ pues X1 , . . . , Xn son idénticamente distribuidas
i=1
1 2 σ2
=etµ+ 2 t n ,
1 2 σ2
∴ mX̄ (t) = etµ+ 2 t n ,
2
de donde se concluye que X̄ ∼ N µ, σn .
λr r−1 −λx
f (x; r, λ) = x e , x > 0,
Γ(r)
R∞
donde Γ(r) = 0
xr−1 e−x dx es conocida como la función Gama, la cual
satisface:
E(X) = λr ,
r
V ar(X) = λ2 ,
r
λ
mX (t) = λ−t .
46 3. Estadı́sticas y distribuciones muestrales
1 k/2
k 1
f (x; k) = 2
k
x 2 −1 e− 2 x , x > 0.
Γ 2
k/2
E(X) = 1/2 = k,
k/2
Var(X) = 1/4 = 2k,
1/2 k 1
mx (t) = ( 1/2−t ) 2 = ( 1−2t )k/2 .
1. Zi2 ∼ χ2(1) .
n
Zi2 ∼ χ2(n) .
P
2.
i=1
Demostración.
Z ∞
tZi2
2 1 2
mZi2 (t) = E e = etzi √ e−zi /2 dzi
−∞ 2π
Z ∞
1 − 1 zi2 (1−2t)
= √ e 2 dzi
−∞ 2π
r Z ∞
1 1 1 2
= q e− 2 zi (1−2t) dzi
1 − 2t −∞ 2π( 1 )
1−2t
r Z ∞
1 1 1 1 2
= q e− 2 · 1/(1−2t) zi dzi
1 − 2t −∞ 2π( 1 )
1−2t
| {z }
1
1/2
1
= ,
1 − 2t
la cual corresponde a la función generadora de momentos de una dis-
tribución χ2(1) .
2. Para la segunda parte se utilizará el hecho de que la suma de variables
aleatorias independientes con distribución Gama tiene también distri-
bución Gama con parámetro de forma igual a la suma de los parámetros
de forma de las variables que componen la suma, cuando el parámetro
de escala es el mismo para todas las variables aleatorias; además de
que la distribución Ji-cuadrada es un caso particular de la distribu-
ción Gama. OP bien, calculando directamente la función generadora de
n
momentos de i=1 Zi2 :
n n 1/2 n/2
Y Y 1 1
mPn Zi2 (t) = mZi2 (t) = = .
i=1
i=1 i=1
1 − 2t 1 − 2t
2σ 4
4. E(S 2 ) = σ 2 y Var(S 2 ) = n−1 .
Demostración.
X1 = Y1 − Y2 − Y3 − · · · − Yn ,
X2 = Y1 + Y2 ,
X3 = Y1 + Y3 ,
.. ..
. .
Xn = Y1 + Yn .
∂Xi
El Jacobiano de esta transformación es igual a n, pues la matriz ∂Yj
tiene la forma:
1 −1 −1 −1 ··· −1
1 1 0 0 ··· 0
1 0 1 0 ··· 0
,
1 0 0 1 ··· 0
.. .. .. .. .. ..
. . . . . .
1 0 0 0 ··· 1
n
X 2 2
= (xi − x̄) + n (x̄ − µ) ,
i=1
3. Observe que Pn
(n − 1)S 2 i=1 (Xi − X̄)2
=
σ2 σ2
se tiene que
Pn Pn
i=1 (Xi − µ)2 i=1 (Xi − X̄)2 n(X̄ − µ)2
= + (3.2)
σ2 σ2 σ2
n
(Xi −µ)2
P
Pn 2 2
Pero note que i=1
σ2 = i=1 Xiσ−µ ∼ χ2(n) y también n(X̄−µ) σ2 =
2
X̄−µ
√
σ/ n
∼ χ2(1) ; y como X̄ es independiente de X1 − X̄, . . . , Xn − X̄,
entonces Pn 2
i=1 (Xi − X̄)
2
∼ χ2(n−1) ,
σ
debido a que bajo el supuesto de independencia y por (3.2), la función
P n 2
i=1 (Xi −µ)
generadora de momentos de σ2 se puede escribir como el
52 3. Estadı́sticas y distribuciones muestrales
Pn 2
i=1 (Xi −X̄) n(X̄−µ)2
producto de las funciones generadoras de W = σ2 y σ2 ,
es decir:
−n/2 −1/2
(1 − 2t) = mW (t) × (1 − 2t) , t < 1/2
de donde,
−n/2+1/2 −(n−1)/2
mW (t) = (1 − 2t) = (1 − 2t) .
2
(n − 1)S
∴ ∼ χ2(n−1) .
σ2
4. Anteriormente se probó que E(S 2 ) = σ 2 , sin embargo conociendo ya
2
la distribución de (n−1)S
σ2 , se puede obtener de la siguiente manera,
además de deducir la varianza correspondiente.
2
Como (n−1)S
σ2 ∼ χ2(n−1) , entonces
(n − 1)S 2
(n − 1)
E S 2 = n − 1 ⇒ E S 2 = σ2 .
E 2
=n−1⇒ 2
σ σ
2
También, como (n−1)S
σ2 ∼ χ2(n−1) , se tiene que
(n − 1)S 2 (n − 1)2
Var 2
= 2(n − 1) ⇒ Var(S 2 ) = 2(n − 1)
σ σ4
2(n − 1)σ 4 2σ 4
⇒ Var(S 2 ) = 2
= .
(n − 1) n−1
2σ 4
∴ Var S 2 =
.
n−1
se tiene que:
m+n
( 12 ) 2 m m2 m Z ∞ m+n 1 m
fX (x) = x 2 −1 y 2 −1 e− 2 ( n x+1)y dy
Γ( m2 )Γ( n
2 ) n 0
1 m+n
(2) 2
m
m 2 m −1
Γ( m+n
2 )
= m n x2 m+n
Γ( 2 )Γ( 2 ) n 1 m
[ ( x + 1)] 2
2 n
m m−2
Γ( m+n
2 ) (mn) x
2 2
= · ,
Γ( m
2 )Γ( n
2)
m m+n
( n x + 1) 2
1
Pm+1 1
Pn+1 1
Pm+1
En este caso X̄ = m+1 i=1 Xi , Ȳ = n+1 j=1 Yj , Sx2 = m i=1 (Xi −
1
Pn+1
X̄) y Sy = n j=1 (Yj − Ȳ )2 .
2 2
3.2. Distribución de las estadı́sticas 57
Entonces,
mSx2 2
nSy2
∼ χ (m) y ∼ χ2(n) .
σx2 σy2
Por el teorema anterior, se concluye que:
Sx2 /σx2
∼ F (m, n).
Sy2 /σy2
Γ( k+1
2 ) 1 1
f (x; k) = √ , con k = 1, 2, . . .
Γ( k2 ) 2 k+1
kπ (1 + xk ) 2
Z
X=p y Y = U.
U/k
σ2 σ2
X ∼ N µX , y Y ∼ N µY , , (3.3)
m n
3.3. Estadı́sticas de orden 59
mientras que
2
(m − 1) SX (n − 1) SY2
∼ χ2(m−1) y ∼ χ2(n−1) (3.4)
σ2 σ2
De (3.3) se tiene que
σ2 σ2
X −Y ∼N µX − µY , + ,
m n
y por lo tanto,
X − Y − (µX − µY )
q ∼ N (0, 1) .
1
+ n1
σ2 m
De (3.4) y las propiedades de la distribución Ji-cuadrada se sabe que:
2
(m − 1) SX + (n − 1) SY2
∼ χ2(m+n−2) .
σ2
Ası́ que por el teorema 3.4 se concluye que
X−Y −(µX −µY )
q
σ2 ( m
1 1
+n ) X − Y − (µX − µY )
q 2 +(n−1)S 2
=q 2 +(n−1)S 2 ,
(m−1)SX (m−1)SX 1 1
σ 2 (m+n−2)
Y
(m+n−2)
Y
m + n
n
X n
∴ FYr (y) = [F (y)]j [1 − F (y)]n−j .
j=r
j
De donde:
fYn (y) = n[F (y)]n−1 f (y).
3.3. Estadı́sticas de orden 61
P[a < X ≤ b, c < Y ≤ d] = FX,Y (a, c) + FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c).
y
lı́m FX,Y (x, y) = FX (x)
y→∞
conduce a:
Por lo tanto,
De esta manera, FY1 ,Yn (y1 , yn ) = FYn (yn )−(F (yn )−F (y1 ))n . Y por (3.5)
se llega a que:
Para obtener fY1 ,Yn (y1 , yn ) se usará la propiedad que relaciona a las
funciones de densidad y de distribución para el caso de dos variables, a
saber,
∂2
FX,Y (x, y) = fX,Y (x, y) ,
∂y∂x
62 3. Estadı́sticas y distribuciones muestrales
ası́:
∂
FY ,Y (y1 , yn ) = n(F (yn ) − F (y1 ))n−1 f (y1 ),
∂y1 1 n
y
∂2
FY ,Y (y1 , yn ) = nf (y1 )(n − 1)(F (yn ) − F (y1 ))n−2 f (yn ).
∂yn ∂y1 1 n
De esta forma se concluye que:
fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn ). (3.8)
fR,T (r, t) = |J| fY1 Yn (y1−1 (r, t), yn−1 (r, t)).
fR,T (r, t) =
h r r in−2 r r
n(n − 1) F t + −F t− f t− f t+ . (3.9)
2 2 2 2
3.4. Estadı́sticas suficientes 63
Otra expresión relacionada con las estadı́sticas de orden que puede ser de
interés es la densidad conjunta de Y1 , . . . , Yn , suponiendo nuevamente que
estas variables corresponden a las estadı́sticas de orden de una muestra alea-
toria X1 , . . . , Xn . Ası́,
n
Y
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ) ,
i=1
S (X1 , X2 , . . . , Xn )
Resultados x1 , x2 , x3 Distribución x̄
s,s,s 1, 1, 1 θ3 1
2
s,s,a 1, 1, 0 θ (1 − θ) 2/3
s,a,s 1, 0, 1 θ2 (1 − θ) 2/3
a,s,s 0, 1, 1 θ2 (1 − θ) 2/3
a,a,s 0, 0, 1 θ(1 − θ)2 1/3
a,s,a 0, 1, 0 θ(1 − θ)2 1/3
s,a,a 1, 0, 0 θ(1 − θ)2 1/3
a,a,a 0, 0, 0 (1 − θ)3 0
Si se propone ahora otra estadı́stica definida como T (X1 , X2 , X3 ) =
X1 X2 + X3 , los posibles valores que puede tomar son (en el orden de la
tabla anterior): 2, 1, 0, 0, 1, 1, 1, 0.
Regresando a la discusión sobre la suficiencia, es claro que con
T (X1 , X2 , X3 ) = X1 X2 + X3
At = {(x1 , x2 , . . . , xn ) ∈ X : T (x1 , x2 , . . . , xn ) = t} .
Note que esta definición concuerda con la idea intuitiva discutida antes,
pues lo que dice es que, dado el conocimiento de S(X), la muestra aleatoria
no proporciona información adicional acerca de θ, es decir, toda la informa-
ción está contenida en S(X).
Usando la definición de estadı́stica suficiente, se analizará la suficiencia
de S(X) y T (X) del ejemplo descrito en los párrafos anteriores. Ası́,
P(X1 = 0, X2 = 0, X3 = 0, T = 0)
P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) =
P(T = 0)
(1 − θ)3
=
2θ(1 − θ)2 + (1 − θ)3
1−θ 1−θ
= = .
2θ + 1 − θ 1+θ
Es decir P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) depende de θ, por lo tanto,
la estadı́stica T no es suficiente. Esto puede verificarse para otros valores.
Por otro lado,
P(X1 = 0, X2 = 0, X3 = 0, S = 0)
P(X1 = 0, X2 = 0, X3 = 0|S(X) = 0) =
P(S = 0)
3
(1 − θ)
= = 1,
(1 − θ)3
que no depende de θ. En este último caso, debe verificarse para todos los
posibles valores y llegar a la conclusión de que esta probabilidad condicional
no depende de θ, para cualquier valor s (lo cual efectivamente ocurre).
El concepto de estadı́stica suficiente enfatiza el hecho de que cualquier
conocimiento adicional al valor de la estadı́stica, no da mayor información
acerca de θ. En el ejemplo, si S(X) = 23 , se puede decir que se obtuvieron
dos soles y un águila, pero no sólo eso: es posible concluir que cualquier
X = (X1 , . . . , Xn ) que satisfaga que S(X) = s, tiene la misma distribución
de probabilidad. Para verificarlo, suponga que sólo se tiene conocimiento
de que S(X) = s, pero no se conoce especı́ficamente el valor muestral que
generó este resultado (en el ejemplo hay tres posibles valores muestrales que
hacen que S(X) = 23 , a saber (0, 1, 1) , (1, 0, 1) y (1, 1, 0)). Conociendo la
densidad condicional P (X = x | S(X) = s) , donde
x ∈ As = {(x1 , x2 , . . . , xn ) ∈ X | S(x1 , x2 , . . . , xn ) = s} ,
P X 0 = x | S(X) = s = P (X = x | S(X) = s) .
3.4. Estadı́sticas suficientes 67
Ası́
P (X = x) = P (X = x, S(X) = s)
= P (X = x | S(X) = s) P (S(X) = s)
P X 0 = x | S(X) = s P (S(X) = s)
=
P X 0 = x, S(X) = s
=
P X0 = x ,
=
Pn
que no depende de θ, por lo que P i=1 Xi es una estadı́stica suficiente para
n
θ. Note que se usó el hechoPde que i=1 Xi tiene distribución Bin(n, θ), ası́
n
como la condición de que i=1 Xi = s.
Pn
e−nθ
Qθ n
i=1 Xi
n
Pn xi ! X
P [X1 = x1 , . . . , Xn = xn | i=1 Xi = s] = i=1
s ;y Xi = s
e−nθ (nθ) i=1
s!
e−nθ
Q n
θs
i=1 i !
x
= −nθ s
e (nθ)
s!
s!
= n ,
Y
s
n xi !
i=1
Pn
que no depende de θ; por lo tanto, i=1PXi es una estadı́stica suficiente para
n
θ. En este caso se usó el hecho de que i=1 Xi ∼ P oisson (nθ) .
Observe que en los ejemplos anteriores, a no ser que la suma de los enteros
x1 , x2 , . . . , xn sea igual a s, la probabilidad condicional es igual a cero.
n
−(xi − µ)2
Y
fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 = (2πσ 2 )−1/2 exp
i=1
2σ 2
Pn
− i=1 (xi − µ)2
= (2πσ 2 )−n/2 exp
2σ 2
Pn
− i=1 (xi − x̄ + x̄ − µ)2
= (2πσ 2 )−n/2 exp ,
2σ 2
al desarrollar el cuadrado en el exponente, esta expresión es equivalente a
" Pn Pn #
2 2
2 −n/2 − i=1 (xi − x̄) + 2(x̄ − µ) i=1 (xi − x̄) + n(x̄ − µ)
(2πσ ) exp ,
2σ 2
Pn
y como i=1 (xi − x̄) = 0, se tiene que
fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 =
" Pn #
2 2
2 −n/2 − i=1 (xi − x̄) + n(x̄ − µ)
(2πσ ) exp .
2σ 2
P (X1 = x1 , . . . , Xn = xn )
= P ( X1 = x1 , . . . , Xn = xn | S(X) = s) · P [S(X) = s] . (3.14)
donde
h(x1 , . . . , xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s)
3.4. Estadı́sticas suficientes 71
y
g(S(x); θ) = P [S(X) = s] .
⇐ Por demostrar que S(X) es suficiente, es decir, se debe probar que
P [ X1 = x1 , . . . , Xn = xn | S(X)]
donde:
As = {(x1 , x2 , . . . , xn ) ∈ X : S(x1 , x2 , . . . , xn ) = s}
y X representa el conjunto de todos los posibles valores de (X1 , . . . , Xn ) . Es
decir, As consta de todos aquellos (x1 , x2 , . . . , xn ) tales que S(x) = s (ver,
por ejemplo, (3.11) y (3.12)).
Por la hipótesis, P[X1 = x1 , . . . , Xn = xn ] se puede factorizar como el
producto g(S(x); θ)h(x), de tal manera que (3.15) se puede escribir como:
X X
P[S(X) = s] = g(S(x); θ)h(x) = g(s; θ) h(x)
As As
y
g(S(x); θ)h(x)
P [ X1 = x1 , . . . , Xn = xn | S(X) = s] = P
g(s; θ) As h(x)
g(s; θ)h(x)
= P
g(s; θ) As h(x)
h(x)
= P ,
As h(x)
P [ X1 = x1 , . . . , Xn = xn | S(X) = s]
v1 = S (x1 , x2 , . . . , xn ) ,
vi = ui (x1 , x2 , . . . , xn ) , para i = 2, . . . , n;
con funciones inversas
xi = wi (v1 , v2 , . . . , vn ) para i = 1, 2, . . . , n
kV1 (v1 ; θ)
Z ∞ Z ∞
= ··· kV1 ,...,Vn (v1 , . . . , vn ; θ) dv2 · · · dvn
−∞ −∞
Z ∞ Z ∞
= g (v1 ; θ) ··· |J| h (w1 (v1 , . . . , vn ) , . . . , wn (v1 , . . . , vn )) dv2 · · · dvn .
−∞ −∞
m (v1 )
Z ∞ Z ∞
= ··· |J| h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) dv2 · · · dvn ,
−∞ −∞
con lo que
kV1 (v1 ; θ) = g (v1 ; θ) m (v1 ) .
3.4. Estadı́sticas suficientes 73
kV1 (v1 ; θ)
g (v1 ; θ) = ,
m (v1 )
o
kV1 (S (x) ; θ)
g (S (x) ; θ) = ,
m [S (x)]
con lo que la factorización que se ha supuesto como hipótesis, se puede
reescribir como:
de donde:
n
Pn 1 Y (xi )
= e|−nθ θ{z i=1 X}i Qn I{0,1,... }
i=1 x i ! i=1
g(S(x);θ) | {z }
h(x1 ,...,xn )
Pn
∴ S(X) = i=1 Xi es una estadı́stica suficiente para θ.
74 3. Estadı́sticas y distribuciones muestrales
S (X1 , X2 , . . . , Xn ) = X1 X2 · · · Xn
y
1
h (x1 , x2 , . . . , xn ) = .
Πni=1 xi
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, el producto X1 X2 · · · Xn = Πni=1 Xi
es una estadı́stica suficiente para θ. Observe que si se hubiera querido usar
la definición para este ejercicio, era necesario obtener la densidad de la es-
tadı́stica dada por el producto S(X) = X1 X2 · · · Xn = Πni=1 Xi ; de ahı́ lo
valioso del teorema de factorización.
Observación 3.4 La muestra ordenada (Y1 , . . . , Yn ) siempre es una estadı́sti-
ca suficiente, pues en el esquema de muestreo aleatorio que se está conside-
rando, la función de densidad conjunta no depende del orden de las variables.
A pesar de que la muestra ordenada tiene la misma dimensión que la mues-
tra original, al ordenar se elimina la información irrelevante con relación a la
posición con la que se produce cada observación. Una forma de comprobarlo
es usando el teorema de factorización. La función de densidad conjunta de
X1 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
= n!f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) .
En el teorema de factorización, sean:
g (s (x1 , x2 , . . . , xn ) ; θ) = f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ)
y
h (x1 , x2 , . . . , xn ) = n!.
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, la muestra ordenada (Y1 , . . . , Yn )
es una estadı́stica suficiente.
Ejemplo 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Logı́stica(µ,σ):
e−(x−µ)/σ
f (x; µ, σ) = , − ∞ < x < ∞, −∞ < µ < ∞, σ > 0.
σ[1 + e−(x−µ)/σ ]2
La función de densidad conjunta de X1 , X2 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
n
Y e−(xi −µ)/σ
=
i=1
σ[1 + e−(xi −µ)/σ ]2
n
Y e−(yi −µ)/σ
= n! ,
i=1
σ[1 + e−(yi −µ)/σ ]2
76 3. Estadı́sticas y distribuciones muestrales
X ∼ exp (θ),
(x)
En este caso, a(θ) = θ, b(x) = I(0,∞) , c(θ) = −θ y d(x) = x.
3.4. Estadı́sticas suficientes 77
X ∼ Poisson (θ),
su función de densidad es
X ∼ Bernoulli (θ),
con
= (1 − θ) · I{0,1} · ex·ln( 1−θ ) ,
1−x (x) θ
f (x; θ) = θx (1 − θ)
X ∼ Geométrica(θ),
f (x; θ) = a(θ)b(x)ec(θ)d(x) ,
Pn
es decir, f (x; θ) pertenece a la familia exponencial. Entonces i=1 d(xi ) es
una estadı́stica suficiente.
78 3. Estadı́sticas y distribuciones muestrales
h Pn i n
Y
n
= a (θ) ec(θ) i=1 d(xi )
· b(xi )
| {z } i=1
g(S(X);θ)
| {z }
h(X1 ,...,Xn )
n
P
∴ S(X) = d(Xi ) es una estadı́stica suficiente para θ.
i=1
Considerando que
Pn Pn n
Y
xi n− xi
fX1 ,...,Xn (x1 , . . . , xn ; θ) = θ i=1 (1 − θ) i=1
I{0,1} (xi )
i=1
Pni=1 xi Yn
n θ
= (1 − θ) I{0,1} (xi ) ,
1−θ i=1
P[i=1
2]
n
xi Pn n
xi Y
n θ θ [
i= n +1
2 ]
= (1 − θ) I{0,1} (xi ) .
1−θ 1−θ i=1
A1 = {(0, 0, 0)} ,
A2 = {(0, 0, 1) , (0, 1, 0)} ,
A3 = {(1, 0, 0)} ,
A4 = {(1, 1, 0) , (1, 0, 1)} ,
A5 = {(0, 1, 1)} y
A6 = {(1, 1, 1)} ,
decir, S(X) induce una partición más fina que S 0 (X) o S 0 (X) induce una
partición menos fina que S(X)). En estos términos, si S 0 (X) es más resumida
que S(X), entonces S(X) genera una partición más fina que S 0 (X). En el
ejemplo, S2 (X) induce una partición más fina que S3 (X) .
En este contexto, la suficiencia minimal está asociada con la partición
menos fina que conserva la suficiencia.
Observación 3.5 Note que por la discusión previa, la definición 3.5 se pue-
de reescribir de una forma alternativa. Sean {As0 } los elementos de la parti-
ción asociados con S 0 (X) y {As } los elementos de la partición asociados con
S(X), se tiene que:
Definición 3.6 Sean S (X) y S 0 (X) dos estadı́sticas. Se dice que S 0 (X) es
función de S(X) si para cualesquiera x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en el espacio muestral X, que satisfacen que S (x) = S (x0 ) , se cumple que
S 0 (x) = S 0 (x0 ).
Definición 3.7 Para dos valores x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en Sopf , se dice que x y x0 son equivalentes en verosimilitud si existe
H (x, x0 ) > 0, tal que para todo θ ∈ Θ,
es decir,
L(θ | x) = H (x, x0 ) L(θ | x0 ).
Esta relación se denota como
v
x ∼ x0 .
Lema 3.1 Sea S (X) una estadı́stica suficiente y sean x y x0 dos valores en
v
Sopf . Si S (x) = S (x0 ) = s, entonces x ∼ x0 .
Teorema 3.6 Sea X1 , ..., Xn una muestra aleatoria de una población con
función de densidad f (x; θ) y sea S 0 (X) una estadı́stica suficiente para θ.
Suponga que para dos valores muestrales x = (x1 , ..., xn ) y x0 = (x01 , ..., x0n )
v
en Sopf que son equivalentes en verosimilitud, es decir x ∼ x0 , se tiene que
0 0 0 0
S (x) = S (x ) . Entonces S (X) es suficiente minimal.
y ver bajo qué condición (sobre las estadı́sticas involucradas) este cociente
no depende de θ. Si se cumple la hipótesis del teorema 3.6, es decir,
n− n
Qn Pn P
xi 1−xi i=1 xi
fX1 ,...,Xn (x; θ) i=1 θ (1 − θ) θ i=1 xi (1 − θ)
= 1−x0i
= n− n
P 0
fX1 ,...,Xn (x0 ; θ)
Qn x0i
Pn 0
i=1 xi
i=1 θ (1 − θ) θ i=1 xi (1 − θ)
1
Qn (xi )
fX1 ,...,Xn (x; θ) θn i=1 I(0,θ)
= Qn (x0i )
fX1 ,...,Xn (x0 ; θ) 1
θn i=1 I(0,θ)
n(y ) (θ)
I(0,θ) I(yn ,∞)
= (y 0 )
= (θ)
,
I(0,θ)
n
I(y0 ,∞)
n
f (x; θ) = a(θ)b(x)ec(θ)d(x)
Qn
b(xi ) Pn Pn
= Qi=1
n 0 exp {c(θ) [ i=1 d(xi ) − i=1 d(x0i )]} .
i=1 b(xi )
Pn Pn
Este cociente no depende de θ si sólo si i=1 d(xi ) = i=1 d(x0i ).
Pn
∴ i=1 d(Xi ) es suficiente minimal.
Pn
Es decir, si f (x; θ) pertenece a la familia exponencial, i=1 d(Xi ) es una
estadı́stica suficiente minimal.
3.5. Completez
El concepto de estadı́stica completa se utilizará en uno de los resultados más
importantes que servirán para encontrar estimadores insesgados de varianza
mı́nima.
3.5. Completez 85
P(g(T ) = 0) = 1, ∀θ ∈ Θ.
de donde
n t
n
X n θ
(1 − θ) g(t) = 0,
t=0
t 1−θ
ó
n t
X n θ
g(t) = 0,
t=0
t 1−θ
θ
el cual es un polinomio en 1−θ , que vale cero si cada uno de los coeficientes
t
θ
de 1−θ vale cero, es decir, si
n
g(t) = 0, para toda t = 0, 1, 2, . . . , n,
t
es completa, se hace
Z
E(g(T )) = g(t)fT (t)dt = 0.
tn−1 (t)
fT (t) = n I , t = yn .
θn (0,θ)
Ası́
Z θ
n n−1
E(g(T )) = g(t) t dt
0 θn
Z θ
n
= g(t)tn−1 dt = 0, ∀θ > 0,
θn 0
entonces Z θ
g(t)tn−1 dt = 0, ∀θ > 0.
0
Lo cual implica que
g(θ)θn−1 = 0 ∀θ > 0,
y por lo tanto, g(θ) = 0, ∀θ > 0, lo que lleva a concluir que la máxima
estadı́stica de orden es una estadı́stica completa.
se tiene que Z ∞
g (x) a (θ) b (x) eθx dx = 0,
−∞
o Z ∞
[g (x) b (x)] eθx dx = 0,
−∞
una transformada igual a cero es la función que vale cero c.s., es decir,
g (x) b (x) = 0 c.s., de donde se obtiene que g (x) = 0 c.s., considerando
b (x) 6= 0. Ası́ que f (x; θ) es completa.
con
a(θ) = θ,
b(x) = I{0,1,...} (x),
c(θ) = ln(1 − θ),
d(x) = x.
n
P
De donde, puede concluirse que S (X) = Xi es una estadı́stica suficiente
i=1i
(minimal) y completa.
88 3. Estadı́sticas y distribuciones muestrales
fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn )
(
n(n − 1)(yn − y1 )n−2 si θ < y1 < yn < θ + 1,
=
0 en otro caso.
3.8. Ejercicios
siendo θ un parámetro
Pn mayor que cero. Determine la distribución de
la estadı́stica T = i=1 ln (1 + Xi ).
2 −x2 /θ
f (x; θ) = xe , I(0,∞) (x),
θ
con θ > 0.
Pn
(a) Obtenga la distribución de T = i=1 Xi2 .
(b) Obtenga E(T ) y Var(T ).
(c) Demuestre que T es una estadı́stica suficiente para θ.
√
9. Sea X una variable aleatoria con distribución χ2(1) . Defina Z1 = +
X
√
y Z2 = − X. Obtenga las distribuciones de Z1 y Z2 .
10. Sea X una variable aleatoria con distibución F (m, n). Demuestre que
1
(a) Z = X ∼ F (n, m).
mX/n
(b) Z = 1+mX/n ∼ Beta(m/2, n/2).
11. Sea X una variable aleatoria con distibución t(k) . Demuestre que
(a) T = X̄ + Z̄.
p
(b) T = (Z1 + Z2 )/ [(X2 − X1 )2 + (Z2 − Z1 )2 ]/2.
(c) T = (X1 − X2 )2 + (Z1 − Z2 )2 + (Z1 + Z2 )2 /2.
(d) T = (X2 + X1 − 2)2 /(X2 − X1 )2 .
2U +V
Determine la distribución de 2σ 2 .
Obtenga lo siguiente:
(a) P (3 ≤ Y4 ).
(b) E (Y1 ).
(c) La función de densidad conjunta de Y1 y Y4 .
24. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribu-
ción Exponencial de parámetro θ = 1, es decir Xi ∼ exp(1). Y sean
Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre que
nYn y n(Y2 − Y1 ) son independientes.
3.8. Ejercicios 99
1
f (x; θ) = , -∞ < x < ∞, − ∞ < θ < ∞.
2
π 1 + (x − θ)
con µ ∈ R y σ ∈ R+ .
Pn
(a) Demuestre que S(X) = Y1 , n1 i=1 (Xi − Y1 ) es una estadı́stica
te y completa.
45. Sea X una variable aleatoria con distribución Uniforme U (−θ, θ).
49. Sea T una estadı́stica auxiliar para θ con función de densidad fT (t).
Sea g(·) una función diferenciable uno-a-uno que no depende de θ.
Demuestre que T ∗ = g(T ) también es una estadı́stica auxiliar para θ.
50. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µ, σ 2 ), donde σ 2 es conocido.
(a) Demuestre que S(X) = X es una estadı́stica suficiente y completa
para µ, y que T (X) = S 2 es una estadı́stica auxiliar.
(b) Demuestre que X y S 2 son estadı́sticas independientes.
Capı́tulo 4
Estimación puntual
4.1. Introducción
Suponga que se dispone de una población en la que se estudia una variable
aleatoria X con distribución conocida y parámetro (o parámetros) descono-
cido(s) y se tiene interés en disminuir el grado de desconocimiento de θ en
f (x; θ) . De la población se extrae una muestra aleatoria simple de tamaño n:
X1 , X2 , ..., Xn y se trata de calcular, a partir de los valores muestrales, una
función de los mismos que proporcione una estadı́stica θb = T (X1 , X2 , ..., Xn )
que le asigne un valor al parámetro desconocido de la población, de forma
que sean lo más cercanos en algún sentido. A θb se le llama estimador.
El objetivo de la estimación puntual es entonces encontrar un valor para
θ, denotado como θ, b que sea función de la muestra aleatoria y que permita
modelar o describir de manera adecuada el fenómeno aleatorio.
105
106 4. Estimación puntual
Figura 4.1: Karl Pearson con Francis Galton. Ambos fundaron la revista
Biometrika en 1901. Imagen tomada de commons.wikipedia.org (public do-
main).
Sin duda que el trabajo de Fisher es la piedra angular sobre la que se sus-
tenta la estadı́stica como ciencia. Egon Pearson (1974), hijo de Karl Pearson,
habla de las diferencias conceptuales entre su padre y Fisher3 : Galton y K.
Pearson trabajaron con muestras grandes por su interés en la reproducción
libre de las especies en su medio natural, esto ocurre con humanos, animales
y plantas. Por su parte, Fisher trabajó con muestras pequeñas relaciona-
das con datos experimentales, por lo que era necesario analizar con cuidado
las bases de la inferencia estadı́stica para una adecuada interpretación. Fis-
her estudió resultados exactos en muestras pequeñas, pero también obtuvo
propiedades asintónticas óptimas de los estimadores máximo verosı́miles.
µ = M 1 , µ 2 = M2 , . . . , µ k = Mk
|1 {z }
k ecuaciones con k incógnitas
La solución a este sistema θ̂ = (θˆ1 , . . . , θˆk ) se conoce como el estimador
por el método de momentos.
E(X) = θ,
entonces Pn
i=1 Xi
θ̂ = .
n
Ejemplo 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución exp(θ). Como
1
E(X) = ,
θ
entonces
1
X̄ = .
θ
Por lo tanto,
θ̂ = 1/X̄.
E(X) = µ y V ar(X) = σ 2 ,
entonces
E(X 2 ) = µ2 + σ 2 .
Por lo tanto,
n
1X 2
X̄ = µ̂ y X̄ 2 + σ̂ 2 = X .
n i=1 i
110 4. Estimación puntual
Es decir,
n
2 1X 2
σ̂ = X − X̄ 2 .
n i=1 i
Pero note que
n
X n
X
(Xi − X̄)2 = (Xi2 − 2X̄Xi + X̄ 2 )
i=1 i=1
n
X n
X
= Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1
n
X n
X
= Xi2 2
− 2nX̄ + nX̄ = 2
Xi2 − nX̄ 2 .
i=1 i=1
n n
1X 1X 2
∴ (Xi − X̄)2 = X − X̄ 2 .
n i=1 n i=1 i
1, 1, 1, 2, 2, 3, 5, 7, 8, 10.
y resolviendo para r :
rb = 1.6327.
Sustituyendo este valor en (4.1) y despejando λ, se obtiene:
b = 1.6327 = 0.408 2.
λ
4
El rango del estimador no necesariamente coincide con el espacio del
parámetro a estimar. Considere en el siguiente ejemplo una distribución Bi-
nomial con k y p desconocidos.
Ejemplo 4.6 Suponga que X ∼Binomial(k, p). Una posible aplicación con
esta distribución es que se busque estimar las tasas de ocurrencia de un
crimen, conociendo que existe un número importante de casos que no se de-
nuncian o reportan, es decir, no se sabe cuál es exactamente el valor de k.
Utilizando el método de momentos, se consideran los dos primeros momen-
tos poblacionales de la distribución binomial, ası́ como los correspondientes
momentos muestrales:
X¯n = kp (4.2)
y
n
1X 2
X = kp(1 − p) + k 2 p2 . (4.3)
n i=1 i
De (4.2) se obtiene
X¯n
p̂ = , (4.4)
k
112 4. Estimación puntual
y como
n n
1X 2 1X 2 2
Xi − X¯n = X + X¯n ,
n i=1 n i=1 i
(4.5) es equivalente a
n
1X X¯n
(Xi − X¯n )2 = X¯n (1 − )
n i=1 k
2
¯ X¯n
= Xn − ,
k
ası́ que despejando el valor de k, se obtiene
2 n
X¯n 1X
= X¯n − (Xi − X¯n )2 ,
k n i=1
k 1
= Pn ,
¯
Xn
2
X¯n − 1
n i=1 (Xi − X¯n )2
2
X¯n
k̂ = n .
X¯n − 1
− X¯n )2
P
n i=1 (Xi
X¯n
p̂ = .
k
b
X ∼ Bin(n = 3, θ).
Valor de θ P (X = 0) P (X = 1) P (X = 2) P (X = 3)
θ = 1/4 27/64 27/64 9/64 1/64
θ = 3/4 1/64 9/64 27/64 27/64
1
Cuadro 4.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ = 4 y
θ = 43 .
(x1 = 0, x2 = 0, x3 = 0) ,
Método general
Sea f (x; θ1 , θ2 , . . . , θk ) una función de densidad con k parámetros. Si (θˆ1 , ...θˆk )
satisface el sistema
∂L(θ1 , θ2 , ..., θk )
= 0 i = 1, 2, ..., k;
∂θi
entonces (θˆ1 , ..., θˆk ) es el estimador máximo verosı́mil de θ.
Note que
∂ 1 ∂
ln(L(θ1 , θ2 , . . . , θk )) = · L(θ1 , θ2 , . . . , θk ).
∂θi L(θ1 , θ2 , . . . , θk ) ∂θi
Por lo tanto,
∂ ∂
ln(L(θ1 , θ2 , . . . , θk )) = 0 ⇔ L(θ1 , θ2 , . . . , θk ) = 0.
∂θi ∂θi
Es decir, ln(L(θ1 , θ2 , . . . , θk )) alcanza su máximo en el mismo punto que
L(θ1 , θ2 , . . . , θk ).
En virtud de la observación anterior se define la log-verosimilitud de
f (x; θ1 , θ2 , . . . , θk ) como
l (θ1 , θ2 , . . . , θk ) = ln(L(θ1 , θ2 , . . . , θk )).
Frecuentemente, por practicidad, se calcula el máximo de l (θ) en vez del
de L(θ).
4.2. Métodos de estimación 115
Entonces,
Pn Pn
l (θ) = ln(L(θ)) = ln θ i=1 xi (1 − θ)n− i=1 xi
n n
!
X X
= ln(θ) xi + ln(1 − θ) n − xi .
i=1 i=1
Luego, Pn Pn
∂ i=1 xi n − i=1 xi
l (θ) = − .
∂θ θ 1−θ
Por lo tanto,
Pn Pn
∂ i=1 xi n− i=1 xi 1 n 1 1
l (θ) = 0 ⇔ = ⇔ − 1 = Pn −1⇔ = ,
∂θ θb 1 − θb θb i=1 xi θb x̄
de donde se concluye que
θb = X.
Ahora se verificará que es un máximo
Pn Pn Pn Pn !
∂ 2 l(θ) i=1 xi n − i=1 xi i=1 xi n− i=1 xi
| b= − − =− + < 0.
∂θ2 θ θb2 b2
(1 − θ) θb2 (1 b2
− θ)
Entonces,
n
!
Pn Y
l (θ) = ln(L(θ)) = ln θn e−θ i=1 xi
I(0,∞) (xi )
i=1
n
X n
X
= n ln(θ) − θ xi + ln(I(0,∞) (xi )).
i=1 i=1
116 4. Estimación puntual
Luego,
n
∂ n X
l (θ) = − xi .
∂θ θ i=1
Por lo tanto,
n Pn
∂ n X 1 i=1 xi 1
l (θ) = 0 ⇔ = xi ⇔ = ⇔ = x̄,
∂θ θ
b
i=1 θb n θb
y ası́
1
θb = .
X̄
Ahora se verificará que es un máximo
∂ 2 l(θ) n
| b= − < 0.
∂θ2 θ θb2
1
∴ El estimador máximo verosı́mil de θ es θ̂M V = .
X̄
Ejemplo 4.9 [Distribución P oisson(θ)]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución P oisson(θ). Obtener el estimador
máximo verosı́mil de θ.
n n n n
e−θ θxi I{0,1,2,...} (xi )
P
Y Y xi Y
−nθ
L(θ) = f (xi , θ) = I{0,1,2,...} (xi ) = e θ i=1 .
i=1 i=1
xi ! i=1
xi !
Entonces,
n
!
−nθ
Pn Y I{0,1,2,...} (xi )
l (θ) = ln(L(θ)) = ln e θ i=1 xi
i=1
xi !
n n
X X I{0,1,2,...} (xi )
= −nθ + ln(θ) xi + ln .
i=1 i=1
xi !
Luego, Pn
∂ i=1 xi
l (θ) = −n + .
∂θ θ
Por lo tanto,
Pn Pn
∂ i=1 xi i=1 xi
l (θ) = 0 ⇔ n = ⇔ θb = .
∂θ θb n
4.2. Métodos de estimación 117
De esta manera,
θb = X.
Ahora se verificará que es un máximo
Pn
∂ 2 l(θ) i=1 xi
| b= − < 0.
∂θ2 θ θb2
∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄.
i=1 2πσ 2
n2
1 1
Pn 2
= e− 2σ2 i=1 (xi −µ) .
2πσ 2
La log-verosimilitud está dada por
n
n 1 X 2
l µ, σ 2 = − ln 2πσ 2 − 2
(xi − µ) .
2 2σ i=1
y
n
n 1 X 2
− + (xi − µ
b) = 0,
σ2
2b σ 4 i=1
2b
de donde
µ
b=X (4.6)
118 4. Estimación puntual
y
Pn 2
2Xi − X i=1
σ
b = . (4.7)
n
Las segundas derivadas están dadas por
∂2l n
= − ,
∂µ2 σ2
Pn 2
∂2l n (xi − µ)
i=1
2 = − ,
∂ (σ 2 ) 2σ 4 σ6
Pn
∂2l ∂2l i=1 (xi − µ)
= = − .
∂µ∂σ 2 ∂σ 2 ∂µ σ4
Sea
∂2l ∂2l
!
∂µ2 ∂σ 2 ∂µ
H= ∂2l ∂2l
∂µ∂σ 2 ∂(σ 2 )2
la matriz de segundas derivadas. Observe que
∂ 2 l
n
= − < 0, (4.8)
∂µ2 (bµ,bσ2 ) σ 2 σb2
mientras que
Pn !
i=1 (xi −x)
− bn2
P σ
− Pnσb4
det H|(bµ,bσ2 ) = det n 2
i=1 (xi −x) n i=1 (xi −x)
− b4
σ σ4
2b − b6
σ
!
− σbn2 0
= det n
Pn
i=1 (xi −x)
2
0 σ4 −
2b b6
σ
2 n 2
n2
P
n − x)i=1 (xi
= − 6
+
2b
σ σ8
nb
n2 n2 σ
b2
= − 6+ 8
2b
σ σ
b
n2 n2 n2
= − 6+ 6 = > 0. (4.9)
2b
σ σ
b σ6
2b
Por (4.8)
y (4.9), se ve que H es definida negativa y por lo tanto, el óptimo
µ b2 es un máximo, concluyéndose que (4.6) y (4.7) son los estimadores
b, σ
máximo verosı́miles de µ y σ 2 .
Ejemplo 4.11 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución Uniforme en el intervalo [θ− 12 , θ+ 12 ],
es decir,
f (x; θ) = I[θ− 12 ,θ+ 21 ] (x).
4.2. Métodos de estimación 119
L(θ)
Yn θ
Figura 4.3: Gráfica de la función de verosimilitud para una muestra de ta-
maño n de la distribución Uniforme continua en el intervalo [0, θ].
θb = Yn = máx {X1 , . . . , Xn } .
= sup L(θ)
θ
= L(θ̂),
= L∗ (τ (θ̂)),
τd
(µ) = τ (µ̂) = sen(µ̂) = sen(X̄).
n
Y
L(θ) = L(α, λ) = f (xi ; α, λ)
i=1
n
Y λα α−1 −λxi
= x e
i=1
Γ(α) i
α n n
λ Pn Y
= e−λ i=1 xi xiα−1 .
Γ(α) i=1
Para encontrar los estimadores que maximizan esta función, se debe en-
contrar el punto crı́tico, lo que implica resolver el sistema de ecuaciones:
X n
∂ d
l(α, λ) = n ln λ − ln Γ(α) + ln xi = 0,
∂α dα i=1
n
∂ α X
l(α, λ) = n − xi = 0.
∂λ λ i=1
80
60
derivada
40
20
0
alpha
Qn Pn
donde T1 = i=1 xi y T2 = i=1 xi . Observe que la verosimilitud depende
de la muestra sólo a través de estas estadı́sticas suficientes T1 y T2 . Suponga
que se desea estimar el parámetro µ. Al otro parámetro que no es el que se
está estimando, en este caso s, se le suele llamar un parámetro de ruido.
Utilizando exclusivamente la verosimilitud para proponer un estimador
para el parámetro de interés µ y teniendo en cuenta la posibilidad de un
muestreo repetido, el estimador máximo verosı́mil para µ es el valor del
parámetro µb ∈ Θ que maximiza la función de verosimilitud; es decir, el valor
del parámetro para el cual la muestra observada es más probable.
Por construcción, el rango del estimador coincide con el espacio pa-
ramétrico, aunque hereda las dificultades de cualquier problema de opti-
mización, a saber:
el cual depende del valor del parámetro s. En general no es claro cómo tratar
el parámetro de ruido, pero desde el enfoque clásico de maximizar la función
de verosimilitud como se vio en la sección 4.2.2, simplemente se toma el valor
del estimador sb.
Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se
condiciona completamente en los datos observados y se concluye sobre la
población en estudio basándose en:
L(θ|x)π(θ)
π(θ|x) = R . (4.11)
L(θ|x)π(θ)dθ
Ejemplo 4.18 Los paquetes de los llamados dulces Smarties vienen con k
colores diferentes, los cuales se repiten con la misma frecuencia.
Suponga que no se conoce k y secuencialmente se examinan 3 dulces,
resultando un rojo, un verde y un rojo. La densidad para X = el segundo
dulce es de diferente color que el primero, pero el tercero es del mismo color
que el primero, está dada por:
f (x | k) = P (el segundo es de diferente color que el primero) ×
×P (el tercero es del mismo color que el primero)
k−1 1 k−1
= = .
k k k2
A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f (x|k) =
(k − 1)/k 2 . Si en lugar de 3 se examinan 4 y resulta que ese cuarto es de
color naranja (con los tres primeros rojo, verde, rojo), se tiene que
(k − 1) (k − 2)
f (x | k) = .
k3
Ahora suponga que se tiene información a priori o se cree que el número
1 3 3 3
de colores es 5,6,7 u 8, con probabilidades iniciales 10 , 10 , 10 y 10 , respecti-
vamente.
Para el caso de tres dulces, si k = 5, entonces
4
f (x|k) = (5 − 1)/52 = = 0.16,
25
4.2. Métodos de estimación 129
1
f (x|k)π (k) = (0.16) = 0.016
10
y
1
(0.16) 10
π (k | x) = 8 = 0.13.
P
f (x|k)π (k)
k=5
A continuación se resumen los valores de estas funciones para los distintos
valores de k y para ambos escenarios, es decir, cuando se tiene rojo, verde y
rojo (cuadro 4.2)
θt (1 − θ)n−t × 1
π(θ|x1 , . . . , xn ) = R 1
0
φt (1 − φ)n−t × 1dφ
π(θ|x) ∝ θt (1 − θ)n−t ,
de donde se puede ver que si se inserta una constante de proporcionalidad
apropiada, entonces se tiene una densidad Beta(t + 1, n − t + 1), que serı́a
la distribución a posteriori de θ dada x.
Ejemplo 4.22 Suponga que se examina una máquina que hace partes de
automóviles y se denota a θ como la proporción de marcas defectuosas. Un
dı́a se examinan 10 piezas denotadas por X1 , . . . , X10 , donde Xi = 1 indica
que la pieza i es defectuosa y Xi = 0 que no tiene defecto. Esto puede verse
como una muestra aleatoria con distribución Bernoulli de parámetro θ, cuya
función de densidad es fX (x; θ) = θx (1 − θ)1−x I{0,1} (x) para 0 ≤ θ ≤ 1, que
4.2. Métodos de estimación 131
indica que la probabilidad de que una parte sea defectuosa es θ. Ası́ que la
densidad conjunta de las 10 observaciones es
P10 P10 10
Y
xi
fX (x; θ) = θ i=1 (1 − θ)10− i=1 xi
I{0,1} (xi )
i=1
= L (θ | x) .
P10
donde y = i=1xi . Calculando la distribución marginal de la muestra, m(x),
Z Z
m(x) = fX (x; θ)π(θ)dθ = g(x, θ)dθ
Z
= 6θy+1 (1 − θ)10−y+1 dθ
Γ(y + 2)Γ(10 − y + 2)
= 6
Γ(10 + 2 + 2)
Γ(y + 2)Γ(12 − y)
= 6 .
Γ(14)
Ası́, la distribución a posteriori de θ dada la muestra x es
g(x, θ)
π(θ|x) =
m(x)
6θy+1 (1 − θ)10−y+1
=
6 Γ(y+2)Γ(12−y)
Γ(14)
Γ(14)
= θy+1 (1 − θ)11−y ,
Γ(y + 2)Γ(12 − y)
que es una distribución Beta(y + 2, 12 − y).
Un estimador para θ es la media de la distribución a posteriori (ver
Sección 4.3.3), la cual darı́a el estimador de Bayes de θ,
y+2
θ̂ = .
14
En el cuadro 4.4 se resumen los valores de los estimadores máximo verosı́mil
y de Bayes para distintos valores de la muestra.
Muestra y 0 1 2 3 4 5 6 7 8 9 10
θ̂ EMV 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ̂ Bayes 0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86
Y=0 Y=2
5
5
Prior Prior
4
4
Verosimilitud Verosimilitud
Densidad
Densidad
Posterior Posterior
3
3
2
2
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
θ θ
Y=5 Y=10
5
5
Prior Prior
4
4
Verosimilitud Verosimilitud
Densidad
Densidad
Posterior Posterior
3
3
2
2
1
1
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
θ θ
y
∞ ∞
−γλuγ−1 −λuγ
Z
γ−1 γ
γλu exp {−λu } du = e
x −γλuγ−1
x
γ
= e−λx .
Por lo tanto:
FX (x) = 1 − exp {−λxγ } ,
la cual tiene dos parámetros. Si xp es el valor de x tal que FX (xp ) = p,
entonces xp es el 100p-ésimo percentil de la distribución, que para este caso
darı́a las ecuaciones:
y
FX (x0.9 ) = 1 − exp {−λxγ0.9 } = 0.90,
de donde:
exp {−λxγ0.5 } = 0.50
y
exp {−λxγ0.9 } = 0.10,
que es equivalente a
y
λxγ0.9 = − ln (0.10) = 2.30259.
Es decir:
γ1
0.69315
x0.5 =
λ
y
γ1
2.30259
x0.9 = .
λ
136 4. Estimación puntual
ep = (1 − m) xl + mxl+1
x (4.15)
ln 1 − ln 0.75 lnBc
= 4.5 (4.18)
ln c
y
ln 1 − ln 0.35 lnBc
= 9.
ln c
138 4. Estimación puntual
ln 1 − ln 0.35 lnBc
=2
ln 1 − ln 0.75 lnBc
⇒ 2
ln c ln c
1 − ln 0.35 = 1 − ln 0.75
B B
⇒ 2
ln c ln c
ln 0.35 = 1 − 1 − ln 0.75
B B
⇒
2
ln 0.35z = 1 − 1 − 2z ln 0.75 + (ln 0.75) z 2 ,
ln c
donde z = B . Simplificando la última expresión se obtiene:
2
(ln 0.75) z 2 − z [2 ln 0.75 − ln 0.35] = 0,
o
0.83z 2 − (0.4744) z = 0,
de donde
0.4744
z= = 5.7163.
0.083
Es decir, lnBc = 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustitu-
yendo este último valor en (4.18), se tiene:
ln 1 − ln 0.75 5.7163B
B
= 4.5
5.7163B
y despejando B, se llega al resultado B
b = 0.03780. Finalmente, b
c = 1.2412.
estimadores para σ 2 .
Para revisar si son insesgados:
Note que
E(T1 (X)) = E(X̄) = µ.
Por lo tanto, T1 sı́ es insesgado.
También note que
E [T2 (X)] = E(S 2 ) = σ 2 .
Por lo tanto, T2 sı́ es insesgado.
Sin embargo,
n−1 2 n − 1 2 n − 1 2
E(T3 (x)) = E S = E S = σ .
n n n
Por lo tanto, T3 no es insesgado.
Para encontrar el error cuadrático medio de T1 , T2 y T3 :
Como T1 es insesgado, entonces
σ2
ECMT1 (µ, σ 2 ) = V ar(X̄) = .
n
Pero
(n − 1)2 2σ 4
n−1 2 2(n − 1) 4
V ar(T3 ) = V ar S = 2
= σ .
n n n−1 n2
Y
2
2 2 2 n−1 2
(sesgo) = (E(T3 ) − σ ) = σ − σ2
n
2
σ4
n−1−n
= σ4 = .
n n2
Por lo tanto,
2(n − 1) 4 σ 4 2n − 1 4
ECMT3 (µ, σ 2 ) = 2
σ + 2 = σ .
n n n2
T1 insesgado
2
●
●
● ●
● ●
● ●
●
● ●
● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ●
●● ● ● ●
●
1 ● ●
● ● ● ●● ●
● ●
● ● ● ●
● ● ● ● ●
● ●
● ●● ● ● ● ●
● ● ●
● ●
● ● ● ● ● ●
● ● ●● ●
● ● ● ● ●● ● ●
● ● ● ●● ●
● ● ● ● ● ● ● ●
●●
● ● ● ●
● ● ● ● ● ●●
● ● ● ● ●● ● ●
● ● ● ● ●
●●● ● ● ●●
●
● ● ● ● ● ● ● ●● ● ● ● ●
● ● ● ● ● ● ● ● ●●
● ● ● ● ● ● ●● ● ● ●
● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●
● ● ● ●● ● ● ●
µ
● ● ● ●● ● ●● ●
● ● ●● ● ● ●●● ●● ●●● ● ●● ●
●
Estimación
● ● ● ● ●● ● ● ●● ●
● ●● ●
● ● ● ● ●● ● ● ● ● ● ●
● ● ● ● ●
● ●● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●●●
● ● ● ● ● ● ●● ●● ●● ●
●● ●
●● ●
● ● ● ● ● ●
● ● ● ● ● ●●● ● ● ●
● ● ● ● ●
● ●● ● ●
● ● ●
● ●●●
● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ●● ● ●●●● ● ●● ●● ●●
● ● ● ● ● ● ●● ● ●
●● ● ●● ●● ●● ● ● ●● ●
●● ●
●● ●
● ●● ● ● ● ● ●
● ●●●● ●● ●● ● ● ● ●● ●
● ●●● ●● ● ● ●● ●
●● ● ● ●● ● ●●
● ●
● ●
● ● ●● ● ●● ●
● ●
● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●●
●●
0
● ● ● ● ● ● ● ● ●● ● ● ●
● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ● ●● ●● ● ● ●●
●
●● ● ● ●● ●
● ●● ● ● ●● ● ●● ● ●● ● ● ●●
● ● ●● ● ● ●●● ● ● ●● ●
● ●●● ● ● ● ● ●● ●
●●
●
● ● ● ● ●
● ● ●
● ●
● ● ●● ● ● ● ● ● ● ●
●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ●
● ● ● ● ● ●● ● ● ● ●
●● ●●
● ● ●●
●
●
● ● ● ● ● ● ● ●
● ● ● ● ●● ● ●
● ● ●● ● ● ●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●
●●
●● ● ● ● ● ● ●● ● ● ● ●●
●● ● ●● ●
●
● ●
● ● ●●
● ● ● ●● ●
●● ● ● ●
● ● ● ● ●● ● ● ●
● ● ●● ● ● ● ● ● ● ●● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
●● ● ● ● ● ● ●●
● ●● ● ● ● ● ● ● ● ●● ●
● ● ● ●● ● ●● ●
● ● ●● ● ●
● ● ● ● ● ●● ●
● ● ●● ● ● ●● ● ●
●● ● ●
● ● ●● ● ● ● ● ● ● ●
● ● ● ●● ● ●● ● ●● ● ● ●●●
● ● ● ●
● ●● ●● ●
●
● ● ● ● ● ● ● ● ● ●
●●
● ●● ● ●● ● ● ● ●● ● ●●
● ● ● ●
● ● ● ● ● ● ● ●● ● ● ● ●●
●
●
● ● ● ●
●
● ● ● ●
● ● ● ● ● ● ●● ● ● ●
● ● ●
−1
● ● ● ●
● ● ● ● ● ● ●● ● ● ●
●
● ● ● ● ●
● ● ●● ● ● ● ●
● ●
● ● ● ● ● ●
● ● ●●
● ●
● ●●
●
●
● ●● ●
●
●
●
●
Muestras
T2 insesgado T3 sesgado
8
●
6
● ● ●
Estimación
Estimación
● ● ●
● ●
● ●
●
●
● ●
●
4
● ● ● ●
● ● ● ●
● ●
● ●
●● ●
●
● ● ●
● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ●● ● ●
● ● ●● ● ● ●
● ● ● ●
● ● ● ●
●
● ● ●● ● ● ●
● ● ●
● ● ●●● ●
● ● ● ●●
● ●● ●●
● ● ●
● ● ● ●
● ●● ● ● ● ●● ●
● ●● ● ● ● ● ● ●● ●
● ● ●● ●
●
●● ● ●● ●● ● ●
● ● ● ● ●
●
●● ●● ● ● ● ● ● ● ● ● ● ●
●● ● ●
2
● ●● ●● ● ● ●●●● ● ●● ● ● ● ● ●
●● ●● ● ● ● ● ●●● ●
●
● ● ● ●● ●●
●
● ● ● ● ●● ● ● ● ●
● ● ● ● ● ●● ●
●●●
● ● ●●
● ● ● ● ● ● ●● ●
● ●● ● ● ● ● ● ● ●●● ● ● ●●
σ σ
●
● ●
●● ● ●● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ● ●●● ●●
● ●● ●● ●● ●● ● ● ● ●● ● ●● ● ● ●
●● ●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●
●● ● ● ●● ● ●
● ● ● ●● ● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ●● ● ●●●
● ● ● ●●
●
● ● ● ●● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ●● ●● ● ●●
● ●●●● ●● ●● ● ● ● ●●●● ● ● ●● ● ●
● ● ● ● ● ●●● ● ● ●●●
●● ● ● ● ●● ● ●●
●● ●
●
● ●● ● ●● ● ● ●● ● ● ●● ●
● ● ●●●● ●● ● ● ● ● ●● ●●● ●● ● ●● ●●● ● ●● ●● ●● ● ● ● ●
● ●● ● ●● ●● ●
● ●●●
● ● ●●
● ● ●●●●● ● ●●● ●● ●
● ● ● ● ●●● ● ●●● ● ●
●●●●● ●
● ● ●● ● ●
● ●
● ●● ● ● ● ●● ●● ●● ● ● ●●● ● ● ● ● ●● ●● ● ●● ●
● ●
● ●
●●
●●
● ●● ●●● ●
● ● ● ●
● ●●●● ● ●●●
● ●●●
● ●● ●● ● ● ●●
● ●●●● ●● ●●● ● ● ●●● ● ●● ●●●●● ●● ● ● ●● ●
● ●
● ● ●
● ●●
● ● ● ● ● ● ● ●
●● ● ●● ● ●● ●● ●● ●
●● ●● ● ● ● ●
●● ● ● ●●● ●●
●
● ●●
● ● ● ● ●●● ● ●
● ●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ●●● ●● ● ●●● ● ●
●
● ●● ● ● ●●● ●
●
●● ● ●●●●●●●●● ● ●● ●●● ● ● ● ● ● ●●●● ●●●● ● ●● ● ●
●● ●● ●● ● ●●●● ● ●●
●●●● ●●
●
● ● ●●●●
●●
●
●● ● ●● ● ●●●
●●● ● ● ● ● ●●●●●
● ●
●●● ●
●●
● ●● ● ●●● ●●
●●
●
● ● ● ●●●● ● ●● ●● ● ●●
●●●
● ● ●● ●
●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●
●● ● ●●
● ● ● ●
●●●● ● ●●● ●●
● ●●● ●●●
●●●● ●
●● ●●● ●
●● ●
● ● ●● ● ● ● ●●● ● ● ●● ●● ●
● ● ● ● ● ● ● ●●●
● ● ● ●● ●
●
● ●● ●● ● ●●●
● ● ●
●● ●
●●●● ● ● ● ●● ●● ● ●● ●● ●●●● ● ● ● ●● ●●●
●● ●
●●●●● ● ● ●● ● ●● ●
●●●● ●● ●●●●● ●●● ●● ● ●
● ●●
●●● ●● ● ● ●●● ●●●● ● ●●●● ● ●● ● ●
●●●
●● ●● ●●● ● ●●
●
●●
●●●●● ● ● ●●● ●●
●●●●● ●●●●
●● ●● ●● ●● ● ● ●● ●
●
● ● ●● ●●● ● ●
●● ●● ● ● ● ●●●●●● ●
● ●
●
● ● ●● ● ●●●
●●●● ●● ●● ●● ●●●●● ●● ●●●●●● ●●● ● ●● ●
●●●
● ● ●●● ●●●●●●●
● ●●●
●●●●●●●
● ●● ● ● ●
●●
●●●
●●
●● ● ● ●
●●●●● ● ● ● ●
●● ●● ●
●
● ● ●●● ● ● ●● ● ● ●●●
●●
● ● ● ●
●● ● ●
●● ●●● ●●● ● ●●●● ●● ●●● ●● ●● ●●● ●● ● ● ●● ●●● ●● ● ● ●●●●● ●● ●● ●● ●●● ●●●
●
●● ● ●● ●●● ● ●● ●
●● ●●● ● ●
●
● ●●● ● ●●●●
● ● ●
● ●●●●● ● ●●●●●●
●●●● ●
●●
●●●●● ●●● ●● ●● ●●
●● ●●● ●●●●● ● ●● ●●● ● ●●●● ●●●
●●●● ●●●●●●● ● ●●●●●●● ● ● ● ●●● ●●● ●●●●● ●●●●●
● ●●●●● ● ●●●
●
●● ●●●●●●
●● ●●●●
● ●
●●●●●
●
● ●●● ●● ●● ●
●●●●● ●● ●●
●
●●●●●● ● ●●●● ●●●
●●●● ● ●
●●●● ●●● ●● ●●●● ●● ●●● ●●● ●●● ●●●● ●●●
● ●● ●
● ● ●●
●●● ●● ●●●● ● ●
● ● ●● ●
●
●● ●
●
●
●●● ●● ●
●● ●● ●● ●●
●
●●● ●●●● ●●●●●
● ● ● ● ● ●●● ● ●● ●●● ● ● ●●
● ●●
● ●●
●● ●●●●
● ● ●● ●
●
● ●●
●
●
●●●● ●●● ●
● ●
●● ●●●
● ●●
●
●● ●●●●●●●●●●●●
● ● ● ●●●●●●●●● ●●●●●● ●●● ●●
● ●
●●●● ●● ● ●●●
● ● ●●●
●● ●●
● ● ● ● ●● ●●●●● ● ● ● ●
●● ● ●
● ● ● ● ●● ●● ● ●
● ●●● ●
● ● ●●
●●● ●●
●●● ●● ●●
●● ●
●●● ● ●●●● ●●● ●● ●●● ●● ●● ●
● ●●●●●● ●
●●
● ●●
0
Muestras Muestras
(x1 , y1 ), . . . , (xn , yn )
n n
∂S(a, b) X X
= −2 yi + 2 axi + 2nb = 0,
∂b i=1 i=1
y !
n n n n n n
X 1X X X 1X X
a
b x2i − xi xi = yi xi − yi xi .
i=1
n i=1 i=1 i=1
n i=1 i=1
4.3.2. Consistencia
La consistencia es otra propiedad deseable en un estimador y tiene que ver
con tamaños de muestra grandes, es decir, es una propiedad asintótica. Esen-
cialmente, un estimador es consistente, si para n (el tamaño de muestra)
grande, el error cometido al estimar τ (θ) con Tn (X) , es pequeño (tiende a
cero).
Definición 4.8 (consistencia en ECM). Sea T1 , T2 , ..., Tn una sucesión
de estimadores de τ (θ), donde Tn está basado en una muestra de tamaño
n. Esta sucesión de estimadores de τ (θ) es consistente en error cuadrático
medio (ECM) si:
lı́m E[(Tn (X) − τ (θ))2 ] = 0. (4.19)
n→∞
σ 2 n→∞
E[(X¯n − µ)2 ] = V ar(X¯n ) = −→ 0.
n
Por lo tanto X¯n es consistente para µ. También note que
2σ 4 n→∞
E[(Sn2 − σ 2 )2 ] = V ar(Sn2 ) = −→ 0.
n−1
Por lo tanto Sn2 es consistente para σ 2 .
El error cuadrático medio, ECM, es el criterio para medir la bondad de
un estimador. Una propiedad desable de un estimador es que proporcione,
para muestras grandes, un error (ECM) pequeño en la estimación, es decir,
que sea consistente.
2 E[(Tn − τ (θ))2 ]
P(|Tn − τ (θ)| ≥ ) = P([Tn − τ (θ)] ≥ 2 ) ≤
2
y la definición de consistencia en ECM.
Xbar consistente
0.6
●
0.4
●
●
●
µ
●
●
0.2
●
● ●●
Estimación
● ●●
●
● ● ● ● ●
●● ●
●● ●
● ● ● ● ● ● ●
●● ● ●
● ● ● ● ● ●
● ● ● ● ●●● ● ● ● ●
● ● ● ●● ● ●●● ● ● ●● ●● ● ● ● ● ●
● ● ●● ● ●● ● ● ●
●● ●● ● ●●●● ● ●● ● ● ●
● ●● ● ● ● ● ●● ● ● ● ●
●●● ●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●
● ● ●● ●● ● ● ● ●● ● ● ● ●
● ● ● ●●● ● ●● ● ●● ●●● ● ● ● ●● ● ● ●● ●● ●●●●
●● ●● ●● ●●
●
●
●●
● ● ●● ●● ●
●● ●
● ●● ● ● ● ● ●●● ● ● ●● ● ●● ● ●● ● ●●●● ● ●
● ●● ● ● ● ●●● ●●●●●● ●● ● ●
● ● ●●●●● ●●●●●●●● ● ●
●
0.0
● ●● ● ●● ●
● ●
● ● ●● ● ●
●
● ● ●
●
●● ●
● ●
●
−0.4
● ●
Tamaño de muestra
S2 consistente
2.0
●
●●
● ●
●
1.5
●
●
Estimación
● ●
●
● ●
σ
● ● ●●
●
● ● ●
●● ● ● ●
● ● ●
●● ● ● ●●
● ●
● ● ●● ● ● ● ● ●
● ● ●●● ● ● ●● ● ● ●
●● ● ●●● ● ● ●● ● ● ●● ●● ●● ●
● ●● ● ● ● ●● ●● ● ●
● ●
● ● ● ● ●
● ●●●●● ● ●●●● ●● ●
●● ●
● ● ●
● ● ● ● ● ● ●● ●●● ●
● ● ●
● ● ● ●● ● ● ● ●●
● ● ●● ● ● ● ●●● ●
● ●●● ●● ●● ●●● ●
●● ●
● ● ● ●●
● ● ●
● ●● ●● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ●●● ●●●● ●●●● ●●●●
● ● ●● ● ● ●
●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●●●● ● ● ●● ● ●● ● ●● ● ● ● ●●● ●
● ● ● ● ● ●● ●●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●● ●●● ● ●● ● ● ● ● ●● ●● ●
1.0
● ●
●● ● ●●●● ● ● ●●●● ●●● ●● ● ●●
●● ●● ● ●● ● ●●
● ●●●●●● ●●●
● ● ●●
● ● ● ●● ●● ● ●●● ● ●●●
●●
● ●
●● ●● ●●
●● ●● ● ● ● ● ●●●●● ●● ●●● ●●● ●
●
●●●●●
●●● ● ●● ●● ●
● ● ●● ● ●
●● ● ● ● ● ●● ●
●
● ●● ● ●
● ●● ● ●● ●
●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●
●●● ●● ● ● ●● ●
●●● ● ●● ●● ●
●● ● ●●● ● ● ●
● ●● ●● ●● ●●●●●●
●●●●●●●
●●●●●
● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●●●● ●●●●●
● ● ● ●
●● ● ●●● ●● ● ●●
● ● ●●●
● ●●
●●●● ●
● ●●● ● ● ●●●
●● ●● ● ● ●●● ● ● ●● ● ●
●
● ●●●● ●● ●● ● ● ● ●
●● ● ●●●●● ●● ● ●● ● ●●●● ● ●● ● ● ● ●●
● ● ●● ●
● ●
●
● ● ● ● ● ●●●● ●●
●
● ● ● ● ● ● ●●● ●●● ● ● ●● ● ●● ●● ●● ● ●●● ●●●● ● ●●● ● ●● ● ● ●●● ● ● ● ●●● ● ●
● ● ● ● ●● ●● ●
● ●●● ●●● ● ●●●●● ● ● ●● ● ●● ●● ● ●● ● ● ●
●
● ●●
● ●●●● ● ● ● ●●● ●● ●●● ●
●
● ●● ● ●●● ● ● ●● ●
● ●● ● ● ● ● ● ●
●● ● ● ●● ● ●● ●
● ● ● ● ●
●● ●● ● ● ●●● ●● ● ●● ●
● ●
●● ●●●● ●
● ●
● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●●
● ●● ● ●●
● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ● ● ●
●● ● ●● ● ●
● ●● ●● ● ● ● ●● ● ● ●
● ●● ●● ●
● ● ●●
● ●
●
● ●● ● ● ● ● ●● ● ● ●
●
● ●● ● ● ● ● ● ● ● ● ●
●
●●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
●● ● ● ●●●● ●
●
●
● ●● ●
● ●●
● ●
●● ● ●
●
●
●
●
● ●
0.5
●
●
●
Tamaño de muestra
Observe que:
Z Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ = (a − θ)2 π(θ|x1 , . . . , xn )dθ.
Z Z
2 (a − θ)π(θ|x1 , . . . , xn )dθ = 0 =⇒ a = θπ(θ|x1 , . . . , xn )dθ
En este caso,
Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ
Z a Z ∞
= (a − θ)π(θ|x1 , . . . , xn )dθ + (θ − a)π(θ|x1 , . . . , xn )dθ.
−∞ a
Diferenciando con respecto a a, se llega a que el mı́nimo debe cumplir que:
Z a Z ∞
π(θ|x1 , . . . , xn )dθ − π(θ|x1 , . . . , xn )dθ = 0
θ=−∞ a
1
Ası́, ambas integrales deberı́an ser iguales a 2 y θ̂ es la mediana a poste-
riori.
La distribución a posteriori es
n
Y e−λ λxi Pn
π(λ|x1 , . . . , xn ) = e−λ ∝ e−λ(n+1) λ i=1 xi
,
i=1
xi !
Pn
es decir, Gama( i=1 xi + 1, n + 1). Entonces, usando la función de pérdida
del error cuadrático medio:
Pn
xi + 1
θ̂ = media a posteriori = i=1 .
n+1
Y bajo la función de pérdida del error absoluto, θ̂ es la solución a:
Pn Pn
θ̂
e−λ(n+1) λ xi xi +1
Z
i=1 (n + 1) i=1 1
Pn dλ = .
0 ( i=1 xi )! 2
148 4. Estimación puntual
∂
Para todo x ∈ sop(f ), ∂θ ln f (x; θ) existe.
∂
R R R RR R ∂
∂θ ... T (x)f (x; θ)dx1 ...dxn = ... ∂θ T (x)f (x; θ)dx1 ...dxn .
∂ ∂
R R R R R R
∂θ ... f (x; θ)dx1 ...dxn = ... ∂θ f (x; θ)dx1 ...dxn .
2
0 < E ∂ ln∂θ f (x;θ)
< ∞.
Demostración.
P 2
(a) Como (θ) = E(Sc2 ) y usando (4.21), ası́ como el hecho de que ( ai ) =
P 2 IX P
ai + i6=j ai aj ,
!2
n
X ∂
IX (θ) = E ln f (Xi ; θ)
i=1
∂θ
n
" 2 #
X ∂
= E ln f (Xi ; θ)
i=1
∂θ
X ∂
∂
+ E ln f (Xi ; θ) ln f (Xj ; θ) .
∂θ ∂θ
i6=j
también lo son y
∂ ∂
E ln f (Xi ; θ) ln f (Xj ; θ)
∂θ ∂θ
es igual a
∂ ∂
E ln f (Xi ; θ) E ln f (Xj ; θ) ,
∂θ ∂θ
donde, para el caso continuo, y bajo el supuesto de que se cumplen las
condiciones de regularidad:
Z ∞ ∂
∂ ∂θ f (xi ; θ)
E ln f (Xi ; θ) = f (xi ; θ)dxi
∂θ −∞ f (xi ; θ)
Z ∞
∂
= f (xi ; θ)dx
−∞ ∂θ
Z ∞
∂ ∂
= f (xi ; θ)dx = (1) = 0.
∂θ −∞ ∂θ
Ası́,
n
" 2 #
X ∂
IX (θ) = E ln f (Xi ; θ)
i=1
∂θ
" 2 #
∂
= nE ln f (X; θ) ,
∂θ
∂2 ∂ f 0 (x; θ)
ln f (x; θ) =
∂θ2 ∂θ f (x; θ)
f (x; θ) f 00 (x; θ) − f 0 (x; θ) f 0 (x; θ)
= 2
[f (x; θ)]
00
0 2
f (x; θ) f (x; θ)
= − .
f (x; θ) f (x; θ)
Ası́,
( 2 )
f 00 (X; θ)
0
∂2
f (X; θ)
−E ln f (X; θ) = −E − ,
∂θ2 f (X; θ) f (X; θ)
154 4. Estimación puntual
y como
f 00 (X; θ) f 00 (x; θ)
Z Z
E = ··· f (x; θ) dx1 · · · dxn
f (X; θ) f (x; θ)
2 Z Z
∂
= · · · f (x; θ) dx1 · · · dxn = 0,
∂θ2
" 2 #
∂2 f 0 (X; θ)
−E ln f (X; θ) = E
∂θ2 f (X; θ)
" 2 #
∂
= E ln f (X; θ)
∂θ
= IX (θ).
(τ 0 (θ))2
V ar(T ) ≥ . (4.22)
IX (θ)
| {z }
CICR(τ (θ))
Y − E (Y ) = k [X − E (X)] (4.23)
Usando el lema 4.1, se tiene que V ar(Sc) = IX (θ), por lo que (4.24) se puede
escribir como:
2
{Cov (T, SC )}
V ar(T ) ≥ .
IX (θ)
Por otro lado,
Cov (T, SC ) = E (T SC ) − E (T ) E (SC )
y nuevamente por el lema 4.1, E (SC ) = 0, mientras que:
∂
f (x; θ)
Z Z
E (T SC ) = ··· t (x) ∂θ f (x; θ) dx1 · · · dxn
f (x; θ)
Z Z
∂
= · · · t (x) f (x; θ) dx1 · · · dxn
∂θ
∂ ∂
= E (T (X)) = τ (θ) = τ 0 (θ) ,
∂θ ∂θ
los pasos anteriores se justifican por la definición de SC , las condiciones de
regularidad y el hecho de que T es insesgado para τ (θ) . Ası́,
2
{τ 0 (θ)}
V ar(T ) ≥ .
IX (θ)
SC − E (SC ) = k [T − E (T )]
Pn ∂
y como E (SC ) = 0, SC = i=1 ∂θ ln f (xi ; θ) y E (T ) = τ (θ) , se comprueba
la segunda parte del teorema.
1 − 2σ12 x2
ln f (x; θ) = ln √ e
2πσ 2
1 1 1
= − ln(2π) − ln(σ 2 ) − 2 x2 ,
2 2 2σ
∂ 2 1 x2
ln f (x; σ ) = − + ,
∂σ 2 2σ 2 2(σ 2 )2
∂2 2 1 x2
ln f (x; σ ) = − .
∂(σ 2 )2 2(σ 2 )2 (σ 2 )3
Entonces,
∂2 E(X 2 )
1
IX (σ 2 ) = −nE ln f (X; σ 2
) = n −
∂(σ 2 )2 σ6 2σ 4
2
σ 1 1 1 n
= n 6 − 4 =n 4 − 4 = .
σ 2σ σ 2σ 2σ 4
2σ 4
Entonces, la CICR para estimadores insesgados de σ 2 es n .
de donde
∂ 1
ln f (x; θ) = − x.
∂θ θ
Entonces,
" 2 # " 2 #
∂ 1 n
IX (θ) = nE ln f (X; θ) = nE −X = n V ar(X) = 2 .
∂θ θ θ
Entonces,
1 θ2
CICR(θ) = = .
IX (θ) n
Para encontrar la CICR para estimadores insesgados de τ2 (θ) = θ1 :
1 1
τ2 (θ) = ⇒ τ20 (θ) = − 2 .
θ θ
4.4. Estimación insesgada 157
Entonces,
1/θ4 1/θ4 1
CICR(τ2 (θ)) = = = 2.
IX (θ) n/θ2 nθ
Ası́, se puede afirmar que τ (θ) = θ1 es una función de θ para la cual existe
un estimador insesgado T (X) = X, cuya varianza coincide con la CICR. En
otras palabras, X es el UMVUE de τ (θ) = θ1 . Aunque en general no es ne-
cesario probarlo, es claro que en este caso: V ar X = θ21n = CICR (τ (θ)) .
Observación 4.5
Generalización
Aquı́ se considerarán brevemente la generalización de la teorı́a de Cramèr y
Rao para cuando se tienen distribuciones de dos o más parámetros. En el
caso de dos parámetros, la información esperada de Fisher (para una muestra
de tamaño n), llamada la matriz de información de Fisher, se define como:
h 2 i h 2 i
∂ ∂
E ∂θ ln f (X; θ) E ∂θ ln f (X; θ)
IX (θ) = − h 21 i h 1 ∂θ 2 i ,
∂2
E ∂θ∂2 ∂θ1 ln f (X; θ) E ∂θ 2
ln f (X; θ)
Demostración.
E (T ∗ ) = E (E (T /S)) = E (T ) = τ (θ).
V ar(T ) = V ar (T ∗ ) + E (V ar (T /S)) ,
160 4. Estimación puntual
Demostración. Sea T 0 (X) , función de S, tal que E(T 0 ) = τ (θ). Sea g(S) =
T ∗ − T 0 . Note que
∴ E[g(S)] = 0
n
!
X 1 n
E(S) = E Xi = nE(Xi ) = n =
i=1
θ θ
k k 1
E Pn =E = kE
i=1 Xi S S
Z ∞
1 θn n−1 −θs
=k s e ds
0 s Γ(n)
Z ∞ n
θ
=k sn−2 e−θs ds
0 Γ(n)
θn Γ(n − 1) ∞ θn−1 (n−1)−1 −θs
Z
=k s e ds
Γ(n) θn−1 0 Γ(n − 1)
| {z }
1
θn Γ(n − 1) Γ(n − 1) kθ
=k n−1 =k = .
θ Γ(n) (n − 1)Γ(n − 1)θ−1 n−1
Por lo que, para que k/Y sea insesgado, k debe ser igual a n − 1. Por lo
tanto,
n−1
T ∗ (X) = Pn
i=1 Xi
es el UMVUE de θ.
Para encontrar la CICR para estimadores insesgados de θ (ver ejemplo
4.32):
" 2 #
∂
IX (θ) =nE ln f (X; θ)
∂θ
" 2 #
∂ −θX
=nE ln θe
∂θ
" 2 #
∂
=nE (ln θ − θX)
∂θ
" 2 #
1
=nE −X
θ
n
=nV ar(X) = 2 .
θ
1 θ2
CICR(θ) = = .
IX (θ) n
4.4. Estimación insesgada 163
(n − 1)2
2 1
E = (n − 1) E 2
S2 S
Z ∞
1 θn n−1 −θs
= (n − 1)2 s e ds
0 s2 Γ(n)
∞
θn
Z
= (n − 1)2 sn−3 e−θs ds
Γ(n) 0
θn Γ(n − 2) ∞ θn−2 (n−2)−1 −θs
Z
= (n − 1)2 s e ds
Γ(n) θn−2 0 Γ(n − 2)
| {z }
1
θn Γ(n − 2)
= (n − 1)2 n−2
θ Γ(n)
Γ(n − 2)
= (n − 1)2
(n − 1)(n − 2)Γ(n − 2)θ−2
(n − 1)θ2
= .
n−2
Entonces,
(n − 1)θ2 θ2
V ar(T ∗ (X)) = − θ2 =
n−2 n−2
es la varianza del UMVUE de θ.
Note que
θ2 θ2
V ar(T ∗ (X)) = > = CICR(θ).
n−2 n
Ejemplo 4.36 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
P oisson(θ). Sea τ (θ) = P(X = 0) = e−θ .
Solución:
(a)
n n n I(xi )
Y Y e−θ θxi (x )
Pn Y {0,1,...}
L(θ) = f (xi ; θ) = i
I{0,1,...} = e−nθ θ i=1 xi
i=1 i=1
xi ! i=1
xi !
y el logaritmo de la verosimilitud es
n n I(xi )
{0,1,...}
X Y
l(θ) = −nθ + ( xi ) ln θ + ln ,
i=1 i=1
xi !
de donde, Pn
∂ xi
l(θ) = −n + i=1 .
∂θ θ
∂
Entonces, ∂θ l(θ) = 0 si y sólo si
Pn Pn Pn
xi xi xi
−n + i=1 = 0 ⇔ n = i=1 ⇔ θb = i=1 .
θb θb n
Pn
Por lo tanto θ̂M.V. = n1 i=1 Xi = X̄. Para τ (θ), aplicando la pro-
piedad de invarianza de los estimadores máximo verosı́miles τ (θ̂M.V. )
es estimador máximo versı́mil de τ (θ). Por lo tanto e−X̄ es estimador
máximo verosı́mil de τ (θ) = e−θ .
(c) Como
e−θ θx (x)
f (x; θ) = I
x! {0,1,...}
si
1 (x)
a(θ) = e−θ , b(x) = I , c(θ) = ln(θ), d(x) = x.
x! {0,1,...}
4.4. Estimación insesgada 165
Entonces,
f (x; θ) = a(θ)b(x)ec(θ)d(x) .
(d) P
Como f (x; θ) pertenece a la familia exponencial entonces T (x) =
n Pn
i=1 d(Xi ) = X
i=1 i es una estadı́stica suficiente minimal y com-
pleta.
" 2 #
∂
IX (θ) =nE ln f (X; θ)
∂θ
" −θ X 2 #
∂ e θ
=nE ln
∂θ X!
" 2 #
∂
=nE (−θ + X ln θ − ln X!)
∂θ
" 2 #
X
=nE −1 +
θ
" 2 #
1
=nE (X − θ)
θ
n h 2
i n nθ n
= 2 E (X − θ) = 2 V ar(X) = 2 = .
θ θ θ θ
θ
CICR(θ) = .
n
(τ 0 (θ))2 θe−2θ
CICR(τ (θ)) = n = .
θ n
166 4. Estimación puntual
Pni=1 Xi
se llega a la misma conclusión. Además, n−1
n es el UMVUE de
τ (θ) por el inciso (g) y el teorema de Lehmann-Scheffé.
en distribución.
(i) Xn + Yn → X + c, en distribución,
(iii) Si c 6= 0 entonces,
Xn X
→ ,
Yn c
en distribución.
Teorema 4.5 Sea X1 , X2 , .., Xn una muestra aleatoria de una población con
función de densidad f (x; θ), sea θb el estimador máximo verosı́mil de θ, y
sea τ (θ) una función continua y diferenciable de θ. Bajo las condiciones de
regularidad sobre f (x; θ) y, por lo tanto de la función de verosimilitud L(θ),
se tiene que √
b − τ (θ)] −→ N [0, CICR(τ (θ))],
n[τ (θ)
donde CICR(τ (θ)) es la cota inferior de Cramér-Rao para estimadores in-
sesgados de τ (θ). Esto es, el estimador máximo verosı́mil de τ (θ) , τ (θ),
b es
un estimador eficiente de τ (θ).
Como
n
0
X ∂
l (θ) = ln f (xi ; θ),
i=1
∂θ
por (4.21)
1
IX (θ0 ) = E [l0 (θ0 )]2 =
CICR(θ)
denota la información esperada de Fisher.
Ahora observe que
" #
∂
1 0 √ 1 X ∂θ f (xi ; θ)
√ l (θ0 ) = n ,
n n i f (xi ; θ)
0
donde Sc(x; θ) = ff (x;θ)
(x;θ)
es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] =
IX (θ), lo cual se probó en el lema 4.1. Ası́, por el teorema del lı́mite central,
1
√ l0 (θ0 ) −→ N [0, I(θ0 )]
n
170 4. Estimación puntual
en distribución y
1
− √ l0 (θ0 ) −→ N [0, I(θ0 )]
n
en distribución. Por otro lado,
#2
∂2
"
∂
1 00 1 X ∂θ f (xi ; θ) 1X ∂θ 2 f (xi ; θ)
l (θ0 ) = − .
n n i f (xi ; θ) n i f (xi ; θ)
Note que la esperanza del primer sumando es IX (θ0 ), mientras que la del
segundo es cero (ver la demostración del lema 4.2). Entonces por la Ley
Débil de los Grandes Números:
1 00
l (θ0 ) −→ I(θ0 ),
n
en probabilidad. En consecuencia, si W es una variable aleatoria tal que
W ∼ N [0, I(θ0 )], entonces
√ − √1n l0 (θ0 )
n(θb − θ0 ) = 1 00
n l (θ0 )
converge en distribución a W/I(θ0 ) ∼ N [0, 1/IX (θ0 )], es decir, a una variable
aleatoria normal con media cero y varianza igual a la cota Inferior de Cramèr
y Rao, lo que demuestra el resultado.
El caso general es consecuencia del método delta, el cual se describe
brevemente a continuación. Una forma alternativa para calcular la varianza
del estimador máximo verosı́mil de τ (θ) es considerando que, debido a la
propiedad de invarianza que tiene el método de máxima verosimilitud,
τd(θ) = τ θb .
Si se aproxima τ θb mediante una expansión en series de Taylor alrededor
de θ, considerando solamente la primera derivada, se obtiene:
τ θb ≈ τ (θ) + θb − θ τ 0 (θ) .
se tiene que las Yi0 s son variables aleatorias Bernoulli con probabilidad de
éxito p
pn = F (ψ + a/ (n)).
p P
Note que el evento {Mn ≤ ψ + a/ (n)} es equivalente al evento { i Yi ≥
(n + 1)/2}. Dado que
pn → p = F (ψ) = 1/2,
P
Yi −npn
se puede utilizar el teorema del lı́mite central, de donde √ i
con-
(npn (1−pn ))
verge a una variable aleatoria Z con distribución normal estándar. Ahora,
√
(n + 1)/2 − npn (n + 1)F (ψ) − nF (ψ + a/ n)
lı́m p = lı́m p
n→∞ (npn (1 − pn ) n→∞ npn (1 − pn )
√
n(F (ψ) − F (ψ + a/ n))
= lı́m p
n→∞ npn (1 − pn )
√
n(F (ψ) − F (ψ + a/ n) 1
= lı́m a √
n→∞ a/ n pn (1 − pn )
= −2af (ψ).
Por lo que p
P ( (n)(Mn − ψ) ≤ a) → P (Z ≥ −2af ψ).
p
Ası́ (n)(Mn − ψ) tiene una distribución normal con media 0 y varianza
1/[2f (ψ)]2 .
4.6. Ejercicios
1. Sea X una variable aleatoria con distribución Gama(α + 1, β), cuya
función de densidad es
β α+1
f (x; α, β) = xα e−βx ,
Γ(α + 1)
con x > 0, α > −1 y β > 0. Obtenga los estimadores de los parámetros
α y β por el método de momentos, para una muestra aleatoria de
tamaño n.
2. Una urna contiene bolas negras y blancas. Se toma una muestra aleato-
ria de tamaño n con reemplazo. ¿Cuál es el estimador máximo verosı́mil
de la razón, R, de blancas a negras en la urna? Para esto suponga que
la bola se obtiene una por una con reemplazo hasta que la bola negra
aparezca. Sea X el número de bolas requeridas no contando la últi-
ma obtenida; este procedimiento se repite n veces para una muestra
aleatoria X1 , . . . , Xn .
4.6. Ejercicios 173
14. Suponga que ciertas pérdidas siguen una distribución W eibull con
parámetros θ y τ . Se tiene la siguiente muestra de 16 pérdidas: 54,
70, 75, 81, 84, 88, 97, 105, 109, 114, 122, 125, 128, 139, 146, 153. Es-
time los parámetros utilizando el método de percentiles, usando los
percentiles 20th y 70th .
αθα
f (x; θ) = , x > θ, θ > 0,
xα+1
con α conocida.
log(θ)
f2 (x; θ) = θx I(0,1) (x) donde θ > 1.
θ−1
En cada caso, para una muestra aleatoria de tamaño n, ¿existirán
estadı́sticas T1 (X) y T2 (X) para ciertas funciones τ1 (p) y τ2 (θ), para
las cuales la varianza de Ti (X), i = 1, 2, coincidan con la CICR?
25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (θ, 1).
(a) Encuentre la CICR para la varianza de los estimadores insesgados
de τ1 (θ) = θ, τ2 (θ) = θ2 y τ3 (θ) = P(X > 0).
(b) ¿Existe un estimador insesgado para τ2 (θ) = θ2 ?. Si es ası́, en-
cuéntrelo.
(c) ¿Existe un estimador insesgado para τ3 (θ) = P(X > 0)? Si es ası́,
encuéntrelo.
(d) Encuentre el UMVUE para τ2 (θ) = θ2 .
26. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Beta(θ, 1), donde θ > 0, es decir, con función de densidad
T1 (X) = X1 X2 .
T2 (X) = X1 X2 (1 − X3 ).
1
Pn Xi
(llegará a 1 − n
i=1
).
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T3 (X)
de τ3 (λ) = λe−λ , dado por
183
184 5. Estimación por intervalos
sobre qué valores se pueden esperar para una caracterı́stica que se esté estu-
diando; aunque, a diferencia de la estimación puntual, se habla de un nivel de
confianza que tendrá una influencia en el intervalo calculado: intuitivamente
la confianza se refiere a la certeza con la que el método dará una respuesta
correcta, y por lo tanto se pedirá que ese nivel de confianza sea alto.
Replanteando el problema de encontrar un rango de valores para θ, se
tiene lo siguiente: si θ ∈ Θ ⊆ R (el espacio paramétrico) y se quiere disminuir
el grado de desconocimiento de θ en f (x; θ), se debe seleccionar un subcon-
junto Θ1 de Θ en el cual pueda afirmarse, con un margen de error pequeño,
que se encuentra el valor de θ que caracteriza la distribución de la población.
Por ejemplo, suponga que se tiene una muestra aleatoria X1 , . . . , Xn de una
población con distribución N (µ, σ 2 ), con σ 2 conocida y µ desconocida y se
desea estimar el parámetro µ. La estadı́stica T (X) = X̄ tiene distribución
N (µ, σ 2 /n), entonces,
X̄ − µ
Z := √ ∼ N (0, 1).
σ/ n
Note que
A partir de que se sabe que P[−1.96 < Z < 1.96] = 0.95, se obtiene lo
siguiente:
X̄ − µ
−1.96 < √ < 1.96,
σ/ n
si y sólo si
σ σ
−1.96 √ < X̄ − µ < 1.96 √ ,
n n
si y sólo si
σ σ
X̄ − 1.96 √ < µ < X̄ + 1.96 √ ,
n n
de donde
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95.
n n
Lo que indica la expresión
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95,
n n
5.1. Intervalos de confianza 185
es que hay una probabilidad de 0.95 de obtener una muestra tal que el
intervalo
σ σ
X̄ − 1.96 √ , X̄ + 1.96 √ ,
n n
incluya al valor de µ. Esto motiva la definición 5.1 de intervalo aleatorio que
se verá posteriormente, aunque en este momento, y haciendo referencia al
ejemplo anterior, se puede adelantar que un intervalo en el que al menos uno
de los extremos es una variable aleatoria se llama intervalo aleatorio.
Una vez usada la distribución de X̄ para establecer la conclusión anterior,
se obtiene un valor particular de x̄, con base en una muestra, y se determina
el intervalo numérico
σ σ
x̄ − 1.96 √ , x̄ + 1.96 √ . (5.1)
n n
100
100
80
80
80
60
60
60
40
40
40
20
20
20
0
entonces,
X̄ − µ σ σ σ σ
a< √ < b ⇔ a √ < X̄ − µ < b √ ⇔ X̄ − b √ < µ < X̄ − a √ .
σ/ n n n n n
Suponga que se desea minimizar la longitud del intervalo dada por (b−a) √σn ,
con la restricción de que P[a < Z < b] = 0.95, es decir, FZ (b)−FZ (a) = 0.95,
donde FZ (z) es la función de distribución de una población N (0, 1) . Para
este problema de optimización, se define la función
Entonces,
∂L
= 0 ⇔ −1 + λfZ (a) = 0 ⇔ λfZ (a) = 1
∂a
y también
∂L
= 0 ⇔ 1 − λfZ (b) = 0 ⇔ λfZ (b) = 1.
∂b
De donde, fZ (a) = fZ (b); por lo tanto, a = −b debido a la simetrı́a (en el
cero) de fZ . Es decir, la distancia b − a será minimizada (para un área fija)
cuando fZ (a) = fZ (b).
γ = P[T1 (X) < θ < T2 (X)] = P[τ (T1 (X)) < τ (θ) < τ (T2 (X))].
si y sólo si
t1 (x1 , . . . , xn ) < τ (θ) < t2 (x1 , . . . , xn ) ,
para funciones t1 y t2 que no dependen de θ, entonces (t1 , t2 ) es un intervalo
del γ(100) % de confianza para τ (θ).
La longitud esperada serı́a E [t2 (X1 , . . . , Xn ) − t1 (X1 , . . . , Xn )] .
para α tal que 0 < α < 1. Entonces de entre todos los intervalos que cumplen
(5.2), [a0 , b0 ] tiene la longitud mı́nima si f (a0 ) = f (b0 ) > 0 y a0 ≤ x∗ ≤ b0 ,
donde x∗ es la moda de f (x) . Si además f (x) es simétrica, entonces a0 =
F −1 α2 y b0 = F −1 1 − α2 .
de donde:
∂L
= 1 − λf (a) = 0,
∂a
∂L
= 1 − λf (b) = 0
∂b
y
1 − α − F (b) + F (a) = 0.
De las primeras dos ecuaciones se obtiene que f (a) = f (b) > 0. Si x∗ ∈ /
[a, b] y f (a) = f (b), entonces b − a > b0 − a0 , pues f (x) es unimodal y
F (b) − F (a) = F (b0 ) − F (a0 ) .
Algunos ejemplos
Ejemplo 5.2 Suponga que se tiene una variable aleatoria con una distribu-
ción Exponencial con parámetro λ = θ1 . Obtenga un intervalo del 90 % de
confianza para θ.
Como X ∼ Exponencial(1/θ), sus funciones de densidad y de distribución
son, respectivamente,
1 −x/θ
f (x; θ) = e ,
θ
FX (x) = 1 − e−x/θ ,
5.1. Intervalos de confianza 191
X
con x > 0 y θ > 0. Sea Y = θ , entonces
FY (y) = P [Y ≤ y]
X
= P ≤y
θ
= P [X ≤ θy]
= FX (θy),
e−a = 0.95
a = − log(0.95) = 0.051,
FY (y) = P (Y ≤ y)
X
= P ≤y
θ
= P (X ≤ θy)
= FX (θy)
θy
=
θ
= y.
Por lo tanto, Xb , X
a es un intervalo
del 95 % de confianza para θ. O de
X X
manera equivalente, 0.95+a , a es un intervalo del 95 % de confianza para
θ.
5.1. Intervalos de confianza 193
donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución
χ2(2n) . El intervalo para θ que se deduce de esta última expresión es
Pn Pn
2 i=1 Xi 2 i=1 Xi
, .
q1−α/2 qα/2
P (U ≤ u) = P [F (X; θ) ≤ u]
P X ≤ F −1 (u)
=
F F −1 (u)
=
= u,
P [− ln F (Xi ; θ) ≤ u] = 1 − e−u ,
" n
#
X
= P ln a < θ ln Xi < ln b
i=1
" n
#
Y
= P ln a < θ ln Xi < ln b
i=1
ln b ln a
= P
Qn <θ< Qn
,
ln Xi ln Xi
i=1 i=1
n
Q
donde la última desigualdad se sigue del hecho de que ln Xi es negativo.
i=1
Entonces puede concluirse que
ln b ln a
n
Q , n
Q
ln xi ln xi
i=1 i=1
donde p1 y p2 son números fijos tales que p1 > 0, p2 > 0 y p1 +p2 < 1. Supon-
ga que h1 (θ) y h2 (θ) son funciones monótonas crecientes, y que h1 (θ) < h2 (θ)
(de manera análoga se podrı́an considerar funciones monótonas decrecien-
tes).
Sea t0 el valor observado de T , obtenido de la muestra observada
x = (x1 , x2 , . . . , xn ), es decir, T (x) = t0 . Para cualquier valor de t0 , pue-
den obtenerse v1 = v1 (t0 ) y v2 = v2 (t0 ) tales que (v1 , v2 ) será el intervalo
del (1 − p1 − p2 )100 % de confianza para θ.
Note que h1 (θ) < t0 < h2 (θ) si y sólo si v1 < θ < v2 para cualquier
muestra observada x. Por definición de h1 (θ) y h2 (θ) se tiene que
que es equivalente a
lo cual establece que (v1 , v2 ) es el intervalo del (1−p1 −p2 )100 % de confianza
para θ.
Para clarificar esta forma de obtener intervalos de confianza, a continua-
ción se muestran algunos ejemplos.
Se tiene que
Z h1 (θ)
n
θ p1 = ny n−1 dy,
0
Z θ