Documentos de Académico
Documentos de Profesional
Documentos de Cultura
inferencia estadı́stica
para estudiantes de ciencias
ISBN: 978-607-30-2477-8
Prólogo XV
Introducción XVII
1. ¿Qué es la estadı́stica? 1
1.1. La probabilidad y la estadı́stica . . . . . . . . . . . . . . . . . 2
1.2. Enfoques de la estadı́stica . . . . . . . . . . . . . . . . . . . . 3
1.2.1. El concepto de muestra aleatoria . . . . . . . . . . . . 6
1.3. Familia de localización y escala . . . . . . . . . . . . . . . . . 8
2. Estadı́stica descriptiva 11
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Datos y variables . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Escalas de medición . . . . . . . . . . . . . . . . . . . 13
2.2.3. Formas de recolección . . . . . . . . . . . . . . . . . . 14
2.3. Los datos y R . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1. Cargando los datos . . . . . . . . . . . . . . . . . . . . 15
2.4. Representación gráfica de los datos . . . . . . . . . . . . . . . 16
2.4.1. Frecuencia, frecuencia relativa y frecuencia acumulada 17
2.4.2. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . 17
2.4.3. Gráficas de barras . . . . . . . . . . . . . . . . . . . . 18
2.4.4. Gráficas de pay o pastel . . . . . . . . . . . . . . . . . 18
2.4.5. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . 21
2.4.6. Histograma . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.7. Boxplot o diagrama de caja y brazos . . . . . . . . . . 24
2.5. Medidas muestrales de tendencia central . . . . . . . . . . . 27
2.5.1. La media muestral . . . . . . . . . . . . . . . . . . . . 27
2.5.2. La mediana muestral . . . . . . . . . . . . . . . . . . . 27
2.5.3. Porcentiles o percentiles . . . . . . . . . . . . . . . . . 28
v
vi Índice general
3.5. Completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.6. Algunas generalizaciones . . . . . . . . . . . . . . . . . . . . . 88
3.7. Estadı́sticas auxiliares . . . . . . . . . . . . . . . . . . . . . . 90
3.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Bibliografı́a 357
xi
xii Índice de figuras
Es para mı́ un honor el que los autores me hayan pedido escribir el prólogo
a este libro. Lo es porque tengo un respeto muy grande por su trayectoria
académica y porque todos ellos fueron destacados estudiantes de la Maestrı́a
en Estadı́stica en la que tuve la suerte de participar desde su inicio; de hecho,
todos fueron mis alumnos del curso de Inferencia Estadı́stica que durante
muchos años he impartido. Es importante hacer notar que algunos de estos
autores obtuvieron posteriormente su doctorado mientras que otros atendie-
ron tareas académico-administrativas y de superación. Su participación en
el Departamento de Matemáticas de la Facultad de Ciencias es y ha sido de
enorme valor.
Me tocó estar en el inicio de la Maestrı́a en Estadı́stica e Investigación
de Operaciones, que se ubicó dentro del CCH con la participación muy des-
tacada de la Facultad de Ciencias y del ahora IIMAS. Esto, a principios de
los años 70, en que se inició formalmente un posgrado en estadı́stica.
Esa maestrı́a, junto con otros posgrados, en los 90’s se integraron en
el ahora Posgrado en Ciencias Matemáticas de la UNAM, siendo una de
sus áreas la estadı́stica y teniendo ya la posibilidad de ofrecer el nivel de
doctorado en ese campo particular.
En el posgrado, una materia central dentro de la estadı́stica sigue siendo
la inferencia. Pues bien, los autores de este libro cursaron la materia de
Inferencia Estadı́stica conmigo. Una de ellas la cursó en los inicios, durante
los 70’s, otros dos durante los 90’s, y la más reciente, cursó esa materia ya
entrado el 2000. Sus experiencias compartidas y el interés por hacer un libro
en estadı́stica los llevaron a escribir este tomo que yo califico como excelente.
Este libro, además de satisfacer sobradamente necesidades de los alum-
nos de la Facultad de Ciencias que quieran aprender estadı́stica, contiene
material de nivel de maestrı́a. El libro resulta una fuente de consulta y un
sólido texto para cursos serios introductorios y para cursos intermedios, in-
cluido, repito, el nivel de maestrı́a. Algunas discusiones hechas en el libro
rememoran discusiones en clase cuando he impartido el curso.
xv
xvi Prólogo
Se puede decir que la estadı́stica es una disciplina reciente con relación a otras
ramas de las matemáticas, no obstante que desde la antigüedad existieron
actividades relacionadas con el manejo de cifras, tales como las cuentas y
datos vinculados con las poblaciones de las ciudades o, más generalmente,
de los estados; situación que posiblemente es la génesis del término “es-
tadı́stica”. En Rao (1997), el estadı́stico hindú Radhakrishna Rao menciona
que “la estadı́stica tiene gran antigüedad pero escasa historia”, frase que
refleja el hecho de que la estadı́stica es joven como área formal, pero que
prácticamente ha estado presente a lo largo de la historia de la humanidad.
Entre los cientı́ficos que más han aportado a la estadı́stica para conver-
tirla en la disciplina con el carácter matemático y de importante aplicación
para ayudar a explicar fenómenos del mundo real, sobresalen Francis Gal-
ton (1822-1911), Karl Pearson (1857-1936), Charles Spearman (1863-1945),
Ronald Fisher (1890-1962) y Jerzy Neyman (1894-1981), sólo por mencionar
algunos.
La inferencia estadı́stica es una disciplina que se basa en gran medida en
la probabilidad y que ayuda a resolver problemas haciendo conclusiones de
alguna caracterı́stica de la población, usando para ello datos muestrales de la
misma. Por ejemplo, los estadı́sticos pueden realizar estudios de opinión, en
donde a través del punto de vista de algunos ciudadanos que componen una
muestra suficientemente representativa, se puede medir el pulso de temas de
interés para el paı́s.
La estadı́stica involucra conceptos y resultados que pueden resumirse en
grandes temas: análisis exploratorio de datos, distribuciones muestrales, es-
timación puntual, estimación por intervalo y pruebas de hipótesis, los cuales
son fundamentales en el estudio y la aplicación de esta disciplina.
Para la lectura de este documento es importante contar con conocimien-
tos de teorı́a de la probabilidad, ası́ como de cálculo diferencial e integral en
una y varias variables.
xvii
Capı́tulo 1
¿Qué es la estadı́stica?
1
2 1. ¿Qué es la estadı́stica?
Ejemplos:
(1) Se extraen los objetos, uno cada vez, de una colección finita llamada
población y se determina una caracterı́stica particular de interés de ca-
da objeto extraı́do. Después de cada observación y antes de la siguiente
extracción, se devuelve el objeto extraı́do y se mezcla la población de
objetos.
(2) Se extraen los objetos de una población finita como en (1), excepto
que los objetos no se remplazan.
Ejemplo 1.1 Una urna contiene cuatro bolas numeradas del 1 al 4. Se ex-
traen 2 aleatoriamente, una cada vez. Sea X1 el número de la primera bola
extraı́da y X2 el número de la segunda bola extraı́da. Hay 12 posibles resul-
tados del experimento:
Estadı́stica descriptiva
2.1. Introducción
La estadı́stica descriptiva se distingue de la inferencia estadı́stica en que
la primera tiene como objetivo resumir un conjunto de datos en lugar de
utilizarlos para hacer inferencias de la población que se cree que dichos da-
tos representan. Esto generalmente significa que la estadı́stica descriptiva,
a diferencia de la inferencia estadı́stica, no se desarrolla sobre la base de
la teorı́a de la probabilidad. Su objetivo primario es entonces analizar un
grupo determinado, resumiendo los datos de manera que se pueda enfatizar
la información relevante que sea útil para el planteamiento de preguntas y
modelos.
Este tema se puede abordar desde diferentes ángulos, pero considerando
el objetivo del presente texto, que está más enfocado a la inferencia estadı́sti-
ca, sólo se hace una breve revisión de los conceptos más importantes de la
estadı́stica descriptiva. Se utilizan para ello datos que están disponibles en
el paquete estadı́stico R, con el fin de ilustrar también el uso y resultados de
11
12 2. Estadı́stica descriptiva
este software. La razón principal para usar R es que este paquete es asequi-
ble por ser de uso libre y que, además de la popularidad que ha adquirido
en los últimos años en el ámbito educativo, se utiliza ampliamente en otros
sectores.
También se exhiben los términos más importantes del análisis explorato-
rio de datos.
de más tiene una observación comparada con otra, con respecto a cier-
ta caracterı́stica analizada. El ejemplo por excelencia de este tipo de
escala es cualquier escala de temperatura, ya que el cero en ellas no
significa que no haya temperatura.
species of rock crab of genus Leptograpsus. Australian Journal of Zoology 22, 417-425.
16 2. Estadı́stica descriptiva
En este punto se tienen las variables listas para realizar el análisis des-
criptivo.
Tabla de frecuencias.
Gráfica de pastel.
Gráfica de barras.
Histograma.
f1 + · · · + fk = n.
Fi = f1∗ + · · · + fi∗ .
> table(sex)
sex
F M
100 100
18 2. Estadı́stica descriptiva
100
75
Frecuencia
Especie
50 Blue
Orange
25
B O
Especie
Orange
Blue
4, 2, 3, 2, 1, 2, 3, 3, 3, 3, 4, 3, 5, 3, 3, 2, 2, 4, 3, 2
Respuesta
A
B
C
D
E
75 98 42 75 84 87 65 59 63 86 78 37 99 66 90 79 80 89
68 57 95 55 79 88 76 60 77 49 92 83 71 78 53 81 77 58
93 85 70 62 80 74 69 90 62 84 64 73 48 72
37 42 48 49 53 55 57 58 59 60 62 62 63 64 65 66 68 69
70 71 72 73 74 75 75 76 77 77 78 78 79 79 80 80 81 83
84 84 85 86 87 88 89 90 90 92 93 95 98 99
3 7
4 289
5 35789
6 022345689
7 01234556778899
8 00134456789
9 0023589
2.4.6. Histograma
Un histograma es la representación visual de la distribución de un conjunto
de datos. Es decir, se intenta tener una idea acerca de cómo se comportan
pensando en una función de densidad empı́rica. El histograma tiene algunas
similitudes con la gráfica de barras (ver la función barplot()), en el sentido
22 2. Estadı́stica descriptiva
que también utiliza barras para indicar una frecuencia, pero a diferencia del
diagrama de barras, cada barra en el histograma representa la frecuencia
de un intervalo sobre el rango de las observaciones que se tienen. Cuando
se elabora un histograma, se toma una decisión acerca de cómo se va a
dividir el rango de la muestra en intervalos y cuán altas se dibujarán las
barras, dado que únicamente tienen que estar en la proporción correcta. R
tiene varios métodos para la selección de estos intervalos (Sturges, Scott y
Freedman–Diaconis). Las dos maneras de establecer la altura de las barras
son la frecuencia absoluta del intervalo y aquella que hace al área de la barra
igual a la frecuencia relativa del intervalo. Bajo este último método, el área
total de las barras sumará 1, lo cual es conveniente cuando se está pensando
en ajustar el modelo de una distribución de probabilidad.
En la función hist(), la longitud de los intervalos está controlada por el
parámetro breaks. Este puede ser especificado por el nombre de un algoritmo
que los genere, el número de intervalos deseados o la localización exacta de
los extremos de los intervalos deseados (breaks).
La siguiente instrucción imprime gráficas: 2 renglones, 2 columnas:
> par(mfrow=c(2,2))
O, un renglón y 2 columnas:
> par(mfrow=c(1,2))
> hist(CW,breaks="Sturges",freq=TRUE,col="lightgray",main=
"Ancho del caparazon", ylab="Frecuencia absoluta")
> hist(CW,breaks=30,probability=TRUE,col="gray",main="Ancho
del caparazon", ylab="Frecuencia relativa")
40 0.06
Frecuencia absoluta
Frecuencia relativa
30
0.04
20
0.02
10
0 0.00
20 30 40 50 20 30 40 50
CW CW
50
Ancho del caparazón
40
30
20
Cangrejos
Figura 2.5: Diagrama de caja y brazos para la caracterı́stica ancho del ca-
parazón de la base de datos de los cangrejos crabs.
> par(mfrow=c(1,2))
> boxplot(CW~sp, xlab="Especie",ylab="Ancho del caparazon")
> boxplot(CW~sex, xlab="Sexo",ylab="Ancho del caparazon")
Para una gráfica de caja y brazos con estas caracterı́sticas, véase la
figura 2.6.
50 50
Ancho del caparazón
Ancho de caparazón
40 40
Especie Sexo
Blue Femenino
Orange Masculino
30 30
20 20
B O F M
Especie Sexo
B O
50
Ancho del caparazón
40
Sexo
Femenino
Masculino
30
20
F M F M
Figura 2.7: Gráfica de caja y brazos para la caracterı́stica ancho del capa-
razón para las diferentes variables asociadas a especie y sexo.
> quantile(CW,0.75,type=2)
75%
42
> quantile(CW,c(0.25,0.5,0.75),type=2)
25% 50% 75%
31.5 36.8 42.0
Haciendo el cálculo en R,
> (rango.CW<-max(CW)-min(CW))
[1] 37.5
rango intercuartil = Q3 − Q1 .
Haciendo el cálculo en R:
> CW.Q1.Q3<-quantile(CW,c(0.25,0.75),type=2)
> (CW.R.I<-diff(CW.Q1.Q3))
10.5
CW
mı́n 17.1
Tendencia Q1 31.5
central x 36.4145
me 36.8
Q3 42.0
máx 54.6
Rango muestral 37.5
Dispersión Rango intercuartil 10.5
Desv. Estándar 7.871955
Varianza 61.96768
Curtosis
La curtosis se define como:
µ4
,
σ4
donde µ4 es el cuarto momento alrededor de la media y σ es la desviación
estándar.
En ocasiones se mide con referencia a la distribución normal que tiene
una curtosis igual a 3,
µ4
γ2 = 4 − 3.
σ
2.8. Relaciones lineales entre variables 33
6 10 14 18 20 30 40 50
● ●● ● ● ●●●●
● ●
●
●● ● ●●● ●●
● ●
● ●●●
●●● ●
● ●● ● ●●
●● ● ●●●
●●●●● ● ●●●●
●
●● ●
●●●
●● ● ● ●● ●
10 15 20
●●●● ●● ● ●● ●
●●● ● ●● ● ●
●●
●●●●
● ● ●
●● ●●
●●● ●
●●●
●
●
●●●●
●●
●●●●●
●●●●
● ●●●●
● ●●
●●
●
●●●●● ●
●●●
●
●●●
●●
●● ●● ● ●●● ●
● ●
●●
●
●●●●
●
●
●
●
●
●● ● ●●● ● ●●
● ●● ●
● ● ●
●●
●
●●
●
●
● ●●
●●
●● ●●● ●● ● ●●
●
●
●
● ●
●●
●
●●
●●
● ●●●● ●
●●
● ●
●
●
●
●●●●
●●●
●
● ●
● ●●●
●
●●
●●
●
●
●●●
●
●●●
● ● ●● ●● ●●
● ●
●● ● ● ●●●●●● ●● ●
●
●●●
FL
●●●●●
●●
● ●
●● ●● ●●
●●●
● ●●● ●●● ●
●●●
●● ●●
●●
●● ●●
●●● ●
●●
●●
●●●
●
●
●●
● ●● ●●
●●●
●
●
●
●●
●
●●
●
●
●●
●●
●● ● ●
●
●
●●
●
● ●
●
●●
●
●●
●
● ● ●
●●
●
●
●●
●
●
●
●
●
●
●●
●●
● ●
●●●●●●●●
●●
● ●●●
●●●
● ●●●
●● ●●
● ●●
●●
●●
●●●
●
●
●●
●
●
●●●● ●● ●●●
●●●
●
●● ●●
●●
●●●●● ●
●●●
●●
●●
●
● ●
●●● ●●● ●
●●●
● ●● ●
● ●●
●●●
●●●●
●
●
●
●
●
●●
●●
●●
● ● ●●●●●
●●●●●
●
●●
●●●
●● ●● ●
●●
●●●
●
●●
●●
●
● ●
●
●
●●
●
●
●
●
●
●●
●
●●
●●
●●
● ●
●
●
●●●
●●●●
● ●● ● ●●●
●● ●
●●
●● ●●● ●●
●●
●●●
● ●
●●
●●
●●●
●
●●●●●●
● ● ●●
●●
● ●●●●●● ● ●
●
●●●
●
●
●
●●●●●●
●
● ●●
●●
●
●●
●
● ●
● ●●
●
●●
●
● ●●
●●
●●
●
● ● ● ●
● ● ● ●
● ● ● ●
●
● ●● ● ● ● ●● ●
●●
●● ●●●● ●● ●●
●
●
● ● ●●● ●●●●●●●●● ● ●● ●
●
●● ●● ●
● ● ●● ● ●● ●
●● ●
16
● ● ● ● ●
● ●●●● ● ●●●● ●●
●●● ● ●● ●● ●●●●● ●● ●●●●●●●●●
●● ●●●● ● ● ●●●● ● ●
●●● ● ●●
● ●●
● ●●
●
●● ●●
●●●● ● ● ●●●●● ●● ● ●●●●
● ●●
● ● ●●● ●●● ●● ●●
●●●
● ● ●●●● ●●●●● ●●●
●● ●●● ●●
●●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●●●●
●●●
● ●
●
●●
●
●●
●●●●●●
●●
●●
RW ●●
●
●
●
●●●
●
●●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●●●● ●●●
●● ●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●● ●●●●
●●
●●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●● ●
●
●
●
●
●
●
●
●
●
●●●●●
● ●●
●●
●
●●
● ●●
●●●
●
●
●●● ●●●●
●
●●●
●●
●
●●
●
●
●
●
●
●
●
●●
●●
●●
●
●●●
●●
●●
●●
●●
●●
●●●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●●●●
●●
●
●●●●
●
●●
●●
●
●
●●
●
●●
●●●
●
●
●●
●
●
●
●
●●
●
10
●● ●● ●
● ●
●● ●●
● ●●●●● ●
● ● ●●
●●
●●●●●
●
● ●●
● ● ●●
●
●● ● ●●● ●●●
●●●●
● ● ●
● ● ● ●●●
●●●
●
● ●
●●●●● ●●●
●●●
● ●●●
● ●●
● ●● ●●●●●
●●●
●●
● ●●●
●
●● ●
●●
● ●
●● ●●
●●
●● ●●
●● ●
●● ●
●●
●● ● ●●● ●●
● ● ●●
6
● ● ● ● ● ●● ● ● ●● ●
15 25 35 45
●●
● ● ●
●● ● ●●● ●●
●
● ● ● ● ● ●●● ●●
●● ●
●●●●●●●● ●
●●
● ●●
●● ● ●● ●
●
●●
●
●
●
●●
●
●
●●●
●●●●
● ●●●● ●● ●
● ●●●●
●●●● ●●
●
●●●
●●
●
●●● ●
●
●●
●
●●
● ●●●
●●●
●
●●●● ●● ●
●●
● ●● ●
● ●
● ●● ● ●●
●
●●●●
●●●●● ●
● ●●●●●●● ●
●●
● ●
●● ●●● ●●
●●●
●● ●
●●
●●●●●●
●
●● ●●●
● ●
●
● ● ●●
●●●●
● ●●●
● ●●
●●●●
●●●
●
●
●●
●
●●
● ● ●
●●●●
●
●
●●
●
●
●
●●● ●
●●
● ●●
●
● ● ● ●●
●
●
●
●
●
●
●
●
●● ●
●●
●●
●
●
●
●
● ●
●●●
●●●● ● ● ●● ●
● ●
●●●●●
CL
●●
●
●
●
●● ●● ●●
● ●●
●●
●● ●
●●
●
● ●
●
●●
●●●
●
●●●
●
●●●
●
●●
●●
● ● ●
●
●
●● ●
● ●
●●
●
●
●●
●●
●
● ●
●●
●
●
●
●
●●
●
●
●●
● ●
● ●
●
●●●
●
●
●●●
● ●
● ●
●●
●
●● ●●
● ●●● ●●●● ● ●●●
●●●
●●
●●●
●
●
●
●
●
●●● ●
●
●
●
●●●
●
●
●●●●●● ●
●●
●
●
●
●
●
●● ●●●
●●●●
●●
●
●
●●
●●
●●●
●●
●
●
●●●● ●●
● ●
●
●
● ●
●●●
●● ●●
●●
●
●●
● ●
●●
●
●●
●●
●●●
●●●
● ●● ● ●●
●● ●
● ●● ●
●● ●
●●
●
●
●
●● ●
● ●●●●
●● ●
●● ●●●
●
● ●
●
●
●●
●●●●
●
●
●●
●
●●●
● ●●●● ●
● ●
●●●●
●
● ● ●
●
●●●●●
●●
●●●● ●
● ●●●
●● ●●● ●●●
●●●●
● ●
●●●●●
●●
●
●
●
●
●●● ●
●●
● ●
●●● ●●
●
●● ●● ●● ●●
● ● ● ●
● ● ● ●
●
● ● ● ● ●
●● ●●●
● ●●●
●● ● ●
●●
● ●●●●
●
● ●● ●
●
●●
●●●
●
● ● ●● ● ●
●●●●
● ● ●
● ●● ●●● ●●
●
●●
●
● ● ●
●● ●●●●
●● ●●●●● ● ●●●
● ●
● ●● ● ●●
●●
●
●
●
●●
●●
● ●● ●
●●
●
●● ● ●●
●●
●●● ●●●●●
●
● ●
●●
●●
●
●●
●● ●●●●●●●
●●●
●●
●● ●
●● ●●
●
●●●● ●●●●● ● ●● ●●
●
●●
●
●●
●●
●● ●
● ●●
●●●
●
●
●●
●●● ●
●● ●●
40
● ●●●
● ●
●●● ●●
●
●●
● ●
●● ●
●
●
●
●
●
●
●
●
●●●
● ●
●
●●●
●●
●
● ●● ●
●
●
●●
●
● ●●●
● ●
●●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●● ●●
●
●●●●
●●
●
●●
●
●
●
●
● ●●●
●●●
●
CW
●●
●
●● ●●
●
● ●
●● ●● ●
●
●
●
●●
●● ●
●
●●
●
●●
●● ●
●●
●●● ●●●
●
●
●● ● ●● ● ●●
●● ●●
● ●
●●
●●●●●●●
●
●●
●●●● ●●
●●●●
●● ●●
●●
●
●
●
●● ●●●●
●
●
●●
●
●●
●
●●●
●●
●
●
● ●
●●
●
●●
●
●●
●● ●
●●●
●
●
●
●
●
●●
●
●●●
●●●●● ●
●
●●
●
●●
●●●
●●
● ●
●●
●
●●●●●●
●●●
●
●
●●
●
●●
●●
●●
●●
● ●●●
● ●●●
●
●
●●
●●
●●●
●● ●● ●
●●
●●
●●● ●
● ●
●●
●● ●●
●●
●●
●
●
●
●
●
●●● ●●●
●●
●
●●
●●
●●
●●●
● ●
●●
●
●●
●
●●●
● ●
●●●
●●
●●●
●
●●
● ● ●●● ●● ●
●● ●●
● ●●●
●
●●
●●●● ●
● ●●
●●
●
●
●
●
●
● ●
●
●
●●
●
●●●
● ●
● ●●●
●●
●
●●
●●
●●●●
●
●● ●●
●
●●●●●● ●●●
●●
●●
● ● ●●
●● ●●●
●● ● ● ●●
20
● ●● ●● ●
●● ●● ●● ●●
● ● ● ●
●
● ●
● ● ●
●● ●●
●●
● ● ● ● ● ●●●
10 15 20
●
●
●●●● ●●●
●
● ● ●
●
●
●● ● ●●●
●
● ●
●●●
● ●● ●●
●● ●●●●
● ●●
●
●
●● ● ●
● ●● ● ●
●●●● ●● ●●●●
●●●
●●
●
●
●●
●●
●●
●● ●
●●
●●● ●● ●
●●
●
● ●●
●● ●
●●
●
●
●
●●
●●● ●●●●●
●
●●●●●
●
●
●●
●●●● ●
●●
●●●●●●●● ●
● ●● ● ●
●●
●●
●●
●●●
●●●●
● ● ●●
●●
● ●● ● ● ●
●
●
●●
● ●●
●●●
●
●●●
●
● ●
●●● ●
●
●
●●
●
●●●
●●
●
●
●
●
●●
●● ● ● ●●
●
●
●●
●
●
● ●
●
● ●
●
●●● ●●
●
●
●
●
●
●●
●
●●● ●●
●
●
●●
●
● ●●●
●●
BD
●●●●●
●
●●●
● ●●●●●
● ●●●●
●● ●●●●
●●●● ● ●● ●
●●●●●●●
●●
●● ●●● ●●●●● ●●
● ●
● ●
●
●
●●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●
● ●
●
● ●
●
●●
●
●
●●
●●● ●
●●
●●
●
●●
● ●●●●
●●
●●
●
●● ●
●●
●
●
●
●
●●
●●●●
● ●●●●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
● ●
●●
●●
●● ●●●●●●●●●●
● ●●●● ●
●
●●● ●
●●●●●
●
●
●
●●●●
●
●● ● ●●●●
●●●●● ●
● ●●
●●
●● ●●● ●●●
●● ●●●
●
●●
●
●●
●
● ●● ●
●●● ●● ●
●●●
●
● ● ●●
●●●●●
●●
●
●●
●
●●
●●
●● ●
●●●
●
●●
●●●
●●
● ● ●●●
●
●●●●
●● ●●
●●●
●
●●
●●
●●●
●●●
●● ●
● ●
●●●●●● ●●
● ●●
●●● ●●●●●●
●
●
●●●●
●● ●●●●● ●●●
● ●● ●●●●●●
●●●● ●
● ●● ●●●● ●●●
●●
●
● ●●● ●
● ●●
●●
● ●●
●● ●
●●● ●●● ●●● ●●
● ● ● ●
10 15 20 15 25 35 45 10 15 20
Figura 2.8: Gráfica de dispersión para la base crabs y que ilustra la relación
entre las diferentes medidas morfológicas para los cangrejos.
34 2. Estadı́stica descriptiva
FL 0.8
0.6
0.91 RW 0.4
0.2
0.98 0.89 CL 0
−0.2
−0.6
−1
Figura 2.9: Gráfica de correlación para las medidas morfológicas de los can-
grejos.
2.9. Anexo 35
>library(corplot)
>corrplot.mixed(cor(crabs[,4:8]),lower="number",upper="color")
2.9. Anexo
A continuación se dan las instrucciones para elaborar algunas de las gráficas
de este capı́tulo a través de la biblioteca ggplot2 de R.
En la siguiente liga se puede encontrar una guı́a rápida para visualización
de datos usando ggplot2.
https://rstudio.com/wp-content/uploads/2016/12/
ggplot2-cheatsheet-2.1-Spanish.pdf
>crabplot = ggplot(data=crabs)
# GRAFICA DE BARRAS
# fill se utiliza para que los ponga de distinto colores de
# acuerdo a sp scale_fill_discrete es para modificar
# las leyendas
>barplot = crabplot + geom_bar(aes(x=sp, fill=sp), alpha=0.4)
+ labs(x=" ", y="Frecuencia") +
scale_fill_brewer(labels=c("Blue","Orange"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=-1)
>barplot
#Las escalas de colores se pueden ver en
#RColorBrewer::display.brewer.all()
fill=as.factor(sp)), width=1)
>pieplot = pieplot + coord_polar(theta ="y") + labs(x="",y="")+
scale_fill_brewer(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=1) + theme_void()
>pieplot
# Alternativa: scale_fill_discrete(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"))
# theme_void() para quitar las coordenadas
#+ guides(fill=guide_legend("Respuesta")) se
#sustituyo por scale_fill_brewer
# HISTOGRAMA
#Frecuencia absoluta
>histogram_abs = crabplot + geom_histogram(aes(x=CW),
binwidth = 4.755) + labs(title="Ancho del caparazón",
2.9. Anexo 37
y="Frecuencia absoluta")
>histogram_abs
#Frecuencia relativa
>histogram_rel = crabplot +
geom_histogram(aes(x=CW, y=..density..),bins=30) +
labs(title="Ancho del caparazón", y="Frecuencia relativa")
>histogram_rel
#Para que aparezcan juntas (ver nota al final de este anexo)
>ggplot2.multiplot(histogram_abs, histogram_rel, cols=2)
# BOXPLOT
>boxplot_cangrejos = crabplot +
geom_boxplot(aes(x="", y=CW),fill="blue", alpha=0.3) +
labs(x="Cangrejos", y="Ancho del caparazón") +
scale_fill_brewer(type = "seq", palette="Set1", direction=-1)
>boxplot_cangrejos
# Especie
>boxplot_especie = crabplot +
geom_boxplot(aes(x=as.factor(sp), y=CW, fill=as.factor(sp)),
alpha=0.3) + labs(x="Especie", y="Ancho del caparazón") +
scale_fill_brewer(labels=c("Blue", "Orange"),
guide=guide_legend("Especie"), type = "seq",
palette="Set1", direction=-1)
>boxplot_especie
#Sexo
>boxplot_sexo = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
labs(x="Sexo", y="Ancho de caparazón")+
scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_sexo
>ggplot2.multiplot(boxplot_especie,boxplot_sexo, cols=2)
#Sexo/Especie
>boxplot_espsex = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
38 2. Estadı́stica descriptiva
facet_grid(.~as.factor(sp))
+ labs(x="", y="Ancho del caparazón")
+ scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_espsex
# guides(fill=guide_legend("Sexo"))
2.10. Ejercicio
Realice un análisis exploratorio para las variables de la base Cars93, incluida
en la biblioteca MASS de R. La base considera autos seleccionados aleato-
riamente de entre los autos de pasajeros disponibles en el mercado en 19932 ,
listados por el Consumer Reports issue y el PACE Buying Guide.
2 Lock, R. H. (1993). 1993 New Car Data. Journal of Statistics Education (1).
Capı́tulo 3
Estadı́sticas y
distribuciones muestrales
3.1. Introducción
De acuerdo a la definición 1.2, una muestra aleatoria representa un con-
junto de variables aleatorias X1 , . . . , Xn , las cuales son independientes e
idénticamente distribuidas. En este capı́tulo se estudiarán las propiedades
de funciones de la muestra aleatoria que serán fundamentales en el proceso
de inferencia.
39
40 3. Estadı́sticas y distribuciones muestrales
σ2
E(X̄) = µ y Var(X̄) = .
n
Demostración.
Pn n
i=1 Xi 1X 1
E(X̄) = E = E(Xi ) = · nµ = µ.
n n i=1 n
3.1. Introducción 41
Ahora,
Pn n
nσ 2 σ2
i=1 Xi 1 X
Var(X̄) = Var = 2
Var(Xi ) = 2 = .
n n i=1 n n
n
X n
X
(Xi − µ)2 = (Xi − X̄ + X̄ − µ)2
i=1 i=1
n
X
(Xi − X̄)2 + 2(Xi − X̄)(X̄ − µ) + (X̄ − µ)2
=
i=1
n
X n
X
= (Xi − X̄)2 + 2(X̄ − µ) (Xi − X̄) + n(X̄ − µ)2
i=1 i=1
n
X
= (Xi − X̄)2 + n(X̄ − µ)2 .
i=1
E(S 2 ) = σ 2 .
42 3. Estadı́sticas y distribuciones muestrales
Demostración.
" n #
2 1 X
2
E(S ) = E (Xi − X̄)
n−1 i=1
" n #
1 X
2 2
= E (Xi − µ) − n(X̄ − µ)
n−1 i=1
( n )
1 X
2
2
= E (Xi − µ) − nE (X̄ − µ)
n − 1 i=1
" n #
1 X
= Var(Xi ) − n · Var(X̄)
n − 1 i=1
nσ 2
1 2
= nσ −
n−1 n
= σ2 .
Resultados x1 , x2 , x3 Distribución x̄ s2
s,s,s 1,1,1 θ3 1 0
2
s,s,a 1,1,0 θ (1 − θ) 2/3 1/3
s,a,s 1,0,1 θ2 (1 − θ) 2/3 1/3
a,s,s 0,1,1 θ2 (1 − θ) 2/3 1/3
a,a,s 0,0,1 θ(1 − θ)2 1/3 1/3
a,s,a 0,1,0 θ(1 − θ)2 1/3 1/3
s,a,a 1,0,0 θ(1 − θ)2 1/3 1/3
a,a,a 0,0,0 (1 − θ)3 0 0
3.1. Introducción 43
X̄ ∼ N (µ, σ 2 /n).
Ası́,
Pn n
!
Xi Y t
tX̄ t· i=1 X
mX̄ (t) =E(e )=E e n =E en i
i=1
n
Y t
= E e n Xi pues X1 , . . . , Xn son independientes
i=1
Yn
= mXi (t/n)
i=1
3.2. Distribución de las estadı́sticas 45
n
Y t 1 t2 2
= e n µ+ 2 · n2 σ pues X1 , . . . , Xn son idénticamente distribuidas
i=1
1 2 σ2
=etµ+ 2 t n ,
1 2 σ2
∴ mX̄ (t) = etµ+ 2 t n ,
2
de donde se concluye que X̄ ∼ N µ, σn .
λr r−1 −λx
f (x; r, λ) = x e , x > 0,
Γ(r)
R∞
donde Γ(r) = 0
xr−1 e−x dx es conocida como la función Gama, la cual
satisface:
E(X) = λr ,
r
V ar(X) = λ2 ,
r
λ
mX (t) = λ−t .
46 3. Estadı́sticas y distribuciones muestrales
1 k/2
k 1
f (x; k) = 2
k
x 2 −1 e− 2 x , x > 0.
Γ 2
k/2
E(X) = 1/2 = k,
k/2
Var(X) = 1/4 = 2k,
1/2 k 1
mx (t) = ( 1/2−t ) 2 = ( 1−2t )k/2 .
1. Zi2 ∼ χ2(1) .
n
Zi2 ∼ χ2(n) .
P
2.
i=1
Demostración.
Z ∞
tZi2
2 1 2
mZi2 (t) = E e = etzi √ e−zi /2 dzi
−∞ 2π
Z ∞
1 − 1 zi2 (1−2t)
= √ e 2 dzi
−∞ 2π
r Z ∞
1 1 1 2
= q e− 2 zi (1−2t) dzi
1 − 2t −∞ 2π( 1 )
1−2t
r Z ∞
1 1 1 1 2
= q e− 2 · 1/(1−2t) zi dzi
1 − 2t −∞ 2π( 1 )
1−2t
| {z }
1
1/2
1
= ,
1 − 2t
la cual corresponde a la función generadora de momentos de una dis-
tribución χ2(1) .
2. Para la segunda parte se utilizará el hecho de que la suma de variables
aleatorias independientes con distribución Gama tiene también distri-
bución Gama con parámetro de forma igual a la suma de los parámetros
de forma de las variables que componen la suma, cuando el parámetro
de escala es el mismo para todas las variables aleatorias; además de
que la distribución Ji-cuadrada es un caso particular de la distribu-
ción Gama. OP bien, calculando directamente la función generadora de
n
momentos de i=1 Zi2 :
n n 1/2 n/2
Y Y 1 1
mPn Zi2 (t) = mZi2 (t) = = .
i=1
i=1 i=1
1 − 2t 1 − 2t
2σ 4
4. E(S 2 ) = σ 2 y Var(S 2 ) = n−1 .
Demostración.
X1 = Y1 − Y2 − Y3 − · · · − Yn ,
X2 = Y1 + Y2 ,
X3 = Y1 + Y3 ,
.. ..
. .
Xn = Y1 + Yn .
∂Xi
El Jacobiano de esta transformación es igual a n, pues la matriz ∂Yj
tiene la forma:
1 −1 −1 −1 ··· −1
1 1 0 0 ··· 0
1 0 1 0 ··· 0
,
1 0 0 1 ··· 0
.. .. .. .. .. ..
. . . . . .
1 0 0 0 ··· 1
n
X 2 2
= (xi − x̄) + n (x̄ − µ) ,
i=1
3. Observe que Pn
(n − 1)S 2 i=1 (Xi − X̄)2
=
σ2 σ2
se tiene que
Pn Pn
i=1 (Xi − µ)2 i=1 (Xi − X̄)2 n(X̄ − µ)2
= + (3.2)
σ2 σ2 σ2
n
(Xi −µ)2
P
Pn 2 2
Pero note que i=1
σ2 = i=1 Xiσ−µ ∼ χ2(n) y también n(X̄−µ) σ2 =
2
X̄−µ
√
σ/ n
∼ χ2(1) ; y como X̄ es independiente de X1 − X̄, . . . , Xn − X̄,
entonces Pn 2
i=1 (Xi − X̄)
2
∼ χ2(n−1) ,
σ
debido a que bajo el supuesto de independencia y por (3.2), la función
P n 2
i=1 (Xi −µ)
generadora de momentos de σ2 se puede escribir como el
52 3. Estadı́sticas y distribuciones muestrales
Pn 2
i=1 (Xi −X̄) n(X̄−µ)2
producto de las funciones generadoras de W = σ2 y σ2 ,
es decir:
−n/2 −1/2
(1 − 2t) = mW (t) × (1 − 2t) , t < 1/2
de donde,
−n/2+1/2 −(n−1)/2
mW (t) = (1 − 2t) = (1 − 2t) .
2
(n − 1)S
∴ ∼ χ2(n−1) .
σ2
4. Anteriormente se probó que E(S 2 ) = σ 2 , sin embargo conociendo ya
2
la distribución de (n−1)S
σ2 , se puede obtener de la siguiente manera,
además de deducir la varianza correspondiente.
2
Como (n−1)S
σ2 ∼ χ2(n−1) , entonces
(n − 1)S 2
(n − 1)
E S 2 = n − 1 ⇒ E S 2 = σ2 .
E 2
=n−1⇒ 2
σ σ
2
También, como (n−1)S
σ2 ∼ χ2(n−1) , se tiene que
(n − 1)S 2 (n − 1)2
Var 2
= 2(n − 1) ⇒ Var(S 2 ) = 2(n − 1)
σ σ4
2(n − 1)σ 4 2σ 4
⇒ Var(S 2 ) = 2
= .
(n − 1) n−1
2σ 4
∴ Var S 2 =
.
n−1
se tiene que:
m+n
( 12 ) 2 m m2 m Z ∞ m+n 1 m
fX (x) = x 2 −1 y 2 −1 e− 2 ( n x+1)y dy
Γ( m2 )Γ( n
2 ) n 0
1 m+n
(2) 2
m
m 2 m −1
Γ( m+n
2 )
= m n x2 m+n
Γ( 2 )Γ( 2 ) n 1 m
[ ( x + 1)] 2
2 n
m m−2
Γ( m+n
2 ) (mn) x
2 2
= · ,
Γ( m
2 )Γ( n
2)
m m+n
( n x + 1) 2
1
Pm+1 1
Pn+1 1
Pm+1
En este caso X̄ = m+1 i=1 Xi , Ȳ = n+1 j=1 Yj , Sx2 = m i=1 (Xi −
1
Pn+1
X̄) y Sy = n j=1 (Yj − Ȳ )2 .
2 2
3.2. Distribución de las estadı́sticas 57
Entonces,
mSx2 2
nSy2
∼ χ (m) y ∼ χ2(n) .
σx2 σy2
Por el teorema anterior, se concluye que:
Sx2 /σx2
∼ F (m, n).
Sy2 /σy2
Γ( k+1
2 ) 1 1
f (x; k) = √ , con k = 1, 2, . . .
Γ( k2 ) 2 k+1
kπ (1 + xk ) 2
Z
X=p y Y = U.
U/k
σ2 σ2
X ∼ N µX , y Y ∼ N µY , , (3.3)
m n
3.3. Estadı́sticas de orden 59
mientras que
2
(m − 1) SX (n − 1) SY2
∼ χ2(m−1) y ∼ χ2(n−1) (3.4)
σ2 σ2
De (3.3) se tiene que
σ2 σ2
X −Y ∼N µX − µY , + ,
m n
y por lo tanto,
X − Y − (µX − µY )
q ∼ N (0, 1) .
1
+ n1
σ2 m
De (3.4) y las propiedades de la distribución Ji-cuadrada se sabe que:
2
(m − 1) SX + (n − 1) SY2
∼ χ2(m+n−2) .
σ2
Ası́ que por el teorema 3.4 se concluye que
X−Y −(µX −µY )
q
σ2 ( m
1 1
+n ) X − Y − (µX − µY )
q 2 +(n−1)S 2
=q 2 +(n−1)S 2 ,
(m−1)SX (m−1)SX 1 1
σ 2 (m+n−2)
Y
(m+n−2)
Y
m + n
n
X n
∴ FYr (y) = [F (y)]j [1 − F (y)]n−j .
j=r
j
De donde:
fYn (y) = n[F (y)]n−1 f (y).
3.3. Estadı́sticas de orden 61
P[a < X ≤ b, c < Y ≤ d] = FX,Y (a, c) + FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c).
y
lı́m FX,Y (x, y) = FX (x)
y→∞
conduce a:
Por lo tanto,
De esta manera, FY1 ,Yn (y1 , yn ) = FYn (yn )−(F (yn )−F (y1 ))n . Y por (3.5)
se llega a que:
Para obtener fY1 ,Yn (y1 , yn ) se usará la propiedad que relaciona a las
funciones de densidad y de distribución para el caso de dos variables, a
saber,
∂2
FX,Y (x, y) = fX,Y (x, y) ,
∂y∂x
62 3. Estadı́sticas y distribuciones muestrales
ası́:
∂
FY ,Y (y1 , yn ) = n(F (yn ) − F (y1 ))n−1 f (y1 ),
∂y1 1 n
y
∂2
FY ,Y (y1 , yn ) = nf (y1 )(n − 1)(F (yn ) − F (y1 ))n−2 f (yn ).
∂yn ∂y1 1 n
De esta forma se concluye que:
fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn ). (3.8)
fR,T (r, t) = |J| fY1 Yn (y1−1 (r, t), yn−1 (r, t)).
fR,T (r, t) =
h r r in−2 r r
n(n − 1) F t + −F t− f t− f t+ . (3.9)
2 2 2 2
3.4. Estadı́sticas suficientes 63
Otra expresión relacionada con las estadı́sticas de orden que puede ser de
interés es la densidad conjunta de Y1 , . . . , Yn , suponiendo nuevamente que
estas variables corresponden a las estadı́sticas de orden de una muestra alea-
toria X1 , . . . , Xn . Ası́,
n
Y
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (xi ; θ) ,
i=1
S (X1 , X2 , . . . , Xn )
Resultados x1 , x2 , x3 Distribución x̄
s,s,s 1, 1, 1 θ3 1
2
s,s,a 1, 1, 0 θ (1 − θ) 2/3
s,a,s 1, 0, 1 θ2 (1 − θ) 2/3
a,s,s 0, 1, 1 θ2 (1 − θ) 2/3
a,a,s 0, 0, 1 θ(1 − θ)2 1/3
a,s,a 0, 1, 0 θ(1 − θ)2 1/3
s,a,a 1, 0, 0 θ(1 − θ)2 1/3
a,a,a 0, 0, 0 (1 − θ)3 0
Si se propone ahora otra estadı́stica definida como T (X1 , X2 , X3 ) =
X1 X2 + X3 , los posibles valores que puede tomar son (en el orden de la
tabla anterior): 2, 1, 0, 0, 1, 1, 1, 0.
Regresando a la discusión sobre la suficiencia, es claro que con
T (X1 , X2 , X3 ) = X1 X2 + X3
At = {(x1 , x2 , . . . , xn ) ∈ X : T (x1 , x2 , . . . , xn ) = t} .
Note que esta definición concuerda con la idea intuitiva discutida antes,
pues lo que dice es que, dado el conocimiento de S(X), la muestra aleatoria
no proporciona información adicional acerca de θ, es decir, toda la informa-
ción está contenida en S(X).
Usando la definición de estadı́stica suficiente, se analizará la suficiencia
de S(X) y T (X) del ejemplo descrito en los párrafos anteriores. Ası́,
P(X1 = 0, X2 = 0, X3 = 0, T = 0)
P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) =
P(T = 0)
(1 − θ)3
=
2θ(1 − θ)2 + (1 − θ)3
1−θ 1−θ
= = .
2θ + 1 − θ 1+θ
Es decir P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) depende de θ, por lo tanto,
la estadı́stica T no es suficiente. Esto puede verificarse para otros valores.
Por otro lado,
P(X1 = 0, X2 = 0, X3 = 0, S = 0)
P(X1 = 0, X2 = 0, X3 = 0|S(X) = 0) =
P(S = 0)
3
(1 − θ)
= = 1,
(1 − θ)3
que no depende de θ. En este último caso, debe verificarse para todos los
posibles valores y llegar a la conclusión de que esta probabilidad condicional
no depende de θ, para cualquier valor s (lo cual efectivamente ocurre).
El concepto de estadı́stica suficiente enfatiza el hecho de que cualquier
conocimiento adicional al valor de la estadı́stica, no da mayor información
acerca de θ. En el ejemplo, si S(X) = 23 , se puede decir que se obtuvieron
dos soles y un águila, pero no sólo eso: es posible concluir que cualquier
X = (X1 , . . . , Xn ) que satisfaga que S(X) = s, tiene la misma distribución
de probabilidad. Para verificarlo, suponga que sólo se tiene conocimiento
de que S(X) = s, pero no se conoce especı́ficamente el valor muestral que
generó este resultado (en el ejemplo hay tres posibles valores muestrales que
hacen que S(X) = 23 , a saber (0, 1, 1) , (1, 0, 1) y (1, 1, 0)). Conociendo la
densidad condicional P (X = x | S(X) = s) , donde
x ∈ As = {(x1 , x2 , . . . , xn ) ∈ X | S(x1 , x2 , . . . , xn ) = s} ,
P X 0 = x | S(X) = s = P (X = x | S(X) = s) .
3.4. Estadı́sticas suficientes 67
Ası́
P (X = x) = P (X = x, S(X) = s)
= P (X = x | S(X) = s) P (S(X) = s)
P X 0 = x | S(X) = s P (S(X) = s)
=
P X 0 = x, S(X) = s
=
P X0 = x ,
=
Pn
que no depende de θ, por lo que P i=1 Xi es una estadı́stica suficiente para
n
θ. Note que se usó el hechoPde que i=1 Xi tiene distribución Bin(n, θ), ası́
n
como la condición de que i=1 Xi = s.
Pn
e−nθ
Qθ n
i=1 Xi
n
Pn xi ! X
P [X1 = x1 , . . . , Xn = xn | i=1 Xi = s] = i=1
s ;y Xi = s
e−nθ (nθ) i=1
s!
e−nθ
Q n
θs
i=1 i !
x
= −nθ s
e (nθ)
s!
s!
= n ,
Y
s
n xi !
i=1
Pn
que no depende de θ; por lo tanto, i=1PXi es una estadı́stica suficiente para
n
θ. En este caso se usó el hecho de que i=1 Xi ∼ P oisson (nθ) .
Observe que en los ejemplos anteriores, a no ser que la suma de los enteros
x1 , x2 , . . . , xn sea igual a s, la probabilidad condicional es igual a cero.
n
−(xi − µ)2
Y
fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 = (2πσ 2 )−1/2 exp
i=1
2σ 2
Pn
− i=1 (xi − µ)2
= (2πσ 2 )−n/2 exp
2σ 2
Pn
− i=1 (xi − x̄ + x̄ − µ)2
= (2πσ 2 )−n/2 exp ,
2σ 2
al desarrollar el cuadrado en el exponente, esta expresión es equivalente a
" Pn Pn #
2 2
2 −n/2 − i=1 (xi − x̄) + 2(x̄ − µ) i=1 (xi − x̄) + n(x̄ − µ)
(2πσ ) exp ,
2σ 2
Pn
y como i=1 (xi − x̄) = 0, se tiene que
fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 =
" Pn #
2 2
2 −n/2 − i=1 (xi − x̄) + n(x̄ − µ)
(2πσ ) exp .
2σ 2
P (X1 = x1 , . . . , Xn = xn )
= P ( X1 = x1 , . . . , Xn = xn | S(X) = s) · P [S(X) = s] . (3.14)
donde
h(x1 , . . . , xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s)
3.4. Estadı́sticas suficientes 71
y
g(S(x); θ) = P [S(X) = s] .
⇐ Por demostrar que S(X) es suficiente, es decir, se debe probar que
P [ X1 = x1 , . . . , Xn = xn | S(X)]
donde:
As = {(x1 , x2 , . . . , xn ) ∈ X : S(x1 , x2 , . . . , xn ) = s}
y X representa el conjunto de todos los posibles valores de (X1 , . . . , Xn ) . Es
decir, As consta de todos aquellos (x1 , x2 , . . . , xn ) tales que S(x) = s (ver,
por ejemplo, (3.11) y (3.12)).
Por la hipótesis, P[X1 = x1 , . . . , Xn = xn ] se puede factorizar como el
producto g(S(x); θ)h(x), de tal manera que (3.15) se puede escribir como:
X X
P[S(X) = s] = g(S(x); θ)h(x) = g(s; θ) h(x)
As As
y
g(S(x); θ)h(x)
P [ X1 = x1 , . . . , Xn = xn | S(X) = s] = P
g(s; θ) As h(x)
g(s; θ)h(x)
= P
g(s; θ) As h(x)
h(x)
= P ,
As h(x)
P [ X1 = x1 , . . . , Xn = xn | S(X) = s]
v1 = S (x1 , x2 , . . . , xn ) ,
vi = ui (x1 , x2 , . . . , xn ) , para i = 2, . . . , n;
con funciones inversas
xi = wi (v1 , v2 , . . . , vn ) para i = 1, 2, . . . , n
kV1 (v1 ; θ)
Z ∞ Z ∞
= ··· kV1 ,...,Vn (v1 , . . . , vn ; θ) dv2 · · · dvn
−∞ −∞
Z ∞ Z ∞
= g (v1 ; θ) ··· |J| h (w1 (v1 , . . . , vn ) , . . . , wn (v1 , . . . , vn )) dv2 · · · dvn .
−∞ −∞
m (v1 )
Z ∞ Z ∞
= ··· |J| h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) dv2 · · · dvn ,
−∞ −∞
con lo que
kV1 (v1 ; θ) = g (v1 ; θ) m (v1 ) .
3.4. Estadı́sticas suficientes 73
kV1 (v1 ; θ)
g (v1 ; θ) = ,
m (v1 )
o
kV1 (S (x) ; θ)
g (S (x) ; θ) = ,
m [S (x)]
con lo que la factorización que se ha supuesto como hipótesis, se puede
reescribir como:
de donde:
n
Pn 1 Y (xi )
= e|−nθ θ{z i=1 X}i Qn I{0,1,... }
i=1 x i ! i=1
g(S(x);θ) | {z }
h(x1 ,...,xn )
Pn
∴ S(X) = i=1 Xi es una estadı́stica suficiente para θ.
74 3. Estadı́sticas y distribuciones muestrales
S (X1 , X2 , . . . , Xn ) = X1 X2 · · · Xn
y
1
h (x1 , x2 , . . . , xn ) = .
Πni=1 xi
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, el producto X1 X2 · · · Xn = Πni=1 Xi
es una estadı́stica suficiente para θ. Observe que si se hubiera querido usar
la definición para este ejercicio, era necesario obtener la densidad de la es-
tadı́stica dada por el producto S(X) = X1 X2 · · · Xn = Πni=1 Xi ; de ahı́ lo
valioso del teorema de factorización.
Observación 3.4 La muestra ordenada (Y1 , . . . , Yn ) siempre es una estadı́sti-
ca suficiente, pues en el esquema de muestreo aleatorio que se está conside-
rando, la función de densidad conjunta no depende del orden de las variables.
A pesar de que la muestra ordenada tiene la misma dimensión que la mues-
tra original, al ordenar se elimina la información irrelevante con relación a la
posición con la que se produce cada observación. Una forma de comprobarlo
es usando el teorema de factorización. La función de densidad conjunta de
X1 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
= n!f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) .
En el teorema de factorización, sean:
g (s (x1 , x2 , . . . , xn ) ; θ) = f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ)
y
h (x1 , x2 , . . . , xn ) = n!.
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, la muestra ordenada (Y1 , . . . , Yn )
es una estadı́stica suficiente.
Ejemplo 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Logı́stica(µ,σ):
e−(x−µ)/σ
f (x; µ, σ) = , − ∞ < x < ∞, −∞ < µ < ∞, σ > 0.
σ[1 + e−(x−µ)/σ ]2
La función de densidad conjunta de X1 , X2 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
n
Y e−(xi −µ)/σ
=
i=1
σ[1 + e−(xi −µ)/σ ]2
n
Y e−(yi −µ)/σ
= n! ,
i=1
σ[1 + e−(yi −µ)/σ ]2
76 3. Estadı́sticas y distribuciones muestrales
X ∼ exp (θ),
(x)
En este caso, a(θ) = θ, b(x) = I(0,∞) , c(θ) = −θ y d(x) = x.
3.4. Estadı́sticas suficientes 77
X ∼ Poisson (θ),
su función de densidad es
X ∼ Bernoulli (θ),
con
= (1 − θ) · I{0,1} · ex·ln( 1−θ ) ,
1−x (x) θ
f (x; θ) = θx (1 − θ)
X ∼ Geométrica(θ),
f (x; θ) = a(θ)b(x)ec(θ)d(x) ,
Pn
es decir, f (x; θ) pertenece a la familia exponencial. Entonces i=1 d(xi ) es
una estadı́stica suficiente.
78 3. Estadı́sticas y distribuciones muestrales
h Pn i n
Y
n
= a (θ) ec(θ) i=1 d(xi )
· b(xi )
| {z } i=1
g(S(X);θ)
| {z }
h(X1 ,...,Xn )
n
P
∴ S(X) = d(Xi ) es una estadı́stica suficiente para θ.
i=1
Considerando que
Pn Pn n
Y
xi n− xi
fX1 ,...,Xn (x1 , . . . , xn ; θ) = θ i=1 (1 − θ) i=1
I{0,1} (xi )
i=1
Pni=1 xi Yn
n θ
= (1 − θ) I{0,1} (xi ) ,
1−θ i=1
P[i=1
2]
n
xi Pn n
xi Y
n θ θ [
i= n +1
2 ]
= (1 − θ) I{0,1} (xi ) .
1−θ 1−θ i=1
A1 = {(0, 0, 0)} ,
A2 = {(0, 0, 1) , (0, 1, 0)} ,
A3 = {(1, 0, 0)} ,
A4 = {(1, 1, 0) , (1, 0, 1)} ,
A5 = {(0, 1, 1)} y
A6 = {(1, 1, 1)} ,
decir, S(X) induce una partición más fina que S 0 (X) o S 0 (X) induce una
partición menos fina que S(X)). En estos términos, si S 0 (X) es más resumida
que S(X), entonces S(X) genera una partición más fina que S 0 (X). En el
ejemplo, S2 (X) induce una partición más fina que S3 (X) .
En este contexto, la suficiencia minimal está asociada con la partición
menos fina que conserva la suficiencia.
Observación 3.5 Note que por la discusión previa, la definición 3.5 se pue-
de reescribir de una forma alternativa. Sean {As0 } los elementos de la parti-
ción asociados con S 0 (X) y {As } los elementos de la partición asociados con
S(X), se tiene que:
Definición 3.6 Sean S (X) y S 0 (X) dos estadı́sticas. Se dice que S 0 (X) es
función de S(X) si para cualesquiera x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en el espacio muestral X, que satisfacen que S (x) = S (x0 ) , se cumple que
S 0 (x) = S 0 (x0 ).
Definición 3.7 Para dos valores x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en Sopf , se dice que x y x0 son equivalentes en verosimilitud si existe
H (x, x0 ) > 0, tal que para todo θ ∈ Θ,
es decir,
L(θ | x) = H (x, x0 ) L(θ | x0 ).
Esta relación se denota como
v
x ∼ x0 .
Lema 3.1 Sea S (X) una estadı́stica suficiente y sean x y x0 dos valores en
v
Sopf . Si S (x) = S (x0 ) = s, entonces x ∼ x0 .
Teorema 3.6 Sea X1 , ..., Xn una muestra aleatoria de una población con
función de densidad f (x; θ) y sea S 0 (X) una estadı́stica suficiente para θ.
Suponga que para dos valores muestrales x = (x1 , ..., xn ) y x0 = (x01 , ..., x0n )
v
en Sopf que son equivalentes en verosimilitud, es decir x ∼ x0 , se tiene que
0 0 0 0
S (x) = S (x ) . Entonces S (X) es suficiente minimal.
y ver bajo qué condición (sobre las estadı́sticas involucradas) este cociente
no depende de θ. Si se cumple la hipótesis del teorema 3.6, es decir,
n− n
Qn Pn P
xi 1−xi i=1 xi
fX1 ,...,Xn (x; θ) i=1 θ (1 − θ) θ i=1 xi (1 − θ)
= 1−x0i
= n− n
P 0
fX1 ,...,Xn (x0 ; θ)
Qn x0i
Pn 0
i=1 xi
i=1 θ (1 − θ) θ i=1 xi (1 − θ)
1
Qn (xi )
fX1 ,...,Xn (x; θ) θn i=1 I(0,θ)
= Qn (x0i )
fX1 ,...,Xn (x0 ; θ) 1
θn i=1 I(0,θ)
n(y ) (θ)
I(0,θ) I(yn ,∞)
= (y 0 )
= (θ)
,
I(0,θ)
n
I(y0 ,∞)
n
f (x; θ) = a(θ)b(x)ec(θ)d(x)
Qn
b(xi ) Pn Pn
= Qi=1
n 0 exp {c(θ) [ i=1 d(xi ) − i=1 d(x0i )]} .
i=1 b(xi )
Pn Pn
Este cociente no depende de θ si sólo si i=1 d(xi ) = i=1 d(x0i ).
Pn
∴ i=1 d(Xi ) es suficiente minimal.
Pn
Es decir, si f (x; θ) pertenece a la familia exponencial, i=1 d(Xi ) es una
estadı́stica suficiente minimal.
3.5. Completez
El concepto de estadı́stica completa se utilizará en uno de los resultados más
importantes que servirán para encontrar estimadores insesgados de varianza
mı́nima.
3.5. Completez 85
P(g(T ) = 0) = 1, ∀θ ∈ Θ.
de donde
n t
n
X n θ
(1 − θ) g(t) = 0,
t=0
t 1−θ
ó
n t
X n θ
g(t) = 0,
t=0
t 1−θ
θ
el cual es un polinomio en 1−θ , que vale cero si cada uno de los coeficientes
t
θ
de 1−θ vale cero, es decir, si
n
g(t) = 0, para toda t = 0, 1, 2, . . . , n,
t
es completa, se hace
Z
E(g(T )) = g(t)fT (t)dt = 0.
tn−1 (t)
fT (t) = n I , t = yn .
θn (0,θ)
Ası́
Z θ
n n−1
E(g(T )) = g(t) t dt
0 θn
Z θ
n
= g(t)tn−1 dt = 0, ∀θ > 0,
θn 0
entonces Z θ
g(t)tn−1 dt = 0, ∀θ > 0.
0
Lo cual implica que
g(θ)θn−1 = 0 ∀θ > 0,
y por lo tanto, g(θ) = 0, ∀θ > 0, lo que lleva a concluir que la máxima
estadı́stica de orden es una estadı́stica completa.
se tiene que Z ∞
g (x) a (θ) b (x) eθx dx = 0,
−∞
o Z ∞
[g (x) b (x)] eθx dx = 0,
−∞
una transformada igual a cero es la función que vale cero c.s., es decir,
g (x) b (x) = 0 c.s., de donde se obtiene que g (x) = 0 c.s., considerando
b (x) 6= 0. Ası́ que f (x; θ) es completa.
con
a(θ) = θ,
b(x) = I{0,1,...} (x),
c(θ) = ln(1 − θ),
d(x) = x.
n
P
De donde, puede concluirse que S (X) = Xi es una estadı́stica suficiente
i=1i
(minimal) y completa.
88 3. Estadı́sticas y distribuciones muestrales
fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn )
(
n(n − 1)(yn − y1 )n−2 si θ < y1 < yn < θ + 1,
=
0 en otro caso.
3.8. Ejercicios
siendo θ un parámetro
Pn mayor que cero. Determine la distribución de
la estadı́stica T = i=1 ln (1 + Xi ).
2 −x2 /θ
f (x; θ) = xe , I(0,∞) (x),
θ
con θ > 0.
Pn
(a) Obtenga la distribución de T = i=1 Xi2 .
(b) Obtenga E(T ) y Var(T ).
(c) Demuestre que T es una estadı́stica suficiente para θ.
√
9. Sea X una variable aleatoria con distribución χ2(1) . Defina Z1 = +
X
√
y Z2 = − X. Obtenga las distribuciones de Z1 y Z2 .
10. Sea X una variable aleatoria con distibución F (m, n). Demuestre que
1
(a) Z = X ∼ F (n, m).
mX/n
(b) Z = 1+mX/n ∼ Beta(m/2, n/2).
11. Sea X una variable aleatoria con distibución t(k) . Demuestre que
(a) T = X̄ + Z̄.
p
(b) T = (Z1 + Z2 )/ [(X2 − X1 )2 + (Z2 − Z1 )2 ]/2.
(c) T = (X1 − X2 )2 + (Z1 − Z2 )2 + (Z1 + Z2 )2 /2.
(d) T = (X2 + X1 − 2)2 /(X2 − X1 )2 .
2U +V
Determine la distribución de 2σ 2 .
Obtenga lo siguiente:
(a) P (3 ≤ Y4 ).
(b) E (Y1 ).
(c) La función de densidad conjunta de Y1 y Y4 .
24. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribu-
ción Exponencial de parámetro θ = 1, es decir Xi ∼ exp(1). Y sean
Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre que
nYn y n(Y2 − Y1 ) son independientes.
3.8. Ejercicios 99
1
f (x; θ) = , -∞ < x < ∞, − ∞ < θ < ∞.
2
π 1 + (x − θ)
con µ ∈ R y σ ∈ R+ .
Pn
(a) Demuestre que S(X) = Y1 , n1 i=1 (Xi − Y1 ) es una estadı́stica
te y completa.
45. Sea X una variable aleatoria con distribución Uniforme U (−θ, θ).
49. Sea T una estadı́stica auxiliar para θ con función de densidad fT (t).
Sea g(·) una función diferenciable uno-a-uno que no depende de θ.
Demuestre que T ∗ = g(T ) también es una estadı́stica auxiliar para θ.
50. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µ, σ 2 ), donde σ 2 es conocido.
(a) Demuestre que S(X) = X es una estadı́stica suficiente y completa
para µ, y que T (X) = S 2 es una estadı́stica auxiliar.
(b) Demuestre que X y S 2 son estadı́sticas independientes.
Capı́tulo 4
Estimación puntual
4.1. Introducción
Suponga que se dispone de una población en la que se estudia una variable
aleatoria X con distribución conocida y parámetro (o parámetros) descono-
cido(s) y se tiene interés en disminuir el grado de desconocimiento de θ en
f (x; θ) . De la población se extrae una muestra aleatoria simple de tamaño n:
X1 , X2 , ..., Xn y se trata de calcular, a partir de los valores muestrales, una
función de los mismos que proporcione una estadı́stica θb = T (X1 , X2 , ..., Xn )
que le asigne un valor al parámetro desconocido de la población, de forma
que sean lo más cercanos en algún sentido. A θb se le llama estimador.
El objetivo de la estimación puntual es entonces encontrar un valor para
θ, denotado como θ, b que sea función de la muestra aleatoria y que permita
modelar o describir de manera adecuada el fenómeno aleatorio.
105
106 4. Estimación puntual
Figura 4.1: Karl Pearson con Francis Galton. Ambos fundaron la revista
Biometrika en 1901. Imagen tomada de commons.wikipedia.org (public do-
main).
Sin duda que el trabajo de Fisher es la piedra angular sobre la que se sus-
tenta la estadı́stica como ciencia. Egon Pearson (1974), hijo de Karl Pearson,
habla de las diferencias conceptuales entre su padre y Fisher3 : Galton y K.
Pearson trabajaron con muestras grandes por su interés en la reproducción
libre de las especies en su medio natural, esto ocurre con humanos, animales
y plantas. Por su parte, Fisher trabajó con muestras pequeñas relaciona-
das con datos experimentales, por lo que era necesario analizar con cuidado
las bases de la inferencia estadı́stica para una adecuada interpretación. Fis-
her estudió resultados exactos en muestras pequeñas, pero también obtuvo
propiedades asintónticas óptimas de los estimadores máximo verosı́miles.
µ = M 1 , µ 2 = M2 , . . . , µ k = Mk
|1 {z }
k ecuaciones con k incógnitas
La solución a este sistema θ̂ = (θˆ1 , . . . , θˆk ) se conoce como el estimador
por el método de momentos.
E(X) = θ,
entonces Pn
i=1 Xi
θ̂ = .
n
Ejemplo 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución exp(θ). Como
1
E(X) = ,
θ
entonces
1
X̄ = .
θ
Por lo tanto,
θ̂ = 1/X̄.
E(X) = µ y V ar(X) = σ 2 ,
entonces
E(X 2 ) = µ2 + σ 2 .
Por lo tanto,
n
1X 2
X̄ = µ̂ y X̄ 2 + σ̂ 2 = X .
n i=1 i
110 4. Estimación puntual
Es decir,
n
2 1X 2
σ̂ = X − X̄ 2 .
n i=1 i
Pero note que
n
X n
X
(Xi − X̄)2 = (Xi2 − 2X̄Xi + X̄ 2 )
i=1 i=1
n
X n
X
= Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1
n
X n
X
= Xi2 2
− 2nX̄ + nX̄ = 2
Xi2 − nX̄ 2 .
i=1 i=1
n n
1X 1X 2
∴ (Xi − X̄)2 = X − X̄ 2 .
n i=1 n i=1 i
1, 1, 1, 2, 2, 3, 5, 7, 8, 10.
y resolviendo para r :
rb = 1.6327.
Sustituyendo este valor en (4.1) y despejando λ, se obtiene:
b = 1.6327 = 0.408 2.
λ
4
El rango del estimador no necesariamente coincide con el espacio del
parámetro a estimar. Considere en el siguiente ejemplo una distribución Bi-
nomial con k y p desconocidos.
Ejemplo 4.6 Suponga que X ∼Binomial(k, p). Una posible aplicación con
esta distribución es que se busque estimar las tasas de ocurrencia de un
crimen, conociendo que existe un número importante de casos que no se de-
nuncian o reportan, es decir, no se sabe cuál es exactamente el valor de k.
Utilizando el método de momentos, se consideran los dos primeros momen-
tos poblacionales de la distribución binomial, ası́ como los correspondientes
momentos muestrales:
X¯n = kp (4.2)
y
n
1X 2
X = kp(1 − p) + k 2 p2 . (4.3)
n i=1 i
De (4.2) se obtiene
X¯n
p̂ = , (4.4)
k
112 4. Estimación puntual
y como
n n
1X 2 1X 2 2
Xi − X¯n = X + X¯n ,
n i=1 n i=1 i
(4.5) es equivalente a
n
1X X¯n
(Xi − X¯n )2 = X¯n (1 − )
n i=1 k
2
¯ X¯n
= Xn − ,
k
ası́ que despejando el valor de k, se obtiene
2 n
X¯n 1X
= X¯n − (Xi − X¯n )2 ,
k n i=1
k 1
= Pn ,
¯
Xn
2
X¯n − 1
n i=1 (Xi − X¯n )2
2
X¯n
k̂ = n .
X¯n − 1
− X¯n )2
P
n i=1 (Xi
X¯n
p̂ = .
k
b
X ∼ Bin(n = 3, θ).
Valor de θ P (X = 0) P (X = 1) P (X = 2) P (X = 3)
θ = 1/4 27/64 27/64 9/64 1/64
θ = 3/4 1/64 9/64 27/64 27/64
1
Cuadro 4.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ = 4 y
θ = 43 .
(x1 = 0, x2 = 0, x3 = 0) ,
Método general
Sea f (x; θ1 , θ2 , . . . , θk ) una función de densidad con k parámetros. Si (θˆ1 , ...θˆk )
satisface el sistema
∂L(θ1 , θ2 , ..., θk )
= 0 i = 1, 2, ..., k;
∂θi
entonces (θˆ1 , ..., θˆk ) es el estimador máximo verosı́mil de θ.
Note que
∂ 1 ∂
ln(L(θ1 , θ2 , . . . , θk )) = · L(θ1 , θ2 , . . . , θk ).
∂θi L(θ1 , θ2 , . . . , θk ) ∂θi
Por lo tanto,
∂ ∂
ln(L(θ1 , θ2 , . . . , θk )) = 0 ⇔ L(θ1 , θ2 , . . . , θk ) = 0.
∂θi ∂θi
Es decir, ln(L(θ1 , θ2 , . . . , θk )) alcanza su máximo en el mismo punto que
L(θ1 , θ2 , . . . , θk ).
En virtud de la observación anterior se define la log-verosimilitud de
f (x; θ1 , θ2 , . . . , θk ) como
l (θ1 , θ2 , . . . , θk ) = ln(L(θ1 , θ2 , . . . , θk )).
Frecuentemente, por practicidad, se calcula el máximo de l (θ) en vez del
de L(θ).
4.2. Métodos de estimación 115
Entonces,
Pn Pn
l (θ) = ln(L(θ)) = ln θ i=1 xi (1 − θ)n− i=1 xi
n n
!
X X
= ln(θ) xi + ln(1 − θ) n − xi .
i=1 i=1
Luego, Pn Pn
∂ i=1 xi n − i=1 xi
l (θ) = − .
∂θ θ 1−θ
Por lo tanto,
Pn Pn
∂ i=1 xi n− i=1 xi 1 n 1 1
l (θ) = 0 ⇔ = ⇔ − 1 = Pn −1⇔ = ,
∂θ θb 1 − θb θb i=1 xi θb x̄
de donde se concluye que
θb = X.
Ahora se verificará que es un máximo
Pn Pn Pn Pn !
∂ 2 l(θ) i=1 xi n − i=1 xi i=1 xi n− i=1 xi
| b= − − =− + < 0.
∂θ2 θ θb2 b2
(1 − θ) θb2 (1 b2
− θ)
Entonces,
n
!
Pn Y
l (θ) = ln(L(θ)) = ln θn e−θ i=1 xi
I(0,∞) (xi )
i=1
n
X n
X
= n ln(θ) − θ xi + ln(I(0,∞) (xi )).
i=1 i=1
116 4. Estimación puntual
Luego,
n
∂ n X
l (θ) = − xi .
∂θ θ i=1
Por lo tanto,
n Pn
∂ n X 1 i=1 xi 1
l (θ) = 0 ⇔ = xi ⇔ = ⇔ = x̄,
∂θ θ
b
i=1 θb n θb
y ası́
1
θb = .
X̄
Ahora se verificará que es un máximo
∂ 2 l(θ) n
| b= − < 0.
∂θ2 θ θb2
1
∴ El estimador máximo verosı́mil de θ es θ̂M V = .
X̄
Ejemplo 4.9 [Distribución P oisson(θ)]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución P oisson(θ). Obtener el estimador
máximo verosı́mil de θ.
n n n n
e−θ θxi I{0,1,2,...} (xi )
P
Y Y xi Y
−nθ
L(θ) = f (xi , θ) = I{0,1,2,...} (xi ) = e θ i=1 .
i=1 i=1
xi ! i=1
xi !
Entonces,
n
!
−nθ
Pn Y I{0,1,2,...} (xi )
l (θ) = ln(L(θ)) = ln e θ i=1 xi
i=1
xi !
n n
X X I{0,1,2,...} (xi )
= −nθ + ln(θ) xi + ln .
i=1 i=1
xi !
Luego, Pn
∂ i=1 xi
l (θ) = −n + .
∂θ θ
Por lo tanto,
Pn Pn
∂ i=1 xi i=1 xi
l (θ) = 0 ⇔ n = ⇔ θb = .
∂θ θb n
4.2. Métodos de estimación 117
De esta manera,
θb = X.
Ahora se verificará que es un máximo
Pn
∂ 2 l(θ) i=1 xi
| b= − < 0.
∂θ2 θ θb2
∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄.
i=1 2πσ 2
n2
1 1
Pn 2
= e− 2σ2 i=1 (xi −µ) .
2πσ 2
La log-verosimilitud está dada por
n
n 1 X 2
l µ, σ 2 = − ln 2πσ 2 − 2
(xi − µ) .
2 2σ i=1
y
n
n 1 X 2
− + (xi − µ
b) = 0,
σ2
2b σ 4 i=1
2b
de donde
µ
b=X (4.6)
118 4. Estimación puntual
y
Pn 2
2Xi − X i=1
σ
b = . (4.7)
n
Las segundas derivadas están dadas por
∂2l n
= − ,
∂µ2 σ2
Pn 2
∂2l n (xi − µ)
i=1
2 = − ,
∂ (σ 2 ) 2σ 4 σ6
Pn
∂2l ∂2l i=1 (xi − µ)
= = − .
∂µ∂σ 2 ∂σ 2 ∂µ σ4
Sea
∂2l ∂2l
!
∂µ2 ∂σ 2 ∂µ
H= ∂2l ∂2l
∂µ∂σ 2 ∂(σ 2 )2
la matriz de segundas derivadas. Observe que
∂ 2 l
n
= − < 0, (4.8)
∂µ2 (bµ,bσ2 ) σ 2 σb2
mientras que
Pn !
i=1 (xi −x)
− bn2
P σ
− Pnσb4
det H|(bµ,bσ2 ) = det n 2
i=1 (xi −x) n i=1 (xi −x)
− b4
σ σ4
2b − b6
σ
!
− σbn2 0
= det n
Pn
i=1 (xi −x)
2
0 σ4 −
2b b6
σ
2 n 2
n2
P
n − x)i=1 (xi
= − 6
+
2b
σ σ8
nb
n2 n2 σ
b2
= − 6+ 8
2b
σ σ
b
n2 n2 n2
= − 6+ 6 = > 0. (4.9)
2b
σ σ
b σ6
2b
Por (4.8)
y (4.9), se ve que H es definida negativa y por lo tanto, el óptimo
µ b2 es un máximo, concluyéndose que (4.6) y (4.7) son los estimadores
b, σ
máximo verosı́miles de µ y σ 2 .
Ejemplo 4.11 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución Uniforme en el intervalo [θ− 12 , θ+ 12 ],
es decir,
f (x; θ) = I[θ− 12 ,θ+ 21 ] (x).
4.2. Métodos de estimación 119
L(θ)
Yn θ
Figura 4.3: Gráfica de la función de verosimilitud para una muestra de ta-
maño n de la distribución Uniforme continua en el intervalo [0, θ].
θb = Yn = máx {X1 , . . . , Xn } .
= sup L(θ)
θ
= L(θ̂),
= L∗ (τ (θ̂)),
τd
(µ) = τ (µ̂) = sen(µ̂) = sen(X̄).
n
Y
L(θ) = L(α, λ) = f (xi ; α, λ)
i=1
n
Y λα α−1 −λxi
= x e
i=1
Γ(α) i
α n n
λ Pn Y
= e−λ i=1 xi xiα−1 .
Γ(α) i=1
Para encontrar los estimadores que maximizan esta función, se debe en-
contrar el punto crı́tico, lo que implica resolver el sistema de ecuaciones:
X n
∂ d
l(α, λ) = n ln λ − ln Γ(α) + ln xi = 0,
∂α dα i=1
n
∂ α X
l(α, λ) = n − xi = 0.
∂λ λ i=1
80
60
derivada
40
20
0
alpha
Qn Pn
donde T1 = i=1 xi y T2 = i=1 xi . Observe que la verosimilitud depende
de la muestra sólo a través de estas estadı́sticas suficientes T1 y T2 . Suponga
que se desea estimar el parámetro µ. Al otro parámetro que no es el que se
está estimando, en este caso s, se le suele llamar un parámetro de ruido.
Utilizando exclusivamente la verosimilitud para proponer un estimador
para el parámetro de interés µ y teniendo en cuenta la posibilidad de un
muestreo repetido, el estimador máximo verosı́mil para µ es el valor del
parámetro µb ∈ Θ que maximiza la función de verosimilitud; es decir, el valor
del parámetro para el cual la muestra observada es más probable.
Por construcción, el rango del estimador coincide con el espacio pa-
ramétrico, aunque hereda las dificultades de cualquier problema de opti-
mización, a saber:
el cual depende del valor del parámetro s. En general no es claro cómo tratar
el parámetro de ruido, pero desde el enfoque clásico de maximizar la función
de verosimilitud como se vio en la sección 4.2.2, simplemente se toma el valor
del estimador sb.
Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se
condiciona completamente en los datos observados y se concluye sobre la
población en estudio basándose en:
L(θ|x)π(θ)
π(θ|x) = R . (4.11)
L(θ|x)π(θ)dθ
Ejemplo 4.18 Los paquetes de los llamados dulces Smarties vienen con k
colores diferentes, los cuales se repiten con la misma frecuencia.
Suponga que no se conoce k y secuencialmente se examinan 3 dulces,
resultando un rojo, un verde y un rojo. La densidad para X = el segundo
dulce es de diferente color que el primero, pero el tercero es del mismo color
que el primero, está dada por:
f (x | k) = P (el segundo es de diferente color que el primero) ×
×P (el tercero es del mismo color que el primero)
k−1 1 k−1
= = .
k k k2
A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f (x|k) =
(k − 1)/k 2 . Si en lugar de 3 se examinan 4 y resulta que ese cuarto es de
color naranja (con los tres primeros rojo, verde, rojo), se tiene que
(k − 1) (k − 2)
f (x | k) = .
k3
Ahora suponga que se tiene información a priori o se cree que el número
1 3 3 3
de colores es 5,6,7 u 8, con probabilidades iniciales 10 , 10 , 10 y 10 , respecti-
vamente.
Para el caso de tres dulces, si k = 5, entonces
4
f (x|k) = (5 − 1)/52 = = 0.16,
25
4.2. Métodos de estimación 129
1
f (x|k)π (k) = (0.16) = 0.016
10
y
1
(0.16) 10
π (k | x) = 8 = 0.13.
P
f (x|k)π (k)
k=5
A continuación se resumen los valores de estas funciones para los distintos
valores de k y para ambos escenarios, es decir, cuando se tiene rojo, verde y
rojo (cuadro 4.2)
θt (1 − θ)n−t × 1
π(θ|x1 , . . . , xn ) = R 1
0
φt (1 − φ)n−t × 1dφ
π(θ|x) ∝ θt (1 − θ)n−t ,
de donde se puede ver que si se inserta una constante de proporcionalidad
apropiada, entonces se tiene una densidad Beta(t + 1, n − t + 1), que serı́a
la distribución a posteriori de θ dada x.
Ejemplo 4.22 Suponga que se examina una máquina que hace partes de
automóviles y se denota a θ como la proporción de marcas defectuosas. Un
dı́a se examinan 10 piezas denotadas por X1 , . . . , X10 , donde Xi = 1 indica
que la pieza i es defectuosa y Xi = 0 que no tiene defecto. Esto puede verse
como una muestra aleatoria con distribución Bernoulli de parámetro θ, cuya
función de densidad es fX (x; θ) = θx (1 − θ)1−x I{0,1} (x) para 0 ≤ θ ≤ 1, que
4.2. Métodos de estimación 131
indica que la probabilidad de que una parte sea defectuosa es θ. Ası́ que la
densidad conjunta de las 10 observaciones es
P10 P10 10
Y
xi
fX (x; θ) = θ i=1 (1 − θ)10− i=1 xi
I{0,1} (xi )
i=1
= L (θ | x) .
P10
donde y = i=1xi . Calculando la distribución marginal de la muestra, m(x),
Z Z
m(x) = fX (x; θ)π(θ)dθ = g(x, θ)dθ
Z
= 6θy+1 (1 − θ)10−y+1 dθ
Γ(y + 2)Γ(10 − y + 2)
= 6
Γ(10 + 2 + 2)
Γ(y + 2)Γ(12 − y)
= 6 .
Γ(14)
Ası́, la distribución a posteriori de θ dada la muestra x es
g(x, θ)
π(θ|x) =
m(x)
6θy+1 (1 − θ)10−y+1
=
6 Γ(y+2)Γ(12−y)
Γ(14)
Γ(14)
= θy+1 (1 − θ)11−y ,
Γ(y + 2)Γ(12 − y)
que es una distribución Beta(y + 2, 12 − y).
Un estimador para θ es la media de la distribución a posteriori (ver
Sección 4.3.3), la cual darı́a el estimador de Bayes de θ,
y+2
θ̂ = .
14
En el cuadro 4.4 se resumen los valores de los estimadores máximo verosı́mil
y de Bayes para distintos valores de la muestra.
Muestra y 0 1 2 3 4 5 6 7 8 9 10
θ̂ EMV 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ̂ Bayes 0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86
Y=0 Y=2
5
5
Prior Prior
4
4
Verosimilitud Verosimilitud
Densidad
Densidad
Posterior Posterior
3
3
2
2
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
θ θ
Y=5 Y=10
5
5
Prior Prior
4
4
Verosimilitud Verosimilitud
Densidad
Densidad
Posterior Posterior
3
3
2
2
1
1
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
θ θ
y
∞ ∞
−γλuγ−1 −λuγ
Z
γ−1 γ
γλu exp {−λu } du = e
x −γλuγ−1
x
γ
= e−λx .
Por lo tanto:
FX (x) = 1 − exp {−λxγ } ,
la cual tiene dos parámetros. Si xp es el valor de x tal que FX (xp ) = p,
entonces xp es el 100p-ésimo percentil de la distribución, que para este caso
darı́a las ecuaciones:
y
FX (x0.9 ) = 1 − exp {−λxγ0.9 } = 0.90,
de donde:
exp {−λxγ0.5 } = 0.50
y
exp {−λxγ0.9 } = 0.10,
que es equivalente a
y
λxγ0.9 = − ln (0.10) = 2.30259.
Es decir:
γ1
0.69315
x0.5 =
λ
y
γ1
2.30259
x0.9 = .
λ
136 4. Estimación puntual
ep = (1 − m) xl + mxl+1
x (4.15)
ln 1 − ln 0.75 lnBc
= 4.5 (4.18)
ln c
y
ln 1 − ln 0.35 lnBc
= 9.
ln c
138 4. Estimación puntual
ln 1 − ln 0.35 lnBc
=2
ln 1 − ln 0.75 lnBc
⇒ 2
ln c ln c
1 − ln 0.35 = 1 − ln 0.75
B B
⇒ 2
ln c ln c
ln 0.35 = 1 − 1 − ln 0.75
B B
⇒
2
ln 0.35z = 1 − 1 − 2z ln 0.75 + (ln 0.75) z 2 ,
ln c
donde z = B . Simplificando la última expresión se obtiene:
2
(ln 0.75) z 2 − z [2 ln 0.75 − ln 0.35] = 0,
o
0.83z 2 − (0.4744) z = 0,
de donde
0.4744
z= = 5.7163.
0.083
Es decir, lnBc = 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustitu-
yendo este último valor en (4.18), se tiene:
ln 1 − ln 0.75 5.7163B
B
= 4.5
5.7163B
y despejando B, se llega al resultado B
b = 0.03780. Finalmente, b
c = 1.2412.
estimadores para σ 2 .
Para revisar si son insesgados:
Note que
E(T1 (X)) = E(X̄) = µ.
Por lo tanto, T1 sı́ es insesgado.
También note que
E [T2 (X)] = E(S 2 ) = σ 2 .
Por lo tanto, T2 sı́ es insesgado.
Sin embargo,
n−1 2 n − 1 2 n − 1 2
E(T3 (x)) = E S = E S = σ .
n n n
Por lo tanto, T3 no es insesgado.
Para encontrar el error cuadrático medio de T1 , T2 y T3 :
Como T1 es insesgado, entonces
σ2
ECMT1 (µ, σ 2 ) = V ar(X̄) = .
n
Pero
(n − 1)2 2σ 4
n−1 2 2(n − 1) 4
V ar(T3 ) = V ar S = 2
= σ .
n n n−1 n2
Y
2
2 2 2 n−1 2
(sesgo) = (E(T3 ) − σ ) = σ − σ2
n
2
σ4
n−1−n
= σ4 = .
n n2
Por lo tanto,
2(n − 1) 4 σ 4 2n − 1 4
ECMT3 (µ, σ 2 ) = 2
σ + 2 = σ .
n n n2
T1 insesgado
2
●
●
● ●
● ●
● ●
●
● ●
● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ●
●● ● ● ●
●
1 ● ●
● ● ● ●● ●
● ●
● ● ● ●
● ● ● ● ●
● ●
● ●● ● ● ● ●
● ● ●
● ●
● ● ● ● ● ●
● ● ●● ●
● ● ● ● ●● ● ●
● ● ● ●● ●
● ● ● ● ● ● ● ●
●●
● ● ● ●
● ● ● ● ● ●●
● ● ● ● ●● ● ●
● ● ● ● ●
●●● ● ● ●●
●
● ● ● ● ● ● ● ●● ● ● ● ●
● ● ● ● ● ● ● ● ●●
● ● ● ● ● ● ●● ● ● ●
● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●
● ● ● ●● ● ● ●
µ
● ● ● ●● ● ●● ●
● ● ●● ● ● ●●● ●● ●●● ● ●● ●
●
Estimación
● ● ● ● ●● ● ● ●● ●
● ●● ●
● ● ● ● ●● ● ● ● ● ● ●
● ● ● ● ●
● ●● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●●●
● ● ● ● ● ● ●● ●● ●● ●
●● ●
●● ●
● ● ● ● ● ●
● ● ● ● ● ●●● ● ● ●
● ● ● ● ●
● ●● ● ●
● ● ●
● ●●●
● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ●● ● ●●●● ● ●● ●● ●●
● ● ● ● ● ● ●● ● ●
●● ● ●● ●● ●● ● ● ●● ●
●● ●
●● ●
● ●● ● ● ● ● ●
● ●●●● ●● ●● ● ● ● ●● ●
● ●●● ●● ● ● ●● ●
●● ● ● ●● ● ●●
● ●
● ●
● ● ●● ● ●● ●
● ●
● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●●
●●
0
● ● ● ● ● ● ● ● ●● ● ● ●
● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ● ●● ●● ● ● ●●
●
●● ● ● ●● ●
● ●● ● ● ●● ● ●● ● ●● ● ● ●●
● ● ●● ● ● ●●● ● ● ●● ●
● ●●● ● ● ● ● ●● ●
●●
●
● ● ● ● ●
● ● ●
● ●
● ● ●● ● ● ● ● ● ● ●
●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ●
● ● ● ● ● ●● ● ● ● ●
●● ●●
● ● ●●
●
●
● ● ● ● ● ● ● ●
● ● ● ● ●● ● ●
● ● ●● ● ● ●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●
●●
●● ● ● ● ● ● ●● ● ● ● ●●
●● ● ●● ●
●
● ●
● ● ●●
● ● ● ●● ●
●● ● ● ●
● ● ● ● ●● ● ● ●
● ● ●● ● ● ● ● ● ● ●● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
●● ● ● ● ● ● ●●
● ●● ● ● ● ● ● ● ● ●● ●
● ● ● ●● ● ●● ●
● ● ●● ● ●
● ● ● ● ● ●● ●
● ● ●● ● ● ●● ● ●
●● ● ●
● ● ●● ● ● ● ● ● ● ●
● ● ● ●● ● ●● ● ●● ● ● ●●●
● ● ● ●
● ●● ●● ●
●
● ● ● ● ● ● ● ● ● ●
●●
● ●● ● ●● ● ● ● ●● ● ●●
● ● ● ●
● ● ● ● ● ● ● ●● ● ● ● ●●
●
●
● ● ● ●
●
● ● ● ●
● ● ● ● ● ● ●● ● ● ●
● ● ●
−1
● ● ● ●
● ● ● ● ● ● ●● ● ● ●
●
● ● ● ● ●
● ● ●● ● ● ● ●
● ●
● ● ● ● ● ●
● ● ●●
● ●
● ●●
●
●
● ●● ●
●
●
●
●
Muestras
T2 insesgado T3 sesgado
8
●
6
● ● ●
Estimación
Estimación
● ● ●
● ●
● ●
●
●
● ●
●
4
● ● ● ●
● ● ● ●
● ●
● ●
●● ●
●
● ● ●
● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ●● ● ●
● ● ●● ● ● ●
● ● ● ●
● ● ● ●
●
● ● ●● ● ● ●
● ● ●
● ● ●●● ●
● ● ● ●●
● ●● ●●
● ● ●
● ● ● ●
● ●● ● ● ● ●● ●
● ●● ● ● ● ● ● ●● ●
● ● ●● ●
●
●● ● ●● ●● ● ●
● ● ● ● ●
●
●● ●● ● ● ● ● ● ● ● ● ● ●
●● ● ●
2
● ●● ●● ● ● ●●●● ● ●● ● ● ● ● ●
●● ●● ● ● ● ● ●●● ●
●
● ● ● ●● ●●
●
● ● ● ● ●● ● ● ● ●
● ● ● ● ● ●● ●
●●●
● ● ●●
● ● ● ● ● ● ●● ●
● ●● ● ● ● ● ● ● ●●● ● ● ●●
σ σ
●
● ●
●● ● ●● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ● ●●● ●●
● ●● ●● ●● ●● ● ● ● ●● ● ●● ● ● ●
●● ●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●
●● ● ● ●● ● ●
● ● ● ●● ● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ●● ● ●●●
● ● ● ●●
●
● ● ● ●● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ●● ●● ● ●●
● ●●●● ●● ●● ● ● ● ●●●● ● ● ●● ● ●
● ● ● ● ● ●●● ● ● ●●●
●● ● ● ● ●● ● ●●
●● ●
●
● ●● ● ●● ● ● ●● ● ● ●● ●
● ● ●●●● ●● ● ● ● ● ●● ●●● ●● ● ●● ●●● ● ●● ●● ●● ● ● ● ●
● ●● ● ●● ●● ●
● ●●●
● ● ●●
● ● ●●●●● ● ●●● ●● ●
● ● ● ● ●●● ● ●●● ● ●
●●●●● ●
● ● ●● ● ●
● ●
● ●● ● ● ● ●● ●● ●● ● ● ●●● ● ● ● ● ●● ●● ● ●● ●
● ●
● ●
●●
●●
● ●● ●●● ●
● ● ● ●
● ●●●● ● ●●●
● ●●●
● ●● ●● ● ● ●●
● ●●●● ●● ●●● ● ● ●●● ● ●● ●●●●● ●● ● ● ●● ●
● ●
● ● ●
● ●●
● ● ● ● ● ● ● ●
●● ● ●● ● ●● ●● ●● ●
●● ●● ● ● ● ●
●● ● ● ●●● ●●
●
● ●●
● ● ● ● ●●● ● ●
● ●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ●●● ●● ● ●●● ● ●
●
● ●● ● ● ●●● ●
●
●● ● ●●●●●●●●● ● ●● ●●● ● ● ● ● ● ●●●● ●●●● ● ●● ● ●
●● ●● ●● ● ●●●● ● ●●
●●●● ●●
●
● ● ●●●●
●●
●
●● ● ●● ● ●●●
●●● ● ● ● ● ●●●●●
● ●
●●● ●
●●
● ●● ● ●●● ●●
●●
●
● ● ● ●●●● ● ●● ●● ● ●●
●●●
● ● ●● ●
●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●
●● ● ●●
● ● ● ●
●●●● ● ●●● ●●
● ●●● ●●●
●●●● ●
●● ●●● ●
●● ●
● ● ●● ● ● ● ●●● ● ● ●● ●● ●
● ● ● ● ● ● ● ●●●
● ● ● ●● ●
●
● ●● ●● ● ●●●
● ● ●
●● ●
●●●● ● ● ● ●● ●● ● ●● ●● ●●●● ● ● ● ●● ●●●
●● ●
●●●●● ● ● ●● ● ●● ●
●●●● ●● ●●●●● ●●● ●● ● ●
● ●●
●●● ●● ● ● ●●● ●●●● ● ●●●● ● ●● ● ●
●●●
●● ●● ●●● ● ●●
●
●●
●●●●● ● ● ●●● ●●
●●●●● ●●●●
●● ●● ●● ●● ● ● ●● ●
●
● ● ●● ●●● ● ●
●● ●● ● ● ● ●●●●●● ●
● ●
●
● ● ●● ● ●●●
●●●● ●● ●● ●● ●●●●● ●● ●●●●●● ●●● ● ●● ●
●●●
● ● ●●● ●●●●●●●
● ●●●
●●●●●●●
● ●● ● ● ●
●●
●●●
●●
●● ● ● ●
●●●●● ● ● ● ●
●● ●● ●
●
● ● ●●● ● ● ●● ● ● ●●●
●●
● ● ● ●
●● ● ●
●● ●●● ●●● ● ●●●● ●● ●●● ●● ●● ●●● ●● ● ● ●● ●●● ●● ● ● ●●●●● ●● ●● ●● ●●● ●●●
●
●● ● ●● ●●● ● ●● ●
●● ●●● ● ●
●
● ●●● ● ●●●●
● ● ●
● ●●●●● ● ●●●●●●
●●●● ●
●●
●●●●● ●●● ●● ●● ●●
●● ●●● ●●●●● ● ●● ●●● ● ●●●● ●●●
●●●● ●●●●●●● ● ●●●●●●● ● ● ● ●●● ●●● ●●●●● ●●●●●
● ●●●●● ● ●●●
●
●● ●●●●●●
●● ●●●●
● ●
●●●●●
●
● ●●● ●● ●● ●
●●●●● ●● ●●
●
●●●●●● ● ●●●● ●●●
●●●● ● ●
●●●● ●●● ●● ●●●● ●● ●●● ●●● ●●● ●●●● ●●●
● ●● ●
● ● ●●
●●● ●● ●●●● ● ●
● ● ●● ●
●
●● ●
●
●
●●● ●● ●
●● ●● ●● ●●
●
●●● ●●●● ●●●●●
● ● ● ● ● ●●● ● ●● ●●● ● ● ●●
● ●●
● ●●
●● ●●●●
● ● ●● ●
●
● ●●
●
●
●●●● ●●● ●
● ●
●● ●●●
● ●●
●
●● ●●●●●●●●●●●●
● ● ● ●●●●●●●●● ●●●●●● ●●● ●●
● ●
●●●● ●● ● ●●●
● ● ●●●
●● ●●
● ● ● ● ●● ●●●●● ● ● ● ●
●● ● ●
● ● ● ● ●● ●● ● ●
● ●●● ●
● ● ●●
●●● ●●
●●● ●● ●●
●● ●
●●● ● ●●●● ●●● ●● ●●● ●● ●● ●
● ●●●●●● ●
●●
● ●●
0
Muestras Muestras
(x1 , y1 ), . . . , (xn , yn )
n n
∂S(a, b) X X
= −2 yi + 2 axi + 2nb = 0,
∂b i=1 i=1
y !
n n n n n n
X 1X X X 1X X
a
b x2i − xi xi = yi xi − yi xi .
i=1
n i=1 i=1 i=1
n i=1 i=1
4.3.2. Consistencia
La consistencia es otra propiedad deseable en un estimador y tiene que ver
con tamaños de muestra grandes, es decir, es una propiedad asintótica. Esen-
cialmente, un estimador es consistente, si para n (el tamaño de muestra)
grande, el error cometido al estimar τ (θ) con Tn (X) , es pequeño (tiende a
cero).
Definición 4.8 (consistencia en ECM). Sea T1 , T2 , ..., Tn una sucesión
de estimadores de τ (θ), donde Tn está basado en una muestra de tamaño
n. Esta sucesión de estimadores de τ (θ) es consistente en error cuadrático
medio (ECM) si:
lı́m E[(Tn (X) − τ (θ))2 ] = 0. (4.19)
n→∞
σ 2 n→∞
E[(X¯n − µ)2 ] = V ar(X¯n ) = −→ 0.
n
Por lo tanto X¯n es consistente para µ. También note que
2σ 4 n→∞
E[(Sn2 − σ 2 )2 ] = V ar(Sn2 ) = −→ 0.
n−1
Por lo tanto Sn2 es consistente para σ 2 .
El error cuadrático medio, ECM, es el criterio para medir la bondad de
un estimador. Una propiedad desable de un estimador es que proporcione,
para muestras grandes, un error (ECM) pequeño en la estimación, es decir,
que sea consistente.
2 E[(Tn − τ (θ))2 ]
P(|Tn − τ (θ)| ≥ ) = P([Tn − τ (θ)] ≥ 2 ) ≤
2
y la definición de consistencia en ECM.
Xbar consistente
0.6
●
0.4
●
●
●
µ
●
●
0.2
●
● ●●
Estimación
● ●●
●
● ● ● ● ●
●● ●
●● ●
● ● ● ● ● ● ●
●● ● ●
● ● ● ● ● ●
● ● ● ● ●●● ● ● ● ●
● ● ● ●● ● ●●● ● ● ●● ●● ● ● ● ● ●
● ● ●● ● ●● ● ● ●
●● ●● ● ●●●● ● ●● ● ● ●
● ●● ● ● ● ● ●● ● ● ● ●
●●● ●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●
● ● ●● ●● ● ● ● ●● ● ● ● ●
● ● ● ●●● ● ●● ● ●● ●●● ● ● ● ●● ● ● ●● ●● ●●●●
●● ●● ●● ●●
●
●
●●
● ● ●● ●● ●
●● ●
● ●● ● ● ● ● ●●● ● ● ●● ● ●● ● ●● ● ●●●● ● ●
● ●● ● ● ● ●●● ●●●●●● ●● ● ●
● ● ●●●●● ●●●●●●●● ● ●
●
0.0
● ●● ● ●● ●
● ●
● ● ●● ● ●
●
● ● ●
●
●● ●
● ●
●
−0.4
● ●
Tamaño de muestra
S2 consistente
2.0
●
●●
● ●
●
1.5
●
●
Estimación
● ●
●
● ●
σ
● ● ●●
●
● ● ●
●● ● ● ●
● ● ●
●● ● ● ●●
● ●
● ● ●● ● ● ● ● ●
● ● ●●● ● ● ●● ● ● ●
●● ● ●●● ● ● ●● ● ● ●● ●● ●● ●
● ●● ● ● ● ●● ●● ● ●
● ●
● ● ● ● ●
● ●●●●● ● ●●●● ●● ●
●● ●
● ● ●
● ● ● ● ● ● ●● ●●● ●
● ● ●
● ● ● ●● ● ● ● ●●
● ● ●● ● ● ● ●●● ●
● ●●● ●● ●● ●●● ●
●● ●
● ● ● ●●
● ● ●
● ●● ●● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ●●● ●●●● ●●●● ●●●●
● ● ●● ● ● ●
●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●●●● ● ● ●● ● ●● ● ●● ● ● ● ●●● ●
● ● ● ● ● ●● ●●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●● ●●● ● ●● ● ● ● ● ●● ●● ●
1.0
● ●
●● ● ●●●● ● ● ●●●● ●●● ●● ● ●●
●● ●● ● ●● ● ●●
● ●●●●●● ●●●
● ● ●●
● ● ● ●● ●● ● ●●● ● ●●●
●●
● ●
●● ●● ●●
●● ●● ● ● ● ● ●●●●● ●● ●●● ●●● ●
●
●●●●●
●●● ● ●● ●● ●
● ● ●● ● ●
●● ● ● ● ● ●● ●
●
● ●● ● ●
● ●● ● ●● ●
●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●
●●● ●● ● ● ●● ●
●●● ● ●● ●● ●
●● ● ●●● ● ● ●
● ●● ●● ●● ●●●●●●
●●●●●●●
●●●●●
● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●●●● ●●●●●
● ● ● ●
●● ● ●●● ●● ● ●●
● ● ●●●
● ●●
●●●● ●
● ●●● ● ● ●●●
●● ●● ● ● ●●● ● ● ●● ● ●
●
● ●●●● ●● ●● ● ● ● ●
●● ● ●●●●● ●● ● ●● ● ●●●● ● ●● ● ● ● ●●
● ● ●● ●
● ●
●
● ● ● ● ● ●●●● ●●
●
● ● ● ● ● ● ●●● ●●● ● ● ●● ● ●● ●● ●● ● ●●● ●●●● ● ●●● ● ●● ● ● ●●● ● ● ● ●●● ● ●
● ● ● ● ●● ●● ●
● ●●● ●●● ● ●●●●● ● ● ●● ● ●● ●● ● ●● ● ● ●
●
● ●●
● ●●●● ● ● ● ●●● ●● ●●● ●
●
● ●● ● ●●● ● ● ●● ●
● ●● ● ● ● ● ● ●
●● ● ● ●● ● ●● ●
● ● ● ● ●
●● ●● ● ● ●●● ●● ● ●● ●
● ●
●● ●●●● ●
● ●
● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●●
● ●● ● ●●
● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ● ● ●
●● ● ●● ● ●
● ●● ●● ● ● ● ●● ● ● ●
● ●● ●● ●
● ● ●●
● ●
●
● ●● ● ● ● ● ●● ● ● ●
●
● ●● ● ● ● ● ● ● ● ● ●
●
●●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
●● ● ● ●●●● ●
●
●
● ●● ●
● ●●
● ●
●● ● ●
●
●
●
●
● ●
0.5
●
●
●
Tamaño de muestra
Observe que:
Z Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ = (a − θ)2 π(θ|x1 , . . . , xn )dθ.
Z Z
2 (a − θ)π(θ|x1 , . . . , xn )dθ = 0 =⇒ a = θπ(θ|x1 , . . . , xn )dθ
En este caso,
Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ
Z a Z ∞
= (a − θ)π(θ|x1 , . . . , xn )dθ + (θ − a)π(θ|x1 , . . . , xn )dθ.
−∞ a
Diferenciando con respecto a a, se llega a que el mı́nimo debe cumplir que:
Z a Z ∞
π(θ|x1 , . . . , xn )dθ − π(θ|x1 , . . . , xn )dθ = 0
θ=−∞ a
1
Ası́, ambas integrales deberı́an ser iguales a 2 y θ̂ es la mediana a poste-
riori.
La distribución a posteriori es
n
Y e−λ λxi Pn
π(λ|x1 , . . . , xn ) = e−λ ∝ e−λ(n+1) λ i=1 xi
,
i=1
xi !
Pn
es decir, Gama( i=1 xi + 1, n + 1). Entonces, usando la función de pérdida
del error cuadrático medio:
Pn
xi + 1
θ̂ = media a posteriori = i=1 .
n+1
Y bajo la función de pérdida del error absoluto, θ̂ es la solución a:
Pn Pn
θ̂
e−λ(n+1) λ xi xi +1
Z
i=1 (n + 1) i=1 1
Pn dλ = .
0 ( i=1 xi )! 2
148 4. Estimación puntual
∂
Para todo x ∈ sop(f ), ∂θ ln f (x; θ) existe.
∂
R R R RR R ∂
∂θ ... T (x)f (x; θ)dx1 ...dxn = ... ∂θ T (x)f (x; θ)dx1 ...dxn .
∂ ∂
R R R R R R
∂θ ... f (x; θ)dx1 ...dxn = ... ∂θ f (x; θ)dx1 ...dxn .
2
0 < E ∂ ln∂θ f (x;θ)
< ∞.
Demostración.
P 2
(a) Como (θ) = E(Sc2 ) y usando (4.21), ası́ como el hecho de que ( ai ) =
P 2 IX P
ai + i6=j ai aj ,
!2
n
X ∂
IX (θ) = E ln f (Xi ; θ)
i=1
∂θ
n
" 2 #
X ∂
= E ln f (Xi ; θ)
i=1
∂θ
X ∂
∂
+ E ln f (Xi ; θ) ln f (Xj ; θ) .
∂θ ∂θ
i6=j
también lo son y
∂ ∂
E ln f (Xi ; θ) ln f (Xj ; θ)
∂θ ∂θ
es igual a
∂ ∂
E ln f (Xi ; θ) E ln f (Xj ; θ) ,
∂θ ∂θ
donde, para el caso continuo, y bajo el supuesto de que se cumplen las
condiciones de regularidad:
Z ∞ ∂
∂ ∂θ f (xi ; θ)
E ln f (Xi ; θ) = f (xi ; θ)dxi
∂θ −∞ f (xi ; θ)
Z ∞
∂
= f (xi ; θ)dx
−∞ ∂θ
Z ∞
∂ ∂
= f (xi ; θ)dx = (1) = 0.
∂θ −∞ ∂θ
Ası́,
n
" 2 #
X ∂
IX (θ) = E ln f (Xi ; θ)
i=1
∂θ
" 2 #
∂
= nE ln f (X; θ) ,
∂θ
∂2 ∂ f 0 (x; θ)
ln f (x; θ) =
∂θ2 ∂θ f (x; θ)
f (x; θ) f 00 (x; θ) − f 0 (x; θ) f 0 (x; θ)
= 2
[f (x; θ)]
00
0 2
f (x; θ) f (x; θ)
= − .
f (x; θ) f (x; θ)
Ası́,
( 2 )
f 00 (X; θ)
0
∂2
f (X; θ)
−E ln f (X; θ) = −E − ,
∂θ2 f (X; θ) f (X; θ)
154 4. Estimación puntual
y como
f 00 (X; θ) f 00 (x; θ)
Z Z
E = ··· f (x; θ) dx1 · · · dxn
f (X; θ) f (x; θ)
2 Z Z
∂
= · · · f (x; θ) dx1 · · · dxn = 0,
∂θ2
" 2 #
∂2 f 0 (X; θ)
−E ln f (X; θ) = E
∂θ2 f (X; θ)
" 2 #
∂
= E ln f (X; θ)
∂θ
= IX (θ).
(τ 0 (θ))2
V ar(T ) ≥ . (4.22)
IX (θ)
| {z }
CICR(τ (θ))
Y − E (Y ) = k [X − E (X)] (4.23)
Usando el lema 4.1, se tiene que V ar(Sc) = IX (θ), por lo que (4.24) se puede
escribir como:
2
{Cov (T, SC )}
V ar(T ) ≥ .
IX (θ)
Por otro lado,
Cov (T, SC ) = E (T SC ) − E (T ) E (SC )
y nuevamente por el lema 4.1, E (SC ) = 0, mientras que:
∂
f (x; θ)
Z Z
E (T SC ) = ··· t (x) ∂θ f (x; θ) dx1 · · · dxn
f (x; θ)
Z Z
∂
= · · · t (x) f (x; θ) dx1 · · · dxn
∂θ
∂ ∂
= E (T (X)) = τ (θ) = τ 0 (θ) ,
∂θ ∂θ
los pasos anteriores se justifican por la definición de SC , las condiciones de
regularidad y el hecho de que T es insesgado para τ (θ) . Ası́,
2
{τ 0 (θ)}
V ar(T ) ≥ .
IX (θ)
SC − E (SC ) = k [T − E (T )]
Pn ∂
y como E (SC ) = 0, SC = i=1 ∂θ ln f (xi ; θ) y E (T ) = τ (θ) , se comprueba
la segunda parte del teorema.
1 − 2σ12 x2
ln f (x; θ) = ln √ e
2πσ 2
1 1 1
= − ln(2π) − ln(σ 2 ) − 2 x2 ,
2 2 2σ
∂ 2 1 x2
ln f (x; σ ) = − + ,
∂σ 2 2σ 2 2(σ 2 )2
∂2 2 1 x2
ln f (x; σ ) = − .
∂(σ 2 )2 2(σ 2 )2 (σ 2 )3
Entonces,
∂2 E(X 2 )
1
IX (σ 2 ) = −nE ln f (X; σ 2
) = n −
∂(σ 2 )2 σ6 2σ 4
2
σ 1 1 1 n
= n 6 − 4 =n 4 − 4 = .
σ 2σ σ 2σ 2σ 4
2σ 4
Entonces, la CICR para estimadores insesgados de σ 2 es n .
de donde
∂ 1
ln f (x; θ) = − x.
∂θ θ
Entonces,
" 2 # " 2 #
∂ 1 n
IX (θ) = nE ln f (X; θ) = nE −X = n V ar(X) = 2 .
∂θ θ θ
Entonces,
1 θ2
CICR(θ) = = .
IX (θ) n
Para encontrar la CICR para estimadores insesgados de τ2 (θ) = θ1 :
1 1
τ2 (θ) = ⇒ τ20 (θ) = − 2 .
θ θ
4.4. Estimación insesgada 157
Entonces,
1/θ4 1/θ4 1
CICR(τ2 (θ)) = = = 2.
IX (θ) n/θ2 nθ
Ası́, se puede afirmar que τ (θ) = θ1 es una función de θ para la cual existe
un estimador insesgado T (X) = X, cuya varianza coincide con la CICR. En
otras palabras, X es el UMVUE de τ (θ) = θ1 . Aunque en general no es ne-
cesario probarlo, es claro que en este caso: V ar X = θ21n = CICR (τ (θ)) .
Observación 4.5
Generalización
Aquı́ se considerarán brevemente la generalización de la teorı́a de Cramèr y
Rao para cuando se tienen distribuciones de dos o más parámetros. En el
caso de dos parámetros, la información esperada de Fisher (para una muestra
de tamaño n), llamada la matriz de información de Fisher, se define como:
h 2 i h 2 i
∂ ∂
E ∂θ ln f (X; θ) E ∂θ ln f (X; θ)
IX (θ) = − h 21 i h 1 ∂θ 2 i ,
∂2
E ∂θ∂2 ∂θ1 ln f (X; θ) E ∂θ 2
ln f (X; θ)
Demostración.
E (T ∗ ) = E (E (T /S)) = E (T ) = τ (θ).
V ar(T ) = V ar (T ∗ ) + E (V ar (T /S)) ,
160 4. Estimación puntual
Demostración. Sea T 0 (X) , función de S, tal que E(T 0 ) = τ (θ). Sea g(S) =
T ∗ − T 0 . Note que
∴ E[g(S)] = 0
n
!
X 1 n
E(S) = E Xi = nE(Xi ) = n =
i=1
θ θ
k k 1
E Pn =E = kE
i=1 Xi S S
Z ∞
1 θn n−1 −θs
=k s e ds
0 s Γ(n)
Z ∞ n
θ
=k sn−2 e−θs ds
0 Γ(n)
θn Γ(n − 1) ∞ θn−1 (n−1)−1 −θs
Z
=k s e ds
Γ(n) θn−1 0 Γ(n − 1)
| {z }
1
θn Γ(n − 1) Γ(n − 1) kθ
=k n−1 =k = .
θ Γ(n) (n − 1)Γ(n − 1)θ−1 n−1
Por lo que, para que k/Y sea insesgado, k debe ser igual a n − 1. Por lo
tanto,
n−1
T ∗ (X) = Pn
i=1 Xi
es el UMVUE de θ.
Para encontrar la CICR para estimadores insesgados de θ (ver ejemplo
4.32):
" 2 #
∂
IX (θ) =nE ln f (X; θ)
∂θ
" 2 #
∂ −θX
=nE ln θe
∂θ
" 2 #
∂
=nE (ln θ − θX)
∂θ
" 2 #
1
=nE −X
θ
n
=nV ar(X) = 2 .
θ
1 θ2
CICR(θ) = = .
IX (θ) n
4.4. Estimación insesgada 163
(n − 1)2
2 1
E = (n − 1) E 2
S2 S
Z ∞
1 θn n−1 −θs
= (n − 1)2 s e ds
0 s2 Γ(n)
∞
θn
Z
= (n − 1)2 sn−3 e−θs ds
Γ(n) 0
θn Γ(n − 2) ∞ θn−2 (n−2)−1 −θs
Z
= (n − 1)2 s e ds
Γ(n) θn−2 0 Γ(n − 2)
| {z }
1
θn Γ(n − 2)
= (n − 1)2 n−2
θ Γ(n)
Γ(n − 2)
= (n − 1)2
(n − 1)(n − 2)Γ(n − 2)θ−2
(n − 1)θ2
= .
n−2
Entonces,
(n − 1)θ2 θ2
V ar(T ∗ (X)) = − θ2 =
n−2 n−2
es la varianza del UMVUE de θ.
Note que
θ2 θ2
V ar(T ∗ (X)) = > = CICR(θ).
n−2 n
Ejemplo 4.36 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
P oisson(θ). Sea τ (θ) = P(X = 0) = e−θ .
Solución:
(a)
n n n I(xi )
Y Y e−θ θxi (x )
Pn Y {0,1,...}
L(θ) = f (xi ; θ) = i
I{0,1,...} = e−nθ θ i=1 xi
i=1 i=1
xi ! i=1
xi !
y el logaritmo de la verosimilitud es
n n I(xi )
{0,1,...}
X Y
l(θ) = −nθ + ( xi ) ln θ + ln ,
i=1 i=1
xi !
de donde, Pn
∂ xi
l(θ) = −n + i=1 .
∂θ θ
∂
Entonces, ∂θ l(θ) = 0 si y sólo si
Pn Pn Pn
xi xi xi
−n + i=1 = 0 ⇔ n = i=1 ⇔ θb = i=1 .
θb θb n
Pn
Por lo tanto θ̂M.V. = n1 i=1 Xi = X̄. Para τ (θ), aplicando la pro-
piedad de invarianza de los estimadores máximo verosı́miles τ (θ̂M.V. )
es estimador máximo versı́mil de τ (θ). Por lo tanto e−X̄ es estimador
máximo verosı́mil de τ (θ) = e−θ .
(c) Como
e−θ θx (x)
f (x; θ) = I
x! {0,1,...}
si
1 (x)
a(θ) = e−θ , b(x) = I , c(θ) = ln(θ), d(x) = x.
x! {0,1,...}
4.4. Estimación insesgada 165
Entonces,
f (x; θ) = a(θ)b(x)ec(θ)d(x) .
(d) P
Como f (x; θ) pertenece a la familia exponencial entonces T (x) =
n Pn
i=1 d(Xi ) = X
i=1 i es una estadı́stica suficiente minimal y com-
pleta.
" 2 #
∂
IX (θ) =nE ln f (X; θ)
∂θ
" −θ X 2 #
∂ e θ
=nE ln
∂θ X!
" 2 #
∂
=nE (−θ + X ln θ − ln X!)
∂θ
" 2 #
X
=nE −1 +
θ
" 2 #
1
=nE (X − θ)
θ
n h 2
i n nθ n
= 2 E (X − θ) = 2 V ar(X) = 2 = .
θ θ θ θ
θ
CICR(θ) = .
n
(τ 0 (θ))2 θe−2θ
CICR(τ (θ)) = n = .
θ n
166 4. Estimación puntual
Pni=1 Xi
se llega a la misma conclusión. Además, n−1
n es el UMVUE de
τ (θ) por el inciso (g) y el teorema de Lehmann-Scheffé.
en distribución.
(i) Xn + Yn → X + c, en distribución,
(iii) Si c 6= 0 entonces,
Xn X
→ ,
Yn c
en distribución.
Teorema 4.5 Sea X1 , X2 , .., Xn una muestra aleatoria de una población con
función de densidad f (x; θ), sea θb el estimador máximo verosı́mil de θ, y
sea τ (θ) una función continua y diferenciable de θ. Bajo las condiciones de
regularidad sobre f (x; θ) y, por lo tanto de la función de verosimilitud L(θ),
se tiene que √
b − τ (θ)] −→ N [0, CICR(τ (θ))],
n[τ (θ)
donde CICR(τ (θ)) es la cota inferior de Cramér-Rao para estimadores in-
sesgados de τ (θ). Esto es, el estimador máximo verosı́mil de τ (θ) , τ (θ),
b es
un estimador eficiente de τ (θ).
Como
n
0
X ∂
l (θ) = ln f (xi ; θ),
i=1
∂θ
por (4.21)
1
IX (θ0 ) = E [l0 (θ0 )]2 =
CICR(θ)
denota la información esperada de Fisher.
Ahora observe que
" #
∂
1 0 √ 1 X ∂θ f (xi ; θ)
√ l (θ0 ) = n ,
n n i f (xi ; θ)
0
donde Sc(x; θ) = ff (x;θ)
(x;θ)
es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] =
IX (θ), lo cual se probó en el lema 4.1. Ası́, por el teorema del lı́mite central,
1
√ l0 (θ0 ) −→ N [0, I(θ0 )]
n
170 4. Estimación puntual
en distribución y
1
− √ l0 (θ0 ) −→ N [0, I(θ0 )]
n
en distribución. Por otro lado,
#2
∂2
"
∂
1 00 1 X ∂θ f (xi ; θ) 1X ∂θ 2 f (xi ; θ)
l (θ0 ) = − .
n n i f (xi ; θ) n i f (xi ; θ)
Note que la esperanza del primer sumando es IX (θ0 ), mientras que la del
segundo es cero (ver la demostración del lema 4.2). Entonces por la Ley
Débil de los Grandes Números:
1 00
l (θ0 ) −→ I(θ0 ),
n
en probabilidad. En consecuencia, si W es una variable aleatoria tal que
W ∼ N [0, I(θ0 )], entonces
√ − √1n l0 (θ0 )
n(θb − θ0 ) = 1 00
n l (θ0 )
converge en distribución a W/I(θ0 ) ∼ N [0, 1/IX (θ0 )], es decir, a una variable
aleatoria normal con media cero y varianza igual a la cota Inferior de Cramèr
y Rao, lo que demuestra el resultado.
El caso general es consecuencia del método delta, el cual se describe
brevemente a continuación. Una forma alternativa para calcular la varianza
del estimador máximo verosı́mil de τ (θ) es considerando que, debido a la
propiedad de invarianza que tiene el método de máxima verosimilitud,
τd(θ) = τ θb .
Si se aproxima τ θb mediante una expansión en series de Taylor alrededor
de θ, considerando solamente la primera derivada, se obtiene:
τ θb ≈ τ (θ) + θb − θ τ 0 (θ) .
se tiene que las Yi0 s son variables aleatorias Bernoulli con probabilidad de
éxito p
pn = F (ψ + a/ (n)).
p P
Note que el evento {Mn ≤ ψ + a/ (n)} es equivalente al evento { i Yi ≥
(n + 1)/2}. Dado que
pn → p = F (ψ) = 1/2,
P
Yi −npn
se puede utilizar el teorema del lı́mite central, de donde √ i
con-
(npn (1−pn ))
verge a una variable aleatoria Z con distribución normal estándar. Ahora,
√
(n + 1)/2 − npn (n + 1)F (ψ) − nF (ψ + a/ n)
lı́m p = lı́m p
n→∞ (npn (1 − pn ) n→∞ npn (1 − pn )
√
n(F (ψ) − F (ψ + a/ n))
= lı́m p
n→∞ npn (1 − pn )
√
n(F (ψ) − F (ψ + a/ n) 1
= lı́m a √
n→∞ a/ n pn (1 − pn )
= −2af (ψ).
Por lo que p
P ( (n)(Mn − ψ) ≤ a) → P (Z ≥ −2af ψ).
p
Ası́ (n)(Mn − ψ) tiene una distribución normal con media 0 y varianza
1/[2f (ψ)]2 .
4.6. Ejercicios
1. Sea X una variable aleatoria con distribución Gama(α + 1, β), cuya
función de densidad es
β α+1
f (x; α, β) = xα e−βx ,
Γ(α + 1)
con x > 0, α > −1 y β > 0. Obtenga los estimadores de los parámetros
α y β por el método de momentos, para una muestra aleatoria de
tamaño n.
2. Una urna contiene bolas negras y blancas. Se toma una muestra aleato-
ria de tamaño n con reemplazo. ¿Cuál es el estimador máximo verosı́mil
de la razón, R, de blancas a negras en la urna? Para esto suponga que
la bola se obtiene una por una con reemplazo hasta que la bola negra
aparezca. Sea X el número de bolas requeridas no contando la últi-
ma obtenida; este procedimiento se repite n veces para una muestra
aleatoria X1 , . . . , Xn .
4.6. Ejercicios 173
14. Suponga que ciertas pérdidas siguen una distribución W eibull con
parámetros θ y τ . Se tiene la siguiente muestra de 16 pérdidas: 54,
70, 75, 81, 84, 88, 97, 105, 109, 114, 122, 125, 128, 139, 146, 153. Es-
time los parámetros utilizando el método de percentiles, usando los
percentiles 20th y 70th .
αθα
f (x; θ) = , x > θ, θ > 0,
xα+1
con α conocida.
log(θ)
f2 (x; θ) = θx I(0,1) (x) donde θ > 1.
θ−1
En cada caso, para una muestra aleatoria de tamaño n, ¿existirán
estadı́sticas T1 (X) y T2 (X) para ciertas funciones τ1 (p) y τ2 (θ), para
las cuales la varianza de Ti (X), i = 1, 2, coincidan con la CICR?
25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (θ, 1).
(a) Encuentre la CICR para la varianza de los estimadores insesgados
de τ1 (θ) = θ, τ2 (θ) = θ2 y τ3 (θ) = P(X > 0).
(b) ¿Existe un estimador insesgado para τ2 (θ) = θ2 ?. Si es ası́, en-
cuéntrelo.
(c) ¿Existe un estimador insesgado para τ3 (θ) = P(X > 0)? Si es ası́,
encuéntrelo.
(d) Encuentre el UMVUE para τ2 (θ) = θ2 .
26. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Beta(θ, 1), donde θ > 0, es decir, con función de densidad
T1 (X) = X1 X2 .
T2 (X) = X1 X2 (1 − X3 ).
1
Pn Xi
(llegará a 1 − n
i=1
).
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T3 (X)
de τ3 (λ) = λe−λ , dado por
183
184 5. Estimación por intervalos
sobre qué valores se pueden esperar para una caracterı́stica que se esté estu-
diando; aunque, a diferencia de la estimación puntual, se habla de un nivel de
confianza que tendrá una influencia en el intervalo calculado: intuitivamente
la confianza se refiere a la certeza con la que el método dará una respuesta
correcta, y por lo tanto se pedirá que ese nivel de confianza sea alto.
Replanteando el problema de encontrar un rango de valores para θ, se
tiene lo siguiente: si θ ∈ Θ ⊆ R (el espacio paramétrico) y se quiere disminuir
el grado de desconocimiento de θ en f (x; θ), se debe seleccionar un subcon-
junto Θ1 de Θ en el cual pueda afirmarse, con un margen de error pequeño,
que se encuentra el valor de θ que caracteriza la distribución de la población.
Por ejemplo, suponga que se tiene una muestra aleatoria X1 , . . . , Xn de una
población con distribución N (µ, σ 2 ), con σ 2 conocida y µ desconocida y se
desea estimar el parámetro µ. La estadı́stica T (X) = X̄ tiene distribución
N (µ, σ 2 /n), entonces,
X̄ − µ
Z := √ ∼ N (0, 1).
σ/ n
Note que
A partir de que se sabe que P[−1.96 < Z < 1.96] = 0.95, se obtiene lo
siguiente:
X̄ − µ
−1.96 < √ < 1.96,
σ/ n
si y sólo si
σ σ
−1.96 √ < X̄ − µ < 1.96 √ ,
n n
si y sólo si
σ σ
X̄ − 1.96 √ < µ < X̄ + 1.96 √ ,
n n
de donde
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95.
n n
Lo que indica la expresión
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95,
n n
5.1. Intervalos de confianza 185
es que hay una probabilidad de 0.95 de obtener una muestra tal que el
intervalo
σ σ
X̄ − 1.96 √ , X̄ + 1.96 √ ,
n n
incluya al valor de µ. Esto motiva la definición 5.1 de intervalo aleatorio que
se verá posteriormente, aunque en este momento, y haciendo referencia al
ejemplo anterior, se puede adelantar que un intervalo en el que al menos uno
de los extremos es una variable aleatoria se llama intervalo aleatorio.
Una vez usada la distribución de X̄ para establecer la conclusión anterior,
se obtiene un valor particular de x̄, con base en una muestra, y se determina
el intervalo numérico
σ σ
x̄ − 1.96 √ , x̄ + 1.96 √ . (5.1)
n n
100
100
80
80
80
60
60
60
40
40
40
20
20
20
0
entonces,
X̄ − µ σ σ σ σ
a< √ < b ⇔ a √ < X̄ − µ < b √ ⇔ X̄ − b √ < µ < X̄ − a √ .
σ/ n n n n n
Suponga que se desea minimizar la longitud del intervalo dada por (b−a) √σn ,
con la restricción de que P[a < Z < b] = 0.95, es decir, FZ (b)−FZ (a) = 0.95,
donde FZ (z) es la función de distribución de una población N (0, 1) . Para
este problema de optimización, se define la función
Entonces,
∂L
= 0 ⇔ −1 + λfZ (a) = 0 ⇔ λfZ (a) = 1
∂a
y también
∂L
= 0 ⇔ 1 − λfZ (b) = 0 ⇔ λfZ (b) = 1.
∂b
De donde, fZ (a) = fZ (b); por lo tanto, a = −b debido a la simetrı́a (en el
cero) de fZ . Es decir, la distancia b − a será minimizada (para un área fija)
cuando fZ (a) = fZ (b).
γ = P[T1 (X) < θ < T2 (X)] = P[τ (T1 (X)) < τ (θ) < τ (T2 (X))].
si y sólo si
t1 (x1 , . . . , xn ) < τ (θ) < t2 (x1 , . . . , xn ) ,
para funciones t1 y t2 que no dependen de θ, entonces (t1 , t2 ) es un intervalo
del γ(100) % de confianza para τ (θ).
La longitud esperada serı́a E [t2 (X1 , . . . , Xn ) − t1 (X1 , . . . , Xn )] .
para α tal que 0 < α < 1. Entonces de entre todos los intervalos que cumplen
(5.2), [a0 , b0 ] tiene la longitud mı́nima si f (a0 ) = f (b0 ) > 0 y a0 ≤ x∗ ≤ b0 ,
donde x∗ es la moda de f (x) . Si además f (x) es simétrica, entonces a0 =
F −1 α2 y b0 = F −1 1 − α2 .
de donde:
∂L
= 1 − λf (a) = 0,
∂a
∂L
= 1 − λf (b) = 0
∂b
y
1 − α − F (b) + F (a) = 0.
De las primeras dos ecuaciones se obtiene que f (a) = f (b) > 0. Si x∗ ∈ /
[a, b] y f (a) = f (b), entonces b − a > b0 − a0 , pues f (x) es unimodal y
F (b) − F (a) = F (b0 ) − F (a0 ) .
Algunos ejemplos
Ejemplo 5.2 Suponga que se tiene una variable aleatoria con una distribu-
ción Exponencial con parámetro λ = θ1 . Obtenga un intervalo del 90 % de
confianza para θ.
Como X ∼ Exponencial(1/θ), sus funciones de densidad y de distribución
son, respectivamente,
1 −x/θ
f (x; θ) = e ,
θ
FX (x) = 1 − e−x/θ ,
5.1. Intervalos de confianza 191
X
con x > 0 y θ > 0. Sea Y = θ , entonces
FY (y) = P [Y ≤ y]
X
= P ≤y
θ
= P [X ≤ θy]
= FX (θy),
e−a = 0.95
a = − log(0.95) = 0.051,
FY (y) = P (Y ≤ y)
X
= P ≤y
θ
= P (X ≤ θy)
= FX (θy)
θy
=
θ
= y.
Por lo tanto, Xb , X
a es un intervalo
del 95 % de confianza para θ. O de
X X
manera equivalente, 0.95+a , a es un intervalo del 95 % de confianza para
θ.
5.1. Intervalos de confianza 193
donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución
χ2(2n) . El intervalo para θ que se deduce de esta última expresión es
Pn Pn
2 i=1 Xi 2 i=1 Xi
, .
q1−α/2 qα/2
P (U ≤ u) = P [F (X; θ) ≤ u]
P X ≤ F −1 (u)
=
F F −1 (u)
=
= u,
P [− ln F (Xi ; θ) ≤ u] = 1 − e−u ,
" n
#
X
= P ln a < θ ln Xi < ln b
i=1
" n
#
Y
= P ln a < θ ln Xi < ln b
i=1
ln b ln a
= P
Qn <θ< Qn
,
ln Xi ln Xi
i=1 i=1
n
Q
donde la última desigualdad se sigue del hecho de que ln Xi es negativo.
i=1
Entonces puede concluirse que
ln b ln a
n
Q , n
Q
ln xi ln xi
i=1 i=1
donde p1 y p2 son números fijos tales que p1 > 0, p2 > 0 y p1 +p2 < 1. Supon-
ga que h1 (θ) y h2 (θ) son funciones monótonas crecientes, y que h1 (θ) < h2 (θ)
(de manera análoga se podrı́an considerar funciones monótonas decrecien-
tes).
Sea t0 el valor observado de T , obtenido de la muestra observada
x = (x1 , x2 , . . . , xn ), es decir, T (x) = t0 . Para cualquier valor de t0 , pue-
den obtenerse v1 = v1 (t0 ) y v2 = v2 (t0 ) tales que (v1 , v2 ) será el intervalo
del (1 − p1 − p2 )100 % de confianza para θ.
Note que h1 (θ) < t0 < h2 (θ) si y sólo si v1 < θ < v2 para cualquier
muestra observada x. Por definición de h1 (θ) y h2 (θ) se tiene que
que es equivalente a
lo cual establece que (v1 , v2 ) es el intervalo del (1−p1 −p2 )100 % de confianza
para θ.
Para clarificar esta forma de obtener intervalos de confianza, a continua-
ción se muestran algunos ejemplos.
Se tiene que
Z h1 (θ)
n
θ p1 = ny n−1 dy,
0
Z θ
n
θ p2 = ny n−1 dy,
h2 (θ)
de donde,
1/n
h1 (θ) = θp1 ,
h2 (θ) = θ(1 − p2 )1/n .
Por definición de h1 (θ) y h2 (θ) se tiene que P [h1 (θ) < T (X) < h2 (θ)] =
1 − p1 − p2 , es decir,
h i
1/n
P θp1 < Yn < θ(1 − p2 )1/n = 1 − p1 − p2 ,
si y sólo si
σ σ
P −z1−α/2 √ − X̄ < −µ < z1−α/2 √ − X̄ = 1 − α,
n n
si y sólo si
σ σ
P X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √ = 1 − α.
n n
202 5. Estimación por intervalos
Caso 2: σ 2 desconocida.
Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribu-
ción N (µ, σ 2 ) donde µ y σ 2 son desconocidos.
X̄−µ (n−1)S 2
Se sabe que σ/ √ ∼ N (0, 1) y
n σ2 ∼ χ2(n−1) . Entonces,
X̄−µ
√
σ/ n
r ∼ t(n−1) .
(n−1)S 2
σ2
n−1
Pero,
X̄−µ X̄−µ √ √
√ √ n(X̄−µ)
σ/ n σ/ n σ n(X̄ − µ) X̄ − µ
r = q = S
= = √ ,
(n−1)S 2 S2 σ
S S/ n
σ2 σ2
n−1
√
donde S := S2.
X̄ − µ
∴ √ ∼ t(n−1) .
S/ n
X̄−µ
Es decir, la cantidad pivotal es Q = S/ √ .
n
1−α/2 1−α/2
Sea tn−1 ∈ R, tal que P Y ≤ tn−1 = 1 − α/2, donde Y ∼ t(n−1) .
Entonces,
1−α/2 1−α/2
P −tn−1 < Q < tn−1 = 1 − α,
si y sólo si
1−α/2 X̄ − µ
P −tn−1 < √ < t1−α/2
n−1 = 1 − α,
S/ n
si y sólo si
1−α/2 S 1−α/2 S
P −tn−1 √ < X̄ − µ < tn−1 √ = 1 − α,
n n
si y sólo si
1−α/2 S 1−α/2 S
P −X̄ − tn−1 √ < −µ < −X̄ + tn−1 √ = 1 − α,
n n
5.2. Intervalos para muestras de la distribución normal 203
si y sólo si
1−α/2 S 1−α/2 S
P X̄ − tn−1 √ < µ < X̄ + tn−1 √ = 1 − α.
n n
Se sigue que
√
(n − 1)S 2
n(X̄ − µ)
Pµ,σ −c ≤ ≤ c, a ≤ ≤ b
σ σ2
√
(n − 1)S 2
n(X̄ − µ)
= Pµ,σ −c ≤ × Pµ,σ a ≤ ≤ b
σ σ2
= 1 − α,
c2 σ 2 (n − 1)S 2 (n − 1)S 2
2 2
Pµ,σ (µ − X̄n ) ≤ , ≤σ ≤ = 1 − α.
n b a
Por tanto,
X̄ − Ȳ − (µx − µy )
q ∼ N (0, 1).
2
σx σy2
n + m
5.2. Intervalos para muestras de la distribución normal 205
X̄ − Ȳ − (µx − µy )
Q= q .
2
σx σy2
n + m
De aquı́ que
P −z1−α/2 < Q < z1−α/2 = 1 − α,
si y sólo si
X̄ − Ȳ − (µx − µy )
P −z1−α/2 < q < z1−α/2 = 1 − α,
2
σx σy2
n + m
si y sólo si
r r !
σx2 σy2 σx2 σy2
P −z1−α/2 + < X̄ − Ȳ − (µx − µy ) < z1−α/2 + = 1−α,
n m n m
si y sólo si
" r
σx2 σy2
P −(X̄ − Ȳ ) − z1−α/2 + < −(µx − µy ) <
n m
r #
σx2 σy2
< −(X̄ − Ȳ ) + z1−α/2 + = 1 − α,
n m
si y sólo si
" r
σx2 σy2
P (X̄ − Ȳ ) − z1−α/2 + < µx − µy
n m
r #
σx2 σy2
< (X̄ − Ȳ ) + z1−α/2 + = 1 − α.
n m
(n − 1)Sx2 (m − 1)Sy2
2
+ ∼ χ2(n+m−2) .
σ σ2
1
∴ ((n − 1)Sx2 + (m − 1)Sy2 ) ∼ χ2(n+m−2) . (5.5)
σ2
Y también se sabe que
X̄ − Ȳ − (µx − µy )
q ∼ N (0, 1). (5.6)
σ 2 n1 + m
1
Pero,
X̄−Ȳ −(µx −µy )
q
σ2 ( n
1 1
+m ) X̄ − Ȳ − (µx − µy )
q 2 +(m−1)S 2
= q 2 2
(n−1)Sx y 1 1 (n−1)Sx +(m−1)Sy
σ 2 (n+m−2) n + m n+m−2
X̄ − Ȳ − (µx − µy )
= q ,
1 1
2
n + m Sp
2
(n−1)Sx +(m−1)Sy2
donde Sp2 = n+m−2 .
Entonces,
X̄ − Ȳ − (µx − µy )
q ∼ t(m+n−2) .
1 1
+ S 2
n m p
si y sólo si
1−α/2 X̄ − Ȳ − (µx − µy ) 1−α/2
P −tn+m−2 < q < tn+m−2 = 1 − α,
1 1
2
n + m Sp
si y sólo si
" s
1−α/2 1 1
P −(X̄ − Ȳ ) − tn+m−2 + Sp2 < −(µx − µy ) <
n m
s #
1−α/2 1 1
−(X̄ − Ȳ ) + tn+m−2 + Sp2 = 1 − α,
n m
si y sólo si
" s
1−α/2 1 1
P (X̄ − Ȳ ) − tn+m−2 + Sp2 < µx − µy <
n m
s #
1−α/2 1 1
(X̄ − Ȳ ) + tn+m−2 + Sp2 = 1 − α.
n m
Procedimiento Medidas
Estándar X 32 37 35 28 41 44 35 31 34
Nuevo Y 35 31 29 25 34 40 27 32 31
x = 35.22, y = 31.56,
9
X X9
(xi − x)2 = 195.56, (yi − y)2 = 160.22,
i=1 i=1
9
" 9
#
1 X X
Sp2 = 2
(xi − x) + 2
(yi − y) = 22.24.
n + m − 2 i=1 i=1
(m−1)Sy2
∼ F(n−1,m−1) .
σy2 (m−1)
Pero 2
Sx
σx2 Sx2 σy2
Sy2
= .
Sy2 σx2
σy2
2 σ2
Sx y
De aquı́ que Q = Sy2 σx
2 sea una cantidad pivotal tal que Q ∼ F(n−1,m−1) .
α/2 1−α/2
Es necesario determinar los cuantiles fn−1,m−1 fn−1,m−1 , tales que:
α/2 1−α/2
P fn−1,m−1 < Q < fn−1,m−1 = 1 − α,
si y sólo si !
α/2 S 2 σy2 1−α/2
P fn−1,m−1 < x2 2 < fn−1,m−1 = 1 − α,
Sy σx
si y sólo si
!
α/2 Sy2 σy2 1−α/2 Sy2
P fn−1,m−1 2 < 2 < fn−1,m−1 2 = 1 − α,
Sx σx Sx
210 5. Estimación por intervalos
o !
1 Sx2 σ2 1 Sx2
P 1−α/2 2
< x2 < α/2 2
= 1 − α.
fn−1,m−1 Sy σy fn−1,m−1 Sy
2
σx
∴ Un intervalo del 100(1 − α) % de confianza para σy2 está dado por
!
1 Sx2 1 Sx2
2
, α/2 . (5.7)
1−α/2
fn−1,m−1 Sy f Sy2
n−1,m−1
3.01, 3.05, 2.99, 2.99, 3.0, 3.02, 2.98, 2.99, 2.97, 2.97, 2.02, 3.01.
Se dedujo que:
!
(n − 1)S 2 (n − 1)S 2
1−α/2
, α/2
χn−1 χn−1
Además,
χ0.995
11 = 26.8, χ0.005
11 = 2.60,
(0.0002246, 0.00230791) .
θ2
1
∼ N θ,
X n
por lo que
1
X
−θ
q ∼ N (0, 1) ,
θ2
n
si y sólo si " #
1
−z1− α2 X
−θ z1− α
P √ ≤ ≤ √ 2 = 1 − α,
n θ n
si y sólo si
−z1−α/2
1 z1−α/2
P √ +1≤ ≤ √ +1 = 1 − α,
n θX n
o
−z1−α/2
1 z1−α/2
P √ +1 X ≤ ≤ √ + 1 X = 1 − α,
n θ n
de donde:
√ √ !
n n
√ , √ ,
x n + z1−α/2 x n − z1−α/2
donde
1
E X = nE [X] = αβ = 4β,
n
1 1 1
nVar (X) = αβ 2 = 4β 2 ,
Var X =
n2 n n
entonces se desea encontrar un intervalo del 95.4 % de confianza para 4β.
Por el teorema del lı́mite central se sabe que
X − 4β
q ∼ N (0, 1),
1 2
n 4β
5X 5X
= P < 4β < .
6 4
5X 5X
Por lo tanto, un intervalo del 95.4 % de confianza para 4β es 6 , 4 .
por lo que
y
∂l x1 + · · · + xm nm − (x1 + · · · + xm )
= − = 0.
∂p p̂
p̂ 1 − p̂
De donde,
m
P
Xi
i=1 X
pb = = .
nm n
Por otra parte, la información esperada de Fisher está dada por:
2
∂
IX = −mE ln(f (x; n, p)) ,
∂p2
5.3. Intervalos de confianza para muestras grandes 215
ası́:
n
ln(f (x; n, p)) = x ln(p) + (n − x) ln(1 − p) + ln( ),
x
tomando la derivada con respecto a p:
∂ x n−x
ln(f (x; n, p)) = − ,
∂p p 1−p
y la segunda derivada es
∂2 −x n−x
ln(fX (x)) = 2 − 2.
∂p2 p (1 − p)
Tomando esperanza:
! !
−x n−x np n np
E − 2 =− 2 − 2 − 2 ,
p2 (1 − p) p (1 − p) (1 − p)
lo cual implica que
!!
np n(1 − p)
IX = −m − 2 − 2
p (1 − p)
mn mn mn
= + = .
p 1−p p(1 − p)
De esta manera, se obtiene que la Cota Inferior de Crámer y Rao para
estimadores insesgados de p está dada por:
p(1 − p)
CICR = .
mn
Sea Q una cantidad pivotal definida por
X √
p̂ − p −p mn(X − np)
Q= √ = qn = p .
CICR p(1−p) p(1 − p)n
mn
X
también tiene distribución N (0, 1) . Note que para este caso, pb = n, por lo
que usando (5.10) como cantidad pivotal, se obtiene que
X
− p
P −z1− α2 < q nX X
< z1− α2 = 1 − α,
n (1− n )
n
que es equivalente a
s s
X X X X
X n (1 − n) X n (1 − n )
P − z1− α2 <p< + z1− α2 = 1 − α,
n n n n
por lo que
r r !
x
x n (1 − nx ) x x
n (1 − nx )
− z1− α2 , + z1− α2 .
n n n n
Ejemplo 5.10 Sea X una variable aleatoria con distribución Binomial(n, θ),
con n fijo, y considere que la distribución apriori o inicial de θ es Beta(a, b),
entonces la distribución a posteriori o final es
π(θ|x) ∝ f (x|θ)π(θ)
∝ θx (1 − θ)n−x θa−1 (1 − θ)b−1
= θx+a−1 (1 − θ)n−x+b−1 .
Colas Iguales
HPD
1.5
Cola Inferior
Cola Superior
1.0
0.5
0.0
5.5. Ejercicios
1. (Construcción del concepto de intervalo de confianza mediante simu-
lación en R). Revise cuidadosamente las siguientes gráficas obtenidas
en la figura 5.3, por simulación en R.
Ahı́ se presentan 100 intervalos de confianza variando el tamaño de
muestra según tres posibilidades (10, 30 y 50) y la desviación estándar
según 3 opciones (5, 10 y 15). Ası́, finalmente se tienen 9 combinaciones
según varı́a el tamaño de muestra y la desviación estándar, siendo los
escenarios posibles: n = 10 y σ = 5 hasta n = 50 y σ = 15. Cuando
un intervalo de confianza no contiene el verdadero promedio se ilustra
con una lı́nea negra (el punto medio de cada intervalo es de color gris
oscuro). Conteste lo siguiente:
(a) Determine mediante observación: ¿cuántos intervalos aproxima-
damente no contienen el verdadero valor de la media en cada una
de las simulaciones?, ¿coincide con lo que se espera si la confianza
es del 95 %?
(b) ¿Se espera que la cantidad de intervalos de confianza que no con-
tiene al verdadero valor poblacional sea el mismo para cada uno
de los nueve casos?
(c) Si observa únicamente la primera fila de las simulaciones, expli-
que: ¿cuál es el impacto de la desviación estándar sobre los inter-
valos mostrados en la grafica?, ¿se aplica también para la segunda
fila y tercera fila de simulaciones?
(d) Si observa únicamente la primera columna de las simulaciones,
explique: ¿cuál es el impacto del tamaño de muestra sobre los
intervalos hallados?, ¿se aplica también para la segunda y tercera
columnas de simulaciones?
80
80
40
40
40
0
0
80 90 100 110 120 80 90 100 110 120 80 90 100 110 120
80
80
40
40
40
0
0
80 90 100 110 120 80 90 100 110 120 80 90 100 110 120
80
80
40
40
40
0
(a) Sea (X, 2X) un intervalo de confianza para 1/θ. ¿Cuál es su nivel
de confianza?
(b) Encuentre otro intervalo de confianza para 1/θ que tenga el mismo
nivel de confianza que el intervalo de (a), pero con menor longitud
esperada.
(a) Laplace-localización
1 −|x−θ|
fX (x; θ) = e IR (x) , θ ∈ R.
2
(b) Cauchy
1 1
fX (x; θ) = IR (x) , θ ∈ R.
π 1 + (x − θ)2
(c) Laplace-escala
1 −|x|/θ
fX (x; θ) = e IR (x) , θ ∈ R+ .
2θ
20. Considere X una variable aleatoria tal que X ∼ N (0, σ 2 ), donde σ >
0 es un parámetro desconocido. Considere el siguiente intervalo de
confianza (|X|, 10|X|) para σ.
21. Se desea hacer una comparación entre dos tratamientos para el SI-
DA. Se mide el tiempo de supervivencvia (en años) de cada uno de
estos tratamientos en siete pacientes seleccionados aleatoriamente. La
información se detalla en la siguiente tabla.
Paciente 1 2 3 4 5 6 7
Tratamiento 1 3.1 3.3 1.7 1.2 0.7 2.3 2.9
Tratamiento 2 1.8 2.3 2.2 3.5 1.7 1.6 1.4
Construya un intervalo del 80 % de confianza para la diferencia de
medias. ¿Se necesita hacer alguna suposición adicional?
23. Sean X̄ y Ȳ las medias muestrales, y Sx2 y Sy2 los estimadores insesgados
de la varianza, obtenidos de dos muestras independientes cada una de
tamaño 7 de dos poblaciones normales con varianza común σ 2 y media
224 5. Estimación por intervalos
(n − 1)s2
P a≤ ≤b = 1 − α.
σ2
226 5. Estimación por intervalos
Esta condición, junto con la restricción, son usadas para calcular los
valores de los cuantiles.]
Capı́tulo 6
Pruebas de hipótesis
227
228 6. Pruebas de hipótesis
El caso conocido como “la dama del té” fue expuesto por Fisher en su obra
las matemáticas de una catadora de té, en donde se señala que una dama
inglesa aseguraba que podı́a saber si se habı́a vertido en primer lugar la
infusión de té o la leche en una taza, con sólo probar la mezcla resultante.
Para analizar la afirmación de la señora se procede a un experimento.
Se le pide probar y clasificar n pares de tazas de té, conteniendo cada par
una taza preparada por cada uno de los dos procedimientos en cuestión,
primero el té y después la leche, y viceversa. En el experimento se pone
especial cuidado en asegurar la semejanza bajo las condiciones en que se
clasifican los pares de tazas de té y se procura la eliminación de cualquier
posible diferencia entre las tazas que resulte irrelevante para el problema. A
la dama se le presentan aleatoriamente las tazas de cada par. Finalmente,
se deja un tiempo razonable entre intentos sucesivos, a fin de asegurar que
la clasificación de cada par de tazas de té es independiente de los pares de
tazas precedentes.
1O simplemente con una variable aleatoria.
6.1. Conceptos fundamentales en pruebas de hipótesis 229
Si decide usar las monedas, las lanzará una por una y contará el número
de águilas.
Ω = {0, 1, 2, 3, 4, 5, 6} .
Esta regla de decisión serı́a entonces una prueba de hipótesis; sin embargo,
por el momento no tiene mayor sustento que el intuitivo.
Ahora, siguiendo con el caso del changuito, es claro que se rechaza H0 si
en el papel aparece el cero (el dado no tiene el número cero) y no se rechaza
H0 si en el papel aparece el 6 (sólo hay cinco monedas). De esta manera, el
espacio muestral queda dividido en dos partes, una de ellas lleva a rechazar
H0 y la otra lleva a no rechazar H0 ; las partes en que queda dividido Ω no
pueden traslaparse, ya que un elemento que perteneciera al traslape llevarı́a
a rechazar y a no rechazar al mismo tiempo a la hipótesis H0 , lo cual serı́a
una contradicción, por lo que se busca una partición del espacio muestral Ω.
Una posible partición de Ω es C = {0, 2, 3}, región que llevarı́a a rechazar
a H0 ; por lo que C c = {1, 4, 5, 6} y al obtener un resultado de este subcon-
junto, no se rechazarı́a H0 . Una vez más, hasta este momento, la regla de
decisión sólo tiene un sustento intuitivo y también puede expresarse como:
γ : Rechazar H0 si el número es 0, 2 o 3.
A la región C se le denomina la región crı́tica o de rechazo de H0 y se
define de la siguiente manera.
Definición 6.3 A la región C que lleva a rechazar la hipótesis nula se le
llama región de rechazo o región crı́tica.
232 6. Pruebas de hipótesis
Fisher llamó a estos errores, error tipo I y error tipo II, respectivamen-
te, quedando este nombre dentro de la literatura estadı́stica para representar
de manera general al yerro de rechazar a la hipótesis nula cuando es cierta
y no rechazarla cuando es falsa, respectivamente. Se acostumbra representar
estos errores en forma tabular como:
H0 cierta H0 falsa
Rechazar H0 Error tipo I Decisión correcta
No rechazar H0 Decisión correcta Error tipo II
C = {0, 2, 3} y C c = {1, 4, 5, 6} ,
máx πγ (θ),
θ∈Θ0
y como X ∼ N θ, 100
25 , se tiene que:
X −θ 75 − θ
πγ (θ) = P >
2 2
75 − θ 75 − θ
= P Z> =1−Φ ,
2 2
Si θ = 79,
πγ (θ) = P(Z > −2) = Φ(2) = 0.977.
El tamaño de la prueba está dado por
60 65 70 75 80 85 90
Ejemplo 6.2 Sea X una variable aleatoria con distribución Binomial(5, θ).
El problema consiste en contrastar las hipótesis H0 : θ ≤ 1/2 vs. Ha : θ >
1/2.
6.1. Conceptos fundamentales en pruebas de hipótesis 237
entonces
1 − π1 (θ) = 1 − θ5 ,
entonces
5 3 2 5 4 1 5 5
π2 (θ) = θ (1 − θ) + θ (1 − θ) + θ (1 − θ)0 ,
3 4 5
5 0 5 5 1 4 5 2
1 − π2 (θ) = θ (1 − θ) + θ (1 − θ) + θ (1 − θ)3 ,
0 1 2
ası́ que el tamaño del error tipo I es α ≤ 0.5 y el tamaño del error tipo II es
β < 0.5.
Funcion potencia
H0 : Xi ∼ f0 vs. Ha : Xi ∼ f1 .
α = P [error tipo I]
= P [X ∈ C | H0 ]
1
=
3
y
β = P [error II]
= P [X ∈ C c | Ha ]
11
= ,
32
21
por lo que P [X ∈ C | Ha ] = 32 .
Siguiendo un desarrollo análogo se pueden encontrar α y β para cada
partición de Ω que se proponga, en particular:
Si C1 = {0, 2} , C1c = {1, 3, 4, 5, 6} y
1 1 5 10 5 1 21
α1 = 0 + = y β1 = + + + +0= .
6 6 32 32 32 32 32
Si C2 = {0, 3, 4} , C2c = {1, 2, 5, 6} y
1 1 1 5 10 1 16
α2 = 0 + + = y β2 = + + +0= .
6 6 3 32 32 32 32
Si C3 = {0, 1, 4, 5} , C3c = {2, 3, 6} y
1 1 1 3 1 10 10 20
α3 = 0 + + + = = y β3 = + +0= .
6 6 6 6 2 32 32 32
Como puede observarse, para estas tres particiones, cuando α decrece,
β crece mucho y viceversa o ambos son grandes. De la misma manera se
pueden obtener α y β para cada una de todas las posibles particiones de Ω
y comprobar que la pareja que cumple el criterio (6.1), o equivalentemente
(6.2), y que tiene los mı́nimos errores es la primera partición propuesta.
Esta idea intuitiva se retomará más adelante, es necesario ahora dar una
definición de lo que se entenderá por una buena prueba con base en el tamaño
de los errores y de la potencia de esa prueba.
240 6. Pruebas de hipótesis
H0 : θ = θ0 vs. Ha : θ = θ1 .
Observación 6.4 Note que en este caso simple contra simple, la función
potencia evaluada en θ0 , es decir, πγ (θ0 ) = P(rechazar H0 |H0 ), coincide con
el tamaño del error tipo I y también con el tamaño de la prueba γ, pues el
único valor en Θ0 es θ0 :
relación que establece que minimizar el tamaño del error tipo II es equivalente
a maximizar la potencia evaluada en la hipótesis alternativa.
(i) πγ ∗ (θ0 ) = α,
(ii) πγ ∗ (θ1 ) ≥ πγ (θ1 ), para cualquier otra prueba γ tal que πγ (θ0 ) = α.
6.2. Hipótesis simples 241
(c) λ > k si x ∈ (C ∗ )c .
Entonces la prueba γ ∗ , asociada a C ∗ , es una prueba más potente para
probar H0 : θ = θ0 vs. Ha : θ = θ1 (es decir, C ∗ es la mejor región
crı́tica).
2 Jerzy Neyman (1894-1981), de nacionalidad polaca, vivió en Estados Unidos desde
"Z Z Z Z #
1
= k L(θ0 ) + L(θ0 ) − L(θ0 ) − L(θ0 )
C ∗ ∩C c C∩C ∗ (C ∗ )c ∩C C∩C ∗
Z Z
1
= k L(θ0 ) − L(θ0 )
C∗ C
= 1
k [P [X ∈ C ∗ |H0 ] − P [X ∈ C|H0 ]] = k1 (α − α) = 0.
6.2. Hipótesis simples 243
(se han usado k1 , k2 y k3 para denotar a las constantes que van resultando
en cada paso del despeje de la estadı́stica de prueba, hasta llegar a la forma
de la región crı́tica).
Entonces, la prueba de hipótesis queda establecida de la siguiente manera:
n
X
γ ∗ : Se rechaza H0 si Xi ≥ c,
i=1
o ( )
n
X
∗
C = (X1 , . . . , Xn ) ∈ X| Xi ≥ c ,
i=1
244 6. Pruebas de hipótesis
O equivalentemente:
" n
#
X
1−P Xi ≤ c|θ = θ0 = 0.05.
i=1
Es decir, !
n
X
P Xi ≤ c|θ = θ0 = 0.95.
i=1
n
P
Bajo H0 , Xi ∼ Gama(n, θ0 ), entonces c corresponde al cuantil 0.95 de
i=1
una distribución Gama(n, θ0 ).
( n n
)
1 X 2 1 X 2
= exp − 2 (xi − µ0 ) + 2 (xi − µ1 )
2σ i=1 2σ i=1
1 1 2 2
= exp nx(µ0 − µ1 ) − 2 n µ0 − µ1 ,
σ2 2σ
6.2. Hipótesis simples 245
L(µ0 )
entonces X ∈ C equivale a que L(µ1 ) ≤ k, esto implica que
1 1 2 2
exp nx(µ 0 − µ1 ) − n(µ0 − µ1 ) ≤ k
σ2 2σ 2
1 1
2
nx(µ0 − µ1 ) − 2 n(µ20 − µ21 ) ≤ k1 = ln k
σ 2σ
1 1
nx(µ0 − µ1 ) ≤ k1 + n(µ20 − µ21 ),
σ2 2σ 2
como µ0 y µ1 son valores fijos establecidos en las hipótesis, entonces se puede
hacer
1
nx(µ0 − µ1 ) ≤ k2 ,
σ2
y además, debido a que se supone que µ0 < µ1 , entonces µ0 − µ1 < 0, por
lo tanto,
σ2
x ≥ k2 ,
n(µ0 − µ1 )
o
x ≥ k3 ;
ası́, se rechaza la hipótesis nula si y sólo si x ≥ c.
Entonces, la prueba de hipótesis queda establecida de la siguiente manera:
γ ∗ : se rechaza H0 si X ≥ c,
o equivalentemente
C ∗ : (X1 , . . . , Xn ) ∈ X | X ≥ c .
o equivalentemente,
1 − P X < c|µ = µ0 = α,
246 6. Pruebas de hipótesis
ası́ que c corresponde al cuantil 1−α de una distribución N ormal µ0 , σ 2 /n .
Por otro lado, también se puede calcular la función potencia bajo la
hipótesis alternativa, es decir,
pero como
entonces
La figura 6.3 muestra la relación que existe entre las pruebas de hipótesis
y los tamaños de los errores tipo I (α) y tipo II (β), determinados a partir
de la estadı́stica de prueba S = X. Note que las áreas delimitadas en color
negro y gris, representan a α y β, respectivamente.
fS (s|µ)
H0 : µ = µ0 Ha : µ = µ1
N (µ0 , σ 2 /n) N (µ1 , σ 2 /n)
β α
µ0 µ1 s
x
y la verosimilitud bajo H1 es
Pn Pn
xi
L (θ1 ) = θ1 i=1
(1 − θ1 )n− i=1 xi
,
En este caso,
Θ0 = {σ02 } y Θ1 = {σ 2 : σ 2 > σ02 }.
Sea σ12 ∈ Θ1 , es decir, σ12 > σ02 (σ12 es un valor representativo de la hipótesis
alternativa). Usando el lema de Neyman-Pearson, se probará
n/2" n #
σ12
1 1 1 X 2
⇔ exp − 2 x ≤k
σ02 2 σ12 σ0 i=1 i
2 n
n σ1 1 1 1 X 2
⇔ ln + − 2 x ≤ k1 = ln(k)
2 σ02 2 σ12 σ0 i=1 i
6.3. Pruebas uniformemente más potentes 249
n 2
X n σ1
(σ02 − σ12 ) x2i ≤ k1 − ln 2 (σ12 σ02 )2 = k2
i=1
2 σ 0
H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1
si:
(i) máx πγ ∗ (θ) = α,
θ∈Θ0
(ii) πγ ∗ (θ) ≥ πγ (θ), para todo θ ∈ Θ1 y para cualquier otra prueba γ tal que
máx πγ (θ) = α.
θ∈Θ0
250 6. Pruebas de hipótesis
Ha : θ > θ 0 ,
Ha : θ ≥ θ0 ,
Ha : θ < θ 0
o
Ha : θ ≤ θ0 ,
en donde H0 : θ = θ0 , se puede usar el lema de Neyman-Pearson para en-
contrar una prueba uniformemente más potente tomando un valor represen-
tativo de la hipótesis alternativa y planteando un contraste de dos hipótesis
simples.
Suponga ahora que se desea probar
H0 : µ = µ0 vs. Ha : µ 6= µ0 ,
(observe que la hipótesis alternativa no es del tipo unilateral) para una mues-
tra aleatoria de tamaño n de la distribución Normal µ, σ 2 , donde σ 2 = 1.
Usando el lema de Neyman-Pearson, se procederı́a como en el caso anterior,
es decir, replanteando las hipótesis a través de un valor representativo para
la hipótesis alternativa de tal manera que se tengan dos hipótesis simples:
H0 : µ = µ0 vs. Ha : µ = µ1 ,
Pn 2 Pn 2 Pn 2 Pn 2
= e− 2 [ i=1 xi −2µ0 i=1 xi +nµ0 − i=1 xi +2µ1 i=1 xi −nµ1 ]
1
Pn
xi (µ1 −µ0 )+n(µ20 −µ21 )]
= e− 2 [2
1
i=1 ≤ k1 ,
si y sólo si
n
X 1
xi (µ1 − µ0 ) − n µ20 − µ21 ≤ k2 ,
−
i=1
2
si y sólo si
n
X
− xi (µ1 − µ0 ) ≤ k3 ,
i=1
6.3. Pruebas uniformemente más potentes 251
o
n
X
xi (µ1 − µ0 ) ≥ −k3 = c,
i=1
obteniéndose que
( n
)
X
∗
C = (X1 , . . . , Xn ) ∈ X | Xi ≥ c , si µ1 − µ0 > 0,
i=1
y
( n
)
X
∗
C = (X1 , . . . , Xn ) ∈ X | Xi ≤ c , si µ1 − µ0 < 0,
i=1
Pn
monótono de verosimilitudes en T (X) = i=1 Xi , pues
∗
Pn n
xi
e−nθ (θ∗ ) 1
Q
∗
i=1
/ xi !
L(θ ; x) i=1
= n
L(θ; x) Pn
xi 1
e−nθ
Q
(θ) i=1
/ xi !
i=1
Pn
∗ xi
e−nθ (θ∗ ) i=1
= Pn
x
e−nθ (θ) i=1 i
∗ Pni=1 xi
θ ∗
= e−n(θ −θ) ,
θ
Pn
es una función no decreciente de i=1 xi , con θ∗ > θ.
donde
As = {(x1 , . . . , xn ) ∈ X | S (X) = s} .
Y para el caso continuo,
fS (s) = g (s; θ) m (s) ,
donde m (s) no depende de θ.
En ambos casos, se comprueba que:
fS (s; θ∗ ) g (s; θ∗ )
V (s, θ∗ , θ) = = .
fS (s; θ) g (s; θ)
Por otro lado, la hipótesis establece que se cumple la monotonı́a del cociente
de verosimilitudes en S, la cual es suficiente, es decir:
L(θ∗ ; x) g (S (x) ; θ∗ ) h (x1 , ..., xn ) g (S (x) ; θ∗ )
= = ,
L(θ; x) g (S (x) ; θ) h (x1 , ..., xn ) g (S (x) ; θ)
es una función monótona en S. Lo anterior implica que V (s, θ∗ , θ) es una
función monótona en S.
La función potencia πγ (θ) es no decreciente, esto es, para θ0 < θ0 , se tiene que
πγ (θ0 ) ≤ πγ (θ0 ), es decir, FS (k; θ0 ) ≤ FS (k; θ0 ). Para verificarlo, considere
fS (s; θ0 )
d
[FS (s; θ0 ) − FS (s; θ0 )] = fS (s; θ0 ) − fS (s; θ0 ) = fS (s; θ0 ) −1 ,
ds fS (s; θ0 )
siendo el cociente que aparece en el último paréntesis una función monótona
no decreciente (por el lema 6.2), de tal manera que la derivada sólo puede
cambiar de signo de negativo a positivo, con lo que se deduce que cualquier
extremo interior es un mı́nimo. Por lo tanto, la función FS (s; θ0 ) − FS (s; θ0 )
se maximiza cuando s tiende a ∞ o a −∞, es decir cuando dicha función
vale 0, por lo que FS (s; θ0 ) ≤ FS (s; θ0 ) y, por lo tanto, πγ (θ0 ) ≤ πγ (θ0 ), para
θ0 < θ 0 .
De esta manera, supθ≤θ0 πγ (θ) = πγ (θ0 ) = α, donde α corresponde al
tamaño de la prueba.
Si ahora se define
g(s; θ0 )
k 0 = ı́nf ,
s∈T g(s; θ0 )
g(s; θ0 )
S>k ⇔ > k0
g(s; θ0 )
y dado que S es una estadı́stica suficiente, entonces
lo cual es equivalente a
L (θ0 ) 1
0
≤ 0 = c,
L (θ ) k
6.3. Pruebas uniformemente más potentes 255
por lo que πγ (θ0 ) ≥ πγ∗ (θ0 ) para cualquier prueba de tamaño α. Como θ0 en
la hipótesis nula es arbitrario, la prueba resultante es uniformemente más
potente de tamaño α para la hipótesis planteada.
α = P (Yn > k | H0 ) ,
Observación 6.7 Por la observación 6.6, cuando se tiene una densidad que
pertenece a la familia exponencial, basta verificar si c (θ) es función creciente
o decreciente de θ para saber si el cociente de verosimilitudes
Pn es monótono (no
decreciente o no creciente, respectivamente) en i=1 d (Xi ) y por el teorema
de Karlin-Rubin, se puede dar la forma Pnde la prueba (uniformemente más
potente), la cual estará en función de i=1 d (Xi ) , pues esta estadı́stica es
suficiente.
con
θ
c (θ) = ln ,
1−θ
la cual es una función creciente, por lo que esta
Pn familia de densidades tiene
cociente de verosimilitudes no decreciente en i=1 Xi . De acuerdo al teorema
de Karlin-Rubin, una prueba uniformemente más potente está dada por:
49
X
γ : Rechazar H0 si Xi > k.
i=1
H0 : µ = 0 vs. Ha : µ 6= 0.
En este caso
y
Θ0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < ∞}.
Para θ∈ Θ,
n/2 n
!
1 1 X
L(θ) = L(θ; x1 , ..., xn ) = exp − 2 (Xi − µ)2 . (6.10)
2πσ 2 2σ i=1
Para θ∈ Θ0 ,
n/2 n
!
1 1 X 2
L(θ) = L(θ; x1 , ..., xn ) = exp − 2 X . (6.11)
2πσ 2 2σ i=1 i
Entonces,
n/2
n
1 1 X
máx L(θ) = Pn exp − Pn · Xi2
θ∈Θ0 Xi2 2
i=1 Xi
2π i=1
n 2 n i=1
n/2
n
= Pn e−n/2 .
2π i=1 Xi2
Ahora, se obtendrá el denominador de λ. Se sabe que para la distribución
2
Normal(µ,
Pnσ ) los estimadores máximo verosı́miles están dados por µ̂ = X̄ y
1
σ̂ = n i=1 (Xi − X̄)2 . Sustituyendo en (6.10):
2
" #n/2 Pn !
2
1 1 i=1 (Xi − X̄)
L(θ) = Pn 2
exp − Pn 2
i=1 (Xi −X̄) 2 i=1 (Xi −X̄)
2π n n
n/2
n
= Pn e−n/2 ,
2π i=1 (Xi − X̄)2
la cual es la verosimilitud evaluada en los estimadores máximo verosı́miles.
h in/2
máx L(θ) n
e−n/2 Pn n/2
(Xi − X̄)2
Pn 2
θ∈Θ0 2π i=1 Xi i=1
∴λ= =h in/2 = Pn 2 .
máx L(θ) Pn n −n/2 i=1 Xi
θ∈Θ
2π (Xi −X̄) 2 e
i=1
Pero,
n
X n
X n
X
(Xi − X̄)2 = Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1 i=1
n
X n
X
= Xi2 − 2X̄nX̄ + nX̄ 2 = Xi2 − 2nX̄ 2 + nX̄ 2 .
i=1 i=1
Pn 2
Pn 2 2
Entonces, = i=1 (Xi − X̄) + nX̄ .
i=1 Xi
Por lo tanto,
Pn n/2
(Xi − X̄)2
1
λ = Pn i=1 2 2
≤k ⇔ n/2 ≤ k
i=1 (Xi − X̄) + nX̄ 1+ Pn nX̄
2
2
i=1 (Xi −X̄)
260 6. Pruebas de hipótesis
√
nX̄ 2 −2/n n|X̄| p
⇔ 1 + Pn 2
≥ k ⇔ q ≥ k −2/n − 1
i=1 (Xi − X̄)
Pn 2
(X − X̄) i=1 i
√
n|X̄|
q
⇔ q Pn 2
≥ (n − 1)(k −2/n − 1) = k 0 .
i=1 (Xi −X̄)
n−1
2 2
porque X̄ ∼ N (µ, σn ) y, bajo H0 , X̄ ∼ N (0, σn ). Entonces, X̄
√
σ/ n
∼ N (0, 1)
y Pn 2
(n − 1)S 2 i=1 (Xi − X̄)
= ∼ χ2(n−1) .
σ2 σ2
Ejemplo 6.11 (Comparar medias de 2 muestras normales independientes).
Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución
N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una población
con distribución N ormal(µy , σy2 ), donde ambas muestras son independientes
y además se desconocen todos los parámetros. Se desea probar
H0 : µx = µy vs. Ha : µx 6= µy .
máx L (θ)
θ∈Θ
m/2 !n/2
m n n mo n no
= Pm Pn exp − exp − .
2π i=1 (xi − x)2 2π j=1 (yj − y)2 2 2
Θ = (µx , µy , σ 2 ); µx ∈ R, µy ∈ R, σ 2 > 0 ,
Θ0 = (µ, σ 2 ); µ ∈ R, σ 2 > 0 .
262 6. Pruebas de hipótesis
y por lo tanto,
(m+n)/2
m+n m+n
máx L (θ)= hP i exp − .
θ∈Θ
2π
m
(x − x) 2+
Pn
(y − y)2 2
i=1 i j=1 j
y
m n
1 X X
b2
σ = (xi − µ̂)2 + (yj − µ̂)2
m+n i=1 j=1
m n
1 X X mn
= (xi − x)2 + (yj − y)2 + (x − y)2 ,
m + n i=1 j=1
m + n
máx L (θ) =
θ∈Θ0
(m+n)/2
m+n m+n
hP i ×exp − .
2π
m
− x)2
Pn
+ j=1 (yj − y)2 + mn
(x − y)2 2
i=1 (xi m+n
mn 2
!−(m+n)/2
m+n (x − y)
= 1 + Pm 2
Pn 2
,
i=1 (xi − x) + j=1 (yj − y)
6.4. La razón de verosimilitudes generalizadas 263
ası́ que
−(m+n)/2
λ = 1 + T 2 /(m + n − 2)
,
además se sabe que T es una variable aleatoria con distribución t de Student
con m + n − 2 grados de libertad, es decir, T ∼ t(m+n−2) . Desarrollando la
desigualdad se puede llegar a que se rechaza H0 al nivel α si
λ ≤ λ0
2
−(m+n)/2
1 + T /(m + n − 2) ≤ λ0
2
1 + T /(m + n − 2) > λ− m+n
2
2
2 − m+n
T > λ0 − 1 × (m + n − 2)
T2 > λ1
|T | > λ2 .
H0 : µx − µy = 0 vs. Ha : µx − µy 6= 0.
donde θ1◦ , θ2◦ , ..., θr◦ son valores fijos conocidos y θr+1 , ..., θk no están especi-
d
ficados, se cumple que −2 ln λ → χ2(r) (converge en distribución) cuando H0
es cierta.
(θ − θ̂)2
ln L(θ; x) = ln L(θ̂; x) + (θ − θ̂)(ln L(θ̂; x))0 + (ln L(θ̂; x))00 + · · · ,
2!
266 6. Pruebas de hipótesis
donde
!0
00 L0 (θ̂; x)
ln L(θ̂; x) =
L(θ̂; x)
L00 (θ̂; x) (L0 (θ̂; x))2
= −
L(θ̂; x) (L(θ̂; x))2
00
L (θ̂; x)
0 2
= − ln L(θ̂; x)
L(θ̂; x)
L00 (θ̂; x)
= ,
L(θ̂; x)
pues (ln L(θ̂;x))0 = 0.
Sustituyendo la expansión de Taylor para ln L(θ0 ; x) en
L(θ0 ; x)
−2 ln λ(x) = − − 2 ln
L(θ̂; x)
= −2 ln L(θ0 ; x) + 2 ln L(θ̂; x)
h i
= −2 ln L(θ0 ; x) − ln L(θ̂; x) ,
se obtiene que:
" #
(θ0 − θ̂)2
−2 ln λ(x) ≈ −2 (θ0 − θ̂)(ln L(θ̂; x))0 + (ln L(θ̂; x))00
2!
" #
(θ0 − θ̂)2 00
= −2 (ln L(θ̂; x))
2!
x−y
Z=q
1
+ 1 θ(1
b − θ)
b
m n
y la prueba es:
Definición 6.11 Sea T (X) una estadı́stica de prueba tal que valores gran-
des de T dan evidencia a favor de la hipótesis alternativa. Para cada posible
valor de X,
x = (x1 , x2 , ..., xn ) ∈ X,
se define el p-value como
p (x) = máx P [T (X) ≥ t (x)] ,
θ∈Θ0
o, equivalentemente, la prueba es
n
X
γ : Rechazar H0 si xi < c,
i=1
γ : Rechazar H0 si p < α.
o
49
X 49 t 49−t
(0.01) (0.99) = 0.05, (6.13)
t=c+1
t
P49
donde t = i=1 xi y se desea encontrar c tal que la suma anterior sea de 0.05
(o inferior). Una forma alternativa de pensar el problema es, para diferentes
valores de t (x) , encontrar el valor p o p-value correspondiente, como se
muestra en la siguiente tabla:
P
49
t (x1 , x2 , ..., xn ) P i=1 Xi > t (x) | H 0
0 0.388883
1 0.086411
2 0.013084
3 0.001480
4 0.000132
P49
Ası́, si la muestra es tal que t (x) = i=1 xi = 1, el p-value correspondiente
P49
es 0.086411, pero si t (x) = i=1 xi = 2, el p-value es de 0.013084. Como se
ha establecido que el tamaño de la prueba sea de al menos α = 0.05, es claro
que la prueba es estadı́sticamente significativa si T (X) es mayor o igual que
2, ya que con t = 1 el p-value es mayor que α. Por lo tanto, la prueba se
puede establecer como
49
X
γ : Rechazar H0 si Xi ≥ 2,
i=1
o
γ : Rechazar H0 si p ≤ 0.013084.
6.5. El valor p (p-value) 273
Ejemplo 6.18 (De nuevo la dama del té). Ahora se hará una variante del
caso 1 expuesto al inicio de este capı́tulo. Suponga que se consideran 20
personas en el experimento, una de ellas la dama que asegura discriminar
entre las dos posibles mezclas -té, leche; leche, té-. A cada participante se
le da a probar el contenido de dos tazas con las composiciones en cuestión
y resulta que 12 de ellas las identificaron correctamente, pero la dama del
té hizo la clasificación de manera incorrecta. Bajo las condiciones adecuadas
de aleatoriedad, es decir, cada taza tiene la misma probabilidad de contener
cualquiera de las mezclas, no hay comunicación entre los participantes, entre
otras; se puede suponer que cada individuo tiene probabilidad 0.5 de iden-
tificar correctamente las mezclas adivinando, ası́ que el número esperado de
personas que podrı́an acertar sin tener habilidades de discriminación serı́a
de 10.
Ante la evidencia de los datos, es decir, que 12 personas hayan clasificado
correctamente las tasas, se puede pensar que este resultado no es inconsis-
tente con el valor esperado de 10, sin embargo, se calculará a continuación el
p-value para analizar mejor este resultado. Suponiendo que la hipótesis nula
es que la probabilidad de éxito sea de 21 , la probabilidad de que se obtengan
12 éxitos o más en 20 ensayos Bernoulli es:
20 t 20−t 20
X 20 1 1 20 20 20 1
= + + ... +
t=12
t 2 2 12 13 20 2
= 0.34,
5 0 4 1 5
5 1 1 5 1 1 5 5 1
+ = +
5 2 2 4 2 2 5 4 2
= 0.1875,
lo que sugiere que aún cuando H0 es cierta, la verosimilitud del modelo al-
ternativo será en promedio 2r unidades mayor, donde r es la diferencia de
dimensión entre ambos espacios paramétricos. La idea es rectificar o pena-
lizar el incremento de verosimilitud que se produce por el hecho de ajustar
un mayor número de parámetros. La expresión
Celda i 1 2 3 ··· k
Número de observaciones en la celda i n1 n2 n3 ··· nk
Probabilidad de que el resultado esté en la celda i p1 p2 p3 ··· pk
4 Contributions to the mathematical theory of evolution (I a IV) en Philosophical
probable in the case of a correlated system of variables is such that it can be reasonably
supposed to have arisen from random sampling,” Philosophical Magazine 5 th series, 50,
157-175.
6.6. Algunas pruebas basadas en razón de verosimilitudes 277
Considerando cada celda por separado, cada vez que el resultado caiga en
dicha celda puede pensarse en un éxito y después de efectuar las n repeticio-
nes del experimento, sólo es relevante el total de veces que el resultado cayó
en la celda. Lo anterior, sugiere asociar una distribución binomial para cada
celda, siendo pi la probabilidad de éxito en un sólo ensayo del experimento
y, como se efectúan n de tales ensayos, el número esperado de éxitos para la
i-ésima celda será la esperanza de la correspondiente variable binomial, es
decir npi . Ası́, para cada una de las celdas se tendrı́a que:
oi n1 n2 . . . nk
ei np1 np2 . . . npk ,
k−1
!nk
nk−1
X
L (θ) = pn1 1 pn2 2 pn3 3 ...pk−1 1− pi .
i=1
278 6. Pruebas de hipótesis
ni nk
⇒ = , i = 1, 2, ..., k
pi pk
⇒ ni pk = nk pi , i = 1, 2, ..., k
Sumando las k igualdades se tiene que:
k
X k
X
pk ni = nk pi ,
i=1 i=1
Pk Pk
donde i=1 ni = n y i=1 pi = 1, implicando que:
p k n = nk ,
por lo tanto
nk
. pbk =
n
Este resultado puede generalizarse a las demás pi ’s como:
ni
pbi = , i = 1, 2, ..., k.
n
Bajo la hipótesis nula:
L (θ) = π1n1 π2n2 ...πknk ,
la cual no tiene parámetros desconocidos, por lo que el cociente de verosimi-
litudes generalizadas resulta ser:
máxθ∈Θ0 L (θ)
λ =
máxθ∈Θ L (θ)
π1n1 π2n2 ...πknk
= n1 n1 n2 n2
n
... nnk k
n n
n n n
nπ1 1 nπ2 2
nπk k
= ... ,
n1 n2 nk
6.6. Algunas pruebas basadas en razón de verosimilitudes 279
donde
k
X k
X k
X
(nπi − ni ) = n πi − ni = n − n = 0,
i=1 i=1 i=1
por lo que (6.18) se reduce a
k 2
X (nπi − ni )
−2 ln λ = + ε00 , (6.19)
i=1
ni
o
1
lı́m P (|ni − npi | < ε) = 1, para toda ε > 0,
n→∞ n
concluyendo que cuando n → ∞, es posible sustituir a ni por npi , por lo que
bajo la hipótesis nula, (6.20) se puede escribir como
k 2
X (ni − nπi )
−2 ln λ = ,
i=1
nπi
1 2 3 4 5 6
oi 13 19 11 8 5 4
ei 10 10 10 10 10 10
282 6. Pruebas de hipótesis
Se desea probar:
H0 : La muestra representa observaciones de una variable aleatoria dis-
tribuı́da normalmente con µ = 30 y σ 2 = 100
vs.
Ha : La distribución es otra.
6.6. Algunas pruebas basadas en razón de verosimilitudes 283
Como 2.8 < 7.815 no se rechaza H0 y se confirma que los datos presentados
se distribuyen N (30, 100) . Nota: en este caso el p − value es 0.5765.
Intervalo Frecuencia
menor que 40 kg 2
40-49.9 kg 3
50-54.9 kg 3
55-59.9 kg 5
60-64.9 kg 8
65-69.9 kg 7
70-74.9 kg 11
75-79.9 kg 6
80-89.9 kg 5
90 kg o más 0
Con base en la suposición de que la hipótesis nula es cierta, es decir, los
datos son de la distribución N (62, 121), se calcula la frecuencia esperada por
6.6. Algunas pruebas basadas en razón de verosimilitudes 285
Como puede apreciarse, hay que unir los dos últimos intervalos ya que la
frecuencia esperada en el último intervalo es menor que uno:
Preparatoria
Para una versión general de una una tabla de contingencia de dos dimen-
siones, suponga que la clasificación usa r renglones y c columnas, y sea Pij
la probabilidad de que un individuo elegido al azar de la población bajo con-
sideración, caerá en la celda correspondiente al i− ésimo renglón y j − ésima
columna. Además, sea:
c
X
Pi• = Pij la probabilidad de estar en el i − ésimo renglón
j=1
y
r
X
P•j = Pij la probabilidad de estar en la j − ésima columna.
i=1
r X
X c r
X c
X
Pij = 1 ⇔ Pi• = 1 y P•j = 1.
i=1 j=1 i=1 j=1
1 2 . . . c Pc
1 P11 P12 . . . P1c P1j = P1•
Pj=1
c
2 P21 P22 . . . P2c j=1 P2j = P2•
. . . . . .
. . . . . .
. . . . . .P
c
r P P . . . P j=1 Prj = Pr•
Pr1r Pr2r Prcr
i=1 Pi1 = P•1 i=1 Pi2 = P•2 . . . i=1 Pic = P•c
Cuando H0 es verdadera:
r Y
Y c
nij
L (θ) = (Pi• P•j ) . (6.22)
i=1 j=1
6.6. Algunas pruebas basadas en razón de verosimilitudes 289
En las expresiones anteriores todos los parámetros que aparecen son des-
conocidos:
Pij , Pi• y P•j i = 1, 2, ..., r ; j = 1, 2, ..., c;
por lo que los valores esperados (o frecuencia esperada) para cada celda (i, j)
entonces (bajo H0 ):
Y c
r Y r Y
Y c
nij nij nij
L (θ) = (Pi• P•j ) = (Pi• ) (P•j )
i=1 j=1 i=1 j=1
r
! c
n
Y Y
ni•
= Pi• P•j•j .
i=1 j=1
De esta forma:
r
X c
X
ln L (θ) = ni• ln Pi• + n•j ln P•j
i=1 j=1
r−1
X c−1
X
= ni• ln Pi• + nr• ln Pr• + n•j ln P•j + n•c ln P•c
i=1 j=1
ln L (ω)
!
r−1
X r−1
X c−1
X c−1
X
= ni• ln Pi• +nr• ln 1 − Pi• + n•j ln P•j +n•c ln 1 − P•j .
i=1 i=1 j=1 j=1
∂ ln L (ω) 1 (−1)
= n•j + n•c Pc−1 =0 (6.25)
∂P•j P•j 1 − j=1 P•j
de (6.24):
ni• nr•
= ⇒ ni• Pbr• = nr• Pi• i = 1, 2, ..., r
Pi• Pr•
entonces
r
X r
X
Pbr• ni• = nr• Pi• ,
i=1 i=1
r
P r
P
donde ni• = n y Pi• = 1.
i=1 i=1
Por lo tanto:
nr•
Pbr• = ,
n
y de (6.25),
n•j n•c
= ⇒ n•j Pb•c = n•c P•j j = 1, 2, ..., c
P•j P•c
y
r X
X c
ln L (θ) = nij ln Pij .
i=1 j=1
Por lo tanto:
X r−1
c X c−1
X
ln L (Θ) = nij ln Pij + nrj ln Prj + nrc ln Prc
j=1 i=1 j=1
c X
X r−1 c−1
X
= nij ln Pij + nrj ln Prj +
j=1 i=1 j=1
Xc X
r−1 c−1
X
nrc ln 1 − Pij + Prj .
j=1 i=1 j=1
entonces
nij nrc
= ,
Pij Pbrc
de donde
nij Pbrc = nrc Pij i = 1, 2, ..., r y j = 1, 2, ..., c.
Como:
r X
X c r X
X c
Pij = 1 y nij = n,
i=1 j=1 i=1 j=1
292 6. Pruebas de hipótesis
se tiene que:
r X
c r X
c
X X nrc
Pbrc nij = nrc Pij ⇒ Pbrc = .
i=1 j=1 i=1 j=1
n
−2 ln λ ∼ χ2(ν) ,
es equivalente a
r
X c
X
Pi• = 1 y P•j = 1,
i=1 j=1
ν = k − 1 − s = rc − 1 − (r + c − 2)
= (r − 1) (c − 1) .
El resultado es:
grados de libertad.
A continuación se verá cómo medir el grado de asociación entre variables.
El coeficiente de contingencia
Como una medida del grado de asociación entre variables en una tabla de
contingencia en donde se clasifican un total de n unidades experimentales,
Karl Pearson propuso el coeficiente de contingencia C, definido como:
1/2
Q
C= ,
Q+n
donde Q es la estadı́stica de prueba apropiada para la hipótesis de inde-
pendencia. Si las variables son completamente independientes, los valores de
Q y C son ambos pequeños. Además, valores crecientes de C implican un
incremento en el grado de asociación, ya que valores grandes de Q son un
resultado de más alejamiento significativo entre las frecuencias observadas
y esperadas de celdas. Pero el valor de C no puede ser mayor de uno para
cualquier n, una desventaja de C como una medida de asociación es que no
puede alcanzar el valor de 1.
Puede demostrarse fácilmente que para una tabla de contingencia de
doble entrada de r × c, el valor máximo de C es:
1/2
t−1
Cmáx = , donde t = mı́n (r, c) .
t
296 6. Pruebas de hipótesis
H1 : θ ∈ Θ1 , H2 : θ ∈ Θ2 , ··· HJ : θ ∈ ΘJ ,
π(θ|x) ∝ L(θ|x)π(θ),
π(x|Hj )π(Hj )
π(Hj |x) =
π(x)
π(x|Hj )π(Hj )
= PJ
k=1 π(x|Hk )π(Hk )
∝ π(x|Hj )π(Hj ),
1 1
=p exp − x2
2
2π(1 + S ) 2(1 + S 2 )
= N (x|0, 1 + S 2 ).
Por lo tanto, el factor de Bayes resulta en
N (x|0, 1)
FB = .
N (x|0, 1 + S 2 )
6.7. Pruebas de hipótesis en el contexto Bayesiano 299
θa−1 (1 − θ)b−1
π(θ|Ha ) = ,
B(a, b)
π(y|Ha )
Z
= π(y|θ)π(θ|Ha )dθ
Z
= L(θ|y)π(θ|Ha )dθ
θa−1 (1 − θ)b−1
Z P
n Pn
= θ i=1 yi (1 − θ)n− i=1 yi dθ
B(a, b)
Pn Pn P n Pn
B ( i=1 yi + a , n − i=1 yi + b) θ i=1 yi +a−1 (1 − θ)n− i=1 yi +b−1
Z
= Pn Pn dθ
B(a, b) B ( i=1 yi + a , n − i=1 yi + b)
Pn Pn
B ( i=1 yi + a , n − i=1 yi + b)
= ,
B(a, b)
300 6. Pruebas de hipótesis
0.5n
FB = Pn
B( yi +a , n− n i=1 yi +b)
P
i=1
B(a,b)
n
0.5 B(a, b)
= Pn Pn .
B( i=1 y i + a , n − i=1 yi + b)
n=50
n=10
0.6
p(H0|y)
0.4
0.2
0.0
donde θ̂0 y θ̂ son los estimadores máximo verosı́miles en los espacios pa-
ramétricos correspondientes.
Para este caso:
0.5n
λ(y) = nȳ .
ȳ (1 − ȳ)n−nȳ
6.7. Pruebas de hipótesis en el contexto Bayesiano 301
6.8. Ejercicios
1. Sea X una variable aleatoria con función de densidad f (x; θ). Considere
H0 : θ = θ0 y Ha : θ = θ1 , tal que la función de densidad es la siguiente:
6.8. Ejercicios 303
x 1 2 3 4 5 6 7
f (x; θ0 ) 0.01 0.01 0.01 0.01 0.01 0.01 0.94
f (x; θ1 ) 0.06 0.05 0.04 0.03 0.02 0.01 0.79
1
H0 : f (x; θ) = , x ∈ (0, θ) Uniforme(0, θ)
θ
1 −x/θ 1
Ha : f (x; θ) = e , x ∈ (0, ∞) Exponencial( ).
θ θ
(a) Determine la prueba del cociente de verosimilitudes, junto con su
región crı́tica C, asociada a las pruebas H0 vs. Ha .
(b) Obtenga la potencia de la prueba πγ (θ) y haga su gráfica.
f (x; θ) = θxθ−1
7
+ 98 log 34 .
(b) Muestre que la potencia de la prueba en θ = 2 es 16
7. Sea X1 , . . . , X10 una muestra aleatoria de tamaño n = 10 de la pobla-
ción con distribución Bernoulli(p).
(a) Encuentre una prueba más potente de tamaño α = 0.0547 para
probar las hipótesis H0 : p = 12 vs. Ha : p = 14 . Encuentre la
potencia de esta prueba y el tamaño del error tipo II.
(b) Para constrastar las hipótesis H0 : p ≤ 12 vs. Ha : p > 12 , se tiene
una región crı́tica
X10
C = {x; xi ≥ 6}.
i=1
Encuentre el tamaño de la prueba y grafique su función potencia.
8. Suponga que X es una variable aleatoria con función de densidad de
probabilidad f (x; θ), donde x ∈ R. Considere las funciones definidas
de la siguiente manera:
1 −1 1
f0 (x) = 1 + x2 , f1 (x) = exp {−|x|} .
π 2
6.8. Ejercicios 305
H0 : λ = λ0 vs. Ha : λ > λ0 .
(b) Para (a), si α = 0.2, calcule el tamaño del error tipo II.
(c) Obtenga la prueba uniformemente más potente γ ∗ de tamaño α
para contrastar las hipótesis
H0 : θ ≤ 0 vs. Ha : θ > 0.
(a) Sea C = {X; X > 1/2} la región crı́tica para probar las hipótesis
H0 : θ ≤ 1 vs. Ha : θ > 1. Encuentre el tamaño de la prueba y
grafique su función potencia.
(b) Encuentre la prueba más potente de tamaño α para contrastar
las hipótesis H0 : θ = 1 vs. Ha : θ = 2.
(c) Encuentre una prueba uniformemente más potente (UMP) de ta-
maño α para constrastar las hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1.
21. Sea X una variable aleatoria con distribución Beta(θ, 1) con función
de densidad f (x; θ) = θxθ−1 , donde x ∈ (0, 1) y θ > 0.
H0 : θ = η vs. Ha : θ 6= η.
con x > 0, donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga una
prueba uniformemente más potente de tamaño α para contrastar las
hipótesis H0 : θ ≥ θ0 vs. Ha : θ < θ0 , donde θ0 > 0 es un valor fijo.
24. Suponga que X1 , . . . , Xn es una muestra aleatoria de una población
con con función de densidad
con x ∈ (0, 1), donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga
una prueba uniformemente más potente de tamaño α para contrastar
las hipótesis H0 : θ ≤ θ0 vs. Ha : θ > θ0 donde θ0 > 0 es un valor fijo.
25. Considere una secuencia de n ensayos multinomiales cada uno con
k + 1 posibles respuestas O1 , . . . , Ok+1 , sea Yi el número de ensayos
que resultaron con respuesta Oi , i = 1, . . . , k + 1. Entonces la función
de densidad conjunta de (Y1 , . . . , Yk+1 ) es la distribución multinomial
n! yk+1
P(Y1 = y1 , . . . , Yk+1 = yk+1 ) = py1 · · · pk+1 ,
y1 ! · · · yk+1 ! 1
6.8. Ejercicios 311
donde
Pk+1 pi es laPprobabilidad de obtener la respuesta Oi en un ensayo,
k+1
i=1 pi = 1, i=1 yi = n. Considere la prueba de hipótesis
H0 : (p1 , . . . , pk+1 )
= (p01 , . . . , p0k+1 ) vs Ha : (p1 , . . . , pk+1 ) 6= (p01 , . . . , p0k+1 ).
n 2 nσ̂ 2
−2 log λ = (x̄ − µ0 ) + − n − n[log σ̂ 2 − log σ02 ].
σ02 σ02
H0 : µ = µ0 vs. Ha : µ = µ1 , µ0 < µ1 .
H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 < µ0 .
H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 > µ0 .
6.8. Ejercicios 313
1 1
f (x; σ 2 ) = √ exp − 2 x2 .
σ 2π 2σ
H0 : µx = µy vs. Ha : µx 6= µy .
H0 : µx = µy vs. H1 : µx 6= µy .
6.8. Ejercicios 315
W
Tw = q ,
1 2
S
n w
1
Pn 2 1
Pn
donde Wi = Xi − Yi , W = n i=1 Wi , Sw = n−1 i=1 (Wi −
W )2 .
2
(b) Calcule µw = E(Wi ), σw = Var(Wi ) y Cov(Wi , Wj ).
Concluya que W1 , . . . , Wn es una muestra aleatoria de una pobla-
2
ción con distribución N ormal(µw , σw ).
Justifique que bajo H0 , Tw ∼ tn−1 .
(c) Se obtuvo una muestra de tamaño n = 10 a partir de dos pobla-
ciones (A y B). Determine si la media de los grupos es la misma
(use α = 0.05). Calcule el p-value.
44. Los siguientes datos muestran los resultados de un ensayo médico para
probar dos tratamientos, un tratamiento viejo y un tratamiento nuevo,
para una enfermedad. Se eligieron 1100 pacientes para recibir cada
tratamiento.
Hospital A
Tratamiento Sobrevivieron Murieron Total
Viejo 5 95 100
Nuevo 100 900 1000
Total 105 995 1100
Hospital B
Tratamiento Sobrevivieron Murieron Total
Viejo 500 500 1000
Nuevo 95 5 100
Total 595 505 1100
Apéndice A
Algunos conceptos y
resultados de probabilidad
1. Ω ∈ F.
2. Si A ∈ F, entonces Ac ∈ F.
3. Si A1 , A2 , . . . , An ∈ F, entonces A1 ∪ A2 ∪ · · · ∪ An ∈ F.
319
320 A. Algunos conceptos y resultados de probabilidad
∀x ∈ R, X −1 (−∞, x] = {ω ∈ Ω : X(ω) ≤ x} ∈ F.
322 A. Algunos conceptos y resultados de probabilidad
fX (x) = P(X = x)
y que cumple:
1. fX (x) ≥ 0 ∀x ∈ R.
P
2. x fX (x) = 1.
Cualquier función que satisface las propiedades (1) a (3) se conoce como
una función de distribución acumulativa bivariada.
Observación A.1 FX (x) = FX,Y (x, ∞) y FY (y) = FX,Y (∞, y) ; esto es,
el conocimiento de la función de distribución acumulativa conjunta de X y
Y implica el conocimiento de las dos funciones de distribución acumulativa
marginal.
p
Observación A.2 FX (x) + FY (y) − 1 ≤ FX,Y (x, y) ≤ FX (x) FY (y)
para todas x y y.
324 A. Algunos conceptos y resultados de probabilidad
para toda (x1 , . . . , xk ). La función fX1 ,...,Xk (·, . . . , ·) se define como la fun-
ción de densidad de probabilidad conjunta.
Si en particular,
R = {(x1 , x2 ) : a1 < x1 ≤ b1 , a2 < x2 ≤ b2 } ,
entonces
Z b2 Z b1
P (a1 < x1 ≤ b1 , a2 < x2 ≤ b2 ) = fX1 ,X2 (x1 , x2 ) dx1 dx2 .
a2 a1
fX,Y (x, y)
fY |X (y|x) = ,
fX (x)
fX,Y (x, y)
fX|Y (x|y) = ,
fY (y)
si fY (y) > 0.
para toda x1 , . . . , xk .
328 A. Algunos conceptos y resultados de probabilidad
Con lo que se puede dar una expresión para la varianza, pues resulta
ser la esperanza de una función de una variable aleatoria, en donde g (x) =
(x − E(X))2 . Ası́,
P
(x − µX )2 P(X = x) si X es discreta;
Var(X) = Rx∞
−∞
(x − µX )2 fX (x)dx si X es continua.
A.5.2. Momentos
El k-ésimo momento de una variable aleatoria X se define como E X k y se
puede calcular de la siguiente manera:
P
xk P(X = x) si X es discreta;
E X k = Rx∞
−∞
xk fX (x)dx si X es continua.
330 A. Algunos conceptos y resultados de probabilidad
= E X 2 − 2µX X + µ2X
= E X 2 − E2 (X).
(k)
En general mX (0) = E X k , de ahı́ el nombre.
Evaluando en t = 0,
0
m0X (0) = eλ(e −1)
λe0 = λ = E(X),
0 0
m00X (0) = eλ(e −1)
λe0 + eλ(e −1) 2 2(0)
λ e = λ + λ2 = E(X 2 ).
∴ E(X) = λ = Var(X).
E [g (X1 , . . . , Xk )] = E [Xi ] .
2
Observación A.7 Si g (x1 , . . . , xn ) = (xi − E (xi )) entonces
Sea E (X) = µX y E (Y ) = µY ,
Cov(X, Y )
ρxy = p .
Var(X)Var(Y )
mY (t) = E etY
n
X
= E exp t Xj
j=1
E etX1 +···+tXn
=
= E etX1 · · · etXn
= E etX1 · · · E etXn
n
Y
∴ mY (t) = mXj (t).
j=1
1
fX (x) = P(X = x) = I{1,2,...,N } (x).
N
(N +1)(2N +1)
(b) E(X 2 ) = 6 .
N 2 −1
(c) Var(X) = 12 .
A.6.2. Bernoulli
Definición A.30 Se dice que la variable aleatoria discreta X tiene distri-
bución Bernoulli con parámetro p ∈ (0, 1), se denota X ∼ Bernoulli(p), si
su función de densidad de probabilidad está dada por:
1 − p
si x = 0,
fX (x) = P(X = x) = p si x = 1,
0 en otro caso.
De manera equivalente,
A.6.3. Binomial
Suponga que se tienen n ensayos Bernoulli (toman valores 0 o 1, asociados
con fracaso o éxito) independientes cada uno con la misma probabilidad de
éxito p ∈ (0, 1). Sea X el número de éxitos en n ensayos Bernoulli indepen-
dientes, entonces
n x
P(X = x) = p (1 − p)n−x .
x
A.6.4. Poisson
Definición A.32 Se dice que la variable aleatoria discreta X tiene distribu-
ción Poisson con parámetro λ > 0, se denota X ∼ P oisson(λ), si su función
de densidad de probabilidad está dada por:
e−λ λx
fX (x) = P(X = x) = I{0,1,2,...} (x).
x!
Proposición A.10 Si X ∼ P oisson(λ), entonces:
t
(a) mX (t) = e−λ(1−e ) .
(b) E(X) = λ.
(d) Var(X) = λ.
A.6.5. Geométrica
Suponga que se tiene una sucesión de ensayos Bernoulli independientes, en
donde la probabilidad de éxito de todos ellos es igual a p ∈ (0, 1). Sea X el
número de fracasos antes del primer éxito. Entonces
P(X = x) = (1 − p)x p.
1−p
(b) E(X) = p .
1−p 2(1−p)2
(c) E(X 2 ) = p + p2 .
1−p
(d) Var(X) = p2 .
r(1−p)
(b) E(X) = p .
r(1−p)
(c) Var(X) = p2 .
A.6.7. Hipergeométrica
Definición A.35 Se dice que la variable aleatoria discreta X tiene dis-
tribución Hipergeométrica con parámetros n, N, r ∈ N, se denota X ∼
HiperGeo(n, N, r), si su función de densidad de probabilidad está dada por:
r N −r
x n−x
fX (x) = P(X = x) = N
I{0,1,...,mı́n{n,r}} (x).
n
A.6.8. Logarı́tmica
Definición A.36 Se dice que la variable aleatoria discreta X tiene distri-
bución Logarı́tmica con parámetro p ∈ (0, 1), se denota X ∼ Lg(p), si su
función de densidad de probabilidad está dada por:
1 px
fX (x) = P(X = x) = − I{1,2,...} (x).
log(1 − p) x
ap 1
(b) E(X) = log(1−p) , donde a := − log(1−p) .
ap(1−ap) 1
(c) Var(X) = (1−p)2 =µ 1−p − µ , donde µ = E(X).
340 A. Algunos conceptos y resultados de probabilidad
a2 +ab+b2
(c) E2 (X) = 3 .
(b−a)2
(d) Var(X) = 12 .
A.6.10. Exponencial
Definición A.38 Se dice que la variable aleatoria continua X tiene distri-
bución Exponencial con parámetro λ ∈ R+ , se denota X ∼ exp(λ), si su
función de densidad de probabilidad está dada por:
(b) E(X) = λ1 .
λ+1
(c) E(X 2 ) = λ2 .
1
(d) Var(X) = λ2 .
A.6.11. Gama
Se define la función Gama, Γ(·), de la siguiente manera:
Z ∞
Γ(t) = xt−1 e−x dx.
0
π 1
(ii) Γ(p)Γ(1 − p) = sen(pπ) con p ∈ (0, 1). En particular con p = 2,
√
Γ( 2 )Γ( 2 ) = sen( π ) = π, es decir (Γ( 12 ))2 = π ⇒ Γ( 21 ) = π.
1 1 π
2
√
π(n−1)
(iii) Para n impar, Γ( n2 ) = 2n−1 ( n−1
.
2 )!
R∞ Γ(α)
(iv) 0
xα−1 e−λx dx = λx .
n→∞ √
(v) Forma asintótica de Stirling: Γ(n+1) −→ 2πnnn e−n . En particular
n→∞ √
n! −→ 2πnnn e−n .
R∞
(vi) Γ(2) = Γ(1) = 0
e−x dx = 1.
λr r−1 −λx
fX (x) = x e I(0,∞) (x).
Γ(r)
(b) E(X) = λr .
r(r+1)
(c) E(X 2 ) = λ2 .
r
(d) Var(X) = λ2 .
a a
fX (x) = xap−1 e−(x/σ) I(0,∞) (x).
σ ap Γ(p)
342 A. Algunos conceptos y resultados de probabilidad
A.6.12. Ji-cuadrada
Definición A.41 Se dice que la variable aleatoria continua X tiene dis-
tribución Ji-cuadrada con k grados de libertad si X ∼ Gama(k/2, 1/2), se
denota X ∼ χ2(k) , es decir, si su función de densidad está dada por:
( 12 )k/2 k −1 −x/2
fX (x) = x2 e I(0,∞) (x).
Γ(k/2)
Proposición A.19 Si X ∼ χ2(k) , entonces:
k/2
1
(a) mX (t) = 1−2t .
(b) E(X) = k.
(c) E(X 2 ) = k(k + 2).
(d) Var(X) = 2k.
A.6.13. Beta
Definición A.42 Se dice que la variable aleatoria continua X tiene distri-
bución Beta con parámetros α > 0 y β > 0, se denota X ∼ Beta(α, β), si
su función de densidad está dada por:
1
fX (x) = xα−1 (1 − x)β−1 I(0,1) (x),
B(α, β)
R1
donde B(u, v) = 0
tu−1 (1 − t)v−1 dt es conocida como la función beta.
Existe una relación entre las funciones Beta y Gama:
Γ(α)Γ(β)
B(α, β) = .
Γ(α + β)
Proposición A.20 Si X ∼ Beta(α, β), entonces:
α
(a) E(X) = α+β .
α(α+1)
(b) E(X 2 ) = (α+β+1)(α+β) .
αβ
(c) Var(X) = (α+β)2 (α+β+1) .
Γ(α+r)Γ(α+β)
(d) E(X r ) = Γ(α)Γ(α+β+r) .
A.6.14. Normal
Definición A.43 Se dice que la variable aleatoria continua X tiene distri-
bución Normal con parámetros µ ∈ R y σ 2 > 0, se denota X ∼ N (µ, σ 2 ), si
su función de densidad está dada por:
1 1
fX (x) = √ exp − 2 (x − µ)2 IR (x).
2πσ 2 2σ
Proposición A.21 Si X ∼ N (µ, σ 2 ), entonces:
(a) E(X) = µ.
(b) E(X 2 ) = σ 2 + µ2 .
(c) Var(X) = σ 2 .
(d) mX (t) = exp µt + 12 t2 σ 2 .
A.6.15. t de Student
Definición A.44 Se dice que la variable aleatoria continua X tiene distri-
bución t de Student con k grados de libertad, se denota X ∼ N (µ, σ 2 ), si su
función de densidad está dada por:
Γ( k+1
2 ) 1 1
fX (x) = k
√ k+1 IR (x).
Γ( 2 ) kπ 1 + x2 2
k
A.6.16. F de Fisher
Definición A.45 Se dice que la variable aleatoria continua X tiene distri-
bución F de Fisher con parámetros m, n > 0, se denota X ∼ F (m, n), si su
función de densidad está dada por:
m−2
Γ( m+n
2 )
m m/2 x 2
fX (x) = m n m+n I(0,∞) (x).
Γ( 2 )Γ( 2 ) n 1 + (m )x 2
n
A.6.17. Log-Normal
Definición A.46 Se dice que la variable aleatoria continua X tiene dis-
tribución Log-Normal con parámetros µ ∈ R y σ 2 ∈ R+ , se denota X ∼
LgN (µ, σ 2 ), si su función de densidad está dada por:
( 2 )
1 1 log(x) − µ
fX (x) = √ exp − I(0,∞) (x).
x 2πσ 2 2 σ
344 A. Algunos conceptos y resultados de probabilidad
(b) E(X 2 ) = exp 2(µ + σ 2 ) .
r2 σ2
(d) E(X r ) = exp(rµ + 2 ).
A.6.18. Logı́stica
Definición A.47 Se dice que la variable aleatoria continua X tiene distri-
bución Logı́stica con parámetros µ ∈ R y σ ∈ R+ , se denota X ∼ Logistic(µ, σ),
si su función de densidad está dada por:
e−(x−µ)/σ
fX (x) = IR (x).
σ(e−(x−µ)/σ )2
(a) E(X) = µ.
πσ 2
(b) E(X 2 ) = µ2 + 3 .
πσ 2
(c) Var(X) = 3 .
A.6.19. Log-logı́stica
Definición A.48 Se dice que la variable aleatoria continua X tiene dis-
tribución Log-Logı́stica con parámetros α, λ ∈ R+ , se denota X ∼ log −
Logistic(α, λ), si su función de densidad está dada por:
λα(λt)α−1
fX (x) = I(0,∞) (x).
(1 + (λt)α )2
A.6.20. Pareto
Definición A.49 Se dice que la variable aleatoria continua X tiene dis-
tribución clásica de Pareto con parámetros α, σ ∈ R+ , se denota X ∼
P aI(α, σ), si su función de densidad está dada por:
ασ α
I[σ,∞) (x).
fX (x) =
xα+1
Proposición A.25 Si X ∼ P aI(α, σ), entonces:
ασ
(a) E(X) = α−1 , si α > 1.
ασ r
(b) E(X r ) = α−r , si α > r.
ασ 2
(c) Var(X) = α(α−1)2 (α−2) , si α > 2.
Definición A.50 Se dice que la variable aleatoria continua X tiene distri-
bución Pareto tipo II con parámetros α, σ ∈ R+ , se denota X ∼ P aII(α, σ),
si su función de densidad está dada por:
α 1
fX (x) = I(0,∞) (x).
σ (1 + σx )α+1
Proposición A.26 Si X ∼ P aII(α, σ), entonces:
σ
(a) E(X) = α−1 , si α > 1.
Γ(α−r)Γ(r+1)σ r
(b) E(X r ) = Γ(α) , si α > r.
ασ 2
(c) Var(X) = α(α−1)2 (α−2) , si α > 2.
Proposición A.27 Si X ∼ P aII(α, σ), entonces X − σ ∼ P aII(α, σ).
1
Proposición A.28 Si X ∼ Beta(α, 1), entonces X ∼ P aI(α, 1).
Definición A.51 Se dice que la variable aleatoria continua X tiene dis-
tribución Pareto generalizada con parámetros k, σ ∈ R+ , se denota X ∼
GP a(k, σ), si su función de densidad está dada por:
1
1 kx k−1
fX (x) = 1− I(0,∞) (x).
σ σ
Proposición A.29 Si X ∼∼ GP a(k, σ), entonces:
h r i
(a) E 1 − kXσ
1
= 1+rk .
σ
(b) E(X) = 1+k .
σ2
(c) Var(X) = (1+k)2 (1+2k) , si α > 2.
346 A. Algunos conceptos y resultados de probabilidad
(a) E(X) = µ.
(b) E(X 2 ) = µ2 (1 + µλ ).
µ3
(c) Var(X) = λ .
q
λ 2µ2 t
(d) mX (t) = exp µ 1− 1− λ .
A.6.22. Gompertz
La siguiente distribución la propuso Benjamin Gompertz para ajustar tablas
de mortalidad.
A.6.23. Makeham
Definición A.54 Se dice que la variable aleatoria continua X tiene distri-
bución Makeham con parámetros a, b, c ∈ R+ , se denota X ∼ M ak(a, b, c),
si su función de densidad está dada por:
cx b cx
fX (x) = (a + be ) exp −ax − (e − 1) I(0,∞) (x).
c
A.6. Resumen de familias paramétricas 347
A.6.24. Benktander
Las distribuciones de Benktander (Benktander & Segerdahl (1960), Benk-
tander (1960)) surgen con la idea de encontrar una distribución cuya vida
residual media se encuentre entre las vidas residuales medias de las distri-
buciones exponencial y de Pareto.
A.6.25. Gumbel
Definición A.56 Se dice que la variable aleatoria continua X tiene distri-
bución Gumbel con parámetros µ ∈ R y σ > 0, se denota X ∼ Gum(µ, σ),
si su función de densidad está dada por:
1 x−µ x−µ
fX (x) = exp − exp − exp − IR (x).
σ σ σ
Proposición A.33 Si X ∼ Gum(µ, σ), entonces:
(a) E(X) = µ − σψ(1).
π
(b) E(X 2 ) = µ2 + 6σ 2 − 2σψ(1) + (ψ(1))2 .
π
(c) Var(X) = 6σ 2 .
348 A. Algunos conceptos y resultados de probabilidad
A.6.26. Weibull
Definición A.57 Se dice que la variable aleatoria continua X tiene distri-
bución Weibull con parámetros µ ∈ R, σ > 0 y α > 0, se denota X ∼
W ei(σ, α, µ), si su función de densidad está dada por:
α
α x−µ
fX (x) = α (x − µ)α−1 exp − I(µ,∞) (x).
σ σ
Proposición A.34 Si X ∼ W ei(σ, α, µ), entonces:
(a) E(X) = µ + σΓ 1 + α1 .
(c) Var(X) = σ 2 Γ 1 + α2 − Γ2 1 + α1 .
A.6.27. Fréchet
Definición A.58 Se dice que la variable aleatoria continua X tiene dis-
tribución Fréchet con parámetros µ ∈ R, σ > 0 y α > 0, se denota X ∼
F rechet(σ, α, µ), si su función de densidad está dada por:
α
α −α−1 σ
fX (x) = ασ (x − µ) exp − I(µ,∞) (x).
x−µ
Proposición A.35 Si X ∼ F rechet(σ, α, µ), entonces:
(a) E(X) = µ + σΓ 1 − α1 .
(c) Var(X) = σ 2 Γ 1 − α2 − Γ2 1 − α1 .
A.7. Convergencia
Sean X1, X2 , ... variables aleatorias en (Ω, F, P) y X una variable aleatoria
en el mismo espacio. {Xn }n∈N representa la sucesión de variables aleatorias
X1, X2 , ....
Convergencia uniforme
Definición A.60 La sucesión {Xn }n∈N converge uniformemente a X ó
lı́mn→∞ Xn = X en Ω, si para todo ε > 0, existe nε , tal que:
| Xn (ω) − X(ω) |< ε, para todo n ≥ nε y ω ∈ Ω.
u
Notación: Xn −
→X .
Observación A.11 La convergencia puntual es una propiedad local en el
punto ω de la sucesión. En la convergencia uniforme, dado ε ∈ R+ , a partir
de cierto ı́ndice N todas las funciones Xn (ω) estarán comprendidas entre
X(ω) ± ε, para todos los valores de ω. Ası́, la convergencia uniforme implica
la convergencia puntual.
A continuación se hace una revisión de los modos de convergencia más
importantes en la teorı́a de la probabilidad, los cuales además están rela-
cionados con teoremas lı́mite importantes que se usan en la estadı́stica. Se
sugiere consultar textos como Karr (1993), en donde se analizan los resulta-
dos asociados a este tema.
p
Notación: Xn −
→ X.
r
Se denota por Xn − → X. Si r = 1, se le llama convergencia en media; si
r = 2, se le llama convergencia en media cuadrática.
d
Notación: Xn −
→ X.
Tablas de distribuciones
de probabilidad
351
352 B. Tablas de distribuciones de probabilidad
P(X ≤ x)
x 0.0000 0.0100 0.0200 0.0300 0.0400 0.0500 0.0600 0.0700 0.0800 0.0900
0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
B.2. Cuantiles para la distribución Ji-cuadrada 353
P(X ≤ x)
k 0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995
1 0.000 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300
13 3.565 4.107 5.009 5.892 7.042 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.559
25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290
27 11.808 12.879 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.993
29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.336
30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672
354 B. Tablas de distribuciones de probabilidad
P(X ≤ x)
k 0.900 0.950 0.975 0.990 0.995 0.999
1 3.078 6.314 12.706 31.821 63.657 318.309
2 1.886 2.920 4.303 6.965 9.925 22.327
3 1.638 2.353 3.182 4.541 5.841 10.215
4 1.533 2.132 2.776 3.747 4.604 7.173
5 1.476 2.015 2.571 3.365 4.032 5.893
6 1.440 1.943 2.447 3.143 3.707 5.208
7 1.415 1.895 2.365 2.998 3.499 4.785
8 1.397 1.860 2.306 2.896 3.355 4.501
9 1.383 1.833 2.262 2.821 3.250 4.297
10 1.372 1.812 2.228 2.764 3.169 4.144
11 1.363 1.796 2.201 2.718 3.106 4.025
12 1.356 1.782 2.179 2.681 3.055 3.930
13 1.350 1.771 2.160 2.650 3.012 3.852
14 1.345 1.761 2.145 2.624 2.977 3.787
15 1.341 1.753 2.131 2.602 2.947 3.733
16 1.337 1.746 2.120 2.583 2.921 3.686
17 1.333 1.740 2.110 2.567 2.898 3.646
18 1.330 1.734 2.101 2.552 2.878 3.610
19 1.328 1.729 2.093 2.539 2.861 3.579
20 1.325 1.725 2.086 2.528 2.845 3.552
21 1.323 1.721 2.080 2.518 2.831 3.527
22 1.321 1.717 2.074 2.508 2.819 3.505
23 1.319 1.714 2.069 2.500 2.807 3.485
24 1.318 1.711 2.064 2.492 2.797 3.467
25 1.316 1.708 2.060 2.485 2.787 3.450
26 1.315 1.706 2.056 2.479 2.779 3.435
27 1.314 1.703 2.052 2.473 2.771 3.421
28 1.313 1.701 2.048 2.467 2.763 3.408
29 1.311 1.699 2.045 2.462 2.756 3.396
30 1.310 1.697 2.042 2.457 2.750 3.385
∞ 1.282 1.645 1.960 2.326 2.576 3.090
B.4. Cuantiles para la distribución F de Fisher 355
m
P(X ≤ x) n 1 2 3 4 5 6 7 8
0.950 1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883
0.975 1 647.789 799.500 864.163 899.583 921.848 937.111 948.217 956.656
0.990 1 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070
0.950 2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371
0.975 2 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373
0.990 2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374
0.950 3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845
0.975 3 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540
0.990 3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489
0.950 4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041
0.975 4 12.218 10.649 9.979 9.605 9.364 9.197 9.074 8.980
0.990 4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799
0.950 5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818
0.975 5 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757
0.990 5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289
0.950 6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147
0.975 6 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600
0.990 6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102
0.950 7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726
0.975 7 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899
0.990 7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840
0.950 8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438
0.975 8 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433
0.990 8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029
0.950 9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230
0.975 9 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102
0.990 9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467
0.950 10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072
0.975 10 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855
0.990 10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057
0.950 11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948
0.975 11 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664
0.990 11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744
0.950 12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849
0.975 12 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512
0.990 12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499
0.950 13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767
0.975 13 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388
0.990 13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302
0.950 14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699
0.975 14 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285
0.990 14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140
0.950 15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641
0.975 15 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199
0.990 15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004
0.950 16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591
0.975 16 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125
0.990 16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890
356 B. Tablas de distribuciones de probabilidad
m
P(X ≤ x) n 9 10 11 12 13 14 15 16
0.950 1 240.543 241.882 242.983 243.906 244.690 245.364 245.950 246.464
0.975 1 963.285 968.627 973.025 976.708 979.837 982.528 984.867 986.919
0.990 1 6022.473 6055.847 6083.317 6106.321 6125.865 6142.674 6157.285 6170.101
0.950 2 19.385 19.396 19.405 19.413 19.419 19.424 19.429 19.433
0.975 2 39.387 39.398 39.407 39.415 39.421 39.427 39.431 39.435
0.990 2 99.388 99.399 99.408 99.416 99.422 99.428 99.433 99.437
0.950 3 8.812 8.786 8.763 8.745 8.729 8.715 8.703 8.692
0.975 3 14.473 14.419 14.374 14.337 14.304 14.277 14.253 14.232
0.990 3 27.345 27.229 27.133 27.052 26.983 26.924 26.872 26.827
0.950 4 5.999 5.964 5.936 5.912 5.891 5.873 5.858 5.844
0.975 4 8.905 8.844 8.794 8.751 8.715 8.684 8.657 8.633
0.990 4 14.659 14.546 14.452 14.374 14.307 14.249 14.198 14.154
0.950 5 4.772 4.735 4.704 4.678 4.655 4.636 4.619 4.604
0.975 5 6.681 6.619 6.568 6.525 6.488 6.456 6.428 6.403
0.990 5 10.158 10.051 9.963 9.888 9.825 9.770 9.722 9.680
0.950 6 4.099 4.060 4.027 4.000 3.976 3.956 3.938 3.922
0.975 6 5.523 5.461 5.410 5.366 5.329 5.297 5.269 5.244
0.990 6 7.976 7.874 7.790 7.718 7.657 7.605 7.559 7.519
0.950 7 3.677 3.637 3.603 3.575 3.550 3.529 3.511 3.494
0.975 7 4.823 4.761 4.709 4.666 4.628 4.596 4.568 4.543
0.990 7 6.719 6.620 6.538 6.469 6.410 6.359 6.314 6.275
0.950 8 3.388 3.347 3.313 3.284 3.259 3.237 3.218 3.202
0.975 8 4.357 4.295 4.243 4.200 4.162 4.130 4.101 4.076
0.990 8 5.911 5.814 5.734 5.667 5.609 5.559 5.515 5.477
0.950 9 3.179 3.137 3.102 3.073 3.048 3.025 3.006 2.989
0.975 9 4.026 3.964 3.912 3.868 3.831 3.798 3.769 3.744
0.990 9 5.351 5.257 5.178 5.111 5.055 5.005 4.962 4.924
0.950 10 3.020 2.978 2.943 2.913 2.887 2.865 2.845 2.828
0.975 10 3.779 3.717 3.665 3.621 3.583 3.550 3.522 3.496
0.990 10 4.942 4.849 4.772 4.706 4.650 4.601 4.558 4.520
0.950 11 2.896 2.854 2.818 2.788 2.761 2.739 2.719 2.701
0.975 11 3.588 3.526 3.474 3.430 3.392 3.359 3.330 3.304
0.990 11 4.632 4.539 4.462 4.397 4.342 4.293 4.251 4.213
0.950 12 2.796 2.753 2.717 2.687 2.660 2.637 2.617 2.599
0.975 12 3.436 3.374 3.321 3.277 3.239 3.206 3.177 3.152
0.990 12 4.388 4.296 4.220 4.155 4.100 4.052 4.010 3.972
0.950 13 2.714 2.671 2.635 2.604 2.577 2.554 2.533 2.515
0.975 13 3.312 3.250 3.197 3.153 3.115 3.082 3.053 3.027
0.990 13 4.191 4.100 4.025 3.960 3.905 3.857 3.815 3.778
0.950 14 2.646 2.602 2.565 2.534 2.507 2.484 2.463 2.445
0.975 14 3.209 3.147 3.095 3.050 3.012 2.979 2.949 2.923
0.990 14 4.030 3.939 3.864 3.800 3.745 3.698 3.656 3.619
0.950 15 2.588 2.544 2.507 2.475 2.448 2.424 2.403 2.385
0.975 15 3.123 3.060 3.008 2.963 2.925 2.891 2.862 2.836
0.990 15 3.895 3.805 3.730 3.666 3.612 3.564 3.522 3.485
0.950 16 2.538 2.494 2.456 2.425 2.397 2.373 2.352 2.333
0.975 16 3.049 2.986 2.934 2.889 2.851 2.817 2.788 2.761
0.990 16 3.780 3.691 3.616 3.553 3.498 3.451 3.409 3.372
Bibliografı́a
357
358 Bibliografı́a
[29] Newman, J. R. (1956). The World of Mathematics, Vol. III. Simon and
Schuster, New York.
[30] Paul, S., Wang, Y. and Ullah, I. (2019). A review of the Behrens-Fisher
problem and some of its analogs: does the same size fit all? REVSTAT
Statistical Journal volume 17, number 4, 563-597.
[32] Rao, C. R. (1997). Statistics and Truth: Putting Chance to Work. World
Scientific, Singapore, 2nd edition.
[38] Schervish, M. J. (1996). P values: What they are and what they are
not. The American Statistician, 50(3):203–206.
360 Bibliografı́a
[42] Sudhir, P., Wang, Y.-G., and Ullah, I. (2018). A review of the Behrens-
Fisher problem and some of its analogs: Does the same size fit all?
Revstat Statistical Journal.
[43] Velez I., R. and Garcı́a P., A. (2012). Principios de Inferencia Es-
tadı́stica. Universidad Nacional de Educación a Distancia (UNED), 2nd
edition.
[44] Welch, B. L. (1938). The significance of the difference between
two means when the population variances are unequal. Biometrika,
29(3/4):350–362.
[45] Yañez C., S. (2000). La estadı́stica una ciencia del siglo XX. R. A.
Fisher, el genio. Revista Colombiana de Estadı́stica, 23(2):1–14.
[46] Zacks, S. (1971). Theory of Statistical Inference. Probability & Mathe-
matical Statistics Series. John Wiley & Sons.
[47] Zehna, P. W. (1966). Invariance of maximum likelihood estimators. The
Annals of Mathematical Statistics, 37(3):744.
[48] Zsohar, P. (2012). Short introduction to the generalized method of
moments. Hungarian Statistical Review, 16 (Special Number):150–170.
[49] http://www.dm.uba.ar/materias/estadistica M/.
[50] http://www.statslab.cam.ac.uk/˜rrw1/.
Índice analı́tico
361
362 Índice analı́tico
Gosset, 58 Medidas
Grados de libertad, 265 de tendencia central, 27
Gráfica Medidas de dispersión, 29
de barras, 18 Momentos, 329
de pay, 18 Muestra, 5
Muestra aleatoria, 6, 8
Hipótesis Muestreo
compuesta, 230 estratificado, 5
estadı́stica, 227 por conglomerados, 5
prueba de, 231 aleatorio simple, 5
simple, 230 Método
Histograma, 21 de medianas, 133
de momentos, 106
Independencia, 321 de mı́nimos cuadrados, 133,
Independencia estocástica, 328 143
Inferencia Bayesiana, 126 de percentiles, 133
Inferencia estadı́stica, 4 Método basado en estadı́sticas su-
Información ficientes, 196
esperada de Fisher, 151 Método pivotal para intervalos de
por unidad muestral, 152 confianza, 189
Intervalo Métodos de estimación, 106
para el cociente de varianzas
de poblaciones indepen- Nivel de significancia, 270
dientes, 209
para la diferencia de medias p-value, 268
de poblaciones indepen- Partición, 80
dientes, 204 Pearson, 48, 106
para la varianza, 203 Percentil, 28
aleatorio, 185 Probabilidad
Intervalo intercuatil, 24 condicional, 320
Intervalos total, 321
para la media, 201 Propiedad de invarianza, 120
Intervalos de confianza, 183 Prueba
para muestras grandes, 211 de independencia, 286
Ji-cuadrada para bondad de
Lema ajuste, 276
Neyman-Pearson, 240 Prueba más potente, 240
Pruebas
Media de hipótesis, 227
muestral, 27 de hipótesis, 296
Mediana Pruebas de bondad de ajuste, 275
muestral, 27 Pruebas de hipótesis, 4
364 Índice analı́tico
R, 15
Rango, 31
intercuartil, 31
Razón
de verosimilitudes, 256
Razón monótona
de verosimilitud, 251
Región crı́tica, 231
Región de rechazo, 231
UMVUE, 148