STD 108 Bis

Notas para un curso de Probabilidad y Estadı́stica
Borradores: Estimación de parámetros
27 de octubre de 2008
Índice
1. Elementos básicos 2
1.1. Nociones y presupuestos básicos . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Familias paramétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Estimadores insesgados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Método de máxima verosimilitud 12

2.1. Estimador de máxima verosimilitud (emv) . . . . . . . . . . . . . . . . . . 12
2.2. Cálculo del emv para familias regulares . . . . . . . . . . . . . . . . . . . . 12
2.3. Principio de invariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4. Cálculo del emv para familias no regulares . . . . . . . . . . . . . . . . . . 20
3. Intermedio: Poblaciones Normales 23
4. Estimación por intervalo 27

4.1. El método del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5. Intervalos de confianza para Poblaciones Normales 30

5.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2. Media conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.3. Media y varianza desconocidas . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.3.1. Intervalos para la varianza . . . . . . . . . . . . . . . . . . . . . . . 32
5.3.2. Intervalos para la media . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1
6. Apéndice: Demostración del Teorema llave 34
6.1. Enunciado del Teorema 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.2. Preliminares de Análisis y Álgebra . . . . . . . . . . . . . . . . . . . . . . 35
6.3. Lema previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.4. Demostración del Teorema. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
7. Ejercicios Adicionales 37
1. Elementos básicos
La estadı́stica matemática forma parte de la teorı́a de probabilidades en el sentido de
que cada problema de la estadı́stica matemática es, en esencia, un problema (a veces
muy peculiar) de la teorı́a de las probabilidades. Pero la estadı́stica matemática, co-
mo tal, también ocupa una posición independiente en la clasificación de las ciencias.
La estadı́stica matemática puede considerarse como la ciencia del llamado compor-
tamiento inductivo del hombre (y no sólo del hombre) en condiciones cuando éste, a
base de su propia experiencia, debe tomar decisiones con las mı́nimas pérdidas para
él.
Borovkov, A. A. (1984). “Estadı́stica matemática”. Mir, Moscú.
Figura 1: Generador de números aleatorios TROLL.
Grosso modo el problema es el siguiente: observando los resultados producidos por un

generador de números aleatorios, cuya ley es desconocida, se trata de “reproducirlo”.
Ejemplo 1.1. Un generador de números aletorios produce los siguientes resultados
0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0. (1)
(a) ¿Cuál es la ley de distribución que los produce?
(b) Si tuviera que apostarle al 0 o al 1, a cuál de los dos le apostarı́a?
2
Aunque están formuladas de un modo bastante impreciso, las preguntas planteadas en
el Ejemplo 1.1 son preguntas genuinas. Para hacerlas precisas y matemáticamente tratables
debemos construir un modelo probabilistico para los datos observados. Lo más simple es
suponer que los resultados observados son realizaciones de variables aleatorias independi-
entes identicamente distribuidas. Para el caso de los resultados observados en la secuencia
(1) se puede suponer que provienen de variables aleatorias cuya distribución es Bernoulli
de parámetro p.
Con este modelo para los datos observados en (1) la pregunta (a) podrı́a reformularse
del siguiente modo ¿Cuál es el valor del parámetro p? De acuerdo con la ley de los grandes
números (y el teorema central del lı́mite) lo más probable es que el valor del parámetro p
sea próximo al promedio de los datos observados. Para determinar el valor exacto de p se
necesita una sucesión infinita de datos y sólo disponemos de una cantidad limitada (20 en
este caso). La respuesta a la pregunta (a) deberá ser un valor aproximado.
La pregunta (b) es de naturaleza distinta ya que se trata de tomar una decisión. Usando
los resultados observados en (1) hay que decidir si p ≤ 1/2 o p > 1/2. Como no es posible
calcular exactamente el verdadero valor de p (ya que solamente podemos estimarlo), cuando
se tome la decisión se correra el riesgo de equivocarse. Cualquiera sea la regla que se adopte
para decidir si se apostará al 0 o al 1 habrá que evaluar qué probabilidad de equivocarse
se tendrá al tomar la decisión.
La pregunta (a) pertenece a una clase de problemas denominados estimación de parámet-
ros desconocidos. La pregunta (b) pertenece a una clase de problemas denominados verifi-
cación de hipótesis estadı́sticas.
En estas notas vamos a exponer los rudimentos básicos de la teorı́a general que permite
tratar problemas similares a los presentados en el Ejemplo 1.1.
1.1. Nociones y presupuestos básicos

Definición 1.2 (Muestra aleatoria). Sean (Ω, F, P) un espacio de probabilidades y X :
Ω → R una variable aleatoria con función de distribución F (x) := P(X ≤ x). Una muestra
aleatoria de volumen n de la variable aleatoria X es una sucesión X1 , . . . , Xn de variables
aleatorias independientes cada una con la misma distribución de X.
Nota Bene. El espacio de probabilidades (Ω, F, P) modela el experimento aleatorio que

se desea estudiar y la muestra aleatoria de la variable X los resultados de las observaciones.
En la Sección 1.2 repasamos algunos de los modelos más utilizados.
Ingredientes de la teorı́a. En todo lo que sigue supondremos que
1. La función de distribución, F , de la variable aleatoria X es desconocida parcialmente:

se sabe que F pertenece a una familia de distribuciones conocidas que dependen de
un parámetro, F = {Fθ : θ ∈ Θ}, pero no se sabe cuál es el valor del parámetro θ.
2. El conjunto de parámetros posibles, Θ, es no vacı́o y está contenido en Rd .
3
3. Las distribuciones de la familia F = {Fθ : θ ∈ Θ} son distinguibles: Fθ1 6= Fθ2 cuando
θ1 6= θ2 .
4. Las distribuciones de la familia F = {Fθ : θ ∈ Θ} tienen “densidad”. Si se trata
de una familia de distribuciones continuas esto significa que para cada θ ∈ Θ, existe
d
una función densidad de probabilidades (f.d.p.) fθ (x) tal que dx Fθ (x) = fθ (x). Si se
trata de una familia de distribuciones discretas esto significa que para cada θ ∈ Θ,
existe una función de probabilidad (f.p.) fθ (x) tal que Pθ (X = x) = fθ (x).
5. Es posible conseguir muestras aleatorias de la variable X del volumen que se desee.
Esas hipótesis son suficientes para trabajar con todas las familias de distribuciones consid-
eradas en este curso.
1.2. Familias paramétricas

Repasemos algunas de las familias de distribuciones consideradas a lo largo del curso.
1. Distribución normal. El sı́mbolo N (µ, σ 2 ) designa la distribución normal de parámet-

ros (µ, σ 2 ), µ ∈ R y σ 2 > 0, o sea la distribución con densidad de probabilidades

1 (x − µ)2
fµ, σ2 (x) = √ exp − .
σ 2π 2σ 2
2. Distribución gamma. El sı́mbolo Γ(ν, λ) designa la distribución gamma de parámet-

ros (ν, λ), ν > 0 y λ > 0, o sea la distribución con densidad de probabilidades
λν ν−1 −λx
fν, λ (x) = x e 1{x ≥ 0}.
Γ(ν)
3. Distribución exponencial. Es la distribución Γ(1, λ) de parámetro λ > 0 cuya

densidad de probabilidades es
fλ (x) = λe−λx 1{x ≥ 0}.
4. Distribución uniforme. El sı́mbolo U(a, b) designa la distribución uniforme de parámet-

ros (a, b), −∞ < a < b < ∞, o sea la distribución con densidad
1
fa, b (x) = 1{a ≤ x ≤ b}.
b−a
5. Distribución binomial. El sı́mbolo B(n, p) designa la distribución binomial de parámet-

ros (n, p), n ∈ N y p ∈ [0, 1], o sea la distribución con función de probabilidad

n
fn, p (x) = (1 − p)n−x px , x = 0, 1, . . . , n.
x
4
6. Distribución de Bernoulli. Es la distribución B(1, p) de parámetro p ∈ [0, 1], cuya
función de probabilidad es
fp (x) = (1 − p)1−x px , x = 0, 1.
7. Distribución de Poisson. El sı́mbolo Π(λ) designa la distribución de Poisson de

parámetro λ > 0, o sea la distribución con función de probabilidad
λx
fλ (x) = e−λ , x = 0, 1, . . . .
x!
1.3. Estimadores
El punto de partida de la investigación estadı́stica está constituido por una mues-
tra aleatoria, X1 , . . . , Xn , de la distribución desconocida F perteneciente a una familia
paramétrica de distribuciones F = {Fθ : θ ∈ Θ}. Como las distribuciones de la familia F
son distinguibles, lo que se quiere saber es cuál es el parámetro θ ∈ Θ correspondiente a la
distribución F . En otras palabras, se quiere hallar θ ∈ Θ tal que F = Fθ .
Estimar el párametro θ de la distribución desconocida F , basandose en la muestra
aleatoria X1 , . . . , Xn , significa construir una función de la muestra dada, θ̂ := θ̂(X1 , . . . , Xn ),
a valores en el conjunto paramétrico Θ, que permita aproximar el parámetro desconocido
θ. La variable aleatoria θ̂ se denomina un estimador puntual para θ.
Formalmente, “cualquier” función θ̂ de la muestra aleatoria X1 , . . . , Xn que no depende
de parámetros desconocidos se denomina una estadı́stica.
Ejemplo 1.3. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X. Ejemplos
de estadı́sticas son
(i) X(1) = mı́n(X1 , . . . , Xn ),
(ii) X(n) = máx(X1 , . . . , Xn ),
P
(iii) X = n1 ni=1 Xi ,
P
(iv) σ̂ 2 = n1 ni=1 (Xi − X)2 .
En (i) y (ii), mı́n(·) y máx(·) denotan, respectivamente, el mı́nimo y el máximo mues-
trales observados. Por otro lado, X y σ̂ 2 denotan, respectivamente, la media y la varianza
muestrales.
Cualquier estadı́stica que asuma valores en el conjunto paramétrico Θ es un estimador
puntual θ. El adjetivo puntual está puesto para distinguirla de las estimaciones por inter-
valo que veremos más adelante.
En muchas situaciones, lo que interesa es estimar una función g(θ). Por ejemplo, cuando
se considera una muestra aleatoria X1 , . . . , Xn de una variable X ∼ N (µ, σ 2 ) donde µ y
σ 2 son desconocidos entonces θ = (µ, σ 2 ) y el conjunto de parámetros es
Θ = {(µ, σ 2 ) : µ ∈ R y σ 2 > 0}.
5
Si el objetivo es estimar solamente µ, entonces g(θ) = µ.
Definición 1.4. Cualquier estadı́stica que solamente asuma valores en el conjunto de los
posibles valores de g(θ) es un estimador para g(θ).
Uno de los grandes problemas de la estadı́stica es construir estimadores razonables para
el parámetro desconocido θ o para una función g(θ). Existen diversos métodos para elegir
entre todos los estimadores posibles de θ. Cada elección particular del estimador depende
de ciertas propiedades que se consideran “deseables” para la estimación.
Consistencia. Lo mı́nimo que se le puede exigir a un estimador puntual, θ̂(X1 , . . . , Xn ),

es que, en algún sentido, se aproxime al verdadero valor del parámetro cuando el volumen
de la muestra aumenta. En otras palabras, si θ ∈ Θ es tal que F = Fθ y X1 , X2 , . . . es
una sucesión de variables aleatorias independientes cada una con distribución F , en algún
sentido, debe ocurrir que
θ̂(X1 , . . . , Xn ) → θ,
cuando n → ∞.
Por ejemplo, es deseable que el estimador θ̂ tenga la siguiente propiedad, llamada con-
sistencia débil : para cada ǫ > 0 debe cumplir que
lı́m Pθ (|θ̂(X1 , . . . , Xn ) − θ| > ǫ) = 0. (2)

n→∞
Más exigente, es pedirle que tenga la siguiente propiedad, llamada consistencia fuerte:

Pθ lı́m θ̂(X1 , . . . , Xn ) = θ = 1. (3)
n→∞
Normalidad asintótica. También se le puede pedir una propiedad similar a la del

teorema central lı́mite, llamada normalidad asintótica: existe σ = σ(θ) > 0 tal que
√ !
n(θ̂(X1 , . . . , Xn ) − θ)
lı́m Pθ ≤ x = Φ(x), (4)
n→∞ σ
donde Z x
1 2
Φ(x) = √ e−t /2 dt
−∞ 2π
es la función de distribución de una N (0, 1).
Nota Bene. El tratamiento general de las propiedades de consistencia y normalidad

asintótica es demasiado técnico para este curso. A lo largo de estas notas serán mencionadas
solo tangencialmente. Para un examen riguroso de estas cuestiones se requiere un curso
dedicado exclusivamente a la estadı́stica matemática. A los estudiantes interesados en el
tema se les sugiere consultar el libro de A.A. Borovkov mencionado en el epı́grafe de la
Sección.
6
Los problemas de consistencia y normalidad asintótica están relacionados con las leyes
de los grandes números y el teorema central de lı́mite. El siguiente ejemplo, bastante gener-
al, muestra dicha relación para el caso en que se quiere estimar la media de la distribución.
Ejemplo 1.5 (Estimación de media). Sea F = {Fθ : θ ∈ Θ} una familia de distribuciones.
Para cada θ ∈ Θ designemos mediante µ(θ) y σ 2 (θ) la media y la varianza correspondientes
a la distribución Fθ , respectivamente, a las que supondremos finitas. Sea X1 , . . . , Xn una
muestra aleatoria de alguna distribución perteneciente a F. Denotemos mediante X el
promedio de la muestra:
n
1X
X= Xi .
n i=1
Sea θ ∈ Θ, si la muestra aleatoria, X1 , . . . , Xn , proviene de la distribución Fθ , tenemos que
" n # n
1X 1X
Eθ X = Eθ Xi = Eθ [Xi ] = µ(θ)
n i=1 n i=1
y
n
! n
1X 1 X 1
Vθ X = Vθ Xi = 2 Vθ [Xi ] = σ 2 (θ).
n i=1 n i=1 n
Aplicando la desigualdad de Chebychev a X se obtiene que para cada ǫ > 0

Vθ (X) 1 σ 2 (θ)

Pθ X − µ(θ) > ǫ ≤ = → 0,
ǫ2 n ǫ2
cuando n → ∞.
Hasta aquı́, lo único que hicimos es volver a demostrar la ley débil de los grandes
números. Sin embargo, lo que queremos subrayar es que en el contexto de la estimación
de parámetros, la ley débil de los grandes números significa que el promedio de la muestra,
X, es un estimador débilmente consistente para la la media de la distribución, µ(θ).
La consistencia fuerte del promedio, como estimador para la media es equivalente a
la Ley fuerte de los grandes números que afirma que: Si X1 , X2 , . . . es una sucesión de
variables aleatorias independientes e identicamente distribuidas y si existe E[Xi ] = µ,
entonces
P lı́m X = µ = 1.
n→∞
La normalidad asintótica es equivalente al teorema central del lı́mite.
Nota Bene. De todas las propiedades de convergencia la consistencia débil es la mas

simple, en el sentido de que puede establecerse con unas pocas herramientas técnicas. Note
que para verificar la consistencia débil del promedio para estimar media solamente usamos
la desigualdad de Chebychev y las propiedades de la media y la varianza. El razonamiento
utilizado en el Ejemplo 1.5 se puede extender un poco más allá. Para ello necesitamos
introducir algunas nociones y definiciones.
7
1.4. Estimadores insesgados
La primera propiedad que se considera deseable de un estimador puntual es su consis-
tencia (débil). Como casi cualquier estimación razonable tendrá tal propiedad, en su lugar
se impone una propiedad ı́ntimamente relacionada con ella pero algo más restictiva. Esta
propiedad es que la estimación sea insesgada. En lo que sigue indicaremos el significado de
este término y mostraremos su relación con el problema de comparar estimadores.
Error cuadrático medio, sesgo y varianza. Uno de los procedimientos más usados
para evaluar el desempeño de un estimador es considerar su error cuadrático medio. Esta
noción permite precisar el sentido que se le otorga a los enunciados del tipo “el estimador
puntual θ̂(X1 , . . . , Xn ) está próximo de θ”.
Definición 1.6 (Error cuadrático medio). El error cuadrático medio (ECM) de un esti-
mador θ̂ para el parámetro θ se define por
h i
ECM(θ̂) = Eθ (θ̂ − θ)2 . (5)
El ECM se puede descomponer de la siguiente manera (ejercicio)

h i
Eθ (θ̂ − θ)2 = Vθ (θ̂) + B2θ (θ̂), (6)
donde Bθ (θ̂) := Eθ [θ̂]−θ es el llamado sesgo del estimador. El primer término de la descom-
posición (6) describe la “variabilidad” del estimador, y el segundo el “error sistemático”:
Eθ [θ̂] describe alrededor de qué valor fluctúa θ̂ y Vθ (θ̂) mide cuánto fluctúa.
Definición 1.7 (Estimadores insesgados). Diremos que un estimador θ̂ es insesgado para
el parámetro θ si
Eθ [θ̂] = θ.
para todo θ ∈ Θ, o sea Bθ (θ̂) ≡ 0. Si lı́mn→∞ Bθ [θ̂] = 0 para todo θ ∈ Θ, diremos que el
estimador θ̂ es asintóticamente insesgado para θ.
Nota Bene. En el caso en que θ̂ es un estimador insesgado para θ, tenemos que

ECM = Vθ (θ̂),
o sea, el error cuadrático medio de θ̂ se reduce a su varianza.
Nota Bene. Una consecuencia destacable de la descomposición (6) para grandes mues-
tras (n → ∞) es la siguiente: si a medida que se aumenta el volumen de la muestra, el
sesgo y la varianza del estimador θ̂ tienden a cero, entonces, el estimador θ̂ converge en
media cuadrática al verdadero valor del parámetro θ. Más aún, esas propiedades implican
la consistencia débil del estimador.
Teorema 1.8. Sea θ̂ un estimador de θ basado en una muestra de volumen n. Si θ̂ es
asintóticamente insesgado y su varianza tiende a cero, entonces θ̂ es débilmente consistente.
8
Demostración. El resultado se obtiene usando la desigualdad de Chebychev y la iden-
tidad (6):
1 h i 1

Pθ θ̂ − θ > ǫ ≤ 2 Eθ (θ̂ − θ)2 = 2 Vθ (θ̂) + B2θ (θ̂) → 0.
ǫ ǫ
Comparación de estimadores. El error cuadrático medio puede usarse para comparar

estimadores. Diremos que θ̂1 es mejor que θ̂2 si
ECM(θ̂1 ) ≤ ECM(θ̂2 ), (7)
para todo θ, con desigualdad estricta para al menos un valor de θ. En tal caso, el estimador
θ̂2 se dice inadmisible. Si existe un estimador θ̂∗ tal que para todo estimador θ̂ de θ con
θ̂ 6= θ̂∗
ECM(θ̂∗ ) ≤ ECM(θ̂), (8)
para todo θ, con desigualdad estricta para al menos un valor de θ, entonces θ̂∗ se dice
óptimo.
Cuando la comparación se restringe a los estimadores son insesgados, el estimador
óptimo, θ̂∗ , se dice el estimador insesgado de varianza uniformemente mı́nima. Esta de-
nominación resulta de observar que estimadores insesgados la relación (8) adopta la forma
Vθ (θ̂∗ ) ≤ Vθ (θ̂),
para todo θ, con desigualdad estricta para al menos un valor de θ.
1.5. Ejemplos
Ejemplo 1.9. Sean X1 , X2 , X3 una muestra aleatoria de una variable aleatoria X tal que
Eθ [X] = θ y Vθ (X) = 1. Consideremos los estimadores
X1 + X2 + X3 1 1 1
X= y θ̂ = X1 + X2 + X3 .
3 2 4 4
Como vimos en el Ejemplo 1.5 Eθ [X] = θ y Vθ (X) = 31 . Tenemos también que
1 1 1 1 1 1
Eθ [θ̂] = Eθ [X1 ] + Eθ [X2 ] + Eθ [X3 ] = θ + θ + θ = θ
2 4 4 2 4 4
y
1 1 1 1 1 1 6
Vθ (θ̂) = Vθ (X1 ) + Vθ (X2 ) + Vθ (X3 ) = + + = .
4 16 16 4 16 16 16
Como X y θ̂ son insesgados, resulta que X es mejor que θ̂, pues Vθ (X) < Vθ (θ̂) para todo
θ.
9
Ejemplo 1.10 (Estimación de varianza). Sea F = {Fθ : θ ∈ Θ} una familia de dis-
tribuciones. Para cada θ ∈ Θ designemos mediante µ(θ) y σ 2 (θ) la media y la varianza
correspondientes a la distribución Fθ , respectivamente, a las que supondremos finitas. Sea
X1 , . . . , Xn una muestra aleatoria de alguna distribución perteneciente a F. Sean X y σ̂ 2
la media y la varianza muestrales definidas en el Ejemplo 1.3:
n n
1X 2 1X
X := Xi y σ̂ := (Xi − X)2 .
n i=1 n i=1
Para analizar el sesgo de la varianza muestral conviene descomponerla de la siguiente

manera:
n
1X
σ̂ 2 = (Xi − µ(θ))2 − (X − µ(θ))2 , (9)
n i=1
cualquiera sea θ ∈ Θ. 1 Si la muestra aleatoria, X1 , . . . , Xn , proviene de la distribución Fθ ,

al tomar esperanzas en ambos lados de (9) se obtiene
" n #
1 X
Eθ [σ̂ 2 ] = Eθ (Xi − µ(θ))2 − (X − µ(θ))2
n i=1
n
1X
= Eθ (Xi − µ(θ))2 − Eθ (X − µ(θ))2
n i=1
n
1X
= Vθ (Xi ) − Vθ (X). (10)
n i=1
En el Ejemplo 1.5 se mostró que X es un estimador insesgado para la media µ(θ) y que su
varianza vale Vθ (X) = n1 σ 2 (θ). En consecuencia,
n
2 1X
Eθ [σ̂ ] = Vθ (Xi ) − Vθ (X)
n i=1
1 2
= σ 2 (θ) − σ (θ)
n
n−1 2
= σ (θ). (11)
n
Esto demuestra que σ̂ 2 no es un estimador insesgado para la varianza σ 2 (θ). La identidad
Eθ [σ̂ 2 ] = n−1
n
σ 2 (θ) significa que si tomamos repetidas muestras de tamaño n y se promedian
las varianzas muestrales resultantes, el promedio no se aproximará a la verdadera varianza,
1
La descomposición (9) se obtiene haciendo lo siguiente. Para cada i escribimos (Xi − X) en la forma
(Xi − µ(θ)) − (X − µ(θ)). Desarrollando cuadrados obtenemos (Xi − X)2 = (Xi − µ(θ))2 + (X − µ(θ))2 −
2(Xi − µ(θ))(X − µ(θ)). El resultado se obtiene observando que el promedio de los términos cruzados
(Xi − µ(θ))(X − µ(θ)) es igual a (X − µ(θ))2 . (Hacer la cuenta y verificarlo! )
10
sino que de modo sistemático el valor será más pequeño debido al factor (n − 1)/n. Este
factor adquiere importancia en las muestras pequeñas. Si n → ∞, el factor (n − 1)/n → 1
lo que demuestra que σ̂ 2 es un estimador asintóticamente insesgado para la varianza σ 2 (θ).
n
Para eliminar el sesgo en σ̂ 2 , basta multiplicar σ̂ 2 por n−1 . De (11) sigue que
n
2 n 1 X
S := σ̂ 2 = (Xi − X)2 (12)
n−1 n − 1 i=1
es un estimador insesgado para la varianza.
Ejemplo 1.11. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria X ∼

U(0, θ). Vamos a considerar θ̂1 = X y θ̂2 = X(n) como estimadores para θ y estudiaremos
su comportamiento.
Como Eθ [X] = θ/2 y Vθ (X) = θ2 /12, tenemos que
θ θ2
Eθ [θ̂1 ] = Eθ [X] = y Vθ (θ̂1 ) = ., (13)
2 12n
Por lo tanto, θ̂1 es un estimador sesgado para θ. Combinando las identidades (13) en (6),
tenemos que
2
2 θ2 θ θ2 θ2 (1 + 3n) 2
ECM(θ̂1 ) = Vθ (θ̂1 ) + Bθ (θ̂1 ) = + −θ = + = θ . (14)
12n 2 12n 4 12n
Por otro lado, la función densidad de X(n) está dada por
nxn−1
fθ (x) = 1{0 < x < θ},
θn
de donde se deduce que
n nθ2
Eθ [X(n) ] = θ y Vθ (X(n) ) = . (15)
n+1 (n + 1)2 (n + 2)
Por lo tanto, θ̂2 es un estimador asintóticamente insesgado para θ. Combinando las iden-
tidades (15) en (6), obtenemos
2
nθ2 n
ECM(θ̂2 ) = Vθ (θ̂2 ) + B2θ (θ̂2 )
= + θ−θ
(n + 1)2 (n + 2) n+1
nθ2 θ2 2θ2
= + = . (16)
(n + 1)2 (n + 2) (n + 1)2 (n + 1)(n + 2)
Es fácil, pero tedioso, ver que ECM(θ̂2 ) < ECM(θ̂1 ) para todo θ y todo n > 1. Por lo tanto,
X(n) es mejor que X para todo θ y todo n > 1.
11
2. Método de máxima verosimilitud
El método de máxima verosimilitud es un “método universal” para construir esti-
madores puntuales. Su base intuitiva es la siguiente: en los experimentos aleatorios los
resultados observados deben tener alta probabilidad de ocurrir.
Para hacer más precisa esa intuición consideremos una muestra aleatoria, X1 , . . . , Xn ,
de una variable discreta cuya distribución pertenece a una familia F = {Fθ : θ ∈ Θ}.
Sea fθ (x) la función de probabilidad de la distribución Fθ . La probabilidad de observar los
resultados X1 = x1 , . . . , Xn = xn se calcula del siguiente modo:
n
Y n
Y
Pθ (X1 = x1 , . . . , Xn = xn ) = Pθ (Xi = xi ) = fθ (xi ). (17)
i=1 i=1
Si los resultados observables deben tener una alta probabilidad de ocurrir y observamos
que X1 = x1 , . . . , Xn = xn , entonces lo razonable serı́a elegir entre todos los parámetros
posibles, θ ∈ Θ, aquél (o aquellos) que maximicen (17). En consecuencia, Qnse podrı́a estimar
θ como el valor (o los valores) de θ que hace máxima la probabilidad i=1 fθ (xi ).
2.1. Estimador de máxima verosimilitud (emv)

Definición 2.1 (Función de verosimilitud). Sea X1 , . . . , Xn una muestra aleatoria de
tamaño n de una variable aleatoria X cuya distribución pertenece a la familia paramétrica
F = {Fθ : θ ∈ Θ}. Para cada θ ∈ Θ sea fθ (x) la función de densidad (o de probabilidad)
correspondiente a la función de distribución Fθ . La función de densidad (o de probabilidad)
conjunta
n
Y
Lθ (x1 , . . . , xn ) := fθ (xi ), (18)
i=1
como función de θ, se llama la función de verosimilitud de θ.

Definición 2.2 (Estimador de máxima verosimilitud). Un estimador de máxima verosimil-
itud de θ, basado en los valores x1 , . . . , xn de una muestra aleatoria X1 , . . . , Xn , es un valor
θ̂mv ∈ Θ que maximiza la función de verosimilitud Lθ (x1 , . . . , xn ) definida en (18).
Sobre la notación. Para destacar que el valor del estimador de máxima verosimilitud
depende de los valores observados, x1 , . . . , xn , en lugar de θ̂mv escribiremos θ̂mv (x1 , . . . , xn ):
θ̂mv = θ̂mv (x1 , . . . , xn ) := arg máx Lθ (x1 , . . . , xn ). (19)
θ∈Θ
2.2. Cálculo del emv para familias regulares

Sea F = {Fθ : θ ∈ Θ} una familia paramétrica de distribuciones y sea {fθ : θ ∈ Θ} la
familia de funciones de densidad (o de probabilidad) asociada. Diremos que la familia F
es regular si satisface las siguientes condiciones:
12
1. El conjunto paramétrico Θ es abierto.
2. El soporte de las “densidades” asociadas no depende del parámetro. Esto es, existe
un conjunto S(F) tal que sop(fθ ) := {x ∈ R : fθ (x) > 0} = S(F) para todo θ ∈ Θ.
3. Para cada x ∈ S(F), la función f (x, θ) := fθ (x) es derivable con respecto de θ.
Por definición, el estimador de máxima verosimilitud es el valor θ̂mv ∈ Θ hace máxima

a la función de verosimilitud Lθ (x1 , . . . , xn ). Cuando la familia de distribuciones es regular
y el conjunto paramétrico Θ ⊂ R, la función de verosimilitud es derivable y el estimador
de máxima verosimilitud será una raı́z de la ecuación
d
Lθ (x1 , . . . , xn ) = 0. (20)
dθ
Derivar un producto puede ser una tarea sumamente ingrata y desaconsejable si se puede
evitarla. En lo que sigue mostraremos como se puede evitar tan ingrata tarea.
Debido a que la familia es regular los valores observados x1 , . . . , xn deben pertenecer al
soporte común de las densidades: xi ∈ S(F), i = 1, . . . , n. Por lo tanto, cualesquiera sean
los valores observados, x1 , . . . , xn , vale que
n
Y
Lθ (x1 , . . . , xn ) = fθ (xi ) > 0.
i=1
Esto nos habilita a tomar logaritmos y utilizar la propiedad el logaritmo del producto es
igual a la suma de los logaritmos. En otras palabras, para cada (x1 , . . . , xn ) ∈ S(F)n , la
función de θ, log Lθ (x1 , . . . , xn ) está bien definida y vale que
n
Y n
X
log Lθ (x1 , . . . , xn ) = log fθ (xi ) = log fθ (xi ).
i=1 i=1
Como el logaritmo es una función creciente, maximizar la función de verosimilitud o su log-

aritmo son problemas equivalentes. La ventaja de trabajar con logaritmo de la verosimilitud
es que el producto se convierte en una suma y el problema se reduce a resolver la ecuación
d
log Lθ (x1 , . . . , xn ) = 0,
dθ
que adopta la siguiente forma
Xn
d
log fθ (xi ) = 0 (21)
i=1
dθ
mucho más adecuada para el cálculo, que la original ecuación (20).

Por este camino llegamos al siguiente resultado que provee la herramienta adecuada
para el cálculo del emv.
13
Lema 2.3. El estimador de máxima verosimilitud θ̂mv , basado en los valores x1 , . . . , xn
de una muestra aleatoria, correspondiente a una distribución perteneciente a una familia
(uni)paramétrica regular, F, es solución de la siguiente ecuación:
n
X
ψθ (xi ) = 0, (22)
i=1
donde, para cada x ∈ S(F), la función de θ, ψθ (x) se define por

d
ψθ (x) := log fθ (x). (23)
dθ
Nota Bene. Por supuesto que tanto (20) como (22) son condiciones necesarias para que
θ sea un máximo. Para asegurarse que es un máximo deberı́an verificarse las condiciones
de segundo orden. Además debe verificarse que no se trata de un máximo relativo sino
absoluto.
Ejemplo 2.4 (Distribuciones de Bernoulli). Es fácil ver que la familia de distribuciones
{B(1, p) : p ∈ (0, 1)} es una familia uniparamétrica regular: en este caso θ = p, Θ = (0, 1)
y las funciones de probabilidad son de la forma fp (x) = (1 − p)1−x px , x = 0, 1. Tratandose
de una familia regular podemos usar el resultado del Lema 2.3 para encontrar el estimador
de máxima verosimilitud basado en una muestra aleatoria X1 , . . . , Xn .
d
En primer lugar hallamos la expresión de la función ψp (x) = dp log fp (x). Observando
que

log fp (x) = log (1 − p)1−x px = (1 − x) log(1 − p) + x log(p),
y derivando respecto de p obtenemos
1 1
ψp (x) = (x − 1) + x
1−p p
Por lo tanto, la ecuación (22) adopta la forma
n n
1 X 1X
(xi − 1) + xi = 0. (24)
1 − p i=1 p i=1
Un poco de álgebra muestra que para cada pareja a 6= b vale que:

1 1 b
a+ b=0⇔p= . (25)
1−p p b−a
P P P
Sigue de (25), poniendo a = ni=1 (xi − 1) = ni=1 xi − n y b = ni=1 xi , que la solución de
la ecuación (24) es
n
1X
p= xi .
n i=1
14
Con un poco más de trabajo, se puede verificar que dicha solución maximiza el logaritmo
de la verosimilitud.
En resumen, si la muestra aleatoria X1 , . . . , Xn arrojó los valores x1 , . . . , xn , el estimador
de máxima verosimilitud para p resulta ser la media muestral
n
1X
p̂mv = p̂mv (x1 , . . . , xn ) = xi
n i=1
Por lo tanto, el estimador de máxima verosimilitud para p, basado en una muestra aleatoria
X1 , . . . , Xn de variables Bernoulli(p), es el promedio muestral
n
1X
p̂mv (X1 , . . . , Xn ) = Xi . (26)
n i=1
Nota Bene relacionada con el Ejemplo 2.4. El estimador de máxima verosimilitud

para el parámetro p, basado en una muestra aleatoria, X1 , . . . , Xn , de la variable aleatoria
X ∼ B(1, p),
n
1X
X= Xi ,
n i=1
es una variable aleatoria. Subrayamos este hecho para que no se pierda de vista que los
estimadores puntuales son funciones de la muestra aleatoria X1 , . . . , Xn y por lo tanto
son variables aleatorias. En el Ejemplo 2.4, el parámetro p es la media de la distribución
que produce la muestra y el estimador de máxima verosimilitud para p es el promedio
muestral. Por lo tanto, (ver el Ejemplo 1.5), p̂mv es un estimador insesgado, consistente y
asintóticamente normal.
Ejemplo 2.5 (Distribuciones de Bernoulli). Bajo el supuesto de que los valores de la

secuencia (1) que aparece en el Ejemplo 1.1 fueron arrojados por una muestra aleatoria de
tamaño 20 de una variable aleatoria X ∼ B(1, p), el estimador de máxima verosimilitud
arrojará como resultado la siguiente estimación para el parámetro p:
11
p̂mv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = = 0.55
20
Con esta estimación podrı́amos decir que la ley que produce esos valores es la distribución
de Bernoulli B(1, 0.55). Por lo tanto, si queremos “reproducir” el generador de números
aleatorios que produjo esos resultados, debemos simular números aleatorios con distribución
de Bernoulli de parámetro 0.55.
15
Nota Bene relacionada con el Ejemplo 2.4 Si la muestra aleatoria arrojó los valores
1, 1, . . . , 1, es fácil ver que p̂mv = 1, en cambio si arrojó 0, 0, . . . , 0 resulta que p̂mv = 0.
Estos resultados también coinciden con el promedio de los valores observados. Por lo tanto,
el resultado obtenido en (26) se puede extender al caso en que Θ = [0, 1].
Ejemplo 2.6 (Distribuciones exponenciales). La familia de distribuciones exponenciales

{Γ(1, λ) : λ > 0} es una familia uniparamétrica regular: en este caso θ = λ, Θ = (0, ∞)
y las funciones de densidad son de la forma fλ (x) = λe−λx 1{x ≥ 0}. Para encontrar el
estimador de máxima verosimilitud basado en una muestra aleatoria X1 , . . . , Xn usaremos
resultado del Lema 2.3.
d
Hallamos la función ψλ (x) = dλ log fλ (x). Para todo x ≥ 0 vale que

log fλ (x) = log λe−λx = log(λ) − λx.
Derivando respecto de λ se obtiene

1
ψλ (x) = − x,
λ
y la ecuación (22) se transforma en la ecuación
n
1 X
n − xi = 0.
λ i=1
cuya solución es
n
λ = Pn = (x)−1 .
i=1 xi
El lector puede verificar que el valor de λ obtenido maximiza el logaritmo de la verosimil-

itud.
Si la muestra aleatoria X1 , . . . , Xn arrojó los valores x1 , . . . , xn , el estimador de máxima
verosimilitud es
λ̂mv = λ̂mv (x1 , . . . , xn ) = (x)−1 .
Por lo tanto, el estimador de máxima verosimilitud para λ, basado en una muestra aleatoria
X1 , . . . , Xn de variables Γ(1, λ), es
n
!−1
1X
λ̂mv (X1 , . . . , Xn ) = Xi .
n i=1
16
Ejemplo 2.7 (Distribuciones normales con varianza conocida). Sea σ 2 > 0 arbitrario, pero
fijo y conocido. La familia de distribuciones normales {N (µ, σ 2 ) : µ ∈ R} es una familia
regular uniparamétrica. Usando el resultado del Lema 2.3 se puede ver que el estimador de
máxima verosimilitud para µ, basado en una muestra aleatoria X1 , . . . , Xn de una variable
aleatoria X ∼ N (µ, σ 2 ), con σ 2 conocido, es
n
1X
µ̂mv (X1 , . . . , Xn ) = Xi = X
n i=1
Ejemplo 2.8 (Distribuciones normales con media conocida). Sea µ un número real arbi-
trario, pero fijo y conocido. La familia de distribuciones normales {N (µ, σ 2 ) : σ 2 > 0} es
una familia regular uniparamétrica. Usando el resultado del Lema 2.3 se puede ver que el
estimador de máxima verosimilitud para σ 2 , basado en una muestra aleatoria X1 , . . . , Xn
de una variable aleatoria X ∼ N (µ, σ 2 ), con µ conocido, es
n
2 1X
σ̂mv (X1 , . . . , Xn ) = (Xi − µ)2 .
n i=1
Ejemplo 2.9 (Distribuciones normales). La familia de distribuciones normales
{N (µ, σ 2 ) : µ ∈ R, σ 2 > 0}
es una familia regular con parámetro bidimensional. Para encontrar el estimador de máxima
verosimilitud basado en una muestra aleatoria X1 , . . . , Xn usaremos el mismo razonamiento
que nos condujo al resultado del Lema 2.3.
En este caso θ = (µ, σ 2 ), Θ = R × (0, ∞), la función densidad es de la forma

− 21
1
2 −2 (x − µ)2
fµ, σ2 (x) = (2π) σ exp − ,
2σ 2
y la función de verosimilitud es
n
Y
Lµ, σ2 (x1 , . . . , xn ) = fµ, σ2 (xi )
i=1
n
!
−n
n
2 −2 1 X
= (2π) 2 σ exp − 2 (xi − µ)2 .
2σ i=1
Tomando logaritmos se obtiene

n
n n 2 1 X
log Lµ, σ2 (x1 , . . . , xn ) = − log(2π) − log(σ ) − 2 (xi − µ)2 .
2 2 2σ i=1
17
Debido a que log es una función creciente, las funciones Lµ, σ2 (x1 , . . . , xn ) y log Lµ, σ2 (x1 , . . . , xn )
alcanzan su valor máximo en los mismos valores de (µ, σ 2 ). El punto (µ, σ 2 ) donde se al-
canza el máximo de log Lµ, σ2 (x1 , . . . , xn ) se obtiene resolviendo el sistema de ecuaciones
∂ log Lµ, σ2 (x1 , . . . , xn ) ∂ log Lµ, σ2 (x1 , . . . , xn )

= 0, = 0. (27)
∂µ ∂σ 2
Un poco de cálculo muestra que
n
∂ log Lµ, σ2 (x1 , . . . , xn ) 1 X
= (xi − µ),
∂µ σ 2 i=1
n
∂ log Lµ, σ2 (x1 , . . . , xn ) n 1 1 X
= − 2+ (xi − µ)2 .
∂σ 2 2σ 2(σ 2 )2 i=1
Por lo tanto, el sistema (27) se transforma en el sistema

n
!
1 X
xi − nµ = 0,
σ 2 i=1
n
!
1 1 X
−n + 2 (xi − µ)2 = 0.
2σ 2 σ i=1
que tiene como solución

n
1X
µ = xi = x,
n i=1
n
1X
σ2 = (xi − x)2 .
n i=1
Es fácil comprobar que en ese punto de coordenadas (µ, σ 2 ) se alcanza el máximo absoluto
de la función log Lµ, σ2 (x1 , . . . , xn ).
En resumen, si la muestra aleatoria X1 , . . . , Xn arrojó los valores x1 , . . . , xn , el estimador
de máxima verosimilitud para (µ, σ 2 ) es el punto del conjunto parámetrico Pn R × (0, ∞)
1
cuyas coordenadas son el promedio y la varianza muestrales: µ̂mv = n i=1 xi = x y
P
σˆ2 mv = n1 ni=1 (xi − x)2 .
Por lo tanto, el estimador de máxima verosimilitud para (µ, σ 2 ), basado en una mues-
tra aleatoria X1 , . . . , Xn de variables normales, N (µ, σ 2 ), es el punto en R × (0, ∞) de
coordenadas aleatorias
n
1X
µ̂mv (X1 , . . . , Xn ) = X, σˆ2 mv (X1 , . . . , Xn ) = (Xi − X)2 . (28)
n i=1
18
Malas noticias! La familia de distribuciones gamma {Γ(ν, λ) : ν > 0, λ > 0} es una
familia regular con parámetro bidimensional. Sı́!, Sı́!, Ya lo sé!: derivamos el logaritmo de
la verosimilitud y toda esa sanata que ya me tiene ... Todo parece marchar sobre ruedas,
hasta que se intenta hallar un estimador de máxima verosimilitud, basado en una muestra
aleatoria X1 , . . . , Xn , para (ν, λ). (“Esta calle es más angosta de lo que pensás”, dijo el
maestro Zen)
2.3. Principio de invariancia

En lo que sigue presentamos una propidedad bastante importante del método de máxi-
ma verosimilitud.
Teorema 2.10 (Principio de invariancia). Sea X1 , . . . , Xn una muestra aleatoria de una

variable aleatoria X cuya distribución pertenece a la familia paramétrica F = {Fθ : θ ∈ Θ}.
Sea g : Θ → Λ una función biunı́voca de Θ sobre Λ. Si θ̂ es un estimador de máxima
verosimilitud para θ, entonces g(θ̂) es un estimador de máxima verosimilitud para λ = g(θ).
Demostración. Como λ = g(θ) es una función biunı́voca de Θ sobre Λ, la función

de verosimilitud Lθ (x1 , . . . , xn ) se puede expresar en función de λ ya que θ = g −1 (λ).
Denominemos a la función de verosimilitud, como función de λ, por L∗λ (x1 , . . . , xn ). Es
claro que
L∗λ (x1 , . . . , xn ) = Lg−1 (λ) (x1 , . . . , xn )
Sea θ̂mv ∈ Θ un estimador de máxima verosimilitud para θ y sea λ̂ := g(θ̂mv ) ∈ Λ su
imagen por g. Hay que mostrar que vale lo siguiente:
L∗λ̂ (x1 , . . . , xn ) = máx L∗λ (x1 , . . . , xn )

λ∈Λ
Pero esto es inmediato, debido a que
L∗λ̂ (x1 , . . . , xn ) = Lg−1 (λ)

ˆ (x1 , . . . , xn )
= Lθ̂mv (x1 , . . . , xn )
= máx Lθ (x1 , . . . , xn )
θ∈Θ
= máx Lg−1 (λ) (x1 , . . . , xn )
λ∈Λ
= máx L∗λ (x1 , . . . , xn ).
λ∈Λ
Por lo tanto,
d = g(θ̂mv ).
g(θ)mv
19
Ejemplo 2.11. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X ∼ N (µ, 1).
En el Ejemplo 2.7 vimos que µ̂mv = X es el estimador de máxima verosimilitud para µ.
Queremos estimar
g(µ) = Pµ (X ≤ 0) = Φ(−µ).
Por el principio de invariancia, tenemos que
g(µ̂mv ) = Φ(−X)
es el estimador de máxima verosimilitud para Pµ (X ≤ 0).
Nota Bene En general, si λ = g(θ), aunque g no sea biunı́voca, se define el estimador

de máxima verosimilitud de λ por
λ̂ = g(θ̂mv ).
2.4. Cálculo del emv para familias no regulares

Venı́a rápido, muy rápido y se le soltó un patı́n ...
Ahora mostraremos algunos ejemplos correspondientes a familias no regulares. En estos

casos hay que analizar dónde se realiza el máximo “a mano”.
Ejemplo 2.12 (Distribuciones Bernoulli con parámetros discretos). Para simplificar la

exposición vamos a considerar una familia de la forma F = {B(1, p1 ), B(1, p2 )}, donde
0 < p1 < p2 < 1. La familia no es regular debido a que el conjunto paramétrico {p1 , p2 } no
es abierto. En esta situación no puede utilizarse la metodologı́a del Lema 2.3 pues conduce
a resultados totalmente disparatados.
Lo único que se puede hacer es comparar los valores
Pn Pn
xi
Lp1 (x1 , . . . , xn ) = (1 − p1 )n− i=1 xi
p1 i=1
Pn Pn
xi
Lp2 (x1 , . . . , xn ) = (1 − p2 )n− i=1 xi
p2 i=1
y quedarse con el valor de pP que haga máxima la probabilidad de observar el resultado

x1 , x2 , . . . , xn . Poniendo S = ni=1 xi , puede verse que
Lp1 (x1 , . . . , xn ) > Lp2 (x1 , . . . , xn ) ⇔ (1 − p1 )n−S pS1 > (1 − p2 )n−S pS2
S S
n p1 n p2
⇔ (1 − p1 ) > (1 − p2 )
1 − p1 1 − p2
S n
p1 (1 − p2 ) 1 − p2
⇔ >
p2 (1 − p1 ) 1 − p1

p1 (1 − p2 ) 1 − p2
⇔ S log > n log .
p2 (1 − p1 ) 1 − p1
20
Observando que
p1 (1 − p2 )
<1
p2 (1 − p1 )
se obtiene que
−1
1 1 − p2 p1 (1 − p2 )
Lp1 (x1 , . . . , xn ) > Lp2 (x1 , . . . , xn ) ⇔ S < log log .
n 1 − p1 p2 (1 − p1 )
Por lo tanto,
 h i−1
 1−p2 p1 (1−p2 )
 p1
 si x < log 1−p1
log p2 (1−p1 )
,
p̂mv (x1 , . . . , xn ) = (29)

 h i−1
 p si x > log 1−p2
log p1 (1−p2 )
.
2 1−p1 p2 (1−p1 )
Ejemplo 2.13 (Distribuciones de Bernoulli con parámetros discretos). Supongamos que

los valores de la secuencia (1) que aparece en el Ejemplo 1.1 fueron arrojados por una
muestra aleatoria de tamaño 20 de una variable aleatoria X ∼ B(1, p), donde p = 0.5
o p = 0.6. El estimador de máxima verosimilitud se obtendrá comparando el promedio
muestral, x = 0.55, con el valor de la expresión
−1
1 − p2 p1 (1 − p2 )
log log ,
1 − p1 p2 (1 − p1 )
para p1 = 0.5 y p2 = 0.6. Como

−1 −1
0.4 (0.5)(0.4) 4 4
log log = log log = 0.55033...
0.5 (0.6)(0.5) 5 6
y 0.55 < 0.55033, el estimador de máxima verosimilitud, basado en las observaciones (1),
será
p̂mv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = 0.5.
Ejemplo 2.14 (Distribución uniforme). La familia {U(0, θ) : θ > 0} de distribuciones

uniformes no es una familia regular debido a que el soporte de la densidad de la distribución
U(0, θ) es [0, θ] (y depende claramente del valor del parámetro θ). En esta situación támpoco
puede utilizarse la metodologı́a del Lema 2.3. En este caso Θ = (0, ∞) y las funciones de
densidad son de la forma
1
fθ (x) = 1{0 ≤ x ≤ θ}.
θ
21
La función de verosimilitud es
n
Y 1
Lθ (x1 , . . . , xn ) = 1{0 ≤ xi ≤ θ}
i=1
θ
n
1 Y
= n 1{0 ≤ xi ≤ θ}
θ i=1

1
= n 1 máx xi ≤ θ .
θ i=1,...,n
Si θ < máxi xi , entonces Lθ = 0. Si θ ≥ máxi xi , entonces Lθ = θ−n , una función decreciente

en θ. Por lo tanto, su máximo se alcanza en
θ = máx xi . (30)
i=1,...,n
Por lo tanto, el estimador de máxima verosimilitud para θ, basado en una muestra aleatoria
X1 , . . . , Xn de una variable aleatoria X ∼ U(0, θ), es el máximo de la muestra
θ̂mv = X(n) := máx Xi . (31)
i=1,...,n
Ejemplo 2.15 (Distribución uniforme). La familia {U(θ − 1/2, θ + 1/2) : θ ∈ R} de

distribuciones uniformes no es una familia regular debido a que el soporte de la densidad
de la distribución U(θ − 1/2, θ + 1/2) es [θ − 1/2, θ + 1/2] (y depende claramente del valor
del parámetro θ). En este caso Θ = R y las funciones de densidad son de la forma
fθ (x) = 1{θ − 1/2 ≤ x ≤ θ + 1/2}.
La función de verosimilitud es
n
Y
Lθ (x1 , . . . , xn ) = 1{θ − 1/2 ≤ xi ≤ θ + 1/2}
i=1

= 1 máx xi − 1/2 ≤ θ ≤ mı́n xi + 1/2
i=1,...,n i=1,...,n

= 1 x(n) − 1/2 ≤ θ ≤ x(1) + 1/2 ,
pues
θ − 1/2 ≤ xi ≤ θ + 1/2, i = 1, . . . , n,
si y solamente si
θ ≤ xi + 1/2 y xi − 1/2 ≤ θ, i = 1, . . . , n,
Como Lθ (x1 , . . . , xn ) se anula para θ < x(n) y para θ > x(1) + 1/2 y es constantemente 1
en el intervalo [x(n) − 1/2, x(1) + 1/2], tenemos que cualquier punto de ese intervalo es un
estimador de máxima verosimilitud para θ. En particular,
x(1) + x(n)
θ̂ =
2
es un estimador de máxima verosimilitud para θ. Etc...
22
3. Intermedio: Poblaciones Normales
En los Ejemplos 2.7, 2.8 y 2.9 se obtuvieron los estimadores de máxima verosimili-
tud para la media y la varianza de poblaciones normales. En esta sección estudiaremos
sus propiedades. Debido a que los estimadores de parámetros son variables aleatorias sus
propiedades dependen de su distribución de probabilidades. Para analizar el sesgo de un
estimador hay que conocer su esperanza; para analizar su consistencia débil hay que cono-
cer su varianza, etc. En lo que sigue, dependiendo del caso, mostraremos como se obtienen
las distribuciones de los estimadores mencionados. Los resultados que vamos a presentar
se utilizan con bastante frecuencia en la construcción de intervalos de confianza y test de
hipótesis.
Nota Bene sobre pivotes. En muchos casos, la distribución de una variable aleatoria se
obtiene relacionandola con alguna distribución conocida. Esto se consigue mediante alguna
transformación de variables. Para ser más precisos, sea X = (X1 , . . . , Xn ) una muestra
aleatoria de una variable aleatoria X cuya distribución depende del parámetro θ y sea
θ̂(X) una estadı́stica o un estimador puntual de θ. Una variable aleatoria de la forma
G(θ̂(X), θ) se llama un un pivote para θ basado en θ̂(X) si su distribución no depende de
θ (ni de ningún otro parámetro desconocido, cuando hay varios parámetros.)
Escenario 1: varianza conocida

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ),
con varianza σ 2 conocida. De acuerdo con el Ejemplo 2.7 el estimador de máxima verosimil-
itud para µ, basado en X, es
n
1X
µ̂mv (X) = Xi = X.
n i=1
En este caso, la distribución de X se obtiene utilizando los resultados sobre sumas de

normales independientes y de cambio de escala:

σ2
X ∼ N µ, . (32)
n
De (32) es fácil conseguir un pivote para µ basado en X:

√
n X −µ
∼ N (0, 1) .
σ
Escenario 2: media conocida

con media µ conocida. De acuerdo con el Ejemplo 2.8 el estimador de máxima verosimilitud
23
para σ 2 , basado en X, es
n
1X
σb2 mv (X) = (Xi − µ)2 .
n i=1
Dos problemas ı́ntimamente relacionados: Cuál es la distribución de la variable aleatoria

σb2 mv (X)? Cómo se construye un pivote para σ 2 ?
Construyendo un pivote. En primer lugar vamos a construir un pivote para σ 2 basado

en X = (X1 , . . . , Xn ). Sabemos que las variables aleatorias X1 , . . . , Xn son independientes
y N (µ, σ 2 ) con media conocida. Para “liberarnos” del parámetro desconocido podemos
estandarizar las variables Xi convirtiendolas en N (0, 1):
X −µ
Zi := .
σ
Sumando los cuadrados de las variables estandarizadas obtenemos lo siguiente
n
X n
X n
(Xi − µ)2 1 X
Zi2 = = 2 (Xi − µ)2
i=1 i=1
σ2 σ i=1
n
!
n 1X n
= (Xi − µ)2 = 2 σb2 mv (X) (33)
σ2 n i=1 σ
Las igualdades (33) relacionan la variable aleatoria σb2 mv (X) con una suma de cuadrados de
normales N (0, 1) independientes que no depende de la varianza σ 2 ni de ningún parámetro
desconocido. Por lo tanto,
n b2
σ mv (X)
σ2
para σ 2 basado en σb2 mv (X), cuya distribución es la distribución de una suma

es un pivote P
de la forma ni=1 Zi2 , donde las Zi son N (0, 1) independientes.
Definición 3.1 (Distribución chi-cuadrado). Se llama Pndistribución chi-cuadrado con n

2 2
grados de libertad (denotada χn ) a la distribución de i=1 Zi , donde las Zi son normales
N (0, 1) independientes.
Caracterización de la distribución chi-cuadrado. En lo que sigue demostraremos

que la distribución χ2n es un caso particular de la distribución Gamma. Más precisamente,

2 n 1
χn = Γ , .
2 2
24
Caso n = 1. La función de distribución de una variable aleatoria χ21 es F (x) = P(Z 2 ≤ x),
donde Z es N (0, 1). Para cada x > 0, vale que
Z √
x
2
√ √ √ 1 2
F (x) = P(Z ≤ x) = P(|Z| ≤ x) = P(− x ≤ Z ≤ x) = √
√ e−t /2 dt.
− x 2π
Usando el teorema fundamental del cálculo integral y la regla de la cadena, podemos

obtener la densidad de probabilidades de la distribución χ21 . Para cada x > 0, vale que
Z √x
d d 1 2
f (x) = F (x) = √ e−t /2 dt
dx dx − x 2π
√

1 −( x)2 /2 d
√ √ −(− x)2 /2 d
√ √
= √ e ( x) − e (− x)
2π dx dx

1 −x/2 1 −x/2 1 1 −x/2 1
= √ e √ +e √ =√ e √
2π 2 x 2 x 2π x
1 1
(1/2) 2 −1/2 −(1/2)x (1/2) 2 1 −1 −(1/2)x
= √ x e = √ x2 e . (34)
π π
La última expresión que aparece en el lado derecho de la identidad (34) es la expresión de
la densidad de la distribución Γ 12 , 12 . Por lo tanto,

2 1 1
χ1 = Γ , .
2 2
Caso general. Basta recordar que la suma de variables Γ iid también es Γ.
Nota Bene. La distribución χ2n no es simétrica.

0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25
Figura 2: Gráfico de la función densidad de probabilidad de la distribución χ27 .
25
Corolario 3.2. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼
N (µ, σ 2 ), con media µ conocida. El estimador de máxima verosimilitud para la varianza
P
σ 2 , σb2 mv (X) = n1 ni=1 (Xi − µ)2 , se distribuye como una variable aleatoria de la forma
σ2 2 n 1

n
Y n , donde Y n ∼ χ n = Γ ,
2 2
. En particular, para cada σ 2 > 0 vale que
σ2 σ 2 (n/2)
Eσ2 [σb2 mv (X)] = Eσ2 [Yn ] = = σ2, (35)
n n (1/2)
(σ 2 )2 (σ 2 )2 (n/2) 2(σ 2 )2
Vσ2 (σb2 mv (X)) = Vσ 2 (Y n ) = = . (36)
n2 n2 (1/2)2 n
La identidad (35) significa que σb2 mv (X) es un estimador insesgado para la varianza. La
identidad (36) implica que lı́mn→∞ Vσ2 (σb2 mv (X)) = 0. En consecuencia, σb2 mv (X) es un
estimador insesgado y débilmente consistente.
Escenario 3: media y varianza desconocidas

con media µ y varianza desconocidas. De acuerdo con el Ejemplo 2.9, los estimadores de
máxima verosimilitud para la media y la varianza, basados en X, son, respectivamente,
n
1X
µ̂mv (X) = X, σb2 mv (X) = (Xi − X)2 . (37)
n i=1
P
La distribución de la variable aleatoria n1 ni=1 (Xi − X)2 se obtiene de un modo más
complicado y se basa en el siguiente resultado.
Teorema 3.3 (Llave). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución
N (µ, σ 2 ). Valen las siguientes afirmaciones:
√
n(X−µ)
(a) Z = σ
tiene distribución N (0, 1).
P
(b) U = n−1
σ2
S 2 = σ12 ni=1 (Xi − X)2 tiene distribución χ2n−1 .
(c) Z y U son variables aleatorias independientes.
Nota Bene. El calificativo de “llave” para el Teorema 3.3 está puesto para destacar que
sus resultados son la clave fundamental en la construcción de intervalos de confianza y de
reglas de decisión sobre hipótesis estadı́sticas para distribuciones normales. La prueba de
este Teorema es bastante técnica y puede verse en el Apéndice.
Corolario 3.4. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼
N (µ, σ 2 ), con media µ y varianza σ 2 desconocidas. El estimador de máxima verosimilitud
P
para la varianza, σˆ2 mv (X) = n1 ni=1 (Xi − X)2 , se distribuye como una variable aleatoria
26
σ2 n−1 1

de la forma n
U, donde U ∼ χ2n−1 = Γ 2
,2 . En particular, para cada (µ, σ 2 ) vale que
b2
σ2 σ 2 ((n − 1)/2) n−1 2
E [σ mv (X)] =
µ,σ 2 Eµ,σ [U ] =
2 = σ , (38)
n n (1/2) n
(σ 2 )2 (σ 2 )2 ((n − 1)/2) 2(n − 1) 2 2
Vµ, σ2 (σb2 mv (X)) = 2
V µ,σ 2 (U ) =
2 2
= (σ ) . (39)
n n (1/2) n2
La identidad (38) significa que σb2 mv (X) es un estimador SESGADO para la varianza,
pero asintóticamente insesgado debido a que lı́mn→∞ Eµ,σ2 [σb2 mv (X)] = σ 2 . La identidad
(39) implica que lı́mn→∞ Vµ,σ2 (σb2 mv (X)) = 0. En consecuencia, σb2 mv (X) es un estimador
sesgado, asintóticamente insesgado y débilmente consistente.
4. Estimación por intervalo

Hasta ahora hemos estudiado algunas propiedades y métodos de busqueda de estima-
ciones puntuales de un parámetro desconocido que determina la función de distribución Fθ
de la familia F = {Fθ : θ ∈ Θ} correspondiente a la muestra aleatoria X = (X1 , . . . , Xn ).
Las estimaciones puntuales se utilizan en los casos que debemos usar el número θ̂ en lugar
del θ desconocido para “enchufarlo” en la función de distribución.
En lo que sigue presentaremos otro enfoque de la cuestión que también tiene gran apli-
cación. La idea básica es la siguiente: aunque no podemos determinar exactamente el valor
de θ, basándonos en una muestra dada, podemos tratar de construir un intervalo [θ− , θ+ ],
que, con una probabilidad bastante alta, sea capaz de “capturar” el valor desconocido θ.
Para formalizar esta idea, consideramos una muestra aleatoria X = (X1 , . . . , Xn ) de la
variable aleatoria X cuya función de distribución F (x) := P(X ≤ x), pertenece a la familia
paramétrica de distribuciones (distinguibles) F = {Fθ : θ ∈ Θ}.
Definición 4.1 (Intervalo de confianza). Un intervalo de confianza para θ, de nivel β, es
un intervalo (aleatorio) I = I(X), que depende de la muestra aleatoria X, tal que
Pθ (θ ∈ I(X)) = β, (40)
para todo θ ∈ Θ.
Definición 4.2 (Cotas de confianza). Una cota inferior de confianza para θ, de nivel β,
basada en la muestra aleatoria X, es una variable aleatoria θ1 (X) tal que
Pθ (θ1 (X) ≤ θ) = β, (41)
Una cota superior de confianza para θ, de nivel β, basada en la muestra aleatoria X,
es una variable aleatoria θ2 (X) tal que
Pθ (θ ≤ θ2 (X)) = β, (42)
27
Observación 4.3. Sean θ1 (X) una cota inferior de confianza de nivel β1 > 1/2 y θ2 (X)
una cota superior de confianza de nivel β2 > 1/2, tales que Pθ (θ1 (X) ≤ θ2 (X)) = 1 para
todo θ ∈ Θ. Entonces,
I(X) = [θ1 (X), θ2 (X)]
define un intervalo de confianza para θ de nivel β = β1 + β2 − 1. En efecto,
Pθ (θ ∈ I(X)) = 1 − Pθ (θ < θ1 (X) o θ > θ2 (X))

= 1 − Pθ (θ < θ1 (X)) − Pθ (θ > θ2 (X))
= 1 − (1 − β1 ) − (1 − β2 ) = β1 + β2 − 1. (43)
La identidad (43) muestra que la construcción de intervalos de confianza se reduce a la

construcción de cotas inferiores y superiores. Más precisamente, si se quiere construir un
intervalo de confianza de nivel β, basta construir una cota inferior de nivel β1 = (1 + β)/2
y una cota superior de nivel β2 = (1 + β)/2.
4.1. El método del pivote

Cuando se quieren construir intervalos de confianza para θ, basados en una muestra
X, lo más natural es comenzar la construcción apoyandose en algún estimador puntual
del parámetro θ̂(X) (cuya distribución depende de θ). Una técnica general para construir
intervalos de confianza, llamada el método del pivote, consiste en transformar el estimador
θ̂(X) hasta convertirlo en una variable aleatoria cuya distribución sea “conocida” y no de-
penda de θ. Para que la transformación sea útil no debe depender de ningún otro parámetro
desconocido.
Definición 4.4 (Pivote). Una variable aleatoria Q(X1 , . . . , Xn ; θ) = Q(X; θ) se dice una
cantidad pivotal o un pivote para el parámetro θ si su distribución no depende de θ (ni de
ningún parámetro desconocido, cuando hay varios parámetros).
Si se consigue construir un pivote Q(X, θ) para el parámetro θ, el problema de la

construcción de intervalos de confianza, de nivel β, se descompone en dos partes:
1. Encontrar pareja de números reales a < b tales que Pθ (a ≤ Q(X; θ) ≤ b) = β.
2. Despejar el parámetro θ de las desigualdades a ≤ Q (X, θ) ≤ b.
Esta tarea puede simplificarse si se dispone de un estimador puntual, θ̂(X), para θ y

de una transformación G(t; θ) tales que
(i) Q(X; θ) = G(θ̂(X); θ) es un pivote para θ.
(ii) Para cada t, la función G(t; θ) es continua y estrictamente monótona en la variable

θ.
28
En tal caso puede verse que para cada X existen θ1 (X) y θ2 (X) tales que
a ≤ Q(X; θ) ≤ b ⇔ θ1 (X) ≤ θ ≤ θ2 (X)
y entonces
Pθ (θ1 (X) ≤ θ ≤ θ2 (X)) = β,
de modo que [θ1 (X), θ2 (X)] es un intervalo aleatorio que contiene a θ con probabilidad β.
4.2. Ejemplo
Ejemplo 4.5 (Poblaciones exponenciales). Sea X = (X1 , . . . , Xn ) una muestra aleatoria
de una varibale aleatoria X ∼ Γ(1, λ), λ > 0.
P
Construyendo un pivote para λ. Sabemos que la suma S = ni=1 Xi tiene distribución
Γ(n, λ). Como la distribución de S depende de λ, S no es un pivote para λ. Sin embargo,
podemos liberarnos de λ utilizando un cambio de variables lineal de la forma T = aS,
donde a es positivo y elegido adecuadamente para nuestros propósitos. Si a > 0 y T = aS,
entonces T ∼ Γ n, λa . Poniendo a = 2λ, resulta que T = 2λS ∼ Γ n, 21 = χ22n . Por lo
tanto,
n
X
Q(X, λ) = 2λ Xi ∼ χ22n
i=1
es un pivote para λ basado en X.
Construyendo un intervalo de confianza. Dado el nivel de confianza β ∈ (0, 1),

tenemos que para cada > 0 vale que

Pλ χ22n,(1−β)/2 ≤ Q(X, λ) ≤ χ22n,(1+β)/2 ,
donde para cada γ ∈ (0, 1), χ22n, γ designa el único punto de la recta a cuya izquierda queda
una región de probabilidad γ para la distribución χ22n .
Despejando λ de las desigualdades
n
X
χ22n,(1−β)/2 ≤ 2λ Xi ≤ χ22n,(1+β)/2
i=1
obtenemos que el intervalo I(X) definido por

" 2 #
χ2n,(1−β)/2 χ22n,(1+β)/2
I(X) = P , P
2 ni=1 Xi 2 ni=1 Xi
es un intervalo de confianza para λ de nivel β.
29
Consideremos ahora las siguientes 10 observaciones
0.5380, 0.4470, 0.2398, 0.5365, 0.0061,

0.3165, 0.0086, 0.0064, 0.1995, 0.9008.
P
En tal caso tenemos 10 i=1 = 3.1992. Tomando β = 0.95, tenemos de la tabla de la dis-
tribución χ220 que χ220,0.025 = 9.59 y χ220,0.975 = 34.17, entonces el intervalo [1.50, 5.34] es un
intervalo de confianza para λ de nivel β = 0.95.
5. Intervalos de confianza para Poblaciones Normales

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ).
En lo que sigue mostraremos como construir intervalos de confianza para la media µ y la
varianza σ 2 basados en la muestra X.
Los intervalos se van a construir utilizando el principio del pivote enunciado en la Sec-
ción 4 y los resultados sobre poblaciones normales obtenidos en cada uno de los escenarios
posibles presentados en la Sección 3.
Notación: En todo lo que sigue usaremos la siguiente notación: para cada γ ∈ (0, 1), zγ
será el único número real tal que Φ(zγ ) = γ. Graficamente, a izquierda del punto zγ el área
bajo la campana de Gauss es igual a γ.
Nota Bene. De la simetrı́a de la campana de Gauss, se deduce que para cada β ∈ (0, 1)
vale que z(1−β)/2 = −z(1+β)/2 . Por lo tanto, para Z ∼ N (0, 1) vale que
1+β 1−β
P −z(1+β)/2 ≤ Z ≤ z(1+β)/2 = Φ z(1+β)/2 − Φ −z(1+β)/2 = − = β.
2 2
5.1. Varianza conocida

Si la varianza σ 2 es conocida, un pivote para µ, basado en X, es
√
n(X − µ)
Q(X, µ) =
σ2
y tiene distribución N (0, 1). En consecuencia, dado el nivel de confianza β ∈ (0, 1), tenemos
que para cada µ ∈ R vale que

β = Pµ −z(1+β)/2 ≤ Q(X, µ) ≤ z(1+β)/2
Despejando µ de las desigualdades

√
n(X − µ)
−z(1+β)/2 ≤ ≤ z(1+β)/2 .
σ
30

σ σ
I(X) = X − √ z(1+β)/2 , X + √ z(1+β)/2 ,
n n
es un intervalo de confianza para µ de nivel β.
5.2. Media conocida

Si la media µ es conocida, un pivote para σ 2 , basado en X, es
n b2
Q(X, σ 2 ) = σ mv ,
σ2
y tiene distribución χ2n . En consecuencia,
5.3. Media y varianza desconocidas

dado el nivel de confianza β ∈ (0, 1), tenemos que para cada σ 2 > 0 vale que

β = Pσ2 χ2n,(1−β)/2 ≤ Q(X, σ 2 ) ≤ χ2n,(1+β)/2 ,
donde para cada γ ∈ (0, 1), χ2n, γ designa el único punto de la recta a cuya izquierda queda
una región de probabilidad γ para la distribución χ2n .
Despejando σ 2 de las desigualdades
n b2
χ2n,(1−β)/2 ≤ 2
σ mv ≤ χ2n,(1+β)/2
σ
" #
nσˆ2 mv nσˆ2 mv
I(X) = ,
χ2n, (1+β)/2 χ2n, (1−β)/2
es un intervalo de confianza para σ 2 de nivel β.

En este escenario la dificultad del método consiste en conseguir pivotes para los parámet-
ros desconocidos. Esta dificultad se supera introduciendo las distribuciones t de Student y
utilizando los resultados del Teorema 3.3 según el cual si X = (X1 , . . . , Xn ) es una muestra
aleatoria de una normal N (µ, σ 2 ), vale que
√
n(X−µ)
(a) Z = σ
Pn
(b) U = (n−1)
σ 2 S 2
= σ
1
2
2 2
i=1 (Xi − X) tiene distribución χn−1 .
31
Nota Bene. De la propiedad (b) sigue Q(X, σ 2 ) = (n−1)S 2 /σ 2 es un pivote para σ 2 cuya
distribución es χ2n−1 . Esto permite resolver el problema de la construcción de intervalos de
confianza para la varianza σ 2 adaptando la secuencia desarrollada en la Sección 5.2 para
el caso en que la media µ es conocida. Sin embargo, a diferencia de lo que ocurrı́a cuando
conocı́amos la varianza σ 2 , esta vez la propiedad (a), por si sola, resultará insuficiente
para construir intervalos de confianza
√ para la media µ. Esto es ası́ debido a que en este
caso aunque la distribución de n(X − µ)/σ es conocida, la transformación depende del
parámetro desconocido σ 2 y por lo tanto no es un pivote para µ.
5.3.1. Intervalos para la varianza

Sabemos que
(n − 1) 2
Q(X, σ 2 ) = S ,
σ2
es un pivote para σ 2 , basado en X, cuya distribución es χ2n−1 . Como en la Sección 5.2 de
la igualdad

Pµ,σ2 χ2n−1,(1−β)/2 ≤ Q(X, σ 2 ) ≤ χ2n−1,(1+β)/2 = β,
se deduce que " #

(n − 1)S 2 (n − 1)S 2
I(X) = ,
χ2n−1, (1+β)/2 χ2n−1, (1−β)/2
es un intervalo de confianza para σ 2 de nivel β.
Definición 5.1 (La distribución t de Student). Sean Z y U variables aleatorias indepen-

dientes con distribuciones N (0, 1) y χ2k , respectivamente. La distribución de la variable
Z
T =p
U/k
se llama distribución t de Student con k grados de libertad y se denota mediante tk .
Observación 5.2. Cuando k es grande la distribución tk se parece mucho a la distribución

N (0, 1). Con un poco de trabajo (cambios de variables) se puede ver que la distribución
t de Student con k grados de libertad tiene una función densidad de probabilidad de la
forma:
k+1
1 Γ k+12 x 2 − 2
√ 1+ .
kπ Γ k2 k
El lector puede consultar cualquier libro de Estadı́stica.
32
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−5 −4 −3 −2 −1 0 1 2 3 4 5
Figura 3: Comparación de la función densidad de probabilidad de una distribución t7 (lı́nea

solida) con la de la distribución N (0, 1) (lı́nea punteada).
5.3.2. Intervalos para la media

2
√ de una variable aleatoria X ∼ N (µ, 2σ ).
Sea X = (X1 , . . . , Xn ) una muestra aleatoria
Aunque en este contexto la transformación n(X − µ)/σ es inútil porque ahora σ es
un parámetro desconocido, el Teorema 3.3 muestra que este problema se puede resolver
reemplazando la desconocida σ 2 por su estimación insesgada S 2 . Concretamente, tenemos
que
√
n(X − µ)
Q(X, µ) =
S
es un pivote para µ y su distribución es una t de Student con n − 1 grados de libertad (en
sı́mbolos, Q(X, µ) ∼ tn−1 ). En efecto, basta observar que
√ √
n(X − µ)/σ n(X − µ)/σ Z
Q(X, µ) = = p =p ,
S/σ S 2 /σ 2 U/(n − 1)
√
donde Z = n(X − µ)/σ ∼ N (0, 1) y U = (n−1) σ2
S 2 ∼ χ2n−1 son variables aleatorias
independientes (ver la propiedad (c) del Teorema 3.3).
Designando por tn−1, γ al único número real tal que P(Q(X, µ) ≤ tn−1,γ ) = γ y usando
que la densidad de la distribución tn−1 es simétrica respecto del origen, tenemos que

Pµ,σ2 −tn−1,(1+β)/2 ≤ Q(X, µ) ≤ tn−1,(1+β)/2 = β
Despejando µ se obtiene que

S S
I(X) = X − √ tn−1, (1+β)/2 , X + √ tn−1, (1+β)/2
n n
es un intervalo de confianza para la media µ de nivel β.
33
5.4. Ejemplo
Para fijar ideas vamos a construir intervalos de confianza de nivel β = 0.95 para la
media y la varianza de una variable normal N (µ, σ 2 ), basados en una muestra aleatoria de
volumen n = 8 que arrojó los resultados siguientes: 9, 14, 10, 12, 7, 13, 11, 12.
El problema se resuelve recurriendo a las tablas de las distribuciones χ2 y t y haciendo
algunas cuentas.
Como n = 8 consultamos las tablas de χ27 y de t7 . Para el nivel β = 0.95 tenemos
que (1 + β)/2 = 0.975 y (1 − β)/2 = 0.025. De acuerdo con las tablas χ27, 0.975 = 16.0127,
χ27, 0.025 = 1.6898 y t7, 0.975 = 2.3646. Por otra parte, X = 11, S 2 = 36/7 = 5.1428 y
S = 2.2677.
Algunas cuentas más (y un poco de paciencia) permiten rematar este asunto. Salvo
errores de cuentas, I1 = [2.248, 21.304] es un intervalo de confianza de nivel 0.95 para la
varianza, mientras que I2 = [9.104, 12.895] es un intervalo de confianza de nivel 0.95 para
la media.
6. Apéndice: Demostración del Teorema llave

6.1. Enunciado del Teorema 3.3
El objetivo de este apéndice es demostrar que si X = (X1 , . . . , Xn ) es una muestra
aleatoria de una distribución N (µ, σ 2 ), entonces
√
n(X−µ)
(a) Z = σ
P
(b) U = (n−1)
σ2
S 2 = σ12 ni=1 (Xi − X)2 tiene distribución χ2n−1 .
Observación 6.1. Sin perder generalidad puede suponerse que µ = 0.
En efecto, basta poner Xi∗ = Xi − µ. Las variables Xi∗ son independientes y tienen
distribución N (0, σ 2 ). Además
n n n
1X ∗ 1X 1X
X∗ = Xi = (Xi − µ) = Xi − µ = X − µ.
n i=1 n i=1 n i=1
En consecuencia, Xi∗ − X ∗ = Xi − X para todo i = 1, . . . , n.
34
6.2. Preliminares de Análisis y Álgebra
En la prueba del Teorema 3.3 se usarán algunas nociones de Álgebra Lı́neal2 y el
Teorema de cambio de variables para la integral múltiple3 .
Teorema 6.2 (Cambio de variables en la integral múltiple). Sea f : Rn → R una función
integrable. Sea g : Rn → Rn , g = (g1 , . . . , gn ) una aplicación biyectiva, cuyas componentes
tienen derivadas parciales de primer orden continuas. Esto es, para todo 1 ≤ i, j ≤ n, las
funciones ∂y∂ j gi (y) son continuas. Si el Jacobiano de g es diferente de cero en cası́ todo
punto, entonces,
Z Z
f (x)dx = f (g(y))|Jg (y)|dy,
A g −1 (A)

n ∂gi (y)
para todo conjunto abierto A ⊂ R , donde Jg (y) = det ∂yj
.
i,j
El siguiente resultado, que caracteriza la distribución de un cambio de variables aleato-

rias, es una consecuencia inmediata del Teorema 6.2.
Corolario 6.3. Sea X un vector aleatorio n-dimensional con función densidad de proba-
bilidad fX (x). Sea ϕ : Rn → Rn una aplicación que satisface las hipótesis del Teorema 6.2.
Entonces, el vector aleatorio Y = ϕ(X) tiene función densidad de probabilidad fY (y) de
la forma:
fY (y) = fX (ϕ−1 (y))|Jϕ−1 (y)|.
Demostración. Cualquiera sea el conjunto abierto A se tiene que

Z
−1
P (Y ∈ A) = P (ϕ(X) ∈ A) = P(X ∈ ϕ (A)) = fX (x)dx.
ϕ−1 (A)
Aplicando el Teorema 6.2 para g = ϕ−1 se obtiene

Z Z
fX (x)dx = fX (ϕ−1 (y))|Jϕ−1 (y)|dy.
ϕ−1 (A) A
Por ende
Z
P (Y ∈ A) = fX (ϕ−1 (y))|Jϕ−1 (y)|dy.
A
Por lo tanto, el vector aleatorio Y tiene función densidad de probabilidad de la forma

fY (y) = fX (ϕ−1 (y))|Jϕ−1 (y)|.
2
La noción de base ortonormal respecto del producto interno canónico en Rn y la noción de matriz
ortogonal. Si lo desea, aunque no es del todo cierto, puede pensar que las matrices ortogonales corresponden
a rotaciones espaciales.
3
Sobre la nomenclatura: Los vectores de Rn se piensan como vectores columna y se notarán en
negrita x = [x1 . . . xn ]T .
35
6.3. Lema previo
Observación 6.4. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución
N (0, σ 2 ). Por independencia, la distribución conjunta de las variables X1 , . . . , Xn tiene
función densidad de probabilidad de la forma
n n
!
Y 1 1 2 1 1 X 2
f (x) = √ exp − 2 xi = exp − 2 x
i1
2πσ 2σ (2π)n/2 σ n 2σ i=1 i

1 1 2
= exp − 2 ||x||2 .
(2π)n/2 σ n 2σ
De la observación anterior es claro que la distribución conjunta de las variables X1 , . . . , Xn
es invariante por rotaciones. Más concretamente vale el siguiente resultado:
Lema 6.5 (Isotropı́a). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable
N (0, σ 2 ) y sea B ∈ Rn×n una matriz ortogonal, i.e. B T B = BB T = In . Si X = [X1 . . . Xn ]T ,
entonces Y = [Y1 . . . Yn ]T = BX tiene la misma distribución conjunta que X. En particular
las variables aleatorias Y1 , . . . , Yn son idependientes y son todas N (0, σ 2 ).
Demostración. Es consecuencia inmediata del Teorema de cambio de variables para

T
y = g(x)
= Bx. Debido a que B es una matriz ortogonal, g (y) = B y y Jg−1 (y) =
−1
T
det B = ±1

T T 1 1
fY (y) = fX (B y)| det(B )| = exp − 2 ||B y||2 | det(B T )|
T 2
(2π)n/2 σ n 2σ

1 1
= n/2 n
exp − 2 ||y||22 .
(2π) σ 2σ
En la última igualdad usamos que ||B T y||2 = ||y||2 debido a que las transformaciones
ortogonales preservan longitudes.
6.4. Demostración del Teorema.

Sea B = {b1 , b2 , . . . , bn } una base ortonormal de Rn , donde b1 = √1n [1 . . . 1]T . Sea
B ∈ Rn×n la matriz ortogonal cuya i-ésima fila es bTi . De acuerdo con el Lema 6.5 el vector
aleatorio Y = [Y1 . . . Yn ]T = BX tiene la misma distribución que X. En primer lugar,
observamos que
n
1 X √
Y1 = bT1 X =√ Xi = n(X).
n i=1
En segundo lugar,
n
X n
X
T T T T
Yi2 = Y Y = (BX) BX = X B BX = X X = T
Xi2 .
i=1 i=1
36
En consecuencia,
n
X n
X n
X n
X
2 2
Yi2 = Xi2 − Y12 = Xi2 − nX = Xi − X .
i=2 i=1 i=1 i=1
√
Las variables Y1 , . . . , Yn son idependientes. Como n(X) depende de Y1 , mientras que
Pn 2
i=1 Xi − X depende de Y2 , . . . , Yn , resulta que X y S 2 son independientes (lo que
√ √
prueba la parte (c)). Además, n(X) = Y1 ∼ N (0, σ 2 ), por lo tanto Z = n(X) σ
∼ N (0, 1)
(lo que prueba la parte (a)). La parte (b) se deduce de que
n n 2
(n − 1)S 2 1 X 2 X Yi
= 2 Xi − X = ∼ χ2n−1 ,
σ2 σ i=1 i=2
σ
pues las n − 1 variables Y2 /σ, . . . , Yn /σ son independientes y con distribución N (0, 1).
7. Ejercicios Adicionales
Error cuadrático medio
1. Sea θ̂ un estimador para θ. Demostrar que el ECM se puede descomponer en la forma
ECM(θ̂) = Vθ (θ̂) + B2 (θ̂),
donde B(θ̂) = Eθ (θ̂) − θ es el sesgo del estimador de θ̂
Análisis y comparación de estimadores
2. Sea X1 , X2 , X3 , X4 una muestra aleatoria de una variable aleatoria tal que Eθ [X] = θ
y Vθ (X) = 1. Comparar los siguientes estimadores para θ
4
1X X1 + 2X2 + 3X3 + 4X4 X1 + X2 + X3
X= Xi , , .
4 i=1 10 3
3. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria tal que Eθ [X] = µ(θ) y
Vθ (X) = σ 2 , donde σ 2 es conocido. Se consideran los siguientes estimadores para µ(θ):
n
X
µ̂(l1 ,...,ln ) := li Xi ,
i=1
donde li ≥ 0, i = 1, . . . , n son constantes conocidas.

(a) Hallar una condición sobre las constantes li , necesaria y suficiente, para que los esti-
madores µ̂(l1 ,...,ln ) resulten insesgados para µ(θ).
37
(b) Hallar el óptimo entre todos los estimadores µ̂(l1 ,...,ln ) que resulten insesgados para µ(θ).
(Sugerencia: Utilizar multiplicadores de Lagrange.)
4. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria X ∼ U(0, θ). Se con-
sidera X(n) := máx(X1 , . . . , Xn ) como estimador para θ.
(a) Hallar la función densidad de X(n) y mostrar que
n nθ2
Eθ [X(n) ] = θ y Vθ (X(n) ) = .
n+1 (n + 1)2 (n + 2)
(b) Calcular el sesgo del estimador X(n) y demostrar que se trata de un estimador asintótica-
mente insesgado para θ.
(c) Usando la desigualdad de Chebychev demostrar X(n) es un estimador débilmente con-
sistente.
5. Sea X una variable aleatoria con distribución Bernoulli de parámtero θ. Sean θ̂1 = X
y θ̂2 = 1/2 dos estimadores para θ.
(a) Verificar si θ̂1 y θ̂2 son estimadores insesgados para θ.
(b) Comparar los ECMs. Hacer un gráfico de los ECMs como función de θ.
6. Sea X1 , . . . , Xn una muestra aleatoria de tamaño n de una variable aleatoria X con

f.d.p. dada por
fθ (x) = e−(x−θ) 1{x > θ}, θ > 0.
(a) Verificar si θ̂1 = X y θ̂2 = X(1) son estimadores insesgados para θ.

(b) Hallar y comparar los ECMs de los dos estimadores. Hacer un gráfico como función de
θ.
Cálculo del emv para familias regulares
7. Sea X1 , . . . , Xn una muestra aleatoria de una distribución Binomial B(k, p), con k
conocido. Hallar el estimador de máxima verosimilitud para p.
8. Sea X1 , . . . , Xn una muestra aleatoria de una distribución Poisson Π(λ). Hallar el

estimador de máxima verosimilitud para λ.
Principio de invariancia
9. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X ∼ Γ(1, λ). Hallar el

estimador de máxima verosimilitud para Pλ (X > 1).
10. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X ∼ Bernoulli(p).

Hallar el estimador de máxima verosimilitud para la varianza de X.
38
Cálculo del emv para familias no regulares
11. En un bolillero hay 6 bolitas. Se extraen dos: una es blanca, la otra es negra. Estimar
la cantidad de bolitas blancas que habı́a en el bolillero.
12. Para controlar un lote de 1000 latas de conserva, se elige al azar una muestra de 30
de las cuales 2 resultan defectuosas. Estimar la cantidad de latas defectuosas en el lote.
Intervalos de confianza
13. Sea X1 , . . . , Xn una muestra aleatoria de tamaño n de una variable aleatoria X ∼

U(0, θ).
(a) Usando el estimador de máxima verosimilitud para θ construir un pivote para θ.
(b) Construir un intervalo de confianza de nivel β para θ
Intervalos de confianza para Poblaciones Normales
14. Luego del dı́a de la primavera se realiza a 10 adolecentes un análisis de sangre con el
fin de determinar el porcentaje de alcohol en sangre, obteniendose X = 12 %.
(a) Hallar un intervalo de confianza para la media, de nivel β = 0.90, suponiendo que la
concentración de alcohol en sangre se distribuye como una variable aleatoria normal cuyo
desvı́o es σ = 0.5 %.
(b) Si se quisiera que la longitud del intervalo hallado en (a) fuera a lo sumo 0.5, ¿a cuántos
adolecentes deberı́a analizarse?
(c) Idem (a), suponiendo que S = 0.5 %.
15. En un aserradero se cortan varillas de madera cuya longitu es una variable aleatoria
con distribución normal. Se miden 25 varillas al azar, obteniendose X = 180 cm. y S = 10
cm.
(a) Hallar un intervalo de confianza de nivel β = 0.90 para la varianza, suponiendo que
µ = 185.
(b) Idem (a), suponiendo µ desconocida.
39

STD 108 Bis

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

STD 108 Bis

Cargado por

Copyright:

Formatos disponibles

Notas para un curso de Probabilidad y Estadı́stica

Borradores: Estimación de parámetros

2. Método de máxima verosimilitud 12

3. Intermedio: Poblaciones Normales 23

4. Estimación por intervalo 27

5. Intervalos de confianza para Poblaciones Normales 30

Figura 1: Generador de números aleatorios TROLL.

Grosso modo el problema es el siguiente: observando los resultados producidos por un

Ejemplo 1.1. Un generador de números aletorios produce los siguientes resultados

(a) ¿Cuál es la ley de distribución que los produce?

(b) Si tuviera que apostarle al 0 o al 1, a cuál de los dos le apostarı́a?

1.1. Nociones y presupuestos básicos

Nota Bene. El espacio de probabilidades (Ω, F, P) modela el experimento aleatorio que

Ingredientes de la teorı́a. En todo lo que sigue supondremos que

1. La función de distribución, F , de la variable aleatoria X es desconocida parcialmente:

2. El conjunto de parámetros posibles, Θ, es no vacı́o y está contenido en Rd .

1.2. Familias paramétricas

1. Distribución normal. El sı́mbolo N (µ, σ 2 ) designa la distribución normal de parámet-

2. Distribución gamma. El sı́mbolo Γ(ν, λ) designa la distribución gamma de parámet-

3. Distribución exponencial. Es la distribución Γ(1, λ) de parámetro λ > 0 cuya

4. Distribución uniforme. El sı́mbolo U(a, b) designa la distribución uniforme de parámet-

5. Distribución binomial. El sı́mbolo B(n, p) designa la distribución binomial de parámet-

7. Distribución de Poisson. El sı́mbolo Π(λ) designa la distribución de Poisson de

Consistencia. Lo mı́nimo que se le puede exigir a un estimador puntual, θ̂(X1 , . . . , Xn ),

lı́m Pθ (|θ̂(X1 , . . . , Xn ) − θ| > ǫ) = 0. (2)

Normalidad asintótica. También se le puede pedir una propiedad similar a la del

Nota Bene. El tratamiento general de las propiedades de consistencia y normalidad

Aplicando la desigualdad de Chebychev a X se obtiene que para cada ǫ > 0

Nota Bene. De todas las propiedades de convergencia la consistencia débil es la mas

El ECM se puede descomponer de la siguiente manera (ejercicio)

Nota Bene. En el caso en que θ̂ es un estimador insesgado para θ, tenemos que

Comparación de estimadores. El error cuadrático medio puede usarse para comparar

ECM(θ̂1 ) ≤ ECM(θ̂2 ), (7)

ECM(θ̂∗ ) ≤ ECM(θ̂), (8)

para todo θ, con desigualdad estricta para al menos un valor de θ.

Para analizar el sesgo de la varianza muestral conviene descomponerla de la siguiente

cualquiera sea θ ∈ Θ. 1 Si la muestra aleatoria, X1 , . . . , Xn , proviene de la distribución Fθ ,

es un estimador insesgado para la varianza.

Ejemplo 1.11. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria X ∼

Por otro lado, la función densidad de X(n) está dada por

2.1. Estimador de máxima verosimilitud (emv)

como función de θ, se llama la función de verosimilitud de θ.

2.2. Cálculo del emv para familias regulares

3. Para cada x ∈ S(F), la función f (x, θ) := fθ (x) es derivable con respecto de θ.

Por definición, el estimador de máxima verosimilitud es el valor θ̂mv ∈ Θ hace máxima

Como el logaritmo es una función creciente, maximizar la función de verosimilitud o su log-

mucho más adecuada para el cálculo, que la original ecuación (20).

donde, para cada x ∈ S(F), la función de θ, ψθ (x) se define por

Un poco de álgebra muestra que para cada pareja a 6= b vale que:

Nota Bene relacionada con el Ejemplo 2.4. El estimador de máxima verosimilitud

Ejemplo 2.5 (Distribuciones de Bernoulli). Bajo el supuesto de que los valores de la

Ejemplo 2.6 (Distribuciones exponenciales). La familia de distribuciones exponenciales

Derivando respecto de λ se obtiene

El lector puede verificar que el valor de λ obtenido maximiza el logaritmo de la verosimil-

λ̂mv = λ̂mv (x1 , . . . , xn ) = (x)−1 .

Ejemplo 2.9 (Distribuciones normales). La familia de distribuciones normales

Tomando logaritmos se obtiene

∂ log Lµ, σ2 (x1 , . . . , xn ) ∂ log Lµ, σ2 (x1 , . . . , xn )

Por lo tanto, el sistema (27) se transforma en el sistema

que tiene como solución

2.3. Principio de invariancia

Teorema 2.10 (Principio de invariancia). Sea X1 , . . . , Xn una muestra aleatoria de una

Demostración. Como λ = g(θ) es una función biunı́voca de Θ sobre Λ, la función