Está en la página 1de 39

Notas para un curso de Probabilidad y Estadı́stica

Borradores: Estimación de parámetros

27 de octubre de 2008

Índice
1. Elementos básicos 2
1.1. Nociones y presupuestos básicos . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Familias paramétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Estimadores insesgados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Método de máxima verosimilitud 12


2.1. Estimador de máxima verosimilitud (emv) . . . . . . . . . . . . . . . . . . 12
2.2. Cálculo del emv para familias regulares . . . . . . . . . . . . . . . . . . . . 12
2.3. Principio de invariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4. Cálculo del emv para familias no regulares . . . . . . . . . . . . . . . . . . 20

3. Intermedio: Poblaciones Normales 23

4. Estimación por intervalo 27


4.1. El método del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5. Intervalos de confianza para Poblaciones Normales 30


5.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2. Media conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.3. Media y varianza desconocidas . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.3.1. Intervalos para la varianza . . . . . . . . . . . . . . . . . . . . . . . 32
5.3.2. Intervalos para la media . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

1
6. Apéndice: Demostración del Teorema llave 34
6.1. Enunciado del Teorema 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.2. Preliminares de Análisis y Álgebra . . . . . . . . . . . . . . . . . . . . . . 35
6.3. Lema previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.4. Demostración del Teorema. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

7. Ejercicios Adicionales 37

1. Elementos básicos
La estadı́stica matemática forma parte de la teorı́a de probabilidades en el sentido de
que cada problema de la estadı́stica matemática es, en esencia, un problema (a veces
muy peculiar) de la teorı́a de las probabilidades. Pero la estadı́stica matemática, co-
mo tal, también ocupa una posición independiente en la clasificación de las ciencias.
La estadı́stica matemática puede considerarse como la ciencia del llamado compor-
tamiento inductivo del hombre (y no sólo del hombre) en condiciones cuando éste, a
base de su propia experiencia, debe tomar decisiones con las mı́nimas pérdidas para
él.
Borovkov, A. A. (1984). “Estadı́stica matemática”. Mir, Moscú.

Figura 1: Generador de números aleatorios TROLL.

Grosso modo el problema es el siguiente: observando los resultados producidos por un


generador de números aleatorios, cuya ley es desconocida, se trata de “reproducirlo”.

Ejemplo 1.1. Un generador de números aletorios produce los siguientes resultados

0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0. (1)

(a) ¿Cuál es la ley de distribución que los produce?

(b) Si tuviera que apostarle al 0 o al 1, a cuál de los dos le apostarı́a?

2
Aunque están formuladas de un modo bastante impreciso, las preguntas planteadas en
el Ejemplo 1.1 son preguntas genuinas. Para hacerlas precisas y matemáticamente tratables
debemos construir un modelo probabilistico para los datos observados. Lo más simple es
suponer que los resultados observados son realizaciones de variables aleatorias independi-
entes identicamente distribuidas. Para el caso de los resultados observados en la secuencia
(1) se puede suponer que provienen de variables aleatorias cuya distribución es Bernoulli
de parámetro p.
Con este modelo para los datos observados en (1) la pregunta (a) podrı́a reformularse
del siguiente modo ¿Cuál es el valor del parámetro p? De acuerdo con la ley de los grandes
números (y el teorema central del lı́mite) lo más probable es que el valor del parámetro p
sea próximo al promedio de los datos observados. Para determinar el valor exacto de p se
necesita una sucesión infinita de datos y sólo disponemos de una cantidad limitada (20 en
este caso). La respuesta a la pregunta (a) deberá ser un valor aproximado.
La pregunta (b) es de naturaleza distinta ya que se trata de tomar una decisión. Usando
los resultados observados en (1) hay que decidir si p ≤ 1/2 o p > 1/2. Como no es posible
calcular exactamente el verdadero valor de p (ya que solamente podemos estimarlo), cuando
se tome la decisión se correra el riesgo de equivocarse. Cualquiera sea la regla que se adopte
para decidir si se apostará al 0 o al 1 habrá que evaluar qué probabilidad de equivocarse
se tendrá al tomar la decisión.
La pregunta (a) pertenece a una clase de problemas denominados estimación de parámet-
ros desconocidos. La pregunta (b) pertenece a una clase de problemas denominados verifi-
cación de hipótesis estadı́sticas.
En estas notas vamos a exponer los rudimentos básicos de la teorı́a general que permite
tratar problemas similares a los presentados en el Ejemplo 1.1.

1.1. Nociones y presupuestos básicos


Definición 1.2 (Muestra aleatoria). Sean (Ω, F, P) un espacio de probabilidades y X :
Ω → R una variable aleatoria con función de distribución F (x) := P(X ≤ x). Una muestra
aleatoria de volumen n de la variable aleatoria X es una sucesión X1 , . . . , Xn de variables
aleatorias independientes cada una con la misma distribución de X.

Nota Bene. El espacio de probabilidades (Ω, F, P) modela el experimento aleatorio que


se desea estudiar y la muestra aleatoria de la variable X los resultados de las observaciones.
En la Sección 1.2 repasamos algunos de los modelos más utilizados.

Ingredientes de la teorı́a. En todo lo que sigue supondremos que

1. La función de distribución, F , de la variable aleatoria X es desconocida parcialmente:


se sabe que F pertenece a una familia de distribuciones conocidas que dependen de
un parámetro, F = {Fθ : θ ∈ Θ}, pero no se sabe cuál es el valor del parámetro θ.

2. El conjunto de parámetros posibles, Θ, es no vacı́o y está contenido en Rd .

3
3. Las distribuciones de la familia F = {Fθ : θ ∈ Θ} son distinguibles: Fθ1 6= Fθ2 cuando
θ1 6= θ2 .
4. Las distribuciones de la familia F = {Fθ : θ ∈ Θ} tienen “densidad”. Si se trata
de una familia de distribuciones continuas esto significa que para cada θ ∈ Θ, existe
d
una función densidad de probabilidades (f.d.p.) fθ (x) tal que dx Fθ (x) = fθ (x). Si se
trata de una familia de distribuciones discretas esto significa que para cada θ ∈ Θ,
existe una función de probabilidad (f.p.) fθ (x) tal que Pθ (X = x) = fθ (x).
5. Es posible conseguir muestras aleatorias de la variable X del volumen que se desee.
Esas hipótesis son suficientes para trabajar con todas las familias de distribuciones consid-
eradas en este curso.

1.2. Familias paramétricas


Repasemos algunas de las familias de distribuciones consideradas a lo largo del curso.

1. Distribución normal. El sı́mbolo N (µ, σ 2 ) designa la distribución normal de parámet-


ros (µ, σ 2 ), µ ∈ R y σ 2 > 0, o sea la distribución con densidad de probabilidades
 
1 (x − µ)2
fµ, σ2 (x) = √ exp − .
σ 2π 2σ 2

2. Distribución gamma. El sı́mbolo Γ(ν, λ) designa la distribución gamma de parámet-


ros (ν, λ), ν > 0 y λ > 0, o sea la distribución con densidad de probabilidades
λν ν−1 −λx
fν, λ (x) = x e 1{x ≥ 0}.
Γ(ν)

3. Distribución exponencial. Es la distribución Γ(1, λ) de parámetro λ > 0 cuya


densidad de probabilidades es
fλ (x) = λe−λx 1{x ≥ 0}.

4. Distribución uniforme. El sı́mbolo U(a, b) designa la distribución uniforme de parámet-


ros (a, b), −∞ < a < b < ∞, o sea la distribución con densidad
1
fa, b (x) = 1{a ≤ x ≤ b}.
b−a

5. Distribución binomial. El sı́mbolo B(n, p) designa la distribución binomial de parámet-


ros (n, p), n ∈ N y p ∈ [0, 1], o sea la distribución con función de probabilidad
 
n
fn, p (x) = (1 − p)n−x px , x = 0, 1, . . . , n.
x

4
6. Distribución de Bernoulli. Es la distribución B(1, p) de parámetro p ∈ [0, 1], cuya
función de probabilidad es
fp (x) = (1 − p)1−x px , x = 0, 1.

7. Distribución de Poisson. El sı́mbolo Π(λ) designa la distribución de Poisson de


parámetro λ > 0, o sea la distribución con función de probabilidad
λx
fλ (x) = e−λ , x = 0, 1, . . . .
x!

1.3. Estimadores
El punto de partida de la investigación estadı́stica está constituido por una mues-
tra aleatoria, X1 , . . . , Xn , de la distribución desconocida F perteneciente a una familia
paramétrica de distribuciones F = {Fθ : θ ∈ Θ}. Como las distribuciones de la familia F
son distinguibles, lo que se quiere saber es cuál es el parámetro θ ∈ Θ correspondiente a la
distribución F . En otras palabras, se quiere hallar θ ∈ Θ tal que F = Fθ .
Estimar el párametro θ de la distribución desconocida F , basandose en la muestra
aleatoria X1 , . . . , Xn , significa construir una función de la muestra dada, θ̂ := θ̂(X1 , . . . , Xn ),
a valores en el conjunto paramétrico Θ, que permita aproximar el parámetro desconocido
θ. La variable aleatoria θ̂ se denomina un estimador puntual para θ.
Formalmente, “cualquier” función θ̂ de la muestra aleatoria X1 , . . . , Xn que no depende
de parámetros desconocidos se denomina una estadı́stica.
Ejemplo 1.3. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X. Ejemplos
de estadı́sticas son
(i) X(1) = mı́n(X1 , . . . , Xn ),
(ii) X(n) = máx(X1 , . . . , Xn ),
P
(iii) X = n1 ni=1 Xi ,
P
(iv) σ̂ 2 = n1 ni=1 (Xi − X)2 .
En (i) y (ii), mı́n(·) y máx(·) denotan, respectivamente, el mı́nimo y el máximo mues-
trales observados. Por otro lado, X y σ̂ 2 denotan, respectivamente, la media y la varianza
muestrales.
Cualquier estadı́stica que asuma valores en el conjunto paramétrico Θ es un estimador
puntual θ. El adjetivo puntual está puesto para distinguirla de las estimaciones por inter-
valo que veremos más adelante.
En muchas situaciones, lo que interesa es estimar una función g(θ). Por ejemplo, cuando
se considera una muestra aleatoria X1 , . . . , Xn de una variable X ∼ N (µ, σ 2 ) donde µ y
σ 2 son desconocidos entonces θ = (µ, σ 2 ) y el conjunto de parámetros es
Θ = {(µ, σ 2 ) : µ ∈ R y σ 2 > 0}.

5
Si el objetivo es estimar solamente µ, entonces g(θ) = µ.
Definición 1.4. Cualquier estadı́stica que solamente asuma valores en el conjunto de los
posibles valores de g(θ) es un estimador para g(θ).
Uno de los grandes problemas de la estadı́stica es construir estimadores razonables para
el parámetro desconocido θ o para una función g(θ). Existen diversos métodos para elegir
entre todos los estimadores posibles de θ. Cada elección particular del estimador depende
de ciertas propiedades que se consideran “deseables” para la estimación.

Consistencia. Lo mı́nimo que se le puede exigir a un estimador puntual, θ̂(X1 , . . . , Xn ),


es que, en algún sentido, se aproxime al verdadero valor del parámetro cuando el volumen
de la muestra aumenta. En otras palabras, si θ ∈ Θ es tal que F = Fθ y X1 , X2 , . . . es
una sucesión de variables aleatorias independientes cada una con distribución F , en algún
sentido, debe ocurrir que
θ̂(X1 , . . . , Xn ) → θ,
cuando n → ∞.
Por ejemplo, es deseable que el estimador θ̂ tenga la siguiente propiedad, llamada con-
sistencia débil : para cada ǫ > 0 debe cumplir que

lı́m Pθ (|θ̂(X1 , . . . , Xn ) − θ| > ǫ) = 0. (2)


n→∞

Más exigente, es pedirle que tenga la siguiente propiedad, llamada consistencia fuerte:
 
Pθ lı́m θ̂(X1 , . . . , Xn ) = θ = 1. (3)
n→∞

Normalidad asintótica. También se le puede pedir una propiedad similar a la del


teorema central lı́mite, llamada normalidad asintótica: existe σ = σ(θ) > 0 tal que
√ !
n(θ̂(X1 , . . . , Xn ) − θ)
lı́m Pθ ≤ x = Φ(x), (4)
n→∞ σ

donde Z x
1 2
Φ(x) = √ e−t /2 dt
−∞ 2π
es la función de distribución de una N (0, 1).

Nota Bene. El tratamiento general de las propiedades de consistencia y normalidad


asintótica es demasiado técnico para este curso. A lo largo de estas notas serán mencionadas
solo tangencialmente. Para un examen riguroso de estas cuestiones se requiere un curso
dedicado exclusivamente a la estadı́stica matemática. A los estudiantes interesados en el
tema se les sugiere consultar el libro de A.A. Borovkov mencionado en el epı́grafe de la
Sección.

6
Los problemas de consistencia y normalidad asintótica están relacionados con las leyes
de los grandes números y el teorema central de lı́mite. El siguiente ejemplo, bastante gener-
al, muestra dicha relación para el caso en que se quiere estimar la media de la distribución.
Ejemplo 1.5 (Estimación de media). Sea F = {Fθ : θ ∈ Θ} una familia de distribuciones.
Para cada θ ∈ Θ designemos mediante µ(θ) y σ 2 (θ) la media y la varianza correspondientes
a la distribución Fθ , respectivamente, a las que supondremos finitas. Sea X1 , . . . , Xn una
muestra aleatoria de alguna distribución perteneciente a F. Denotemos mediante X el
promedio de la muestra:
n
1X
X= Xi .
n i=1
Sea θ ∈ Θ, si la muestra aleatoria, X1 , . . . , Xn , proviene de la distribución Fθ , tenemos que
" n # n
  1X 1X
Eθ X = Eθ Xi = Eθ [Xi ] = µ(θ)
n i=1 n i=1
y
n
! n
 1X 1 X 1
Vθ X = Vθ Xi = 2 Vθ [Xi ] = σ 2 (θ).
n i=1 n i=1 n

Aplicando la desigualdad de Chebychev a X se obtiene que para cada ǫ > 0


 
 Vθ (X) 1 σ 2 (θ)

Pθ X − µ(θ) > ǫ ≤ = → 0,
ǫ2 n ǫ2
cuando n → ∞.
Hasta aquı́, lo único que hicimos es volver a demostrar la ley débil de los grandes
números. Sin embargo, lo que queremos subrayar es que en el contexto de la estimación
de parámetros, la ley débil de los grandes números significa que el promedio de la muestra,
X, es un estimador débilmente consistente para la la media de la distribución, µ(θ).
La consistencia fuerte del promedio, como estimador para la media es equivalente a
la Ley fuerte de los grandes números que afirma que: Si X1 , X2 , . . . es una sucesión de
variables aleatorias independientes e identicamente distribuidas y si existe E[Xi ] = µ,
entonces  
P lı́m X = µ = 1.
n→∞
La normalidad asintótica es equivalente al teorema central del lı́mite.

Nota Bene. De todas las propiedades de convergencia la consistencia débil es la mas


simple, en el sentido de que puede establecerse con unas pocas herramientas técnicas. Note
que para verificar la consistencia débil del promedio para estimar media solamente usamos
la desigualdad de Chebychev y las propiedades de la media y la varianza. El razonamiento
utilizado en el Ejemplo 1.5 se puede extender un poco más allá. Para ello necesitamos
introducir algunas nociones y definiciones.

7
1.4. Estimadores insesgados
La primera propiedad que se considera deseable de un estimador puntual es su consis-
tencia (débil). Como casi cualquier estimación razonable tendrá tal propiedad, en su lugar
se impone una propiedad ı́ntimamente relacionada con ella pero algo más restictiva. Esta
propiedad es que la estimación sea insesgada. En lo que sigue indicaremos el significado de
este término y mostraremos su relación con el problema de comparar estimadores.

Error cuadrático medio, sesgo y varianza. Uno de los procedimientos más usados
para evaluar el desempeño de un estimador es considerar su error cuadrático medio. Esta
noción permite precisar el sentido que se le otorga a los enunciados del tipo “el estimador
puntual θ̂(X1 , . . . , Xn ) está próximo de θ”.
Definición 1.6 (Error cuadrático medio). El error cuadrático medio (ECM) de un esti-
mador θ̂ para el parámetro θ se define por
h i
ECM(θ̂) = Eθ (θ̂ − θ)2 . (5)

El ECM se puede descomponer de la siguiente manera (ejercicio)


h i
Eθ (θ̂ − θ)2 = Vθ (θ̂) + B2θ (θ̂), (6)

donde Bθ (θ̂) := Eθ [θ̂]−θ es el llamado sesgo del estimador. El primer término de la descom-
posición (6) describe la “variabilidad” del estimador, y el segundo el “error sistemático”:
Eθ [θ̂] describe alrededor de qué valor fluctúa θ̂ y Vθ (θ̂) mide cuánto fluctúa.
Definición 1.7 (Estimadores insesgados). Diremos que un estimador θ̂ es insesgado para
el parámetro θ si
Eθ [θ̂] = θ.
para todo θ ∈ Θ, o sea Bθ (θ̂) ≡ 0. Si lı́mn→∞ Bθ [θ̂] = 0 para todo θ ∈ Θ, diremos que el
estimador θ̂ es asintóticamente insesgado para θ.

Nota Bene. En el caso en que θ̂ es un estimador insesgado para θ, tenemos que


ECM = Vθ (θ̂),
o sea, el error cuadrático medio de θ̂ se reduce a su varianza.

Nota Bene. Una consecuencia destacable de la descomposición (6) para grandes mues-
tras (n → ∞) es la siguiente: si a medida que se aumenta el volumen de la muestra, el
sesgo y la varianza del estimador θ̂ tienden a cero, entonces, el estimador θ̂ converge en
media cuadrática al verdadero valor del parámetro θ. Más aún, esas propiedades implican
la consistencia débil del estimador.
Teorema 1.8. Sea θ̂ un estimador de θ basado en una muestra de volumen n. Si θ̂ es
asintóticamente insesgado y su varianza tiende a cero, entonces θ̂ es débilmente consistente.

8
Demostración. El resultado se obtiene usando la desigualdad de Chebychev y la iden-
tidad (6):
  1 h i 1  

Pθ θ̂ − θ > ǫ ≤ 2 Eθ (θ̂ − θ)2 = 2 Vθ (θ̂) + B2θ (θ̂) → 0.
ǫ ǫ

Comparación de estimadores. El error cuadrático medio puede usarse para comparar


estimadores. Diremos que θ̂1 es mejor que θ̂2 si

ECM(θ̂1 ) ≤ ECM(θ̂2 ), (7)

para todo θ, con desigualdad estricta para al menos un valor de θ. En tal caso, el estimador
θ̂2 se dice inadmisible. Si existe un estimador θ̂∗ tal que para todo estimador θ̂ de θ con
θ̂ 6= θ̂∗

ECM(θ̂∗ ) ≤ ECM(θ̂), (8)

para todo θ, con desigualdad estricta para al menos un valor de θ, entonces θ̂∗ se dice
óptimo.
Cuando la comparación se restringe a los estimadores son insesgados, el estimador
óptimo, θ̂∗ , se dice el estimador insesgado de varianza uniformemente mı́nima. Esta de-
nominación resulta de observar que estimadores insesgados la relación (8) adopta la forma

Vθ (θ̂∗ ) ≤ Vθ (θ̂),

para todo θ, con desigualdad estricta para al menos un valor de θ.

1.5. Ejemplos
Ejemplo 1.9. Sean X1 , X2 , X3 una muestra aleatoria de una variable aleatoria X tal que
Eθ [X] = θ y Vθ (X) = 1. Consideremos los estimadores
X1 + X2 + X3 1 1 1
X= y θ̂ = X1 + X2 + X3 .
3 2 4 4
Como vimos en el Ejemplo 1.5 Eθ [X] = θ y Vθ (X) = 31 . Tenemos también que
1 1 1 1 1 1
Eθ [θ̂] = Eθ [X1 ] + Eθ [X2 ] + Eθ [X3 ] = θ + θ + θ = θ
2 4 4 2 4 4
y
1 1 1 1 1 1 6
Vθ (θ̂) = Vθ (X1 ) + Vθ (X2 ) + Vθ (X3 ) = + + = .
4 16 16 4 16 16 16
Como X y θ̂ son insesgados, resulta que X es mejor que θ̂, pues Vθ (X) < Vθ (θ̂) para todo
θ.

9
Ejemplo 1.10 (Estimación de varianza). Sea F = {Fθ : θ ∈ Θ} una familia de dis-
tribuciones. Para cada θ ∈ Θ designemos mediante µ(θ) y σ 2 (θ) la media y la varianza
correspondientes a la distribución Fθ , respectivamente, a las que supondremos finitas. Sea
X1 , . . . , Xn una muestra aleatoria de alguna distribución perteneciente a F. Sean X y σ̂ 2
la media y la varianza muestrales definidas en el Ejemplo 1.3:
n n
1X 2 1X
X := Xi y σ̂ := (Xi − X)2 .
n i=1 n i=1

Para analizar el sesgo de la varianza muestral conviene descomponerla de la siguiente


manera:
n
1X
σ̂ 2 = (Xi − µ(θ))2 − (X − µ(θ))2 , (9)
n i=1

cualquiera sea θ ∈ Θ. 1 Si la muestra aleatoria, X1 , . . . , Xn , proviene de la distribución Fθ ,


al tomar esperanzas en ambos lados de (9) se obtiene
" n #
1 X
Eθ [σ̂ 2 ] = Eθ (Xi − µ(θ))2 − (X − µ(θ))2
n i=1
n
1X    
= Eθ (Xi − µ(θ))2 − Eθ (X − µ(θ))2
n i=1
n
1X
= Vθ (Xi ) − Vθ (X). (10)
n i=1

En el Ejemplo 1.5 se mostró que X es un estimador insesgado para la media µ(θ) y que su
varianza vale Vθ (X) = n1 σ 2 (θ). En consecuencia,
n
2 1X
Eθ [σ̂ ] = Vθ (Xi ) − Vθ (X)
n i=1
1 2
= σ 2 (θ) − σ (θ)
n
n−1 2
= σ (θ). (11)
n
Esto demuestra que σ̂ 2 no es un estimador insesgado para la varianza σ 2 (θ). La identidad
Eθ [σ̂ 2 ] = n−1
n
σ 2 (θ) significa que si tomamos repetidas muestras de tamaño n y se promedian
las varianzas muestrales resultantes, el promedio no se aproximará a la verdadera varianza,
1
La descomposición (9) se obtiene haciendo lo siguiente. Para cada i escribimos (Xi − X) en la forma
(Xi − µ(θ)) − (X − µ(θ)). Desarrollando cuadrados obtenemos (Xi − X)2 = (Xi − µ(θ))2 + (X − µ(θ))2 −
2(Xi − µ(θ))(X − µ(θ)). El resultado se obtiene observando que el promedio de los términos cruzados
(Xi − µ(θ))(X − µ(θ)) es igual a (X − µ(θ))2 . (Hacer la cuenta y verificarlo! )

10
sino que de modo sistemático el valor será más pequeño debido al factor (n − 1)/n. Este
factor adquiere importancia en las muestras pequeñas. Si n → ∞, el factor (n − 1)/n → 1
lo que demuestra que σ̂ 2 es un estimador asintóticamente insesgado para la varianza σ 2 (θ).
n
Para eliminar el sesgo en σ̂ 2 , basta multiplicar σ̂ 2 por n−1 . De (11) sigue que
n
2 n 1 X
S := σ̂ 2 = (Xi − X)2 (12)
n−1 n − 1 i=1

es un estimador insesgado para la varianza.

Ejemplo 1.11. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria X ∼


U(0, θ). Vamos a considerar θ̂1 = X y θ̂2 = X(n) como estimadores para θ y estudiaremos
su comportamiento.
Como Eθ [X] = θ/2 y Vθ (X) = θ2 /12, tenemos que

θ θ2
Eθ [θ̂1 ] = Eθ [X] = y Vθ (θ̂1 ) = ., (13)
2 12n

Por lo tanto, θ̂1 es un estimador sesgado para θ. Combinando las identidades (13) en (6),
tenemos que
 2
2 θ2 θ θ2 θ2 (1 + 3n) 2
ECM(θ̂1 ) = Vθ (θ̂1 ) + Bθ (θ̂1 ) = + −θ = + = θ . (14)
12n 2 12n 4 12n

Por otro lado, la función densidad de X(n) está dada por

nxn−1
fθ (x) = 1{0 < x < θ},
θn
de donde se deduce que

n nθ2
Eθ [X(n) ] = θ y Vθ (X(n) ) = . (15)
n+1 (n + 1)2 (n + 2)

Por lo tanto, θ̂2 es un estimador asintóticamente insesgado para θ. Combinando las iden-
tidades (15) en (6), obtenemos
 2
nθ2 n
ECM(θ̂2 ) = Vθ (θ̂2 ) + B2θ (θ̂2 )
= + θ−θ
(n + 1)2 (n + 2) n+1
nθ2 θ2 2θ2
= + = . (16)
(n + 1)2 (n + 2) (n + 1)2 (n + 1)(n + 2)

Es fácil, pero tedioso, ver que ECM(θ̂2 ) < ECM(θ̂1 ) para todo θ y todo n > 1. Por lo tanto,
X(n) es mejor que X para todo θ y todo n > 1.

11
2. Método de máxima verosimilitud
El método de máxima verosimilitud es un “método universal” para construir esti-
madores puntuales. Su base intuitiva es la siguiente: en los experimentos aleatorios los
resultados observados deben tener alta probabilidad de ocurrir.
Para hacer más precisa esa intuición consideremos una muestra aleatoria, X1 , . . . , Xn ,
de una variable discreta cuya distribución pertenece a una familia F = {Fθ : θ ∈ Θ}.
Sea fθ (x) la función de probabilidad de la distribución Fθ . La probabilidad de observar los
resultados X1 = x1 , . . . , Xn = xn se calcula del siguiente modo:
n
Y n
Y
Pθ (X1 = x1 , . . . , Xn = xn ) = Pθ (Xi = xi ) = fθ (xi ). (17)
i=1 i=1

Si los resultados observables deben tener una alta probabilidad de ocurrir y observamos
que X1 = x1 , . . . , Xn = xn , entonces lo razonable serı́a elegir entre todos los parámetros
posibles, θ ∈ Θ, aquél (o aquellos) que maximicen (17). En consecuencia, Qnse podrı́a estimar
θ como el valor (o los valores) de θ que hace máxima la probabilidad i=1 fθ (xi ).

2.1. Estimador de máxima verosimilitud (emv)


Definición 2.1 (Función de verosimilitud). Sea X1 , . . . , Xn una muestra aleatoria de
tamaño n de una variable aleatoria X cuya distribución pertenece a la familia paramétrica
F = {Fθ : θ ∈ Θ}. Para cada θ ∈ Θ sea fθ (x) la función de densidad (o de probabilidad)
correspondiente a la función de distribución Fθ . La función de densidad (o de probabilidad)
conjunta
n
Y
Lθ (x1 , . . . , xn ) := fθ (xi ), (18)
i=1

como función de θ, se llama la función de verosimilitud de θ.


Definición 2.2 (Estimador de máxima verosimilitud). Un estimador de máxima verosimil-
itud de θ, basado en los valores x1 , . . . , xn de una muestra aleatoria X1 , . . . , Xn , es un valor
θ̂mv ∈ Θ que maximiza la función de verosimilitud Lθ (x1 , . . . , xn ) definida en (18).

Sobre la notación. Para destacar que el valor del estimador de máxima verosimilitud
depende de los valores observados, x1 , . . . , xn , en lugar de θ̂mv escribiremos θ̂mv (x1 , . . . , xn ):
θ̂mv = θ̂mv (x1 , . . . , xn ) := arg máx Lθ (x1 , . . . , xn ). (19)
θ∈Θ

2.2. Cálculo del emv para familias regulares


Sea F = {Fθ : θ ∈ Θ} una familia paramétrica de distribuciones y sea {fθ : θ ∈ Θ} la
familia de funciones de densidad (o de probabilidad) asociada. Diremos que la familia F
es regular si satisface las siguientes condiciones:

12
1. El conjunto paramétrico Θ es abierto.

2. El soporte de las “densidades” asociadas no depende del parámetro. Esto es, existe
un conjunto S(F) tal que sop(fθ ) := {x ∈ R : fθ (x) > 0} = S(F) para todo θ ∈ Θ.

3. Para cada x ∈ S(F), la función f (x, θ) := fθ (x) es derivable con respecto de θ.

Por definición, el estimador de máxima verosimilitud es el valor θ̂mv ∈ Θ hace máxima


a la función de verosimilitud Lθ (x1 , . . . , xn ). Cuando la familia de distribuciones es regular
y el conjunto paramétrico Θ ⊂ R, la función de verosimilitud es derivable y el estimador
de máxima verosimilitud será una raı́z de la ecuación
d
Lθ (x1 , . . . , xn ) = 0. (20)

Derivar un producto puede ser una tarea sumamente ingrata y desaconsejable si se puede
evitarla. En lo que sigue mostraremos como se puede evitar tan ingrata tarea.
Debido a que la familia es regular los valores observados x1 , . . . , xn deben pertenecer al
soporte común de las densidades: xi ∈ S(F), i = 1, . . . , n. Por lo tanto, cualesquiera sean
los valores observados, x1 , . . . , xn , vale que
n
Y
Lθ (x1 , . . . , xn ) = fθ (xi ) > 0.
i=1

Esto nos habilita a tomar logaritmos y utilizar la propiedad el logaritmo del producto es
igual a la suma de los logaritmos. En otras palabras, para cada (x1 , . . . , xn ) ∈ S(F)n , la
función de θ, log Lθ (x1 , . . . , xn ) está bien definida y vale que
n
Y n
X
log Lθ (x1 , . . . , xn ) = log fθ (xi ) = log fθ (xi ).
i=1 i=1

Como el logaritmo es una función creciente, maximizar la función de verosimilitud o su log-


aritmo son problemas equivalentes. La ventaja de trabajar con logaritmo de la verosimilitud
es que el producto se convierte en una suma y el problema se reduce a resolver la ecuación
d
log Lθ (x1 , . . . , xn ) = 0,

que adopta la siguiente forma
Xn
d
log fθ (xi ) = 0 (21)
i=1

mucho más adecuada para el cálculo, que la original ecuación (20).


Por este camino llegamos al siguiente resultado que provee la herramienta adecuada
para el cálculo del emv.

13
Lema 2.3. El estimador de máxima verosimilitud θ̂mv , basado en los valores x1 , . . . , xn
de una muestra aleatoria, correspondiente a una distribución perteneciente a una familia
(uni)paramétrica regular, F, es solución de la siguiente ecuación:
n
X
ψθ (xi ) = 0, (22)
i=1

donde, para cada x ∈ S(F), la función de θ, ψθ (x) se define por


d
ψθ (x) := log fθ (x). (23)

Nota Bene. Por supuesto que tanto (20) como (22) son condiciones necesarias para que
θ sea un máximo. Para asegurarse que es un máximo deberı́an verificarse las condiciones
de segundo orden. Además debe verificarse que no se trata de un máximo relativo sino
absoluto.
Ejemplo 2.4 (Distribuciones de Bernoulli). Es fácil ver que la familia de distribuciones
{B(1, p) : p ∈ (0, 1)} es una familia uniparamétrica regular: en este caso θ = p, Θ = (0, 1)
y las funciones de probabilidad son de la forma fp (x) = (1 − p)1−x px , x = 0, 1. Tratandose
de una familia regular podemos usar el resultado del Lema 2.3 para encontrar el estimador
de máxima verosimilitud basado en una muestra aleatoria X1 , . . . , Xn .
d
En primer lugar hallamos la expresión de la función ψp (x) = dp log fp (x). Observando
que

log fp (x) = log (1 − p)1−x px = (1 − x) log(1 − p) + x log(p),
y derivando respecto de p obtenemos
1 1
ψp (x) = (x − 1) + x
1−p p
Por lo tanto, la ecuación (22) adopta la forma
n n
1 X 1X
(xi − 1) + xi = 0. (24)
1 − p i=1 p i=1

Un poco de álgebra muestra que para cada pareja a 6= b vale que:


1 1 b
a+ b=0⇔p= . (25)
1−p p b−a
P P P
Sigue de (25), poniendo a = ni=1 (xi − 1) = ni=1 xi − n y b = ni=1 xi , que la solución de
la ecuación (24) es
n
1X
p= xi .
n i=1

14
Con un poco más de trabajo, se puede verificar que dicha solución maximiza el logaritmo
de la verosimilitud.
En resumen, si la muestra aleatoria X1 , . . . , Xn arrojó los valores x1 , . . . , xn , el estimador
de máxima verosimilitud para p resulta ser la media muestral
n
1X
p̂mv = p̂mv (x1 , . . . , xn ) = xi
n i=1

Por lo tanto, el estimador de máxima verosimilitud para p, basado en una muestra aleatoria
X1 , . . . , Xn de variables Bernoulli(p), es el promedio muestral
n
1X
p̂mv (X1 , . . . , Xn ) = Xi . (26)
n i=1

Nota Bene relacionada con el Ejemplo 2.4. El estimador de máxima verosimilitud


para el parámetro p, basado en una muestra aleatoria, X1 , . . . , Xn , de la variable aleatoria
X ∼ B(1, p),
n
1X
X= Xi ,
n i=1
es una variable aleatoria. Subrayamos este hecho para que no se pierda de vista que los
estimadores puntuales son funciones de la muestra aleatoria X1 , . . . , Xn y por lo tanto
son variables aleatorias. En el Ejemplo 2.4, el parámetro p es la media de la distribución
que produce la muestra y el estimador de máxima verosimilitud para p es el promedio
muestral. Por lo tanto, (ver el Ejemplo 1.5), p̂mv es un estimador insesgado, consistente y
asintóticamente normal.

Ejemplo 2.5 (Distribuciones de Bernoulli). Bajo el supuesto de que los valores de la


secuencia (1) que aparece en el Ejemplo 1.1 fueron arrojados por una muestra aleatoria de
tamaño 20 de una variable aleatoria X ∼ B(1, p), el estimador de máxima verosimilitud
arrojará como resultado la siguiente estimación para el parámetro p:
11
p̂mv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = = 0.55
20
Con esta estimación podrı́amos decir que la ley que produce esos valores es la distribución
de Bernoulli B(1, 0.55). Por lo tanto, si queremos “reproducir” el generador de números
aleatorios que produjo esos resultados, debemos simular números aleatorios con distribución
de Bernoulli de parámetro 0.55.

15
Nota Bene relacionada con el Ejemplo 2.4 Si la muestra aleatoria arrojó los valores
1, 1, . . . , 1, es fácil ver que p̂mv = 1, en cambio si arrojó 0, 0, . . . , 0 resulta que p̂mv = 0.
Estos resultados también coinciden con el promedio de los valores observados. Por lo tanto,
el resultado obtenido en (26) se puede extender al caso en que Θ = [0, 1].

Ejemplo 2.6 (Distribuciones exponenciales). La familia de distribuciones exponenciales


{Γ(1, λ) : λ > 0} es una familia uniparamétrica regular: en este caso θ = λ, Θ = (0, ∞)
y las funciones de densidad son de la forma fλ (x) = λe−λx 1{x ≥ 0}. Para encontrar el
estimador de máxima verosimilitud basado en una muestra aleatoria X1 , . . . , Xn usaremos
resultado del Lema 2.3.
d
Hallamos la función ψλ (x) = dλ log fλ (x). Para todo x ≥ 0 vale que

log fλ (x) = log λe−λx = log(λ) − λx.

Derivando respecto de λ se obtiene


1
ψλ (x) = − x,
λ
y la ecuación (22) se transforma en la ecuación
n
1 X
n − xi = 0.
λ i=1

cuya solución es
n
λ = Pn = (x)−1 .
i=1 xi

El lector puede verificar que el valor de λ obtenido maximiza el logaritmo de la verosimil-


itud.
Si la muestra aleatoria X1 , . . . , Xn arrojó los valores x1 , . . . , xn , el estimador de máxima
verosimilitud es

λ̂mv = λ̂mv (x1 , . . . , xn ) = (x)−1 .

Por lo tanto, el estimador de máxima verosimilitud para λ, basado en una muestra aleatoria
X1 , . . . , Xn de variables Γ(1, λ), es
n
!−1
1X
λ̂mv (X1 , . . . , Xn ) = Xi .
n i=1

16
Ejemplo 2.7 (Distribuciones normales con varianza conocida). Sea σ 2 > 0 arbitrario, pero
fijo y conocido. La familia de distribuciones normales {N (µ, σ 2 ) : µ ∈ R} es una familia
regular uniparamétrica. Usando el resultado del Lema 2.3 se puede ver que el estimador de
máxima verosimilitud para µ, basado en una muestra aleatoria X1 , . . . , Xn de una variable
aleatoria X ∼ N (µ, σ 2 ), con σ 2 conocido, es
n
1X
µ̂mv (X1 , . . . , Xn ) = Xi = X
n i=1

Ejemplo 2.8 (Distribuciones normales con media conocida). Sea µ un número real arbi-
trario, pero fijo y conocido. La familia de distribuciones normales {N (µ, σ 2 ) : σ 2 > 0} es
una familia regular uniparamétrica. Usando el resultado del Lema 2.3 se puede ver que el
estimador de máxima verosimilitud para σ 2 , basado en una muestra aleatoria X1 , . . . , Xn
de una variable aleatoria X ∼ N (µ, σ 2 ), con µ conocido, es
n
2 1X
σ̂mv (X1 , . . . , Xn ) = (Xi − µ)2 .
n i=1

Ejemplo 2.9 (Distribuciones normales). La familia de distribuciones normales

{N (µ, σ 2 ) : µ ∈ R, σ 2 > 0}

es una familia regular con parámetro bidimensional. Para encontrar el estimador de máxima
verosimilitud basado en una muestra aleatoria X1 , . . . , Xn usaremos el mismo razonamiento
que nos condujo al resultado del Lema 2.3.
En este caso θ = (µ, σ 2 ), Θ = R × (0, ∞), la función densidad es de la forma
 
− 21
 1
2 −2 (x − µ)2
fµ, σ2 (x) = (2π) σ exp − ,
2σ 2
y la función de verosimilitud es
n
Y
Lµ, σ2 (x1 , . . . , xn ) = fµ, σ2 (xi )
i=1
n
!
−n
 n
2 −2 1 X
= (2π) 2 σ exp − 2 (xi − µ)2 .
2σ i=1

Tomando logaritmos se obtiene


n
n n 2 1 X
log Lµ, σ2 (x1 , . . . , xn ) = − log(2π) − log(σ ) − 2 (xi − µ)2 .
2 2 2σ i=1

17
Debido a que log es una función creciente, las funciones Lµ, σ2 (x1 , . . . , xn ) y log Lµ, σ2 (x1 , . . . , xn )
alcanzan su valor máximo en los mismos valores de (µ, σ 2 ). El punto (µ, σ 2 ) donde se al-
canza el máximo de log Lµ, σ2 (x1 , . . . , xn ) se obtiene resolviendo el sistema de ecuaciones

∂ log Lµ, σ2 (x1 , . . . , xn ) ∂ log Lµ, σ2 (x1 , . . . , xn )


= 0, = 0. (27)
∂µ ∂σ 2
Un poco de cálculo muestra que
n
∂ log Lµ, σ2 (x1 , . . . , xn ) 1 X
= (xi − µ),
∂µ σ 2 i=1
n
∂ log Lµ, σ2 (x1 , . . . , xn ) n 1 1 X
= − 2+ (xi − µ)2 .
∂σ 2 2σ 2(σ 2 )2 i=1

Por lo tanto, el sistema (27) se transforma en el sistema


n
!
1 X
xi − nµ = 0,
σ 2 i=1
n
!
1 1 X
−n + 2 (xi − µ)2 = 0.
2σ 2 σ i=1

que tiene como solución


n
1X
µ = xi = x,
n i=1
n
1X
σ2 = (xi − x)2 .
n i=1

Es fácil comprobar que en ese punto de coordenadas (µ, σ 2 ) se alcanza el máximo absoluto
de la función log Lµ, σ2 (x1 , . . . , xn ).
En resumen, si la muestra aleatoria X1 , . . . , Xn arrojó los valores x1 , . . . , xn , el estimador
de máxima verosimilitud para (µ, σ 2 ) es el punto del conjunto parámetrico Pn R × (0, ∞)
1
cuyas coordenadas son el promedio y la varianza muestrales: µ̂mv = n i=1 xi = x y
P
σˆ2 mv = n1 ni=1 (xi − x)2 .
Por lo tanto, el estimador de máxima verosimilitud para (µ, σ 2 ), basado en una mues-
tra aleatoria X1 , . . . , Xn de variables normales, N (µ, σ 2 ), es el punto en R × (0, ∞) de
coordenadas aleatorias
n
1X
µ̂mv (X1 , . . . , Xn ) = X, σˆ2 mv (X1 , . . . , Xn ) = (Xi − X)2 . (28)
n i=1

18
Malas noticias! La familia de distribuciones gamma {Γ(ν, λ) : ν > 0, λ > 0} es una
familia regular con parámetro bidimensional. Sı́!, Sı́!, Ya lo sé!: derivamos el logaritmo de
la verosimilitud y toda esa sanata que ya me tiene ... Todo parece marchar sobre ruedas,
hasta que se intenta hallar un estimador de máxima verosimilitud, basado en una muestra
aleatoria X1 , . . . , Xn , para (ν, λ). (“Esta calle es más angosta de lo que pensás”, dijo el
maestro Zen)

2.3. Principio de invariancia


En lo que sigue presentamos una propidedad bastante importante del método de máxi-
ma verosimilitud.

Teorema 2.10 (Principio de invariancia). Sea X1 , . . . , Xn una muestra aleatoria de una


variable aleatoria X cuya distribución pertenece a la familia paramétrica F = {Fθ : θ ∈ Θ}.
Sea g : Θ → Λ una función biunı́voca de Θ sobre Λ. Si θ̂ es un estimador de máxima
verosimilitud para θ, entonces g(θ̂) es un estimador de máxima verosimilitud para λ = g(θ).

Demostración. Como λ = g(θ) es una función biunı́voca de Θ sobre Λ, la función


de verosimilitud Lθ (x1 , . . . , xn ) se puede expresar en función de λ ya que θ = g −1 (λ).
Denominemos a la función de verosimilitud, como función de λ, por L∗λ (x1 , . . . , xn ). Es
claro que
L∗λ (x1 , . . . , xn ) = Lg−1 (λ) (x1 , . . . , xn )
Sea θ̂mv ∈ Θ un estimador de máxima verosimilitud para θ y sea λ̂ := g(θ̂mv ) ∈ Λ su
imagen por g. Hay que mostrar que vale lo siguiente:

L∗λ̂ (x1 , . . . , xn ) = máx L∗λ (x1 , . . . , xn )


λ∈Λ

Pero esto es inmediato, debido a que

L∗λ̂ (x1 , . . . , xn ) = Lg−1 (λ)


ˆ (x1 , . . . , xn )

= Lθ̂mv (x1 , . . . , xn )
= máx Lθ (x1 , . . . , xn )
θ∈Θ
= máx Lg−1 (λ) (x1 , . . . , xn )
λ∈Λ
= máx L∗λ (x1 , . . . , xn ).
λ∈Λ

Por lo tanto,
d = g(θ̂mv ).
g(θ)mv

19
Ejemplo 2.11. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X ∼ N (µ, 1).
En el Ejemplo 2.7 vimos que µ̂mv = X es el estimador de máxima verosimilitud para µ.
Queremos estimar
g(µ) = Pµ (X ≤ 0) = Φ(−µ).
Por el principio de invariancia, tenemos que

g(µ̂mv ) = Φ(−X)

es el estimador de máxima verosimilitud para Pµ (X ≤ 0).

Nota Bene En general, si λ = g(θ), aunque g no sea biunı́voca, se define el estimador


de máxima verosimilitud de λ por
λ̂ = g(θ̂mv ).

2.4. Cálculo del emv para familias no regulares


Venı́a rápido, muy rápido y se le soltó un patı́n ...

Ahora mostraremos algunos ejemplos correspondientes a familias no regulares. En estos


casos hay que analizar dónde se realiza el máximo “a mano”.

Ejemplo 2.12 (Distribuciones Bernoulli con parámetros discretos). Para simplificar la


exposición vamos a considerar una familia de la forma F = {B(1, p1 ), B(1, p2 )}, donde
0 < p1 < p2 < 1. La familia no es regular debido a que el conjunto paramétrico {p1 , p2 } no
es abierto. En esta situación no puede utilizarse la metodologı́a del Lema 2.3 pues conduce
a resultados totalmente disparatados.
Lo único que se puede hacer es comparar los valores
Pn Pn
xi
Lp1 (x1 , . . . , xn ) = (1 − p1 )n− i=1 xi
p1 i=1

Pn Pn
xi
Lp2 (x1 , . . . , xn ) = (1 − p2 )n− i=1 xi
p2 i=1

y quedarse con el valor de pP que haga máxima la probabilidad de observar el resultado


x1 , x2 , . . . , xn . Poniendo S = ni=1 xi , puede verse que

Lp1 (x1 , . . . , xn ) > Lp2 (x1 , . . . , xn ) ⇔ (1 − p1 )n−S pS1 > (1 − p2 )n−S pS2
 S  S
n p1 n p2
⇔ (1 − p1 ) > (1 − p2 )
1 − p1 1 − p2
 S  n
p1 (1 − p2 ) 1 − p2
⇔ >
p2 (1 − p1 ) 1 − p1
   
p1 (1 − p2 ) 1 − p2
⇔ S log > n log .
p2 (1 − p1 ) 1 − p1

20
Observando que
p1 (1 − p2 )
<1
p2 (1 − p1 )
se obtiene que
   −1
1 1 − p2 p1 (1 − p2 )
Lp1 (x1 , . . . , xn ) > Lp2 (x1 , . . . , xn ) ⇔ S < log log .
n 1 − p1 p2 (1 − p1 )

Por lo tanto,
  h  i−1
 1−p2 p1 (1−p2 )
 p1
 si x < log 1−p1
log p2 (1−p1 )
,
p̂mv (x1 , . . . , xn ) = (29)

  h  i−1
 p si x > log 1−p2
log p1 (1−p2 )
.
2 1−p1 p2 (1−p1 )

Ejemplo 2.13 (Distribuciones de Bernoulli con parámetros discretos). Supongamos que


los valores de la secuencia (1) que aparece en el Ejemplo 1.1 fueron arrojados por una
muestra aleatoria de tamaño 20 de una variable aleatoria X ∼ B(1, p), donde p = 0.5
o p = 0.6. El estimador de máxima verosimilitud se obtendrá comparando el promedio
muestral, x = 0.55, con el valor de la expresión
   −1
1 − p2 p1 (1 − p2 )
log log ,
1 − p1 p2 (1 − p1 )

para p1 = 0.5 y p2 = 0.6. Como


   −1     −1
0.4 (0.5)(0.4) 4 4
log log = log log = 0.55033...
0.5 (0.6)(0.5) 5 6

y 0.55 < 0.55033, el estimador de máxima verosimilitud, basado en las observaciones (1),
será
p̂mv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = 0.5.

Ejemplo 2.14 (Distribución uniforme). La familia {U(0, θ) : θ > 0} de distribuciones


uniformes no es una familia regular debido a que el soporte de la densidad de la distribución
U(0, θ) es [0, θ] (y depende claramente del valor del parámetro θ). En esta situación támpoco
puede utilizarse la metodologı́a del Lema 2.3. En este caso Θ = (0, ∞) y las funciones de
densidad son de la forma
1
fθ (x) = 1{0 ≤ x ≤ θ}.
θ

21
La función de verosimilitud es
n
Y 1
Lθ (x1 , . . . , xn ) = 1{0 ≤ xi ≤ θ}
i=1
θ
n
1 Y
= n 1{0 ≤ xi ≤ θ}
θ i=1
 
1
= n 1 máx xi ≤ θ .
θ i=1,...,n

Si θ < máxi xi , entonces Lθ = 0. Si θ ≥ máxi xi , entonces Lθ = θ−n , una función decreciente


en θ. Por lo tanto, su máximo se alcanza en
θ = máx xi . (30)
i=1,...,n

Por lo tanto, el estimador de máxima verosimilitud para θ, basado en una muestra aleatoria
X1 , . . . , Xn de una variable aleatoria X ∼ U(0, θ), es el máximo de la muestra
θ̂mv = X(n) := máx Xi . (31)
i=1,...,n

Ejemplo 2.15 (Distribución uniforme). La familia {U(θ − 1/2, θ + 1/2) : θ ∈ R} de


distribuciones uniformes no es una familia regular debido a que el soporte de la densidad
de la distribución U(θ − 1/2, θ + 1/2) es [θ − 1/2, θ + 1/2] (y depende claramente del valor
del parámetro θ). En este caso Θ = R y las funciones de densidad son de la forma
fθ (x) = 1{θ − 1/2 ≤ x ≤ θ + 1/2}.
La función de verosimilitud es
n
Y
Lθ (x1 , . . . , xn ) = 1{θ − 1/2 ≤ xi ≤ θ + 1/2}
i=1
 
= 1 máx xi − 1/2 ≤ θ ≤ mı́n xi + 1/2
i=1,...,n i=1,...,n

= 1 x(n) − 1/2 ≤ θ ≤ x(1) + 1/2 ,
pues
θ − 1/2 ≤ xi ≤ θ + 1/2, i = 1, . . . , n,
si y solamente si
θ ≤ xi + 1/2 y xi − 1/2 ≤ θ, i = 1, . . . , n,
Como Lθ (x1 , . . . , xn ) se anula para θ < x(n) y para θ > x(1) + 1/2 y es constantemente 1
en el intervalo [x(n) − 1/2, x(1) + 1/2], tenemos que cualquier punto de ese intervalo es un
estimador de máxima verosimilitud para θ. En particular,
x(1) + x(n)
θ̂ =
2
es un estimador de máxima verosimilitud para θ. Etc...

22
3. Intermedio: Poblaciones Normales
En los Ejemplos 2.7, 2.8 y 2.9 se obtuvieron los estimadores de máxima verosimili-
tud para la media y la varianza de poblaciones normales. En esta sección estudiaremos
sus propiedades. Debido a que los estimadores de parámetros son variables aleatorias sus
propiedades dependen de su distribución de probabilidades. Para analizar el sesgo de un
estimador hay que conocer su esperanza; para analizar su consistencia débil hay que cono-
cer su varianza, etc. En lo que sigue, dependiendo del caso, mostraremos como se obtienen
las distribuciones de los estimadores mencionados. Los resultados que vamos a presentar
se utilizan con bastante frecuencia en la construcción de intervalos de confianza y test de
hipótesis.

Nota Bene sobre pivotes. En muchos casos, la distribución de una variable aleatoria se
obtiene relacionandola con alguna distribución conocida. Esto se consigue mediante alguna
transformación de variables. Para ser más precisos, sea X = (X1 , . . . , Xn ) una muestra
aleatoria de una variable aleatoria X cuya distribución depende del parámetro θ y sea
θ̂(X) una estadı́stica o un estimador puntual de θ. Una variable aleatoria de la forma
G(θ̂(X), θ) se llama un un pivote para θ basado en θ̂(X) si su distribución no depende de
θ (ni de ningún otro parámetro desconocido, cuando hay varios parámetros.)

Escenario 1: varianza conocida


Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ),
con varianza σ 2 conocida. De acuerdo con el Ejemplo 2.7 el estimador de máxima verosimil-
itud para µ, basado en X, es
n
1X
µ̂mv (X) = Xi = X.
n i=1

En este caso, la distribución de X se obtiene utilizando los resultados sobre sumas de


normales independientes y de cambio de escala:
 
σ2
X ∼ N µ, . (32)
n

De (32) es fácil conseguir un pivote para µ basado en X:


√ 
n X −µ
∼ N (0, 1) .
σ

Escenario 2: media conocida


Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ),
con media µ conocida. De acuerdo con el Ejemplo 2.8 el estimador de máxima verosimilitud

23
para σ 2 , basado en X, es
n
1X
σb2 mv (X) = (Xi − µ)2 .
n i=1

Dos problemas ı́ntimamente relacionados: Cuál es la distribución de la variable aleatoria


σb2 mv (X)? Cómo se construye un pivote para σ 2 ?

Construyendo un pivote. En primer lugar vamos a construir un pivote para σ 2 basado


en X = (X1 , . . . , Xn ). Sabemos que las variables aleatorias X1 , . . . , Xn son independientes
y N (µ, σ 2 ) con media conocida. Para “liberarnos” del parámetro desconocido podemos
estandarizar las variables Xi convirtiendolas en N (0, 1):

X −µ
Zi := .
σ
Sumando los cuadrados de las variables estandarizadas obtenemos lo siguiente
n
X n
X n
(Xi − µ)2 1 X
Zi2 = = 2 (Xi − µ)2
i=1 i=1
σ2 σ i=1
n
!
n 1X n
= (Xi − µ)2 = 2 σb2 mv (X) (33)
σ2 n i=1 σ

Las igualdades (33) relacionan la variable aleatoria σb2 mv (X) con una suma de cuadrados de
normales N (0, 1) independientes que no depende de la varianza σ 2 ni de ningún parámetro
desconocido. Por lo tanto,
n b2
σ mv (X)
σ2

para σ 2 basado en σb2 mv (X), cuya distribución es la distribución de una suma


es un pivote P
de la forma ni=1 Zi2 , donde las Zi son N (0, 1) independientes.

Definición 3.1 (Distribución chi-cuadrado). Se llama Pndistribución chi-cuadrado con n


2 2
grados de libertad (denotada χn ) a la distribución de i=1 Zi , donde las Zi son normales
N (0, 1) independientes.

Caracterización de la distribución chi-cuadrado. En lo que sigue demostraremos


que la distribución χ2n es un caso particular de la distribución Gamma. Más precisamente,
 
2 n 1
χn = Γ , .
2 2

24
Caso n = 1. La función de distribución de una variable aleatoria χ21 es F (x) = P(Z 2 ≤ x),
donde Z es N (0, 1). Para cada x > 0, vale que
Z √
x
2
√ √ √ 1 2
F (x) = P(Z ≤ x) = P(|Z| ≤ x) = P(− x ≤ Z ≤ x) = √
√ e−t /2 dt.
− x 2π

Usando el teorema fundamental del cálculo integral y la regla de la cadena, podemos


obtener la densidad de probabilidades de la distribución χ21 . Para cada x > 0, vale que
Z √x
d d 1 2
f (x) = F (x) = √ e−t /2 dt
dx dx − x 2π

 
1 −( x)2 /2 d
√ √ −(− x)2 /2 d
√ √
= √ e ( x) − e (− x)
2π dx dx
   
1 −x/2 1 −x/2 1 1 −x/2 1
= √ e √ +e √ =√ e √
2π 2 x 2 x 2π x
1 1
(1/2) 2 −1/2 −(1/2)x  (1/2) 2 1 −1 −(1/2)x
= √ x e = √ x2 e . (34)
π π

La última expresión que aparece en el lado derecho de la identidad (34) es la expresión de
la densidad de la distribución Γ 12 , 12 . Por lo tanto,
 
2 1 1
χ1 = Γ , .
2 2

Caso general. Basta recordar que la suma de variables Γ iid también es Γ.

Nota Bene. La distribución χ2n no es simétrica.


0.14

0.12

0.1

0.08

0.06

0.04

0.02

0
0 5 10 15 20 25

Figura 2: Gráfico de la función densidad de probabilidad de la distribución χ27 .

25
Corolario 3.2. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼
N (µ, σ 2 ), con media µ conocida. El estimador de máxima verosimilitud para la varianza
P
σ 2 , σb2 mv (X) = n1 ni=1 (Xi − µ)2 , se distribuye como una variable aleatoria de la forma
σ2 2 n 1

n
Y n , donde Y n ∼ χ n = Γ ,
2 2
. En particular, para cada σ 2 > 0 vale que

σ2 σ 2 (n/2)
Eσ2 [σb2 mv (X)] = Eσ2 [Yn ] = = σ2, (35)
n n (1/2)
(σ 2 )2 (σ 2 )2 (n/2) 2(σ 2 )2
Vσ2 (σb2 mv (X)) = Vσ 2 (Y n ) = = . (36)
n2 n2 (1/2)2 n

La identidad (35) significa que σb2 mv (X) es un estimador insesgado para la varianza. La
identidad (36) implica que lı́mn→∞ Vσ2 (σb2 mv (X)) = 0. En consecuencia, σb2 mv (X) es un
estimador insesgado y débilmente consistente.

Escenario 3: media y varianza desconocidas


Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ),
con media µ y varianza desconocidas. De acuerdo con el Ejemplo 2.9, los estimadores de
máxima verosimilitud para la media y la varianza, basados en X, son, respectivamente,
n
1X
µ̂mv (X) = X, σb2 mv (X) = (Xi − X)2 . (37)
n i=1
P
La distribución de la variable aleatoria n1 ni=1 (Xi − X)2 se obtiene de un modo más
complicado y se basa en el siguiente resultado.

Teorema 3.3 (Llave). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución
N (µ, σ 2 ). Valen las siguientes afirmaciones:

n(X−µ)
(a) Z = σ
tiene distribución N (0, 1).
P
(b) U = n−1
σ2
S 2 = σ12 ni=1 (Xi − X)2 tiene distribución χ2n−1 .
(c) Z y U son variables aleatorias independientes.

Nota Bene. El calificativo de “llave” para el Teorema 3.3 está puesto para destacar que
sus resultados son la clave fundamental en la construcción de intervalos de confianza y de
reglas de decisión sobre hipótesis estadı́sticas para distribuciones normales. La prueba de
este Teorema es bastante técnica y puede verse en el Apéndice.

Corolario 3.4. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼
N (µ, σ 2 ), con media µ y varianza σ 2 desconocidas. El estimador de máxima verosimilitud
P
para la varianza, σˆ2 mv (X) = n1 ni=1 (Xi − X)2 , se distribuye como una variable aleatoria

26
σ2 n−1 1

de la forma n
U, donde U ∼ χ2n−1 = Γ 2
,2 . En particular, para cada (µ, σ 2 ) vale que

b2
σ2 σ 2 ((n − 1)/2) n−1 2
E [σ mv (X)] =
µ,σ 2 Eµ,σ [U ] =
2 = σ , (38)
n n (1/2) n
(σ 2 )2 (σ 2 )2 ((n − 1)/2) 2(n − 1) 2 2
Vµ, σ2 (σb2 mv (X)) = 2
V µ,σ 2 (U ) =
2 2
= (σ ) . (39)
n n (1/2) n2

La identidad (38) significa que σb2 mv (X) es un estimador SESGADO para la varianza,
pero asintóticamente insesgado debido a que lı́mn→∞ Eµ,σ2 [σb2 mv (X)] = σ 2 . La identidad
(39) implica que lı́mn→∞ Vµ,σ2 (σb2 mv (X)) = 0. En consecuencia, σb2 mv (X) es un estimador
sesgado, asintóticamente insesgado y débilmente consistente.

4. Estimación por intervalo


Hasta ahora hemos estudiado algunas propiedades y métodos de busqueda de estima-
ciones puntuales de un parámetro desconocido que determina la función de distribución Fθ
de la familia F = {Fθ : θ ∈ Θ} correspondiente a la muestra aleatoria X = (X1 , . . . , Xn ).
Las estimaciones puntuales se utilizan en los casos que debemos usar el número θ̂ en lugar
del θ desconocido para “enchufarlo” en la función de distribución.
En lo que sigue presentaremos otro enfoque de la cuestión que también tiene gran apli-
cación. La idea básica es la siguiente: aunque no podemos determinar exactamente el valor
de θ, basándonos en una muestra dada, podemos tratar de construir un intervalo [θ− , θ+ ],
que, con una probabilidad bastante alta, sea capaz de “capturar” el valor desconocido θ.
Para formalizar esta idea, consideramos una muestra aleatoria X = (X1 , . . . , Xn ) de la
variable aleatoria X cuya función de distribución F (x) := P(X ≤ x), pertenece a la familia
paramétrica de distribuciones (distinguibles) F = {Fθ : θ ∈ Θ}.
Definición 4.1 (Intervalo de confianza). Un intervalo de confianza para θ, de nivel β, es
un intervalo (aleatorio) I = I(X), que depende de la muestra aleatoria X, tal que
Pθ (θ ∈ I(X)) = β, (40)
para todo θ ∈ Θ.
Definición 4.2 (Cotas de confianza). Una cota inferior de confianza para θ, de nivel β,
basada en la muestra aleatoria X, es una variable aleatoria θ1 (X) tal que
Pθ (θ1 (X) ≤ θ) = β, (41)
para todo θ ∈ Θ.
Una cota superior de confianza para θ, de nivel β, basada en la muestra aleatoria X,
es una variable aleatoria θ2 (X) tal que
Pθ (θ ≤ θ2 (X)) = β, (42)
para todo θ ∈ Θ.

27
Observación 4.3. Sean θ1 (X) una cota inferior de confianza de nivel β1 > 1/2 y θ2 (X)
una cota superior de confianza de nivel β2 > 1/2, tales que Pθ (θ1 (X) ≤ θ2 (X)) = 1 para
todo θ ∈ Θ. Entonces,
I(X) = [θ1 (X), θ2 (X)]
define un intervalo de confianza para θ de nivel β = β1 + β2 − 1. En efecto,

Pθ (θ ∈ I(X)) = 1 − Pθ (θ < θ1 (X) o θ > θ2 (X))


= 1 − Pθ (θ < θ1 (X)) − Pθ (θ > θ2 (X))
= 1 − (1 − β1 ) − (1 − β2 ) = β1 + β2 − 1. (43)

La identidad (43) muestra que la construcción de intervalos de confianza se reduce a la


construcción de cotas inferiores y superiores. Más precisamente, si se quiere construir un
intervalo de confianza de nivel β, basta construir una cota inferior de nivel β1 = (1 + β)/2
y una cota superior de nivel β2 = (1 + β)/2.

4.1. El método del pivote


Cuando se quieren construir intervalos de confianza para θ, basados en una muestra
X, lo más natural es comenzar la construcción apoyandose en algún estimador puntual
del parámetro θ̂(X) (cuya distribución depende de θ). Una técnica general para construir
intervalos de confianza, llamada el método del pivote, consiste en transformar el estimador
θ̂(X) hasta convertirlo en una variable aleatoria cuya distribución sea “conocida” y no de-
penda de θ. Para que la transformación sea útil no debe depender de ningún otro parámetro
desconocido.

Definición 4.4 (Pivote). Una variable aleatoria Q(X1 , . . . , Xn ; θ) = Q(X; θ) se dice una
cantidad pivotal o un pivote para el parámetro θ si su distribución no depende de θ (ni de
ningún parámetro desconocido, cuando hay varios parámetros).

Si se consigue construir un pivote Q(X, θ) para el parámetro θ, el problema de la


construcción de intervalos de confianza, de nivel β, se descompone en dos partes:

1. Encontrar pareja de números reales a < b tales que Pθ (a ≤ Q(X; θ) ≤ b) = β.

2. Despejar el parámetro θ de las desigualdades a ≤ Q (X, θ) ≤ b.

Esta tarea puede simplificarse si se dispone de un estimador puntual, θ̂(X), para θ y


de una transformación G(t; θ) tales que

(i) Q(X; θ) = G(θ̂(X); θ) es un pivote para θ.

(ii) Para cada t, la función G(t; θ) es continua y estrictamente monótona en la variable


θ.

28
En tal caso puede verse que para cada X existen θ1 (X) y θ2 (X) tales que

a ≤ Q(X; θ) ≤ b ⇔ θ1 (X) ≤ θ ≤ θ2 (X)

y entonces
Pθ (θ1 (X) ≤ θ ≤ θ2 (X)) = β,
de modo que [θ1 (X), θ2 (X)] es un intervalo aleatorio que contiene a θ con probabilidad β.

4.2. Ejemplo
Ejemplo 4.5 (Poblaciones exponenciales). Sea X = (X1 , . . . , Xn ) una muestra aleatoria
de una varibale aleatoria X ∼ Γ(1, λ), λ > 0.
P
Construyendo un pivote para λ. Sabemos que la suma S = ni=1 Xi tiene distribución
Γ(n, λ). Como la distribución de S depende de λ, S no es un pivote para λ. Sin embargo,
podemos liberarnos de λ utilizando un cambio de variables lineal de la forma T = aS,
donde a es positivo y elegido adecuadamente para nuestros propósitos. Si a > 0 y T = aS,
entonces T ∼ Γ n, λa . Poniendo a = 2λ, resulta que T = 2λS ∼ Γ n, 21 = χ22n . Por lo
tanto,
n
X
Q(X, λ) = 2λ Xi ∼ χ22n
i=1

es un pivote para λ basado en X.

Construyendo un intervalo de confianza. Dado el nivel de confianza β ∈ (0, 1),


tenemos que para cada > 0 vale que

Pλ χ22n,(1−β)/2 ≤ Q(X, λ) ≤ χ22n,(1+β)/2 ,

donde para cada γ ∈ (0, 1), χ22n, γ designa el único punto de la recta a cuya izquierda queda
una región de probabilidad γ para la distribución χ22n .
Despejando λ de las desigualdades
n
X
χ22n,(1−β)/2 ≤ 2λ Xi ≤ χ22n,(1+β)/2
i=1

obtenemos que el intervalo I(X) definido por


" 2 #
χ2n,(1−β)/2 χ22n,(1+β)/2
I(X) = P , P
2 ni=1 Xi 2 ni=1 Xi

es un intervalo de confianza para λ de nivel β.

29
Consideremos ahora las siguientes 10 observaciones

0.5380, 0.4470, 0.2398, 0.5365, 0.0061,


0.3165, 0.0086, 0.0064, 0.1995, 0.9008.
P
En tal caso tenemos 10 i=1 = 3.1992. Tomando β = 0.95, tenemos de la tabla de la dis-
tribución χ220 que χ220,0.025 = 9.59 y χ220,0.975 = 34.17, entonces el intervalo [1.50, 5.34] es un
intervalo de confianza para λ de nivel β = 0.95.

5. Intervalos de confianza para Poblaciones Normales


Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ).
En lo que sigue mostraremos como construir intervalos de confianza para la media µ y la
varianza σ 2 basados en la muestra X.
Los intervalos se van a construir utilizando el principio del pivote enunciado en la Sec-
ción 4 y los resultados sobre poblaciones normales obtenidos en cada uno de los escenarios
posibles presentados en la Sección 3.

Notación: En todo lo que sigue usaremos la siguiente notación: para cada γ ∈ (0, 1), zγ
será el único número real tal que Φ(zγ ) = γ. Graficamente, a izquierda del punto zγ el área
bajo la campana de Gauss es igual a γ.

Nota Bene. De la simetrı́a de la campana de Gauss, se deduce que para cada β ∈ (0, 1)
vale que z(1−β)/2 = −z(1+β)/2 . Por lo tanto, para Z ∼ N (0, 1) vale que
   1+β 1−β
P −z(1+β)/2 ≤ Z ≤ z(1+β)/2 = Φ z(1+β)/2 − Φ −z(1+β)/2 = − = β.
2 2

5.1. Varianza conocida


Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ).
Si la varianza σ 2 es conocida, un pivote para µ, basado en X, es

n(X − µ)
Q(X, µ) =
σ2
y tiene distribución N (0, 1). En consecuencia, dado el nivel de confianza β ∈ (0, 1), tenemos
que para cada µ ∈ R vale que

β = Pµ −z(1+β)/2 ≤ Q(X, µ) ≤ z(1+β)/2

Despejando µ de las desigualdades



n(X − µ)
−z(1+β)/2 ≤ ≤ z(1+β)/2 .
σ

30
obtenemos que el intervalo I(X) definido por
 
σ σ
I(X) = X − √ z(1+β)/2 , X + √ z(1+β)/2 ,
n n

es un intervalo de confianza para µ de nivel β.

5.2. Media conocida


Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ).
Si la media µ es conocida, un pivote para σ 2 , basado en X, es
n b2
Q(X, σ 2 ) = σ mv ,
σ2
y tiene distribución χ2n . En consecuencia,

5.3. Media y varianza desconocidas


dado el nivel de confianza β ∈ (0, 1), tenemos que para cada σ 2 > 0 vale que

β = Pσ2 χ2n,(1−β)/2 ≤ Q(X, σ 2 ) ≤ χ2n,(1+β)/2 ,

donde para cada γ ∈ (0, 1), χ2n, γ designa el único punto de la recta a cuya izquierda queda
una región de probabilidad γ para la distribución χ2n .
Despejando σ 2 de las desigualdades
n b2
χ2n,(1−β)/2 ≤ 2
σ mv ≤ χ2n,(1+β)/2
σ
obtenemos que el intervalo I(X) definido por
" #
nσˆ2 mv nσˆ2 mv
I(X) = ,
χ2n, (1+β)/2 χ2n, (1−β)/2

es un intervalo de confianza para σ 2 de nivel β.


En este escenario la dificultad del método consiste en conseguir pivotes para los parámet-
ros desconocidos. Esta dificultad se supera introduciendo las distribuciones t de Student y
utilizando los resultados del Teorema 3.3 según el cual si X = (X1 , . . . , Xn ) es una muestra
aleatoria de una normal N (µ, σ 2 ), vale que

n(X−µ)
(a) Z = σ
tiene distribución N (0, 1).
Pn
(b) U = (n−1)
σ 2 S 2
= σ
1
2
2 2
i=1 (Xi − X) tiene distribución χn−1 .

(c) Z y U son variables aleatorias independientes.

31
Nota Bene. De la propiedad (b) sigue Q(X, σ 2 ) = (n−1)S 2 /σ 2 es un pivote para σ 2 cuya
distribución es χ2n−1 . Esto permite resolver el problema de la construcción de intervalos de
confianza para la varianza σ 2 adaptando la secuencia desarrollada en la Sección 5.2 para
el caso en que la media µ es conocida. Sin embargo, a diferencia de lo que ocurrı́a cuando
conocı́amos la varianza σ 2 , esta vez la propiedad (a), por si sola, resultará insuficiente
para construir intervalos de confianza
√ para la media µ. Esto es ası́ debido a que en este
caso aunque la distribución de n(X − µ)/σ es conocida, la transformación depende del
parámetro desconocido σ 2 y por lo tanto no es un pivote para µ.

5.3.1. Intervalos para la varianza


Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ 2 ).
Sabemos que
(n − 1) 2
Q(X, σ 2 ) = S ,
σ2
es un pivote para σ 2 , basado en X, cuya distribución es χ2n−1 . Como en la Sección 5.2 de
la igualdad

Pµ,σ2 χ2n−1,(1−β)/2 ≤ Q(X, σ 2 ) ≤ χ2n−1,(1+β)/2 = β,

se deduce que " #


(n − 1)S 2 (n − 1)S 2
I(X) = ,
χ2n−1, (1+β)/2 χ2n−1, (1−β)/2
es un intervalo de confianza para σ 2 de nivel β.

Definición 5.1 (La distribución t de Student). Sean Z y U variables aleatorias indepen-


dientes con distribuciones N (0, 1) y χ2k , respectivamente. La distribución de la variable

Z
T =p
U/k

se llama distribución t de Student con k grados de libertad y se denota mediante tk .

Observación 5.2. Cuando k es grande la distribución tk se parece mucho a la distribución


N (0, 1). Con un poco de trabajo (cambios de variables) se puede ver que la distribución
t de Student con k grados de libertad tiene una función densidad de probabilidad de la
forma:
  k+1
1 Γ k+12 x 2 − 2
√ 1+ .
kπ Γ k2 k

El lector puede consultar cualquier libro de Estadı́stica.

32
0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Figura 3: Comparación de la función densidad de probabilidad de una distribución t7 (lı́nea


solida) con la de la distribución N (0, 1) (lı́nea punteada).

5.3.2. Intervalos para la media


2
√ de una variable aleatoria X ∼ N (µ, 2σ ).
Sea X = (X1 , . . . , Xn ) una muestra aleatoria
Aunque en este contexto la transformación n(X − µ)/σ es inútil porque ahora σ es
un parámetro desconocido, el Teorema 3.3 muestra que este problema se puede resolver
reemplazando la desconocida σ 2 por su estimación insesgada S 2 . Concretamente, tenemos
que

n(X − µ)
Q(X, µ) =
S
es un pivote para µ y su distribución es una t de Student con n − 1 grados de libertad (en
sı́mbolos, Q(X, µ) ∼ tn−1 ). En efecto, basta observar que
√ √
n(X − µ)/σ n(X − µ)/σ Z
Q(X, µ) = = p =p ,
S/σ S 2 /σ 2 U/(n − 1)

donde Z = n(X − µ)/σ ∼ N (0, 1) y U = (n−1) σ2
S 2 ∼ χ2n−1 son variables aleatorias
independientes (ver la propiedad (c) del Teorema 3.3).
Designando por tn−1, γ al único número real tal que P(Q(X, µ) ≤ tn−1,γ ) = γ y usando
que la densidad de la distribución tn−1 es simétrica respecto del origen, tenemos que

Pµ,σ2 −tn−1,(1+β)/2 ≤ Q(X, µ) ≤ tn−1,(1+β)/2 = β

Despejando µ se obtiene que


 
S S
I(X) = X − √ tn−1, (1+β)/2 , X + √ tn−1, (1+β)/2
n n
es un intervalo de confianza para la media µ de nivel β.

33
5.4. Ejemplo
Para fijar ideas vamos a construir intervalos de confianza de nivel β = 0.95 para la
media y la varianza de una variable normal N (µ, σ 2 ), basados en una muestra aleatoria de
volumen n = 8 que arrojó los resultados siguientes: 9, 14, 10, 12, 7, 13, 11, 12.
El problema se resuelve recurriendo a las tablas de las distribuciones χ2 y t y haciendo
algunas cuentas.
Como n = 8 consultamos las tablas de χ27 y de t7 . Para el nivel β = 0.95 tenemos
que (1 + β)/2 = 0.975 y (1 − β)/2 = 0.025. De acuerdo con las tablas χ27, 0.975 = 16.0127,
χ27, 0.025 = 1.6898 y t7, 0.975 = 2.3646. Por otra parte, X = 11, S 2 = 36/7 = 5.1428 y
S = 2.2677.
Algunas cuentas más (y un poco de paciencia) permiten rematar este asunto. Salvo
errores de cuentas, I1 = [2.248, 21.304] es un intervalo de confianza de nivel 0.95 para la
varianza, mientras que I2 = [9.104, 12.895] es un intervalo de confianza de nivel 0.95 para
la media.

6. Apéndice: Demostración del Teorema llave


6.1. Enunciado del Teorema 3.3
El objetivo de este apéndice es demostrar que si X = (X1 , . . . , Xn ) es una muestra
aleatoria de una distribución N (µ, σ 2 ), entonces

n(X−µ)
(a) Z = σ
tiene distribución N (0, 1).
P
(b) U = (n−1)
σ2
S 2 = σ12 ni=1 (Xi − X)2 tiene distribución χ2n−1 .

(c) Z y U son variables aleatorias independientes.

Observación 6.1. Sin perder generalidad puede suponerse que µ = 0.

En efecto, basta poner Xi∗ = Xi − µ. Las variables Xi∗ son independientes y tienen
distribución N (0, σ 2 ). Además
n n n
1X ∗ 1X 1X
X∗ = Xi = (Xi − µ) = Xi − µ = X − µ.
n i=1 n i=1 n i=1

En consecuencia, Xi∗ − X ∗ = Xi − X para todo i = 1, . . . , n.

34
6.2. Preliminares de Análisis y Álgebra
En la prueba del Teorema 3.3 se usarán algunas nociones de Álgebra Lı́neal2 y el
Teorema de cambio de variables para la integral múltiple3 .
Teorema 6.2 (Cambio de variables en la integral múltiple). Sea f : Rn → R una función
integrable. Sea g : Rn → Rn , g = (g1 , . . . , gn ) una aplicación biyectiva, cuyas componentes
tienen derivadas parciales de primer orden continuas. Esto es, para todo 1 ≤ i, j ≤ n, las
funciones ∂y∂ j gi (y) son continuas. Si el Jacobiano de g es diferente de cero en cası́ todo
punto, entonces,
Z Z
f (x)dx = f (g(y))|Jg (y)|dy,
A g −1 (A)
  
n ∂gi (y)
para todo conjunto abierto A ⊂ R , donde Jg (y) = det ∂yj
.
i,j

El siguiente resultado, que caracteriza la distribución de un cambio de variables aleato-


rias, es una consecuencia inmediata del Teorema 6.2.
Corolario 6.3. Sea X un vector aleatorio n-dimensional con función densidad de proba-
bilidad fX (x). Sea ϕ : Rn → Rn una aplicación que satisface las hipótesis del Teorema 6.2.
Entonces, el vector aleatorio Y = ϕ(X) tiene función densidad de probabilidad fY (y) de
la forma:
fY (y) = fX (ϕ−1 (y))|Jϕ−1 (y)|.

Demostración. Cualquiera sea el conjunto abierto A se tiene que


Z
−1
P (Y ∈ A) = P (ϕ(X) ∈ A) = P(X ∈ ϕ (A)) = fX (x)dx.
ϕ−1 (A)

Aplicando el Teorema 6.2 para g = ϕ−1 se obtiene


Z Z
fX (x)dx = fX (ϕ−1 (y))|Jϕ−1 (y)|dy.
ϕ−1 (A) A

Por ende
Z
P (Y ∈ A) = fX (ϕ−1 (y))|Jϕ−1 (y)|dy.
A

Por lo tanto, el vector aleatorio Y tiene función densidad de probabilidad de la forma


fY (y) = fX (ϕ−1 (y))|Jϕ−1 (y)|.
2
La noción de base ortonormal respecto del producto interno canónico en Rn y la noción de matriz
ortogonal. Si lo desea, aunque no es del todo cierto, puede pensar que las matrices ortogonales corresponden
a rotaciones espaciales.
3
Sobre la nomenclatura: Los vectores de Rn se piensan como vectores columna y se notarán en
negrita x = [x1 . . . xn ]T .

35
6.3. Lema previo
Observación 6.4. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución
N (0, σ 2 ). Por independencia, la distribución conjunta de las variables X1 , . . . , Xn tiene
función densidad de probabilidad de la forma
n   n
!
Y 1 1 2 1 1 X 2
f (x) = √ exp − 2 xi = exp − 2 x
i1
2πσ 2σ (2π)n/2 σ n 2σ i=1 i
 
1 1 2
= exp − 2 ||x||2 .
(2π)n/2 σ n 2σ
De la observación anterior es claro que la distribución conjunta de las variables X1 , . . . , Xn
es invariante por rotaciones. Más concretamente vale el siguiente resultado:
Lema 6.5 (Isotropı́a). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable
N (0, σ 2 ) y sea B ∈ Rn×n una matriz ortogonal, i.e. B T B = BB T = In . Si X = [X1 . . . Xn ]T ,
entonces Y = [Y1 . . . Yn ]T = BX tiene la misma distribución conjunta que X. En particular
las variables aleatorias Y1 , . . . , Yn son idependientes y son todas N (0, σ 2 ).

Demostración. Es consecuencia inmediata del Teorema de cambio de variables para


T
y = g(x)
 = Bx. Debido a que B es una matriz ortogonal, g (y) = B y y Jg−1 (y) =
−1
T
det B = ±1
 
T T 1 1
fY (y) = fX (B y)| det(B )| = exp − 2 ||B y||2 | det(B T )|
T 2
(2π)n/2 σ n 2σ
 
1 1
= n/2 n
exp − 2 ||y||22 .
(2π) σ 2σ
En la última igualdad usamos que ||B T y||2 = ||y||2 debido a que las transformaciones
ortogonales preservan longitudes.

6.4. Demostración del Teorema.


Sea B = {b1 , b2 , . . . , bn } una base ortonormal de Rn , donde b1 = √1n [1 . . . 1]T . Sea
B ∈ Rn×n la matriz ortogonal cuya i-ésima fila es bTi . De acuerdo con el Lema 6.5 el vector
aleatorio Y = [Y1 . . . Yn ]T = BX tiene la misma distribución que X. En primer lugar,
observamos que
n
1 X √
Y1 = bT1 X =√ Xi = n(X).
n i=1

En segundo lugar,
n
X n
X
T T T T
Yi2 = Y Y = (BX) BX = X B BX = X X = T
Xi2 .
i=1 i=1

36
En consecuencia,
n
X n
X n
X n
X
2 2
Yi2 = Xi2 − Y12 = Xi2 − nX = Xi − X .
i=2 i=1 i=1 i=1

Las variables Y1 , . . . , Yn son idependientes. Como n(X) depende de Y1 , mientras que
Pn 2
i=1 Xi − X depende de Y2 , . . . , Yn , resulta que X y S 2 son independientes (lo que
√ √
prueba la parte (c)). Además, n(X) = Y1 ∼ N (0, σ 2 ), por lo tanto Z = n(X) σ
∼ N (0, 1)
(lo que prueba la parte (a)). La parte (b) se deduce de que
n n  2
(n − 1)S 2 1 X 2 X Yi
= 2 Xi − X = ∼ χ2n−1 ,
σ2 σ i=1 i=2
σ

pues las n − 1 variables Y2 /σ, . . . , Yn /σ son independientes y con distribución N (0, 1).

7. Ejercicios Adicionales
Error cuadrático medio

1. Sea θ̂ un estimador para θ. Demostrar que el ECM se puede descomponer en la forma

ECM(θ̂) = Vθ (θ̂) + B2 (θ̂),

donde B(θ̂) = Eθ (θ̂) − θ es el sesgo del estimador de θ̂

Análisis y comparación de estimadores

2. Sea X1 , X2 , X3 , X4 una muestra aleatoria de una variable aleatoria tal que Eθ [X] = θ
y Vθ (X) = 1. Comparar los siguientes estimadores para θ
4
1X X1 + 2X2 + 3X3 + 4X4 X1 + X2 + X3
X= Xi , , .
4 i=1 10 3

3. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria tal que Eθ [X] = µ(θ) y
Vθ (X) = σ 2 , donde σ 2 es conocido. Se consideran los siguientes estimadores para µ(θ):
n
X
µ̂(l1 ,...,ln ) := li Xi ,
i=1

donde li ≥ 0, i = 1, . . . , n son constantes conocidas.


(a) Hallar una condición sobre las constantes li , necesaria y suficiente, para que los esti-
madores µ̂(l1 ,...,ln ) resulten insesgados para µ(θ).

37
(b) Hallar el óptimo entre todos los estimadores µ̂(l1 ,...,ln ) que resulten insesgados para µ(θ).
(Sugerencia: Utilizar multiplicadores de Lagrange.)

4. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria X ∼ U(0, θ). Se con-
sidera X(n) := máx(X1 , . . . , Xn ) como estimador para θ.
(a) Hallar la función densidad de X(n) y mostrar que
n nθ2
Eθ [X(n) ] = θ y Vθ (X(n) ) = .
n+1 (n + 1)2 (n + 2)

(b) Calcular el sesgo del estimador X(n) y demostrar que se trata de un estimador asintótica-
mente insesgado para θ.
(c) Usando la desigualdad de Chebychev demostrar X(n) es un estimador débilmente con-
sistente.

5. Sea X una variable aleatoria con distribución Bernoulli de parámtero θ. Sean θ̂1 = X
y θ̂2 = 1/2 dos estimadores para θ.
(a) Verificar si θ̂1 y θ̂2 son estimadores insesgados para θ.
(b) Comparar los ECMs. Hacer un gráfico de los ECMs como función de θ.

6. Sea X1 , . . . , Xn una muestra aleatoria de tamaño n de una variable aleatoria X con


f.d.p. dada por
fθ (x) = e−(x−θ) 1{x > θ}, θ > 0.

(a) Verificar si θ̂1 = X y θ̂2 = X(1) son estimadores insesgados para θ.


(b) Hallar y comparar los ECMs de los dos estimadores. Hacer un gráfico como función de
θ.

Cálculo del emv para familias regulares

7. Sea X1 , . . . , Xn una muestra aleatoria de una distribución Binomial B(k, p), con k
conocido. Hallar el estimador de máxima verosimilitud para p.

8. Sea X1 , . . . , Xn una muestra aleatoria de una distribución Poisson Π(λ). Hallar el


estimador de máxima verosimilitud para λ.

Principio de invariancia

9. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X ∼ Γ(1, λ). Hallar el


estimador de máxima verosimilitud para Pλ (X > 1).

10. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X ∼ Bernoulli(p).


Hallar el estimador de máxima verosimilitud para la varianza de X.

38
Cálculo del emv para familias no regulares

11. En un bolillero hay 6 bolitas. Se extraen dos: una es blanca, la otra es negra. Estimar
la cantidad de bolitas blancas que habı́a en el bolillero.

12. Para controlar un lote de 1000 latas de conserva, se elige al azar una muestra de 30
de las cuales 2 resultan defectuosas. Estimar la cantidad de latas defectuosas en el lote.

Intervalos de confianza

13. Sea X1 , . . . , Xn una muestra aleatoria de tamaño n de una variable aleatoria X ∼


U(0, θ).
(a) Usando el estimador de máxima verosimilitud para θ construir un pivote para θ.
(b) Construir un intervalo de confianza de nivel β para θ

Intervalos de confianza para Poblaciones Normales

14. Luego del dı́a de la primavera se realiza a 10 adolecentes un análisis de sangre con el
fin de determinar el porcentaje de alcohol en sangre, obteniendose X = 12 %.
(a) Hallar un intervalo de confianza para la media, de nivel β = 0.90, suponiendo que la
concentración de alcohol en sangre se distribuye como una variable aleatoria normal cuyo
desvı́o es σ = 0.5 %.
(b) Si se quisiera que la longitud del intervalo hallado en (a) fuera a lo sumo 0.5, ¿a cuántos
adolecentes deberı́a analizarse?
(c) Idem (a), suponiendo que S = 0.5 %.

15. En un aserradero se cortan varillas de madera cuya longitu es una variable aleatoria
con distribución normal. Se miden 25 varillas al azar, obteniendose X = 180 cm. y S = 10
cm.
(a) Hallar un intervalo de confianza de nivel β = 0.90 para la varianza, suponiendo que
µ = 185.
(b) Idem (a), suponiendo µ desconocida.

39

También podría gustarte