Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estimacion Puntual PDF
Estimacion Puntual PDF
Estimación puntual
b) X1 , . . . , XN son independientes.
Veamos cómo, con esta definición, podemos tomar siempre una muestra aleatoria como una
muestra representativa de la población estudiada.
b) El hecho de que cada distribución marginal venga dada por la misma distribución significa,
informalmente, que todos los elementos de la población tienen la misma oportunidad de aparecer
en la muestra. Con otras palabras: la probabilidad de que un valor aparezca en la observación
i–ésima depende sólo de la probabilidad que dicho valor tiene en la población, de manera que
cada observación representa por igual a la población.
67
68 CAPÍTULO 4. ESTIMACIÓN PUNTUAL
c) Suponer que las observaciones sean independientes, es cómodo para el desarrollo teórico del mo-
delo del muestreo. Ası́, si (X1 � . . . � XN ) es una muestra aleatoria de una población X, la función
de masa de la muestra vendrá dada por:
– de un modo exacto, significa que cada vez que observamos un elemento lo devolvemos a la
población (“reemplazamiento”);
– de una manera aproximada, significa que el tamaño de la población es muy grande en com-
paración con el de la muestra, de modo que la composición de la población se altera muy
poco al faltarle algunos elementos (los ya observados).
Nota: Conviene distinguir entre los conceptos de “muestra aleatoria” y “muestra”. La primera es
un vector aleatorio, con su función de masa (o densidad, según el tipo). La segunda es una colección
de números, x1 � . . . � xN , que entenderemos como una “realización” del vector aleatorio (X1 � . . . � XN ).
En adelante, en general, usaremos letras mayúsculas para referirnos a variables, y minúsculas para
valores de las mismas.
Por supuesto desconocemos P (o f ), pues de conocerla el problema no serı́a tal. Precisamente,
nuestro objetivo es ganar información sobre P (o f ) a partir de las observaciones X1 � . . . � XN . Para
ello, una buena idea es resumir la información aportada por los datos muestrales. Lo mejor serı́a que
estos resúmenes no perdiesen nada de la información contenida en la muestra. Esta necesidad nos
lleva a la definición de estadı́stico:
Propiedades: Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con esperanza µ y
varianza σ 2 , entonces:
a) E[X̄] = µ;
σ2
b) V (X̄) = ;
N
2
c) E[SX ] = σ2;
d) E[VX ] = NN−1 σ 2 .
1. MUESTRA ALEATORIA. PARÁMETRO Y ESTIMADOR 69
1 �� N � � N
= E (Xi − µ)2 + N (X̄ − µ)2 + 2(µ − X̄) (Xi − µ)
N −1 i=1 i=1
1 �� N �
= E (Xi − µ)2 − N (X̄ − µ)2
N −1 i=1
1 �� � �� 1 � 2 σ2 �
N
� �
= E (Xi − µ)2 − N E (X̄ − µ)2 = Nσ − N = σ2 ;
N − 1 i=1 N −1 N
��
N � �N − 1 � N −1
E[VX ] = E (Xi − X̄)2 = E 2
SX = σ2 .
i=1
N N
La Inferencia paramétrica se divide en tres grandes partes, dependiendo de la naturaleza del pro-
blema a resolver, y del tipo de solución que demos:
A. estimación puntual;
B. estimación por intervalos de confianza;
C. contraste de hipótesis paramétricas;
y dedicaremos sendos capı́tulos a cada una de ellas.
Terminamos esta introducción a la Inferencia paramétrica, ocupándonos de una cuestión que
quedó en el aire: no perder demasiada información con los estadı́sticos. Más en concreto, introducido
en el lenguaje el concepto de parámetro, θ, lo que nos gustarı́a es utilizar estadı́sticos sencillos que
conserven toda la información sobre θ que lleva la muestra (X1 � . . . � XN ). Motivamos este último
cometido con el siguiente ejemplo.
Ejemplo 32 La probabilidad de obtener cara al lanzar una moneda es un valor desconocido, θ, entre
0 y 1 (espacio paramétrico Θ = (0� 1)). Si al suceso cara le asignamos el valor 1, y a su contrario,
cruz, el valor 0, y lanzamos la moneda N veces, obtenemos una muestra aleatoria (X1 � . . . � XN ) de
una población, X, con función de masa
Pθ (x) = θx (1 − θ)1−x x = 0� 1 ( distribucción de Bernoulli ) .
La función de masa de la muestra es:
�N �N
Pθ (x1 � . . . � xN ) = θx1 (1 − θ)1−x1 · · · · · θxN (1 − θ)1−xN = θ i=1 xi
(1 − θ)N − i=1 xi
.
Parece claro, en este caso, que el estadı́stico
N
�
T (X1 � . . . � XN ) = Xi = “número de caras obtenidas”
i=1
contiene tanta información sobre θ como la descripción detallada del resultado de los N lanzamientos.
Observando que T ∼ B(N ; θ), será fácil obtener la probabilidad de una muestra (x1 � . . . � xN )
condicionada por el hecho de que el estadı́stico T ha tomado el valor t (han salido t caras en los N
lanzamientos):
P (T = t | x1 � . . . � xN ) Pθ (x1 � . . . � xN )
P (x1 � . . . � xN | T = t) =
Pθ (T = t)
�N �N
P (T = t | x1 � . . . � xN ) θ i=1 xi (1 − θ)N − i=1 xi
= �N �
t
θt (1 − θ)N −t
θ t �1−θ)N −t � N
N t = 1
si xi = t
= ( t)
θ �1−θ)N −t ( N
t) i=1
� N
0 si xi �= t .
i=1
Definición 1.3. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de ma-
sa Pθ (o función de densidad fθ ). Un estadı́stico, T , es suficiente para θ cuando la distribución
de (X1 � . . . � XN ) condicionada por T = t no depende de θ.
A pesar de la claridad del concepto, es muy difı́cil utilizar esta definición para decidir si un
estadı́stico es suficiente. En primer lugar hay que conjeturar qué estadı́stico T puede ser suficiente,
y después obtener la distribución condicionada, que será casi siempre difı́cil. Afortunadamente hay
una caracterización sencilla alternativa:
Propiedad: Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ
�o función de densidad fθ ). Un estadı́stico T es suficiente para θ si y sólo si:
� �
Pθ (x1 � . . . � xN ) = g T (x1 � . . . � xN )� θ h(x1 � . . . � xN )
�o la correspondiente identidad para el caso continuo).
En el caso del lanzamiento de la moneda, se tendrı́a la siguiente sencilla comprobación:
�N �N
xi
Pθ (x1 � . . . � xN ) = θ i=1 (1 − θ)N − i=1 xi
= g(T (x1 � . . . � xN )� θ) h(x1 � . . . � xN )
�
con T (x1 � . . . � xN ) = N
i=1 xi
2. Estimación puntual
Supongamos dada una caracterı́stica X y aceptemos que sigue cierto modelo dado por una función
de masa Pθ (o de densidad fθ ), de la que desconocemos el valor del parámetro θ dentro de un espacio
paramétrico Θ.
El objetivo de la estimación puntual es tomar un valor plausible para el parámetro θ. Para ello
se considera una muestra aleatoria (X1 � . . . � XN ) de la población X, y a partir de una realización
de la misma, esto es, una colección de datos x1 � . . . � xN , se decidirá el valor para la estimación del
parámetro.
Definición 2.1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa
Pθ (o función de densidad fθ ), donde θ ∈ Θ. Un estimador puntual de g(θ) es una función T
que a cada posible muestra (x1 � . . . � xN ) le hace corresponder una estimación T (x1 � . . . � xN ) de g(θ).
Observaciones:
a) Habitualmente se buscará estimar θ (esto es, g(θ) = θ), pero puede interesarnos estimar alguna
función de θ (por ejemplo θ2 ). Por esta razón hablaremos de estimadores puntuales de g(θ).
b) Evidentemente, T (X1 � . . . � XN ) es una variable aleatoria (o un vector aleatorio si g(θ) tiene
más de una dimensión). En realidad, un estimador puntual no es más que un estadı́stico con
un objetivo concreto: acercarse lo más posible al verdadero valor de g(θ). Según nos convenga
usaremos la notación T (X1 � . . . � XN ) o simplemente T .
c) La definición dada de estimador puntual es muy general, y engloba tanto estimadores razo-
nables como otros completamente absurdos. Lo siguiente que haremos es mostrar propiedades
deseables para un estimador razonable, eliminando, ası́, estimadores indeseables.
72 CAPÍTULO 4. ESTIMACIÓN PUNTUAL
Definición 2.2. El error cuadrático medio de un estimador T para estimar g(θ) se define
como:
�N � �
T (x1 � . . . � xN ) − g(θ)2 Pθ (x1 ) · · · · · Pθ (xN ) (caso discreto)
� �
Eθ (T − g(θ))2 = �
i=1
� �
T (x1 � . . . � xN ) − g(θ)2 fθ (x1 ) · · · · · fθ (xN ) dx1 . . . dxN (caso continuo)
�
Es claro que un estimador será más efectivo cuánto más pequeño sea su error cuadrático medio.
El siguiente desarrollo nos aporta una fórmula sencilla para el cálculo de este error:
� � � �
Eθ (T − g(θ))2 = Eθ (T − Eθ [T ] + Eθ [T ] − g(θ))2
� �
= Eθ (T − Eθ [T ])2 + (Eθ [T ] − g(θ))2
= Vθ (T ) + (Sesgo(T ))2
Al considerar sólo estimadores insesgados podemos estar eliminando otros estimadores valiosos
(a pesar de no ser insesgados). No obstante tenemos una ventaja adicional, pues para un estimador
insesgado su error cuadrático medio es simplemente Vθ (T ). De este modo, dentro de los estimadores
insesgados buscarı́amos el de varianza mı́nima. Este cometido es muy interesante, pero excede el nivel
de este curso.
Ejemplo 33 Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con distribución N (µ ; σ).
En este caso θ = (µ� σ), y tenemos:
T1 (X1 � . . . � XN ) = X̄ es un estimador insesgado de g1 (θ) = µ, ya que Eθ [X̄] = µ;
2
T1 (X1 � . . . � XN ) = SX (cuasi-varianza) es insesgado para estimar g2 (θ) = σ 2 , ya que Eθ [X̄] = σ 2 .
Otra propiedad bastante razonable a exigir a un estimador T es que, cuanto mayor sea el tamaño
muestral N , más se acerque la estimación T (x1 � . . . � xN ) al verdadero valor de g(θ). Esto nos lleva al
siguiente concepto:
Definición 2.4. Un estimador T es consistente para estimar g(θ) si, para todo θ ∈ Θ:
�
lı́m FT (t) = 0 para t < g(θ)
N →∞
lı́m FT (t) = 1 para t > g(θ)
N →∞
La idea es que, a medida que aumenta el tamaño muestral, más se concentra la distribución
de la variable aleatoria T (X1 � . . . � XN ) alrededor del verdadero valor de g(θ) (sea cual sea), y, en
consecuencia, las estimaciones T (x1 � . . . � xN ) cada vez se acercan más a dicho valor.
Calcular la función de distribución de T suele ser difı́cil, por lo que es difı́cil ver, a partir de la
definición, cuándo un estimador va a ser consistente. Afortunadamente tenemos una propiedad, más
fácil de comprobar en muchas situaciones, que nos permite afirmar si un estimador es consistente.
Propiedad: Si T es un estimador que verifica:
i. lı́m Eθ [T ] = g(θ), para todo θ ∈ Θ,
N →∞
entonces es consistente.
Ejemplo 34 Sea (X1 � . . . � XN ) una muestra aleatoria de una población X ∼ N (µ � σ), θ = (µ� σ).
El estimador T1 (X1 � . . . � XN ) = X̄ es consistente para estimar g1 (θ) = µ, ya que:
lı́m Eθ [T1 ] = lı́m Eθ [X̄] = lı́m µ = µ = g1 (θ)
N →∞ N →∞ N →∞
σ2
lı́m Vθ (T1 ) = lı́m Vθ (X̄) = lı́m = 0.
N →∞ N →∞ N →∞ N
Ejemplo 35 Sabemos que en una urna hay, entre negras y blancas, un total de 4 bolas, pero desco-
nocemos la composición exacta. Sea θ la proporción de, por ejemplo, bolas blancas. Es claro cuál es
el espacio paramétrico en este caso, pues θ puede tomar los valores:
Para obtener más información se extraen de la urna 2 bolas, con reemplazamiento (para tener inde-
pendencia en las observaciones). Supongamos que la primera bola ha sido blanca y la segunda negra,
es decir la muestra obtenida ha sido (B� N ). La probabilidad que tenı́amos de obtener esta muestra,
dependiendo de la composición de la urna, esto es de la proporción θ, era:
0 si θ = 0
3/16 si θ = 1/4
Pθ (B� N ) = 1/4 si θ = 1/2
3/16 si θ = 3/4
0 si θ = 1
La idea del método de máxima verosimilitud es tomar como estimación de θ aquel valor que daba
más probabilidad a la muestra obtenida, en este caso θ� = 1/2.
Definición 3.2. �Método de máxima verosimilitud) Sea (X1 � . . . � XN ) una muestra aleatoria
de una población X con función de masa Pθ (o función de densidad fθ ), con parámetro desconocido
θ = (θ1 � . . . � θk ) ∈ Θ. El estimador de máxima verosimilitud, θ, � de θ es el formado por los valores
� �
(θ1 � . . . � θk ) que maximizan la que llamaremos función de verosimilitud de la muestra obtenida,
que se define por:
�
Pθ (x1 ) · . . . · Pθ (xn ) (caso discreto)
L(θ) = L(θ ; x1 � . . . � xN ) =
fθ (x1 ) · . . . · fθ (xn ) (caso continuo)
Observaciones:
c) Para no tener que manejar productos, en muchas ocasiones es más cómodo encontrar el estima-
dor de máxima verosimilitud considerando log(L(θ)), en lugar de L(θ). Puesto que la función
3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 75
log(x) es monótona creciente, log(L(θ)) se hace máxima (y mı́nima) en los mismos puntos
que L(θ). La ventaja es que basta despejar θ1 , . . . , θk del sistema de ecuaciones:
∂ log(L(θ))
= 0
∂θ1
.. .. ..
. . .
∂ log(L(θ))
= 0
∂θk
Por supuesto hay que tener precaución con este procedimiento, pues el punto crı́tico obtenido no
tiene por qué corresponder a un máximo. Además, puede ocurrir que la función de verosimilitud
se maximice en un extremo, en cuyo caso no tiene por qué dar un punto crı́tico, es decir, no
obtendrı́amos nada con este procedimiento.
Ejercicio 2 Dada una muestra aleatoria de tamaño N de una población X, calcular los estimadores
� y por el de máxima verosimilitud, θ,
puntuales para θ por el método de los momentos, θ, � en los
siguientes casos:
a) X ∼ Bernoulli de parámetro p;
b) X ∼ Poisson (λ);
c) X ∼ Exponencial (λ);
d) X ∼ N (µ ; σ), (σ conocido);
e) X ∼ N (µ ; σ), (µ conocido);
f) X ∼ N (µ ; σ).
Solución: Planteamos ambos métodos en cada caso, y utilizamos, para cuando haga falta, la igual-
dad E[X 2 ] = V [X] + E[X]2 , que se deduce inmediatamente de la definición de varianza de una
variable aleatoria.
Método de los momentos. Puesto que el parámetro es de una dimensión, se considera solo el
primer momento. El momento de orden 1 de la población, Ep [X], es su esperanza, p, y el
de la muestra es la media muestral x̄. Tomamos pues el estimador
p� = x̄ .
76 CAPÍTULO 4. ESTIMACIÓN PUNTUAL
p� = x̄ .
b) X ∼ Poisson (λ). Queremos estimar el parámetro desconocido λ > 0, siendo la función de masa:
λx e−λ
Pλ (x) = x = 0� 1� 2� . . . .
x�
Método de los momentos. El momento de orden 1 de la población, Eλ [X], es su esperanza, λ,
y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos
� = x̄ .
λ
Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es:
�
xi
λ e−N λ
L(λ) = �
xi �
con logaritmo:
�� � ��
log(L(λ)) = xi log(λ) − N λ − log xi �) .
El último término asusta, pero no hay problema porque es una constante. Al derivar e
igualar a cero obtenemos:
�
d log(L(λ)) xi 1 �
= − N = 0 ⇐⇒ λ = xi = x̄ .
dλ λ N
De nuevo, es fácil ver que este punto crı́tico corresponde a un máximo, por lo que toma-
remos como estimador de máxima verosimilitud:
� = x̄ .
λ
�
En efecto,
� el denominador es siempre
� positivo, al ser el espacio paramétrico el intervalo �0� 1). Por otra parte,
�
p < x̄ = �1 xi equivale a N p < xi , quedando el numerador positivo. Por contra, p > x̄ equivale a N p > xi ,
quedando el numerador negativo.
3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 77
�= 1.
λ
x̄
Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es:
�
L(λ) = λN e−λ xi
con logaritmo:
�� �
log(L(λ)) = N log(λ) − xi λ .
Al derivar e igualar a cero obtenemos:
d log(L(λ)) N �� � N 1
= − xi = 0 ⇐⇒ λ= � = .
dλ λ xi x̄
Obsérvese que λ > 0 y que cada dato, xi , de una muestra correspondiente a esta población
es positivo. Es fácil, entonces, ver que este punto crı́tico corresponde a un máximo, por lo
que tomaremos como estimador de máxima verosimilitud:
�= 1.
λ
x̄
d) X ∼ N (µ ; σ), (σ conocido). Queremos estimar el parámetro desconocido µ ∈ �, siendo la
función de densidad para esta población:
� �
1 (x − µ)2
fµ (x) = √ exp − � para todo x ∈ �.
σ 2π 2σ 2
Método de los momentos. El momento de orden 1 de la población, Eµ [X], es su esperanza, µ,
y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos
µ
� = x̄ .
Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es:
� �N � � �
1 (xi − µ)2
L(µ) = √ exp −
σ 2π 2σ 2
con logaritmo:
�
√ (xi − µ)2
log(L(µ)) = −N log(σ 2π) − 2
� 2σ �� �
√ 2
xi − 2 xi µ + N µ 2
= −N log(σ 2π) − .
2σ 2
78 CAPÍTULO 4. ESTIMACIÓN PUNTUAL
f) X ∼ N (µ ; σ).
En este último caso, se desconocen ambos parámetros de la población, y ası́ estimaremos:
θ = (µ� σ), con µ ∈ � y σ > 0. La función de densidad es:
� �
1 (x − µ)2
fθ (x) = √ exp − � para todo x ∈ �.
σ 2π 2σ 2
Método de los momentos. Tenemos que considerar dos ecuaciones (pues hay 2 parámetros):
µ = x̄
N
1 � 2
σ 2 + µ2 = x .
N i=1 i
Obtenemos como solución para el sistema:
N
1 � 2 1 �
µ = x̄ y σ2 = xi − x̄2 = varianza muestral = (xi − x̄)2
N N i=1
de manera que, el estimador de momentos para g(µ� σ) = (µ� σ 2 ), vendrá dado por:
N
2 1 �
µ
� = x̄ � � =
σ (xi − x̄)2 .
N i=1
Nótese que ahora, el estimador para σ 2 no puede producir resultados absurdos.
Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es:
� �N � � �
1 (xi − µ)2
L(µ� σ) = √ exp −
σ 2π 2σ 2
con logaritmo: �
√ (xi − µ)2
log(L(µ� σ)) = −N log(σ 2π) − ;
2σ 2
que conviene escribir como:
� �� �
√ x2i − 2 xi µ + N µ 2
log(L(µ� σ)) = −N log(σ) − N log( 2π) − ;
2σ 2
El sistema planteado, igualando a cero las derivadas parciales respecto a cada una de las
variables, es:
�
∂ log(L(µ� σ)) xi N µ
= 2
− 2 =0
∂µ σ σ
�
∂ log(L(µ� σ)) −N (xi − µ)2
= + =0
∂σ σ σ3
�
µ = x̄ �
con solución:
σ 2 = N1 (xi − x̄)2 .
Tomamos esta solución como estimación de máxima verosimilitud al dar un máximo:
N
2 1 �
µ
� = x̄ � � =
σ (xi − x̄)2 .
N i=1
80 CAPÍTULO 4. ESTIMACIÓN PUNTUAL
Problemas
1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad:
x � −x2 �
fθ (x) = exp si x > 0 � (θ > 0) .
θ2 2θ2
Hallar el estimador de máxima verosimilitud de θ.
3. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad:
� 1 �θ+1
fθ (x) = θ si x > 1 � (θ > 1) .
x
a) Hallar el estimador de máxima verosimilitud de θ.
b) Hallar el estimador de θ por el método de los momentos.
4. Se toma una muestra aleatoria de tamaño N de una población cuya función de densidad es:
1 � (log x − µ)2 �
f (x) = √ exp − si x > 0
xσ 2π 2σ 2
donde µ puede ser cualquier número real y σ es mayor que cero. Hallar los estimadores de
máxima verosimilitud de µ y σ 2 .
5. En una gran piscifactorı́a hay una proporción desconocida de peces de cierta especie A. Para
obtener información sobre dicha proporción, vamos a ir sacando peces al azar.
1 � π � 12
g(θ) = Eθ [X] = �
2 θ
basados en muestras de tamaño N .
b) Obtener el estimador de θ por el método de los momentos.
8. El coseno X del ángulo con el que se emiten los electrones en un proceso radiactivo es una
variable aleatoria con densidad
1 + θx
fθ (x) = si − 1 ≤ x ≤ 1 (−1 ≤ θ ≤ 1) .
2
Consideramos una muestra aleatoria (X1 � . . . � XN ) de esta variable aleatoria.
11. Disponemos de una variable aleatoria de una población con función de densidad
θ
fθ (x) = si x ≥ θ (θ > 0) .
x2
Calcular el estimador de máxima verosimilitud de θ y de 1/θ.
12. Se obtiene una muestra aleatoria (X1 � . . . � XN ) de una población con función de densidad
a) un estadı́stico suficiente;
b) el estimador de máxima verosimilitud;
c) el estimador por el método de los momentos.
13. Supongamos que se realizan N observaciones independientes de una variable aleatoria X, con
función de densidad
1 1
fθ (x) = x θ −1 si 0 ≤ x ≤ 1 (θ �= 0) .
θ
a) Obtener el estimador de θ por el método de los momentos.
b) Obtener el estimador de máxima verosimilitud de θ.
c) Obtener el estimador de máxima verosimilitud de Pθ (X < 1/2).
14. El error (en centigramos) que se comete al pesar un objeto en una balanza puede considerarse
como una variable aleatoria con distribución N (µ = 0 ; σ = 15).
a) Calcular la probabilidad de que el error cometido (en valor absoluto) en una pesada sea
inferior a 20 centigramos.
b) Si se quiere que el error medio cometido (en valor absoluto) sea inferior a 5 centigramos
con probabilidad 0.9, ¿cuál es el número mı́nimo de pesadas que hemos de realizar?
15. Vamos a clasificar las personas de un paı́s según dos caracterı́sticas: color de los ojos (oscuros
o claros) y sexo (hombre o mujer). Las dos caracterı́sticas son independientes.