Inferencia Estadistica - UCA Estimacion Puntual

Inferencia
Estadı́stica
(Teorı́a y problemas)
I. Espejo Miranda
F. Fernández Palacı́n
M. A. López Sánchez
M. Muñoz Márquez
A. M. Rodrı́guez Chı́a
A. Sánchez Navas
C. Valero Franco
°c Servicio de Publicaciones. Universidad de Cádiz
I. Espejo Miranda, F. Fernández Palacı́n, M. A. López Sánchez, M. Muñoz
Márquez, A. M. Rodrı́guez Chı́a, A. Sánchez Navas, C. Valero Franco
Edita: Servicio de Publicaciones de la Universidad de Cádiz

c/ Doctor Marañón, 3. 11002 Cádiz (España)
www.uca.es/publicaciones
ISBN: 978-84-9828-131-6
Se concede permiso para copiar, distribuir y/o modificar este documento bajo los
términos de la Licencia de Documentación Libre de GNU, Versión 1.2 o cualquier
otra versión posterior publicada por la Free Software Foundation. Una traducción
de la licencia está incluida en la sección titulada “Licencia de Documentación
Libre de GNU”.
Permission is granted to copy, distribute and/or modify this document under the
terms of the GNU Free Documentation License, Version 1.2 or any later version
published by the Free Software Foundation. A copy of the license is included in
the section entitled “GNU Free Documentation License”.
Inferencia Estadı́stica (Revisión: Marzo 2007)
I. Espejo Miranda, F. Fernández Palacı́n, M. A. López Sánchez,
M. Muñoz Márquez, A. M. Rodrı́guez Chı́a, A. Sánchez Navas,
C. Valero Franco
c
°2007 Servicio de Publicaciones de la Universidad de Cádiz
http://www.uca.es/teloydisren
Capı́tulo 2
Estimación puntual
1. Introducción
En numerosas ocasiones, al realizar un estudio estadı́stico se cono-

ce la estructura de la población que se pretende estudiar, con la salvedad
de los parámetros que la caracterizan. Por ejemplo, la utilización de un
aparato de medida objetivo garantiza, en general, que las mediciones
obtenidas tendrán una distribución Normal, de la que se desconocerán
sus parámetros: media y desviación tı́pica. El objetivo que se persigue
con las técnicas de estimación es el determinar de la forma más precisa
dichos parámetros, de modo que la distribución quede completamente
especificada.
En este capı́tulo y en los dos siguientes se abordará la Inferencia

Estadı́stica desde un punto de vista paramétrico, es decir, se parte del
conocimiento (salvo parámetros) de la distribución de probabilidad que
rige la población bajo estudio. De esta forma, se considera una pobla-
ción cuya función de distribución es Fθ (x), donde θ ∈ Rk es un vector
de parámetros desconocidos. En esta situación, el problema es cuanti-
ficar lo más exactamente posible el valor de θ a partir de una muestra
de tamaño n. La rama de la Estadı́stica que se dedica a estudiar este
tipo de problemas se llama Teorı́a de la Estimación, existiendo dos en-
foques diferentes para llevar a cabo dicho estudio: la estimación puntual
12 Capı́tulo 2. Estimación puntual
y la estimación por intervalos. En la primera, se estiman los paráme-

tros a través de valores numéricos, mientras que en la segunda, queda
garantizada su pertenencia a una región con un margen de seguridad
prefijado.
Este capı́tulo se centra en la estimación puntual, si bien, la mayorı́a

de los conceptos son generales y se utilizan también en la estimación por
intervalos y en el contraste de hipótesis.
A efectos de notación se hará referencia a las caracterı́sticas de

la muestra con letras latinas, mientras que las de la población se desig-
narán, en general, con la correspondiente letra griega. Ası́, por ejemplo,
la varianza muestral será S 2 , mientras que la poblacional se identifi-
cará por σ 2 ; con la media muestral seguirá utilizándose la notación usual,
X, mientras que la poblacional se denotará por µ. El objetivo que se per-
seguirá a lo largo del capı́tulo es el de obtener valores lo más precisos
posibles de los parámetros desconocidos del modelo probabilı́stico.
2. Estadı́stico, Estimador y Estimación
Un estadı́stico T (X), es una función de las variables muestrales que

no depende de parámetros desconocidos. Se trata pues de una variable
aleatoria, la cual tiene una distribución que se denomina distribución en
el muestreo. El estadı́stico puede considerarse como un resumen o una
compresión de la información suministrada por la muestra y, obviamente,
va a ser más manejable que ésta. Nótese que puede ocurrir que en ese
resumen se pierda alguna posible información que pudiera contener X
acerca de los parámetros desconocidos. Por ello, el objetivo perseguido
es que el estadı́stico T (X) sea tal que el resumen que lleve a cabo se
produzca sin pérdida de información relevante sobre los parámetros.
Dentro del conjunto de estadı́sticos destacan los estimadores, que

son aquellos estadı́sticos que se construyen con la intención de estimar
un parámetro de la población y que, consecuentemente, debe reunir con-
diciones que lo hagan deseable en algún sentido. Más adelante se darán
criterios de bondad de un estimador.
2.3 La función de verosimilitud 13
Una estimación es el valor numérico que toma el estimador para

una muestra concreta.
Ejemplo 2.1 Sea X una variable aleatoria que sigue una distri-
bución Normal de media desconocida, µ, y varianza
σ 2 . La función T (X) = X, es decir, la media mues-
tral, es un estadı́stico y estimador de la media µ
de la población. Si se toma la muestra x1 = 20 5,
x2 = 2, x3 = 30 4, x4 = 10 5, x5 = 4, el valor numéri-
co x = 20 68 es una estimación de µ.
La necesidad de definir los estadı́sticos se debe a que, aunque con

la muestra se ha reducido bastante la dimensión del problema, el exce-
sivo tamaño de ésta obliga a comprimir aún más la información para
obtener respuestas a las preguntas que puedan hacerse y, de esa forma,
completar el proceso inferencial. El objetivo que se persigue al definir los
estimadores es el de resumir la información muestral, en aras, de obtener
valores próximos a los verdaderos valores de los parámetros desconocidos
de la distribución de la población.
3. La función de verosimilitud
Sea X una variable aleatoria continua cuya distribución viene dada

por una función de densidad fθ , donde θ ∈ Rk es un vector de parámetros
desconocidos. Para una muestra x extraı́da de dicha población, se define
la función de verosimilitud como:
L(x, θ) = fθ (x),
que en el caso de una muestra aleatoria simple toma la forma

n
Y
L(x, θ) = fθ (x) = fθ (xi ).
i=1
Si la variable aleatoria es discreta la función de verosimilitud se define de

forma análoga, cambiando la función de densidad por la de probabilidad.
Se ha de hacer notar que la verosimilitud varı́a en los parámetros

mientras que la muestra permanece constante. La importancia de dicha
función queda perfectamente ilustrada en el caso de que la población

bajo estudio sea discreta, ya que en tal caso la función de verosimilitud
expresa la probabilidad de obtener una muestra en función del vector de
parámetros θ.
4. Suficiencia
Anteriormente se ha comentado que los estadı́sticos realmente su-

ponen una compresión o resumen de la información suministrada por
la muestra, por ello, serı́a ideal que el estadı́stico contuviera toda la
información relevante que posee la muestra respecto al parámetro que
se está estimando. Si ocurre esto, se dice que el estadı́stico es suficien-
te para dicho parámetro. Formalmente, ello supone que la distribución
conjunta de la muestra condicionada al estadı́stico, es independiente del
parámetro.
La caracterización de la suficiencia de un estadı́stico se hace a

partir del criterio de factorización de Fisher–Neyman, que dice que dada
una m.a.s., X, se tiene que un estadı́stico, T (X), es suficiente para θ si
la función de verosimilitud admite la siguiente descomposición:
L(x, θ) = g(T (x), θ)h(x),
donde g es una función no negativa, tanto del estadı́stico como del vector
de parámetros, y h es una función no negativa exclusiva de los valores
muestrales.
Ejemplo 2.2 De una población distribuida según una Bernouilli
de parámetro p se extrae una m.a.s. de tamaño n.
Se trata de encontrar un estimador suficiente para
el parámetro p. Para ello se considera la función de
verosimilitud
L(x, p) = Pp [(X1 , . . . , Xn ) = (x1 , . . . , xn )]
= Pp [X1 = x1 ] · · · Pp [Xn = xn ]
= pxP1 (1 − p)1−x1 · · ·P pxn (1 − p)1−xn
n n
= x
p i=1 i (1 − p) n− i=1 xi .
Por el criterio de factorización, tomando

P
t = T (x) = ni=1 xi , h(x) = 1
2.5 Propiedades de los estimadores 15
y
g(t, p) = pt (1 − p)n−t ,
P
se obtiene que ni=1 Xi es un estimador suficiente
para p.
5. Propiedades de los estimadores
Puesto que para un mismo parámetro pueden existir varios esti-

madores, a continuación se analizan una serie de propiedades que serı́an
deseables para un estimador y que permiten elegir, entre dos de ellos, el
mejor.
5.1. Estimador insesgado
Una propiedad deseable para un estimador es que su valor medio

sea igual al parámetro que se quiere estimar. Dicha propiedad se llama
insesgadez. Formalmente, un estimador T (X) es insesgado o centrado
para un parámetro θ, cuando E[T (X)] = θ.
Ejemplo 2.3 La media muestral es un estimador insesgado pa-
ra la media poblacional µ, cualquiera que sea la
distribución de la población, ya que E[X] = µ.
Si se verifica que E[T (X)] = θ + b(θ) el estimador será sesgado o

descentrado, siendo b(θ) su sesgo, excentricidad o error sistemático. Es
interesante que un estimador sea insesgado porque tomará valores que
estarán alrededor del valor del parámetro θ.
Ejemplo 2.4 Si se considera la varianza muestral como estima-
dor de la varianza poblacional, puede comprobar-
se que se trata de un estimador sesgado, ya que
E[S 2 ] = n−1 2 1 2
n σ , siendo su sesgo − n σ . Para de-
mostrarlo, hay que tener en cuenta que la varianza
muestral puede escribirse de la forma:
n
X
(Xi − X + µ − µ)2
i=1
S2 =
n
n
1 X¡ ¢2
= (Xi − µ) − (X − µ) .
n
i=1
Desarrollando el cuadrado se obtiene

Ã n !
1 X
S2 = (Xi − µ)2 − n(X − µ)2 .
n
i=1
Calculando la esperanza de la varianza muestral a

partir de la expresión anterior se tiene que
Ã n !
1 X
2 2
E[S 2 ] = E[(Xi −µ) ]−n E[(X −µ) ] .
n
i=1
Teniendo en cuenta que la muestra es aleatoria sim-

ple y que la media muestral verifica que E[X] = µ
2
y que V[X] = σn , se tiene que la primera de las
esperanzas que aparecen en el segundo miembro
es, para todo i, E[(Xi − µ)2 ] = σ 2 y la segunda,
2
E[(X − µ)2 ] = σn , con lo que se llega a
µ ¶
2 1 2 σ2 n−1 2
E[S ] = nσ − n = σ .
n n n
Ahora bien, si se considera la cuasivarianza mues-
tral como estimador de la varianza poblacional en
vez de considerar la varianza muestral, se llega a
que éste último es insesgado. Para ello, basta tener
en cuenta que la cuasivarianza se puede expresar en
n
función de la varianza como Sc2 = n−1 S 2 , entonces
su esperanza viene dada por:
· ¸
2 n 2
E[Sc ] = E S
n−1
n n−1 2
= σ = σ2.
n−1 n
2.5 Propiedades de los estimadores 17
Cuando el sesgo b(θ) es tal que lı́m b(θ) = 0, se dice que el esti-
n→∞
mador es asintóticamente insesgado.
Ejemplo 2.5 Anteriormente se estudió que la varianza muestral
era un estimador sesgado de la varianza poblacio-
nal, siendo su sesgo b(σ) = − n1 σ 2 . Se observa que
cuando n → ∞ el sesgo b(σ) → 0. Con lo cual,
se tiene que la varianza muestral es un estimador
asintóticamente insesgado del parámetro σ.
5.2. Estimador eficiente
Puesto que lo que se intenta es obtener el valor del parámetro a

través de un estimador, que es a su vez una variable aleatoria, una pro-
piedad que también serı́a deseable es que la varianza de dicho estimador
fuese lo más pequeña posible, dicha propiedad se denomina eficiencia.
Se dice que un estimador T1 es más eficiente que otro T2 , cuando ocurre
que Var(T1 )<Var(T2 ). Un estimador es eficiente, en términos absolu-
tos, cuando alcanza la llamada Cota de Frechet–Cramer–Rao, que para
muestras aleatorias simples viene dada a través de la expresión
h i2
∂ E[T (X)]
∂θ
V(T ) ≥ ·³ ´2 ¸ ,
∂ log fθ (X)
nE ∂θ
donde el denominador de la expresión anterior se conoce como cantidad

de información de Fisher, I(θ).
Observación 2.1 Para poder aplicar esta cota es necesario que se cum-
plan ciertas condiciones de regularidad de fθ (x). Son las conocidas con-
diciones de regularidad de Fisher–Wolfowitz:
1. El campo de variación de la población de la cual se extrajo la mues-

tra es independiente del parámetro θ, y por tanto, la muestra tam-
bién lo es.
2. Existen, al menos, las dos primeras derivadas respecto al paráme-
tro θ de la función L(X, θ).
3. La derivación e integración, ası́ como la suma en el caso discreto,

son operaciones intercambiables.
Cuando un estimador es más eficiente que otro pero a su vez tiene más
sesgo, en general, se decide por aquel que tenga menor error cuadrático
medio (ECM). El error cuadrático medio de un estimador se define como:
£ ¤
ECM (T ) = E (T − θ)2 = V[T ] + (θ − E[T ])2 = V[T ] + b(θ)2 ,
es decir, la varianza del estimador más el cuadrado del sesgo.

Ejemplo 2.6 Se quiere estimar el parámetro λ de una Poisson
mediante la media de una muestra de tamaño n.
¿Es la media un estimador eficiente?
La varianza de la media muestral es V[X] = nλ
y la esperanza E[X] = λ. Calculando la Cota de
Frechet–Cramer–Rao:
µ ¶2
∂ E[X]
∂λ
CF CR = "µ ¶ #.
∂ log Pλ (X) 2
nE
∂λ
Se tiene que
log Pλ (X) = −λ + x log λ − log(x!)
y su derivada respecto a λ
∂ log Pλ (X) x x−λ
= −1 + = ,
∂λ λ λ
luego el denominador queda
"µ ¶ # £ ¤
∂ log Pλ (X) 2 E (X − λ)2
nE = n
∂λ λ2
V[X]
= n 2
λ
λ n
= n 2 = ,
λ λ
y la Cota de Frechet–Cramer–Rao
2.6 Métodos de obtención de estimadores 19
1 λ
CF CR = "µ ¶2 # = n .
∂ log Pλ (X)
nE
∂λ
λ
Como la varianza del estimador es igual a n, se
tiene que éste es eficiente.
5.3. Estimador consistente
Cuando un estimador no es insesgado se le exige que al menos sea

consistente. Existen diversas definiciones de consistencia, en función de
la convergencia que se utilice. Aquı́ se entenderá que un estimador es
consistente cuando:
1. lı́m E(Tn ) = θ
n→∞
2. lı́m V(Tn ) = 0
n→∞
conociéndose dicha consistencia como consistencia en probabilidad.

Ejemplo 2.7 La media muestral es un ejemplo de estimador
consistente de la media poblacional µ: E[X] = µ y
2
por tanto lı́m E[X] = µ y V[X] = σn , con lo que
n→∞
se tiene que lı́m V[X] = 0.
n→∞
6. Métodos de obtención de estimadores
A continuación, se estudian dos métodos que van a permitir ob-

tener estimadores con unas cotas de bondad razonablemente buenas en
relación con las propiedades que se acaban de describir. El primero de
ellos, llamado método de los momentos, se basa en la correspondencia
entre las caracterı́sticas de la población y las de la muestra. El segundo,
denominado de máxima verosimilitud, se apoya en la función de verosi-
militud definida anteriormente.
6.1. Método de los momentos
Sea X una variable aleatoria tal que existen los r primeros mo-
mentos poblacionales con respecto al origen y cuya distribución de-
pende de una serie de parámetros θ1 , . . . , θk desconocidos. En el ca-
so de que el parámetro i-ésimo se pueda expresar en función de los
r primeros momentos poblacionales con respecto al origen, es decir,
θi = gi (α1 , . . . , αr ), para una muestra (X1 , . . . , Xn ) el estimador ob-
tenido a través del método de los momentos para dicho parámetro viene
dado por θ̂i (X) = gi (a1 , . . . , ar ), donde
n
X
Xis
i=1
αs = E[Xis ] as = .
n
Propiedad 2.1 Los estimadores obtenidos por el método de los momen-

tos son consistentes, aunque, en general, no son insesgados ni tienen
varianza mı́nima.
Ejemplo 2.8 Se quiere estimar la media y la varianza de una

N (µ, σ) por el método de los momentos. Se sabe
que µ = E[X] = α1 , luego un estimador para µ por
el método de los momentos resulta de sustituir α1
por a1 , ası́
n
X
Xi
i=1
µ̂ = a1 = = X.
n
En cuanto a la varianza, se sabe que
α2 = E[X 2 ] = σ 2 + µ2 ⇒ σ 2 = α2 − µ2 ,
luego sustituyendo α2 por a2 y µ por su estimador,
se tiene que un estimador de σ 2 por el método de
los momentos viene dado por:
n
X
Xi2
i=1 2
σ̂ 2 = − X = S2.
n
2.6 Métodos de obtención de estimadores 21
6.2. Método de máxima verosimilitud
Este método ofrece generalmente mejores resultados que el ante-

rior. En la misma situación se construye la función de verosimilitud,
L(x, θ), viniendo dados los estimadores máximos verosı́miles por aque-
llas expresiones del vector de parámetros, θ, con θ ∈ Rk , que hacen
máxima dicha función. Por ser positiva y coincidir sus máximos con los
de su logaritmo, el método se reduce a buscar la expresión del vector de
parámetros, θ, que haga máxima la función log L(x, θ).
Propiedad 2.2 Los estimadores máximo–verosı́miles (M.V.) son asin-

tóticamente insesgados, asintóticamente Normales y de existir un esti-
mador eficiente éste es el máximo–verosı́mil.
Ejemplo 2.9 Sea X una variable aleatoria que sigue una B(p).
Para encontrar el estimador máximo–verosı́mil pa-
ra p, se construye en primer lugar la función de
verosimilitud:
Pn Pn
L(x, p) = p i=1 xi (1 − p)n− i=1 xi .
Si T (x) es tal que

máx L(x, p) = L(x, T (x)),
p
entonces también se verifica que

máx log L(x, p) = log L(x, T (x)).
p
De esta forma, se tiene que

n
X n
X
log L(x, p) = xi log p + (n − xi ) log (1 − p),
i=1 i=1
luego
n
X n
X
xi n− xi
∂log L(x, p) i=1 i=1
= − = 0.
∂p p 1−p
n
1X
De donde se obtiene que p̂ = xi .
n
i=1
A continuación, habrı́a que comprobar que para ese

valor de p la función log L(x, p) alcanza un máxi-
2
mo. Se puede probar que ∂ log∂pL(x,p)
2 ≤ 0 y por
n
1X
tanto, T (X) = Xi es el estimador máximo–
n
i=1
verosı́mil de p.
7. Estimación de parámetros en poblaciones Normales
Puesto que la mayorı́a de problemas que se abordan en la Inferen-

cia Estadı́stica asumen la hipótesis de normalidad de la población bajo
estudio, a partir de ahora, se le va a dar un trato diferenciado, particula-
rizando cualquier estudio para esta distribución. Sea pues X una variable
aleatoria con distribución N(µ,σ). Los estimadores máximo–verosı́miles
de los parámetros µ y σ son, respectivamente, la media y la desviación
tı́pica muestral, con las propiedades que les confiere el método utilizado.
Se trata ahora de estudiar las distribuciones de ambos estimadores.
No obstante, antes de continuar con esta cuestión, se hará un inciso

para estudiar una serie de distribuciones que se derivan de la Normal.
7.1. Distribuciones derivadas de la Normal
Las distribuciones derivadas de la Normal tienen gran importancia

en la Inferencia Estadı́stica, ya que serán las distribuciones de una amplia
familia de estimadores. Todas ellas se obtienen como combinación y/o
promedios de variables Normales, están tabuladas y se caracterizan sólo
por el número de Normales tipificadas que entran en su composición; a
dicho número se le llama grado(s) de libertad, justificándose este nombre
por los motivos que se desarrollarán en los próximos temas.
7.1.1. Distribución Chi–cuadrado
Sean Z1 , Z2 , . . . , Zn , n variables N (0, 1) independientes, la variable

2.7 Estimación de parámetros en poblaciones Normales 23
χ2n definida como

χn2 = Z12 + Z22 + · · · + Zn2
sigue una distribución Chi–cuadrado con n grados de libertad. Dicha
variable puede interpretarse como el cuadrado de la distancia euclı́dea
desde el origen de coordenadas al punto (Z1 , Z2 , . . . , Zn ). La variable se
caracteriza únicamente por el número de Normales tipificadas que entran
en su composición y la independencia de éstas hace fácil el cálculo de
los momentos. Ası́
2 2
E[χn ] = n y V[χn ] = 2n.
Figura 2.1: Distribución Chi–cuadrado
La función de densidad de la distribución Chi–cuadrado es asimé-

trica, siendo sólo distinta de cero para valores positivos de la variable.
Tiene una ası́ntota cuando los valores tienden a infinito y para n > 2
tiene forma campaniforme.
Propiedades 2.3
1. La distribución Chi–cuadrado es un caso particular de una dis-

tribución Gamma, en concreto, es una Γ( 12 , n2 ). Recuérdese que
X ∼ Γ(a; p) si tiene como función de densidad
 p
 a e−ax xp−1 si x > 0
f (x) = Γ(p)
 0 si x ≤ 0
n
2. La función caracterı́stica de un χ2n es ϕ(t) = (1 − 2it)− 2 .
3. La suma de dos Chi–cuadrado independientes con n1 y n2 grados
de libertad es una nueva variable Chi–cuadrado con n1 + n2 grados
de libertad.
4. Cuando n es mayor que 100 se verifica la siguiente aproximación:
p √
2χ2n ∼= N ( 2n − 1, 1).
Ejemplo 2.10 La velocidad (cm/seg) de un objeto de masa 1 Kg.,

viene dada por una variable aleatoria V que sigue
2
una N (0, 25). Si K = mV2 , donde m es la masa del
objeto, es la variable aleatoria que representa la
energı́a cinética de dicho objeto, se pide calcular la
probabilidad de que la energı́a cinética sea menor
que 200.
Puesto que m = 1, se tiene que
³ 2 ´
P (K < 200) = P mV2 < 200
³ 2 ´
V
= P 625 < 200·2
625 ´
³ 2
V
= P 625 < 10 28
= P (χ21 < 10 28) = 00 725.
7.1.2. Distribución t de Student
Sean Z y χ2n dos variables aleatorias independientes que siguen

una distribución N (0, 1) y una Chi–cuadrado con n grados de libertad,
respectivamente. La variable aleatoria
Z
tn = q ,
χ2n
n
sigue una distribución t de Student con n grados de libertad. La dis-

tribución es simétrica respecto a cero, con una varianza mayor que la
N (0, 1) y tiende a ésta a medida que n lo hace hacia infinito (se puede
considerar que sus probabilidades coinciden a partir de un n superior a
120).
La distribución t de Student compara a una N (0, 1) con un pro-

medio de n variables N (0, 1). Sus momentos principales son:
n
E[tn ] = 0 V[tn ] = (n > 2).
n−2
Figura 2.2: Distribución t de Student

Ejemplo 2.11 Sea V una variable aleatoria que sigue una t20 . Se
quiere hallar a tal que P (|V | > a) = 00 01. Para
ello basta tener en cuenta que la distribución t de
Student es simétrica, con lo cual
P (|V | > a) = P (V > a) + P (V < −a)
= 2P (V > a) = 00 01.
Ası́ pues, el a requerido es el que verifica
P (V > a) = 00 005,
de donde se obtiene, buscando en las tablas, que
a = 20 845.
7.1.3. Distribución F de Snedecor–Fisher
La distribución F se define como el cociente entre dos variables

independientes Chi–cuadrado divididas por sus grados de libertad, es
decir
χ2n
n
Fn,m = χ2m
.
m
La distribución está caracterizada por los grados de libertad n y

m, siendo su forma esencialmente la misma de la Chi–cuadrado. Sus
caracterı́sticas más importantes son:
m 2m2 (m + n − 2)
E[Fn,m ] = V[Fn,m ] = .
m−2 n(m − 2)2 (m − 4)
Propiedades 2.4
1
1. De la definición se deduce que si X ∼ Fn,m ⇒ X ∼ Fm,n .
2. La distribución t de Student al cuadrado es un caso particular de

la F. Esto es, si
Z Z2
tn = q ⇒ t2n = χ2n
χ2n
n n
siendo t2n ∼ F1,n
Figura 2.3: Distribución F de Fisher–Snedecor

Ejemplo 2.12 Hallar el valor b tal que P (F < b) = 00 01, sabiendo
que la variable aleatoria F sigue una distribución
F7,20 .
1
Como F7,20 = F20,7 ,se tiene entonces que
³ ´
1
P (F7,20 < b) = 00 01 ⇔ P F7,20 > 1b = 00 01,
luego
1 1
P (F20,7 > ) = 00 01 ⇒ = 60 15.
b b
De donde b = 00 162.
7.2. Distribución de la media muestral
Como ya se ha visto en ejemplos anteriores, la media muestral

tiene esperanza µ y varianza σ 2 /n; además por ser combinación lineal
de variables Normales es a su vez Normal, es decir:
µ ¶
σ
X ∼ N µ, √ .
n
Lo anterior también serı́a, aproximadamente, cierto para una variable
X no Normal siempre que n sea suficientemente grande, como garantiza
el Teorema Central del Lı́mite.
7.3. Distribución de la varianza muestral
La relación que existe entre la media y la varianza muestral viene

dada por el teorema de Fisher–Cochran:
Teorema 2.1 Las variables aleatorias X y S 2 son independientes y el

2
estadı́stico nS
σ2
tiene distribución Chi–cuadrado con n-1 grados de liber-
tad.
Se obviará la demostración de lo anterior, que de forma equivalente y en

función de la cuasivarianza muestral, puede expresarse como:
(n − 1)Sc2
∼ χ2n−1 . (2.1)
σ2
De los momentos de una Chi–cuadrado se puede deducir:
2 n−1 2 2 2(n − 1) 4
E[S ] = σ V[S ] = σ .
n n2
Esto indica, como ya se estudió, que S 2 no es un estimador inses-

gado de σ 2 , por lo que en la mayorı́a de los casos se toma como estimador
de la varianza poblacional la cuasivarianza muestral, Sc2 , también deno-

minada varianza muestral corregida. La razón de no elegir siempre la
cuasivarianza es que su ECM es mayor que el de la varianza.
√ 2
Por otro lado, puesto que X−µ σ n ∼ N (0, 1) y (n − 1) Sσc2 ∼ χ2n−1
y como además estos estadı́sticos son independientes, se tiene que
X−µ √
n X − µ√
qσ = n ∼ tn−1 .
(n−1)Sc2 Sc
(n−1)σ 2
7.4. Distribución de la diferencia de medias muestrales
Se consideran dos poblaciones independientes representadas por

las variables X e Y, con distribuciones respectivas N (µ1 , σ1 ) y N (µ2 , σ2 ),
de las cuales se dispone de sendas muestras, X y Y , de tamaños n1 y n2
respectivamente. Es fácil ver que su diferencia de medias muestrales se
distribuye como:
 s 
σ 2 σ 2
X − Y ∼ N µ1 − µ2 , 1
+ 2 .
n1 n2
7.5. Distribución del cociente de varianzas muestrales
Dadas las dos variables anteriores X e Y independientes y según

la ecuación (2.1), se tiene que:
Sc21
σ12
Sc22
∼ Fn1 −1,n2 −1 .
σ2
Ejemplo 2.13 En una clase de ciencias, se toma una m.a.s. de

51 alumnos que se presentaron al examen de ma-
temáticas y otra, independiente de la anterior, de
19 alumnos presentados al examen de fı́sica. Se sa-
be que las notas de los alumnos tanto en matemáti-
cas como en fı́sica siguen una Normal con la misma
dispersión. Se pretende averiguar cuál es la proba-

bilidad de que la varianza observada en la primera
muestra sea al menos el doble de la segunda.
Sea SM2 la varianza muestral de las notas corres-
pondientes a matemáticas y SF2 la varianza mues-

tral de las notas de fı́sica. Puesto que se trata de
muestras independientes y teniendo en cuenta que
2
SM SF2
2
51 ∼ χ50 y 19 ∼ χ218
σ2 σ2
se tiene que
2
51 · 18 · SM
∼ F50,18 .
50 · 19 · SF2
Ası́ pues,
µ 2 ¶ µ 2 ¶
SM 51 · 18 · SM 0
P ≥2 = P ≥ 1 93
SF2 50 · 19 · SF2
= P (F50,18 ≥ 10 93)
= 00 0632.
7.6. Distribución de la proporción muestral
Utilizando una particularización del Teorema Central del Lı́mite,

se sabe que de forma asintótica, para una población Bernouilli, B(p), se
∧
tiene que la distribución de la proporción muestral p= X puede aproxi-
mar por una Normal, tal que
µ r ¶
∧
∼ pq
p = N p, .
n
Si se tienen dos poblaciones Bernouilli, entonces:

µ r ¶
∧ ∧ p1 q1 p2 q2
p1 − p2 ∼= N p1 − p2 , + .
n1 n2
8. Ejercicios
8.1. Ejercicios resueltos
2.1 Sea X una m.a.s. de tamaño n extraı́da de una población

Normal de media µ y varianza σ 2 .
a) Halle los estimadores de máxima verosimilitud para los
parámetros µ y σ 2 .
b) ¿Es X un estimador eficiente de µ? ¿Y suficiente?
c) Encuentre un estimador insesgado de µ2 + σ 2 .
d) Si µ = 0, encuentre un estimador suficiente de σ 2 .
Solución:
a) A partir de la m.a.s. de tamaño n, se construye la función
de verosimilitud:
½ Pn 2¾
2 2 −n i=1 (xi − µ)
L = L(x; µ, σ ) = (2πσ ) exp −
2 .
2σ 2
Para encontrar los estimadores de máxima verosimilitud de µ y σ 2 , hay
que encontrar los máximos de la función de verosimilitud, L, o equiva-
lentemente, los máximos de la función log L:
n
X
(xi − µ)2
n n
log L = − log (σ 2 ) − log 2π − i=1 .
2 2 2σ 2
Para ello, habrá que resolver el siguiente sistema:
n
X
(xi − µ)
∂log L i=1
= =0
∂µ σ2
n
X
(xi − µ)2
∂log L n
2
= − 2 + i=1 =0
∂σ 2σ 2σ 4
cuya solución proporciona los estimadores máximo–verosı́miles de µ y
σ2 :
µ̂ = X
2.8 Ejercicios 31
n
X
(Xi − X)2
σˆ2 = i=1
= S2.
n
b) Supuesta conocida σ 2 y teniendo en cuenta que T (X) =

X es insesgado para µ, la cota de Frechet–Cramer–Rao viene dada por:
1
CF CR = ·³ ´ ¸.
∂ log fµ (X) 2
nE ∂µ
Haciendo cálculos,
1 (x − µ)2
log fµ (x) = − log σ − log 2π − ,
2 2σ 2
µ ¶
∂ log fµ (x) x−µ ∂ log fµ (x) 2 (x − µ)2
= ⇒ = ,
∂µ σ2 ∂µ σ4
"µ ¶ #
∂ log fµ (X) 2 1
E = 2.
∂µ σ
Por tanto, la cota de Frechet–Cramer–Rao vale
1 σ2
CF CR = = ,
n σ12 n
σ2
y puesto que V[T (X)] = V[X] = n , se deduce que T (X) = X es
eficiente para µ.
Estos cálculos no hubiesen sido necesarios si se hubiera recurrido

a las propiedades de los estimadores máximo–verosı́miles. Como X es
máximo-verosı́mil para µ, de existir un estimador eficiente serı́a él.
En cuanto a la suficiencia de T (X) = X, a partir de la función de

máxima verosimilitud
½ Pn ¾
2 2 −n i=1 (xi − µ)2
L = L(x; µ, σ ) = (2πσ ) 2 exp − ,
2σ 2
desarrollando la expresión de la exponencial,

Pn 2
Pn 2
i=1 (xi − µ) i=1 xi + nµ(µ − 2x)
− = −
2σ 2 2σ 2
se llega a que, si se define
n o
g(T (x), µ) = exp − nµ(µ−2x)
2
2σ n P
n o
2 −n x2i
h(x) = (2πσ ) 2 exp − i=12σ 2 ,
por el criterio de factorización, el estimador T (X) = X es sufi-

ciente para µ.
c) Puesto que
σ2
E[X] = µ; V[X] = ,
n
se tiene que
2 2 σ2
E[X ] = V[X] + E[X] = + µ2 .
n
Como, además,
2 n−1 2
E[S ] = σ ,
n
2
el estimador que se busca es T (X) = X + S 2 , ya que
2 2 2 2
E[T (X)] = E[X ] + E[S ] = σ + µ .
d) En este caso,
½ ¾
2 − 12 1 2
fσ2 (x) = (2πσ ) exp − 2 x
2σ
y la función de verosimilitud es
( k
)
−n 1 X 2
L = L(x, σ 2 ) = (2πσ 2 ) 2 exp − 2 xi .
2σ
i=1
Por el criterio de factorización, tomando
½ ¾
2 2 −n 1
g(T (x), σ ) = (2πσ ) 2 exp − 2 T (x) ,
2σ
Pk 2
Pk 2
con T (x) = i=1 xi , y h(x) = 1, se tiene que T (X) = i=1 Xi es
estimador suficiente para σ .2
2.8 Ejercicios 33
8.2. Ejercicios propuestos
2.1. Dadas W, X, Y y Z cuatro variables aleatorias independien-

tes e idénticamente distribuidas según una N (0, 5).
a) Si S = 2W + 3X − Y + Z + 30, obtenga P (S ≤ 42).
b) Si T = W 2 + X 2 + Y 2 + Z 2 , obtenga a verificando que
P (T ≤ a) = 00 025. q
W 2 +X 2 +Y 2 +Z 2
c) Si U = 4 , obtenga P (U ≤ 60 973).
2.2. Sean X e Y dos variables aleatorias que siguen una t36 y

una χ262respectivamente.
a) Halle x tal que P (|X| > x) = 00 05.
b) Obtenga y tal que P (|Y | > y) = 00 05.
2.3. Se sabe que la anchura de las piezas fabricadas por una

cierta máquina, medida en centı́metros, se distribuye según una Normal
de media 10 y desviación tı́pica 00 25. Si se toma una m.a.s. de 25 piezas,
calcule:
a) P (90 68 ≤ X ≤ 100 1).
b) P (S 2 ≤ 00 19).
2.4. Se quiere estudiar la altura de los alumnos de tercero de

ESO y se estimó, en experiencias anteriores, que dicha caracterı́stica se
distribuye según una Normal de media 167 cm. y varianza 100 24 cm2 . Si
se toma una m.a.s. de 10 alumnos,
a) Calcule la probabilidad de que la media muestral de las
alturas de los 10 alumnos no sea inferior a 165 cm.
b) Halle la probabilidad de que la cuasivarianza muestral
de las alturas de los 10 alumnos sea superior a 150 90 cm2 .
2.5. Se extrae (X1 , X2 , X3 , X4 ) m.a.s. de una población X dis-

tribuida según una Exp( 1θ ). Dados los estadı́sticos
1 1
Y1 (X) = (X1 + X2 ) + (X3 + X4 )
6 3
X1 + 2X2 + 3X3 + 4X4
Y2 (X) =
5
X1 + X2 + X3 + X4
Y3 (X) = ,
4
estudie cuáles son insesgados para θ.
2.6. Dada una población distribuida normalmente con media

desconocida y varianza igual a 25, se extrae una m.a.s. de tamaño 3 y
se consideran los estimadores de la media
Y (X) = 00 65X1 + 00 25X2 + 00 1X3

Z(X) = 2X3 − X1
X1 + X2 + X3
T (X) = .
3
Estudie cuál de los tres estimadores es el mejor desde el punto de vista
del sesgo y la eficiencia.
2.7. Sea (X1 , X2 , X3 ) una m.a.s. procedente de una población

que se distribuye normalmente. Sean
X1 + 2X2 + 3X3 X1 − 4X2
T1 (X) = y T2 (X) =
6 −3
dos estimadores de µ.
a) Demuestre que ambos son insesgados.
b) Pruebe que T1 (X) es más eficiente que T2 (X).
2.8. Sea X una variable aleatoria distribuida según una N (µ, σ).
Calcule un estimador insesgado de µ2 + 6µ.
2.9. De una población N (µ, 2) se extrae una m.a.s. Y de tamaño

n = 4. Para el siguiente estimador de la media
T (Y ) = 00 2Y1 + 00 4Y2 + cY3 + dY4 ,
calcule c y d para que T (Y ) sea insesgado y eficiente.

2.8 Ejercicios 35
2.10. Sea (X1 , . . . , Xn ) una m.a.s. extraı́da de una población que

sigue una B(p). Considérense los estimadores:
Pn 2
i=1 Xi
T1 (X) = X y T2 (X) = .
n
a) Demuestre que ambos son insesgados.

b) Estudie cuál es más eficiente.
c) ¿Son consistentes?
2.11. Sea (X1 , . . . , Xn ) una m.a.s. extraı́da de una población que

sigue una P (λ). P
a) Pruebe que T (X) = ni=1 Xi es suficiente para λ.
2
b) Estudie la consistencia del estadı́stico U = T n−T 2 para el
parámetro λ2 .
2.12. Sea (X1 , . . . , Xn ) una m.a.s de una U (0, θ), θ > 0.

a) Sea Mn (X) = máx{X1 , . . . , Xn }. Pruebe que Mn (X) es
consistente para θ. ¿Es insesgado?
b) Si Yn (X) = 2X, estudie la consistencia para θ.
c) Demuestre que el estadı́stico Zn (X) = n+1 n Mn (X) es
insesgado y más eficiente que Yn (X).
2.13. De una población distribuida según una B(m, p), se extrae

una m.a.s. de tamaño n. Estudie la insesgadez del estadı́stico T (X) = X
m
respecto al parámetro p y demuestre su eficiencia.
2.14. Considérese una m.a.s. de tamaño n extraı́da de una po-

blación Normal de media µ y varianza σ 2 .
a) Encuentre un estimador suficiente de σ 2 cuando µ = 0.
b) Busque un estimador suficiente de µ. ¿Es ese estimador
eficiente?
c) Demuestre que T (X) = S 2 no es un estimador eficiente
2
de σ .
2.15. De una población con función de densidad
1 −x
fθ (x) = e θ, x≥0
θ
se extrae una m.a.s. de tamaño n. Si se estima el parámetro θ a través

de la media muestral:
a) Demuestre que es consistente.
b) Estudie su eficiencia.
2.16. Estudie la eficiencia del estimador T (X) = X del paráme-

tro b de la función de densidad Γ(b; a), para una m.a.s. de tamaño n.
2.17. Dada una m.a.s. de tamaño n extraı́da de una población

N (µ, σ), se quiere estimar la media µ mediante
n
X
T (X) = k jXj .
j=1
a) Obtenga k para que T (X) sea insesgado.

b) Estudie si T (X) es eficiente.
c) ¿Es consistente?
2.18. Para estimar la media de una población normalmente dis-

tribuida, se extrae una m.a.s. de tamaño n y se consideran los estadı́sticos
Pn
i=1 iXi
T1 (X) = X y T2 (X) = P n .
i=1 i
Determine cual es el mejor estimador desde el punto de vista de la in-

sesgadez y la eficiencia.
2.19. Sea X una m.a.s. extraı́da de una población Exp ( 1θ ). Prue-

be que el estadı́stico Yn (X) = n mı́n{Xi }, i = 1, . . . , n es insesgado, pero
no consistente para θ.
2.8 Ejercicios 37
2.20. De una población distribuida según una Exponencial de

función de densidad
fα (x) = αe−xα x > 0,
se extrae una m.a.s. de tamaño n. P

a) Demuestre que T (X) = ni=1 Xi es suficiente para α.
b) Pruebe que el estimador U = n−1
T es consistente para α.
2.21. Encuentre un estimador por el método de máxima verosi-

militud para el parámetro λ de una Poisson.
2.22. Dada una m.a.s. extraı́da de una población que sigue una
Exp( 1θ ), encuentre un estimador máximo-verosı́mil para el parámetro θ.
2.23. Determine un estimador, por el método de los momentos,

de los parámetros en los siguientes casos:
a) P (λ).
b) Exp(θ).
c) Γ(a; b).
2.24. Sea la variable aleatoria X que sigue la distribución de

Pascal:
f (x) = p(1 − p)x , donde x = 0, 1, 2, . . . y 0 < p < 1.
Busque un estimador de p por el método de los momentos.
2.25. Obtenga un estimador, por el método de los momentos,

para el parámetro a de la distribución que tiene por función de densidad
2(a − x)
fa (x) = 0 < x < a.
a2
2.26. Una fábrica produce botones cuyo diámetro varı́a aleato-

riamente entre dos valores a y b. Supuesto que el diámetro se ajusta a
una variable aleatoria distribuida uniformemente, estime, a partir de la
muestra
100 20 100 22 100 10 100 14,
los parámetros a y b por el método de los momentos.
2.27. La función de densidad de una variable aleatoria es:
fθ (x) = (θ + 1)xθ 0 < x < 1.
Halle el estimador de θ utilizando:

a) El método de los momentos.
b) El método de máxima verosimilitud.
2.28. Una determinada empresa quiere planificar su producción.

Ellos calculan que el producto que ofrecen puede gustar entre el 40 %
y el 50 % de los habitantes de su ciudad, pero tras tomar una mues-
tra aleatoria de 10 individuos observan que sólo tres muestran interés
por el producto. Teniendo ésto en cuenta, ¿cuál de las dos proporciones
contempladas deberán tomar en consideración con base en el criterio de
máxima verosimilitud?
2.29. Sea X una variable aleatoria con función de probabilidad
Pθ (X = x) = θ(1 − θ)x−1 x = 1, 2, . . . 0 ≤ θ ≤ 1.
Encuentre un estimador del parámetro θ por el método de máxima ve-

rosimilitud.
2.30. Obtenga un estimador por el método de los momentos para

el parámetro a en una distribución Pareto, cuya función de densidad
viene dada por
axa0
fa (x) = a+1 x > x0 .
x
2.8 Ejercicios 39
2.31. Sea X una variable una variable aleatoria que tiene por
función de densidad
fθ (x) = 2θ−2 (1 − x) 0 < x < 1.
Obtenga un estimador de máxima verosimilitud para el parámetro θ.
2.32. Sea (X1 , . . . , Xn ) una m.a.s. extraı́da de una población con

distribución U (a; b). Obtenga estimadores de a y b por el método de
máxima verosimilitud.
2.33. Para una distribución que tiene función de densidad
fθ (x) = e−(x−θ) , x ≥ θ,
calcule el estimador de máxima verosimilitud para el parámetro θ.

Inferencia Estadistica - UCA Estimacion Puntual

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Inferencia Estadistica - UCA Estimacion Puntual

Cargado por

Copyright:

Formatos disponibles

Inferencia

Edita: Servicio de Publicaciones de la Universidad de Cádiz

En numerosas ocasiones, al realizar un estudio estadı́stico se cono-

En este capı́tulo y en los dos siguientes se abordará la Inferencia

y la estimación por intervalos. En la primera, se estiman los paráme-

Este capı́tulo se centra en la estimación puntual, si bien, la mayorı́a

A efectos de notación se hará referencia a las caracterı́sticas de

2. Estadı́stico, Estimador y Estimación

Un estadı́stico T (X), es una función de las variables muestrales que

Dentro del conjunto de estadı́sticos destacan los estimadores, que

Una estimación es el valor numérico que toma el estimador para

La necesidad de definir los estadı́sticos se debe a que, aunque con

Sea X una variable aleatoria continua cuya distribución viene dada

que en el caso de una muestra aleatoria simple toma la forma

Si la variable aleatoria es discreta la función de verosimilitud se define de

Se ha de hacer notar que la verosimilitud varı́a en los parámetros

función queda perfectamente ilustrada en el caso de que la población

Anteriormente se ha comentado que los estadı́sticos realmente su-

La caracterización de la suficiencia de un estadı́stico se hace a

Por el criterio de factorización, tomando

5. Propiedades de los estimadores

Puesto que para un mismo parámetro pueden existir varios esti-

5.1. Estimador insesgado

Una propiedad deseable para un estimador es que su valor medio

Si se verifica que E[T (X)] = θ + b(θ) el estimador será sesgado o

Desarrollando el cuadrado se obtiene

Calculando la esperanza de la varianza muestral a

Teniendo en cuenta que la muestra es aleatoria sim-

5.2. Estimador eficiente

Puesto que lo que se intenta es obtener el valor del parámetro a

donde el denominador de la expresión anterior se conoce como cantidad

1. El campo de variación de la población de la cual se extrajo la mues-

3. La derivación e integración, ası́ como la suma en el caso discreto,

es decir, la varianza del estimador más el cuadrado del sesgo.

5.3. Estimador consistente

Cuando un estimador no es insesgado se le exige que al menos sea

conociéndose dicha consistencia como consistencia en probabilidad.

6. Métodos de obtención de estimadores

A continuación, se estudian dos métodos que van a permitir ob-

6.1. Método de los momentos

Propiedad 2.1 Los estimadores obtenidos por el método de los momen-

Ejemplo 2.8 Se quiere estimar la media y la varianza de una

6.2. Método de máxima verosimilitud

Este método ofrece generalmente mejores resultados que el ante-

Propiedad 2.2 Los estimadores máximo–verosı́miles (M.V.) son asin-

Si T (x) es tal que

entonces también se verifica que

De esta forma, se tiene que

A continuación, habrı́a que comprobar que para ese

7. Estimación de parámetros en poblaciones Normales

Puesto que la mayorı́a de problemas que se abordan en la Inferen-

No obstante, antes de continuar con esta cuestión, se hará un inciso

7.1. Distribuciones derivadas de la Normal

Las distribuciones derivadas de la Normal tienen gran importancia

7.1.1. Distribución Chi–cuadrado

Sean Z1 , Z2 , . . . , Zn , n variables N (0, 1) independientes, la variable

χ2n definida como

Figura 2.1: Distribución Chi–cuadrado

La función de densidad de la distribución Chi–cuadrado es asimé-

1. La distribución Chi–cuadrado es un caso particular de una dis-

Ejemplo 2.10 La velocidad (cm/seg) de un objeto de masa 1 Kg.,

7.1.2. Distribución t de Student

Sean Z y χ2n dos variables aleatorias independientes que siguen

sigue una distribución t de Student con n grados de libertad. La dis-