Está en la página 1de 32

Inferencia

Estadı́stica
(Teorı́a y problemas)

I. Espejo Miranda
F. Fernández Palacı́n
M. A. López Sánchez
M. Muñoz Márquez
A. M. Rodrı́guez Chı́a
A. Sánchez Navas
C. Valero Franco
°c Servicio de Publicaciones. Universidad de Cádiz
I. Espejo Miranda, F. Fernández Palacı́n, M. A. López Sánchez, M. Muñoz
Márquez, A. M. Rodrı́guez Chı́a, A. Sánchez Navas, C. Valero Franco

Edita: Servicio de Publicaciones de la Universidad de Cádiz


c/ Doctor Marañón, 3. 11002 Cádiz (España)
www.uca.es/publicaciones

ISBN: 978-84-9828-131-6

Se concede permiso para copiar, distribuir y/o modificar este documento bajo los
términos de la Licencia de Documentación Libre de GNU, Versión 1.2 o cualquier
otra versión posterior publicada por la Free Software Foundation. Una traducción
de la licencia está incluida en la sección titulada “Licencia de Documentación
Libre de GNU”.

Permission is granted to copy, distribute and/or modify this document under the
terms of the GNU Free Documentation License, Version 1.2 or any later version
published by the Free Software Foundation. A copy of the license is included in
the section entitled “GNU Free Documentation License”.
Inferencia Estadı́stica (Revisión: Marzo 2007)
I. Espejo Miranda, F. Fernández Palacı́n, M. A. López Sánchez,
M. Muñoz Márquez, A. M. Rodrı́guez Chı́a, A. Sánchez Navas,
C. Valero Franco
c
°2007 Servicio de Publicaciones de la Universidad de Cádiz
http://www.uca.es/teloydisren

Capı́tulo 2

Estimación puntual

1. Introducción

En numerosas ocasiones, al realizar un estudio estadı́stico se cono-


ce la estructura de la población que se pretende estudiar, con la salvedad
de los parámetros que la caracterizan. Por ejemplo, la utilización de un
aparato de medida objetivo garantiza, en general, que las mediciones
obtenidas tendrán una distribución Normal, de la que se desconocerán
sus parámetros: media y desviación tı́pica. El objetivo que se persigue
con las técnicas de estimación es el determinar de la forma más precisa
dichos parámetros, de modo que la distribución quede completamente
especificada.

En este capı́tulo y en los dos siguientes se abordará la Inferencia


Estadı́stica desde un punto de vista paramétrico, es decir, se parte del
conocimiento (salvo parámetros) de la distribución de probabilidad que
rige la población bajo estudio. De esta forma, se considera una pobla-
ción cuya función de distribución es Fθ (x), donde θ ∈ Rk es un vector
de parámetros desconocidos. En esta situación, el problema es cuanti-
ficar lo más exactamente posible el valor de θ a partir de una muestra
de tamaño n. La rama de la Estadı́stica que se dedica a estudiar este
tipo de problemas se llama Teorı́a de la Estimación, existiendo dos en-
foques diferentes para llevar a cabo dicho estudio: la estimación puntual
12 Capı́tulo 2. Estimación puntual

y la estimación por intervalos. En la primera, se estiman los paráme-


tros a través de valores numéricos, mientras que en la segunda, queda
garantizada su pertenencia a una región con un margen de seguridad
prefijado.

Este capı́tulo se centra en la estimación puntual, si bien, la mayorı́a


de los conceptos son generales y se utilizan también en la estimación por
intervalos y en el contraste de hipótesis.

A efectos de notación se hará referencia a las caracterı́sticas de


la muestra con letras latinas, mientras que las de la población se desig-
narán, en general, con la correspondiente letra griega. Ası́, por ejemplo,
la varianza muestral será S 2 , mientras que la poblacional se identifi-
cará por σ 2 ; con la media muestral seguirá utilizándose la notación usual,
X, mientras que la poblacional se denotará por µ. El objetivo que se per-
seguirá a lo largo del capı́tulo es el de obtener valores lo más precisos
posibles de los parámetros desconocidos del modelo probabilı́stico.

2. Estadı́stico, Estimador y Estimación

Un estadı́stico T (X), es una función de las variables muestrales que


no depende de parámetros desconocidos. Se trata pues de una variable
aleatoria, la cual tiene una distribución que se denomina distribución en
el muestreo. El estadı́stico puede considerarse como un resumen o una
compresión de la información suministrada por la muestra y, obviamente,
va a ser más manejable que ésta. Nótese que puede ocurrir que en ese
resumen se pierda alguna posible información que pudiera contener X
acerca de los parámetros desconocidos. Por ello, el objetivo perseguido
es que el estadı́stico T (X) sea tal que el resumen que lleve a cabo se
produzca sin pérdida de información relevante sobre los parámetros.

Dentro del conjunto de estadı́sticos destacan los estimadores, que


son aquellos estadı́sticos que se construyen con la intención de estimar
un parámetro de la población y que, consecuentemente, debe reunir con-
diciones que lo hagan deseable en algún sentido. Más adelante se darán
criterios de bondad de un estimador.
2.3 La función de verosimilitud 13

Una estimación es el valor numérico que toma el estimador para


una muestra concreta.
Ejemplo 2.1 Sea X una variable aleatoria que sigue una distri-
bución Normal de media desconocida, µ, y varianza
σ 2 . La función T (X) = X, es decir, la media mues-
tral, es un estadı́stico y estimador de la media µ
de la población. Si se toma la muestra x1 = 20 5,
x2 = 2, x3 = 30 4, x4 = 10 5, x5 = 4, el valor numéri-
co x = 20 68 es una estimación de µ.

La necesidad de definir los estadı́sticos se debe a que, aunque con


la muestra se ha reducido bastante la dimensión del problema, el exce-
sivo tamaño de ésta obliga a comprimir aún más la información para
obtener respuestas a las preguntas que puedan hacerse y, de esa forma,
completar el proceso inferencial. El objetivo que se persigue al definir los
estimadores es el de resumir la información muestral, en aras, de obtener
valores próximos a los verdaderos valores de los parámetros desconocidos
de la distribución de la población.

3. La función de verosimilitud

Sea X una variable aleatoria continua cuya distribución viene dada


por una función de densidad fθ , donde θ ∈ Rk es un vector de parámetros
desconocidos. Para una muestra x extraı́da de dicha población, se define
la función de verosimilitud como:

L(x, θ) = fθ (x),

que en el caso de una muestra aleatoria simple toma la forma


n
Y
L(x, θ) = fθ (x) = fθ (xi ).
i=1

Si la variable aleatoria es discreta la función de verosimilitud se define de


forma análoga, cambiando la función de densidad por la de probabilidad.

Se ha de hacer notar que la verosimilitud varı́a en los parámetros


mientras que la muestra permanece constante. La importancia de dicha
14 Capı́tulo 2. Estimación puntual

función queda perfectamente ilustrada en el caso de que la población


bajo estudio sea discreta, ya que en tal caso la función de verosimilitud
expresa la probabilidad de obtener una muestra en función del vector de
parámetros θ.

4. Suficiencia

Anteriormente se ha comentado que los estadı́sticos realmente su-


ponen una compresión o resumen de la información suministrada por
la muestra, por ello, serı́a ideal que el estadı́stico contuviera toda la
información relevante que posee la muestra respecto al parámetro que
se está estimando. Si ocurre esto, se dice que el estadı́stico es suficien-
te para dicho parámetro. Formalmente, ello supone que la distribución
conjunta de la muestra condicionada al estadı́stico, es independiente del
parámetro.

La caracterización de la suficiencia de un estadı́stico se hace a


partir del criterio de factorización de Fisher–Neyman, que dice que dada
una m.a.s., X, se tiene que un estadı́stico, T (X), es suficiente para θ si
la función de verosimilitud admite la siguiente descomposición:
L(x, θ) = g(T (x), θ)h(x),
donde g es una función no negativa, tanto del estadı́stico como del vector
de parámetros, y h es una función no negativa exclusiva de los valores
muestrales.
Ejemplo 2.2 De una población distribuida según una Bernouilli
de parámetro p se extrae una m.a.s. de tamaño n.
Se trata de encontrar un estimador suficiente para
el parámetro p. Para ello se considera la función de
verosimilitud
L(x, p) = Pp [(X1 , . . . , Xn ) = (x1 , . . . , xn )]
= Pp [X1 = x1 ] · · · Pp [Xn = xn ]
= pxP1 (1 − p)1−x1 · · ·P pxn (1 − p)1−xn
n n
= x
p i=1 i (1 − p) n− i=1 xi .

Por el criterio de factorización, tomando


P
t = T (x) = ni=1 xi , h(x) = 1
2.5 Propiedades de los estimadores 15

y
g(t, p) = pt (1 − p)n−t ,
P
se obtiene que ni=1 Xi es un estimador suficiente
para p.

5. Propiedades de los estimadores

Puesto que para un mismo parámetro pueden existir varios esti-


madores, a continuación se analizan una serie de propiedades que serı́an
deseables para un estimador y que permiten elegir, entre dos de ellos, el
mejor.

5.1. Estimador insesgado

Una propiedad deseable para un estimador es que su valor medio


sea igual al parámetro que se quiere estimar. Dicha propiedad se llama
insesgadez. Formalmente, un estimador T (X) es insesgado o centrado
para un parámetro θ, cuando E[T (X)] = θ.
Ejemplo 2.3 La media muestral es un estimador insesgado pa-
ra la media poblacional µ, cualquiera que sea la
distribución de la población, ya que E[X] = µ.

Si se verifica que E[T (X)] = θ + b(θ) el estimador será sesgado o


descentrado, siendo b(θ) su sesgo, excentricidad o error sistemático. Es
interesante que un estimador sea insesgado porque tomará valores que
estarán alrededor del valor del parámetro θ.
Ejemplo 2.4 Si se considera la varianza muestral como estima-
dor de la varianza poblacional, puede comprobar-
se que se trata de un estimador sesgado, ya que
E[S 2 ] = n−1 2 1 2
n σ , siendo su sesgo − n σ . Para de-
mostrarlo, hay que tener en cuenta que la varianza
muestral puede escribirse de la forma:
16 Capı́tulo 2. Estimación puntual
n
X
(Xi − X + µ − µ)2
i=1
S2 =
n
n
1 X¡ ¢2
= (Xi − µ) − (X − µ) .
n
i=1

Desarrollando el cuadrado se obtiene


à n !
1 X
S2 = (Xi − µ)2 − n(X − µ)2 .
n
i=1

Calculando la esperanza de la varianza muestral a


partir de la expresión anterior se tiene que
à n !
1 X
2 2
E[S 2 ] = E[(Xi −µ) ]−n E[(X −µ) ] .
n
i=1

Teniendo en cuenta que la muestra es aleatoria sim-


ple y que la media muestral verifica que E[X] = µ
2
y que V[X] = σn , se tiene que la primera de las
esperanzas que aparecen en el segundo miembro
es, para todo i, E[(Xi − µ)2 ] = σ 2 y la segunda,
2
E[(X − µ)2 ] = σn , con lo que se llega a
µ ¶
2 1 2 σ2 n−1 2
E[S ] = nσ − n = σ .
n n n
Ahora bien, si se considera la cuasivarianza mues-
tral como estimador de la varianza poblacional en
vez de considerar la varianza muestral, se llega a
que éste último es insesgado. Para ello, basta tener
en cuenta que la cuasivarianza se puede expresar en
n
función de la varianza como Sc2 = n−1 S 2 , entonces
su esperanza viene dada por:
· ¸
2 n 2
E[Sc ] = E S
n−1
n n−1 2
= σ = σ2.
n−1 n
2.5 Propiedades de los estimadores 17

Cuando el sesgo b(θ) es tal que lı́m b(θ) = 0, se dice que el esti-
n→∞
mador es asintóticamente insesgado.
Ejemplo 2.5 Anteriormente se estudió que la varianza muestral
era un estimador sesgado de la varianza poblacio-
nal, siendo su sesgo b(σ) = − n1 σ 2 . Se observa que
cuando n → ∞ el sesgo b(σ) → 0. Con lo cual,
se tiene que la varianza muestral es un estimador
asintóticamente insesgado del parámetro σ.

5.2. Estimador eficiente

Puesto que lo que se intenta es obtener el valor del parámetro a


través de un estimador, que es a su vez una variable aleatoria, una pro-
piedad que también serı́a deseable es que la varianza de dicho estimador
fuese lo más pequeña posible, dicha propiedad se denomina eficiencia.
Se dice que un estimador T1 es más eficiente que otro T2 , cuando ocurre
que Var(T1 )<Var(T2 ). Un estimador es eficiente, en términos absolu-
tos, cuando alcanza la llamada Cota de Frechet–Cramer–Rao, que para
muestras aleatorias simples viene dada a través de la expresión
h i2
∂ E[T (X)]
∂θ
V(T ) ≥ ·³ ´2 ¸ ,
∂ log fθ (X)
nE ∂θ

donde el denominador de la expresión anterior se conoce como cantidad


de información de Fisher, I(θ).

Observación 2.1 Para poder aplicar esta cota es necesario que se cum-
plan ciertas condiciones de regularidad de fθ (x). Son las conocidas con-
diciones de regularidad de Fisher–Wolfowitz:

1. El campo de variación de la población de la cual se extrajo la mues-


tra es independiente del parámetro θ, y por tanto, la muestra tam-
bién lo es.
2. Existen, al menos, las dos primeras derivadas respecto al paráme-
tro θ de la función L(X, θ).
18 Capı́tulo 2. Estimación puntual

3. La derivación e integración, ası́ como la suma en el caso discreto,


son operaciones intercambiables.

Cuando un estimador es más eficiente que otro pero a su vez tiene más
sesgo, en general, se decide por aquel que tenga menor error cuadrático
medio (ECM). El error cuadrático medio de un estimador se define como:
£ ¤
ECM (T ) = E (T − θ)2 = V[T ] + (θ − E[T ])2 = V[T ] + b(θ)2 ,

es decir, la varianza del estimador más el cuadrado del sesgo.


Ejemplo 2.6 Se quiere estimar el parámetro λ de una Poisson
mediante la media de una muestra de tamaño n.
¿Es la media un estimador eficiente?
La varianza de la media muestral es V[X] = nλ
y la esperanza E[X] = λ. Calculando la Cota de
Frechet–Cramer–Rao:
µ ¶2
∂ E[X]
∂λ
CF CR = "µ ¶ #.
∂ log Pλ (X) 2
nE
∂λ
Se tiene que
log Pλ (X) = −λ + x log λ − log(x!)
y su derivada respecto a λ
∂ log Pλ (X) x x−λ
= −1 + = ,
∂λ λ λ
luego el denominador queda
"µ ¶ # £ ¤
∂ log Pλ (X) 2 E (X − λ)2
nE = n
∂λ λ2
V[X]
= n 2
λ
λ n
= n 2 = ,
λ λ
y la Cota de Frechet–Cramer–Rao
2.6 Métodos de obtención de estimadores 19
1 λ
CF CR = "µ ¶2 # = n .
∂ log Pλ (X)
nE
∂λ
λ
Como la varianza del estimador es igual a n, se
tiene que éste es eficiente.

5.3. Estimador consistente

Cuando un estimador no es insesgado se le exige que al menos sea


consistente. Existen diversas definiciones de consistencia, en función de
la convergencia que se utilice. Aquı́ se entenderá que un estimador es
consistente cuando:

1. lı́m E(Tn ) = θ
n→∞

2. lı́m V(Tn ) = 0
n→∞

conociéndose dicha consistencia como consistencia en probabilidad.


Ejemplo 2.7 La media muestral es un ejemplo de estimador
consistente de la media poblacional µ: E[X] = µ y
2
por tanto lı́m E[X] = µ y V[X] = σn , con lo que
n→∞
se tiene que lı́m V[X] = 0.
n→∞

6. Métodos de obtención de estimadores

A continuación, se estudian dos métodos que van a permitir ob-


tener estimadores con unas cotas de bondad razonablemente buenas en
relación con las propiedades que se acaban de describir. El primero de
ellos, llamado método de los momentos, se basa en la correspondencia
entre las caracterı́sticas de la población y las de la muestra. El segundo,
denominado de máxima verosimilitud, se apoya en la función de verosi-
militud definida anteriormente.
20 Capı́tulo 2. Estimación puntual

6.1. Método de los momentos

Sea X una variable aleatoria tal que existen los r primeros mo-
mentos poblacionales con respecto al origen y cuya distribución de-
pende de una serie de parámetros θ1 , . . . , θk desconocidos. En el ca-
so de que el parámetro i-ésimo se pueda expresar en función de los
r primeros momentos poblacionales con respecto al origen, es decir,
θi = gi (α1 , . . . , αr ), para una muestra (X1 , . . . , Xn ) el estimador ob-
tenido a través del método de los momentos para dicho parámetro viene
dado por θ̂i (X) = gi (a1 , . . . , ar ), donde
n
X
Xis
i=1
αs = E[Xis ] as = .
n

Propiedad 2.1 Los estimadores obtenidos por el método de los momen-


tos son consistentes, aunque, en general, no son insesgados ni tienen
varianza mı́nima.

Ejemplo 2.8 Se quiere estimar la media y la varianza de una


N (µ, σ) por el método de los momentos. Se sabe
que µ = E[X] = α1 , luego un estimador para µ por
el método de los momentos resulta de sustituir α1
por a1 , ası́
n
X
Xi
i=1
µ̂ = a1 = = X.
n
En cuanto a la varianza, se sabe que
α2 = E[X 2 ] = σ 2 + µ2 ⇒ σ 2 = α2 − µ2 ,
luego sustituyendo α2 por a2 y µ por su estimador,
se tiene que un estimador de σ 2 por el método de
los momentos viene dado por:
n
X
Xi2
i=1 2
σ̂ 2 = − X = S2.
n
2.6 Métodos de obtención de estimadores 21

6.2. Método de máxima verosimilitud

Este método ofrece generalmente mejores resultados que el ante-


rior. En la misma situación se construye la función de verosimilitud,
L(x, θ), viniendo dados los estimadores máximos verosı́miles por aque-
llas expresiones del vector de parámetros, θ, con θ ∈ Rk , que hacen
máxima dicha función. Por ser positiva y coincidir sus máximos con los
de su logaritmo, el método se reduce a buscar la expresión del vector de
parámetros, θ, que haga máxima la función log L(x, θ).

Propiedad 2.2 Los estimadores máximo–verosı́miles (M.V.) son asin-


tóticamente insesgados, asintóticamente Normales y de existir un esti-
mador eficiente éste es el máximo–verosı́mil.

Ejemplo 2.9 Sea X una variable aleatoria que sigue una B(p).
Para encontrar el estimador máximo–verosı́mil pa-
ra p, se construye en primer lugar la función de
verosimilitud:
Pn Pn
L(x, p) = p i=1 xi (1 − p)n− i=1 xi .

Si T (x) es tal que


máx L(x, p) = L(x, T (x)),
p

entonces también se verifica que


máx log L(x, p) = log L(x, T (x)).
p

De esta forma, se tiene que


n
X n
X
log L(x, p) = xi log p + (n − xi ) log (1 − p),
i=1 i=1

luego
n
X n
X
xi n− xi
∂log L(x, p) i=1 i=1
= − = 0.
∂p p 1−p
22 Capı́tulo 2. Estimación puntual
n
1X
De donde se obtiene que p̂ = xi .
n
i=1

A continuación, habrı́a que comprobar que para ese


valor de p la función log L(x, p) alcanza un máxi-
2
mo. Se puede probar que ∂ log∂pL(x,p)
2 ≤ 0 y por
n
1X
tanto, T (X) = Xi es el estimador máximo–
n
i=1
verosı́mil de p.

7. Estimación de parámetros en poblaciones Normales

Puesto que la mayorı́a de problemas que se abordan en la Inferen-


cia Estadı́stica asumen la hipótesis de normalidad de la población bajo
estudio, a partir de ahora, se le va a dar un trato diferenciado, particula-
rizando cualquier estudio para esta distribución. Sea pues X una variable
aleatoria con distribución N(µ,σ). Los estimadores máximo–verosı́miles
de los parámetros µ y σ son, respectivamente, la media y la desviación
tı́pica muestral, con las propiedades que les confiere el método utilizado.
Se trata ahora de estudiar las distribuciones de ambos estimadores.

No obstante, antes de continuar con esta cuestión, se hará un inciso


para estudiar una serie de distribuciones que se derivan de la Normal.

7.1. Distribuciones derivadas de la Normal

Las distribuciones derivadas de la Normal tienen gran importancia


en la Inferencia Estadı́stica, ya que serán las distribuciones de una amplia
familia de estimadores. Todas ellas se obtienen como combinación y/o
promedios de variables Normales, están tabuladas y se caracterizan sólo
por el número de Normales tipificadas que entran en su composición; a
dicho número se le llama grado(s) de libertad, justificándose este nombre
por los motivos que se desarrollarán en los próximos temas.

7.1.1. Distribución Chi–cuadrado

Sean Z1 , Z2 , . . . , Zn , n variables N (0, 1) independientes, la variable


2.7 Estimación de parámetros en poblaciones Normales 23

χ2n definida como


χn2 = Z12 + Z22 + · · · + Zn2
sigue una distribución Chi–cuadrado con n grados de libertad. Dicha
variable puede interpretarse como el cuadrado de la distancia euclı́dea
desde el origen de coordenadas al punto (Z1 , Z2 , . . . , Zn ). La variable se
caracteriza únicamente por el número de Normales tipificadas que entran
en su composición y la independencia de éstas hace fácil el cálculo de
los momentos. Ası́
2 2
E[χn ] = n y V[χn ] = 2n.

Figura 2.1: Distribución Chi–cuadrado

La función de densidad de la distribución Chi–cuadrado es asimé-


trica, siendo sólo distinta de cero para valores positivos de la variable.
Tiene una ası́ntota cuando los valores tienden a infinito y para n > 2
tiene forma campaniforme.

Propiedades 2.3

1. La distribución Chi–cuadrado es un caso particular de una dis-


tribución Gamma, en concreto, es una Γ( 12 , n2 ). Recuérdese que
X ∼ Γ(a; p) si tiene como función de densidad
 p
 a e−ax xp−1 si x > 0
f (x) = Γ(p)
 0 si x ≤ 0
24 Capı́tulo 2. Estimación puntual
n
2. La función caracterı́stica de un χ2n es ϕ(t) = (1 − 2it)− 2 .
3. La suma de dos Chi–cuadrado independientes con n1 y n2 grados
de libertad es una nueva variable Chi–cuadrado con n1 + n2 grados
de libertad.
4. Cuando n es mayor que 100 se verifica la siguiente aproximación:
p √
2χ2n ∼= N ( 2n − 1, 1).

Ejemplo 2.10 La velocidad (cm/seg) de un objeto de masa 1 Kg.,


viene dada por una variable aleatoria V que sigue
2
una N (0, 25). Si K = mV2 , donde m es la masa del
objeto, es la variable aleatoria que representa la
energı́a cinética de dicho objeto, se pide calcular la
probabilidad de que la energı́a cinética sea menor
que 200.
Puesto que m = 1, se tiene que
³ 2 ´
P (K < 200) = P mV2 < 200
³ 2 ´
V
= P 625 < 200·2
625 ´
³ 2
V
= P 625 < 10 28
= P (χ21 < 10 28) = 00 725.

7.1.2. Distribución t de Student

Sean Z y χ2n dos variables aleatorias independientes que siguen


una distribución N (0, 1) y una Chi–cuadrado con n grados de libertad,
respectivamente. La variable aleatoria
Z
tn = q ,
χ2n
n

sigue una distribución t de Student con n grados de libertad. La dis-


tribución es simétrica respecto a cero, con una varianza mayor que la
N (0, 1) y tiende a ésta a medida que n lo hace hacia infinito (se puede
considerar que sus probabilidades coinciden a partir de un n superior a
120).
2.7 Estimación de parámetros en poblaciones Normales 25

La distribución t de Student compara a una N (0, 1) con un pro-


medio de n variables N (0, 1). Sus momentos principales son:
n
E[tn ] = 0 V[tn ] = (n > 2).
n−2

Figura 2.2: Distribución t de Student


Ejemplo 2.11 Sea V una variable aleatoria que sigue una t20 . Se
quiere hallar a tal que P (|V | > a) = 00 01. Para
ello basta tener en cuenta que la distribución t de
Student es simétrica, con lo cual
P (|V | > a) = P (V > a) + P (V < −a)
= 2P (V > a) = 00 01.
Ası́ pues, el a requerido es el que verifica
P (V > a) = 00 005,
de donde se obtiene, buscando en las tablas, que
a = 20 845.

7.1.3. Distribución F de Snedecor–Fisher

La distribución F se define como el cociente entre dos variables


independientes Chi–cuadrado divididas por sus grados de libertad, es
decir
χ2n
n
Fn,m = χ2m
.
m
26 Capı́tulo 2. Estimación puntual

La distribución está caracterizada por los grados de libertad n y


m, siendo su forma esencialmente la misma de la Chi–cuadrado. Sus
caracterı́sticas más importantes son:

m 2m2 (m + n − 2)
E[Fn,m ] = V[Fn,m ] = .
m−2 n(m − 2)2 (m − 4)

Propiedades 2.4

1
1. De la definición se deduce que si X ∼ Fn,m ⇒ X ∼ Fm,n .

2. La distribución t de Student al cuadrado es un caso particular de


la F. Esto es, si

Z Z2
tn = q ⇒ t2n = χ2n
χ2n
n n

siendo t2n ∼ F1,n

Figura 2.3: Distribución F de Fisher–Snedecor


Ejemplo 2.12 Hallar el valor b tal que P (F < b) = 00 01, sabiendo
que la variable aleatoria F sigue una distribución
F7,20 .
1
Como F7,20 = F20,7 ,se tiene entonces que
³ ´
1
P (F7,20 < b) = 00 01 ⇔ P F7,20 > 1b = 00 01,

luego
2.7 Estimación de parámetros en poblaciones Normales 27
1 1
P (F20,7 > ) = 00 01 ⇒ = 60 15.
b b
De donde b = 00 162.

7.2. Distribución de la media muestral

Como ya se ha visto en ejemplos anteriores, la media muestral


tiene esperanza µ y varianza σ 2 /n; además por ser combinación lineal
de variables Normales es a su vez Normal, es decir:
µ ¶
σ
X ∼ N µ, √ .
n
Lo anterior también serı́a, aproximadamente, cierto para una variable
X no Normal siempre que n sea suficientemente grande, como garantiza
el Teorema Central del Lı́mite.

7.3. Distribución de la varianza muestral

La relación que existe entre la media y la varianza muestral viene


dada por el teorema de Fisher–Cochran:

Teorema 2.1 Las variables aleatorias X y S 2 son independientes y el


2
estadı́stico nS
σ2
tiene distribución Chi–cuadrado con n-1 grados de liber-
tad.

Se obviará la demostración de lo anterior, que de forma equivalente y en


función de la cuasivarianza muestral, puede expresarse como:
(n − 1)Sc2
∼ χ2n−1 . (2.1)
σ2
De los momentos de una Chi–cuadrado se puede deducir:

2 n−1 2 2 2(n − 1) 4
E[S ] = σ V[S ] = σ .
n n2

Esto indica, como ya se estudió, que S 2 no es un estimador inses-


gado de σ 2 , por lo que en la mayorı́a de los casos se toma como estimador
28 Capı́tulo 2. Estimación puntual

de la varianza poblacional la cuasivarianza muestral, Sc2 , también deno-


minada varianza muestral corregida. La razón de no elegir siempre la
cuasivarianza es que su ECM es mayor que el de la varianza.
√ 2
Por otro lado, puesto que X−µ σ n ∼ N (0, 1) y (n − 1) Sσc2 ∼ χ2n−1
y como además estos estadı́sticos son independientes, se tiene que
X−µ √
n X − µ√
qσ = n ∼ tn−1 .
(n−1)Sc2 Sc
(n−1)σ 2

7.4. Distribución de la diferencia de medias muestrales

Se consideran dos poblaciones independientes representadas por


las variables X e Y, con distribuciones respectivas N (µ1 , σ1 ) y N (µ2 , σ2 ),
de las cuales se dispone de sendas muestras, X y Y , de tamaños n1 y n2
respectivamente. Es fácil ver que su diferencia de medias muestrales se
distribuye como:
 s 
σ 2 σ 2
X − Y ∼ N µ1 − µ2 , 1
+ 2 .
n1 n2

7.5. Distribución del cociente de varianzas muestrales

Dadas las dos variables anteriores X e Y independientes y según


la ecuación (2.1), se tiene que:
Sc21
σ12
Sc22
∼ Fn1 −1,n2 −1 .
σ2

Ejemplo 2.13 En una clase de ciencias, se toma una m.a.s. de


51 alumnos que se presentaron al examen de ma-
temáticas y otra, independiente de la anterior, de
19 alumnos presentados al examen de fı́sica. Se sa-
be que las notas de los alumnos tanto en matemáti-
cas como en fı́sica siguen una Normal con la misma
2.7 Estimación de parámetros en poblaciones Normales 29

dispersión. Se pretende averiguar cuál es la proba-


bilidad de que la varianza observada en la primera
muestra sea al menos el doble de la segunda.
Sea SM2 la varianza muestral de las notas corres-

pondientes a matemáticas y SF2 la varianza mues-


tral de las notas de fı́sica. Puesto que se trata de
muestras independientes y teniendo en cuenta que
2
SM SF2
2
51 ∼ χ50 y 19 ∼ χ218
σ2 σ2
se tiene que
2
51 · 18 · SM
∼ F50,18 .
50 · 19 · SF2
Ası́ pues,
µ 2 ¶ µ 2 ¶
SM 51 · 18 · SM 0
P ≥2 = P ≥ 1 93
SF2 50 · 19 · SF2
= P (F50,18 ≥ 10 93)
= 00 0632.

7.6. Distribución de la proporción muestral

Utilizando una particularización del Teorema Central del Lı́mite,


se sabe que de forma asintótica, para una población Bernouilli, B(p), se

tiene que la distribución de la proporción muestral p= X puede aproxi-
mar por una Normal, tal que
µ r ¶

∼ pq
p = N p, .
n

Si se tienen dos poblaciones Bernouilli, entonces:


µ r ¶
∧ ∧ p1 q1 p2 q2
p1 − p2 ∼= N p1 − p2 , + .
n1 n2
30 Capı́tulo 2. Estimación puntual

8. Ejercicios

8.1. Ejercicios resueltos

2.1 Sea X una m.a.s. de tamaño n extraı́da de una población


Normal de media µ y varianza σ 2 .
a) Halle los estimadores de máxima verosimilitud para los
parámetros µ y σ 2 .
b) ¿Es X un estimador eficiente de µ? ¿Y suficiente?
c) Encuentre un estimador insesgado de µ2 + σ 2 .
d) Si µ = 0, encuentre un estimador suficiente de σ 2 .

Solución:
a) A partir de la m.a.s. de tamaño n, se construye la función
de verosimilitud:
½ Pn 2¾
2 2 −n i=1 (xi − µ)
L = L(x; µ, σ ) = (2πσ ) exp −
2 .
2σ 2
Para encontrar los estimadores de máxima verosimilitud de µ y σ 2 , hay
que encontrar los máximos de la función de verosimilitud, L, o equiva-
lentemente, los máximos de la función log L:
n
X
(xi − µ)2
n n
log L = − log (σ 2 ) − log 2π − i=1 .
2 2 2σ 2
Para ello, habrá que resolver el siguiente sistema:
n
X
(xi − µ)
∂log L i=1
= =0
∂µ σ2
n
X
(xi − µ)2
∂log L n
2
= − 2 + i=1 =0
∂σ 2σ 2σ 4
cuya solución proporciona los estimadores máximo–verosı́miles de µ y
σ2 :
µ̂ = X
2.8 Ejercicios 31
n
X
(Xi − X)2
σˆ2 = i=1
= S2.
n

b) Supuesta conocida σ 2 y teniendo en cuenta que T (X) =


X es insesgado para µ, la cota de Frechet–Cramer–Rao viene dada por:

1
CF CR = ·³ ´ ¸.
∂ log fµ (X) 2
nE ∂µ

Haciendo cálculos,

1 (x − µ)2
log fµ (x) = − log σ − log 2π − ,
2 2σ 2
µ ¶
∂ log fµ (x) x−µ ∂ log fµ (x) 2 (x − µ)2
= ⇒ = ,
∂µ σ2 ∂µ σ4
"µ ¶ #
∂ log fµ (X) 2 1
E = 2.
∂µ σ

Por tanto, la cota de Frechet–Cramer–Rao vale

1 σ2
CF CR = = ,
n σ12 n

σ2
y puesto que V[T (X)] = V[X] = n , se deduce que T (X) = X es
eficiente para µ.

Estos cálculos no hubiesen sido necesarios si se hubiera recurrido


a las propiedades de los estimadores máximo–verosı́miles. Como X es
máximo-verosı́mil para µ, de existir un estimador eficiente serı́a él.

En cuanto a la suficiencia de T (X) = X, a partir de la función de


máxima verosimilitud
½ Pn ¾
2 2 −n i=1 (xi − µ)2
L = L(x; µ, σ ) = (2πσ ) 2 exp − ,
2σ 2
32 Capı́tulo 2. Estimación puntual

desarrollando la expresión de la exponencial,


Pn 2
Pn 2
i=1 (xi − µ) i=1 xi + nµ(µ − 2x)
− = −
2σ 2 2σ 2
se llega a que, si se define
n o
g(T (x), µ) = exp − nµ(µ−2x)
2
2σ n P
n o
2 −n x2i
h(x) = (2πσ ) 2 exp − i=12σ 2 ,

por el criterio de factorización, el estimador T (X) = X es sufi-


ciente para µ.
c) Puesto que
σ2
E[X] = µ; V[X] = ,
n
se tiene que
2 2 σ2
E[X ] = V[X] + E[X] = + µ2 .
n
Como, además,
2 n−1 2
E[S ] = σ ,
n
2
el estimador que se busca es T (X) = X + S 2 , ya que
2 2 2 2
E[T (X)] = E[X ] + E[S ] = σ + µ .
d) En este caso,
½ ¾
2 − 12 1 2
fσ2 (x) = (2πσ ) exp − 2 x

y la función de verosimilitud es
( k
)
−n 1 X 2
L = L(x, σ 2 ) = (2πσ 2 ) 2 exp − 2 xi .

i=1
Por el criterio de factorización, tomando
½ ¾
2 2 −n 1
g(T (x), σ ) = (2πσ ) 2 exp − 2 T (x) ,

Pk 2
Pk 2
con T (x) = i=1 xi , y h(x) = 1, se tiene que T (X) = i=1 Xi es
estimador suficiente para σ .2
2.8 Ejercicios 33

8.2. Ejercicios propuestos

2.1. Dadas W, X, Y y Z cuatro variables aleatorias independien-


tes e idénticamente distribuidas según una N (0, 5).
a) Si S = 2W + 3X − Y + Z + 30, obtenga P (S ≤ 42).
b) Si T = W 2 + X 2 + Y 2 + Z 2 , obtenga a verificando que
P (T ≤ a) = 00 025. q
W 2 +X 2 +Y 2 +Z 2
c) Si U = 4 , obtenga P (U ≤ 60 973).

2.2. Sean X e Y dos variables aleatorias que siguen una t36 y


una χ262respectivamente.
a) Halle x tal que P (|X| > x) = 00 05.
b) Obtenga y tal que P (|Y | > y) = 00 05.

2.3. Se sabe que la anchura de las piezas fabricadas por una


cierta máquina, medida en centı́metros, se distribuye según una Normal
de media 10 y desviación tı́pica 00 25. Si se toma una m.a.s. de 25 piezas,
calcule:
a) P (90 68 ≤ X ≤ 100 1).
b) P (S 2 ≤ 00 19).

2.4. Se quiere estudiar la altura de los alumnos de tercero de


ESO y se estimó, en experiencias anteriores, que dicha caracterı́stica se
distribuye según una Normal de media 167 cm. y varianza 100 24 cm2 . Si
se toma una m.a.s. de 10 alumnos,
a) Calcule la probabilidad de que la media muestral de las
alturas de los 10 alumnos no sea inferior a 165 cm.
b) Halle la probabilidad de que la cuasivarianza muestral
de las alturas de los 10 alumnos sea superior a 150 90 cm2 .

2.5. Se extrae (X1 , X2 , X3 , X4 ) m.a.s. de una población X dis-


tribuida según una Exp( 1θ ). Dados los estadı́sticos

1 1
Y1 (X) = (X1 + X2 ) + (X3 + X4 )
6 3
34 Capı́tulo 2. Estimación puntual
X1 + 2X2 + 3X3 + 4X4
Y2 (X) =
5
X1 + X2 + X3 + X4
Y3 (X) = ,
4
estudie cuáles son insesgados para θ.

2.6. Dada una población distribuida normalmente con media


desconocida y varianza igual a 25, se extrae una m.a.s. de tamaño 3 y
se consideran los estimadores de la media

Y (X) = 00 65X1 + 00 25X2 + 00 1X3


Z(X) = 2X3 − X1
X1 + X2 + X3
T (X) = .
3
Estudie cuál de los tres estimadores es el mejor desde el punto de vista
del sesgo y la eficiencia.

2.7. Sea (X1 , X2 , X3 ) una m.a.s. procedente de una población


que se distribuye normalmente. Sean
X1 + 2X2 + 3X3 X1 − 4X2
T1 (X) = y T2 (X) =
6 −3
dos estimadores de µ.
a) Demuestre que ambos son insesgados.
b) Pruebe que T1 (X) es más eficiente que T2 (X).

2.8. Sea X una variable aleatoria distribuida según una N (µ, σ).
Calcule un estimador insesgado de µ2 + 6µ.

2.9. De una población N (µ, 2) se extrae una m.a.s. Y de tamaño


n = 4. Para el siguiente estimador de la media

T (Y ) = 00 2Y1 + 00 4Y2 + cY3 + dY4 ,

calcule c y d para que T (Y ) sea insesgado y eficiente.


2.8 Ejercicios 35

2.10. Sea (X1 , . . . , Xn ) una m.a.s. extraı́da de una población que


sigue una B(p). Considérense los estimadores:
Pn 2
i=1 Xi
T1 (X) = X y T2 (X) = .
n

a) Demuestre que ambos son insesgados.


b) Estudie cuál es más eficiente.
c) ¿Son consistentes?

2.11. Sea (X1 , . . . , Xn ) una m.a.s. extraı́da de una población que


sigue una P (λ). P
a) Pruebe que T (X) = ni=1 Xi es suficiente para λ.
2
b) Estudie la consistencia del estadı́stico U = T n−T 2 para el
parámetro λ2 .

2.12. Sea (X1 , . . . , Xn ) una m.a.s de una U (0, θ), θ > 0.


a) Sea Mn (X) = máx{X1 , . . . , Xn }. Pruebe que Mn (X) es
consistente para θ. ¿Es insesgado?
b) Si Yn (X) = 2X, estudie la consistencia para θ.
c) Demuestre que el estadı́stico Zn (X) = n+1 n Mn (X) es
insesgado y más eficiente que Yn (X).

2.13. De una población distribuida según una B(m, p), se extrae


una m.a.s. de tamaño n. Estudie la insesgadez del estadı́stico T (X) = X
m
respecto al parámetro p y demuestre su eficiencia.

2.14. Considérese una m.a.s. de tamaño n extraı́da de una po-


blación Normal de media µ y varianza σ 2 .
a) Encuentre un estimador suficiente de σ 2 cuando µ = 0.
b) Busque un estimador suficiente de µ. ¿Es ese estimador
eficiente?
c) Demuestre que T (X) = S 2 no es un estimador eficiente
2
de σ .
36 Capı́tulo 2. Estimación puntual

2.15. De una población con función de densidad

1 −x
fθ (x) = e θ, x≥0
θ

se extrae una m.a.s. de tamaño n. Si se estima el parámetro θ a través


de la media muestral:
a) Demuestre que es consistente.
b) Estudie su eficiencia.

2.16. Estudie la eficiencia del estimador T (X) = X del paráme-


tro b de la función de densidad Γ(b; a), para una m.a.s. de tamaño n.

2.17. Dada una m.a.s. de tamaño n extraı́da de una población


N (µ, σ), se quiere estimar la media µ mediante
n
X
T (X) = k jXj .
j=1

a) Obtenga k para que T (X) sea insesgado.


b) Estudie si T (X) es eficiente.
c) ¿Es consistente?

2.18. Para estimar la media de una población normalmente dis-


tribuida, se extrae una m.a.s. de tamaño n y se consideran los estadı́sticos
Pn
i=1 iXi
T1 (X) = X y T2 (X) = P n .
i=1 i

Determine cual es el mejor estimador desde el punto de vista de la in-


sesgadez y la eficiencia.

2.19. Sea X una m.a.s. extraı́da de una población Exp ( 1θ ). Prue-


be que el estadı́stico Yn (X) = n mı́n{Xi }, i = 1, . . . , n es insesgado, pero
no consistente para θ.
2.8 Ejercicios 37

2.20. De una población distribuida según una Exponencial de


función de densidad

fα (x) = αe−xα x > 0,

se extrae una m.a.s. de tamaño n. P


a) Demuestre que T (X) = ni=1 Xi es suficiente para α.
b) Pruebe que el estimador U = n−1
T es consistente para α.

2.21. Encuentre un estimador por el método de máxima verosi-


militud para el parámetro λ de una Poisson.

2.22. Dada una m.a.s. extraı́da de una población que sigue una
Exp( 1θ ), encuentre un estimador máximo-verosı́mil para el parámetro θ.

2.23. Determine un estimador, por el método de los momentos,


de los parámetros en los siguientes casos:
a) P (λ).
b) Exp(θ).
c) Γ(a; b).

2.24. Sea la variable aleatoria X que sigue la distribución de


Pascal:

f (x) = p(1 − p)x , donde x = 0, 1, 2, . . . y 0 < p < 1.

Busque un estimador de p por el método de los momentos.

2.25. Obtenga un estimador, por el método de los momentos,


para el parámetro a de la distribución que tiene por función de densidad

2(a − x)
fa (x) = 0 < x < a.
a2
38 Capı́tulo 2. Estimación puntual

2.26. Una fábrica produce botones cuyo diámetro varı́a aleato-


riamente entre dos valores a y b. Supuesto que el diámetro se ajusta a
una variable aleatoria distribuida uniformemente, estime, a partir de la
muestra
100 20 100 22 100 10 100 14,
los parámetros a y b por el método de los momentos.

2.27. La función de densidad de una variable aleatoria es:

fθ (x) = (θ + 1)xθ 0 < x < 1.

Halle el estimador de θ utilizando:


a) El método de los momentos.
b) El método de máxima verosimilitud.

2.28. Una determinada empresa quiere planificar su producción.


Ellos calculan que el producto que ofrecen puede gustar entre el 40 %
y el 50 % de los habitantes de su ciudad, pero tras tomar una mues-
tra aleatoria de 10 individuos observan que sólo tres muestran interés
por el producto. Teniendo ésto en cuenta, ¿cuál de las dos proporciones
contempladas deberán tomar en consideración con base en el criterio de
máxima verosimilitud?

2.29. Sea X una variable aleatoria con función de probabilidad

Pθ (X = x) = θ(1 − θ)x−1 x = 1, 2, . . . 0 ≤ θ ≤ 1.

Encuentre un estimador del parámetro θ por el método de máxima ve-


rosimilitud.

2.30. Obtenga un estimador por el método de los momentos para


el parámetro a en una distribución Pareto, cuya función de densidad
viene dada por
axa0
fa (x) = a+1 x > x0 .
x
2.8 Ejercicios 39

2.31. Sea X una variable una variable aleatoria que tiene por
función de densidad

fθ (x) = 2θ−2 (1 − x) 0 < x < 1.

Obtenga un estimador de máxima verosimilitud para el parámetro θ.

2.32. Sea (X1 , . . . , Xn ) una m.a.s. extraı́da de una población con


distribución U (a; b). Obtenga estimadores de a y b por el método de
máxima verosimilitud.

2.33. Para una distribución que tiene función de densidad

fθ (x) = e−(x−θ) , x ≥ θ,

calcule el estimador de máxima verosimilitud para el parámetro θ.

También podría gustarte