Estimación de Parámetros 1

Master en Metodología de las Ciencias del Comportamiento y de la Salud
COMPLEMENTOS: ESTIMACIÓN DE PARÁMETROS
Dra. C. San Luis
Concepto de Sesgo: Estimador de la varianza
n n
 2 1
Esx = n ·E(xi- x-)2 = n ·E(xi-  +  - x-)2 =
1
i=1 i=1
n
1

= n ·E [(xi- ) + ( - x-)]2 =
i=1
n
1

= n ·E [(xi- )2 + ( - x-)2 + 2(xi- )( - x-)]=
i=1
 n 
1 n
= n ·E(xi- ) + n( - x) + 2 (xi- )( - x)
2 - 2 -
 
i=1 i=1
Ahora bien,
[(xi- )( - x-)]=

i=1
n
= ( xi - 2 - x-xi + x-) = xi - n2 - x-xi + nx- =
n n
i=1 i=1 i=1
= nx- - n2 - nx-2 + nx- = 2nx- - n2 - nx-2 = -n(2 + x-2 - 2x-) =
= -n( - x-)2
luego,
n 
 2 1  2
Esx = n ·E (xi- ) + n( - x) - 2 n( - x) =
2 - 2 -
i=1 
 
1
1  n  1 n
2
= n ·E (xi- ) - n( - x) = n ·E(xi- )2 – E( - x-)2
2 -
i=1 
  i=1
pero,
1 n 1 2 2
n · E(xi- )2 = n ·n·x = x
i=1
2
N - n x
E( - x-)2 = E(x- - )2 = VAR(x-) = N - 1· n
luego,
2

 2 2 N-n x
Esx = x - N - 1· n
siendo el sesgo, como vemos,
2 N-n
b() = x·n(N - 1)
Suficiencia de un Estimador
Si, siendo b un estadístico suficiente para , definimos un nuevo estadístico z
función de b, z = (b), donde  tiene una inversa única, h, podremos expresar b = h(z)
y, por tanto,
f(b; ) = f(h(z); ) = f*(z; )
luego, podremos escribir:
F(x; ) = g(x) f*(z; )
Por consiguiente, si z es función de k, siendo k un estadístico suficiente, también z será

un estadístico suficiente para .
Veamos, como ejemplo, si x- es un estimador suficiente para , siendo X una variable
2
distribuida normalmente en la población con varianza x:
2
(x - ) 
n
i
2
·exp =
i=1
1
F(x;) =
 2
 -2x 
x
2
 -1  n 2 2 n 
·exp 2xi + n - 2xi =
1
=
x 2
2x i=1 
i=1
 -1 n 2  -1  2 n 
·exp 2xi ·exp
1  xi
x 2  2n - 2
i=1 
2x i=1  2x 
Hemos descompuesto la función de densidad de probabilidad conjunta original en dos

factores: el primero independiente de  y el segundo dependiente de  y de 
n (xi).
i=1
Puesto que  n (xi) es un estadístico suficiente para , también lo será la media al ser
i=1
función de él.
Métodos de obtención de Estimadores
Método de la máxima verosimilitud
Sean x1, x2, ...., xn una muestra aleatoria simple de una población cuya función de
densidad de probabilidad es f(x; ). Si suponemos que cada uno de los valores x1, x2,
...., xn es la realización concreta de una serie de variables aleatorias X1, X2, ...., Xn
independientes entre sí, tendremos que la función de densidad de probabilidad conjunta,
llamada función de verosimilitud, vendrá dada por:
n
L(x1, x2, ...., xn; ) = (f(x1; )f(x2; )…f(xn; ) = f(xi; )
i=1
Lo que pretende el método de máxima verosimilitud es encontrar el valor de  que

maximice la función de verosimilitud; es decir, seleccionar aquel valor del parámetro
que posea como propiedad el maximizar el valor de la probabilidad de la muestra
aleatoria observada.
Dado que el logaritmo de L se maximiza para el mismo valor que L, es frecuente

simplificar la función tomando logaritmos. Tendremos entonces que:
3
n
Log[L(x1, x2, ...., xn; )] = log[f(xi; )]
i=1
Puesto que el objetivo es encontrar el valor de  que maximice la función, derivaremos

ésta con respecto a  e igualaremos a 0, quedando:
n
{Log[L(x1, x2, ...., xn; )]}

=
i=1
 1 f(xi; )
 · =0
f(xi; )  
tras lo cual se resuelve el sistema de ecuaciones para .
Los estimadores de máxima verosimilitud poseen varias propiedades asintóticas

importantes que exponemos sin demostración1:
Son consistentes.
Son asintóticamente insesgados: a medida que el tamaño de la muestra se acerca a

infinito, la esperanza del estimador tiende al valor del parámetro. No obstante, pueden
ser sesgados para muestras finitas.
Son asintóticamente eficientes: ninguno de los estimadores asintóticamente insesgados

de un parámetro tendrá menor varianza en su distribución muestral.
Son asintóticamente normales: su distribución muestral tiende a la normalidad al tender

a infinito el tamaño de la muestra.
Si existe un estimador suficiente del parámetro, el estimador de máxima verosimilitud

será función de dicho estimador.
Según se desprende de las propiedades comentadas, los estimadores de máxima

verosimilitud se comportan adecuadamente con tamaños muestrales muy grandes, pero
no necesariamente si dichos tamaños son pequeños.
Método de mínimos cuadrados
1 Para una demostración de estas propiedades puede consultarse, por ejemplo, Cramér (1968)
4
Supongamos que un investigador desea ajustar los parámetros de un modelo del tipo:
y = X + 
siendo y un vector de n observaciones empíricas de la variable denominada “criterio”; X

una matriz, llamada de “diseño”, de n observaciones empíricas por k variables
“predictoras”;  un vector de n “residuales” que recoge todas las influencias sobre la
variable y no recogidas en el modelo, y  un vector de parámetros.
Asumiendo la independencia de los residuales, que E () = 0, VAR () = 2 y que  se

distribuye normalmente2, si denominamos b al estimador de , el método de los
mínimos cuadrados selecciona los valores de b que minimizan S (), definido como:
S() = |y - X|2 = [y - X]’ [y - X]
para ello derivamos con respecto a , e igualamos a cero las derivadas, obteniendo las
llamadas “ecuaciones normales”:
[X’X] b = X’y
de donde:
b = [X’X]-1[X’y]
Los estimadores por mínimos cuadrados presentan las siguientes características:
1. Insesgados:
E(b) = E{[X’X]-1[X’y]} = [X’X]-1 X’E(y) = [X’X]-1 X’E(Xb + ) =
= [X’X]-1 X’{E(Xb) + E() = [X’X]-1 X’X = 
2. De varianza mínima3:
Sea b el estimador de mínimos cuadrados de  y sea b* otro estimador lineal también

insesgado de .
Recordemos que
2 Para obtener los estimadores b no se requiere la suposición de normalidad de , sin embargo, este supuesto
se suele incluir para hacer posibles los contrastes que dependan de dicha suposición, como t de Student o F, o la
determinación de intervalos de confianza basados en dichas distribuciones. (Draper y Smith, 1981)
3 Esta característica constituye el Teorema de Markov
5
b = [X’X]-1[X’y]
y si hacemos S-1 = [X’X]-1, tendremos:
b = S-1X’y
Sea b la matriz de varianzas-covarianzas de b. Podemos escribir:
b = E{[b - ][b - ]’} = E{[ S-1X’y - ][ S-1X’y - ]’} =
= E[S-1X’yy’X S-1 - S-1X’yb’ - by’X S-1 + bb’] =
= S-1X’E[yy’]X S-1 - S-1X’E[y] ’ - E[y’]X S-1 + bb’
Ahora bien,
E[yy’] = E{[X + ][X + ]’} =
= E[X’X’ + ’X’ + Xb’ + ’]
y, puesto que en función de los supuestos asumidos
E[] = 0
E[’] = 2I
tenemos
E[yy’] = X’X’ + 2I
E[y] = X
E[y’] = ’X’
Por consiguiente,
b = S-1X’[X’X’ + 2I]X S-1 - S-1X’ X’ - ’X’X S-1 + ’ =
= ’ + 2 S-1X’X S-1- ’ - ’ + ’ = 2 S-1
Por otra parte, y puesto que b* es un estimador lineal, podremos escribir:
b* = Ay = [S-1X’ + B]y
6
E(b*) = E{[S-1X’ + B]y} = [S-1X’ + B]E[y] = [S-1X’ + B]X =
=  + BX.
y, puesto que el estimador es insesgado, tiene que ser
BX = 0
Sea b* la matriz de varianzas-covarianzas de b*. Tenemos:
b* = E{[b* - ][b* - ]’} =
= E{[[S-1X’ + B][X + ] - ][[S-1X’ + B][X + ] - ]’} =
= E{[S-1X’X + S-1X’ + BX + B - ][S-1X’X + S-1X’ + BX +
+ B - ]’} =
= E{[S-1X’ + B][S-1X’ + B]’} =
= E{S-1X’’XS-1 + B’XS-1 + S-1X’’B’ + B’B’} =
= S-1X’E[’]XS-1 + BE[’]XS-1 + S-1X’E[’]B’ + BE[’]B’ =
= 2S-1X’XS-1 + 2BXS-1 + 2S-1X’B’ + 2BB’ =
= 2S-1 + 2BB’ = 2[S-1 + BB’]
Puesto que los elementos de la diagonal principal de BB’ son sumas cuadráticas, serán
siempre positivos, con lo que los elementos de la diagonal principal de 2[S-1 + BB’],
que constituyen la varianza de b*, serán siempre mayores que los elementos de la
diagonal principal de 2S-1, que constituyen la varianza de b, salvo, naturalmente, que B
sea cero, en cuyo caso b* = b.
3. Son estimadores máximo-verosímiles (bajo los supuestos asumidos):
La función de verosimilitud para la muestra Y bajo los supuestos asumidos es:
 2
 -i 
n
 -’
1 1
L(Y; ) = ·exp 2 = n n/2·exp 2
 2 2   (2)  2 
i=1
7
y, puesto que minimizar ’ equivale a maximizar L(Y; ), queda demostrada la propiedad.
Método general para construir intervalos de confianza4

Consideremos una población con función de densidad de probabilidad f(x;). Con
muestras de tamaño n empleamos como estimador de  una función de las
observaciones que denominaremos b(x1, x2, ...xn). Supongamos que hemos determinado
la función de densidad del estimador y que viene dada por g(b;). Finalmente,
supongamos que el campo de variación de b es (- < b < ).
Queremos obtener el intervalo de confianza de tamaño 1 - , para lo que necesitamos

determinar dos valores h1 y h2 tales que:
P[h1 < b  h2] = 1 - 
h2

 g(b;)db = 1 - 
h1
o, alternativamente,
h1


 g(b;)d b = 2
-



 g(b;))db = 2
h2
Los valores h1 y h2 dependen explícitamente de , por lo que podemos escribir h1 = h1() y

h2 = h2(), por lo que:
P[h1() < b  h2()] = 1 - 
Para obtener el intervalo de confianza de tamaño  para , representaremos

gráficamente h1 y h2 tal como se muestra en la figura adjunta. Hecho esto obtenemos
una muestra de tamaño n y calculamos el valor de b. Supongamos que el valor obtenido
4 Tomado de Arnaiz (1986)
8
es b1; por el punto de ordenada b1 trazamos una recta paralela al eje de abscisas que
cortará a h1() y h2() en los puntos P y Q. Proyectando estos puntos sobre el eje de
abscisas obtendremos unos valores [1 y  2] que delimitan el intervalo de confianza.
h2()
h1()
S
P Q
1  2
A fin de justificar el procedimiento, supongamos que  es el verdadero valor del

parámetro. Tenemos una probabilidad 1 -  de que los valores b obtenidos con muestras
de tamaño n caigan entre R’ y S’. Si a cada valor de b le hacemos corresponder una
recta horizontal trazada por b, vemos que siempre que R’ < b < S’, la recta horizontal
corta a la vertical trazada por  entre los puntos R y S, limitados por las dos curvas y
entonces el segmento aleatorio determinado por la recta horizontal abarca el verdadero
valor de .
Hemos llegado, pues, a la siguiente cadena de igualdades: Si  es el verdadero valor del

parámetro
P[R’ < b < S’] = 1 - 
P[R’ < b < S’] = probabilidad de que la recta horizontal trazada por b corte a la vertical
trazada por  entre las dos curvas = probabilidad de que el segmento horizontal
determinado por las dos curvas abarque a  = 1 - .
Una vez obtenido el valor de b1 la recta horizontal cortará a la vertical que pasa por el
verdadero valor de , entre las dos curvas o fuera de las dos curvas, pero como antes de
realizar el experimento teníamos una probabilidad 1 -  de que la cortara entre dos
curvas, ahora tenemos una confianza 1 -  de que la habrá cortado y, por lo tanto, como
9
la recta horizontal determina el intervalo (1; 2) tendremos una confianza 1 -  de que
ese intervalo abarque el verdadero valor de .
En cualquier caso, recordemos que la llamada “precisión de la estimación” del

parámetro, es un concepto probabilístico y siempre está supeditado a la aplicabilidad del
modelo matemático de distribución muestral del estadístico elegido.
Ejemplo
Supongamos, como ejemplo de lo expuesto, que queremos estimar  usando como

2
estimador x- con una confianza de 0.95; sea la varianza poblacional x conocida. En esta
situación tendremos que
x
h1() = x- + 1,96·
n
x
h2() = x- - 1,96·
n
Una vez seleccionada una muestra de tamaño n, calcularemos x-, valor que sustituiremos
en h1() y h2() (equivalente algebraico de la proyección geométrica), obteniendo los
límites del intervalo de confianza del 95%.
10

Estimación de Parámetros 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimación de Parámetros 1

Cargado por

Copyright:

Formatos disponibles

Master en Metodología de las Ciencias del Comportamiento y de la Salud

COMPLEMENTOS: ESTIMACIÓN DE PARÁMETROS

Dra. C. San Luis

Concepto de Sesgo: Estimador de la varianza

[(xi- )( - x-)]=

i=1 i=1 i=1

siendo el sesgo, como vemos,

f(b; ) = f(h(z); ) = f*(z; )

luego, podremos escribir:

F(x; ) = g(x) f*(z; )

Por consiguiente, si z es función de k, siendo k un estadístico suficiente, también z será

Hemos descompuesto la función de densidad de probabilidad conjunta original en dos

Método de la máxima verosimilitud

Lo que pretende el método de máxima verosimilitud es encontrar el valor de  que

Dado que el logaritmo de L se maximiza para el mismo valor que L, es frecuente

Puesto que el objetivo es encontrar el valor de  que maximice la función, derivaremos

tras lo cual se resuelve el sistema de ecuaciones para .

Los estimadores de máxima verosimilitud poseen varias propiedades asintóticas

Son asintóticamente insesgados: a medida que el tamaño de la muestra se acerca a

Son asintóticamente eficientes: ninguno de los estimadores asintóticamente insesgados

Son asintóticamente normales: su distribución muestral tiende a la normalidad al tender

Si existe un estimador suficiente del parámetro, el estimador de máxima verosimilitud

Según se desprende de las propiedades comentadas, los estimadores de máxima

Método de mínimos cuadrados

siendo y un vector de n observaciones empíricas de la variable denominada “criterio”; X

Asumiendo la independencia de los residuales, que E () = 0, VAR () = 2 y que  se

S() = |y - X|2 = [y - X]’ [y - X]

Los estimadores por mínimos cuadrados presentan las siguientes características:

E(b) = E{[X’X]-1[X’y]} = [X’X]-1 X’E(y) = [X’X]-1 X’E(Xb + ) =

= [X’X]-1 X’{E(Xb) + E() = [X’X]-1 X’X = 

Sea b el estimador de mínimos cuadrados de  y sea b* otro estimador lineal también

3 Esta característica constituye el Teorema de Markov

y si hacemos S-1 = [X’X]-1, tendremos:

Sea b la matriz de varianzas-covarianzas de b. Podemos escribir:

b = E{[b - ][b - ]’} = E{[ S-1X’y - ][ S-1X’y - ]’} =

= E[S-1X’yy’X S-1 - S-1X’yb’ - by’X S-1 + bb’] =

= S-1X’E[yy’]X S-1 - S-1X’E[y] ’ - E[y’]X S-1 + bb’

E[yy’] = E{[X + ][X + ]’} =

= E[X’X’ + ’X’ + Xb’ + ’]

y, puesto que en función de los supuestos asumidos

E[yy’] = X’X’ + 2I

b = S-1X’[X’X’ + 2I]X S-1 - S-1X’ X’ - ’X’X S-1 + ’ =

= ’ + 2 S-1X’X S-1- ’ - ’ + ’ = 2 S-1

Por otra parte, y puesto que b* es un estimador lineal, podremos escribir:

E(b*) = E{[S-1X’ + B]y} = [S-1X’ + B]E[y] = [S-1X’ + B]X =

y, puesto que el estimador es insesgado, tiene que ser

Sea b* la matriz de varianzas-covarianzas de b*. Tenemos:

b* = E{[b* - ][b* - ]’} =

= E{[[S-1X’ + B][X + ] - ][[S-1X’ + B][X + ] - ]’} =

= E{[S-1X’X + S-1X’ + BX + B - ][S-1X’X + S-1X’ + BX +

= E{[S-1X’ + B][S-1X’ + B]’} =

= E{S-1X’’XS-1 + B’XS-1 + S-1X’’B’ + B’B’} =

= S-1X’E[’]XS-1 + BE[’]XS-1 + S-1X’E[’]B’ + BE[’]B’ =

= 2S-1X’XS-1 + 2BXS-1 + 2S-1X’B’ + 2BB’ =

= 2S-1 + 2BB’ = 2[S-1 + BB’]

3. Son estimadores máximo-verosímiles (bajo los supuestos asumidos):

La función de verosimilitud para la muestra Y bajo los supuestos asumidos es:

Método general para construir intervalos de confianza4

Queremos obtener el intervalo de confianza de tamaño 1 - , para lo que necesitamos

P[h1 < b  h2] = 1 - 

Los valores h1 y h2 dependen explícitamente de , por lo que podemos escribir h1 = h1() y

P[h1() < b  h2()] = 1 - 

Para obtener el intervalo de confianza de tamaño  para , representaremos