Está en la página 1de 10

Master en Metodología de las Ciencias del Comportamiento y de la Salud

COMPLEMENTOS: ESTIMACIÓN DE PARÁMETROS

Dra. C. San Luis

Concepto de Sesgo: Estimador de la varianza

n n
 2 1
Esx = n ·E(xi- x-)2 = n ·E(xi-  +  - x-)2 =
1
i=1 i=1

n
1

= n ·E [(xi- ) + ( - x-)]2 =
i=1

n
1

= n ·E [(xi- )2 + ( - x-)2 + 2(xi- )( - x-)]=
i=1

 n 
1 n
= n ·E(xi- ) + n( - x) + 2 (xi- )( - x)
2 - 2 -
 
i=1 i=1

Ahora bien,

[(xi- )( - x-)]=


i=1

n
= ( xi - 2 - x-xi + x-) = xi - n2 - x-xi + nx- =
n n

i=1 i=1 i=1

= nx- - n2 - nx-2 + nx- = 2nx- - n2 - nx-2 = -n(2 + x-2 - 2x-) =

= -n( - x-)2

luego,

n 
 2 1  2
Esx = n ·E (xi- ) + n( - x) - 2 n( - x) =
2 - 2 -
i=1 
 

1
Master en Metodología de las Ciencias del Comportamiento y de la Salud

1  n  1 n
2
= n ·E (xi- ) - n( - x) = n ·E(xi- )2 – E( - x-)2
2 -
i=1 
  i=1

pero,

1 n 1 2 2
n · E(xi- )2 = n ·n·x = x
i=1

2
N - n x
E( - x-)2 = E(x- - )2 = VAR(x-) = N - 1· n

luego,

2

 2 2 N-n x
Esx = x - N - 1· n

siendo el sesgo, como vemos,

2 N-n
b() = x·n(N - 1)

Suficiencia de un Estimador
Si, siendo b un estadístico suficiente para , definimos un nuevo estadístico z
función de b, z = (b), donde  tiene una inversa única, h, podremos expresar b = h(z)
y, por tanto,

f(b; ) = f(h(z); ) = f*(z; )

luego, podremos escribir:

F(x; ) = g(x) f*(z; )

Por consiguiente, si z es función de k, siendo k un estadístico suficiente, también z será


un estadístico suficiente para .
Veamos, como ejemplo, si x- es un estimador suficiente para , siendo X una variable
2
distribuida normalmente en la población con varianza x:

2
Master en Metodología de las Ciencias del Comportamiento y de la Salud

(x - ) 
n
i
2

·exp =
i=1
1
F(x;) =
 2
 -2x 
x
2

 -1  n 2 2 n 
·exp 2xi + n - 2xi =
1
=
x 2
2x i=1 
i=1

 -1 n 2  -1  2 n 
·exp 2xi ·exp
1  xi
x 2  2n - 2
i=1 
2x i=1  2x 

Hemos descompuesto la función de densidad de probabilidad conjunta original en dos


factores: el primero independiente de  y el segundo dependiente de  y de 
n (xi).
i=1
Puesto que  n (xi) es un estadístico suficiente para , también lo será la media al ser
i=1
función de él.
Métodos de obtención de Estimadores

Método de la máxima verosimilitud

Sean x1, x2, ...., xn una muestra aleatoria simple de una población cuya función de
densidad de probabilidad es f(x; ). Si suponemos que cada uno de los valores x1, x2,
...., xn es la realización concreta de una serie de variables aleatorias X1, X2, ...., Xn
independientes entre sí, tendremos que la función de densidad de probabilidad conjunta,
llamada función de verosimilitud, vendrá dada por:

n
L(x1, x2, ...., xn; ) = (f(x1; )f(x2; )…f(xn; ) = f(xi; )
i=1

Lo que pretende el método de máxima verosimilitud es encontrar el valor de  que


maximice la función de verosimilitud; es decir, seleccionar aquel valor del parámetro
que posea como propiedad el maximizar el valor de la probabilidad de la muestra
aleatoria observada.

Dado que el logaritmo de L se maximiza para el mismo valor que L, es frecuente


simplificar la función tomando logaritmos. Tendremos entonces que:

3
Master en Metodología de las Ciencias del Comportamiento y de la Salud

n
Log[L(x1, x2, ...., xn; )] = log[f(xi; )]
i=1

Puesto que el objetivo es encontrar el valor de  que maximice la función, derivaremos


ésta con respecto a  e igualaremos a 0, quedando:

n
{Log[L(x1, x2, ...., xn; )]}

=
i=1
 1 f(xi; )
 · =0
f(xi; )  

tras lo cual se resuelve el sistema de ecuaciones para .

Los estimadores de máxima verosimilitud poseen varias propiedades asintóticas


importantes que exponemos sin demostración1:

Son consistentes.

Son asintóticamente insesgados: a medida que el tamaño de la muestra se acerca a


infinito, la esperanza del estimador tiende al valor del parámetro. No obstante, pueden
ser sesgados para muestras finitas.

Son asintóticamente eficientes: ninguno de los estimadores asintóticamente insesgados


de un parámetro tendrá menor varianza en su distribución muestral.

Son asintóticamente normales: su distribución muestral tiende a la normalidad al tender


a infinito el tamaño de la muestra.

Si existe un estimador suficiente del parámetro, el estimador de máxima verosimilitud


será función de dicho estimador.

Según se desprende de las propiedades comentadas, los estimadores de máxima


verosimilitud se comportan adecuadamente con tamaños muestrales muy grandes, pero
no necesariamente si dichos tamaños son pequeños.

Método de mínimos cuadrados

1 Para una demostración de estas propiedades puede consultarse, por ejemplo, Cramér (1968)

4
Master en Metodología de las Ciencias del Comportamiento y de la Salud

Supongamos que un investigador desea ajustar los parámetros de un modelo del tipo:

y = X + 

siendo y un vector de n observaciones empíricas de la variable denominada “criterio”; X


una matriz, llamada de “diseño”, de n observaciones empíricas por k variables
“predictoras”;  un vector de n “residuales” que recoge todas las influencias sobre la
variable y no recogidas en el modelo, y  un vector de parámetros.

Asumiendo la independencia de los residuales, que E () = 0, VAR () = 2 y que  se


distribuye normalmente2, si denominamos b al estimador de , el método de los
mínimos cuadrados selecciona los valores de b que minimizan S (), definido como:

S() = |y - X|2 = [y - X]’ [y - X]

para ello derivamos con respecto a , e igualamos a cero las derivadas, obteniendo las
llamadas “ecuaciones normales”:

[X’X] b = X’y

de donde:

b = [X’X]-1[X’y]

Los estimadores por mínimos cuadrados presentan las siguientes características:

1. Insesgados:

E(b) = E{[X’X]-1[X’y]} = [X’X]-1 X’E(y) = [X’X]-1 X’E(Xb + ) =

= [X’X]-1 X’{E(Xb) + E() = [X’X]-1 X’X = 

2. De varianza mínima3:

Sea b el estimador de mínimos cuadrados de  y sea b* otro estimador lineal también


insesgado de .
Recordemos que

2 Para obtener los estimadores b no se requiere la suposición de normalidad de , sin embargo, este supuesto

se suele incluir para hacer posibles los contrastes que dependan de dicha suposición, como t de Student o F, o la
determinación de intervalos de confianza basados en dichas distribuciones. (Draper y Smith, 1981)

3 Esta característica constituye el Teorema de Markov

5
Master en Metodología de las Ciencias del Comportamiento y de la Salud

b = [X’X]-1[X’y]

y si hacemos S-1 = [X’X]-1, tendremos:

b = S-1X’y

Sea b la matriz de varianzas-covarianzas de b. Podemos escribir:

b = E{[b - ][b - ]’} = E{[ S-1X’y - ][ S-1X’y - ]’} =

= E[S-1X’yy’X S-1 - S-1X’yb’ - by’X S-1 + bb’] =

= S-1X’E[yy’]X S-1 - S-1X’E[y] ’ - E[y’]X S-1 + bb’

Ahora bien,

E[yy’] = E{[X + ][X + ]’} =

= E[X’X’ + ’X’ + Xb’ + ’]

y, puesto que en función de los supuestos asumidos

E[] = 0

E[’] = 2I

tenemos

E[yy’] = X’X’ + 2I

E[y] = X

E[y’] = ’X’

Por consiguiente,

b = S-1X’[X’X’ + 2I]X S-1 - S-1X’ X’ - ’X’X S-1 + ’ =

= ’ + 2 S-1X’X S-1- ’ - ’ + ’ = 2 S-1

Por otra parte, y puesto que b* es un estimador lineal, podremos escribir:

b* = Ay = [S-1X’ + B]y

6
Master en Metodología de las Ciencias del Comportamiento y de la Salud

E(b*) = E{[S-1X’ + B]y} = [S-1X’ + B]E[y] = [S-1X’ + B]X =

=  + BX.

y, puesto que el estimador es insesgado, tiene que ser

BX = 0

Sea b* la matriz de varianzas-covarianzas de b*. Tenemos:

b* = E{[b* - ][b* - ]’} =

= E{[[S-1X’ + B][X + ] - ][[S-1X’ + B][X + ] - ]’} =

= E{[S-1X’X + S-1X’ + BX + B - ][S-1X’X + S-1X’ + BX +

+ B - ]’} =

= E{[S-1X’ + B][S-1X’ + B]’} =

= E{S-1X’’XS-1 + B’XS-1 + S-1X’’B’ + B’B’} =

= S-1X’E[’]XS-1 + BE[’]XS-1 + S-1X’E[’]B’ + BE[’]B’ =

= 2S-1X’XS-1 + 2BXS-1 + 2S-1X’B’ + 2BB’ =

= 2S-1 + 2BB’ = 2[S-1 + BB’]

Puesto que los elementos de la diagonal principal de BB’ son sumas cuadráticas, serán
siempre positivos, con lo que los elementos de la diagonal principal de 2[S-1 + BB’],
que constituyen la varianza de b*, serán siempre mayores que los elementos de la
diagonal principal de 2S-1, que constituyen la varianza de b, salvo, naturalmente, que B
sea cero, en cuyo caso b* = b.

3. Son estimadores máximo-verosímiles (bajo los supuestos asumidos):

La función de verosimilitud para la muestra Y bajo los supuestos asumidos es:

 2
 -i 
n

 -’
1 1
L(Y; ) = ·exp 2 = n n/2·exp 2
 2 2   (2)  2 
i=1

7
Master en Metodología de las Ciencias del Comportamiento y de la Salud

y, puesto que minimizar ’ equivale a maximizar L(Y; ), queda demostrada la propiedad.

Método general para construir intervalos de confianza4


Consideremos una población con función de densidad de probabilidad f(x;). Con
muestras de tamaño n empleamos como estimador de  una función de las
observaciones que denominaremos b(x1, x2, ...xn). Supongamos que hemos determinado
la función de densidad del estimador y que viene dada por g(b;). Finalmente,
supongamos que el campo de variación de b es (- < b < ).

Queremos obtener el intervalo de confianza de tamaño 1 - , para lo que necesitamos


determinar dos valores h1 y h2 tales que:

P[h1 < b  h2] = 1 - 

h2

 g(b;)db = 1 - 
h1

o, alternativamente,

h1


 g(b;)d b = 2
-




 g(b;))db = 2
h2

Los valores h1 y h2 dependen explícitamente de , por lo que podemos escribir h1 = h1() y


h2 = h2(), por lo que:

P[h1() < b  h2()] = 1 - 

Para obtener el intervalo de confianza de tamaño  para , representaremos


gráficamente h1 y h2 tal como se muestra en la figura adjunta. Hecho esto obtenemos
una muestra de tamaño n y calculamos el valor de b. Supongamos que el valor obtenido

4 Tomado de Arnaiz (1986)

8
Master en Metodología de las Ciencias del Comportamiento y de la Salud

es b1; por el punto de ordenada b1 trazamos una recta paralela al eje de abscisas que
cortará a h1() y h2() en los puntos P y Q. Proyectando estos puntos sobre el eje de
abscisas obtendremos unos valores [1 y  2] que delimitan el intervalo de confianza.

h2()
h1()
S

P Q

1  2

A fin de justificar el procedimiento, supongamos que  es el verdadero valor del


parámetro. Tenemos una probabilidad 1 -  de que los valores b obtenidos con muestras
de tamaño n caigan entre R’ y S’. Si a cada valor de b le hacemos corresponder una
recta horizontal trazada por b, vemos que siempre que R’ < b < S’, la recta horizontal
corta a la vertical trazada por  entre los puntos R y S, limitados por las dos curvas y
entonces el segmento aleatorio determinado por la recta horizontal abarca el verdadero
valor de .

Hemos llegado, pues, a la siguiente cadena de igualdades: Si  es el verdadero valor del


parámetro

P[R’ < b < S’] = 1 - 

P[R’ < b < S’] = probabilidad de que la recta horizontal trazada por b corte a la vertical
trazada por  entre las dos curvas = probabilidad de que el segmento horizontal
determinado por las dos curvas abarque a  = 1 - .

Una vez obtenido el valor de b1 la recta horizontal cortará a la vertical que pasa por el
verdadero valor de , entre las dos curvas o fuera de las dos curvas, pero como antes de
realizar el experimento teníamos una probabilidad 1 -  de que la cortara entre dos
curvas, ahora tenemos una confianza 1 -  de que la habrá cortado y, por lo tanto, como

9
Master en Metodología de las Ciencias del Comportamiento y de la Salud

la recta horizontal determina el intervalo (1; 2) tendremos una confianza 1 -  de que
ese intervalo abarque el verdadero valor de .

En cualquier caso, recordemos que la llamada “precisión de la estimación” del


parámetro, es un concepto probabilístico y siempre está supeditado a la aplicabilidad del
modelo matemático de distribución muestral del estadístico elegido.

Ejemplo

Supongamos, como ejemplo de lo expuesto, que queremos estimar  usando como


2
estimador x- con una confianza de 0.95; sea la varianza poblacional x conocida. En esta

situación tendremos que

x
h1() = x- + 1,96·
n

x
h2() = x- - 1,96·
n

Una vez seleccionada una muestra de tamaño n, calcularemos x-, valor que sustituiremos
en h1() y h2() (equivalente algebraico de la proyección geométrica), obteniendo los
límites del intervalo de confianza del 95%.

10

También podría gustarte