Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tesis Final
Tesis Final
net/publication/266558111
CITATIONS READS
0 413
1 author:
SEE PROFILE
All content following this page was uploaded by Lilian Muñiz Alvarez on 07 October 2014.
TT EE SS II SS D
D EE M
MAA EE SS TT RR ÍÍ A
A
““EEssttiim
maac
ciió
ónn d
deep
paarrá
ámme
ettrro
oss b
baassa
adda
aeenn lla
a
ffuunnc
ciió
ónn d
dee vve
erro
ossiim
miilliittuud
d ssuua
avviizza
adda
a””
A
AUUTTO
ORRA
A:: LLiicc.. LLiilliia
ann M
Muuññiizz A
Allvva
arreezz
TTUUTTO
ORR:: D
Drr.. RRoolla
annd
doo JJ.. BBiisscca
ayy LLiirriioo
C
Ciiuuddaadd ddee LLaa H
Haabbaannaa,,
JJuunniioo,, 22000066
Agradecimientos
A mis amigos más cercanos, por su cariño, por acompañarme en estos cinco
años,
Introducción 2
Conclusiones 66
Bibliografía 68
1
Introducción
Antecedentes y motivación
2
En tales situaciones se utilizan enfoques alternativos que constituyen modificaciones del en-
foque de verosimilitud. Los principales pueden resumirse del modo siguiente:
a) En el caso de modelos que comprenden submodelos regulares de varias dimensiones, usual-
mente se aplican primero técnicas de selección de modelos, y posteriormente se realiza la infe-
rencia basada en verosimilitud para el modelo seleccionado. La selección suele hacerse mediante
criterios informacionales (como AIC; ver [2], y bibliografía citada allí) o criterios de remuestreo
(ver por ejemplo [10]).
b) Otro enfoque alternativo de gran generalidad es el de verosimilitud penalizada. Este se
basa en sustituir la función de verosimilitud por la función consistente en la adición de la log-
verosimilitud y un término de penalización [12]. Ello conduce a estimadores de máxima verosi-
militud penalizada, que incluyen a los estimadores Bayesianos MAP como caso particular [3].
El término de penalización es típicamente ponderado mediante un hiper-parámetro no negativo,
que suele seleccionarse mediante criterios de remuestreo o informacionales.
A pesar de sus virtudes, estos enfoques alternativos tienen también algunos inconvenientes.
En el enfoque (a), la inferencia se desintegra en una fase de selección de modelos e hiper-
parámetros y otra posterior fase de estimación y prueba de hipótesis (clásicas) dentro del modelo
seleccionado. En esta última fase se suele ignorar la incertidumbre estadística derivada de las
decisiones tomadas en la primera fase.
El enfoque (b) requiere de la especificación de un funcional de penalización sobre el espacio de
parámetros, lo que eventualmente puede resultar engorroso y frecuentemente se realiza por parte
del investigador mediante criterios más o menos arbitrarios ajenos a la divergencia Kullback-
Leibler (e.g., diversas medidas de complejidad o suavidad del modelo).
En el presente trabajo de tesis se presenta y estudia una modificación de la función de log-
verosimilitud (que llamamos función de log-verosimilitud suavizada) con el propósito de encarar
las situaciones descritas. Lo esencial del nuevo enfoque puede describirse brevemente del modo
siguiente. Los enfoques (a) y (b) mencionados, al minimizar la divergencia de Kullback-Leibler
D (fn , f (·; θ)), evitan el fenómeno de sobreajuste imponiendo restricciones sobre el conjunto
de valores posibles del parámetro. Alternativamente, el sobreajuste puede también evitarse im-
poniendo en esta minimización restricciones sobre la densidad empírica fn , en lugar de sobre el
parámetro θ; por ejemplo, sustituyendo la densidad empírica por una versión suavizada fλ , de
modo que el problema de estimación se convierta en minimizar el funcional D (fλ , f (·; θ)). Esta
es la idea clave de la función de log-verosimilitud suavizada. Más específicamente, (salvo cambio
3
de signo y una constante aditiva) la función de log-verosimilitud suavizada es definida como la
divergencia Kullback-Leibler de la densidad del modelo con respecto a un suavizamiento (por
núcleo) de la distribución empírica de los datos.
Conviene resaltar que el propósito del enfoque de verosimilitud suavizada no es lograr una
mejora estadística con respecto al enfoque de verosimilitud penalizada. Este último resulta muy
eficiente cuando el funcional de penalización es adecuado. El interés principal del nuevo enfoque
es ofrecer una alternativa flexible y simple que no requiera de la especificación de funcionales de
penalización. La situación aquí es análoga a la existente en la teoría de estimación no paramétrica
de densidades. En efecto, el problema de estimar no paramétricamente una función de densidad a
partir de una muestra puede tratarse como un problema de regularización asociado a un término
de ajuste y un término de penalización convenientes (ver [12], [28]). Pero ello requiere de la
elección de un funcional de penalización y de la resolución del complejo problema variacional
correspondiente. Alternativamente, es sabido que los estimadores por núcleos ofrecen un método
flexible y simple de estimación de densidades sin necesidad de especificar una penalización (ver
[20], [21], [7]).
En general, el énfasis de nuestra investigación se orienta a la introducción del nuevo enfoque,
la elaboración de métodos de estimación basados en él y la evaluación mediante simulaciones de
sus bondades y factibilidad. Más precisamente, los objetivos y la estructura del presente trabajo
son los siguientes.
Objetivos
4
Estructura de la Tesis
5
Capítulo 1
La función de log-verosimilitud
suavizada para observaciones iid
6
La entropía de la densidad f (·; θ0 ) se define como:
Z
H (f (·; θ0 )) = − f (z; θ0 ) ln f (z; θ 0 )dz.
Luego mientras mayor sea el valor de S(f (·; θ0 ), f (·; θ)), más parecida es la función de den-
sidad f (.; θ) a la función de densidad f (·; θ 0 ). De ahí el nombre de “similitud”.
Dada una muestra aleatoria de n observaciones independientes e igualmente distribuidas
x = (x1 , ..., xn ) ∈ X n de la distribución con densidad f (.; θ 0 ), la función de log-verosimilitud es:
X
n
l (θ) = l (θ; x) = ln f (xi ; θ). (1.3)
i=1
Puede obtenerse una versión empírica de la divergencia de KL D(f (·; θ0 ), f (·; θ)) mediante
la sustitución de f (·; θ0 ) por la densidad empírica fn de la muestra, es decir, la asociada a la
distribución discreta que asigna masa 1/n a cada una de las observaciones xi , i = 1, ..., n. O sea,
1X
n
D(fn , f (·; θ)) = − ln f (xi ; θ) − H (fn ) .
n i=1
7
Esta constante multiplicativa no afecta al cálculo de los estimadores máximo verosímiles ni a
la determinación de las regiones de verosimilitud. Luego, salvo cambio de signo y constantes
aditiva y multiplicativa, la función de log-verosimilitud es una versión empírica de la divergencia
de Kullback-Leibler (1.1). Más precisamente, es la similitud de KL (1.2) de una densidad del
modelo con respecto a la medida de probabilidad empírica de los datos:
Z
1X
n
1 1
l (θ) = l (θ; x) = ln f (xi ; θ) = fn (z) ln f (z; θ)dz =S (fn , f (·; θ)) .
n n n i=1
donde x = (x1 , ..., xn ) y fλ es una estimación no paramétrica por núcleo de la densidad f (.; θ0 ).
O sea,
1X
n
fλ (z) = Kλ (z − xi ) . (1.5)
n i=1
Aquí
1 ³u´
Kλ (u) = d K ,
λ λ
y el núcleo K es una función de densidad sobre X (o sea, no negativa y cuya integral es uno).
Supondremos además que K es siempre simétrica con respecto al cero. El parámetro no negativo
λ es llamado ancho del núcleo.
8
Amplia información sobre la teoría de estimadores de densidades por núcleos puede consul-
tarse en [29], [20], [21] y [7].
Nótese que:
a) Salvo cambio de signo y una constante aditiva, la función de log-verosimilitud suavizada
lλ (θ) es la divergencia de KL (1.1) de f (.; θ) con respecto al suavizamiento por núcleo fλ de la
distribución empírica de los datos. O también, lλ (θ) es la similitud de KL (1.2) de f (·; θ) con
respecto al suavizamiento por núcleo fλ ; es decir, lλ (θ) = S (fλ , f (·; θ)).
b) Como demostraremos más adelante, lλ (θ) contiene a la función de log-verosimilitud clásica
(1.3) como caso particular cuando el ancho λ tiende a cero.
c) El suavizamiento por núcleo (1.5) involucrado en la definición de lλ (θ) es un suavizamiento
con respecto a los datos, no con respecto al parámetro.
Esta última característica es más evidente a partir de la relación
fλ (z) = Kλ ∗ fn (z) ,
9
1.2. Estimadores de máxima verosimilitud suavizada
Mediante la maximización con respecto a θ de la función de log-verosimilitud (1.3) se obtiene,
b de θ0 . Análogamente, maximizando la función
como es sabido, el estimador máximo verosímil θ
de log-verosimilitud suavizada (1.4) definiremos el estimador de máxima verosimilitud suavizada
bλ de θ0 .
θ
bλ de θ0 se define
Definición 1.2.1 El estimador de máxima verosimilitud suavizada θ
como: Z
bλ = arg máx {lλ (θ; x)} = arg máx
θ fλ (z) ln f (z; θ) dz,
θ θ
10
donde Z
b(i)
θ = arg máx
(i)
fλ (z) ln f (z; θ) dz,
λ
θ
(i)
y fλ es la estimación por núcleo de f (·; θ 0 ) basada en todos los datos menos xi .
Nótese que (1.6) es una manera de hallar λ de modo que se maximice la log-verosimilitud de
los datos en un sentido predictivo. Además, este criterio tiene en cuenta la forma del modelo. Si
el modelo es muy “grande” en comparación con la cantidad de datos y λ es pequeño entonces
b(i) tenderá a predecir mal el dato xi .
tenderá a ocurrir sobreajuste, y por tanto cada estimación θ λ
Proposición 1.4.1 Supongamos que el núcleo K es una función de densidad que satisface:
Supongamos además que ln f (z; θ) es continua respecto a z y que para todo i = 1, ..., n,
Z
Kλ (z − xi ) ln f (z; θ) dz −→ 0 (1.9)
M→∞
kzk>M
1
lλ (θ; x) −→ l (θ; x) .
λ→0 n
11
Demostración
¡ ¢
Es sabido que para toda función g ∈ L1 Rd continua en u, bajo las condiciones (1.7) y (1.8)
se cumple que: Z
Kλ (z − u) g (z) dz−→g (u) .
λ→0
Entonces para todo M > máx {kx1 k , ..., kxn k} y θ ∈ Θ se tiene que:
Z
Kλ (z − xi ) gM (z) dz−→gM (xi ) = ln f (xi ; θ) .
λ→0
El siguiente Lema será muy utilizado en este trabajo. Puede encontrarse en [17].
Lema 1.4.1 Si f (·;µ1 , σ 21 ) y f (·;µ2 , σ 22 ) son las funciones de densidad de dos distribuciones
Gaussianas univariadas N (µ1 , σ 21 ) y N (µ2 , σ 22 ) respectivamente, entonces la función de similitud
de KL de f (·;µ2 , σ 22 ) con respecto a f (·;µ1 , σ 21 ) es:
µ ¶
¡ ¡ ¢ ¡ ¢¢ 1 1 £ ¤
2 2
S f ·;µ1 , σ 1 , f ·;µ2 , σ 2 = ln √ − 2 σ 21 + (µ1 − µ2 )2 .
2πσ 2 2σ 2
Demostración
Denotemos por E(µ1 ,σ2 ) el valor esperado con respecto a f (·;µ1 , σ 21 ). Entonces se tiene que:
1
12
Z
¡ ¡ ¢ ¡ ¢¢ ¡ ¢ ¡ ¢
S f ·;µ1 , σ 21 , f ·;µ2 , σ 22 = f z; µ1 , σ 21 ln f z;µ2 , σ 22 dz
¡ ¡ ¢¢
= E(µ1 ,σ2 ) ln f Z;µ2 , σ 22
1
· µ ¶¸
1 1 £ ¤
= E(µ1 ,σ2 ) ln √ − 2 E(µ1 ,σ2 ) (Z − µ2 )2
1
2πσ 2 2σ 2 1
µ ¶
1 1 £ ¤
= ln √ − 2 σ 21 + µ21 − 2µ2 µ1 + µ22
2πσ 2 2σ 2
µ ¶
1 1 £ ¤
= ln √ − 2 σ 21 + (µ1 − µ2 )2 .¥
2πσ 2 2σ 2
Como consecuencia del Lema 1.4.1 se tiene la siguiente propiedad de la función de log-
verosimilitud suavizada.
Proposición 1.4.2 Si un modelo estadístico está formado por funciones de densidad sobre X =R
correspondientes a distribuciones Gaussianas univariadas N (µ, σ 2 ), y se supone además que en
la definición 1.1.2 el núcleo K es la densidad N (0, 1), entonces la función de log-verosimilitud
suavizada correspondiente al modelo es:
n · µ ¶ ¸
¡ 2
¢ 1X 1 1 ¡ 2 2¢
lλ µ, σ ; x = ln √ − 2 λ + (xi − µ) ,
n i=1 2πσ 2σ
Demostración
De la expresión (1.4) de lλ se tiene que en este caso particular:
Z
¡ 2
¢ 1X n
¡ ¢
lλ (θ; x) = lλ µ, σ ; x = Kλ (z − xi ) ln f z;µ, σ 2 dz,
n i=1
n · µ ¶ ¸
¡ 2
¢ 1X 1 1 ¡ 2 2¢
lλ µ, σ ; x = ln √ − 2 λ + (xi − µ) .¥
n i=1 2πσ 2σ
13
Capítulo 2
X
m
f (·; θ) = f (·; ξ, π) = πj fξ j (·) , (2.1)
j=1
14
donde Π es el simplex formado por los puntos π = (π 1 , ..., π m ) tales que:
X
m
π j ≥ 0 ∀j = 1, ..., m y π j = 1,
j=1
¡ ¢m
Ξ = R × R∗+ , ξ = (ξ1 , ..., ξ m ), fξ j (·) es la densidad Gaussiana de parámetro ξ j = (µj , σ 2j ) y
m ≥ 2 es el número de componentes de la mezcla. El parámetro π j se dice la ponderación de
la densidad componente fξ j (·) de la mezcla. Supondremos que π j > 0 para todo j = 1, ..., m.
Llamaremos a f (·; θ0 ) la densidad mezcla y a los fξ j (·) (j = 1, ...m) las densidades compo-
nentes de la mezcla.
Supondremos además que se tiene una muestra x = (x1 , ..., xn ) de observaciones independien-
tes e igualmente distribuidas según la densidad f (·; θ 0 ), con θ 0 = (ξ0 , π0 ) ∈ Ξ × Π desconocido.
Existen diferentes enfoques para la estimación de los parámetros de este modelo (ver [18]),
como son estimadores de momentos, estimadores basados en distancias, etc. No obstante, el
enfoque basado en verosimilitud es el más usado.
La función de log-verosimilitud asociada a este modelo es:
Ãm !
X
n X
n X
l (θ) = ln f (xi ; θ) = ln π j fξ j (xi ) . (2.2)
i=1 i=1 j=1
15
Para remediar esta situación se ha propuesto en [16] maximizar la verosimilitud sujeto a la
restricción de que:
máx σ 2i /σ 2j ≤ C,
1≤i,j≤m
donde C es una constante fijada (por ejemplo, C = 0.25). Sin embargo, este método no es
consistente y se comporta mal cuando las verdaderas varianzas no satisfacen dicha restricción.
Por otra parte, diferentes métodos Bayesianos han sido propuestos para la estimación de este
modelo (ver e.g. [8], [26], y las referencias en estos artículos). Pero ninguno de los trabajos dentro
de enfoques Bayesianos ni frecuentistas ofrecen una solución al problema de la degeneración,
excepto [23] y [24]. En estos últimos artículos se introduce un enfoque basado en verosimilitud
penalizada. Su consistencia ha sido recientemente demostrada en [4]. Este método puede inter-
pretarse también como un método Bayesiano con una distribución previa para las varianzas σ2j
consistente en una distribución Gamma invertida. Una dificultad es que esta distribución previa
depende de dos parámetros α, β > 0, y no se ofrece un procedimiento para elegirlos en la práctica.
No se ha propuesto aún un método no Bayesiano para abordar el problema de degeneración
en el modelo de mezclas de densidades Gaussianas con varianzas distintas. En las siguientes
secciones aplicaremos el enfoque de verosimilitud suavizada como una alternativa frecuentista
para su solución.
Z Z " m #
X
lλ (θ) = lλ (θ; x) = fλ (z) ln f (z; θ) dz = fλ (z) ln π j fξ j (z) dz, (2.3)
j=1
16
La selección de λ puede hacerse como se propuso en el capítulo anterior según (1.6), tomando
ahora en particular la forma:
à m !
X
n ³ (i)
´ X
n X (i)
b = arg máx
λ b
ln f xi ;θ = arg máx ln bλ,j fbξ (i) (xi ) ,
π (2.4)
λ
λ λ λ,j
i=1 i=1 j=1
donde
Z Z Ãm !
³ (i) ´ X
= b
(i) (i) (i) (i)
θλ b λ = arg máx fλ (z) ln f (z; θ) dz = arg máx fλ (z) ln
ξλ , π π j fξ j (z) dz,
θ=(ξ,π) θ=(ξ,π) j=1
(i)
y fλ es la estimación por núcleo de la verdadera densidad f (.; θ0 ) basada en todos los datos
menos el xi .
¡ ¢
Q θ; θ0 /x = Eθ 0 (l (θ; Y) /x) . (2.5)
17
En general, el algoritmo iterativo EM consta de dos pasos en cada iteración k:
³ k−1
´
b
Paso E: Cálculo de Q θ; θ /x .
³ ´
Paso M: Maximización de Q θ; θ bk−1 /x con respecto a θ. Se toma:
k
³ k−1
´
b b
θ = arg máxQ θ; θ /x .
θ=(ξ,π)
b0 , θ
Con la iteración de este algoritmo se obtiene una sucesión de estimaciones θ b1 , θ
b2 , ... de
Y
n X
n
l (θ; y) = ln f (yi ; θ) = ln f (yi ; θ) ,
i=1 i=1
donde
O sea,
m ³
Y ´zij
f (yi ; θ) = fξj (xi ) π j .
j=1
18
Por tanto,
X
n m ³
Y ´zij
l (θ; y) = ln fξj (xi ) π j
i=1 j=1
X
n X
m ³ ´
= zij ln fξj (xi ) π j
i=1 j=1
X m h
n X i
= zij ln fξj (xi ) + zij ln π j
i=1 j=1
Xn X m · µ µ ¶¶ ¸
1 1 ¡ ¢2
= zij ln √ exp − 2 xi − µj + zij ln πj
i=1 j=1
2πσ j 2σ j
Xn X m µ ¶ X n X m
1 ¡ 2
¢ 1 ¡ ¢2
= zij − ln 2πσ j − 2 xi − µj + zij ln π j .
i=1 j=1
2 2σ j i=1 j=1
Luego el paso E del algoritmo EM clásico tiene en este modelo la forma específica:
³ ´
Q θ; θbk−1 /x = E k−1 (l (θ; Y) /x)
b
θ
Ã( n m µ ¶ X ) !
XX 1 ¡ ¢ 1 ¡ ¢2
n X m
= Eθb k−1 Zij − ln 2πσ 2j − 2 xi − µj + Zij ln π j /x
i=1 j=1
2 2σ j i=1 j=1
XX
n m µ ¶ XX
n m
1 ¡ ¢ 1 ¡ ¢2
= Eθb k−1 (Zij /x) − ln 2πσ 2j − 2 xi − µj + Eθb k−1 (Zij /x) ln π j , (2.6)
i=1 j=1
2 2σ j i=1 j=1
donde
³ k−1
´
b
f xi /zij = 1; θ Pθb k−1 (Zij = 1)
Eθb k−1 (Zij /x) = Pθb k−1 (Zij = 1/xi ) = ³ ´
f xi ; θbk−1
bk−1
π j fbξk−1 (xi )
j
= ,
X
m
blk−1 fbξk−1
π (xi )
l
l=1
k−1
³ k−1 ´
b
con θ b
= ξ ,π b k−1
.
Por otra parte, el paso M, consistente en la maximización con respecto a θ = (ξ, π) de
³ k−1
´ k
³ k ´
b b b
Q θ; θ /x , equivale a hallar las estimaciones θ = ξ , π b k
por solución del sistema de
ecuaciones obtenido al igualar a cero las primeras derivadas parciales de (2.6) con respecto a π
y ξ. Se obtiene finalmente para j = 1, ..., m que:
19
X
n X
n
zbijk−1 zbijk−1 xi
i=1 i=1
bkj =
π , bkj =
µ , (2.7)
X
m X
n Xn
zbijk−1 zbijk−1
j=1 i=1 i=1
X
n ³ ´2
bkj
zbijk−1 xi − µ
¡ 2 ¢k i=1
bj
σ = , (2.8)
X
n
zbijk−1
i=1
donde
bk−1
π j fbξk−1 (xi )
zbijk−1 = P
m
j
, i = 1, ..., n, j = 1, ..., m. (2.9)
bk−1
π l fbξk−1 (xi )
l
l=1
Estas ecuaciones definen la recurrencia del algoritmo EM clásico para el modelo de mezcla
de densidades Gaussianas.
En el caso en que las varianzas de las densidades componentes de la mezcla se suponen iguales
se tiene la siguiente iteración para sus estimaciones:
X
m X
n ³ ´2
bkl
zbilk−1 xi − µ
¡ 2 ¢k l=1 i=1
bj =
σ , j = 1, ..., m. (2.10)
Xm X
n
zbilk−1
l=1 i=1
20
variables aleatorias Ui ∈ {1, ..., m}, donde Ui = j si el dato xi es generado por la densidad fξj (·),
i = 1, ..., n y j = 1, ..., m. Por tanto, aumentaremos la muestra original x = (x1 , ..., xn ) con los
datos latentes u = (u1 , ..., un ) o z = (z1 , ...zn ) según sea más conveniente.
¡ ¢
Para todo θ, θ0 ∈ Θ, denotemos por Qα,λ θ; θ0 /x el valor esperado de la función de log-
verosimilitud suavizada lα,λ (θ; y) de la muestra completa y = (x, u) con respecto a la densidad
¡ ¢
condicional f ·/x; θ0 de y dado x. O sea,
¡ ¢
Qα,λ θ; θ0 /x = Eθ 0 (lα,λ (θ; Y) /x) , (2.11)
donde
Z Z
lα,λ (θ; y) = fα (u) fλ (x/u) ln f (x, u; θ) dudx
Z X
m
= fα (u) fλ (x/u) ln f (x, u; θ) dx. (2.12)
u=1
1 X
n
fλ (x/u) = ziu Kλ (x − xi ) .
X
n
ziu i=1
i=1
¡ ¢
Para valores del parámetro α distintos de cero, el cálculo de Qα,λ θ; θ0 /x según (2.11)
presenta algunas dificultades numéricas y computacionales. Es por esto que tomaremos α = 0.
Por tanto, (2.12) se convierte en:
21
X
n
Z X Ã n ! ziu Kλ (x − xi )
m
1 X i=1
lλ (θ; y) = l0,λ (θ; y) = ziu ln f (x, u; θ) dx
n i=1 X
n
u=1
ziu
i=1
Z m n
1 XX
= ziu Kλ (x − xi ) ln f (x, u; θ) dx
n u=1 i=1
Z
1 XX
n m
¡ ¢
= ziu Kλ (x − xi ) ln fξu (x) π u dx
n i=1 u=1
m Z
1 XX
n
¡ ¢z
= Kλ (x − xi ) ln fξu (x) π u iu dx. (2.13)
n i=1 u=1
³ ´ ³ k−1 ´
bk−1 /x = Q0,λ θ;θ
Qλ θ; θ b /x = E k−1 (l0,λ (θ; Y) /x) = E k−1 (lλ (θ; Y) /x) .
λ λ b
θ b
θ
λ λ
³ k−1
´
b
Paso M: Maximización de Qλ θ; θλ /x con respecto a θ. Se toma:
³ ´
bk = arg máxQλ θ; θ
θ bk−1 /x .
λ λ
θ=(ξ,π)
suavizada (2.3) tiene la propiedad de ser aproximadamente monótona creciente cuando λ ' 0.
En efecto, de la expresión (2.3) se obtiene que:
22
Z
lλ (θ) = lλ (θ; x) = fλ (x) ln f (x; θ) dx
n Z
1X
= Kλ (x − xi ) [ln f (x, zi ; θ) − ln f (x, zi /x; θ)] dx
n i=1
n ·Z Z ¸
1X
= Kλ (x − xi ) ln (f (x/zi ; ξ) f (zi ; π)) dx − Kλ (x − xi ) ln f (x, zi /x; θ) dx
n i=1
"Z m ³³ Z #
1X
n Y ´zij ´
zij
= Kλ (x − xi ) ln fξj (x) π j dx − Kλ (x − xi ) ln f (x, zi /x; θ) dx
n i=1 j=1
m Z ³ ´zij n Z
1 XX 1X
n
= Kλ (x − xi ) ln fξj (x) π j dx − Kλ (x − xi ) ln f (x, zi /x; θ) dx
n i=1 j=1 n i=1
n Z
1X
= lλ (θ; y) − Kλ (x − xi ) ln f (x, zi /x; θ) dx. (2.14)
n i=1
Denotemos por η una estimación de θ0 obtenida en alguna iteración del algoritmo. Entonces
la función de log-verosimilitud suavizada (2.14) se convierte en:
Ã( Z ) !
1X
n
lλ (θ; x) = Eη (lλ (θ; Y) /x) − Eη Kλ (x − xi ) ln f (x, Zi /x; θ) dx /x
n i=1
= Qλ (θ; η/x) − Hλ (θ; η/x) , (2.15)
donde Ã( Z ) !
1X
n
Hλ (θ; η/x) = Eη Kλ (x − xi ) ln f (x, Zi /x; θ) dx /x .
n i=1
bk−1 y θ
Luego, según (2.15), para dos estimaciones θ bk de θ0 obtenidas en iteraciones consecuti-
λ λ
k−1
³ k ´ ³ k−1 ´
b b
vas del algoritmo se obtiene (tomando η = θ λ ) que la diferencia entre lλ θλ ; x y lλ θ b ;x
λ
23
k
³ k−1 ´
b b /x alcanza el máximo.
pues θ λ es por definición el punto donde Qλ ·; θ λ
Z
1 XX
n m
¡ ¢z
lλ (θ; y) = Kλ (x − xi ) ln fξu (x) π u iu dx
n i=1 u=1
m · µZ ¶ ¸
1 XX
n
= zij Kλ (x − xi ) ln fξj (x) dx + zij ln πj
n i=1 j=1
m · µ µ ¶ ¶ ¸
1 XX 1 ³ 2 ¡ ¢2 ´
n
1
= zij ln √ − 2 λ + xi − µj + zij ln π j
n i=1 j=1 2πσ j 2σ j
à ¡ ¢2 !
1 XX 1 XX
n m 2 n m
1 ¡ 2
¢ x i − µj + λ
= zij − ln 2πσ j − + zij ln π j .
n i=1 j=1 2 2σ 2j n i=1 j=1
24
³ ´
Qλ θ; θbk−1 /x = E k−1 (lλ (θ; Y) /x)
λ b
θ
Ã( n m à ¡ ¢2 ! ) !
1 XX X
2 n Xm
1 ¡ ¢ xi − µ j + λ 1
= Eθb k−1 Zij − ln 2πσ 2j − + Zij ln πj /x
λ n i=1 j=1 2 2σ 2j n i=1 j=1
à ¡ ¢2 !
1 Xn X m
1 ¡ ¢ x i − µ j + λ 2
1 XX
n m
2
= E k−1 (Zij /x) − ln 2πσ j − + E k−1 (Zij /x) ln π j ,
n i=1 j=1 θb λ 2 2σ 2j n i=1 j=1 θb λ
(2.16)
donde
³ ´
bk−1 P k−1 (Zij = 1)
f xi /zij = 1; θ λ b
θ
Eθb k−1 (Zij /x) = Pθb k−1 (Zij = 1/xi ) = ³ k−1
´λ
λ λ
f xi ; θb
λ
bk−1
π λ,j fb
ξ
k−1 (xi )
λ,j
= ,
X
m
k−1
bλ,l
π fbξk−1 (xi )
λ,l
l=1
³ k−1 ´
bk−1 = b
con θ ξ , b
π k−1
.
λ λ λ
³ ´
El paso M, consistente en la maximización con respecto a θ = (ξ, π) de Q θ; θ bk−1 /x ,
λ
k
³ k ´
b = b
equivale a hallar el punto θ b kλ que satisface las ecuaciones obtenidas de igualar a cero
ξλ, π
λ
las primeras derivadas parciales de (2.16) con respecto a cada componente de ξ y π. De aquí se
obtienen, para j = 1, ..., m, las ecuaciones que definen la recurrencia del algoritmo EM basado
en la VS:
X
n X
n
k−1 k−1
zbλ,ij zbλ,ij xi
i=1 i=1
bkλ,j =
π , bkλ,j =
µ , (2.17)
XX
m n Xn
k−1 k−1
zbλ,ij zbλ,ij
j=1 i=1 i=1
Xn ³ ´2
k−1
zbλ,ij xi − µ bkλ,j
¡ 2 ¢k i=1
bλ,j
σ = + λ2 , (2.18)
X n
k−1
zbλ,ij
i=1
25
donde
bk−1
π λ,j fb
ξ
k−1 (xi )
k−1 λ,j
zbλ,ij = P
m , i = 1, ..., n, j = 1, ..., m. (2.19)
bk−1
π λ,l fb
ξ
k−1 (xi )
λ,l
l=1
Las estimaciones de los parámetros que se obtienen mediante estas ecuaciones pueden usarse
como buenos puntos de partida de otros algoritmos iterativos para hallar mejores aproximaciones
a los estimadores de máxima verosimilitud suavizada de θ0 .
A este algoritmo tipo EM lo llamaremos algoritmo EM basado en la VS. Nótese que la única
diferencia con el algoritmo EM clásico es el término λ2 que aparece en la estimación de la varianza
(2.18).
¡ ¢ ¡ ¢
N µ01 , σ 201 = N (0, 0.5) , N µ02 , σ 202 = N (3.09, 1.9) , π 01 = 0.6, π 02 = 0.4. (2.20)
Obsérvese que en estas notaciones, “0” como supraíndice se refiere a valores iniciales de los
parámetros mientras que como subíndice se refiere a valores verdaderos de los parámetros.
26
Se generaron n = 50 datos x1 , ..., xn según esta densidad.
Para ciertos puntos de partida el algoritmo EM, descrito por la recurrencia (2.7), (2.8) y
(2.9), conduce a una estimación que se aproxima razonablemente a la verdadera densidad. Esto
se observa, por ejemplo, en la Figura 2-1, donde se muestra la densidad mezcla estimada por este
algoritmo partiendo de las verdaderas medias y varianzas como punto inicial en las iteraciones.
Figura 2-1: Gráficas de la mezcla verdadera y la mezcla estimada por EM para varianzas ¡ 0 ¢distintas
2
en el ejemplo ( 2.20) con n = 50 para los valores iniciales π 1 = π 2 = 0.5, µj = µ0j , σ j = σ 20j ,
0 0 0
j = 1, 2.
Sin embargo, para otros puntos de partida se obtienen estimaciones grandemente afectadas
por el fenómeno de degeneración. Esto ocurre marcadamente cuando alguno de los valores iniciales
de las medias está muy próximo a alguno de los datos. Por ejemplo, la Figura 2-2 muestra la
2
mezcla estimada partiendo de los valores de los parámetros µ01 = x2 , (σ 01 ) = 0.005, µ02 = µ02 y
2
(σ 02 ) = σ 202 .
27
Nótese que el pico correspondiente a la primera componente estimada se torna muy agudo.
Figura 2-2: Gráficas de la mezcla verdadera y la mezcla estimada por EM para varianzas distintas
en el ejemplo ( 2.20) con n = 50 para los valores iniciales π01 = π 02 = 0.5, µ01 = x2 , µ02 = µ02 ,
2 2
(σ 01 ) = 0.005, (σ 02 ) = σ 202 .
Un resultado similar, aún más pronunciado, se observa en la Figura 2-3. En esta última
la estimación fue calculada partiendo de los verdaderos valores de varianzas pero tomando las
medias iniciales µ01 = x1 y µ02 = x2 .
Estos resultados demuestran que el algoritmo EM para este modelo es no sólo inconsistente
teóricamente sino además prácticamente en extremo no confiable debido a su sensibilidad a los
valores iniciales.
28
Figura 2-3: Gráficas de la mezcla verdadera y la mezcla estimada por EM para varianzas distintas
en el ejemplo ( 2.20) con n = 50 para los valores iniciales de los parámetros π 01 = π 02 = 0.5,
¡ ¢2
µ01 = x1 , µ02 = x2 , σ 0j = σ 20j , j = 1, 2.
29
peores que las de VS (ver Tabla Ia.). En particular, las estimaciones de las varianzas de las
componentes por EMvi se desvían notablemente de sus verdaderos valores. Como un efecto al
parecer de compensación del ajuste, las ponderaciones resultan también peor estimadas.
Figura 2-4: Gráficas de la mezcla verdadera y de las mezclas estimadas por EM basado en la VS
y por EM para varianzas iguales en el ejemplo (2.20) con n = 50.
θ π1 π2 µ1 µ2 σ 21 σ 22
θ0 0.6 0.4 0 3.09 0.5 1.9
b via EMvi
θ 0.6453 0.3547 -0.0014 3.3845 0.8711 0.8711
bλ via EM por VS 0.5874 0.4126 -0.1210 3.0788 0.5542 1.9113
θ
30
En la Figura 2-5 y en la Tabla Ib se presentan resultados similares a los de la Figura 2-4 y la
Tabla Ia con la muestra aumentada a un tamaño n = 100.
0.5
mezcla verdadera
0.45 mezcla estimada por EM basado en la VS
mezcla estimada por EM varianzas iguales
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-5 0 5 10
Figura 2-5: Gráficas de la mezcla verdadera y de las mezclas estimadas por EM basado en la VS
y por EM para varianzas iguales en el ejemplo (2.20) con n = 100.
θ π1 π2 µ1 µ2 σ 21 σ 22
θ0 0.6 0.4 0 3.09 0.5 1.9
b via EMvi
θ 0.6930 0.3070 0.0322 3.3425 0.8772 0.8772
bλ via EM por VS 0.5966 0.4034 -0.1511 2.8227 0.5153 2.0096
θ
La Figura 2-6 muestra resultados basados en n = 50 datos generados según la mezcla de dos
componentes:
¡ ¢ ¡ ¢
N µ01 , σ 201 = N (0, 0.04) , N µ02 , σ 202 = N (1, 9) , π 01 = 0.5, π02 = 0.5. (2.21)
31
Este ejemplo es tomado del artículo [4], en el cual esta mezcla es utilizada para ilustrar que
el algoritmo EM restringido según [16] brinda malas estimaciones si las verdaderas varianzas no
satisfacen la restricción estipulada.
Se observa en la Figura 2-6 que el algoritmo EMvi no tiene la posibilidad de adaptarse a
varianzas tan distintas. Sin embargo, las estimaciones por VS son buenas a pesar de que una
varianza sea muy pequeña (σ 201 = 0.04), como se muestra en la Figura 2-6 y en la Tabla II.
Figura 2-6: Gráficas de la mezcla verdadera y de las mezclas estimadas por EM basado en la VS
y por EM para varianzas iguales en el ejemplo (2.21) con n = 50.
θ π1 π2 µ1 µ2 σ 21 σ 22
θ0 0.5 0.5 0 1 0.04 9
b via EMvi
θ 0.4694 0.5306 0.2992 0.6473 4.5273 4.5273
bλ via EM por VS 0.4931 0.5069 0.0252 0.9302 0.0819 8.5102
θ
32
Un caso extremo de incapacidad del EMvi para adaptarse a modelos de mezclas con varianzas
distintas se presenta cuando las densidades componentes sólo se diferencian precisamente en las
varianzas. Por ejemplo, en la mezcla cuyas componentes son las siguientes:
¡ ¢ ¡ ¢
N µ01 , σ 201 = N (0, 0.5) , N µ02 , σ 202 = N (0, 9) , π 01 = 0.5, π 02 = 0.5. (2.22)
Teóricamente, en tal caso el algoritmo EMvi converge a una mezcla con componentes iguales.
La Figura 2-7 muestra las estimaciones obtenidas a partir de n = 50 datos generados según
este modelo. Se observa que la densidad mezcla es muy mal estimada por EMvi en comparación
con VS. Además, como muestra la Tabla III, las componentes obtenidas por EMvi resultan
prácticamente indistinguibles, mientras que, por el contrario, la estimación por VS distingue dos
componentes con varianzas que aproximan a las verdaderas varianzas.
Figura 2-7: Gráficas de la mezcla verdadera y de las mezclas estimadas por EM basado en la VS
y por EM para varianzas iguales en el ejemplo (2.22) con n = 50.
33
Tabla III Estimaciones para el ejemplo (2.22). Tamaño de muestra n = 50.
θ π1 π2 µ1 µ2 σ 21 σ 22
θ0 0.5 0.5 0 0 0.5 9
b via EMvi
θ 0.5600 0.4400 -0.1118 -0.6851 2.6512 2.6512
bλ via EM por VS 0.5121 0.4879 -0.1547 -0.5837 0.3674 5.1899
θ
b = arg máx Q
λ e (λ),
λ
donde
1X ¡
n
¢
e
Q (λ) = q λ; xi , x(i) , (2.23)
n i=1
³ ´ · ³ ´ ¸
¡ ¢ (i)
q λ; xi , x(i) b
= ln f xi ;θλ = ln π
(i) (i)
bλ,1 fbξ(i) (xi )
bλ,1 fbξ(i) (xi ) + 1 − π
λ,1 λ,2
³ ³ ´´ ³ ³ ´´
bλ (X) ,
Q (λ) = Eθ 0 q λ; X1 , X(1) = Eθ 0 ln f Z;θ (2.24)
de la muestra aleatoria de n − 1 datos X = (X1 , ..., Xn−1 ), y el valor esperado es con respecto a
las variables aleatorias Z, X1 , ... y Xn−1 distribuidas iid con la misma densidad f (.; θ0 ).
Mediante la maximización de Q (λ) con respecto a λ se obtiene un valor λn para λ que puede
b
considerarse la contraparte teórica de λ:
b de λ es compararla con λn .
Una manera de evaluar la calidad de la estimación λ
La función Q (λ) no tiene forma explícita, por lo que es necesario aproximarla mediante
¡ ¢
simulaciones. Para ello se generan R muestras de tamaño n − 1, xr = xr1 , ..., xrn−1 , r = 1, ..., R,
34
y R observaciones “futuras” z r , r = 1, ..., R de f (.; θ0 ), y se realiza la siguiente aproximación:
1X
R
1X
R ³ ´
Q (λ) ≈ q (λ; z r , xr ) = br ,
ln f z r ;θ (2.25)
λ
R r=1 R r=1
r
b es la estimación de θ0 obtenida mediante el algoritmo EM por VS según (2.17), (2.18)
donde θ λ
e (azul) en función de λ.
Figura 2-8: Gráficas de Q (rojo) y Q
35
Aunque un estudio teórico y por simulaciones más profundo es necesario para arribar a
e se comporta como es típico de los
conclusiones precisas, los resultados obtenidos indican que Q
métodos de remuestreo para la elección de los parámetros de control. Con cierta variabilidad
e tiende a reproducir la de su contraparte poblacional Q.
aleatoria, la región de máximo de Q
36
Capítulo 3
La función de log-verosimilitud
suavizada para modelos de regresión
3.1. Preliminares
Consideremos un problema de análisis de regresión entre una variable respuesta Y de valores
en R y un vector de variables predictoras X = (X1 , ...Xp ) con valores en Rp . Más específicamente,
supongamos que se tienen datos {(yi , xi )}ni=1 , con xi = (xi1 , ..., xip )0 , que satisfacen la relación
funcional:
yi = µ (xi ) + εi , (3.1)
donde las variables aleatorias εi son independientes e igualmente distribuidas con distribución
Gaussiana, E (εi ) = 0, V (εi ) = σ 2 , y µ es una función con dominio en Rp , llamada función de
regresión. Denotaremos por X a la matriz (xij ), i = 1, ..., n y j = 1, ..., p. Además, aquí y en todo
lo que sigue, usaremos el símbolo “ 0 ” para denotar la operación de transposición de matrices y
vectores.
37
Cuando el vector de variables predictoras X es aleatorio el problema de análisis de regre-
sión se dice con diseño aleatorio. Si por el contrario, X es un vector de valores fijados por el
experimentador, entonces el diseño se dice no aleatorio.
Existen diversos tipos de modelos para la función de regresión. Dos grandes clases son:
a) Los modelos de regresión paramétricos (clásicos o regulares), en los cuales se supone que la
función de regresión µ tiene una expresión funcional especificada en dependencia de un número
¡ ¢
fijo y conocido q de parámetros reales desconocidos β = β 1 , ..., β q ∈ B ⊂ Rq . Se suponen
además condiciones de suavidad convenientes acerca de la dependencia de µ con respecto a β.
Un ejemplo es la regresión polinomial con grado q conocido, donde los parámetros β j son los
coeficientes del polinomio de regresión.
b) Los modelos de regresión no paramétricos, en los cuales sólo se supone que µ pertenece a
cierta clase infinito-dimensional M de funciones “suaves”, no indizada por un parámetro finito-
dimensional. Por ejemplo, M puede ser la clase de las funciones con derivadas continuas hasta
cierto orden sobre cierto dominio de Rp .
En la práctica, a veces los modelos paramétricos explorados por el investigador no ajustan
bien los datos, y se carece de suficiente información previa para proponer un único modelo
paramétrico alternativo que sea adecuado. Entonces la modelación no paramétrica constituye
una atrayente opción, y las técnicas de suavizamiento no paramétrico ofrecen una herramienta
flexible para estudiar la función de regresión desconocida.
Uno de los métodos de suavizamiento más simples es el de estimación por núcleos. En parti-
cular, el estimador de Nadaraya-Watson (ver [19], [31]) para la media µ (x) tiene la forma:
P
n
yi Kλ (x − xi )
i=1
eλ (x) =
µ Pn , (3.2)
Kλ (x − xi )
i=1
1
¡u¢
donde Kλ (u) = λp
K λ
y el núcleo K es una función de densidad, continua, acotada y simétrica
alrededor del cero. Supondremos específicamente que el núcleo K es la densidad de la distribución
Normal multivariada Np (0, I), por lo que Kλ (· − xi ) es la densidad de la distribución Normal
¡ ¢
multivariada Np xi , Iλ2 . El parámetro no negativo λ es llamado ancho del núcleo.
eλ (x) es una media ponderada de las observaciones yi , siendo mayor la pon-
El estimador µ
deración para los valores yi correspondientes a los xi cercanos a x = (x1 , ..., xp )0 . Es conocido que
eλ (x) no es insesgado para muestras finitas. Pero bajo condiciones de regularidad convenientes
µ
38
es consistente (de acuerdo a varias métricas) y tiene distribución asintótica Normal (ver [15]).
eλ (x) no es muy sensible a la selección del núcleo K, sino sólo a la selec-
También es sabido que µ
ción del ancho λ que controla el grado de suavizamiento (el cual es menor para valores pequeños
de λ).
e2λ para
De la estimación (3.2) para la media se obtiene el siguiente estimador no paramétrico σ
la varianza σ 2 :
1X
n
e2λ
σ = eλ (x))2 .
(yi − µ (3.3)
n i=1
Como se ha supuesto que los errores aleatorios εi tienen distribuciones Gaussianas con media
cero y varianza σ 2 entonces una estimación no paramétrica natural de la densidad condicional
¡ ¢ ¡ ¢
fλ (y/x) de Y dado x es fλ (y/x) = N µ e2λ (y), donde N µ
eλ (x) , σ e2λ (y) denota la función
eλ (x) , σ
e2λ evaluada en y.
eλ (x) y varianza σ
de densidad Normal de media µ
c) Existen situaciones de modelación intermedias entre las (a) y (b) anteriores en las cuales
se supone que la función de regresión pertenece a un subconjunto especificado M0 de M que no
es un modelo paramétrico regular, o es un modelo regular con dimensión grande en comparación
con el tamaño de la muestra disponible. Por ejemplo, M0 puede ser la unión de una familia de
modelos paramétricos regulares. En particular, M0 puede consistir en todos los polinomios de
grados arbitrarios en la variable x. En este caso, µ pertenece a un conjunto de funciones que no
puede describirse mediante un parámetro de dimensión finita pero es más restringido que en la
modelación no paramétrica usual.
Nuestro interés es extender el enfoque de verosimilitud de modo que sea aplicable no sólo a
modelos de regresión clásicos (a) sino también a los modelos de tipo (c), evitando el fenómeno
de sobreajuste de parámetros.
Para esto, a continuación introduciremos la función de log-verosimilitud suavizada para mode-
los de regresión generales. Trataremos primero el caso de diseño aleatorio.
39
3.2. Regresión con diseño aleatorio
En el caso de un problema de regresión (3.1) con diseño aleatorio se supone que las ob-
servaciones xi = (xi1 , ..., xip )0 , i = 1, ..., n, del vector aleatorio X son una muestra iid de una
distribución con cierta densidad f (x). Supongamos además que la función de regresión está in-
dizada por un parámetro β ∈ B que toma valores en un conjunto arbitrario B. Es decir, de
acuerdo al modelo los datos {(yi , xi )}ni=1 satisfacen la relación:
yi = µβ (xi ) + εi (3.4)
para cierto valor desconocido de β ∈ B , donde µβ (x) es una función no lineal conocida de β y x.
Nótese que el hecho de que el conjunto B sea general permite incluir modelos de regresión lineales
y no lineales con números de parámetros fijos, y modelos más generales como los constituidos
por familias de modelos de regresión lineales o no lineales con diferentes números de parámetros.
El concepto de función de log-verosimilitud suavizada puede introducirse de modo natural
para este tipo de modelo, como una extensión de la definición 1.1.2 dada para el caso de muestras
iid, como lo hacemos a continuación.
1X
n
fλ (z) = Kλ (z − xi ) (3.6)
n i=1
¡ ¢
fλ (y/z) = N µ e2λ (y) ,
eλ (z) , σ (3.7)
¡ ¢
e2λ definidos por (3.2) y (3.3), respectivamente, y f (y/z; θ) = N µβ (z) , σ 2 (y). La
eλ (z) y σ
con µ
40
integración con respecto a y en las expresiones anteriores es sobre todo R y la integración con
respecto a z es sobre todo Rp .
³ ´ ½Z Z ¾
b b 2
bλ = arg máx2 {lλ (θ)} = arg máx2
θλ = βλ , σ fλ (z) fλ (y/z) ln f (y/z; θ) dydz .
θ=(β,σ ) θ=(β,σ )
n Z
X · ¸ ³ ´
∂
Kλ (z − xi ) µ (xi ) µβb λ (z) − yi dz = 0. (3.8)
i=1
∂β β b
β =β λ
Demostración
De acuerdo a (3.5), teniendo en cuenta que fλ (y/z) y f (y/z; θ) son densidades Gaussianas,
aplicando el Lema 1.4.1 y que fλ es una densidad (por lo cual su integral es uno), se tiene que
para este modelo la función de log-verosimilitud suavizada lλ (θ) con θ = (β, σ 2 ) es:
41
Z Z
lλ (θ) = fλ (z)
fλ (y/z) ln f (y/z; θ) dydz
Z · µ ¶ ¸
1 1 ³ 2 ¡ ¢2 ´
= fλ (z) ln √ − 2 σ eλ + µ eλ (z) − µβ (z) dz
2πσ 2σ
µ ¶Z µ Z Z ¶
1 1 2
¡ ¢2
= ln √ fλ (z) dz − 2 σ eλ fλ (z) dz + fλ (z) µ eλ (z) − µβ (z) dz
2πσ 2σ
µ ¶ µ Z ¶
1 1 2
¡ ¢2
= ln √ − 2 σ eλ + fλ (z) µ eλ (z) − µβ (z) dz. (3.9)
2πσ 2σ
42
b λ satisface la ecuación no lineal:
Luego β
n Z
X · ¸ ³ ´
∂
Kλ (z − xi ) µ (xi ) µβb λ (z) − yi dz = 0.
i=1
∂β β b
β =β λ
Por otra parte, igualando a cero la derivada de (3.9) con respecto a σ 2 se obtiene que:
· µ ¶ µ Z ¶ ¸
∂ ∂ 1 1 2
¡ ¢2
(lλ (θ)) = ln √ − 2 σ eλ + fλ (z) µ eλ (z) − µβ (z) dz
∂σ 2 ∂σ 2 2πσ 2σ
· Z ¸
1 1 2
¡ ¢2
= − 2+ σeλ + fλ (z) µ eλ (z) − µβ (z) dz = 0.
2σ 2 (σ 2 )2
X
n ³ ´
b = arg máx
λ b(i) ,
ln f yi /xi ;θ λ
λ i=1
donde Z Z
(i)
³ (i) ´
b b
θλ = βλ , σ
2(i)
bλ = arg máx2
(i) (i)
fλ (z) fλ (y/z) ln f (y/z; θ) dydz.
θ=(β,σ )
(i) (i)
Aquí, fλ (x) y fλ (y/x) denotan, respectivamente, las estimaciones por núcleo (3.6) y (3.7)
basadas en la muestra sin el dato (yi , xi ).
En el modelo lineal, la variable respuesta Y depende en forma lineal del vector de parámetros
β. Más específicamente, se supone que los datos {(yi , xi )}ni=1 satisfacen la relación (3.4) con
¡ ¢0
β = β 1 , ..., β p , xi = (xi1 , ..., xip )0 y µβ es de la forma:
43
La ecuación de regresión (3.4) que satisface (3.11) puede escribirse en forma matricial como
Y = Xβ + ε, donde Y = (y1 , ..., yn )0 , ε = (ε1 , ..., εn )0 y X= (xij ) es la llamada matriz de diseño,
i = 1, ..., n y j = 1, ..., p.
bλ tiene una forma explícita en el caso de
El estimador de máxima verosimilitud suavizada θ
la regresión lineal con diseño aleatorio, como se enuncia en la siguiente proposición.
b λ del
Proposición 3.2.2 En un modelo de regresión lineal con diseño aleatorio el estimador β
vector de coeficientes de regresión β que se obtiene por máxima verosimilitud suavizada es:
¡ ¢
b λ = X0 X+λ2 I −1 X0 Y
β (3.12)
Demostración
De acuerdo a (3.9), para este modelo particular la función de log-verosimilitud suavizada
lλ (θ) con θ = (β, σ 2 ) es:
µ ¶ · Z ¸
1 1 2 0 2
lλ (θ) = ln √ − 2 σ eλ + fλ (z) (e
µλ (z) − z β) dz . (3.13)
2πσ 2σ
Igualando a cero la derivada con respecto a β de la expresión anterior se obtiene según (3.10)
que:
Z
fλ (z) z [z0 β − µeλ (z)] dz = 0
Z Z
0
fλ (z) zz βdz = eλ (z) dz,
zfλ (z) µ
o sea,
p Z Z
X
zj zk fλ (z) dzβ k = eλ (z) dz, j = 1, ..., p.
zj fλ (z) µ
k=1
44
tivamente, se obtiene que para j = 1, ..., p:
n
à ! à n ! P y K (z − x )
XZp
1X
n Z
1 X i=1 i λ i
zj zk Kλ (z − xi ) dzβ k = zj Kλ (z − xi )
Pn
dz.
n i=1 n i=1
k=1 Kλ (z − xi )
i=1
Luego
p
X n Z
X X
n Z
zj zk Kλ (z − xi ) dzβ k = yi zj Kλ (z − xi ) dz.
k=1 i=1 i=1
Teniendo en cuenta que, para cada xi , Kλ (· − xi ) es una densidad sobre Rp con media xi y
matriz de covarianza λ2 I, la expresión anterior es equivalente a:
p
X X
n
¡ ¢ X
n
xij xik + λ2 δ ij β k = xij yi .
k=1 i=1 i=1
¡ 0 ¢
X X+λ2 I β = X0 Y.
b λ de β:
De aquí se obtiene explícitamente el estimador de máxima verosimilitud suavizada β
¡ ¢
b λ = X0 X+λ2 I −1 X0 Y.
β
bλ
Por otra parte, igualando a cero la derivada de (3.13) con respecto a σ 2 y sustituyendo β
b2λ de σ 2 :
según (3.12) por β, se obtiene el estimador σ
Z ³ ´2
b2λ
σ = e2λ
σ + fλ (z) µ b λ dz.
eλ (z) − z0 β
donde el parámetro de regularización es el cuadrado del ancho del núcleo, λ2 . Este estimador
también es llamado estimador “ridge” en el contexto de regresión estadística.
45
Este tipo de estimadores lineales regularizados han sido ampliamente estudiados con diferentes
motivaciones. Ver por ejemplo [30], [13] y referencias que aparecen allí.
El enfoque de verosimilitud suavizada para modelos de regresión lineales con diseño aleatorio
brinda, pues, una fundamentación estadística adicional a los estimadores “ridge”.
n Z
X
lλ (θ) = lλ ( θ; Y/X) = fλ (y/xi ) ln f (y/xi ; θ) dy, (3.14)
i=1
¡ ¢
fλ (y/xi ) = N µ e2λ (y) ,
eλ (xi ) , σ
¡ ¢
e2λ están definidos por (3.2) y (3.3) respectivamente, y f (y/xi ; θ) = N µβ (xi ) , σ 2 (y) .
eλ (xi ) y σ
µ
La integración en (3.14) es sobre todo R.
El estimador de máxima verosimilitud suavizada puede definirse de manera análoga a como
se hizo en la sección anterior para modelos con diseño aleatorio.
Definición 3.3.2 El estimador de máxima verosimilitud suavizada en un modelo de
regresión con diseño no aleatorio se define como:
³ ´ n Z
X
bλ = β
θ b λ, σ 2
bλ = arg máx2 {lλ (θ)} = arg máx2 fλ (y/xi ) ln f (y/xi ; θ) dy.
θ=(β,σ ) θ=(β,σ )
i=1
46
bλ no tiene en este caso una forma explícita, pero puede caracterizarse como
El estimador θ
solución de una ecuación no lineal según la siguiente proposición.
Xn ³ ´· ∂ ¸
µeλ (xi ) − µβb λ (xi ) µ (xi ) = 0. (3.15)
i=1
∂β β b
β =β λ
b2λ de σ 2 es:
Y el estimador de máxima verosimilitud suavizada σ
1 X³ ´2
n
b2λ
σ = e2λ
σ + eλ (xi ) − µβb λ (xi ) ,
µ
n i=1
Demostración
De acuerdo a (3.14), teniendo en cuenta que fλ (y/xi ) y f (y/xi ; θ) son densidades Gaussianas
y aplicando el Lema 1.4.1, se tiene que para este modelo la función de log-verosimilitud suavizada
lλ (θ) con θ = (β, σ 2 ) es:
n Z
X
lλ (θ) = fλ (y/xi ) ln f (y/xi ; θ) dy
i=1
n · µ ¶ ¸
X 1 1 ³ 2 ¡ ¢2 ´
= ln √ − 2 σ eλ + µ
eλ (xi ) − µβ (xi )
i=1
2πσ 2σ
µ ¶
1 X³ 2 ¡ ¢2 ´
n
1
= n ln √ − 2 σ eλ (xi ) − µβ (xi )
eλ + µ . (3.16)
2πσ 2σ i=1
47
b λ:
Igualando a cero la expresión anterior se obtiene la ecuación no lineal para β
Xn ³ ´· ∂ ¸
µeλ (xi ) − µβb λ (xi ) µβ (xi ) = 0.
i=1
∂β b
β =β λ
Por otra parte, igualando a cero la derivada de (3.16) con respecto a σ 2 se obtiene que:
" n #
∂ n 1 X³ 2 ¡ ¢2 ´
(lλ (θ)) = − 2 + eλ + µ
σ eλ (xi ) − µβ (xi ) = 0.
∂σ 2 2σ 2 (σ 2 )2 i=1
1 X³ ´2
n
b2λ
σ = e2λ
σ + eλ (xi ) − µβb λ (xi ) .
µ
n i=1
X
n ³ ´
b = arg máx
λ b(i) ,
ln f yi /xi ;θ (3.17)
λ
λ i=1
pero ahora
(i)
³ (i) ´ X Z (i)
b b
θλ = βλ , σ
2(i)
bλ = arg máx2 fλ (y/xj ) ln f (y/xj ; θ) dy.
θ=(β,σ )
j6=i
(i)
Aquí fλ (y/xj ) denota la estimación por núcleo de f (y/xj ; θ) basada en la muestra sin el
dato (yi , xi ).
48
3.3.2. Caso lineal
Estimación
b λ = (X0 X)−1 X0 µ
β eλ , (3.18)
1 X³ ´2
n
b2λ
σ = e2λ
σ + µ bλ ,
eλ (xi ) − x0i β (3.19)
n i=1
eλ = (e
donde µ eλ (xn ))0 y λ es el ancho del núcleo.
µλ (x1 ) , ..., µ
Demostración
De acuerdo a (3.16), para este modelo la función de log-verosimilitud suavizada lλ (θ) con
θ = (β, σ 2 ) es:
µ ¶
1 X³ 2 ´
n
1 2
lλ (θ) = n ln √ − 2 σ µλ (xi ) − x0i β) .
eλ + (e (3.20)
2πσ 2σ i=1
X
n
µλ (xi ) − x0i β) = 0,
xi (e
i=1
o sea,
p
X X
n X
n
xij xik β k = eλ (xi ) , j = 1, ..., p.
xij µ
k=1 i=1 i=1
X0 Xβ = X0 µ
eλ ,
49
b λ de β:
por lo que se obtiene explícitamente el estimador de máxima verosimilitud suavizada β
b λ = (X0 X)−1 X0 µ
β eλ .
1 X³ ´2
n
b2λ = σ
σ e2λ + bλ .
eλ (xi ) − x0i β
µ
n i=1
Consistencia
Proposición 3.3.3 Sea un problema de regresión lineal (3.4)-(3.11) con diseño no aleatorio.
¡ ¢0
Supongamos que X es compacto y sean β0 = β 01 ..., β 0p0 y σ 20 los verdaderos valores de β y σ 2 .
Sea además λn una sucesión tal que λn −→ 0 cuando n → ∞. Si el estimador no paramétrico
eλn (x) de la función de regresión µβ (x) = x0 β es consistente en probabilidad con respecto a la
µ
norma uniforme; o sea, si:
¯ ¯2 P
sup ¯µeλn (x) − x0 β0 ¯ −→ 0, (3.21)
x∈X n→∞
y se satisface la condición
°√ °2
° −1 °
° n (X0 X) X0 ° = O (1) , (3.22)
2
donde k·k2 denota la norma Euclidiana de vectores y también la inducida sobre matrices, en-
b λ de β es consistente en probabilidad.
tonces el estimador de máxima verosimilitud suavizada β
e2λn de la varianza σ 2 es consistente en
Si se supone además que el estimador no paramétrico σ
probabilidad; o sea, si
¯ 2 ¯ P
¯σ
eλn − σ 20 ¯ −→ 0, (3.23)
n→∞
50
b2λn también es consistente en probabi-
entonces el estimador de máxima verosimilitud suavizada σ
lidad.
Demostración:
Utilizando la forma explícita del estimador de máxima verosimilitud suavizada (3.18) de β,
y propiedades elementales de normas matriciales se tiene que:
° °2 ° °2
°b ° ° −1 −1 °
°β λn − β0 ° = °(X0 X) X0 µ
eλn − (X0 X) X0 Xβ 0 °
2 2
° ¢°
° 0 −1 0 ¡ °2
= °(X X) X µ eλn − Xβ0 °
2
° ° ¡
° 0 −1 0 °2 ° ¢°2
≤ °(X X) X ° ° µ eλn − Xβ0 °2
2
° °
° 0 −1 0 °2 1 ° ¡ ¢°2
= n °(X X) X ° ° µ eλn − Xβ0 °2 ,
2 n
¡ ¢0
eλn = µ
donde µ eλn (x1 ) , ..., µ
eλn (xn ) .
° °2 °√ °2
De acuerdo a la condición (3.22), n °(X0 X)−1 X0 °2 = ° n (X0 X)−1 X0 °2 = O (1). Además, si se
°¡ ¢°2
cumple la hìpótesis (3.21) entonces el término n1 ° µeλn − Xβ 0 °2 tiende a cero en probabilidad.
En efecto,
1 X¡
n
1° ¡
° µ
¢°2 ¢2
eλn − Xβ 0 °2 = eλn (xi ) − x0i β0
µ
n n i=1
1 ¯ ¯2
≤ n sup ¯µ eλn (x) − x0 β0 ¯
n x∈X
¯ ¯2 P
= sup ¯µeλn (x) − x0 β0 ¯ −→ 0. (3.24)
x∈X n→∞
Luego
° °2
°b ° P
°βλn − β0 ° −→ 0, (3.25)
2 n→∞
b λ de β es consistente en probabilidad.
por lo que el estimador de máxima verosimilitud suavizada β
b2λn según (3.19) de σ 2 se
La consistencia del estimador de máxima verosimilitud suavizada σ
prueba del modo siguiente:
¯ ¯
¯ 2 ¯ ¯ 1 X n ³ ´2 ¯
¯σ ¯ 2 bλ 2¯
bλn − σ 20 ¯ = ¯σeλn + eλn (xi ) − x0i β
µ − σ 0¯
¯ n i=1 n
¯
¯ n ¯
¯ 2 ¯ ¯1 X³ ´2 ¯
¯ b λ ¯¯ .
≤ ¯σeλn − σ 20 ¯ + ¯ µeλn (xi ) − x0i β
¯n n
¯
i=1
51
¯ 2 ¯
El término ¯σ
eλ − σ 20 ¯ tiende a cero en probabilidad según el supuesto (3.23). El segundo
término también tiende a cero en probabilidad. En efecto,
¯ n ¯ n ¯
1 ¯¯X ³ ´2 ¯ 1 X ¯¯³ ´2 ¯¯ 1 X n ³ ´2
0b ¯ 0b ¯ 0b
¯ eλn (xi ) − xi βλn ¯ ≤
µ e
µ (x ) − x β = e
µ (x ) − x β
n i=1 ¯ λn ¯ n
i i λn λn i i λn
n ¯ i=1 ¯
i=1
1 ¯ ¯2 ¯ ¯2
¯ 0b ¯ ¯ 0b ¯ P
≤ n sup ¯µeλn (x) − x β λn ¯ = sup ¯µ eλn (x) − x βλn ¯ −→ 0,
n x∈X x∈X n→∞
b λ −→
pues β
P P
eλn (x) −→ x0 β0 uniformemente sobre X según (3.25) y (3.24) respec-
β0 y µ
n
n→∞ n→∞
b2λ de σ 2 es consistente en
tivamente. Luego el estimador de máxima verosimilitud suavizada σ
probabilidad.
Esto concluye la demostración.¥
Un resultado que asegura el cumplimiento de (3.21) puede encontrarse en [15], página 122.
Este plantea que si se satisfacen las siguientes condiciones:
(C1) La verdadera función de regresión µ es una función de Lipschitz.
(C2) El conjunto X donde toma valores la variable x es compacto.
(C3) Los errores εi están acotados.
(C4) El núcleo K cumple que |K (u)| ≤ 1.
Entonces: Ã (µ ¶− 12 )!
nλ
sup |e
µλ (x) − µ (x)| = Op máx ,λ ,
x∈X log n
°√ °2
° 0 −1 0 °
° n (X X) X ° −→ 0.
2 n→∞
52
3.4. Resultados de simulación
En esta sección presentaremos resultados de simulación que ilustran el comportamiento del
enfoque de VS para modelos de regresión. Si bien una notable ventaja potencial de este nuevo
enfoque es su posibilidad de tratar modelos de regresión complejos que comprendan modelos
paramétricos lineales y no lineales, es lógico comenzar a evaluar el enfoque de VS en el caso más
simple y bien conocido de modelos de regresión lineales.
b λ coincide con el estimador
Para la regresión lineal con diseño aleatorio, el estimador por VS β
“ridge” (3.12), que ha sido ampliamente tratado en la literatura. Por este motivo centraremos
nuestro interés en el caso de la regresión lineal con diseño no aleatorio. En particular, estudiaremos
el comportamiento de la estimación por VS de un modelo de regresión polinomial con diseño no
aleatorio, en comparación con las estimaciones que se obtienen por otros métodos conocidos.
I. Estrategia de la simulación
yi = µβ (ti ) + εi , (3.26)
¡ ¢0
donde β = β 0 , β 1 , ..., β p y
53
Para las simulaciones se utilizaron n = 20 observaciones (yi , ti ), donde los n valores fijos ti de
la variable se tomaron equidistantes en el intervalo [0, 1]. La verdadera densidad se tomó como
f (y/xi ; θ 0 ) = N (x0i β0 , σ 20 ) (y), donde:
σ 20 = 0.49.
1
n
kY − Hr Yk2
pV CG = arg mı́n ,
r∈{0,1,2,...,5} (1 − trHr )2
donde Hr = Xr (X0r Xr )−1 X0r denota la matriz “sombrero” (“hat”) calculada a partir de la matriz
Xr que contiene las primeras r + 1 columnas de X. Se calcula entonces el estimador por mínimos
cuadrados µβb V CG (t) de la función de regresión dada por el polinomio de grado pV CG . O sea,
b V CG , donde β
µβb V CG (t) = x0 β b V CG es el estimador de β0 obtenido por el método de los mínimos
hallados según (3.18) y (3.19) respectivamente, pero sin usar el dato (yi , ti ) y tomando dimensión
b b se calcula por (3.18) con λ = λ
p = 5. β bS .
λS
54
bK determinado
eλbK (t) según (3.2) tomando λ = λ
d) La estimación por núcleo µλb K (t) = µ
según:
n ³
X ´2
bK = arg mı́n
λ
(i)
eλ (ti ) ,
yi − µ
λ i=1
(i)
eλ (ti ) denota el estimador de Nadaraya-Watson (3.2) hallado sin usar el dato (yi , ti )
donde µ
evaluado en ti . Esta es la llamada estimación por validación cruzada del ancho del núcleo [15].
bK : µ b (t) = x0 β
e) La estimación por el método de máxima verosimilitud suavizada con λ bb ,
βb λK
λK
bK es definido como en (d) y β
donde λ b b se calcula por (3.18) con λ = λ
bK .
λK
eλ (t) se halló
En los ajustes mencionados en (c), (d) y (e) el estimador de Nadaraya-Watson µ
tomando el núcleo Gaussiano K (u) = N (0, 1) (u).
Para ilustrar, la Figura 3-1 muestra los ajustes obtenidos por mínimos cuadrados (a) de las
distintas regresiones polinomiales de grados r = 0, 1, ..., 5 con los datos simulados.
Figura 3-1: Gráficas de los polinomios de grados r = 0, 1, ..., 5 estimados por mínimos cuadrados.
55
Se observa que los polinomios de grados 0 y 1 no tienen suficiente flexibilidad para aproximar
la verdadera función de regresión, mientras que los polinomios de grados 4 y 5 presentan grandes
oscilaciones. Esto último es característico del sobreajuste de funciones de regresión.
En la Figura 3-2 se muestra el polinomio de grado p = 5 ajustado por mínimos cuadrados
y los ajustes (b)-(e). Se observa que estos últimos aproximan la verdadera función de regresión
evitando el gran sesgo de los polinomios de grados 0 y 1, a la vez que la extrema oscilación de
los polinomios de alto grado 4 y 5 ajustados por mínimos cuadrados.
Figura 3-2: Gráficas de los ajustes (b): µβb V CG , (c): µβb b , (d): µλbK , (e): µβb b y del polinomio de
λS λK
grado p = 5 estimado por mínimos cuadrados.
³ ´
En las primeras columnas de la Tabla IV se muestran las estimaciones θ bb = β bb , σ
b 2
bS y
λS λS λ
³ ´
bV C = β
θ bV C , σ bS y por
b2V C de θ0 = (β0 , σ 20 ) obtenidas por máxima verosimilitud suavizada con λ
b2λbS se calcula
mínimos cuadrados (máxima verosimilitud clásica (VC)), respectivamente, donde σ
bS .
según (3.19) tomando λ igual a λ
56
Tabla IV. Diferentes estimaciones de θ0 .
Componentes de θ θ0 bV C
θ bb (λ
θ bS = 0.1864) θλn (λn = 0.1914)
λS
1 X 1 X¡ b
B n
¢2
ECM = µ (ti ) − µβ 0 (ti ) ,
B b=1 n i=1
donde µb (t) denota el estimador que corresponda de los mencionados en (a)-(e) obtenido en la
b−ésima réplica.
Análogamente, también se estimaron el sesgo y la varianza de cada estimador. Como es sabido,
el ECM se descompone como la suma de la varianza y el cuadrado del sesgo. Los resultados
obtenidos para los estimadores por mínimos cuadrados de la función de regresión basados en
polinomios de distintos grados se muestran en la Tabla V. Para los estimadores (b)-(e), los
resultados obtenidos se presentan en la Tabla VI.
Tabla V. ECM de los polinomios de grados r = 0, 1, ..., 5 estimados por mínimos cuadrados.
57
Tabla VI. ECM de los estimadores (b)-(e).
El análisis de estas tablas revela los siguientes hechos que merecen destacarse:
-En la Tabla V se observa que los ajustes por mínimos cuadrados con polinomios de grados 2,
3 y 4 brindan los menores valores del ECM. Pero estos tienen la desventaja de que en la práctica
no se conoce el verdadero grado del polinomio.
-En la Tabla VI se observa que en general los estimadores µβb V CG y µβb b tienen un ECM
λK
58
densidad f (·/x; θ0 ) mediante:
³ ³ ´´ 1 X ³
B ³ ´´
b
ES f (·/x; θ0 ), f ·/x; θ ≈ bb ,
S f (·/x; θ0 ), f ·/x; θ
B b=1
³ ³ ´´ n Z
X ³ ´
b
b
S f (·/x; θ0 ), f ·/x; θ = bb dy
f (y/xi ; θ0 ) ln f y/xi ;θ
i=1
n µ
X ³ ´2 ¶
1 1 2 0 0 bb
= n ln √ − ³ ´2 σ 0 + xi β0 − xi β .
2πbσb 2 σ
bb i=1
µ ³ ´¶
2
bb =
Aquí θ b b, σ
β bb denota la estimación que corresponda de las mencionadas anterior-
mente, calculada con la b−ésima réplica. Los resultados obtenidos se muestran en la Tabla VII.
³ ´
b con respecto a f (·/x; θ0 ).
Tabla VII. ES de f ·/x; θ
b
θ bV CG
θ bb
θ bb
θ
λS λK
³ ³ ´´
b
ES f (·/x; θ0 ), f ·/x; θ -26.0312 -25.3429 -27.6277
bb brinda el ma-
Esta tabla indica que la estimación por máxima verosimilitud suavizada θ
³ ´ λS
yor valor promedio de la similitud de KL. Luego la densidad f ./x; θbb es la más parecida
λS
como promedio a la verdadera densidad f (·/x; θ0 ) en este sentido, dentro de las estimaciones
comparadas.
bS = arg máxQ
λ e (λ) ,
λ
donde
X ³n ´
Qe (λ) = 1 q λ; yi , xi , Y(i) , X(i) , (3.28)
n i=1
³ ´ ³ ´ 1 ³ ´2
b(i) = ln √ 1
q λ; yi , xi , Y(i) , X(i) = ln f yi /xi ;θ − yi − x0 b (i)
β ,
λ (i) 2(i) i λ
2πbσλ 2b
σλ
59
¡ ¢
e es la versión
donde Y(i) , X(i) denota la muestra {(yi , xi )}ni=1 sin el dato (yi , xi ). La función Q
empírica de la media teórica:
³ ´ 1X n ³ ³ ´´
e
Q (λ) = Eθ0 Q (λ) = (i)
Eθ q λ; Yi , xi , Y , X(i)
n i=1 0
1X
n ³ ³ ´´
= b(i) .
Eθ0 ln f Yi /xi ;θ (3.29)
λ
n i=1
Mediante la maximización de Q (λ) con respecto a λ se obtiene un valor λn para λ que puede
b=λ
considerarse la contraparte poblacional de λ bS :
bS de λ es compararla con λn .
Una manera de evaluar la calidad de la elección λ
La función Q (λ) no tiene una forma explícita, por lo que hay que aproximarla mediante
simulaciones. Para ello generamos R muestras {(y1r , ..., ynr )}, r = 1, ..., R, de la distribución mul-
tivariada Nn (Xβ 0 , σ 20 I), y se realiza la siguiente aproximación:
1X1X
n R³ ´
Q (λ) ≈ b(i)r
ln f yir /xi ;θ (3.31)
λ
n i=1 R r=1
µ ³ ´ ¶
1 X 1 X X
n R n 2
1 1 2 0 0 b (i)r
= ln √ (i)r
− ³ ´2 σ 0 + xi β 0 − xi β λ ,
n i=1 R r=1 2πb σλ (i)r
bλ
σ n i=1
µ ³ ´2 ¶
b(i)r =
donde θ b (i)r
βλ , σ
(i)r
bλ es la estimación de θ0 = (β0 , σ 20 ) obtenida por máxima verosimi-
λ
litud suavizada según (3.18) y (3.19) usando la réplica r-ésima sin el dato (yir , xi ).
60
En la Figura 3-3 se presenta la gráfica de Q (λ) según (3.29) en función de λ obtenida en el
ejemplo de regresión descrito al comienzo de esta sección. Se utilizaron R = 500 réplicas para la
e (λ) según (3.28)
aproximación de Q (λ) de acuerdo a (3.31). También se muestra la gráfica de Q
en función de λ. Se observa que ambas curvas alcanzan sus máximos en regiones próximas. En
bS = 0.1864 son muy cercanos.
particular, sus puntos de máximo λn = 0.1914 y λ
e (azul) en función de λ.
Figura 3-3: Gráficas de Q (rojo) y Q
61
e (azul) para distintas muestras en función de λ.
Figura 3-4: Gráficas de Q (rojo) y de Q
1X
n
1
Seλ (θ; Y,X) = lλ (θ; Y,X) = Hλ,i (θ; Y,X) , (3.32)
n n i=1
donde
¡ ¢ 1 1 ³ 2 2
´
Hλ,i (θ; Y,X) = H θ;e e2λ , xi = ln √
µλ (xi ) , σ − 2 σ µλ (xi ) − x0i β) .
eλ + (e
2πσ 2σ
Nótese que (3.32) es una versión empírica de su contraparte poblacional:
³ ´ 1X n
e
Sλ (θ) = Eθ 0 Sλ (θ; Y,X) = Eθ (Hλ,i (θ; Y,X)) .
n i=1 0
62
Los valores esperados Eθ 0 (Hλ,i (θ; Y,X)) no se obtienen explícitamente, por lo que los aproxi-
mamos por simulaciones. Específicamente, dadas R réplicas {(y1r , ..., ynr )}, r = 1, ..., R, generadas
según la distribución multivariada Nn (Xβ0 , σ 20 I), se realiza la siguiente aproximación por pro-
mediación:
1X ¡ r
R
¢
Eθ0 (Hλ,i (θ; Y,X)) ≈ H θ;e σ rλ )2 , xi ,
µλ (xi ) , (e
R r=1
1X1X ¡ r
n R
¢
Sλ (θ) ≈ H θ;e σ rλ )2 , xi .
µλ (xi ) , (e (3.33)
n i=1 R r=1
Tomando aquí λ = λn (donde λn está definida por (3.30)) se obtiene el valor del parámetro
estimador de θλn , no del verdadero valor del parámetro θ 0 . Para muestras no muy grandes,
bb suelen estar tan lejos de θ0 que la comparación con este carece de interés; mientras
θλn y θ λS
bb es mucho menor. El parámetro prácticamente bien estimable y
que la distancia entre θ λn y θ λS
de interés para muestras finitas es θ λn . Este hecho es incluso general para cualquier estimador
dependiente de la elección de un parámetro de control λ.
Otro punto conceptualmente importante, relacionado con el anterior, es que la VS SeλbS (θ; Y,X)
es ante todo un estimador de Sλn (θ).
De acuerdo a estas consideraciones, la calidad de la estimación por máxima VS debe juzgarse
comparando θ bb con θλn y Seb (θ; Y,X) con Sλn (θ).
λS λS
Con el fin de ilustrar esto en las Figuras 3-5 y 3-6 se muestran las gráficas de las funciones
SeλbS (θ; Y,X) y Sλn (θ) según (3.32) y (3.33), respectivamente, además de las gráficas de las
63
funciones de log-verosimilitud clásica (VC) dividida entre n según:
1X
n
1
Svc (θ; Y,X) = l (θ; Y,X) = ln f (yi /xi ; θ) ,
n n i=1
n · ´¸
1X 1 1 ³ 2 0 2
S (θ) = ln √ − σ 0 + (µ0 − xi β) .
n i=1 2πσ 2σ 2
Para facilitar la visualización, en la Figura 3-5 se fijan todas las componentes de θ = (β, σ 2 )
bV C , θ 0 , θ
excepto el coeficiente β 1 (que varía en eje de abcisa), en θ bb o θλn según se trate de
λS
la gráfica de Svc (θ; Y,X), S (θ), Seλb S (θ; Y,X) o Sλn (θ) respectivamente. Análogamente en la
Figura 3-6 se fijan todas las componentes excepto β 5 .
Figura 3-5: Gráficas de las funciones (i): Svc (·; Y,X), (ii): S (·), (iii): SeλbS (·; Y,X) y (iv): Sλn (·)
en función de la componente β 1 de θ.
64
En la Figura 3-5 se observa que todas las curvas de las funciones Svc (·; Y,X), S (·), SeλbS (·; Y,X)
y Sλn (·) alcanzan sus máximos en regiones muy próximas del verdadero valor de la componente
β 01 de β 0 . Por el contrario, la Figura 3-6 muestra que, con respecto a la última componente β 5 de
β, la función de log-verosimilitud clásica Svc (·; Y,X) alcanza su máximo en una región bastante
alejada del verdadero valor de la componente β 05 de β0 , que es donde alcanzan sus máximos el
resto de dichas funciones.
Figura 3-6: Gráficas de las funciones (i): Svc (·; Y,X), (ii): S (·), (iii): SeλbS (·; Y,X) y (iv): Sλn (·)
en función de la componente β 5 de θ.
bV C , θ
En la Tabla IV se muestran los valores de θ 0 , θ bb y θλn .
λS
Tanto las Figuras 3-5 y 3-6 como la Tabla IV muestran la buena calidad de la estimación
bb , su mucho mayor cercanía a θλn comparada con la
por máxima verosimilitud suavizada θ λS
bV C obtenida por máxima verosimilitud clásica (mínimos cuadrados).
estimación θ
65
Conclusiones
Los resultados obtenidos en este trabajo de tesis nos permiten concluir que:
1. A diferencia de la verosimilitud penalizada, la verosimilitud suavizada (VS) tiene una
interpretación directa como divergencia de Kullback-Leibler, no requiere de la especificación de
un funcional de penalización por el investigador y ofrece un nuevo enfoque para la estimación de
parámetros en modelos estadísticos de distribuciones continuas de variada complejidad evitando
el sobreajuste.
2. En el modelo de mezcla de densidades Gaussianas con varianzas distintas, la estimación por
máxima VS no presenta el conocido problema de degeneración de la estimación máximo verosímil
ni las limitaciones del estimador restringido de Hathaway [16], ni requiere de la especificación de
una distribución previa para los parámetros.
Tales estimaciones pueden aproximarse mediante un algoritmo tipo EM que es computa-
cionalmente simple y muestra buen comportamiento en simulaciones para valores no grandes del
ancho del núcleo.
3. En modelos de regresión lineales con diseño aleatorio, el estimador por máxima VS de
los coeficientes coincide con el estimador por mínimos cuadrados regularizado en el sentido de
Tijonov con respecto a la norma Euclidiana (“ridge regression”).
4. En modelos de regresión lineales con diseño no aleatorio, el estimador por máxima VS de
los coeficientes tiene la forma de un estimador por mínimos cuadrados calculado sobre la base
de un suavizamiento de los datos de la variable respuesta. Bajo condiciones bastante generales
es consistente en probabilidad. Aplicado a modelos de regresión polinomiales, muestra por simu-
laciones un comportamiento comparable al del mejor polinomio elegido por validación cruzada
generalizada (VCG) pero con mayor cercanía esperada a la verdadera densidad en el sentido de
similitud de Kullaback-Leibler.
66
Recomendaciones para el trabajo futuro
67
Bibliografía
[2] Burbham, K. P., Anderson, D. R. (2002). Model Selection and Multimodel Inference.
Springer: New York.
[3] Carlin, B.P. and T.A. Louis (1996). Bayes and Empírical Bayes Methods for Data Analysis.
London: Chapman and Hall.
[4] Ciuperca, G.,Ridolfi, A., Idier, J. (2003). Penalized maximum likelihood estimator for normal
mixtures. Scandinavian Journal of Statistics. 30: 45-59
[5] Cox, D. R., Hinkley, D. V. (1974). Theoretical Statistics. Chapman and Hall: London.
[6] Dempster, A., Laird, N., and Rubin, D. (1977). Maximum likelihood from incomplete data
via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1):1—38.
[7] Devroye, L. and Lugosi, G. (2001). Combinatorial Methods in Density Estimation. Springer:
New York.
[8] Diebolt, J. and Robert, C. (1994). Estimation of finite mixture distributions through a
Bayesian sampling. J. Roy. Statist. Soc. Ser. B 56, 363-375.
[9] Edwards, A. W. F. (1992). Likelihood. Expanded Edition. The Johns Hopkins University
Press: Baltimore and London.
[10] Efron, B. (1982). The Jacknife, the Bootstrap and Other Resampling Plans. Regional Con-
ference Series in Applied Mathematics, No.38. Philadelphia: SIAM.
68
[11] Efron, B. and Tibshirani, R. J. (1993). An Introduction to the Bootstrap. Chapman & Hall:
New York.
[13] Golub, G., Heath, M. and Wahba, G. (1979). Generalized crossvalidation as a method for
choosing a good ridge parameter. Technometrics 21: 215-224.
[14] Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J. and Stahel, W. A. (1986). Robust Sta-
tistics. The Approach Based on Influence Functions. John Wiley & Sons: New York.
[15] Härdle, W. (1994). Applied Non-parametric Regression. Cambridge Univ. Press: Cambridge.
[17] Kullback, S. (1959). Information Theory and Statistics. John Wiley & Sons: New York.
[18] McLachlan, G. J. and Basford, K. E. (1987). Mixture Models, Inference and Applications to
Clustering. Marcel Dekker: New York.
[21] Prakasa Rao, B. L. S. (1983). Nonparametric Functional Estimation. Academic Press: Or-
lando.
[22] Redner, R. A. (1981). Note on the consistency of the maximum likelihood estimate for
non-identifiable distributions. Ann. Statist. 9, 225-228.
[23] Ridolfi, A., Idier, J. (1999). Penalized maximum likelihood estimator for univariate normal
mixture distributions. En Actes du 17 e colloque GRETSI, 259-262, Vannes, France.
[24] Ridolfi, A., Idier, J. (2000). Penalized maximum likelihood estimator for univariate normal
mixture distributions. Bayesian inference and maximum entropy methods, MaxEnt Work-
shops. Gif-sur-Yvette, France, July 2000.
69
[25] Sprott, D. A. (2000). Statistical Inference in Science. Springer: New York.
[26] Stephens, M. (2000). Bayesian analysis of mixture models with unknown number of compo-
nents —an alternative to revesible jumps methods. Ann. Statist. 28, 40-74.
[27] Titterington, D. M., Smith, A. F. M., Makov, U. E.(1985). Statistical Analysis of Finite
Mixture Distributions. John Wiley & Sons.
[29] Van der Vaart, A.W. (1998). Asymptotic Statistics. Cambridge Univ. Press: Cambridge.
[30] Wahba, G. (1977). A survey of some smoothing problems and the method of generalized
cross-validation for solving them. In: Applications of Statistics, P. Krishnaiah (ed.), North
Holland, Amsterdam.
[31] Watson, G. S. (1964). Smooth regression analysis, Sankhya, Series A 26: 359-372.
70