Está en la página 1de 73

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/266558111

Estimación de parámetros basada en la función de verosimilitud suavizada

Thesis · June 2006


DOI: 10.13140/2.1.4132.2249

CITATIONS READS

0 413

1 author:

Lilian Muñiz Alvarez


Broward College
12 PUBLICATIONS 28 CITATIONS

SEE PROFILE

All content following this page was uploaded by Lilian Muñiz Alvarez on 07 October 2014.

The user has requested enhancement of the downloaded file.


U
UNN II V
V EE RR SS II D
DAAD
D D
D EE LL A
A H
HAA BB A
ANNA
A
FFA
ACCU
ULLTTA
ADDD
DEE M
MAATTEEM
MÁÁTTIIC
CAA YY C
COOM
MPPU
UTTA
ACCIIÓ
ÓNN

TT EE SS II SS D
D EE M
MAA EE SS TT RR ÍÍ A
A

““EEssttiim
maac
ciió
ónn d
deep
paarrá
ámme
ettrro
oss b
baassa
adda
aeenn lla
a
ffuunnc
ciió
ónn d
dee vve
erro
ossiim
miilliittuud
d ssuua
avviizza
adda
a””

A
AUUTTO
ORRA
A:: LLiicc.. LLiilliia
ann M
Muuññiizz A
Allvva
arreezz

TTUUTTO
ORR:: D
Drr.. RRoolla
annd
doo JJ.. BBiisscca
ayy LLiirriioo

C
Ciiuuddaadd ddee LLaa H
Haabbaannaa,,
JJuunniioo,, 22000066
Agradecimientos

A mi Tutor Rolando Biscay, por su ejemplo como maestro, como investigador,


y por su dedicación y ayuda en todos estos años,

A mis profesores por sus enseñanzas y servirme de guía y orientación en el


mundo de la Matemática,

A mis amigos más cercanos, por su cariño, por acompañarme en estos cinco
años,

A los compañeros del ICIMAF, por su cálida acogida,

A Luis, por su incondicional apoyo,

A mi hermano, mis padres y mis abuelos.


Índice general

Introducción 2

1. La función de log-verosimilitud suavizada para observaciones iid 6


1.1. Log-verosimilitud suavizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Estimadores de máxima verosimilitud suavizada . . . . . . . . . . . . . . . . . . . 10
1.3. Selección del ancho del núcleo en la verosimilitud suavizada . . . . . . . . . . . . . 10
1.4. Propiedades básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2. Aplicación a la estimación de mezclas de densidades Gaussianas 14


2.1. Problema de mezcla de densidades Gaussianas . . . . . . . . . . . . . . . . . . . . 14
2.2. La función de log-verosimilitud suavizada para mezclas de densidades Gaussianas 16
2.3. Un algoritmo tipo EM para estimar los parámetros de un modelo de mezclas de
densidades Gaussianas por máxima verosimilitud suavizada . . . . . . . . . . . . . 17
2.3.1. Algoritmo EM clásico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.2. Motivación e idea del algoritmo EM basado en la función de VS . . . . . . 20
2.3.3. Fórmulas explícitas del algoritmo EM basado en la función de VS . . . . . 24
2.4. Resultados de simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3. La función de log-verosimilitud suavizada para modelos de regresión 37


3.1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2. Regresión con diseño aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1. Caso no lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2. Caso lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3. Regresión con diseño no aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.1. Caso no lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.2. Caso lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4. Resultados de simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Conclusiones 66

Recomendaciones para el trabajo futuro 67

Bibliografía 68

1
Introducción

Antecedentes y motivación

La función de log-verosimilitud l (θ), salvo cambio de signo y constantes aditiva y multiplica-


tiva, es una versión empírica de la divergencia de Kullback-Leibler D (f, f (·; θ)) de la densidad
según el modelo f (·; θ) con respecto a la densidad de los datos f . De este modo constituye una
medida empírica de ajuste de cada distribución del modelo.
La divergencia de Kullback-Leibler y la función de log-verosimilitud asociada a ella son instru-
mentos claves de la inferencia estadística acerca de modelos paramétricos (ver e.g. [5], [9], [25], [1]).
Sobre su base se ha desarrollado la llamada inferencia basada en verosimilitud, que comprende
las regiones de verosimilitud, las regiones de verosimilitud-confianza, los estimadores máximo
verosímiles y las dócimas de hipótesis basadas en cocientes de verosimilitud.
Sin embargo, el enfoque basado en verosimilitud presenta serias limitaciones en ciertos casos.
En especial:
1) No es directamente aplicable a situaciones en las que no se conoce un modelo paramétrico
regular para la distribución de los datos. Esto ocurre, por ejemplo, cuando el modelo especificado
consiste en una familia de distintos modelos paramétricos regulares; en particular, cuando el
modelo está formado por una unión finita o infinita de submodelos de diferentes dimensiones.
2) Aún cuando el modelo sea regular, si la “complejidad” del espacio paramétrico (en particu-
lar, el número de parámetros) es grande en comparación con la cantidad de datos disponibles, el
enfoque basado en verosimilitud no evita el llamado fenómeno de “sobreajuste” de parámetros.
En efecto, la maximización de la log-verosimilitud l (θ) con respecto al parámetro θ conduce a
b del modelo más cercana (en sentido de divergencia Kullback-Leibler) a
elegir la densidad f (·; θ)
b es el estimador máximo verosímil. Si el espacio de parámetros
la densidad empírica fn , donde θ
Θ tiene alta complejidad (es “muy grande”) en comparación con el número de datos, entonces
b resultará muy cercana a la densidad empírica fn , que es una densidad degenerada.
f (·; θ)

2
En tales situaciones se utilizan enfoques alternativos que constituyen modificaciones del en-
foque de verosimilitud. Los principales pueden resumirse del modo siguiente:
a) En el caso de modelos que comprenden submodelos regulares de varias dimensiones, usual-
mente se aplican primero técnicas de selección de modelos, y posteriormente se realiza la infe-
rencia basada en verosimilitud para el modelo seleccionado. La selección suele hacerse mediante
criterios informacionales (como AIC; ver [2], y bibliografía citada allí) o criterios de remuestreo
(ver por ejemplo [10]).
b) Otro enfoque alternativo de gran generalidad es el de verosimilitud penalizada. Este se
basa en sustituir la función de verosimilitud por la función consistente en la adición de la log-
verosimilitud y un término de penalización [12]. Ello conduce a estimadores de máxima verosi-
militud penalizada, que incluyen a los estimadores Bayesianos MAP como caso particular [3].
El término de penalización es típicamente ponderado mediante un hiper-parámetro no negativo,
que suele seleccionarse mediante criterios de remuestreo o informacionales.
A pesar de sus virtudes, estos enfoques alternativos tienen también algunos inconvenientes.
En el enfoque (a), la inferencia se desintegra en una fase de selección de modelos e hiper-
parámetros y otra posterior fase de estimación y prueba de hipótesis (clásicas) dentro del modelo
seleccionado. En esta última fase se suele ignorar la incertidumbre estadística derivada de las
decisiones tomadas en la primera fase.
El enfoque (b) requiere de la especificación de un funcional de penalización sobre el espacio de
parámetros, lo que eventualmente puede resultar engorroso y frecuentemente se realiza por parte
del investigador mediante criterios más o menos arbitrarios ajenos a la divergencia Kullback-
Leibler (e.g., diversas medidas de complejidad o suavidad del modelo).
En el presente trabajo de tesis se presenta y estudia una modificación de la función de log-
verosimilitud (que llamamos función de log-verosimilitud suavizada) con el propósito de encarar
las situaciones descritas. Lo esencial del nuevo enfoque puede describirse brevemente del modo
siguiente. Los enfoques (a) y (b) mencionados, al minimizar la divergencia de Kullback-Leibler
D (fn , f (·; θ)), evitan el fenómeno de sobreajuste imponiendo restricciones sobre el conjunto
de valores posibles del parámetro. Alternativamente, el sobreajuste puede también evitarse im-
poniendo en esta minimización restricciones sobre la densidad empírica fn , en lugar de sobre el
parámetro θ; por ejemplo, sustituyendo la densidad empírica por una versión suavizada fλ , de
modo que el problema de estimación se convierta en minimizar el funcional D (fλ , f (·; θ)). Esta
es la idea clave de la función de log-verosimilitud suavizada. Más específicamente, (salvo cambio

3
de signo y una constante aditiva) la función de log-verosimilitud suavizada es definida como la
divergencia Kullback-Leibler de la densidad del modelo con respecto a un suavizamiento (por
núcleo) de la distribución empírica de los datos.
Conviene resaltar que el propósito del enfoque de verosimilitud suavizada no es lograr una
mejora estadística con respecto al enfoque de verosimilitud penalizada. Este último resulta muy
eficiente cuando el funcional de penalización es adecuado. El interés principal del nuevo enfoque
es ofrecer una alternativa flexible y simple que no requiera de la especificación de funcionales de
penalización. La situación aquí es análoga a la existente en la teoría de estimación no paramétrica
de densidades. En efecto, el problema de estimar no paramétricamente una función de densidad a
partir de una muestra puede tratarse como un problema de regularización asociado a un término
de ajuste y un término de penalización convenientes (ver [12], [28]). Pero ello requiere de la
elección de un funcional de penalización y de la resolución del complejo problema variacional
correspondiente. Alternativamente, es sabido que los estimadores por núcleos ofrecen un método
flexible y simple de estimación de densidades sin necesidad de especificar una penalización (ver
[20], [21], [7]).
En general, el énfasis de nuestra investigación se orienta a la introducción del nuevo enfoque,
la elaboración de métodos de estimación basados en él y la evaluación mediante simulaciones de
sus bondades y factibilidad. Más precisamente, los objetivos y la estructura del presente trabajo
son los siguientes.

Objetivos

1. Introducir una modificación de la función de log-verosimilitud (que llamaremos log - vero-


similitud suavizada) tal que:
i) a diferencia de la verosimilitud penalizada, no requiera de la especificación de un término
de penalización;
ii) conserve la propiedad de ser una divergencia de Kullback-Leibler, y
iii) pueda ser utilizada como base de la inferencia en modelos constituidos por conjuntos
prácticamente arbitrarios de distribuciones sin conducir a sobreajustes.
2. Definir estimadores de los parámetros basados en la función de log-verosimilitud suavizada
y elaborar métodos para su cálculo.
3. Estudiar la aplicación de la función de log-verosimilitud suavizada a la estimación de
mezclas de densidades Gaussianas con varianzas distintas.
4. Estudiar la aplicación de la función de log-verosimilitud suavizada a la estimación de
modelos de regresión.

4
Estructura de la Tesis

En el Capítulo 1 se define la función de log-verosimilitud suavizada en el caso de muestras


consistentes en observaciones independientes e igualmente distribuidas (iid), así como los esti-
madores basados en ella. Además, se investigan algunas de sus propiedades básicas.
En el Capítulo 2 se aplica la función de log-verosimilitud suavizada al problema de esti-
mación de mezclas de densidades Gaussianas con varianzas distintas. Para esto se elabora un
algoritmo tipo EM para la estimación de los parámetros basado en la maximización de la fun-
ción de log-verosimilitud suavizada. Se presentan además resultados de simulación acerca del
comportamiento del método introducido.
En el Capítulo 3 es definida la función de log-verosimilitud suavizada para modelos de regre-
sión. Se formula con generalidad tanto en el caso de diseño aleatorio como en el de diseño no
aleatorio. Además, en ambos casos se elaboran métodos para la estimación de los parámetros,
tanto en el contexto de la regresión no lineal como en el de la regresión lineal. Se estudia con
más detalle la aplicación de la función de log-verosimilitud suavizada a la estimación de modelos
de regresión lineales. En particular, se presentan resultados de simulación acerca del compor-
tamiento de esta función en la estimación de un modelo de regresión polinomial con diseño no
aleatorio.
Finalmente, se plantean las conclusiones del trabajo realizado y algunas recomendaciones
para la investigación futura.

5
Capítulo 1

La función de log-verosimilitud
suavizada para observaciones iid

En este capítulo introduciremos la función de log-verosimilitud suavizada en el caso de ob-


servaciones independientes e igualmente distribuidas (iid). También definiremos los estimadores
basados en ella, a los cuales llamaremos estimadores de máxima verosimilitud suavizada. Además
investigaremos algunas de sus propiedades básicas.
En todo el capítulo usaremos las notaciones siguientes. (X , {f (·; θ) : θ ∈ Θ}) será un modelo
estadístico formado por un conjunto de funciones de densidad f (·; θ) sobre un mismo espacio
muestral X ⊂ Rd , indizadas por un parámetro θ con valores en el espacio Θ. Supondremos
siempre que estas densidades son con respecto a la medida de Lebesgue sobre Rd .

1.1. Log-verosimilitud suavizada


Definiremos primero el concepto de divergencia de Kullback-Leibler [17] debido a su gran
importancia en el contexto de este trabajo.

Definición 1.1.1 Para todo θ, θ 0 ∈ Θ, la divergencia de Kullback-Leibler (KL) de f (·; θ)


con respecto a f (·; θ0 ) se define como:
Z
f (z; θ0 )
D(f (·; θ0 ), f (·; θ)) = f (z; θ0 ) ln( )dz
f (z; θ)
Z Z
= f (z; θ0 ) ln f (z; θ0 )dz − f (z; θ 0 ) ln f (z; θ)dz. (1.1)

6
La entropía de la densidad f (·; θ0 ) se define como:
Z
H (f (·; θ0 )) = − f (z; θ0 ) ln f (z; θ 0 )dz.

Además definimos la similitud de Kullback-Leibler (similitud de KL) de f (·; θ) con respecto


a f (·; θ 0 ) como: Z
S(f (·; θ0 ), f (·; θ)) = f (z; θ0 ) ln f (z; θ)dz. (1.2)

En estas expresiones, dz denota a la medida de Lebesgue sobre Rd . Además, aquí y en todo


lo que sigue, salvo que se indique otra cosa, todas las integrales son sobre el conjunto X .
Nótese que D(f (·; θ0 ), f (·; θ)) tiene la propiedad de tomar valores no negativos, y cumple
que si f (·; θ0 ) = f (·; θ) (casi dondequiera) entonces D(f (·; θ 0 ), f (·; θ)) = 0. Mientras menor
sea el valor D(f (·; θ0 ), f (·; θ)), más parecida es la función de densidad f (·; θ) a la función de
densidad f (·; θ0 ).
Obviamente se cumple que:

D(f (·; θ0 ), f (·; θ)) = −S(f (·; θ0 ), f (·; θ)) − H (f (·; θ 0 )) .

Luego mientras mayor sea el valor de S(f (·; θ0 ), f (·; θ)), más parecida es la función de den-
sidad f (.; θ) a la función de densidad f (·; θ 0 ). De ahí el nombre de “similitud”.
Dada una muestra aleatoria de n observaciones independientes e igualmente distribuidas
x = (x1 , ..., xn ) ∈ X n de la distribución con densidad f (.; θ 0 ), la función de log-verosimilitud es:

X
n
l (θ) = l (θ; x) = ln f (xi ; θ). (1.3)
i=1

Puede obtenerse una versión empírica de la divergencia de KL D(f (·; θ0 ), f (·; θ)) mediante
la sustitución de f (·; θ0 ) por la densidad empírica fn de la muestra, es decir, la asociada a la
distribución discreta que asigna masa 1/n a cada una de las observaciones xi , i = 1, ..., n. O sea,

1X
n
D(fn , f (·; θ)) = − ln f (xi ; θ) − H (fn ) .
n i=1

El segundo término de esta expresión es constante respecto a θ y el primero no es más que


la función de log-verosimilitud (1.3) salvo cambio de signo y escalamiento por la constante 1/n.

7
Esta constante multiplicativa no afecta al cálculo de los estimadores máximo verosímiles ni a
la determinación de las regiones de verosimilitud. Luego, salvo cambio de signo y constantes
aditiva y multiplicativa, la función de log-verosimilitud es una versión empírica de la divergencia
de Kullback-Leibler (1.1). Más precisamente, es la similitud de KL (1.2) de una densidad del
modelo con respecto a la medida de probabilidad empírica de los datos:

Z
1X
n
1 1
l (θ) = l (θ; x) = ln f (xi ; θ) = fn (z) ln f (z; θ)dz =S (fn , f (·; θ)) .
n n n i=1

Por tanto, la maximización de la función de log-verosimilitud (1.3) con respecto al parámetro


b del modelo más cercana (en sentido de similitud de KL) a
θ conduce a elegir la densidad f (·; θ)
b es el estimador máximo verosímil de θ 0 .
la densidad empírica, donde θ
Si el espacio de parámetros Θ tiene alta complejidad (es “muy grande”) en comparación con
b resultará muy cercana a la densidad empírica, que es una
el número de datos, entonces f (·; θ)
densidad degenerada. Ello se conoce con el nombre de sobreajuste de parámetros. Un enfoque
que introduciremos para evitar este fenómeno es sustituir en (1.3) la densidad empírica por una
versión suavizada de ella. Esta es la idea clave que subyace a la siguiente definición de función
de log-verosimilitud suavizada como similitud de KL del modelo con respecto a una estimación
por núcleo de la densidad de los datos.

Definición 1.1.2 Dadas observaciones independientes e igualmente distribuidas x1 , ..., xn con


densidad f (·; θ0 ), definimos la función de log-verosimilitud suavizada (VS) como:
Z
lλ (θ) = lλ (θ; x) = fλ (z) ln f (z; θ) dz, (1.4)

donde x = (x1 , ..., xn ) y fλ es una estimación no paramétrica por núcleo de la densidad f (.; θ0 ).
O sea,
1X
n
fλ (z) = Kλ (z − xi ) . (1.5)
n i=1

Aquí
1 ³u´
Kλ (u) = d K ,
λ λ
y el núcleo K es una función de densidad sobre X (o sea, no negativa y cuya integral es uno).
Supondremos además que K es siempre simétrica con respecto al cero. El parámetro no negativo
λ es llamado ancho del núcleo.

8
Amplia información sobre la teoría de estimadores de densidades por núcleos puede consul-
tarse en [29], [20], [21] y [7].
Nótese que:
a) Salvo cambio de signo y una constante aditiva, la función de log-verosimilitud suavizada
lλ (θ) es la divergencia de KL (1.1) de f (.; θ) con respecto al suavizamiento por núcleo fλ de la
distribución empírica de los datos. O también, lλ (θ) es la similitud de KL (1.2) de f (·; θ) con
respecto al suavizamiento por núcleo fλ ; es decir, lλ (θ) = S (fλ , f (·; θ)).
b) Como demostraremos más adelante, lλ (θ) contiene a la función de log-verosimilitud clásica
(1.3) como caso particular cuando el ancho λ tiende a cero.
c) El suavizamiento por núcleo (1.5) involucrado en la definición de lλ (θ) es un suavizamiento
con respecto a los datos, no con respecto al parámetro.
Esta última característica es más evidente a partir de la relación

fλ (z) = Kλ ∗ fn (z) ,

donde “∗” denota la operación de convolución de funciones. Es decir, fλ es el resultado de suavizar


la función fn mediante su convolución con un núcleo suave Kλ .
Tal suavizamiento con respecto a los datos tiene varias consecuencias estadísticas importantes:
i) fλ es una densidad más “suave” (en sentido de normas de derivadas) que fn ; y por tanto,
lλ (θ) = S (fλ , f (·; θ)) es la similitud del modelo f (·; θ) con respecto a una densidad más suave
que la densidad empírica con respecto a la cual se considera la similitud en la log-verosimilitud
clásica l (θ) = nS (fn , f (·; θ)). Por tanto, al maximizar lλ (θ) con respecto al parámetro θ, el
b pues tal
efecto indirecto del suavizamiento es la imposición de suavidad sobre el ajuste f (·; θ),
b se busca por cercanía a una densidad suave.
máximo θ
ii) El valor de la función de influencia de cada dato (ver [14]) sobre l (θ) es mayor que el valor
de la función de influencia de cada dato sobre lλ (θ). De este modo se reduce la sensibilidad de
b con respecto a cada dato xi , y por tanto se disminuye el grado de
la estimación resultante θ
sobreajuste en cuanto es medido por la función de influencia.

9
1.2. Estimadores de máxima verosimilitud suavizada
Mediante la maximización con respecto a θ de la función de log-verosimilitud (1.3) se obtiene,
b de θ0 . Análogamente, maximizando la función
como es sabido, el estimador máximo verosímil θ
de log-verosimilitud suavizada (1.4) definiremos el estimador de máxima verosimilitud suavizada
bλ de θ0 .
θ

bλ de θ0 se define
Definición 1.2.1 El estimador de máxima verosimilitud suavizada θ
como: Z
bλ = arg máx {lλ (θ; x)} = arg máx
θ fλ (z) ln f (z; θ) dz,
θ θ

donde la maximización es con respecto a θ ∈ Θ.

1.3. Selección del ancho del núcleo en la verosimilitud


suavizada
El ancho del núcleo λ es un parámetro que controla el grado de suavizamiento de la densidad
empírica en la función de log-verosimilitud suavizada. Si λ ' 0 entonces fλ ' fn y por tanto
lλ (θ) ' l (θ). Si λ → ∞ entonces fλ tiende a ser una distribución uniforme.
Existen varios enfoques generales para la selección estadística de parámetros de control como
λ. (ver por ejemplo [12], [7], [11]). Los principales son:
1) Selección “manual” por el usuario, basándose en análisis exploratorio de los datos, gráficos
asociados, etc (“tunning control parameters”).
2) Selección por minimización de criterios informacionales, como variantes de AIC, MLD
(“minimum length description”), etc.
3) Selección por minimización de criterios predictivos basados en remuestreo, como validación
cruzada, bootstrap, etc.
4) Selección por minimización de criterios asintóticos estimados por sustitución (“plug-in”).
Seguiremos un enfoque de remuestreo para la selección de λ sobre la base de los datos.
b para el ancho λ según el siguiente criterio por
Específicamente, determinaremos un valor λ
validación cruzada:
X
n ³ (i)
´
b = arg máx
λ b
ln f xi ;θλ , (1.6)
λ i=1

10
donde Z
b(i)
θ = arg máx
(i)
fλ (z) ln f (z; θ) dz,
λ
θ

(i)
y fλ es la estimación por núcleo de f (·; θ 0 ) basada en todos los datos menos xi .
Nótese que (1.6) es una manera de hallar λ de modo que se maximice la log-verosimilitud de
los datos en un sentido predictivo. Además, este criterio tiene en cuenta la forma del modelo. Si
el modelo es muy “grande” en comparación con la cantidad de datos y λ es pequeño entonces
b(i) tenderá a predecir mal el dato xi .
tenderá a ocurrir sobreajuste, y por tanto cada estimación θ λ

Por el contrario, si el modelo no es “grande” en comparación con la cantidad de datos, entonces


el sobreajuste no es notable, y por tanto se obtendrán buenas predicciones con valores pequeños
b tenderá a ser menor cuanto mayor sea el “tamaño” del modelo en
de λ. Luego en general λ
comparación con la cantidad de datos disponibles.

1.4. Propiedades básicas


La siguiente propiedad muestra que la función de log-verosimilitud suavizada lλ (θ) contiene,
salvo escalamiento por la constante 1/n, a la función de log-verosimilitud clásica (1.3) como caso
particular cuando el ancho λ tiende a cero.

Proposición 1.4.1 Supongamos que el núcleo K es una función de densidad que satisface:

sup K (u) < ∞ (1.7)


u∈Rd

(o sea, K es una función acotada) y

lı́m kuk kK (u)k = 0. (1.8)


kuk→∞

Supongamos además que ln f (z; θ) es continua respecto a z y que para todo i = 1, ..., n,
Z
Kλ (z − xi ) ln f (z; θ) dz −→ 0 (1.9)
M→∞
kzk>M

uniformemente con respecto a θ ∈ Θ y a 0 < λ ≤ 1. Entonces

1
lλ (θ; x) −→ l (θ; x) .
λ→0 n

11
Demostración
¡ ¢
Es sabido que para toda función g ∈ L1 Rd continua en u, bajo las condiciones (1.7) y (1.8)
se cumple que: Z
Kλ (z − u) g (z) dz−→g (u) .
λ→0

(ver por ejemplo lema pág. 55 en [28]). Definamos

gM (z) = ln f (z; θ) 1kzk≤M (z) .

Entonces para todo M > máx {kx1 k , ..., kxn k} y θ ∈ Θ se tiene que:
Z
Kλ (z − xi ) gM (z) dz−→gM (xi ) = ln f (xi ; θ) .
λ→0

Además, la condición (1.9) implica que:


Z Z
Kλ (z − xi ) ln f (z; θ) dz − Kλ (z − xi ) ln gM (z) dz −→ 0
M→∞

uniformemente con respecto a θ ∈ Θ y a 0 < λ ≤ 1.


Esto concluye la demostración.¥

El siguiente Lema será muy utilizado en este trabajo. Puede encontrarse en [17].

Lema 1.4.1 Si f (·;µ1 , σ 21 ) y f (·;µ2 , σ 22 ) son las funciones de densidad de dos distribuciones
Gaussianas univariadas N (µ1 , σ 21 ) y N (µ2 , σ 22 ) respectivamente, entonces la función de similitud
de KL de f (·;µ2 , σ 22 ) con respecto a f (·;µ1 , σ 21 ) es:
µ ¶
¡ ¡ ¢ ¡ ¢¢ 1 1 £ ¤
2 2
S f ·;µ1 , σ 1 , f ·;µ2 , σ 2 = ln √ − 2 σ 21 + (µ1 − µ2 )2 .
2πσ 2 2σ 2

Demostración
Denotemos por E(µ1 ,σ2 ) el valor esperado con respecto a f (·;µ1 , σ 21 ). Entonces se tiene que:
1

12
Z
¡ ¡ ¢ ¡ ¢¢ ¡ ¢ ¡ ¢
S f ·;µ1 , σ 21 , f ·;µ2 , σ 22 = f z; µ1 , σ 21 ln f z;µ2 , σ 22 dz
¡ ¡ ¢¢
= E(µ1 ,σ2 ) ln f Z;µ2 , σ 22
1
· µ ¶¸
1 1 £ ¤
= E(µ1 ,σ2 ) ln √ − 2 E(µ1 ,σ2 ) (Z − µ2 )2
1
2πσ 2 2σ 2 1
µ ¶
1 1 £ ¤
= ln √ − 2 σ 21 + µ21 − 2µ2 µ1 + µ22
2πσ 2 2σ 2
µ ¶
1 1 £ ¤
= ln √ − 2 σ 21 + (µ1 − µ2 )2 .¥
2πσ 2 2σ 2

Como consecuencia del Lema 1.4.1 se tiene la siguiente propiedad de la función de log-
verosimilitud suavizada.

Proposición 1.4.2 Si un modelo estadístico está formado por funciones de densidad sobre X =R
correspondientes a distribuciones Gaussianas univariadas N (µ, σ 2 ), y se supone además que en
la definición 1.1.2 el núcleo K es la densidad N (0, 1), entonces la función de log-verosimilitud
suavizada correspondiente al modelo es:

n · µ ¶ ¸
¡ 2
¢ 1X 1 1 ¡ 2 2¢
lλ µ, σ ; x = ln √ − 2 λ + (xi − µ) ,
n i=1 2πσ 2σ

donde x = (x1 , ..., xn ) como en la definición 1.1.2.

Demostración
De la expresión (1.4) de lλ se tiene que en este caso particular:

Z
¡ 2
¢ 1X n
¡ ¢
lλ (θ; x) = lλ µ, σ ; x = Kλ (z − xi ) ln f z;µ, σ 2 dz,
n i=1

donde la integral que aparece en la expresión anterior es la similitud de KL de la densidad


f (·;µ, σ 2 ) con respecto a la densidad Kλ (· − xi ). Como el núcleo K es la densidad de la dis-
¡ ¢
tribución N (0, 1) entonces Kλ (· − xi ) es la densidad de la distribución N xi , λ2 . Por tanto del
Lema 1.4.1 se tiene que:

n · µ ¶ ¸
¡ 2
¢ 1X 1 1 ¡ 2 2¢
lλ µ, σ ; x = ln √ − 2 λ + (xi − µ) .¥
n i=1 2πσ 2σ

13
Capítulo 2

Aplicación a la estimación de mezclas


de densidades Gaussianas

En este capítulo estudiaremos el comportamiento de la función de log-verosimilitud suavizada


en la estimación de mezclas de densidades Gaussianas con varianzas distintas. Primeramente for-
mularemos el modelo de mezclas de densidades Gaussianas con varianzas distintas y discutiremos
las bien conocidas dificultades del enfoque de verosimilitud (clásico) para su estimación. Como
una alternativa, introduciremos la función de VS en este contexto. Además recordaremos el algo-
ritmo EM clásico para la estimación de los parámetros de este tipo de modelo, e introduciremos
un nuevo algoritmo del tipo EM basado en la función de VS, válido para valores pequeños del
ancho del núcleo. Finalmente, a través de simulaciones, realizaremos un estudio comparativo
entre las estimaciones del modelo que se obtienen por este nuevo método y por el algoritmo EM
clásico.

2.1. Problema de mezcla de densidades Gaussianas


Consideremos un modelo de mezclas de densidades Gaussianas, o sea, un modelo estadístico
paramétrico (X , {f (·; θ) : θ = (ξ, π) ∈ Θ = Ξ × Π}) formado por un conjunto de funciones de
densidad sobre el espacio muestral X = R dadas por:

X
m
f (·; θ) = f (·; ξ, π) = πj fξ j (·) , (2.1)
j=1

14
donde Π es el simplex formado por los puntos π = (π 1 , ..., π m ) tales que:

X
m
π j ≥ 0 ∀j = 1, ..., m y π j = 1,
j=1

¡ ¢m
Ξ = R × R∗+ , ξ = (ξ1 , ..., ξ m ), fξ j (·) es la densidad Gaussiana de parámetro ξ j = (µj , σ 2j ) y
m ≥ 2 es el número de componentes de la mezcla. El parámetro π j se dice la ponderación de
la densidad componente fξ j (·) de la mezcla. Supondremos que π j > 0 para todo j = 1, ..., m.
Llamaremos a f (·; θ0 ) la densidad mezcla y a los fξ j (·) (j = 1, ...m) las densidades compo-
nentes de la mezcla.
Supondremos además que se tiene una muestra x = (x1 , ..., xn ) de observaciones independien-
tes e igualmente distribuidas según la densidad f (·; θ 0 ), con θ 0 = (ξ0 , π0 ) ∈ Ξ × Π desconocido.
Existen diferentes enfoques para la estimación de los parámetros de este modelo (ver [18]),
como son estimadores de momentos, estimadores basados en distancias, etc. No obstante, el
enfoque basado en verosimilitud es el más usado.
La función de log-verosimilitud asociada a este modelo es:
Ãm !
X
n X
n X
l (θ) = ln f (xi ; θ) = ln π j fξ j (xi ) . (2.2)
i=1 i=1 j=1

Si se considera el modelo con varianzas de las componentes iguales, σ 2j = σ 2 (j = 1, ...m), en-


tonces el estimador máximo verosímil existe, es consistente y se puede aproximar numéricamente
mediante varios algoritmos como el EM (ver [18] y [27]).
Por el contrario, es sabido que para el modelo con varianzas distintas el estimador máximo
verosímil no existe. En efecto, la verosimilitud tiende a infinito cuando una de las medias se iguala
a uno de los datos, digamos µ1 = x1 , y la correspondiente varianza σ 21 se hace tender a cero;
luego el estimador máximo verosímil es “degenerado”, ocurriendo que sobre múltiples puntos de
la frontera de Θ la verosimilitud tiende a infinito. Existen resultados teóricos que garantizan que
existe una sucesión de puntos de máximo locales de la función de verosimilitud que constituyen
un estimador consistente. En particular, se cumple que para cualquier compacto Γ en Θ que
contiene a θ0 , el punto de máximo de la verosimilitud sobre Γ es un estimador consistente en
probabilidad (ver [22]). Pero tales resultados son de escasa utilidad práctica porque el verdadero
valor θ 0 es desconocido, y puede estar en principio arbitrariamente cerca de la frontera de Θ.

15
Para remediar esta situación se ha propuesto en [16] maximizar la verosimilitud sujeto a la
restricción de que:
máx σ 2i /σ 2j ≤ C,
1≤i,j≤m

donde C es una constante fijada (por ejemplo, C = 0.25). Sin embargo, este método no es
consistente y se comporta mal cuando las verdaderas varianzas no satisfacen dicha restricción.
Por otra parte, diferentes métodos Bayesianos han sido propuestos para la estimación de este
modelo (ver e.g. [8], [26], y las referencias en estos artículos). Pero ninguno de los trabajos dentro
de enfoques Bayesianos ni frecuentistas ofrecen una solución al problema de la degeneración,
excepto [23] y [24]. En estos últimos artículos se introduce un enfoque basado en verosimilitud
penalizada. Su consistencia ha sido recientemente demostrada en [4]. Este método puede inter-
pretarse también como un método Bayesiano con una distribución previa para las varianzas σ2j
consistente en una distribución Gamma invertida. Una dificultad es que esta distribución previa
depende de dos parámetros α, β > 0, y no se ofrece un procedimiento para elegirlos en la práctica.
No se ha propuesto aún un método no Bayesiano para abordar el problema de degeneración
en el modelo de mezclas de densidades Gaussianas con varianzas distintas. En las siguientes
secciones aplicaremos el enfoque de verosimilitud suavizada como una alternativa frecuentista
para su solución.

2.2. La función de log-verosimilitud suavizada para mez-


clas de densidades Gaussianas
La función de log-verosimilitud suavizada para el modelo de mezcla de densidades Gaussianas
(2.1) es un caso particular de (1.4). Tiene la forma:

Z Z " m #
X
lλ (θ) = lλ (θ; x) = fλ (z) ln f (z; θ) dz = fλ (z) ln π j fξ j (z) dz, (2.3)
j=1

donde x = (x1 , ..., xn ) ∈ Rn y fλ es la estimación por núcleo (1.5) de la verdadera densidad


f (·; θ 0 ).
Supondremos durante este capítulo que el núcleo K (·) es la densidad de la distribución
¡ ¢
N (0, 1), por lo que Kλ (· − xi ) es la densidad de la distribución N xi , λ2 .

16
La selección de λ puede hacerse como se propuso en el capítulo anterior según (1.6), tomando
ahora en particular la forma:
à m !
X
n ³ (i)
´ X
n X (i)
b = arg máx
λ b
ln f xi ;θ = arg máx ln bλ,j fbξ (i) (xi ) ,
π (2.4)
λ
λ λ λ,j
i=1 i=1 j=1

donde
Z Z Ãm !
³ (i) ´ X
= b
(i) (i) (i) (i)
θλ b λ = arg máx fλ (z) ln f (z; θ) dz = arg máx fλ (z) ln
ξλ , π π j fξ j (z) dz,
θ=(ξ,π) θ=(ξ,π) j=1

(i)
y fλ es la estimación por núcleo de la verdadera densidad f (.; θ0 ) basada en todos los datos
menos el xi .

2.3. Un algoritmo tipo EM para estimar los parámetros


de un modelo de mezclas de densidades Gaussianas
por máxima verosimilitud suavizada
2.3.1. Algoritmo EM clásico
Antes de introducir un algoritmo tipo EM para el cálculo del estimador de máxima vero-
similitud suavizada, recordemos el algoritmo EM clásico para hallar los estimadores máximo
verosímiles de los parámetros de este modelo, propuesto en [6]. Lo formularemos para el caso de
varianzas distintas aunque sabemos que el algoritmo EM puede dar estimaciones en la frontera
σ 2j = 0 para algún j), o sea, inadmisibles, en tal situación.
(b
El algoritmo EM se deriva a partir de aumentar la muestra original x = (x1 , ..., xn ) con datos
latentes (no observables) z1 , ...zn , los cuales constituyen una muestra de los vectores aleatorios
Zi , con Zi = (Zi1 , ...Zim ) tales que Zij = 1 si el dato xi es generado por la densidad fξj (·) y
Zij = 0 en caso contrario. De modo que la muestra completa es y = (y1 , ..., yn ), con yi = (xi , zi ),
i = 1, ..., n. ¡ ¢
Dado un valor inicial θ 0 para θ denotemos por Q θ; θ0 /x el valor esperado de la función
de log-verosimilitud l (θ; y) de la muestra completa y con respecto a la densidad condicional
¡ ¢
f ./x; θ0 de y dado x. O sea,

¡ ¢
Q θ; θ0 /x = Eθ 0 (l (θ; Y) /x) . (2.5)

17
En general, el algoritmo iterativo EM consta de dos pasos en cada iteración k:
³ k−1
´
b
Paso E: Cálculo de Q θ; θ /x .
³ ´
Paso M: Maximización de Q θ; θ bk−1 /x con respecto a θ. Se toma:

k
³ k−1
´
b b
θ = arg máxQ θ; θ /x .
θ=(ξ,π)

b0 , θ
Con la iteración de este algoritmo se obtiene una sucesión de estimaciones θ b1 , θ
b2 , ... de

θ0 que converge a la estimación máximo verosímil θ b de θ0 . Además, el algoritmo EM clásico


³ 0´ ³ 1´ ³ 2´
b ,l θ
tiene la propiedad de que la sucesión de valores l θ b ,l θ b , ... de la función de log-

verosimilitud (2.2) es monótona creciente.


La función de log-verosimilitud l (θ; y) de la muestra completa y que interviene en (2.5) se
halla de la siguiente forma:

Y
n X
n
l (θ; y) = ln f (yi ; θ) = ln f (yi ; θ) ,
i=1 i=1

donde

f (yi ; θ) = f (yi ; ξ, π) = f (xi /zi ; ξ) f (zi ; π) ,


m ³
Y ´zij
f (xi /zi ; ξ) = fξj (xi ) ,
j=1
Ym
z
f (zi ; π) = π j ij .
j=1

O sea,
m ³
Y ´zij
f (yi ; θ) = fξj (xi ) π j .
j=1

18
Por tanto,

X
n m ³
Y ´zij
l (θ; y) = ln fξj (xi ) π j
i=1 j=1
X
n X
m ³ ´
= zij ln fξj (xi ) π j
i=1 j=1
X m h
n X i
= zij ln fξj (xi ) + zij ln π j
i=1 j=1
Xn X m · µ µ ¶¶ ¸
1 1 ¡ ¢2
= zij ln √ exp − 2 xi − µj + zij ln πj
i=1 j=1
2πσ j 2σ j

Xn X m µ ¶ X n X m
1 ¡ 2
¢ 1 ¡ ¢2
= zij − ln 2πσ j − 2 xi − µj + zij ln π j .
i=1 j=1
2 2σ j i=1 j=1

Luego el paso E del algoritmo EM clásico tiene en este modelo la forma específica:

³ ´
Q θ; θbk−1 /x = E k−1 (l (θ; Y) /x)
b
θ
Ã( n m µ ¶ X ) !
XX 1 ¡ ¢ 1 ¡ ¢2
n X m
= Eθb k−1 Zij − ln 2πσ 2j − 2 xi − µj + Zij ln π j /x
i=1 j=1
2 2σ j i=1 j=1
XX
n m µ ¶ XX
n m
1 ¡ ¢ 1 ¡ ¢2
= Eθb k−1 (Zij /x) − ln 2πσ 2j − 2 xi − µj + Eθb k−1 (Zij /x) ln π j , (2.6)
i=1 j=1
2 2σ j i=1 j=1

donde
³ k−1
´
b
f xi /zij = 1; θ Pθb k−1 (Zij = 1)
Eθb k−1 (Zij /x) = Pθb k−1 (Zij = 1/xi ) = ³ ´
f xi ; θbk−1

bk−1
π j fbξk−1 (xi )
j
= ,
X
m
blk−1 fbξk−1
π (xi )
l
l=1

k−1
³ k−1 ´
b
con θ b
= ξ ,π b k−1
.
Por otra parte, el paso M, consistente en la maximización con respecto a θ = (ξ, π) de
³ k−1
´ k
³ k ´
b b b
Q θ; θ /x , equivale a hallar las estimaciones θ = ξ , π b k
por solución del sistema de
ecuaciones obtenido al igualar a cero las primeras derivadas parciales de (2.6) con respecto a π
y ξ. Se obtiene finalmente para j = 1, ..., m que:

19
X
n X
n
zbijk−1 zbijk−1 xi
i=1 i=1
bkj =
π , bkj =
µ , (2.7)
X
m X
n Xn
zbijk−1 zbijk−1
j=1 i=1 i=1
X
n ³ ´2
bkj
zbijk−1 xi − µ
¡ 2 ¢k i=1
bj
σ = , (2.8)
X
n
zbijk−1
i=1

donde
bk−1
π j fbξk−1 (xi )
zbijk−1 = P
m
j
, i = 1, ..., n, j = 1, ..., m. (2.9)
bk−1
π l fbξk−1 (xi )
l
l=1

Estas ecuaciones definen la recurrencia del algoritmo EM clásico para el modelo de mezcla
de densidades Gaussianas.
En el caso en que las varianzas de las densidades componentes de la mezcla se suponen iguales
se tiene la siguiente iteración para sus estimaciones:

X
m X
n ³ ´2
bkl
zbilk−1 xi − µ
¡ 2 ¢k l=1 i=1
bj =
σ , j = 1, ..., m. (2.10)
Xm X
n
zbilk−1
l=1 i=1

2.3.2. Motivación e idea del algoritmo EM basado en la función de


VS

A continuación elaboraremos un algoritmo tipo EM para la maximización iterativa de la


función de log-verosimilitud suavizada en el modelo de mezclas de densidades Gaussianas, válido
para valores pequeños del ancho del núcleo. Se basa en utilizar en la expresión (2.5), en vez de
la función de log-verosimilitud clásica, la función de log-verosimilitud suavizada.
Nos interesa maximizar la función de log-verosimilitud suavizada (2.3) asociada a este modelo.
Para ello, mantengamos las notaciones de datos latentes z1 , ...zn , con zi = (zi1 , ...zim ) y datos
completos y = (y1 , ..., yn ), con yi = (xi , zi ), i = 1, ..., n, tal como se definieron en la sección
anterior. Nótese que considerar los vectores aleatorios Zi ∈ {0, 1}m equivale a considerar las

20
variables aleatorias Ui ∈ {1, ..., m}, donde Ui = j si el dato xi es generado por la densidad fξj (·),
i = 1, ..., n y j = 1, ..., m. Por tanto, aumentaremos la muestra original x = (x1 , ..., xn ) con los
datos latentes u = (u1 , ..., un ) o z = (z1 , ...zn ) según sea más conveniente.
¡ ¢
Para todo θ, θ0 ∈ Θ, denotemos por Qα,λ θ; θ0 /x el valor esperado de la función de log-
verosimilitud suavizada lα,λ (θ; y) de la muestra completa y = (x, u) con respecto a la densidad
¡ ¢
condicional f ·/x; θ0 de y dado x. O sea,

¡ ¢
Qα,λ θ; θ0 /x = Eθ 0 (lα,λ (θ; Y) /x) , (2.11)

donde
Z Z
lα,λ (θ; y) = fα (u) fλ (x/u) ln f (x, u; θ) dudx
Z X
m
= fα (u) fλ (x/u) ln f (x, u; θ) dx. (2.12)
u=1

En la expresión anterior, fα (u) fλ (x/u) es una estimación no paramétrica de la densidad


del vector completo de variables (X, U) sobre la base de datos completos (xi , ui ), i = 1, ..., n.
Esta estimación la definimos mediante el estimador no paramétrico de la densidad f (u) de U de
acuerdo a:
1−αX
n
1
fα (u) = ziu + α , u = 1, .., m,
n i=1 m

donde α ≥ 0 es un parámetro de suavizamiento, y el siguiente estimador no paramétrico de la


densidad condicional f (x/u) = fξu (x) de X dado U = u:

1 X
n
fλ (x/u) = ziu Kλ (x − xi ) .
X
n
ziu i=1
i=1

¡ ¢
Para valores del parámetro α distintos de cero, el cálculo de Qα,λ θ; θ0 /x según (2.11)
presenta algunas dificultades numéricas y computacionales. Es por esto que tomaremos α = 0.
Por tanto, (2.12) se convierte en:

21
X
n

Z X Ã n ! ziu Kλ (x − xi )
m
1 X i=1
lλ (θ; y) = l0,λ (θ; y) = ziu ln f (x, u; θ) dx
n i=1 X
n
u=1
ziu
i=1
Z m n
1 XX
= ziu Kλ (x − xi ) ln f (x, u; θ) dx
n u=1 i=1
Z
1 XX
n m
¡ ¢
= ziu Kλ (x − xi ) ln fξu (x) π u dx
n i=1 u=1
m Z
1 XX
n
¡ ¢z
= Kλ (x − xi ) ln fξu (x) π u iu dx. (2.13)
n i=1 u=1

Dado un valor inicial θ0 para θ, el algoritmo EM basado en (2.11) para α = 0, en cada


iteración k = 1, 2, ... consiste en:
³ ´
Paso E: Cálculo de Qλ θ; θ bk−1 /x , donde
λ

³ ´ ³ k−1 ´
bk−1 /x = Q0,λ θ;θ
Qλ θ; θ b /x = E k−1 (l0,λ (θ; Y) /x) = E k−1 (lλ (θ; Y) /x) .
λ λ b
θ b
θ
λ λ

³ k−1
´
b
Paso M: Maximización de Qλ θ; θλ /x con respecto a θ. Se toma:

³ ´
bk = arg máxQλ θ; θ
θ bk−1 /x .
λ λ
θ=(ξ,π)

Con la aplicación de este algoritmo se obtiene una sucesión de estimaciones θb0 , θ


b1 , θ
b2 , ... de
λ λ λ
³ 0´ ³ 1´ ³ 2´
b , lλ θ
θ0 tal que la sucesión de valores lλ θ b , lλ θb , ... de la función de log-verosimilitud
λ λ λ

suavizada (2.3) tiene la propiedad de ser aproximadamente monótona creciente cuando λ ' 0.
En efecto, de la expresión (2.3) se obtiene que:

22
Z
lλ (θ) = lλ (θ; x) = fλ (x) ln f (x; θ) dx
n Z
1X
= Kλ (x − xi ) [ln f (x, zi ; θ) − ln f (x, zi /x; θ)] dx
n i=1
n ·Z Z ¸
1X
= Kλ (x − xi ) ln (f (x/zi ; ξ) f (zi ; π)) dx − Kλ (x − xi ) ln f (x, zi /x; θ) dx
n i=1
"Z m ³³ Z #
1X
n Y ´zij ´
zij
= Kλ (x − xi ) ln fξj (x) π j dx − Kλ (x − xi ) ln f (x, zi /x; θ) dx
n i=1 j=1
m Z ³ ´zij n Z
1 XX 1X
n
= Kλ (x − xi ) ln fξj (x) π j dx − Kλ (x − xi ) ln f (x, zi /x; θ) dx
n i=1 j=1 n i=1
n Z
1X
= lλ (θ; y) − Kλ (x − xi ) ln f (x, zi /x; θ) dx. (2.14)
n i=1

Denotemos por η una estimación de θ0 obtenida en alguna iteración del algoritmo. Entonces
la función de log-verosimilitud suavizada (2.14) se convierte en:
Ã( Z ) !
1X
n
lλ (θ; x) = Eη (lλ (θ; Y) /x) − Eη Kλ (x − xi ) ln f (x, Zi /x; θ) dx /x
n i=1
= Qλ (θ; η/x) − Hλ (θ; η/x) , (2.15)

donde Ã( Z ) !
1X
n
Hλ (θ; η/x) = Eη Kλ (x − xi ) ln f (x, Zi /x; θ) dx /x .
n i=1

bk−1 y θ
Luego, según (2.15), para dos estimaciones θ bk de θ0 obtenidas en iteraciones consecuti-
λ λ
k−1
³ k ´ ³ k−1 ´
b b
vas del algoritmo se obtiene (tomando η = θ λ ) que la diferencia entre lλ θλ ; x y lλ θ b ;x
λ

tiene la forma siguiente:

³ k ´ ³ k−1 ´ ³ k k−1 ´ ³ k−1 k−1 ´


b ; x − lλ θ
lλ θ b ; x = Qλ θ
b ;θb /x − Qλ θb ;θ b /x
λ λ λ λ λ λ
³ k−1 k−1 ´ ³ k k−1 ´
+Hλ θ b ;θ b /x − Hλ θb ;θb /x .
λ λ λ λ

En la expresión anterior se tiene que:

³ k k−1 ´ ³ k−1 k−1 ´


b ;θ
Qλ θ b ;θ
b /x − Qλ θ b /x ≥ 0,
λ λ λ λ

23
k
³ k−1 ´
b b /x alcanza el máximo.
pues θ λ es por definición el punto donde Qλ ·; θ λ

Por otra parte,

³ k−1 k−1 ´ ³ k k−1 ´ ³ k−1 k−1 ´ ³ k k−1 ´


b ;θ
Hλ θ b ;θ
b /x − Hλ θ b ;θ
b /x −→ H0 θ b ;θ
b /x − H0 θ b /x ≥ 0.
λ λ λ λ 0 0 0 0
λ→0

Esta última desigualdad se puede demostrar como consecuencia de la desigualdad de Jensen.


Por tanto,
³ k ´ ³ k−1 ´
b ; x − lλ θ
lλ θ b ;x ≥ 0
λ λ
³ 0´ ³ 1´ ³ 2´
b b , lλ θ
cuando λ → 0. Es por esto que decimos que la sucesión lλ θ λ , lλ θ b , ... es aproxi-
λ λ

madamente monótona creciente para valores λ ' 0.

2.3.3. Fórmulas explícitas del algoritmo EM basado en la función de


VS

Obtendremos a continuación fórmulas explícitas para la recurrencia de este algoritmo.


Teniendo en cuenta que tanto Kλ (· − xi ) como fξj (·) son densidades Gaussianas, la función
lλ (θ; y) según (2.13) puede obtenerse explícitamente utilizando el Lema 1.4.1 del modo siguiente:

Z
1 XX
n m
¡ ¢z
lλ (θ; y) = Kλ (x − xi ) ln fξu (x) π u iu dx
n i=1 u=1
m · µZ ¶ ¸
1 XX
n
= zij Kλ (x − xi ) ln fξj (x) dx + zij ln πj
n i=1 j=1
m · µ µ ¶ ¶ ¸
1 XX 1 ³ 2 ¡ ¢2 ´
n
1
= zij ln √ − 2 λ + xi − µj + zij ln π j
n i=1 j=1 2πσ j 2σ j
à ¡ ¢2 !
1 XX 1 XX
n m 2 n m
1 ¡ 2
¢ x i − µj + λ
= zij − ln 2πσ j − + zij ln π j .
n i=1 j=1 2 2σ 2j n i=1 j=1

Luego el paso E del algoritmo tiene la forma:

24
³ ´
Qλ θ; θbk−1 /x = E k−1 (lλ (θ; Y) /x)
λ b
θ
Ã( n m à ¡ ¢2 ! ) !
1 XX X
2 n Xm
1 ¡ ¢ xi − µ j + λ 1
= Eθb k−1 Zij − ln 2πσ 2j − + Zij ln πj /x
λ n i=1 j=1 2 2σ 2j n i=1 j=1
à ¡ ¢2 !
1 Xn X m
1 ¡ ¢ x i − µ j + λ 2
1 XX
n m
2
= E k−1 (Zij /x) − ln 2πσ j − + E k−1 (Zij /x) ln π j ,
n i=1 j=1 θb λ 2 2σ 2j n i=1 j=1 θb λ

(2.16)

donde
³ ´
bk−1 P k−1 (Zij = 1)
f xi /zij = 1; θ λ b
θ
Eθb k−1 (Zij /x) = Pθb k−1 (Zij = 1/xi ) = ³ k−1
´λ
λ λ
f xi ; θb
λ

bk−1
π λ,j fb
ξ
k−1 (xi )
λ,j
= ,
X
m
k−1
bλ,l
π fbξk−1 (xi )
λ,l
l=1

³ k−1 ´
bk−1 = b
con θ ξ , b
π k−1
.
λ λ λ
³ ´
El paso M, consistente en la maximización con respecto a θ = (ξ, π) de Q θ; θ bk−1 /x ,
λ
k
³ k ´
b = b
equivale a hallar el punto θ b kλ que satisface las ecuaciones obtenidas de igualar a cero
ξλ, π
λ

las primeras derivadas parciales de (2.16) con respecto a cada componente de ξ y π. De aquí se
obtienen, para j = 1, ..., m, las ecuaciones que definen la recurrencia del algoritmo EM basado
en la VS:

X
n X
n
k−1 k−1
zbλ,ij zbλ,ij xi
i=1 i=1
bkλ,j =
π , bkλ,j =
µ , (2.17)
XX
m n Xn
k−1 k−1
zbλ,ij zbλ,ij
j=1 i=1 i=1
Xn ³ ´2
k−1
zbλ,ij xi − µ bkλ,j
¡ 2 ¢k i=1
bλ,j
σ = + λ2 , (2.18)
X n
k−1
zbλ,ij
i=1

25
donde
bk−1
π λ,j fb
ξ
k−1 (xi )
k−1 λ,j
zbλ,ij = P
m , i = 1, ..., n, j = 1, ..., m. (2.19)
bk−1
π λ,l fb
ξ
k−1 (xi )
λ,l
l=1

Las estimaciones de los parámetros que se obtienen mediante estas ecuaciones pueden usarse
como buenos puntos de partida de otros algoritmos iterativos para hallar mejores aproximaciones
a los estimadores de máxima verosimilitud suavizada de θ0 .
A este algoritmo tipo EM lo llamaremos algoritmo EM basado en la VS. Nótese que la única
diferencia con el algoritmo EM clásico es el término λ2 que aparece en la estimación de la varianza
(2.18).

2.4. Resultados de simulación


A continuación presentaremos resultados de simulación que ilustran diferentes aspectos del
comportamiento del enfoque de VS para el modelo de mezcla de densidades Gaussianas con
varianzas distintas, en comparación con otros métodos.

I. Degeneración de la estimación obtenida por el algoritmo EM clásico para varianzas


distintas

Como es sabido y se comentó anteriormente, el estimador máximo verosímil no existe para el


modelo de mezcla de densidades Gaussianas si se suponen varianzas distintas, debido al problema
de degeneración. Como consecuencia, el algoritmo EM clásico correspondiente no conduce en
general a estimadores consistentes, y es muy sensible al punto de partida.
Para ilustrar en la práctica el efecto del problema de la degeneración de la verosimilitud
en este caso, las figuras siguientes muestran estimaciones obtenidas mediante el algoritmo EM
¡ ¢ ³ 2 2
´
clásico con diferentes valores iniciales del parámetro θ0 = ξ0 , π0 = µ01 , (σ 01 ) , µ02 , (σ 02 ) , π 01 , π 02
en las iteraciones. Se tomó siempre el mismo valor inicial de las ponderaciones π01 = π 02 = 0.5,
pero se utilizaron distintos valores iniciales de medias y varianzas.
La densidad mezcla simulada tiene las dos densidades componentes:

¡ ¢ ¡ ¢
N µ01 , σ 201 = N (0, 0.5) , N µ02 , σ 202 = N (3.09, 1.9) , π 01 = 0.6, π 02 = 0.4. (2.20)

Obsérvese que en estas notaciones, “0” como supraíndice se refiere a valores iniciales de los
parámetros mientras que como subíndice se refiere a valores verdaderos de los parámetros.

26
Se generaron n = 50 datos x1 , ..., xn según esta densidad.
Para ciertos puntos de partida el algoritmo EM, descrito por la recurrencia (2.7), (2.8) y
(2.9), conduce a una estimación que se aproxima razonablemente a la verdadera densidad. Esto
se observa, por ejemplo, en la Figura 2-1, donde se muestra la densidad mezcla estimada por este
algoritmo partiendo de las verdaderas medias y varianzas como punto inicial en las iteraciones.

Figura 2-1: Gráficas de la mezcla verdadera y la mezcla estimada por EM para varianzas ¡ 0 ¢distintas
2
en el ejemplo ( 2.20) con n = 50 para los valores iniciales π 1 = π 2 = 0.5, µj = µ0j , σ j = σ 20j ,
0 0 0

j = 1, 2.

Sin embargo, para otros puntos de partida se obtienen estimaciones grandemente afectadas
por el fenómeno de degeneración. Esto ocurre marcadamente cuando alguno de los valores iniciales
de las medias está muy próximo a alguno de los datos. Por ejemplo, la Figura 2-2 muestra la
2
mezcla estimada partiendo de los valores de los parámetros µ01 = x2 , (σ 01 ) = 0.005, µ02 = µ02 y
2
(σ 02 ) = σ 202 .

27
Nótese que el pico correspondiente a la primera componente estimada se torna muy agudo.

Figura 2-2: Gráficas de la mezcla verdadera y la mezcla estimada por EM para varianzas distintas
en el ejemplo ( 2.20) con n = 50 para los valores iniciales π01 = π 02 = 0.5, µ01 = x2 , µ02 = µ02 ,
2 2
(σ 01 ) = 0.005, (σ 02 ) = σ 202 .

Un resultado similar, aún más pronunciado, se observa en la Figura 2-3. En esta última
la estimación fue calculada partiendo de los verdaderos valores de varianzas pero tomando las
medias iniciales µ01 = x1 y µ02 = x2 .
Estos resultados demuestran que el algoritmo EM para este modelo es no sólo inconsistente
teóricamente sino además prácticamente en extremo no confiable debido a su sensibilidad a los
valores iniciales.

28
Figura 2-3: Gráficas de la mezcla verdadera y la mezcla estimada por EM para varianzas distintas
en el ejemplo ( 2.20) con n = 50 para los valores iniciales de los parámetros π 01 = π 02 = 0.5,
¡ ¢2
µ01 = x1 , µ02 = x2 , σ 0j = σ 20j , j = 1, 2.

II. Comparación con el algoritmo EM clásico restringido a varianzas iguales

El algoritmo EM bajo el supuesto de varianzas de las componentes iguales, que denotaremos


por EMvi, descrito por la recurrencia (2.7), (2.9) y (2.10), carece de flexibilidad para adaptarse a
mezclas con varianzas de las componentes distintas. Por el contrario, la estimación por VS según
las ecuaciones (2.17), (2.18) y (2.19), brinda estimaciones razonables de las mezclas en cualquier
caso.
Esto se ilustra en las simulaciones siguientes. La Figura 2-4 muestra las estimaciones obtenidas
por el algoritmo EMvi y por el algoritmo EM basado en la VS, para n = 50 datos generados
según la mezcla del ejemplo (2.20).
Los gráficos de las estimaciones de la densidad mezcla no se aprecian muy distintos en general,
con sólo una ligera mejor aproximación a la verdad por parte de la estimación por VS. Sin
embargo, las estimaciones de los parámetros de los componentes por EMvi son marcadamente

29
peores que las de VS (ver Tabla Ia.). En particular, las estimaciones de las varianzas de las
componentes por EMvi se desvían notablemente de sus verdaderos valores. Como un efecto al
parecer de compensación del ajuste, las ponderaciones resultan también peor estimadas.

Figura 2-4: Gráficas de la mezcla verdadera y de las mezclas estimadas por EM basado en la VS
y por EM para varianzas iguales en el ejemplo (2.20) con n = 50.

Tabla Ia Estimaciones para el ejemplo (2.20). Tamaño de muestra n = 50.

θ π1 π2 µ1 µ2 σ 21 σ 22
θ0 0.6 0.4 0 3.09 0.5 1.9
b via EMvi
θ 0.6453 0.3547 -0.0014 3.3845 0.8711 0.8711
bλ via EM por VS 0.5874 0.4126 -0.1210 3.0788 0.5542 1.9113
θ

30
En la Figura 2-5 y en la Tabla Ib se presentan resultados similares a los de la Figura 2-4 y la
Tabla Ia con la muestra aumentada a un tamaño n = 100.

0.5
mezcla verdadera
0.45 mezcla estimada por EM basado en la VS
mezcla estimada por EM varianzas iguales
0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
-5 0 5 10

Figura 2-5: Gráficas de la mezcla verdadera y de las mezclas estimadas por EM basado en la VS
y por EM para varianzas iguales en el ejemplo (2.20) con n = 100.

Tabla Ib Estimaciones para el ejemplo (2.20). Tamaño de muestra n = 100.

θ π1 π2 µ1 µ2 σ 21 σ 22
θ0 0.6 0.4 0 3.09 0.5 1.9
b via EMvi
θ 0.6930 0.3070 0.0322 3.3425 0.8772 0.8772
bλ via EM por VS 0.5966 0.4034 -0.1511 2.8227 0.5153 2.0096
θ

La Figura 2-6 muestra resultados basados en n = 50 datos generados según la mezcla de dos
componentes:

¡ ¢ ¡ ¢
N µ01 , σ 201 = N (0, 0.04) , N µ02 , σ 202 = N (1, 9) , π 01 = 0.5, π02 = 0.5. (2.21)

31
Este ejemplo es tomado del artículo [4], en el cual esta mezcla es utilizada para ilustrar que
el algoritmo EM restringido según [16] brinda malas estimaciones si las verdaderas varianzas no
satisfacen la restricción estipulada.
Se observa en la Figura 2-6 que el algoritmo EMvi no tiene la posibilidad de adaptarse a
varianzas tan distintas. Sin embargo, las estimaciones por VS son buenas a pesar de que una
varianza sea muy pequeña (σ 201 = 0.04), como se muestra en la Figura 2-6 y en la Tabla II.

Figura 2-6: Gráficas de la mezcla verdadera y de las mezclas estimadas por EM basado en la VS
y por EM para varianzas iguales en el ejemplo (2.21) con n = 50.

Tabla II Estimaciones para el ejemplo (2.21). Tamaño de muestra n = 50.

θ π1 π2 µ1 µ2 σ 21 σ 22
θ0 0.5 0.5 0 1 0.04 9
b via EMvi
θ 0.4694 0.5306 0.2992 0.6473 4.5273 4.5273
bλ via EM por VS 0.4931 0.5069 0.0252 0.9302 0.0819 8.5102
θ

32
Un caso extremo de incapacidad del EMvi para adaptarse a modelos de mezclas con varianzas
distintas se presenta cuando las densidades componentes sólo se diferencian precisamente en las
varianzas. Por ejemplo, en la mezcla cuyas componentes son las siguientes:

¡ ¢ ¡ ¢
N µ01 , σ 201 = N (0, 0.5) , N µ02 , σ 202 = N (0, 9) , π 01 = 0.5, π 02 = 0.5. (2.22)

Teóricamente, en tal caso el algoritmo EMvi converge a una mezcla con componentes iguales.
La Figura 2-7 muestra las estimaciones obtenidas a partir de n = 50 datos generados según
este modelo. Se observa que la densidad mezcla es muy mal estimada por EMvi en comparación
con VS. Además, como muestra la Tabla III, las componentes obtenidas por EMvi resultan
prácticamente indistinguibles, mientras que, por el contrario, la estimación por VS distingue dos
componentes con varianzas que aproximan a las verdaderas varianzas.

Figura 2-7: Gráficas de la mezcla verdadera y de las mezclas estimadas por EM basado en la VS
y por EM para varianzas iguales en el ejemplo (2.22) con n = 50.

33
Tabla III Estimaciones para el ejemplo (2.22). Tamaño de muestra n = 50.

θ π1 π2 µ1 µ2 σ 21 σ 22
θ0 0.5 0.5 0 0 0.5 9
b via EMvi
θ 0.5600 0.4400 -0.1118 -0.6851 2.6512 2.6512
bλ via EM por VS 0.5121 0.4879 -0.1547 -0.5837 0.3674 5.1899
θ

III. Calidad de la estimación del ancho del núcleo

b del ancho λ propuesto en (2.4) puede expresarse en la forma:


La estimación λ

b = arg máx Q
λ e (λ),
λ

donde

1X ¡
n
¢
e
Q (λ) = q λ; xi , x(i) , (2.23)
n i=1
³ ´ · ³ ´ ¸
¡ ¢ (i)
q λ; xi , x(i) b
= ln f xi ;θλ = ln π
(i) (i)
bλ,1 fbξ(i) (xi )
bλ,1 fbξ(i) (xi ) + 1 − π
λ,1 λ,2

e es la versión empírica de la media teórica:


y x(i) denota la muestra x sin el dato xi . La función Q

³ ³ ´´ ³ ³ ´´
bλ (X) ,
Q (λ) = Eθ 0 q λ; X1 , X(1) = Eθ 0 ln f Z;θ (2.24)

bλ (X) denota el estimador θ


donde θ bλ de θ0 calculado según (2.17), (2.18) y (2.19) sobre la base

de la muestra aleatoria de n − 1 datos X = (X1 , ..., Xn−1 ), y el valor esperado es con respecto a
las variables aleatorias Z, X1 , ... y Xn−1 distribuidas iid con la misma densidad f (.; θ0 ).
Mediante la maximización de Q (λ) con respecto a λ se obtiene un valor λn para λ que puede
b
considerarse la contraparte teórica de λ:

λn = arg máxQ (λ) .


λ

b de λ es compararla con λn .
Una manera de evaluar la calidad de la estimación λ
La función Q (λ) no tiene forma explícita, por lo que es necesario aproximarla mediante
¡ ¢
simulaciones. Para ello se generan R muestras de tamaño n − 1, xr = xr1 , ..., xrn−1 , r = 1, ..., R,

34
y R observaciones “futuras” z r , r = 1, ..., R de f (.; θ0 ), y se realiza la siguiente aproximación:

1X
R
1X
R ³ ´
Q (λ) ≈ q (λ; z r , xr ) = br ,
ln f z r ;θ (2.25)
λ
R r=1 R r=1

r
b es la estimación de θ0 obtenida mediante el algoritmo EM por VS según (2.17), (2.18)
donde θ λ

y (2.19) con la r-ésima réplica xr .


En la Figura 2-8 se presenta la gráfica de Q (λ) según (2.24) en función de λ para el ejemplo
(2.20) con n = 50. Se utilizaron R = 100 réplicas para la aproximación de Q (λ) de acuerdo
e (λ) según (2.23) en función de λ, utilizando la
a (2.25). También se muestra la gráfica de Q
misma muestra que en la Figura 2-4. Se observa que ambas curvas tienen sus crestas en regiones
b = 0.3176 son bastante cercanos.
próximas. En particular, sus puntos de máximo λn = 0.4727 y λ
Este tipo de resultado se observa en general al variar la muestra.

e (azul) en función de λ.
Figura 2-8: Gráficas de Q (rojo) y Q

35
Aunque un estudio teórico y por simulaciones más profundo es necesario para arribar a
e se comporta como es típico de los
conclusiones precisas, los resultados obtenidos indican que Q
métodos de remuestreo para la elección de los parámetros de control. Con cierta variabilidad
e tiende a reproducir la de su contraparte poblacional Q.
aleatoria, la región de máximo de Q

36
Capítulo 3

La función de log-verosimilitud
suavizada para modelos de regresión

En este capítulo definiremos la función de log-verosimilitud suavizada para modelos de regre-


sión. Realizaremos su formulación general en los casos de diseño aleatorio y diseño no aleatorio.
En ambos casos presentaremos métodos para la estimación de los parámetros, tanto en el contexto
de la regresión no lineal como en la regresión lineal. Con más detalle estudiaremos la aplicación
de la función de log-verosimilitud suavizada a la estimación de modelos de regresión lineales. En
particular, mostraremos resultados de simulación acerca del comportamiento de esta función en
la estimación de un modelo de regresión polinomial con diseño no aleatorio.

3.1. Preliminares
Consideremos un problema de análisis de regresión entre una variable respuesta Y de valores
en R y un vector de variables predictoras X = (X1 , ...Xp ) con valores en Rp . Más específicamente,
supongamos que se tienen datos {(yi , xi )}ni=1 , con xi = (xi1 , ..., xip )0 , que satisfacen la relación
funcional:
yi = µ (xi ) + εi , (3.1)

donde las variables aleatorias εi son independientes e igualmente distribuidas con distribución
Gaussiana, E (εi ) = 0, V (εi ) = σ 2 , y µ es una función con dominio en Rp , llamada función de
regresión. Denotaremos por X a la matriz (xij ), i = 1, ..., n y j = 1, ..., p. Además, aquí y en todo
lo que sigue, usaremos el símbolo “ 0 ” para denotar la operación de transposición de matrices y
vectores.

37
Cuando el vector de variables predictoras X es aleatorio el problema de análisis de regre-
sión se dice con diseño aleatorio. Si por el contrario, X es un vector de valores fijados por el
experimentador, entonces el diseño se dice no aleatorio.
Existen diversos tipos de modelos para la función de regresión. Dos grandes clases son:
a) Los modelos de regresión paramétricos (clásicos o regulares), en los cuales se supone que la
función de regresión µ tiene una expresión funcional especificada en dependencia de un número
¡ ¢
fijo y conocido q de parámetros reales desconocidos β = β 1 , ..., β q ∈ B ⊂ Rq . Se suponen
además condiciones de suavidad convenientes acerca de la dependencia de µ con respecto a β.
Un ejemplo es la regresión polinomial con grado q conocido, donde los parámetros β j son los
coeficientes del polinomio de regresión.
b) Los modelos de regresión no paramétricos, en los cuales sólo se supone que µ pertenece a
cierta clase infinito-dimensional M de funciones “suaves”, no indizada por un parámetro finito-
dimensional. Por ejemplo, M puede ser la clase de las funciones con derivadas continuas hasta
cierto orden sobre cierto dominio de Rp .
En la práctica, a veces los modelos paramétricos explorados por el investigador no ajustan
bien los datos, y se carece de suficiente información previa para proponer un único modelo
paramétrico alternativo que sea adecuado. Entonces la modelación no paramétrica constituye
una atrayente opción, y las técnicas de suavizamiento no paramétrico ofrecen una herramienta
flexible para estudiar la función de regresión desconocida.
Uno de los métodos de suavizamiento más simples es el de estimación por núcleos. En parti-
cular, el estimador de Nadaraya-Watson (ver [19], [31]) para la media µ (x) tiene la forma:

P
n
yi Kλ (x − xi )
i=1
eλ (x) =
µ Pn , (3.2)
Kλ (x − xi )
i=1

1
¡u¢
donde Kλ (u) = λp
K λ
y el núcleo K es una función de densidad, continua, acotada y simétrica
alrededor del cero. Supondremos específicamente que el núcleo K es la densidad de la distribución
Normal multivariada Np (0, I), por lo que Kλ (· − xi ) es la densidad de la distribución Normal
¡ ¢
multivariada Np xi , Iλ2 . El parámetro no negativo λ es llamado ancho del núcleo.
eλ (x) es una media ponderada de las observaciones yi , siendo mayor la pon-
El estimador µ
deración para los valores yi correspondientes a los xi cercanos a x = (x1 , ..., xp )0 . Es conocido que
eλ (x) no es insesgado para muestras finitas. Pero bajo condiciones de regularidad convenientes
µ

38
es consistente (de acuerdo a varias métricas) y tiene distribución asintótica Normal (ver [15]).
eλ (x) no es muy sensible a la selección del núcleo K, sino sólo a la selec-
También es sabido que µ
ción del ancho λ que controla el grado de suavizamiento (el cual es menor para valores pequeños
de λ).
e2λ para
De la estimación (3.2) para la media se obtiene el siguiente estimador no paramétrico σ
la varianza σ 2 :
1X
n
e2λ
σ = eλ (x))2 .
(yi − µ (3.3)
n i=1

Como se ha supuesto que los errores aleatorios εi tienen distribuciones Gaussianas con media
cero y varianza σ 2 entonces una estimación no paramétrica natural de la densidad condicional
¡ ¢ ¡ ¢
fλ (y/x) de Y dado x es fλ (y/x) = N µ e2λ (y), donde N µ
eλ (x) , σ e2λ (y) denota la función
eλ (x) , σ
e2λ evaluada en y.
eλ (x) y varianza σ
de densidad Normal de media µ
c) Existen situaciones de modelación intermedias entre las (a) y (b) anteriores en las cuales
se supone que la función de regresión pertenece a un subconjunto especificado M0 de M que no
es un modelo paramétrico regular, o es un modelo regular con dimensión grande en comparación
con el tamaño de la muestra disponible. Por ejemplo, M0 puede ser la unión de una familia de
modelos paramétricos regulares. En particular, M0 puede consistir en todos los polinomios de
grados arbitrarios en la variable x. En este caso, µ pertenece a un conjunto de funciones que no
puede describirse mediante un parámetro de dimensión finita pero es más restringido que en la
modelación no paramétrica usual.
Nuestro interés es extender el enfoque de verosimilitud de modo que sea aplicable no sólo a
modelos de regresión clásicos (a) sino también a los modelos de tipo (c), evitando el fenómeno
de sobreajuste de parámetros.
Para esto, a continuación introduciremos la función de log-verosimilitud suavizada para mode-
los de regresión generales. Trataremos primero el caso de diseño aleatorio.

39
3.2. Regresión con diseño aleatorio

3.2.1. Caso no lineal

En el caso de un problema de regresión (3.1) con diseño aleatorio se supone que las ob-
servaciones xi = (xi1 , ..., xip )0 , i = 1, ..., n, del vector aleatorio X son una muestra iid de una
distribución con cierta densidad f (x). Supongamos además que la función de regresión está in-
dizada por un parámetro β ∈ B que toma valores en un conjunto arbitrario B. Es decir, de
acuerdo al modelo los datos {(yi , xi )}ni=1 satisfacen la relación:

yi = µβ (xi ) + εi (3.4)

para cierto valor desconocido de β ∈ B , donde µβ (x) es una función no lineal conocida de β y x.
Nótese que el hecho de que el conjunto B sea general permite incluir modelos de regresión lineales
y no lineales con números de parámetros fijos, y modelos más generales como los constituidos
por familias de modelos de regresión lineales o no lineales con diferentes números de parámetros.
El concepto de función de log-verosimilitud suavizada puede introducirse de modo natural
para este tipo de modelo, como una extensión de la definición 1.1.2 dada para el caso de muestras
iid, como lo hacemos a continuación.

Definición 3.2.1 La función de log-verosimilitud suavizada para un modelo de regre-


sión con diseño aleatorio se define como:
Z Z
lλ (θ) = lλ (θ; Y,X) = fλ (z) fλ (y/z) ln f (y/z; θ) dydz, (3.5)

donde θ = (β, σ 2 ) ∈ Θ = B × R∗+ , Y = (y1 , ..., yn )0 ,

1X
n
fλ (z) = Kλ (z − xi ) (3.6)
n i=1

es una estimación no paramétrica por núcleo de f (z) y

¡ ¢
fλ (y/z) = N µ e2λ (y) ,
eλ (z) , σ (3.7)

¡ ¢
e2λ definidos por (3.2) y (3.3), respectivamente, y f (y/z; θ) = N µβ (z) , σ 2 (y). La
eλ (z) y σ
con µ

40
integración con respecto a y en las expresiones anteriores es sobre todo R y la integración con
respecto a z es sobre todo Rp .

Salvo que se indique otra cosa, siempre supondremos que Kλ (· − xi ) es la densidad de la


¡ ¢
distribución Normal multivariada Np xi , Iλ2 .
El estimador de máxima verosimilitud suavizada en el contexto de regresión puede definirse
de manera análoga a como se hizo para el caso de modelos asociados a muestras de observaciones
iid (ver Definición 1.2.1). Específicamente:

Definición 3.2.2 El estimador de máxima verosimilitud suavizada en un modelo de


regresión con diseño aleatorio se define como:

³ ´ ½Z Z ¾
b b 2
bλ = arg máx2 {lλ (θ)} = arg máx2
θλ = βλ , σ fλ (z) fλ (y/z) ln f (y/z; θ) dydz .
θ=(β,σ ) θ=(β,σ )

bλ no tiene una forma explícita. Pero puede caracterizarse como la


En general, el estimador θ
solución de cierta ecuación no lineal, como plantea la siguiente proposición.

Proposición 3.2.1 En un modelo de regresión no lineal con diseño aleatorio el estimador de


b λ de β satisface la ecuación no lineal siguiente:
máxima verosimilitud suavizada β

n Z
X · ¸ ³ ´

Kλ (z − xi ) µ (xi ) µβb λ (z) − yi dz = 0. (3.8)
i=1
∂β β b
β =β λ

b2λ de σ 2 puede expresarse como:


Y el estimador de máxima verosimilitud suavizada σ
Z ³ ´2
b2λ
σ = e2λ
σ + fλ (z) µeλ (z) − µβb λ (z) dz,

donde λ es el ancho del núcleo.

Demostración
De acuerdo a (3.5), teniendo en cuenta que fλ (y/z) y f (y/z; θ) son densidades Gaussianas,
aplicando el Lema 1.4.1 y que fλ es una densidad (por lo cual su integral es uno), se tiene que
para este modelo la función de log-verosimilitud suavizada lλ (θ) con θ = (β, σ 2 ) es:

41
Z Z
lλ (θ) = fλ (z)
fλ (y/z) ln f (y/z; θ) dydz
Z · µ ¶ ¸
1 1 ³ 2 ¡ ¢2 ´
= fλ (z) ln √ − 2 σ eλ + µ eλ (z) − µβ (z) dz
2πσ 2σ
µ ¶Z µ Z Z ¶
1 1 2
¡ ¢2
= ln √ fλ (z) dz − 2 σ eλ fλ (z) dz + fλ (z) µ eλ (z) − µβ (z) dz
2πσ 2σ
µ ¶ µ Z ¶
1 1 2
¡ ¢2
= ln √ − 2 σ eλ + fλ (z) µ eλ (z) − µβ (z) dz. (3.9)
2πσ 2σ

Derivando con respecto a β la expresión (3.9) se obtiene que:


· µ Z ¶¸
∂ 1 ∂ 2
¡ ¢2
(lλ (θ)) = − 2 σeλ + fλ (z) µ eλ (z) − µβ (z) dz
∂β 2σ ∂β
· µZ ¶¸
1 ∂ ¡ ¢2
= − 2 fλ (z) µeλ (z) − µβ (z) dz
2σ ∂β
Z
1 ∂ ³¡ ¢2 ´
= − 2 fλ (z) eλ (z) − µβ (z)
µ dz
2σ ∂β
Z
1 ¡ ¢ ∂
= fλ (z) µe λ (z) − µ β (z) µ (z) dz.
σ2 ∂β β

Igualando a cero la expresión anterior se obtiene la ecuación no lineal siguiente:


Z
∂ £ ¤
fλ (z) eλ (z) dz=0.
µβ (z) µβ (z) − µ (3.10)
∂β

eλ (z) por sus expresiones (3.6) y (3.2) respectivamente, entonces (3.10)


Sustituyendo fλ (z) y µ
se convierte en:
  n 
à ! P
Z
1 X
n
∂   i=1 yi Kλ (z − xi ) 
0 = Kλ (z − xi ) µ (z) µβ (z) − 

 P
 dz

n i=1 ∂β β n
Kλ (z − xi )
i=1
n Z
X X
n Z
∂ ∂
= Kλ (z − xi ) µβ (z) µ (z) dz− yi Kλ (z − xi )
µβ (z) dz
i=1
∂β β i=1
∂β
Xn ·Z Z ¸
∂ ∂
= Kλ (z − xi ) µβ (z) µβ (z) dz− yi Kλ (z − xi ) µβ (z) dz
i=1
∂β ∂β
Xn Z
∂ £ ¤
= Kλ (z − xi ) µβ (z) µβ (z) − yi dz.
i=1
∂β

42
b λ satisface la ecuación no lineal:
Luego β

n Z
X · ¸ ³ ´

Kλ (z − xi ) µ (xi ) µβb λ (z) − yi dz = 0.
i=1
∂β β b
β =β λ

Por otra parte, igualando a cero la derivada de (3.9) con respecto a σ 2 se obtiene que:
· µ ¶ µ Z ¶ ¸
∂ ∂ 1 1 2
¡ ¢2
(lλ (θ)) = ln √ − 2 σ eλ + fλ (z) µ eλ (z) − µβ (z) dz
∂σ 2 ∂σ 2 2πσ 2σ
· Z ¸
1 1 2
¡ ¢2
= − 2+ σeλ + fλ (z) µ eλ (z) − µβ (z) dz = 0.
2σ 2 (σ 2 )2

b λ hallado según (3.8) por β en la expresión anterior se


Por tanto, sustituyendo el estimador β
b2λ de σ 2 mediante la fórmula:
obtiene el estimador σ
Z ³ ´2
b2λ
σ = e2λ
σ + fλ (z) µeλ (z) − µβb λ (z) dz.

Esto concluye la demostración.¥


También de manera análoga a como se hizo en capítulos anteriores proponemos un método
de selección de λ por validación cruzada. Este es:

X
n ³ ´
b = arg máx
λ b(i) ,
ln f yi /xi ;θ λ
λ i=1

donde Z Z
(i)
³ (i) ´
b b
θλ = βλ , σ
2(i)
bλ = arg máx2
(i) (i)
fλ (z) fλ (y/z) ln f (y/z; θ) dydz.
θ=(β,σ )

(i) (i)
Aquí, fλ (x) y fλ (y/x) denotan, respectivamente, las estimaciones por núcleo (3.6) y (3.7)
basadas en la muestra sin el dato (yi , xi ).

3.2.2. Caso lineal

En el modelo lineal, la variable respuesta Y depende en forma lineal del vector de parámetros
β. Más específicamente, se supone que los datos {(yi , xi )}ni=1 satisfacen la relación (3.4) con
¡ ¢0
β = β 1 , ..., β p , xi = (xi1 , ..., xip )0 y µβ es de la forma:

µβ (xi ) = β 1 xi1 + ... + β p xip = x0i β. (3.11)

43
La ecuación de regresión (3.4) que satisface (3.11) puede escribirse en forma matricial como
Y = Xβ + ε, donde Y = (y1 , ..., yn )0 , ε = (ε1 , ..., εn )0 y X= (xij ) es la llamada matriz de diseño,
i = 1, ..., n y j = 1, ..., p.
bλ tiene una forma explícita en el caso de
El estimador de máxima verosimilitud suavizada θ
la regresión lineal con diseño aleatorio, como se enuncia en la siguiente proposición.

b λ del
Proposición 3.2.2 En un modelo de regresión lineal con diseño aleatorio el estimador β
vector de coeficientes de regresión β que se obtiene por máxima verosimilitud suavizada es:

¡ ¢
b λ = X0 X+λ2 I −1 X0 Y
β (3.12)

b2λ de σ 2 se puede expresar como:


y el estimador de máxima verosimilitud suavizada σ
Z ³ ´2
0b
b2λ
σ = e2λ
σ + fλ (z) µeλ (z) − z βλ dz,

donde λ es el ancho del núcleo.

Demostración
De acuerdo a (3.9), para este modelo particular la función de log-verosimilitud suavizada
lλ (θ) con θ = (β, σ 2 ) es:
µ ¶ · Z ¸
1 1 2 0 2
lλ (θ) = ln √ − 2 σ eλ + fλ (z) (e
µλ (z) − z β) dz . (3.13)
2πσ 2σ

Igualando a cero la derivada con respecto a β de la expresión anterior se obtiene según (3.10)
que:
Z
fλ (z) z [z0 β − µeλ (z)] dz = 0
Z Z
0
fλ (z) zz βdz = eλ (z) dz,
zfλ (z) µ

o sea,
p Z Z
X
zj zk fλ (z) dzβ k = eλ (z) dz, j = 1, ..., p.
zj fλ (z) µ
k=1

eλ (z) en la igualdad anterior por sus expresiones (3.6) y (3.2) respec-


Sustituyendo fλ (z) y µ

44
tivamente, se obtiene que para j = 1, ..., p:
 n 
à ! à n ! P y K (z − x )
XZp
1X
n Z
1 X  i=1 i λ i

zj zk Kλ (z − xi ) dzβ k = zj Kλ (z − xi ) 
 Pn
 dz.

n i=1 n i=1
k=1 Kλ (z − xi )
i=1

Luego
p
X n Z
X X
n Z
zj zk Kλ (z − xi ) dzβ k = yi zj Kλ (z − xi ) dz.
k=1 i=1 i=1

Teniendo en cuenta que, para cada xi , Kλ (· − xi ) es una densidad sobre Rp con media xi y
matriz de covarianza λ2 I, la expresión anterior es equivalente a:

p
X X
n
¡ ¢ X
n
xij xik + λ2 δ ij β k = xij yi .
k=1 i=1 i=1

Esto puede escribirse en forma matricial como:

¡ 0 ¢
X X+λ2 I β = X0 Y.

b λ de β:
De aquí se obtiene explícitamente el estimador de máxima verosimilitud suavizada β

¡ ¢
b λ = X0 X+λ2 I −1 X0 Y.
β


Por otra parte, igualando a cero la derivada de (3.13) con respecto a σ 2 y sustituyendo β
b2λ de σ 2 :
según (3.12) por β, se obtiene el estimador σ
Z ³ ´2
b2λ
σ = e2λ
σ + fλ (z) µ b λ dz.
eλ (z) − z0 β

Esto concluye la demostración.¥


b λ coincide con el
Nótese que en este caso el estimador de máxima verosimilitud suavizada β
estimador de β que se obtiene por regularización (en sentido Tijonov) del estimador de mínimos
cuadrados:
© ª ¡ ¢
b λ2 = arg mı́n kY − Xβk2 + λ2 kβk2 = X0 X+λ2 I −1 X0 Y,
β
β

donde el parámetro de regularización es el cuadrado del ancho del núcleo, λ2 . Este estimador
también es llamado estimador “ridge” en el contexto de regresión estadística.

45
Este tipo de estimadores lineales regularizados han sido ampliamente estudiados con diferentes
motivaciones. Ver por ejemplo [30], [13] y referencias que aparecen allí.
El enfoque de verosimilitud suavizada para modelos de regresión lineales con diseño aleatorio
brinda, pues, una fundamentación estadística adicional a los estimadores “ridge”.

3.3. Regresión con diseño no aleatorio


3.3.1. Caso no lineal
Supongamos que en la ecuación de regresión (3.4) los puntos de diseño xi (i = 1, ..., n) son con-
trolados, i.e., no aleatorios. En tal caso interesa estudiar el problema de regresión “condicionado”
a los valores fijados xi . De acuerdo al modelo, la distribución de la variable respuesta Yi condi-
cionada al valor xi del vector de variables controladas es Gaussiana con media E (Yi /xi ) = µβ (xi ),
β ∈ B, y varianza V (Yi /xi ) = σ 2 .
Para este modelo introduciremos la siguiente definición de función de log-verosimilitud suaviza-
da.
Definición 3.3.1 La función de log-verosimilitud suavizada para un modelo de regre-
sión con diseño no aleatorio se define como:

n Z
X
lλ (θ) = lλ ( θ; Y/X) = fλ (y/xi ) ln f (y/xi ; θ) dy, (3.14)
i=1

donde θ = (β, σ 2 ) ∈ Θ = B × R∗+ , Y = (y1 , ..., yn )0 ,

¡ ¢
fλ (y/xi ) = N µ e2λ (y) ,
eλ (xi ) , σ

¡ ¢
e2λ están definidos por (3.2) y (3.3) respectivamente, y f (y/xi ; θ) = N µβ (xi ) , σ 2 (y) .
eλ (xi ) y σ
µ
La integración en (3.14) es sobre todo R.
El estimador de máxima verosimilitud suavizada puede definirse de manera análoga a como
se hizo en la sección anterior para modelos con diseño aleatorio.
Definición 3.3.2 El estimador de máxima verosimilitud suavizada en un modelo de
regresión con diseño no aleatorio se define como:

³ ´ n Z
X
bλ = β
θ b λ, σ 2
bλ = arg máx2 {lλ (θ)} = arg máx2 fλ (y/xi ) ln f (y/xi ; θ) dy.
θ=(β,σ ) θ=(β,σ )
i=1

46
bλ no tiene en este caso una forma explícita, pero puede caracterizarse como
El estimador θ
solución de una ecuación no lineal según la siguiente proposición.

Proposición 3.3.1 En un modelo de regresión no lineal con diseño no aleatorio el estimador de


b λ de β satisface la ecuación no lineal siguiente:
máxima verosimilitud suavizada β

Xn ³ ´· ∂ ¸
µeλ (xi ) − µβb λ (xi ) µ (xi ) = 0. (3.15)
i=1
∂β β b
β =β λ

b2λ de σ 2 es:
Y el estimador de máxima verosimilitud suavizada σ

1 X³ ´2
n
b2λ
σ = e2λ
σ + eλ (xi ) − µβb λ (xi ) ,
µ
n i=1

donde λ es el ancho del núcleo.

Demostración
De acuerdo a (3.14), teniendo en cuenta que fλ (y/xi ) y f (y/xi ; θ) son densidades Gaussianas
y aplicando el Lema 1.4.1, se tiene que para este modelo la función de log-verosimilitud suavizada
lλ (θ) con θ = (β, σ 2 ) es:

n Z
X
lλ (θ) = fλ (y/xi ) ln f (y/xi ; θ) dy
i=1
n · µ ¶ ¸
X 1 1 ³ 2 ¡ ¢2 ´
= ln √ − 2 σ eλ + µ
eλ (xi ) − µβ (xi )
i=1
2πσ 2σ
µ ¶
1 X³ 2 ¡ ¢2 ´
n
1
= n ln √ − 2 σ eλ (xi ) − µβ (xi )
eλ + µ . (3.16)
2πσ 2σ i=1

Derivando con respecto a β la expresión (3.16) se obtiene que:


" #
∂ X³ 2 ¡ ¢2 ´
n
∂ 1
(lλ (θ)) = − 2 e + µ
σ eλ (xi ) − µβ (xi )
∂β 2σ ∂β i=1 λ
1 X ∂ ¡
n
¢2
= − 2 eλ (xi ) − µβ (xi )
µ
2σ i=1 ∂β
1 X¡
n
¢ ∂
= eλ (xi ) − µβ (xi )
µ µ (xi ) .
2
σ i=1 ∂β β

47
b λ:
Igualando a cero la expresión anterior se obtiene la ecuación no lineal para β

Xn ³ ´· ∂ ¸
µeλ (xi ) − µβb λ (xi ) µβ (xi ) = 0.
i=1
∂β b
β =β λ

Por otra parte, igualando a cero la derivada de (3.16) con respecto a σ 2 se obtiene que:
" n #
∂ n 1 X³ 2 ¡ ¢2 ´
(lλ (θ)) = − 2 + eλ + µ
σ eλ (xi ) − µβ (xi ) = 0.
∂σ 2 2σ 2 (σ 2 )2 i=1

b λ hallado según (3.15) por β en la expresión anterior


Por tanto, sustituyendo el estimador β
b2λ de σ 2 mediante la fórmula:
se obtiene el estimador σ

1 X³ ´2
n
b2λ
σ = e2λ
σ + eλ (xi ) − µβb λ (xi ) .
µ
n i=1

Esto concluye la demostración.¥


Nótese que la ecuación (3.15) es la misma que satisface el estimador por mínimos cuadrados
b de un modelo de regresión no lineal, salvo que aquí los valores suavizados µ
ordinarios β eλ (xi )
b ocupan los datos originales yi .
ocupan el lugar que en la ecuación de β
En este sentido, la estimación por máxima VS en modelos de regresión con diseño no aleato-
rio brinda una fundamentación estadística a la práctica, bastante frecuente en aplicaciones in-
genieriles, consistente en efectuar un suavizamiento de los datos antes de ajustar un modelo de
regresión.
El método de selección del ancho del núcleo λ análogo al de la sección anterior es:

X
n ³ ´
b = arg máx
λ b(i) ,
ln f yi /xi ;θ (3.17)
λ
λ i=1

pero ahora

(i)
³ (i) ´ X Z (i)
b b
θλ = βλ , σ
2(i)
bλ = arg máx2 fλ (y/xj ) ln f (y/xj ; θ) dy.
θ=(β,σ )
j6=i

(i)
Aquí fλ (y/xj ) denota la estimación por núcleo de f (y/xj ; θ) basada en la muestra sin el
dato (yi , xi ).

48
3.3.2. Caso lineal

Estimación

Considérese un problema de análisis de regresión lineal (3.4)-(3.11) con diseño no aleatorio.


En este caso el estimador de máxima verosimilitud suavizada también tiene una forma explícita,
como se enuncia en la siguiente proposición.

Proposición 3.3.2 En un modelo de regresión lineal con diseño no aleatorio el estimador de


máxima verosimilitud suavizada del vector de coeficientes de regresión β es:

b λ = (X0 X)−1 X0 µ
β eλ , (3.18)

y el estimador de máxima verosimilitud suavizada del parámetro σ 2 es:

1 X³ ´2
n
b2λ
σ = e2λ
σ + µ bλ ,
eλ (xi ) − x0i β (3.19)
n i=1

eλ = (e
donde µ eλ (xn ))0 y λ es el ancho del núcleo.
µλ (x1 ) , ..., µ

Demostración
De acuerdo a (3.16), para este modelo la función de log-verosimilitud suavizada lλ (θ) con
θ = (β, σ 2 ) es:

µ ¶
1 X³ 2 ´
n
1 2
lλ (θ) = n ln √ − 2 σ µλ (xi ) − x0i β) .
eλ + (e (3.20)
2πσ 2σ i=1

Igualando a cero la derivada con respecto a β de la expresión anterior, se obtiene:

X
n
µλ (xi ) − x0i β) = 0,
xi (e
i=1

o sea,
p
X X
n X
n
xij xik β k = eλ (xi ) , j = 1, ..., p.
xij µ
k=1 i=1 i=1

Esto puede escribirse en forma matricial como:

X0 Xβ = X0 µ
eλ ,

49
b λ de β:
por lo que se obtiene explícitamente el estimador de máxima verosimilitud suavizada β

b λ = (X0 X)−1 X0 µ
β eλ .

Además, igualando a cero la derivada de (3.20) con respecto a σ 2 y sustituyendo el estimador


b λ hallado según (3.18) por β en la expresión resultante se obtiene el estimador σ
β b2λ de σ 2 :

1 X³ ´2
n
b2λ = σ
σ e2λ + bλ .
eλ (xi ) − x0i β
µ
n i=1

Esto concluye la demostración.¥


Nótese que la expresión (3.18) tiene la forma del estimador por mínimos cuadrados ordinario
b de un modelo de regresión lineal, salvo que en ella el vector de datos Y está remplazado por
β
eλ .
el vector de valores suavizados µ

Consistencia

La consistencia (según convergencia en probabilidad) del estimador de máxima verosimilitud


suavizada de β en el caso de la regresión lineal con diseño no aleatorio se obtiene como conse-
cuencia de la consistencia del estimador por núcleo de Nadaraya-Watson. En general se tiene la
siguiente proposición:

Proposición 3.3.3 Sea un problema de regresión lineal (3.4)-(3.11) con diseño no aleatorio.
¡ ¢0
Supongamos que X es compacto y sean β0 = β 01 ..., β 0p0 y σ 20 los verdaderos valores de β y σ 2 .
Sea además λn una sucesión tal que λn −→ 0 cuando n → ∞. Si el estimador no paramétrico
eλn (x) de la función de regresión µβ (x) = x0 β es consistente en probabilidad con respecto a la
µ
norma uniforme; o sea, si:
¯ ¯2 P
sup ¯µeλn (x) − x0 β0 ¯ −→ 0, (3.21)
x∈X n→∞

y se satisface la condición
°√ °2
° −1 °
° n (X0 X) X0 ° = O (1) , (3.22)
2

donde k·k2 denota la norma Euclidiana de vectores y también la inducida sobre matrices, en-
b λ de β es consistente en probabilidad.
tonces el estimador de máxima verosimilitud suavizada β
e2λn de la varianza σ 2 es consistente en
Si se supone además que el estimador no paramétrico σ
probabilidad; o sea, si
¯ 2 ¯ P
¯σ
eλn − σ 20 ¯ −→ 0, (3.23)
n→∞

50
b2λn también es consistente en probabi-
entonces el estimador de máxima verosimilitud suavizada σ
lidad.

Demostración:
Utilizando la forma explícita del estimador de máxima verosimilitud suavizada (3.18) de β,
y propiedades elementales de normas matriciales se tiene que:

° °2 ° °2
°b ° ° −1 −1 °
°β λn − β0 ° = °(X0 X) X0 µ
eλn − (X0 X) X0 Xβ 0 °
2 2
° ¢°
° 0 −1 0 ¡ °2
= °(X X) X µ eλn − Xβ0 °
2
° ° ¡
° 0 −1 0 °2 ° ¢°2
≤ °(X X) X ° ° µ eλn − Xβ0 °2
2
° °
° 0 −1 0 °2 1 ° ¡ ¢°2
= n °(X X) X ° ° µ eλn − Xβ0 °2 ,
2 n

¡ ¢0
eλn = µ
donde µ eλn (x1 ) , ..., µ
eλn (xn ) .
° °2 °√ °2
De acuerdo a la condición (3.22), n °(X0 X)−1 X0 °2 = ° n (X0 X)−1 X0 °2 = O (1). Además, si se
°¡ ¢°2
cumple la hìpótesis (3.21) entonces el término n1 ° µeλn − Xβ 0 °2 tiende a cero en probabilidad.
En efecto,

1 X¡
n
1° ¡
° µ
¢°2 ¢2
eλn − Xβ 0 °2 = eλn (xi ) − x0i β0
µ
n n i=1
1 ¯ ¯2
≤ n sup ¯µ eλn (x) − x0 β0 ¯
n x∈X
¯ ¯2 P
= sup ¯µeλn (x) − x0 β0 ¯ −→ 0. (3.24)
x∈X n→∞

Luego
° °2
°b ° P
°βλn − β0 ° −→ 0, (3.25)
2 n→∞

b λ de β es consistente en probabilidad.
por lo que el estimador de máxima verosimilitud suavizada β
b2λn según (3.19) de σ 2 se
La consistencia del estimador de máxima verosimilitud suavizada σ
prueba del modo siguiente:
¯ ¯
¯ 2 ¯ ¯ 1 X n ³ ´2 ¯
¯σ ¯ 2 bλ 2¯
bλn − σ 20 ¯ = ¯σeλn + eλn (xi ) − x0i β
µ − σ 0¯
¯ n i=1 n
¯
¯ n ¯
¯ 2 ¯ ¯1 X³ ´2 ¯
¯ b λ ¯¯ .
≤ ¯σeλn − σ 20 ¯ + ¯ µeλn (xi ) − x0i β
¯n n
¯
i=1

51
¯ 2 ¯
El término ¯σ
eλ − σ 20 ¯ tiende a cero en probabilidad según el supuesto (3.23). El segundo
término también tiende a cero en probabilidad. En efecto,
¯ n ¯ n ¯
1 ¯¯X ³ ´2 ¯ 1 X ¯¯³ ´2 ¯¯ 1 X n ³ ´2
0b ¯ 0b ¯ 0b
¯ eλn (xi ) − xi βλn ¯ ≤
µ e
µ (x ) − x β = e
µ (x ) − x β
n i=1 ¯ λn ¯ n
i i λn λn i i λn
n ¯ i=1 ¯
i=1
1 ¯ ¯2 ¯ ¯2
¯ 0b ¯ ¯ 0b ¯ P
≤ n sup ¯µeλn (x) − x β λn ¯ = sup ¯µ eλn (x) − x βλn ¯ −→ 0,
n x∈X x∈X n→∞

b λ −→
pues β
P P
eλn (x) −→ x0 β0 uniformemente sobre X según (3.25) y (3.24) respec-
β0 y µ
n
n→∞ n→∞
b2λ de σ 2 es consistente en
tivamente. Luego el estimador de máxima verosimilitud suavizada σ
probabilidad.
Esto concluye la demostración.¥
Un resultado que asegura el cumplimiento de (3.21) puede encontrarse en [15], página 122.
Este plantea que si se satisfacen las siguientes condiciones:
(C1) La verdadera función de regresión µ es una función de Lipschitz.
(C2) El conjunto X donde toma valores la variable x es compacto.
(C3) Los errores εi están acotados.
(C4) El núcleo K cumple que |K (u)| ≤ 1.
Entonces: Ã (µ ¶− 12 )!

sup |e
µλ (x) − µ (x)| = Op máx ,λ ,
x∈X log n

eλ (x) es el estimador de Nadaraya-Watson (3.2) de µ (x).


donde µ
³ ´− 12

Por tanto si λ −→ 0 y log n
−→ 0 entonces el resultado anterior implica que el estimador
n→∞ n→∞
eλ (x) converge en probabilidad a la verdadera función de regresión µ (x).
de Nadaraya-Watson µ
Las condiciones de la Proposición 3.3.3 pudieran debilitarse haciendo uso del hecho de que
típicamente no sólo se cumple (3.22) sino también la condición más fuerte:

°√ °2
° 0 −1 0 °
° n (X X) X ° −→ 0.
2 n→∞

Pero no dedicaremos espacio a tales posibles refinamientos de este resultado.

52
3.4. Resultados de simulación
En esta sección presentaremos resultados de simulación que ilustran el comportamiento del
enfoque de VS para modelos de regresión. Si bien una notable ventaja potencial de este nuevo
enfoque es su posibilidad de tratar modelos de regresión complejos que comprendan modelos
paramétricos lineales y no lineales, es lógico comenzar a evaluar el enfoque de VS en el caso más
simple y bien conocido de modelos de regresión lineales.
b λ coincide con el estimador
Para la regresión lineal con diseño aleatorio, el estimador por VS β
“ridge” (3.12), que ha sido ampliamente tratado en la literatura. Por este motivo centraremos
nuestro interés en el caso de la regresión lineal con diseño no aleatorio. En particular, estudiaremos
el comportamiento de la estimación por VS de un modelo de regresión polinomial con diseño no
aleatorio, en comparación con las estimaciones que se obtienen por otros métodos conocidos.

I. Estrategia de la simulación

Consideremos un problema de regresión polinomial entre una variable respuesta Y y una


variable predictora escalar T . Sean n datos {(yi , ti )}ni=1 según el modelo:

yi = µβ (ti ) + εi , (3.26)

¡ ¢0
donde β = β 0 , β 1 , ..., β p y

µβ (ti ) = β 0 + β 1 ti + β 2 t2i ... + β p tpi . (3.27)

En forma matricial, la ecuación de regresión (3.26) puede escribirse como Y = Xβ + ε,


¡ ¢
donde Y = (y1 , ..., yn )0 , ε = (ε1 , ..., εn )0 y X= tj−1
i , con i = 1, ..., n y j = 1, ..., p + 1. O sea,
0
µβ (ti ) = x0i β, donde xi = (1, ti , t2i , ..., tpi ) ∈ Rp+1 denota la i-ésima fila de la matriz X.
Nos interesa la situación, frecuente en la práctica, en que los datos satisfacen una relación
del tipo (3.26)-(3.27), pero con un verdadero grado del polinomio p = p0 desconocido por el
investigador. Consideremos pues el modelo (3.26) con un grado suficientemente grande p ≥ p0 .
Nótese que debido a que típicamente p se toma mucho mayor que p0 , el enfoque de verosimilitud
clásica no es adecuado para tamaños de muestra moderados pues conduciría a sobreajuste de los
parámetros.

53
Para las simulaciones se utilizaron n = 20 observaciones (yi , ti ), donde los n valores fijos ti de
la variable se tomaron equidistantes en el intervalo [0, 1]. La verdadera densidad se tomó como
f (y/xi ; θ 0 ) = N (x0i β0 , σ 20 ) (y), donde:

β0 = (1.6913, 8.4207, -9.2430, 3.5334, 0, 0)0

σ 20 = 0.49.

El verdadero grado es p0 = 3 mientras que el modelo se tomó con polinomios “candidatos”


de grados hasta p = 5, lo que involucra p + 1 coeficientes.

II. Comparaciones entre las distintas estimaciones de la función de regresión

Para el estudio comparativo, se calcularon varias estimaciones de la verdadera función de


regresión µβ 0 (t) = x0 β0 , donde x = (1, t, t2 , ..., tp ). Estas son:
a) Las estimaciones µβb (t) = x0 β b obtenidas por el método de los mínimos cuadrados de las
b correspondiente
funciones de regresión polinomiales de grados r = 0, 1, ..., 5. Aquí el estimador β
al polinomio de grado r = 0, 1, ..., 5 tiene dimensión r + 1.
b) El polinomio óptimo por el método de Validación Cruzada Generalizada (VCG), propuesto
por Wahba [30]. Este consiste en tomar el grado óptimo como sigue:

1
n
kY − Hr Yk2
pV CG = arg mı́n ,
r∈{0,1,2,...,5} (1 − trHr )2

donde Hr = Xr (X0r Xr )−1 X0r denota la matriz “sombrero” (“hat”) calculada a partir de la matriz
Xr que contiene las primeras r + 1 columnas de X. Se calcula entonces el estimador por mínimos
cuadrados µβb V CG (t) de la función de regresión dada por el polinomio de grado pV CG . O sea,
b V CG , donde β
µβb V CG (t) = x0 β b V CG es el estimador de β0 obtenido por el método de los mínimos

cuadrados tomando grado r = pV CG .


bS : µ b (t) = x0 β
c) La estimación por el método de máxima verosimilitud suavizada con λ bb ,
βb λS
λS

donde según (3.17):


X
n ³ ´
bS = arg máx
λ b(i) ,
ln f yi /xi ;θ λ
λ i=1
³ (i) ´
b(i)
θ b ,σ
= β b
2(i)
es el vector de los estimadores de máxima verosimilitud suavizada de β 0 y σ 20
λ λ λ

hallados según (3.18) y (3.19) respectivamente, pero sin usar el dato (yi , ti ) y tomando dimensión
b b se calcula por (3.18) con λ = λ
p = 5. β bS .
λS

54
bK determinado
eλbK (t) según (3.2) tomando λ = λ
d) La estimación por núcleo µλb K (t) = µ
según:
n ³
X ´2
bK = arg mı́n
λ
(i)
eλ (ti ) ,
yi − µ
λ i=1

(i)
eλ (ti ) denota el estimador de Nadaraya-Watson (3.2) hallado sin usar el dato (yi , ti )
donde µ
evaluado en ti . Esta es la llamada estimación por validación cruzada del ancho del núcleo [15].
bK : µ b (t) = x0 β
e) La estimación por el método de máxima verosimilitud suavizada con λ bb ,
βb λK
λK
bK es definido como en (d) y β
donde λ b b se calcula por (3.18) con λ = λ
bK .
λK

eλ (t) se halló
En los ajustes mencionados en (c), (d) y (e) el estimador de Nadaraya-Watson µ
tomando el núcleo Gaussiano K (u) = N (0, 1) (u).
Para ilustrar, la Figura 3-1 muestra los ajustes obtenidos por mínimos cuadrados (a) de las
distintas regresiones polinomiales de grados r = 0, 1, ..., 5 con los datos simulados.

Figura 3-1: Gráficas de los polinomios de grados r = 0, 1, ..., 5 estimados por mínimos cuadrados.

55
Se observa que los polinomios de grados 0 y 1 no tienen suficiente flexibilidad para aproximar
la verdadera función de regresión, mientras que los polinomios de grados 4 y 5 presentan grandes
oscilaciones. Esto último es característico del sobreajuste de funciones de regresión.
En la Figura 3-2 se muestra el polinomio de grado p = 5 ajustado por mínimos cuadrados
y los ajustes (b)-(e). Se observa que estos últimos aproximan la verdadera función de regresión
evitando el gran sesgo de los polinomios de grados 0 y 1, a la vez que la extrema oscilación de
los polinomios de alto grado 4 y 5 ajustados por mínimos cuadrados.

Figura 3-2: Gráficas de los ajustes (b): µβb V CG , (c): µβb b , (d): µλbK , (e): µβb b y del polinomio de
λS λK
grado p = 5 estimado por mínimos cuadrados.
³ ´
En las primeras columnas de la Tabla IV se muestran las estimaciones θ bb = β bb , σ
b 2
bS y
λS λS λ
³ ´
bV C = β
θ bV C , σ bS y por
b2V C de θ0 = (β0 , σ 20 ) obtenidas por máxima verosimilitud suavizada con λ
b2λbS se calcula
mínimos cuadrados (máxima verosimilitud clásica (VC)), respectivamente, donde σ
bS .
según (3.19) tomando λ igual a λ

56
Tabla IV. Diferentes estimaciones de θ0 .

Componentes de θ θ0 bV C
θ bb (λ
θ bS = 0.1864) θλn (λn = 0.1914)
λS

β0 1.6913 2.1916 2.5549 2.4384


β1 8.4207 -7.1602 1.5100 4.6932
β2 -9.243 86.4873 11.0473 -6.3980
β3 3.5334 -208.9524 -24.2149 5.7712
β4 0 195.7966 18.5409 0.0078
β5 0 -63.2910 -4.8457 -2.2503
σ2 0.49 0.3897 0.4950 0.5376

Para estudiar el comportamiento promedio de los estimadores de la verdadera función de


regresión se realizaron las siguientes simulaciones. Se generaron un número B = 1000 de muestras
independientes de tamaño n = 20. Para cada una de estas réplicas se calcularon las estimaciones
(a)-(e); y finalmente se estimaron los errores cuadráticos medios (ECM) de cada uno de ellos
con respecto a la verdadera función de regresión mediante:

1 X 1 X¡ b
B n
¢2
ECM = µ (ti ) − µβ 0 (ti ) ,
B b=1 n i=1

donde µb (t) denota el estimador que corresponda de los mencionados en (a)-(e) obtenido en la
b−ésima réplica.
Análogamente, también se estimaron el sesgo y la varianza de cada estimador. Como es sabido,
el ECM se descompone como la suma de la varianza y el cuadrado del sesgo. Los resultados
obtenidos para los estimadores por mínimos cuadrados de la función de regresión basados en
polinomios de distintos grados se muestran en la Tabla V. Para los estimadores (b)-(e), los
resultados obtenidos se presentan en la Tabla VI.

Tabla V. ECM de los polinomios de grados r = 0, 1, ..., 5 estimados por mínimos cuadrados.

r=0 r=1 r=2 r=3 r=4 r=5


ECM 0.6700 0.1593 0.0788 0.0986 0.1212 0.1455
Sesgo2 0.6462 0.1106 0.0059 0.0000 0.0000 0.0000
V arianza 0.0238 0.0487 0.0729 0.0986 0.1212 0.1455

57
Tabla VI. ECM de los estimadores (b)-(e).

(b): µβb V CG (c): µβb b (d): µλbK (e): µβb b


λS λK

ECM 0.1178 0.1350 0.1264 0.1123


Sesgo2 0.0017 0.0677 0.0187 0.0186
V arianza 0.1161 0.0673 0.1077 0.0937

El análisis de estas tablas revela los siguientes hechos que merecen destacarse:
-En la Tabla V se observa que los ajustes por mínimos cuadrados con polinomios de grados 2,
3 y 4 brindan los menores valores del ECM. Pero estos tienen la desventaja de que en la práctica
no se conoce el verdadero grado del polinomio.
-En la Tabla VI se observa que en general los estimadores µβb V CG y µβb b tienen un ECM
λK

comparable con el de los mejores polinomios (grados 2 al 4).


-De los estimadores (b)-(e), µβb b es el estimador que muestra mejor balance entre las com-
λS

ponentes de sesgo y varianza de su ECM.


-Curiosamente, µβb b muestra el menor ECM entre los estimadores (b)-(e). Nótese que tal
λK

estimador se obtiene simplemente sustituyendo en (3.18) a λ por una estimación no paramétrica


bK .
estándar del ancho del núcleo, λ
El criterio del ECM puede complementarse con otros criterios de calidad de la estimación.
³ ´
b con respecto a la verdadera
En especial, el criterio de similitud de KL de la densidad f ·/x; θ
³ ´
b
densidad f (·/x; θ0 ) es de interés en este contexto, donde θ = β, σ b 2
b es un estimador del
parámetro θ0 = (β 0 , σ 20 ). Esto resulta interesante pues tanto la log-verosimilitud usual como la
log-verosimilitud suavizada son aproximaciones empíricas de la similitud de KL. Es por esta razón
que se realizó una comparación entre las estimaciones obtenidas por VCG y por VS utilizando
este criterio, el cual tiene en cuenta no sólo la estimación de β0 sino también la de σ 20 .
Más específicamente, con las B = 1000 réplicas utilizadas en el cálculo de las estimaciones
³ ´
de los errores cuadráticos medios, se hallaron además las estimaciones θ bV CG = β b V CG , σ
b2V CG ,
³ ´ ³ ´
b b 2 b b
bλb S y θλbK = βλb K , σ
θλb S = βλb S , σ 2
b2V CG es la estimación de σ 20 que se obtiene
bλbK , donde σ
b2λbS y σ
por el método de los mínimos cuadrados según polinomio de grado pV CG , y σ b2λb K son las
estimaciones de σ 20 por máxima verosimilitud suavizada que se calculan como en (3.19) tomando λ
bS y a λ
igual a λ bK respectivamente. Hecho esto se calcularon los valores promedios de la similitud
³ ´
de KL (ES) de cada una de las densidades estimadas f ·/x; θ b con respecto a la verdadera

58
densidad f (·/x; θ0 ) mediante:

³ ³ ´´ 1 X ³
B ³ ´´
b
ES f (·/x; θ0 ), f ·/x; θ ≈ bb ,
S f (·/x; θ0 ), f ·/x; θ
B b=1

donde por analogía con (3.16) se tiene que:

³ ³ ´´ n Z
X ³ ´
b
b
S f (·/x; θ0 ), f ·/x; θ = bb dy
f (y/xi ; θ0 ) ln f y/xi ;θ
i=1
n µ
X ³ ´2 ¶
1 1 2 0 0 bb
= n ln √ − ³ ´2 σ 0 + xi β0 − xi β .
2πbσb 2 σ
bb i=1

µ ³ ´¶
2
bb =
Aquí θ b b, σ
β bb denota la estimación que corresponda de las mencionadas anterior-
mente, calculada con la b−ésima réplica. Los resultados obtenidos se muestran en la Tabla VII.
³ ´
b con respecto a f (·/x; θ0 ).
Tabla VII. ES de f ·/x; θ

b
θ bV CG
θ bb
θ bb
θ
λS λK
³ ³ ´´
b
ES f (·/x; θ0 ), f ·/x; θ -26.0312 -25.3429 -27.6277

bb brinda el ma-
Esta tabla indica que la estimación por máxima verosimilitud suavizada θ
³ ´ λS
yor valor promedio de la similitud de KL. Luego la densidad f ./x; θbb es la más parecida
λS

como promedio a la verdadera densidad f (·/x; θ0 ) en este sentido, dentro de las estimaciones
comparadas.

III. Calidad de la estimación del ancho del núcleo

bS del ancho λ propuesto en (3.17) equivale a hallar λ


La estimación λ bS de la siguiente forma:

bS = arg máxQ
λ e (λ) ,
λ

donde

X ³n ´
Qe (λ) = 1 q λ; yi , xi , Y(i) , X(i) , (3.28)
n i=1
³ ´ ³ ´ 1 ³ ´2
b(i) = ln √ 1
q λ; yi , xi , Y(i) , X(i) = ln f yi /xi ;θ − yi − x0 b (i)
β ,
λ (i) 2(i) i λ
2πbσλ 2b
σλ

59
¡ ¢
e es la versión
donde Y(i) , X(i) denota la muestra {(yi , xi )}ni=1 sin el dato (yi , xi ). La función Q
empírica de la media teórica:

³ ´ 1X n ³ ³ ´´
e
Q (λ) = Eθ0 Q (λ) = (i)
Eθ q λ; Yi , xi , Y , X(i)
n i=1 0
1X
n ³ ³ ´´
= b(i) .
Eθ0 ln f Yi /xi ;θ (3.29)
λ
n i=1

Mediante la maximización de Q (λ) con respecto a λ se obtiene un valor λn para λ que puede
b=λ
considerarse la contraparte poblacional de λ bS :

λn = arg máxQ (λ) . (3.30)


λ

bS de λ es compararla con λn .
Una manera de evaluar la calidad de la elección λ
La función Q (λ) no tiene una forma explícita, por lo que hay que aproximarla mediante
simulaciones. Para ello generamos R muestras {(y1r , ..., ynr )}, r = 1, ..., R, de la distribución mul-
tivariada Nn (Xβ 0 , σ 20 I), y se realiza la siguiente aproximación:

1X1X
n R³ ´
Q (λ) ≈ b(i)r
ln f yir /xi ;θ (3.31)
λ
n i=1 R r=1
 
µ ³ ´ ¶
1 X 1 X X
n R n 2
1 1 2 0 0 b (i)r 
= ln √ (i)r
− ³ ´2 σ 0 + xi β 0 − xi β λ ,
n i=1 R r=1 2πb σλ (i)r

σ n i=1

µ ³ ´2 ¶
b(i)r =
donde θ b (i)r
βλ , σ
(i)r
bλ es la estimación de θ0 = (β0 , σ 20 ) obtenida por máxima verosimi-
λ

litud suavizada según (3.18) y (3.19) usando la réplica r-ésima sin el dato (yir , xi ).

60
En la Figura 3-3 se presenta la gráfica de Q (λ) según (3.29) en función de λ obtenida en el
ejemplo de regresión descrito al comienzo de esta sección. Se utilizaron R = 500 réplicas para la
e (λ) según (3.28)
aproximación de Q (λ) de acuerdo a (3.31). También se muestra la gráfica de Q
en función de λ. Se observa que ambas curvas alcanzan sus máximos en regiones próximas. En
bS = 0.1864 son muy cercanos.
particular, sus puntos de máximo λn = 0.1914 y λ

e (azul) en función de λ.
Figura 3-3: Gráficas de Q (rojo) y Q

Este tipo de comportamiento se tiene en general al variar la muestra, como se ilustra en la


e se comporta como es típico de los métodos de remuestreo para la elección
Figura 3-4. Luego Q
e tiende a
de parámetros de control. Con cierta variabilidad aleatoria, la región de máximo de Q
reproducir la de su contraparte poblacional Q.

61
e (azul) para distintas muestras en función de λ.
Figura 3-4: Gráficas de Q (rojo) y de Q

IV. Calidad de la estimación por máxima verosimilitud suavizada


Para evaluar la calidad de la estimación por máxima VS se realizaron también las siguientes
simulaciones.
Denotemos por Seλ (θ; Y,X) la función de log-verosimilitud suavizada para un modelo de
regresión lineal con diseño no aleatorio (3.20) dividida entre n. O sea,

1X
n
1
Seλ (θ; Y,X) = lλ (θ; Y,X) = Hλ,i (θ; Y,X) , (3.32)
n n i=1

donde

¡ ¢ 1 1 ³ 2 2
´
Hλ,i (θ; Y,X) = H θ;e e2λ , xi = ln √
µλ (xi ) , σ − 2 σ µλ (xi ) − x0i β) .
eλ + (e
2πσ 2σ
Nótese que (3.32) es una versión empírica de su contraparte poblacional:

³ ´ 1X n
e
Sλ (θ) = Eθ 0 Sλ (θ; Y,X) = Eθ (Hλ,i (θ; Y,X)) .
n i=1 0

62
Los valores esperados Eθ 0 (Hλ,i (θ; Y,X)) no se obtienen explícitamente, por lo que los aproxi-
mamos por simulaciones. Específicamente, dadas R réplicas {(y1r , ..., ynr )}, r = 1, ..., R, generadas
según la distribución multivariada Nn (Xβ0 , σ 20 I), se realiza la siguiente aproximación por pro-
mediación:
1X ¡ r
R
¢
Eθ0 (Hλ,i (θ; Y,X)) ≈ H θ;e σ rλ )2 , xi ,
µλ (xi ) , (e
R r=1

donde µ σ rλ )2 son los valores de µ


erλ (xi ) y (e e2λ hallados según (3.2) y (3.3) respectivamente,
eλ (xi ) y σ
asociados a la réplica r-ésima. Por tanto, aproximamos:

1X1X ¡ r
n R
¢
Sλ (θ) ≈ H θ;e σ rλ )2 , xi .
µλ (xi ) , (e (3.33)
n i=1 R r=1

Mediante la maximización de Sλ (θ) con respecto a θ se obtiene un valor θλ que puede


bλ que se obtiene por máxima verosimilitud
considerarse la contraparte poblacional del estimador θ
suavizada:
θλ = arg máxSλ (θ) .
θ

Tomando aquí λ = λn (donde λn está definida por (3.30)) se obtiene el valor del parámetro

θλn = arg máxSλn (θ) .


θ

bS y θ λ como contraparte poblacional de θ


Considerar λn como contraparte poblacional de λ bλ
bb como una estimación del parámetro θ λn . Opinamos
conduce a juzgar la estimación por VS θ λS
bb debe considerarse ante todo como un
que este es un punto conceptualmente importante: θ λS

estimador de θλn , no del verdadero valor del parámetro θ 0 . Para muestras no muy grandes,
bb suelen estar tan lejos de θ0 que la comparación con este carece de interés; mientras
θλn y θ λS
bb es mucho menor. El parámetro prácticamente bien estimable y
que la distancia entre θ λn y θ λS

de interés para muestras finitas es θ λn . Este hecho es incluso general para cualquier estimador
dependiente de la elección de un parámetro de control λ.
Otro punto conceptualmente importante, relacionado con el anterior, es que la VS SeλbS (θ; Y,X)
es ante todo un estimador de Sλn (θ).
De acuerdo a estas consideraciones, la calidad de la estimación por máxima VS debe juzgarse
comparando θ bb con θλn y Seb (θ; Y,X) con Sλn (θ).
λS λS
Con el fin de ilustrar esto en las Figuras 3-5 y 3-6 se muestran las gráficas de las funciones
SeλbS (θ; Y,X) y Sλn (θ) según (3.32) y (3.33), respectivamente, además de las gráficas de las

63
funciones de log-verosimilitud clásica (VC) dividida entre n según:

1X
n
1
Svc (θ; Y,X) = l (θ; Y,X) = ln f (yi /xi ; θ) ,
n n i=1

y de la función de similitud de KL dividida entre n:

n · ´¸
1X 1 1 ³ 2 0 2
S (θ) = ln √ − σ 0 + (µ0 − xi β) .
n i=1 2πσ 2σ 2

Para facilitar la visualización, en la Figura 3-5 se fijan todas las componentes de θ = (β, σ 2 )
bV C , θ 0 , θ
excepto el coeficiente β 1 (que varía en eje de abcisa), en θ bb o θλn según se trate de
λS

la gráfica de Svc (θ; Y,X), S (θ), Seλb S (θ; Y,X) o Sλn (θ) respectivamente. Análogamente en la
Figura 3-6 se fijan todas las componentes excepto β 5 .

Figura 3-5: Gráficas de las funciones (i): Svc (·; Y,X), (ii): S (·), (iii): SeλbS (·; Y,X) y (iv): Sλn (·)
en función de la componente β 1 de θ.

64
En la Figura 3-5 se observa que todas las curvas de las funciones Svc (·; Y,X), S (·), SeλbS (·; Y,X)
y Sλn (·) alcanzan sus máximos en regiones muy próximas del verdadero valor de la componente
β 01 de β 0 . Por el contrario, la Figura 3-6 muestra que, con respecto a la última componente β 5 de
β, la función de log-verosimilitud clásica Svc (·; Y,X) alcanza su máximo en una región bastante
alejada del verdadero valor de la componente β 05 de β0 , que es donde alcanzan sus máximos el
resto de dichas funciones.

Figura 3-6: Gráficas de las funciones (i): Svc (·; Y,X), (ii): S (·), (iii): SeλbS (·; Y,X) y (iv): Sλn (·)
en función de la componente β 5 de θ.

bV C , θ
En la Tabla IV se muestran los valores de θ 0 , θ bb y θλn .
λS

Tanto las Figuras 3-5 y 3-6 como la Tabla IV muestran la buena calidad de la estimación
bb , su mucho mayor cercanía a θλn comparada con la
por máxima verosimilitud suavizada θ λS
bV C obtenida por máxima verosimilitud clásica (mínimos cuadrados).
estimación θ

65
Conclusiones

Los resultados obtenidos en este trabajo de tesis nos permiten concluir que:
1. A diferencia de la verosimilitud penalizada, la verosimilitud suavizada (VS) tiene una
interpretación directa como divergencia de Kullback-Leibler, no requiere de la especificación de
un funcional de penalización por el investigador y ofrece un nuevo enfoque para la estimación de
parámetros en modelos estadísticos de distribuciones continuas de variada complejidad evitando
el sobreajuste.
2. En el modelo de mezcla de densidades Gaussianas con varianzas distintas, la estimación por
máxima VS no presenta el conocido problema de degeneración de la estimación máximo verosímil
ni las limitaciones del estimador restringido de Hathaway [16], ni requiere de la especificación de
una distribución previa para los parámetros.
Tales estimaciones pueden aproximarse mediante un algoritmo tipo EM que es computa-
cionalmente simple y muestra buen comportamiento en simulaciones para valores no grandes del
ancho del núcleo.
3. En modelos de regresión lineales con diseño aleatorio, el estimador por máxima VS de
los coeficientes coincide con el estimador por mínimos cuadrados regularizado en el sentido de
Tijonov con respecto a la norma Euclidiana (“ridge regression”).
4. En modelos de regresión lineales con diseño no aleatorio, el estimador por máxima VS de
los coeficientes tiene la forma de un estimador por mínimos cuadrados calculado sobre la base
de un suavizamiento de los datos de la variable respuesta. Bajo condiciones bastante generales
es consistente en probabilidad. Aplicado a modelos de regresión polinomiales, muestra por simu-
laciones un comportamiento comparable al del mejor polinomio elegido por validación cruzada
generalizada (VCG) pero con mayor cercanía esperada a la verdadera densidad en el sentido de
similitud de Kullaback-Leibler.

66
Recomendaciones para el trabajo futuro

El presente trabajo se ha centrado en la introducción del nuevo enfoque de verosimilitud


suavizada (VS), la elaboración de métodos de estimación basados en el mismo, el desarrollo de
algoritmos para su cálculo y la evaluación de sus bondades a través de simulaciones en modelos de
dos tipos: a) mezcla de densidades Gaussianas univariadas de varianzas distintas y b) regresión
lineal con diseño no aleatorio.
Esto puede decirse que es sólo un comienzo del análisis del enfoque de VS. Quedan abiertos al
trabajo futuro variados problemas relacionados con el estudio más profundo de sus propiedades
teóricas y de su comportamiento práctico en otros tipos de modelos.
Mencionemos algunos de estos problemas abiertos, que nos parecen más inmediatamente
relevantes:
1) Estudio teórico de la consistencia del estimador por máxima VS de mezclas de densidades
Gaussianas multivariadas con matrices de varianza distintas.
2) Estudio de otros métodos para la selección del ancho del núcleo en la estimación por
máxima VS (e.g., métodos basados en bootstrap).
3) Desarrollo del método de estimación por máxima VS para modelos de regresión hetero-
cedásticos, caracterizados por funciones de regresión paramétricas tanto para la media como
para la varianza de la variable respuesta. Nótese que para estos modelos la especificación de
funcionales de penalización adecuados no es fácil. Esto hace deseable la búsqueda de alternativas
a la verosimilitud penalizada.
4) Construcción de regiones de confianza para θλn sobre la base de la función de VS.

67
Bibliografía

[1] Bandorff-Nielsen, O. E. (1988). Parametric Statistical Models and Likelihood. Springer-


Verlag: New York.

[2] Burbham, K. P., Anderson, D. R. (2002). Model Selection and Multimodel Inference.
Springer: New York.

[3] Carlin, B.P. and T.A. Louis (1996). Bayes and Empírical Bayes Methods for Data Analysis.
London: Chapman and Hall.

[4] Ciuperca, G.,Ridolfi, A., Idier, J. (2003). Penalized maximum likelihood estimator for normal
mixtures. Scandinavian Journal of Statistics. 30: 45-59

[5] Cox, D. R., Hinkley, D. V. (1974). Theoretical Statistics. Chapman and Hall: London.

[6] Dempster, A., Laird, N., and Rubin, D. (1977). Maximum likelihood from incomplete data
via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1):1—38.

[7] Devroye, L. and Lugosi, G. (2001). Combinatorial Methods in Density Estimation. Springer:
New York.

[8] Diebolt, J. and Robert, C. (1994). Estimation of finite mixture distributions through a
Bayesian sampling. J. Roy. Statist. Soc. Ser. B 56, 363-375.

[9] Edwards, A. W. F. (1992). Likelihood. Expanded Edition. The Johns Hopkins University
Press: Baltimore and London.

[10] Efron, B. (1982). The Jacknife, the Bootstrap and Other Resampling Plans. Regional Con-
ference Series in Applied Mathematics, No.38. Philadelphia: SIAM.

68
[11] Efron, B. and Tibshirani, R. J. (1993). An Introduction to the Bootstrap. Chapman & Hall:
New York.

[12] Eggermont, P. P. B. and LaRiccia, V. N. (2001). Maximum Penalized Likelihood Estimation.


Vol. I: Density Estimation. Springer-Verlag: New York.

[13] Golub, G., Heath, M. and Wahba, G. (1979). Generalized crossvalidation as a method for
choosing a good ridge parameter. Technometrics 21: 215-224.

[14] Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J. and Stahel, W. A. (1986). Robust Sta-
tistics. The Approach Based on Influence Functions. John Wiley & Sons: New York.

[15] Härdle, W. (1994). Applied Non-parametric Regression. Cambridge Univ. Press: Cambridge.

[16] Hathaway, R. J. (1985) A constrained formulation of maximum-likelihood estimation for


normal mixture distributions. Ann. Statist. 13, 795-800.

[17] Kullback, S. (1959). Information Theory and Statistics. John Wiley & Sons: New York.

[18] McLachlan, G. J. and Basford, K. E. (1987). Mixture Models, Inference and Applications to
Clustering. Marcel Dekker: New York.

[19] Nadaraya, E. A. (1964). On estimating regression. Theory Prob. Appl. 10:186-190.

[20] Nadaraya, E. A. (1989). Nonparametric Estimation of Probability Densities and Regression


Curves. Kluner Academic Press: Dordrecht.

[21] Prakasa Rao, B. L. S. (1983). Nonparametric Functional Estimation. Academic Press: Or-
lando.

[22] Redner, R. A. (1981). Note on the consistency of the maximum likelihood estimate for
non-identifiable distributions. Ann. Statist. 9, 225-228.

[23] Ridolfi, A., Idier, J. (1999). Penalized maximum likelihood estimator for univariate normal
mixture distributions. En Actes du 17 e colloque GRETSI, 259-262, Vannes, France.

[24] Ridolfi, A., Idier, J. (2000). Penalized maximum likelihood estimator for univariate normal
mixture distributions. Bayesian inference and maximum entropy methods, MaxEnt Work-
shops. Gif-sur-Yvette, France, July 2000.

69
[25] Sprott, D. A. (2000). Statistical Inference in Science. Springer: New York.

[26] Stephens, M. (2000). Bayesian analysis of mixture models with unknown number of compo-
nents —an alternative to revesible jumps methods. Ann. Statist. 28, 40-74.

[27] Titterington, D. M., Smith, A. F. M., Makov, U. E.(1985). Statistical Analysis of Finite
Mixture Distributions. John Wiley & Sons.

[28] Thompson, J. R. and Tapia, R. A. (1990). Nonparametric Function Estimation, Modeling


and Simulation. SIAM Society for Industrial and Applied Mathematics, Philadelpfia.

[29] Van der Vaart, A.W. (1998). Asymptotic Statistics. Cambridge Univ. Press: Cambridge.

[30] Wahba, G. (1977). A survey of some smoothing problems and the method of generalized
cross-validation for solving them. In: Applications of Statistics, P. Krishnaiah (ed.), North
Holland, Amsterdam.

[31] Watson, G. S. (1964). Smooth regression analysis, Sankhya, Series A 26: 359-372.

70

View publication stats

También podría gustarte