Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universidad de Granada
MTODOS DE REGRESIN
NO PARAMTRICOS PARA
EL ANLISIS DE DATOS
LONGITUDINALES
Trabajo Fin de Mster
Lnea de Investigacin: Estimacin no paramtrica de curvas en R
Realizado por: Jos Antonio Linero Morante
D.N.I.: 74912127-T
Tutora: Dra. D. Mara Dolores Martnez Miranda
Fecha: Diciembre 2011
ndice de contenidos
Captulo 1: Introduccin 1
1.1. Motivacin de ejemplos de datos longitudinales 1
1.1.1. Datos de progesterona 2
1.2. Modelizacin de efectos mixtos: de paramtrico a no paramtrico 6
1.2.1. Modelos paramtricos de efectos mixtos 6
1.2.2. Regresin no paramtrica y suavizacin 7
1.2.3. Modelos no paramtricos de efectos mixtos 10
Captulo 2: Modelos paramtricos de efectos mixtos 12
2.1. Introduccin 12
2.2. Modelo lineal de efectos mixtos 12
2.2.1. Especificacin del modelo 12
2.2.2. Estimacin de los efectos fijos y aleatorios 15
2.2.3. Interpretacin bayesiana 16
2.2.4. Estimacin de los componentes de varianza 18
2.2.5. Los algoritmos EM 20
Captulo 3: Suavizadores en regresin no paramtrica 24
3.1. Introduccin 24
3.2. Suavizador del ncleo polinomial local 27
3.2.1. Grado general del suavizador LPK 27
3.2.2. Suavizadores lineal y constante local 29
3.2.3. Funcin del ncleo 31
3.2.4. Seleccin del ancho de banda 32
3.2.5. Un ejemplo ilustrativo 34
Captulo 4: Mtodos localmente polinomiales 35
4.1. Introduccin 35
4.2. Modelo no paramtrico para la media poblacional 36
4.2.1. Mtodo del ncleo polinomial local 37
4.2.2. Mtodo del ncleo polinomial local GEE 40
4.3. Modelo no paramtrico de efectos mixtos 44
4.4. Modelado de efectos mixtos polinomial local 45
4.4.1. Aproximacin polinomial local 45
4.4.2. Estimacin por mxima verosimilitud local 46
4.4.3. Estimacin a partir de la verosimilitud local marginal 48
4.4.4. Estimacin a partir de la verosimilitud local conjunta 50
4.4.5. Estimacin de los componentes 53
4.5. Eleccin de buenos anchos de banda 54
4.5.1. Validacin cruzada dejar-un-sujeto-fuera 55
4.5.2. Validacin cruzada dejar-un-punto-fuera 56
4.6. Aplicacin a los datos de progesterona 56
Apndice: Cdigo en R generado para las aplicaciones 60
Referencias 74
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
1
Captulo 1: Introduccin
Los datos longitudinales tales como mediciones repetidas tomadas en cada uno
de una serie de sujetos a travs del tiempo surgen con frecuencia de muchos estudios
biomdicos y clnicos as como de otras reas cientficas. Estudios actualizados sobre
anlisis de datos longitudinales se pueden encontrar en Demidenko (2004) y Diggle,
Heagerty, Liang y Zeger (2002), entre otros. Los modelos paramtricos de efectos
mixtos son una herramienta poderosa para modelar la relacin entre una variable
respuesta y las covariables en estudios longitudinales. Los modelos lineales de efectos
mixtos (linear mixed-effects (LME)) y los modelos no lineales de efectos mixtos
(nonlinear mixed-effects (NLME)) son los dos ejemplos ms populares. Varios libros se
han publicado para resumir los logros en estas reas (Jones 1993, Davidian y Giltinan
1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000,
Diggle, Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo,
para muchas aplicaciones, los modelos paramtricos pueden ser demasiado restrictivos
o limitados, y a veces no estn disponibles al menos para el anlisis de los datos
preliminares. Para superar esta dificultad, las tcnicas de regresin no paramtricas se
han desarrollado para el anlisis de datos longitudinales en los ltimos aos. Con este
trabajo se tiene la intencin de estudiar los mtodos existentes e introducir tcnicas de
reciente desarrollo que combinan ideas de modelado de efectos mixtos y tcnicas de
regresin no paramtricas para el anlisis de datos longitudinales.
1.1. Motivacin de ejemplos de datos longitudinales
En los estudios longitudinales, los datos de los individuos se coleccionan varias
veces a travs del tiempo mientras que en los estudios de corte transversal slo se
obtiene un dato puntual para cada sujeto individual (es decir, un solo punto en el tiempo
por sujeto). Por lo tanto, la diferencia clave entre los datos longitudinales y los datos de
corte transversal es que los datos longitudinales estn generalmente correlacionados en
un sujeto y son independientes entre sujetos, mientras que los datos de corte transversal
a menudo son independientes.
Un desafo para el anlisis de datos longitudinales es cmo dar cuenta de las
correlaciones intra-sujeto. Los modelos LME y NLME son herramientas poderosas para
el manejo de un problema cuando adecuados modelos paramtricos estn disponibles
para relacionar una variable de respuesta longitudinal a sus covariables. Muchos
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
2
ejemplos de datos de la vida real han sido presentados en la literatura que emplea
tcnicas de modelado LME y NLME (Jones 1993, Davidian y Giltinan 1995, Vonesh y
Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000, Diggle,
Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo, para
muchos otros ejemplos de datos prcticos, adecuados modelos paramtricos pueden no
existir o son difciles de encontrar. Ejemplos de estudios biomdicos y clnicos se
presentarn y se utilizarn en este trabajo a modo de ilustracin. En estos ejemplos, los
modelos LME y NLME ya no son aplicables, y tcnicas de modelado de efectos mixtos
no paramtricos (nonparametric mixed-effects (NPME)), que son los temas centrales de
este trabajo, son una opcin natural al menos en la fase inicial de anlisis exploratorios.
Aunque los ejemplos de datos longitudinales en este trabajo son de estudios biomdicos
y clnicos, las metodologas propuestas en este trabajo son tambin aplicables a datos de
panel o datos agrupados de otros campos cientficos. Todos los conjuntos de datos y los
correspondientes anlisis de cdigos a travs del ordenador en este trabajo son de libre
acceso en la siguiente pgina web: (Adems, debemos notar que dicho cdigo est
escrito mediante el programa Matlab y nosotros en este trabajo escribimos el cdigo
mediante R, nuestro cdigo escrito en R se puede ver en el apndice titulado Cdigo en
R generado para las aplicaciones que se encuentra al final del trabajo.)
http://www.urmc.rochester.edu/smd/biostat/people/faculty/WuSite/publications.htm.
1.1.1. Datos de progesterona
Los datos de progesterona fueron recogidos en un estudio de la prdida temprana
del embarazo realizado por el Instituto de Toxicologa y Salud Ambiental en la Seccin
de Epidemiologa Reproductiva del Departamento de Servicios de Salud de California,
Berkeley, EE.UU. Las Figuras 1.1 y 1.2 muestran los niveles de progesterona en el
metabolito urinario en el transcurso de los ciclos menstruales de las mujeres (das). Las
observaciones procedan de pacientes con la funcin reproductiva sana inscritos en una
clnica de inseminacin artificial donde los intentos de inseminacin fueron oportunos
para cada ciclo menstrual. Los datos haban sido alineados por el da de la ovulacin
(Da 0), determinado por la hormona luteinizante en suero, y truncado en cada extremo
para presentar curvas de igual longitud. Las mediciones se registran una vez al da por
cada ciclo de 8 das antes del da de la ovulacin y hasta 15 das despus de la
ovulacin. Una mujer puede tener uno o varios ciclos. La duracin del perodo de
observacin es de 24 das. Algunas mediciones de algunos sujetos estaban perdidas por
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
3
diversas razones. El conjunto de datos consiste en dos grupos: las curvas de
progesterona conceptiva (22 ciclos menstruales) y las curvas de progesterona no
conceptiva (69 ciclos menstruales). Para ms detalles sobre este conjunto de datos, ver
Yen y Jaffe (1991), Brumback y Rice (1998), y Fan y Zhang (2000), entre otros.
La Figura 1.1 (a) presenta un diagrama espagueti de las 22 curvas en bruto de
progesterona conceptiva. Los puntos indican el nivel de progesterona observados en
cada ciclo, y estn conectados con segmentos de lnea recta. El problema de los valores
perdidos no es muy serio aqu ya que cada curva de ciclo tiene por lo menos 17 de las
24 mediciones. En general, las curvas en bruto presentan un patrn similar: antes del da
de la ovulacin (Da 0), las curvas en bruto son planas, pero despus del da de la
ovulacin, por lo general se mueven hacia arriba. Sin embargo, es fcil ver que en una
curva de ciclo, las mediciones varan en torno a alguna curva subyacente que parece ser
suave, y para ciclos diferentes, las curvas suaves subyacentes son diferentes unas de
otras. La Figura 1.1 (b) presenta las medias punto a punto (curva de color negro con
puntos en la traza) con banda de desviacin estndar (standard deviation (SD)) punto a
punto del 95% (curvas de color rojo con puntos en la traza). Fueron obtenidos de una
manera sencilla: en cada punto de tiempo distinto , la media y la desviacin estndar se
calculan utilizando los datos de corte transversal en . Se puede observar que la curva
media punto a punto es bastante suave, aunque no es difcil descubrir que todava hay
algo de ruido aparecido en la curva media punto a punto.
-5 0 5 10 15
-
4
-
2
0
2
4
Figura 1.1 (a) Grupo conceptivo
dias
l
o
g
(
p
r
o
g
)
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
4
La Figura 1.2 (a) presenta un diagrama espagueti de las 69 curvas en bruto de
progesterona no conceptiva. Comparada con las curvas de progesterona conceptiva,
estas curvas se comportan muy similares antes del da de la ovulacin, pero por lo
general muestran una tendencia diferente despus del da de la ovulacin. Es fcil ver
que, al igual que en las curvas de progesterona conceptiva, los ciclos individuales
subyacentes de las curvas de progesterona no conceptiva parecen ser suaves, y tambin
lo es su curva media subyacente. Una estimacin ingenua de la curva media subyacente
es la curva media punto a punto, que se muestra como curva de color negro con puntos
en la traza en la Figura 1.2 (b). La banda del 95% SD punto a punto (curvas de color
rojo con puntos en la traza) proporciona una estimacin aproximada de la exactitud de
la estimacin ingenua.
-5 0 5 10 15
-
2
-
1
0
1
2
3
Figura 1.1 (b) Grupo conceptivo
dias
l
o
g
(
p
r
o
g
)
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
5
Los datos de progesterona se han utilizado para ilustraciones de los mtodos de
regresin no paramtricos por varios autores. Por ejemplo, Fan y Zhang (2000) los
utiliz para ilustrar su mtodo de dos pasos para estimar la funcin media subyacente de
los datos longitudinales o de los datos funcionales, Brumback y Rice (1998) los utiliz
para ilustrar una tcnica de modelado de efectos mixtos con alisamiento spline para
estimar ambas funciones media e individual, mientras que Wu y Zhang (2002a) los
utiliz para ilustrar un enfoque de modelado de efectos mixtos polinomial local.
-5 0 5 10 15
-
4
-
2
0
2
4
Figura 1.2 (a) Grupo no conceptivo
dias
l
o
g
(
p
r
o
g
)
-5 0 5 10 15
-
2
-
1
0
1
2
Figura 1.2 (b) Grupo no conceptivo
dias
l
o
g
(
p
r
o
g
)
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
6
1.2. Modelizacin de efectos mixtos: de paramtrico a no paramtrico
1.2.1. Modelos paramtricos de efectos mixtos
Para la modelizacin de datos longitudinales, los modelos paramtricos de
efectos mixtos, tales como modelos lineales y no lineales de efectos mixtos, son una
herramienta natural. Los modelos lineales o no lineales de efectos mixtos se pueden
especificar como modelos lineales y no lineales jerrquicos, desde una perspectiva
bayesiana.
Los modelos lineales de efectos mixtos (linear mixed-effects (LME)) se utilizan
cuando la relacin entre una variable respuesta longitudinal y sus covariables se puede
expresar a travs de un modelo lineal. El modelo LME introducido por Harville (1976,
1977), y Laird y Ware (1982) en general se puede escribir como
donde
son las matrices de diseo asociadas a los efectos fijos y a los efectos aleatorios. Es fcil
notar que la media y la matriz de covarianza de
Los modelos no lineales de efectos mixtos (nonlinear mixed-effects (NLME)) se
utilizan cuando la relacin entre una variable respuesta longitudinal y sus covariables se
puede expresar a travs de un modelo no lineal, el cual es conocido a excepcin de
algunos parmetros. Un modelo no lineal jerrquico general o modelo NLME se puede
escribir como (Davidian y Giltinan 1995, Vonesh y Chinchilli 1996):
donde
no puede ser
dada para un modelo NLME general. Se pueden aproximar utilizando tcnicas de
linealizacin (Sheiner, Rosenberg y Melmon 1972, Sheiner y Beal 1980, y Lindstrom y
Bates 1990, entre otros).
Definiciones ms detalladas de los modelos LME y NLME se darn en el
Captulo 2. Ya sea en un modelo LME o en un modelo NLME, las variaciones entre-
sujeto e intra-sujeto se cuantifican separadamente por los componentes de varianza y
donde
indican los puntos de tiempo de diseo (por ejemplo, das en los datos de
progesterona),
la respuesta observada en
donde modela la funcin de media poblacional del conjunto de datos
longitudinales, llamada funcin de efecto fijo,
. Esto es, y
. Aqu
cuantifica la variacin entre-sujeto mientras que
.
En el marco de modelado NPME, necesitamos llevar a cabo las siguientes tareas:
(1) estimar la funcin (media poblacional) de efecto fijo ; (2) predecir las funciones
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
11
de efecto aleatorio
; (3) estimar la funcin de covarianza ; y (4) estimar la funcin de
varianza de ruido
.
La , y
, y
donde
generalmente se llaman el vector de efectos fijos y los vectores de efectos aleatorios,
respectivamente (para simplificar, a menudo se refieren como parmetros de efectos
fijos y efectos aleatorios del modelo LME), y
,
son conocidas como las componentes de varianza del modelo LME. En el
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
13
modelo LME anterior, para simplificar, asumimos que
donde
, y
.
El modelo LME anterior incluye modelos lineales de coeficientes aleatorios
(Longford 1993) y modelos para mediciones repetidas como casos especiales. Por
ejemplo, un modelo de dos etapas lineal de coeficiente aleatorio para curvas de
crecimiento (Longford 1993) se puede escribir como
donde
es un vector
de coeficientes aleatorios del -simo sujeto, y
.
De hecho, se puede escribir un modelo general de dos etapas lineal de
coeficiente aleatorio en la forma del modelo general LME (2.2). Un modelo general de
dos etapas de coeficiente aleatorio se puede escribir como (Davidian y Giltinan 1995,
Vonesh y Chinchilli 1996)
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
14
donde
es el asociado al vector de
efectos aleatorios -dimensional. Este modelo general de dos etapas de coeficiente
aleatorio se puede escribir en la forma del modelo general LME (2.2):
. De hecho, es
fcil demostrar que el modelo general de dos etapas de coeficiente aleatorio (2.4) es
equivalente al modelo general LME (2.2). En particular, cuando
, el modelo
general de dos etapas de coeficiente aleatorio (2.4) se reduce al modelo de coeficiente
aleatorio (2.3) para curvas de crecimiento. Ntese que el modelo general de dos etapas
de coeficiente aleatorio (2.4) tambin se conoce como modelo de efectos mixtos de dos
etapas y el modelo general LME (2.2) tambin se llama modelo lineal jerrquico.
En notacin matricial, el modelo general LME (2.2) se puede escribir adems
como
donde
Por lo general se asume que las mediciones repetidas de sujetos diferentes son
independientes y estn correlacionadas solamente cuando vienen del mismo sujeto.
Basado en el modelo general LME (2.5), tenemos
. Podemos ver
que la correlacin entre las mediciones repetidas puede ser inducida o a travs del
trmino de variacin entre-sujeto
)
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
15
son independientes, las mediciones repetidas
es diagonal en
el desarrollo de metodologas.
2.2.2. Estimacin de los efectos fijos y aleatorios
Las inferencias de y
, las estimaciones de y
se pueden obtener minimizando el siguiente logaritmo dos veces negativas de
la funcin de densidad conjunta de
(hasta una
constante):
Puesto que
donde , , , ,
donde
. Las matrices de
covarianzas de
son:
2.2.3. Interpretacin bayesiana
Es conocido que el modelo general LME (2.2) tiene una estrecha relacin con un
modelo Bayesiano en el sentido de que las soluciones (2.8) y (2.9) son las expectativas a
posteriori de los parmetros de un modelo Bayesiano en virtud de no informativas
probabilidades (distribuciones) a priori.
Antes de seguir adelante, manifestamos los siguientes dos lemas tiles cuyas
demostraciones se pueden encontrar en algunos libros de texto estndar multivariante,
por ejemplo, Anderson (1984).
Lema 2.1 Sean , y matrices , y tales que y
son
invertibles. Entonces
En particular, cuando , y donde es un vector , tenemos
Lema 2.2 Sea
donde
es invertible. Entonces
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
17
Definimos ahora el siguiente problema Bayesiano:
con distribucin a priori para y :
donde , y son independientes unas de otras, y
se define en
(2.6).
Ntese que la especificacin de es flexible. Por ejemplo, podemos dejar que
. Esto es,
Adems, como
donde
Ntese que
y . Si sustituimos
las estimaciones puntuales de
.
El Teorema 2.1 da las distribuciones del lmite a posteriori de , y en el
marco Bayesiano (2.14) y (2.15) cuando
o cuando lo a priori en no es
informativo. A veces, es interesante conocer la distribucin a posteriori de y cuando
est dada, por ejemplo, cuando
Vale la pena notar que, segn el Teorema 2.2, tenemos
.
2.2.4. Estimacin de los componentes de varianza
Si las matrices de covarianza, y
. Las estimaciones de y
no se
contabilizan.
Bajo el supuesto de normalidad, el mtodo de mxima verosimilitud (maximum
likelihood (ML)) y el mtodo de mxima verosimilitud restringida (restricted maximum
likelihood (REML)) son dos tcnicas populares para estimar los componentes
desconocidos de y
,
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
19
la funcin de verosimilitud generalizada se puede escribir como
donde es la dimensin de y
El mtodo ML para la estimacin de componentes de varianza es maximizar la
siguiente funcin de log-verosimilitud:
con respecto a los componentes de varianza para un determinado . Sin embargo, la
maximizacin conjunta con respecto a los componentes de varianza
, y el vector de
parmetros de efectos fijos tambin da lugar a la estimacin de en (2.8).
El mtodo REML se utiliza para integrar a y de
con el fin de
ajustar la prdida de grados de libertad debido a la estimacin de del mtodo ML, es
decir, para maximizar
Se puede demostrar que
donde
Las estimaciones REML de componentes de varianza se pueden obtener a travs
de la maximizacin
Derivaciones ms detalladas de estos resultados se pueden encontrar en
Davidian y Giltinan (1995).
2.2.5. Los algoritmos EM
La implementacin de los mtodos ML y REML no es trivial. Para superar esta
dificultad de implementacin, los mtodos de algoritmo EM y de Newton-Raphson han
sido propuestos (Laird y Ware 1982, Dempster, Rubin y Tsutakawa 1981, Laird, Lange
y Stram 1987, Jenrich y Schluchter 1986, Lindstrom y Bates 1990). Los libros de
Searle, Casella y McCulloch (1992), Davidian y Giltinan (1995), Vonesh y Chinchilli
(1996) y Pinheiro y Bates (2000) tambin proporcionan una buena revisin de estos
mtodos de implementacin. El paquete estndar de software estadstico tal como R
ofrece funciones convenientes para implementar estos mtodos (por ejemplo, la funcin
lme de R). Haremos una breve revisin del algoritmo EM aqu.
Recordemos que por lo general asumimos que
Cuando
y sern
Este es el paso M del algoritmo EM. Debido a que
no se conocen, las
estimaciones anteriores no son computables. Hay dos maneras de superar esta
dificultad, asociadas, respectivamente, con el algoritmo EM basado en el ML o REML.
Ntese que las estimaciones ML de y
se obtienen a travs de la
maximizacin de la funcin de log-verosimilitud (2.20) con el vector de parmetros de
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
21
efectos fijos
en (2.23) con
respectivamente. El razonamiento subyacente es que los componentes de varianza y
En el lado derecho de las expresiones (2.25), los componentes de varianza
y
an son desconocidas. Sin embargo, cuando se sustituyen por los valores actuales
disponibles, los valores actualizados de
, se pueden actualizar
utilizando (2.25) hasta la convergencia. Esta es la idea principal del algoritmo EM. Para
simplificar, los valores iniciales pueden tomarse como
. El ciclo
principal para el algoritmo EM basado en el ML es el siguiente:
(a) Dados
, calcular
, actualizar
utilizando (2.25).
(c) Alternar entre (a) y (b) hasta la convergencia.
Sea el ndice de secuencia de las iteraciones, y
los
valores estimados de y
se
definen de forma similar. A continuacin, ms formalmente, el algoritmo EM basado en
el ML puede ser escrito como sigue:
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
22
Algoritmo EM basado en el ML
Paso 0. Establecer . Sea
, y
.
Paso 1. Establecer . Actualizar
utilizando
donde
Paso 2. Actualizar
utilizando
donde
Paso 3. Repetir los pasos 1 y 2 hasta la convergencia.
El algoritmo EM basado en el REML puede ser igualmente descrito. Las
principales diferencias son:
(a) El algoritmo EM basado en el REML se ha desarrollado para encontrar las
estimaciones REML de
en
(2.23) por
como se indica en (2.24). Estas expectativas condicionales se pueden obtener
fcilmente utilizando el Teorema 2.1 y las presentaremos en el Teorema 2.4 a
continuacin para facilitar su consulta.
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
23
(c) El algoritmo EM basado en el REML puede ser obtenido simplemente a travs
de sustituir todos los
, donde
El Teorema 2.4 a continuacin es similar al Teorema 2.3 pero se basa en el
Teorema 2.1.
Teorema 2.4 Supongamos que el modelo Bayesiano definido en (2.14) y (2.15) se
cumple, y supongamos que
donde
.
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
24
Captulo 3: Suavizadores en regresin no paramtrica
3.1. Introduccin
En el Captulo 2, hemos revisado los modelos paramtricos de efectos mixtos
para datos longitudinales, en particular hemos visto los modelos lineales de efectos
mixtos. Estos modelos paramtricos de efectos mixtos han sido ampliamente estudiados
y aplicados para analizar datos longitudinales en la literatura (Lindsey 1993, Diggle,
Liang y Zeger 1994, Davidian y Giltinan 1995, Vonesh y Chinchilli 1996, Pinheiro y
Bates 2000, Verbeke y Molenberghs 2000). Uno de los supuestos bsicos de estos
modelos es que la variable de respuesta (o a travs de una funcin de enlace conocida)
es una funcin paramtrica conocida de ambos efectos fijos y efectos aleatorios. Es
decir, para cada individuo, la relacin subyacente entre la respuesta y las covariables de
efectos mixtos es paramtrica. Sin embargo, esta suposicin no siempre se cumple en
las aplicaciones prcticas.
Tomamos los datos de progesterona, introducidos en la Seccin 1.1.1 del
Captulo 1, como un ejemplo. La Figura 3.1 muestra la grfica de los datos con puntos
(crculos) individuales de progesterona de un sujeto seleccionado (hemos seleccionado
el sujeto nmero 2 del ciclo 5 del grupo no conceptivo). Se presentan ejemplos de algn
polinomio de menor grado ajustado (curvas continuas de color negro) a los datos. El
panel (a) representa un ajuste del modelo lineal, que no se ajusta adecuadamente a los
datos. Esta dificultad puede ser superada por el aumento del grado de los polinomios,
por ejemplo de lineal a cuadrtico, cbico o cuartico como se muestran en los paneles
(b), (c) y (d), respectivamente. Se ve que cuanto mayor sea el grado del polinomio, ms
adecuadamente se ajustan los datos. Se ve que tanto los modelos polinomiales cbico y
cuartico son generalmente bien ajustados a los datos, pero los ajustes siguen siendo
pobres antes del Da 0.
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
25
Se obtuvieron resultados similares cuando reemplazamos el sujeto seleccionado
por algunos otros sujetos elegidos. Por lo tanto, un modelo polinomial de menor grado
puede no ajustarse bien a los datos de progesterona. Estos datos son slo un ejemplo de
conjuntos de datos prcticos que no pueden ser bien ajustados por polinomios de grado
menor. Hrdle (1990), Fan y Gijbels (1996), Green y Silverman (1994), y Ramsay y
Silverman (1997, 2002), entre otros, proporcionaron ejemplos de datos donde no es
posible ajustar adecuadamente los datos mediante polinomios de cualquier grado o
cualquiera de los modelos paramtricos. En estos casos, las tcnicas no paramtricas de
modelado son necesarias.
Los datos de progesterona para el sujeto seleccionado, presentados como
crculos en la Figura 3.1, se pueden denotar como
-5 0 5 10 15
-
1
0
1
2
3
Figura 3.1 (a) Lineal
dias
l
o
g
(
p
r
o
g
)
-5 0 5 10 15
-
1
0
1
2
3
Figura 3.1 (b) Cuadrtico
dias
l
o
g
(
p
r
o
g
)
-5 0 5 10 15
-
1
0
1
2
3
Figura 3.1 (c) Cbico
dias
l
o
g
(
p
r
o
g
)
-5 0 5 10 15
-
1
0
1
2
3
Figura 3.1 (d) Cuartico
dias
l
o
g
(
p
r
o
g
)
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
26
donde
son las respuestas a los puntos en tiempo de diseo. Los puntos en tiempo de
diseo pueden ser igualmente espaciados en un intervalo de inters, o ser considerado
como una muestra aleatoria de una densidad de diseo continua, concretamente, .
Para simplificar, vamos a denotar el intervalo de inters, o el soporte de como ,
que puede ser un intervalo finito, por ejemplo, o toda la recta real . Las
respuestas
donde modela la funcin de regresin subyacente que queremos estimar, pero no
puede ser aproximada utilizando un modelo paramtrico adecuado, y
denota los errores de medicin que no pueden ser explicados por la funcin de regresin
. Matemticamente, es la esperanza condicionada de
, dado
, es decir,
Para los datos longitudinales, el conjunto de datos (3.1) describe la estructura de
datos para un sujeto individual donde es la funcin de los individuos, y
son los puntos en tiempo de diseo de los individuos con mediciones.
Hay muchos suavizadores existentes que pueden ser utilizados para estimar la
en (3.2). Diferentes suavizadores tienen diferentes puntos fuertes en uno u otro
aspecto. Por ejemplo, la suavizacin splines puede ser buena para el manejo de la
escasez de datos, mientras que los suavizadores polinomial local pueden ser
computacionalmente ventajosos para el manejo de diseos densos. En este captulo,
revisaremos los suavizadores polinomial local (Wand y Jones 1995, Fan y Gijbels 1996)
en la Seccin 3.2. En captulos posteriores, se desarrollan la media de la poblacin no
paramtrica y modelos de efectos mixtos para datos longitudinales basados en estos
suavizadores.
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
27
3.2. Suavizador del ncleo polinomial local
3.2.1. Grado general del suavizador LPK
La idea principal del suavizado del ncleo polinomial local (local polynomial
kernel (LPK)) es aproximar localmente la en (3.2) por un polinomio de menor grado.
Su fundamento es la expansin de Taylor, que establece que cualquier funcin suave
puede ser localmente aproximada por un polinomio de menor grado.
En concreto, sea
en una zona de
denota la derivada
-sima de en
.
Fijamos
, . Sea
los
minimizadores del siguiente criterio de mnimos cuadrados ponderados (weighted least
squares (WLS)):
donde
donde el ajuste local se lleva a cabo. La funcin del ncleo, , determina cmo las
observaciones dentro de
contribuyen al ajuste en
como
. Entonces
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
28
En particular, el resultado del -simo grado del estimador LPK de
es
.
Una expresin explcita para
la matriz de diseo y la matriz de pesos para el ajuste LPK alrededor de
. Entonces el
criterio WLS (3.3) se puede reescribir como
donde
. Resulta que
donde
Cuando
. El suavizador derivado
a menos que discutamos la estimacin derivada. Fijamos
donde
es
despus de sustituir
con
. Sea
que
denota el valor ajustado en todos los puntos en tiempo de diseo. Entonces
se puede
expresar como
donde
se conoce como la matriz suavizadora del suavizador LPK. Puesto que
no depende
del vector de respuesta , el suavizador LPK
Dentro de una zona local
El estimador Nadaraya-Watson es fcil de entender y fcil de calcular. Sea
que denota la funcin indicadora de un conjunto . Cuando la funcin del ncleo es
el ncleo Uniforme
el estimador Nadaraya-Watson (3.9) es exactamente la media local de
s que estn
dentro de la zona local
(3.4):
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
30
donde
de modo que
que
minimiza el siguiente criterio WLS:
Entonces el suavizador lineal local es
donde
Por lo general, la eleccin del grado de ajuste LPK, , no es tan importante
como la eleccin del ancho de banda, . Un suavizador constante local o lineal
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
31
local a menudo es lo suficientemente bueno para la mayora de los problemas
de aplicacin si la funcin del ncleo y el ancho de banda son adecuadamente
determinados. Fan y Gijbels (1996, Captulo 3) seal que para la estimacin de la
curva (no vlido para la estimacin derivada) un impar es preferible. Esto es as
porque un ajuste LPK con , introduce un parmetro adicional en
comparacin con un ajuste LPK con , pero no aumenta la varianza del estimador
asociado LPK. Sin embargo, el sesgo asociado puede ser reducido significativamente,
especialmente en las regiones de frontera (Fan 1992, 1993, Hastie y Loader 1993, Fan y
Gijbels 1996, Cheng, Fan y Marron 1997). Por lo tanto, el suavizador lineal local es
altamente recomendable para la mayora de los problemas en la prctica.
3.2.3. Funcin del ncleo
La funcin del ncleo utilizada en el suavizador LPK (3.6) es generalmente
una funcin de densidad de probabilidad simtrica. Mientras que el ancho de banda
especifica el tamao de la zona local
.
Hemos visto anteriormente el ncleo Uniforme (3.10) y ahora vemos el ncleo
Gaussiano (funcin de densidad de probabilidad normal estndar)
Cuando el ncleo Uniforme se utiliza, todos los
,
mientras que todos los
s se determina por la
distancia de
, mayor es la
contribucin. Esto es porque el ncleo Gaussiano es con forma de campana y alcanza su
punto mximo en el origen. El ncleo Uniforme tiene un soporte limitado que permite al
ajuste LPK utilizar los datos slo en la zona
donde
donde
se conocen como el sesgo y la varianza de
es un punto interior,
podemos demostrar que como ,
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
33
donde
. Cuando es pequeo,
contiene slo unas pocas observaciones de modo que
tiene un sesgo grande pero una varianza pequea.
Es entonces natural seleccionar un ancho de banda global para que el MISE
(MSE para un ancho de banda local) de
se reduzca al mnimo.
Desafortunadamente, el MISE (3.14) no es calculable ya que es, despus de todo,
desconocido y es el objetivo que se estima. Este problema se puede superar mediante la
seleccin de para minimizar algn estimador del MISE. Un estimador del MISE se
puede obtener a travs de la estimacin de las cantidades desconocidas en la expresin
asinttica MISE usando algn grado superior del ajuste LPK, dando como resultado el
llamado complemento de los selectores de ancho de banda (Fan y Gijbels 1992,
Ruppert, Sheather y Wand 1995). El MISE tambin se puede estimar mediante
validacin cruzada o sus versiones modificadas: validacin cruzada generalizada
(Wahba 1985), criterio de informacin Akaike (Akaike 1973) y criterio de informacin
Bayesiano (Schwarz 1978), entre otros.
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
34
3.2.5. Un ejemplo ilustrativo
Para una rpida implementacin del suavizador LPK, referimos a los lectores a
Fan y Marron (1994) donde una tcnica de agrupacin se propone para el manejo de
grandes conjuntos de datos. Ahora aplicamos el suavizador LPK (3.6) a los datos
presentados en la Figura 3.1. Como ejemplo ilustrativo, se emple el ajuste lineal local
con tres diferentes anchos de banda. En la Figura 3.2, los tres ajustes lineales
locales se presentan. La curva continua de color rojo casi interpola los datos ya que
utiliza un ancho de banda
, que es demasiado
pequeo. Este es el caso de infra-suavizado. La curva continua de color azul no se ajusta
bien a los datos ya que utiliza un ancho de banda
,
que es demasiado grande. Este es el caso de sobre-suavizado. La curva continua de
color negro produce un buen ajuste a los datos ya que utiliza un ancho de banda
el -simo
punto en tiempo de diseo del -simo sujeto y la respuesta asociada donde
con
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
37
Si un modelo paramtrico no est disponible para el modelado de la funcin de
media poblacional de los anteriores datos longitudinales, es natural modelar en no
paramtrica. Es decir, asumimos justamente que la funcin de media poblacional es
suave. Tal modelo no paramtrico de media poblacional (nonparametric population
mean (NPM)) se puede escribir como
donde es la funcin suave de media poblacional, y
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
38
donde
con
,
. Sea
donde
la matriz de diseo y la matriz de peso para el -simo sujeto, respectivamente. Adems,
se denota
donde
con
Sea
que los estimadores de las derivadas
son
En particular, el estimador LPK para la funcin de media poblacional es
.
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
39
Al igual que con suavizado en datos i.i.d. que se describe en la Seccin 3.2,
puede ser tomado como 0 y 1 por simplicidad. Por ejemplo, cuando , tenemos
Cuando
En otras palabras,
en la zona local
en lo que respecta a la minimizacin (4.9).
Cuando , el estimador LPK asociado es generalmente conocido como
el estimador del ncleo lineal local de . A partir de (4.6), el estimador del ncleo
lineal local puede ser expresado como
donde
Del mismo modo, el estimador (4.10) se llama un estimador del ncleo lineal
local ya que se obtiene mediante aproximacin de
Basado en los resultados de Hoover, Rice, Wu y Yang (1998), es fcil demostrar
que cuando , bajo ciertas condiciones de regularidad, tenemos
donde el trmino de primer orden
en la expresin de se
relaciona con la variacin intra-sujeto solamente, mientras que el trmino de segundo
orden
es limitada, en
comparacin a cuando
son
limitados, la en (4.12) est dominada por el trmino de primer orden para que
; cuando todos los
para que
. En particular, supongamos
entonces como
, tenemos
es del orden de
cuando
es limitada. Rice y
Silverman (1991) propusieron un mtodo de validacin cruzada dejar-un-sujeto-fuera
para la seleccin de un ancho de banda adecuado para datos longitudinales. Esta
estrategia de seleccin de ancho de banda fue empleada por Hoover, Rice, Wu y Yang
(1998).
4.2.2. Mtodo del ncleo polinomial local GEE
El mtodo LPK-GEE fue propuesto y estudiado por Lin y Carroll (2000). Para el
modelo NPM (4.2), basado en la notacin como ,
, y definido en el apartado
anterior, el asociado LPK-GEE es
donde
con y siendo una matriz de correlacin de
trabajo especificado por el usuario. Cuando
Los estimadores para y sus derivadas se pueden obtener fcilmente
utilizando (4.7).
La matriz de correlacin de trabajo en la formulacin LPK-GEE (4.13) se
utiliza para tener en cuenta parcialmente la estructura de correlacin subyacente de .
En particular, cuando tomamos , tenemos
de manera
que la estructura de correlacin verdadera se tiene en cuenta aunque esto es casi
imposible en aplicaciones reales.
El resultado contrario a la intuicin de Lin y Carroll (2000) es que el ms
eficiente estimador LPK-GEE se obtiene haciendo caso omiso de la correlacin intra-
sujeto en lugar de especificar correctamente la correlacin intra-sujeto, es decir,
suponiendo
y 0 en otro caso. El
procedimiento de dos pasos para el modelo NPM (4.2) puede ser descrito de la siguiente
manera (Wang 2003):
Paso 1. Obtener un estimador inicial consistente de , por ejemplo . Por
ejemplo, el estimador working independence puede ser tomado como .
Paso 2. Obtener la estimacin final de , por ejemplo
, resolviendo la
ecuacin estimada del ncleo ponderado
donde el -simo elemento de
es
cuando con
estando a un margen
del punto de tiempo ; y el -simo elemento de
es
cuando .
La estructura de
cuyo tiempo de
medicin
, en lugar de
,
contribuye a la estimacin local
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
43
donde
con
vemos que los datos correlacionados pero no en un margen de se incorporan en el
estimador de dos pasos mediante la adicin de sus residuos ponderados obtenidos a
partir del primer paso, y el peso es su correlacin (covarianza) hasta el -simo punto de
datos que est en un margen de . La ventaja del estimador en dos pasos es una
reduccin de la varianza sin la ampliacin de los sesgos al menos asintticamente. El
anterior mtodo de dos pasos puede ser mejorado mediante la iteracin de los dos pasos.
Sin embargo, las investigaciones tericas muestran, a la primera orden, que el estimador
de dos pasos alcanza las mismas propiedades asintticas que el estimador totalmente
reiterado. Wang (2003) muestra que el estimador de dos pasos supera de manera
uniforme el estimador working independence (Lin y Carroll 2000) en trminos de la
varianza asinttica si la covarianza verdadera se ha especificado correctamente.
El mtodo de dos pasos de Wang proporciona una forma inteligente de
incorporar correlaciones intra-sujeto de datos longitudinales con el fin de utilizar
eficientemente los datos disponibles para mejorar el estimador working independence.
Sin embargo, el uso de un margen de de
donde como en el modelo NPM (4.2), modela la funcin de media poblacional
suave de los datos longitudinales, tambin llamada funcin de efecto fijo;
modela
la salida de la -sima funcin individual de la funcin de media poblacional ,
llamada la -sima funcin de efectos individual (sujeto-especificado) o funcin de
efecto aleatorio; y
, del nuevo
modelo (4.18). El modelo (4.18) se le llama modelo no paramtrico de efectos mixtos
(nonparametric mixed-effects (NPME)) ya que tanto las funciones de efecto fijo y efecto
aleatorio son no paramtricas.
Por conveniencia, a menudo asumimos que las funciones de efecto aleatorio no
observables
. Esto es, y
Ntese que , y
tambin se les conoce como curvas de la poblacin e individual. Debido a que las
cantidades objetivo , y
en torno a una zona de inters.
Supongamos que y
en
donde
De ello se sigue que, dentro de una zona de , el modelo NPME (4.18) puede ser
razonablemente aproximado por un modelo LME:
donde
denota los
efectos aleatorios. Bajo el supuesto Gausiano (4.19),
Basado en el modelo NPME (4.18), los componentes de varianza
es un vector de observaciones
obtenido del -simo sujeto en los puntos de tiempo
, donde
Cuando
que es una funcin de
donde
.
A modo de ejemplo, si
, entonces el
logaritmo de verosimilitud (log-likelihood) del ncleo ponderado se puede escribir
como
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
48
que es una funcin de logaritmo de verosimilitud (log-likelihood) local estndar para
datos independientes como se discute en Staniswalis (1989) y Fan, Farmen y Gijbels
(1998). En el caso de no correlacin intra-sujeto, el logaritmo de verosimilitud (log-
likelihood) local ponderado (4.23) se puede escribir como
Esto coincide con los casos considerados por Hoover, Rice, Wu y Yang (1998) y
Lin y Carroll (2000).
En general, la forma del logaritmo de verosimilitud (log-likelihood) local es un
problema especfico. La aplicacin del peso del ncleo de diferentes maneras puede dar
lugar a diferentes estimadores. En las subsecciones siguientes se muestran las
aplicaciones del logaritmo de verosimilitud (log-likelihood) del ncleo ponderado (4.23)
en diferentes escenarios para modelos NPME.
4.4.3. Estimacin a partir de la verosimilitud local marginal
En esta subseccin, introducimos un mtodo de verosimilitud local marginal
para estimar la funcin de media poblacional (Park y Wu 2005). Para la
aproximacin del modelo LME (4.22), sea
y supongamos que el
supuesto Gausiano (4.19) se cumple. Entonces, la distribucin marginal local de
en la
aproximacin del modelo LME (4.22) es normal con una media de
y varianza de
donde
donde
con la matriz de pesos del ncleo
ponderando el vector
de residuos
simtricamente.
Para las matrices de varianza dadas
, la diferenciacin de (4.25)
con respecto a obtiene la estimacin de la ecuacin para :
donde
, y
.
Por tanto, un estimador de forma cerrada para es
Cuando
usando la funcin lm de R, donde
, y
tienen media 0 y varianza
y la covariable
.
El estimador local de probabilidad marginal de se puede encontrar como
donde
son
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
50
matrices diagonales conocidas, el estimador
es
donde
. Puesto que
donde
, y
es un vector
donde y se definen como en la subseccin anterior, y
, y
.
Entonces los resultados de los estimadores LPME para
son
donde
En notacin matricial, los estimadores anteriores se pueden escribir en una
forma ms compacta:
donde
donde
donde
se
pueden encontrar como
Uno puede notar que la diferencia entre el estimador a partir de verosimilitud
local marginal (4.27) y el estimador (4.37) para el parmetro de la poblacin se debe
a diferentes funciones de peso. En las estimaciones de los parmetros de efectos
aleatorios (4.38), el parmetro de la poblacin puede ser reemplazado por cualquiera
de los estimadores consistentes, tales como (4.27) o (4.37). De hecho,
es un
estimador de Bayes emprico o un mejor predictor lineal insesgado (best linear
unbiased predictor (BLUP)), vase Davidian y Giltinan (1995) y Vonesh y Chinchilli
(1996) para ms detalles. Las estimaciones de los efectos aleatorios, nos permiten captar
las curvas de respuesta individual,
donde
para . En particular,
.
El estimador de
Basado en
suelen ser muy ruidosos, y cuando es demasiado grande, y
puede
sobresuavizarse los datos ya que alguna informacin importante en los datos no est
suficientemente capturada. En esta seccin, hablaremos de cmo elegir buenos anchos
de banda para los estimadores LPME.
En primer lugar, por (4.33), es fcil ver que el conjunto de datos est
involucrado en los estimadores de la poblacin mientras que slo los datos del
sujeto estn dedicados principalmente a la curva de los estimadores individuales para
el -simo sujeto, es decir,
. Para
simplificar, un ancho de banda comn para la estimacin de
donde
se define como
el minimizador de
(4.34), es decir
, entonces
Por lo tanto, la nica aproximacin requiere ajustar el modelo LPME una vez
para calcular la puntuacin SCV (4.43) para todos los sujetos, y por tanto el esfuerzo
computacional es mucho menor.
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
56
4.5.2. Validacin cruzada dejar-un-punto-fuera
El criterio PCV se define como sigue. Supongamos
todos los
puntos distintos en tiempo de diseo para el conjunto de datos entero. Para un
dado,
supongamos que los sujetos
tienen mediciones en
Sean
los estimadores de
donde los pesos
en cuenta. El ancho de
banda PCV ptimo
.
4.6. Aplicacin a los datos de progesterona
Los datos de progesterona introducidos en el Captulo 1 han sido
cuidadosamente estudiados por Brumback y Rice (1998) como una interesante
ilustracin de sus modelos ANOVA funcionales basados en la suavizacin spline. La
necesidad de intensiva computacin representa un gran desafo para su mtodo. Fan y
Zhang (2000) volvi a analizar los datos utilizando un mtodo de dos pasos. En esta
seccin, aplicamos el mtodo (nonparametric mixed-effects (NPME)) a este conjunto de
datos como una ilustracin de las metodologas introducidas en este captulo.
Los datos de progesterona consisten en dos grupos de curvas de progesterona del
metabolito urinario (ver Figuras 1.1 y 1.2). Uno de ellos es conocido como el grupo no
conceptivo con 69 ciclos menstruales de mujeres; el otro como el grupo conceptivo con
22 ciclos menstruales de mujeres. Aproximadamente el 8.3% de los datos eran faltantes.
Los dos grupos de curvas estn muy correlacionados con coeficientes de correlacin por
encima de 0.70 y 0.50, respectivamente. En este ejemplo de alta correlacin y baja tasa
de valores faltantes, vamos a aplicar el mtodo NPME para estimar las curvas de la
poblacin y las curvas individuales. Debido a que los grupos conceptivo y no
conceptivo parecen mostrar diferencias, deben analizarse por separado. Para ahorrar
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
57
espacio, slo informamos de los resultados de los datos del grupo conceptivo o
equivalentemente de los datos de progesterona conceptiva.
Los detalles para ajustar el modelo NPME (4.18) a los datos de progesterona
conceptiva son como sigue. Se utiliza la funcin lme de R para ajustar el modelo (4.18)
localmente. En primer lugar, para estimar la funcin de efecto fijo o funcin de media
poblacional utilizamos el estimador local de probabilidad marginal (4.29) de Park
y Wu (2005). A continuacin, para la estimacin de la funcin de efecto aleatorio
utilizamos una aproximacin por un modelo semiparamtrico, pasamos del modelo
(4.18) al siguiente modelo:
.
De esta manera, estimamos