Está en la página 1de 15

Control Estadístico de la Calidad

Cali, Colombia, Septiembre 1 de 2020


0pt 2pt

Taller 4
Plan de Muestreo Por Variables
1,a
Daniel Andres Delgado O (1622960)
2,b
, Juliana Pavas Herrera (1630814)
1 Escuela de Estadística, Facultad de Ingeniería, Universidad del Valle, Cali, Colombia

1. Métodos de suavización Kernel


En este capítulo describimos una clase de técnicas de regresión que logran flexibilidad en la
estimación de la función de regresión f(X) sobre el dominio Rp ajustando un modelo diferente pero
simple por separado en cada punto de consulta x0 . Esto se hace usando solo aquellas observaciones
cercanas al punto objetivo x0 para ajustar el modelo simple, y de tal manera que la función estimada
resultante fˆ(x) sea suave en Rp . Esta localización se logra mediante una función de ponderación
o kernel Kλ (x0 , xi), que asigna un peso a xi en función de su distancia desde x0 . Los núcleos
Kλ suelen estar indexados por un parámetro λ que dicta el ancho de la vecindad. Estos métodos
basados en la memoria requieren, en principio, poca o ninguna formación; todo el trabajo se realiza
en el momento de la evaluación. El único parámetro que debe determinarse a partir de los datos
de entrenamiento es λ. Sin embargo, el modelo es el conjunto de datos de entrenamiento completo.
También discutimos clases más generales de técnicas basadas en kernel, que se relacionan con
métodos estructurados en otros capítulos y son útiles para la estimación y clasificación de la
densidad.
Las técnicas de este capítulo no deben confundirse con las asociadas con el uso más reciente de la
frase "métodos del núcleo". En este capítulo, los núcleos se utilizan principalmente como dispositivo
de localización. Analizamos los métodos del kernel en las Secciones 5.8, 14.5.4, 18.5 y el Capítulo
12; en esos contextos, el kernel calcula un producto interno en un espacio de características de
alta dimensión (implícito) y se utiliza para el modelado no lineal regularizado. Hacemos algunas
conexiones con la metodología en este capítulo al final de la Sección 6.7.

Figura 1

a Estudiante. E-mail: daniel.andres.delgado@correounivalle.edu.co


b Estudiante.
1
E-mail: juliana.pavas@correounivalle.edu.co
2 Daniel Andres Delgado O (1622960) & Juliana Pavas Herrera (1630814)

1.1. Suavizadores Kernel Uni-dimensionales


En el Capítulo 2, motivamos el promedio de k-vecino más cercano

fˆ(x) = Ave(yi | xi ∈ Nk (x)) (1.1)

como una estimación de la función de regresión E(Y | X = x). Aquí Nk (x) es el conjunto de k
puntos más cercanos a x en la distancia al cuadrado, y Ave denota el promedio (media). La idea es
relajar la definición de expectativa condicional, como se ilustra en el panel izquierdo de la Figura
1, y calcular un promedio en una vecindad del punto objetivo. En este caso, hemos utilizado la
vecindad 30 más cercana: el ajuste en x0 es el promedio de los 30 pares cuyos valores xi están más
cerca de x0 . La curva verde está llena de baches. ya que fˆ(x) es discontinua en x. A medida que
movemos x0 de izquierda a derecha, el k vecindario más cercano permanece constante, hasta que
un punto xi a la derecha de x0 se vuelve más cercano que el punto más lejano xi en el vecindario
a la izquierda de x0 , momento en el cual xi reemplaza a xi 0 . El promedio en 1 cambia de manera
discreta, lo que lleva a una fˆ(x) discontinua.

Esta discontinuidad es fea e innecesaria. En lugar de dar todo el puntos en la vecindad igual peso,
podemos asignar pesos que mueren suavemente con la distancia desde el punto objetivo. El panel
de la derecha muestra un ejemplo de esto, utilizando el llamado promedio ponderado del kernel de
Nadaraya-Watson.
PN
ˆ Kλ (x0 , xi )yi
f (x0 ) = Pi=1
N
(1.2)
i=1 Kλ (x0 , xi )

con el núcleo cuadrático de Epanechnikov.

|x − x0 |
Kλ (x0 , xi ) = D( ) (1.3)
λ
Con: 3
4 (1 − t2 ) si |t| ≤ 1.
D(t) = (1.4)
0 en otro caso

La función ajustada ahora es continua y bastante suave en el panel derecho de la Figura 1 A medida
que movemos el objetivo de izquierda a derecha, los puntos ingresan al vecindario inicialmente con
un peso cero y luego su contribución aumenta lentamente (vea el ejercicio 6.1).

En el panel derecho usamos un tamaño de ventana métrica λ = 0.2 para ajustar el kernel, que no
cambia cuando movemos el punto de destino x0 , mientras que el tamaño de la ventana de suavizado
de 30 vecinos más cercanos se adapta a la densidad local de xi . Sin embargo, también se pueden
usar estos vecindarios adaptativos con kernels, pero necesitamos usar una notación más general.
Sea hλ (x0 ) una función de ancho (indexada por λ) que determina el ancho de la vecindad en x0 .
Entonces, de manera más general, tenemos:

|x − x0 |
Kλ (x0 , x) = D( ) (1.5)
hλ (x0 )

en la ecuación 1.3, hλ (x0 ) = λ es constante.Para k vecindarios más cercanos, el tamaño del


vecindario k reemplaza a λ, y tenemos hλ (x0 ) = x0 − x[k] , donde x[k] es la kth mas cercana

de xi a x0 .

Hay una serie de detalles a los que hay que prestar atención en la práctica.

• El parámetro de suavizado λ, que determina el ancho del local vecindario, tiene que ser
determinado. Gran λ implica menor varianza (promedios sobre más observaciones) pero
mayor sesgo (esencialmente asumimos que la función verdadera es constante dentro de la
ventana).

Control Estadístico de Calidad (2020)


Taller 4 3

• Los anchos de la ventana métrica (hλ (x) constante) tienden a mantener el sesgo de la
estimación constante, pero la varianza es inversamente proporcional a la densidad local. Los
anchos de ventana del vecino más cercano exhiben lo contrario comportamiento; la varianza
permanece constante y el sesgo absoluto varía inversamente con la densidad local.

• Los problemas surgen con los vecinos más cercanos cuando hay vínculos en el xi . Con la
mayoría de las técnicas de suavizado, uno puede simplemente reducir el conjunto de datos
promediando el yi en valores empatados de X, y complementando estos nuevos observaciones
en los valores únicos de xi con un peso adicional wi (que multiplica el peso del grano).

Figura 2

• Esto deja un problema más general con el que lidiar: pesos de observación wi . Operativamente,
simplemente los multiplicamos por los pesos del núcleo antes de calcular el promedio ponderado.
Con los vecindarios más cercanos, ahora es natural insistir en los vecindarios con un contenido
de peso total k (relativo a wi ). En caso de desbordamiento (la última observación necesaria
P
en un vecindario tiene un peso wj que hace que la suma de pesos exceda el presupuesto k),
entonces se pueden usar partes fraccionarias.

• Surgen problemas de límites. Los barrios métricos tienden a contener menos puntos en los
límites, mientras que los barrios más cercanos se ensanchan.

• el kernel de Epanechnikov tiene soporte compacto (necesario cuando se usa con el tamaño
de la ventana del vecino más cercano). Otro núcleo compacto popular se basa en la función
tri-cube.

(
3
(1 − |t| )3 si |t| ≤ 1.
D(t) = (1.6)
0 en otro caso

Esto es más plano en la parte superior (como la caja del vecino más cercano) y es diferenciable en
el límite de su soporte. La función de densidad gaussiana D(t) = Φ(t) es un núcleo no compacto
popular, con la desviación estándar jugando el papel del tamaño de la ventana. La figura 2 compara
los tres.

1.1.1. Regresión lineal local

Hemos pasado de la media móvil bruta a una media ponderada localmente variable mediante el uso
de la ponderación del grano. Sin embargo, el ajuste suave del núcleo todavía presenta problemas,
como se muestra en la Figura 3 (panel izquierdo). Los promedios ponderados localmente pueden
estar muy sesgados en los límites del dominio, debido a la asimetría del kernel en esa región. Al

Control Estadístico de Calidad (2020)


4 Daniel Andres Delgado O (1622960) & Juliana Pavas Herrera (1630814)

ajustar líneas rectas en lugar de constantes localmente, podemos eliminar este sesgo exactamente
al primer orden; consulte la Figura 3 (panel derecho). En realidad, este sesgo también puede
estar presente en el interior del dominio, si los valores de X no están igualmente espaciados (por
las mismas razones, pero generalmente menos graves). De nuevo, la regresión lineal ponderada
localmente hará una corrección de primer orden.

Figura 3

La regresión ponderada localmente resuelve un problema de mínimos cuadrados ponderados por


separado en cada punto objetivo x0 :

N
X
mı́n Kλ (x0 , xi )[yi − α(x0 ) − β(x0 )xi ]2 (1.7)
α(x0 ),β(x0 )
i=1

La estimación es entonces fˆ(x0 ) = α̂(x0 ) + β̂(x0 )x0 . Observe que, aunque ajustamos un modelo
lineal completo a los datos de la región, solo lo usamos para evaluar el ajuste en el punto único x0 .

Definimos la función con valores vectoriales b(x)T = (1, x). sea B la matriz de regresión NX2 con la
i-esima fila b(xi )T , y W (x0 una matriz diagonal NXN con el i-esimo elemento diagonal Kλ (x0 , xi ).
Luego:

fˆ(x0 ) = b(x0 )T (B T W (x0 )B)−1 B T W (x0 )y (1.8)

N
X
= li (x0 )yi (1.9)
i=1

La ecuación (1.8) da una expresión explícita para la estimación de la regresión lineal local, y (1.9)
destaca el hecho de que la estimación es lineal en yi (li (x0 ) no implica y). Estos pesos li (x0 )
combinados con el grado de ponderación Kλ (x0 , .) y las operaciones de mínimos cuadrados, y a
veces son referido como el kernel equivalente.

Control Estadístico de Calidad (2020)


Taller 4 5

Figura 4

La figura 4 ilustra el efecto de la regresión lineal local en el kernel equivalente. Históricamente,


el sesgo en Nadaraya-Watson y otros métodos de kernel promedio locales se corrigió modificando
el kernel. Estas modificaciones se basaron en consideraciones teóricas del error cuadrático medio
asintótico y, además de ser tedioso implementar, son solo aproximados para tamaños de muestra
finitos. La regresión lineal local modifica automáticamente el kernel para corregir el sesgo exactamente
al primer orden, un fenómeno denominado carpintería automática del kernel. Considere la siguiente
expansión para E fˆ(x0 ), usando la linealidad de la regresión local y una expansión en serie de la
verdadera función f al rededor de x0 .

N N N N
X X X f 00 (x0 ) X
E fˆ(x0 ) = li (x0 )f (xi ) = f (x0 ) li (x0 )+f 0 (x0 ) (xi −x0 )li (x0 )+ (xi −x0 )2 li (x0 )+R
i=1 i=1 i=1
2 i=1
(1.10)

donde el término restante R implica derivadas de tercer y orden superior de f, y es típicamente


pequeño bajo supuestos de suavidad adecuados. Se puede demostrar (ejercicio 6.2) que para la
PN PN
regresión lineal local, i=1 li (x0 ) = 1 y i=1 (xi − x0 )li (x0 ) = 0. Por lo tanto, el término medio
es igual a f (x0 ), y dado que el sesgo es E fˆ(x0) − f (x0 ), vemos que depende solo de términos
cuadráticos y de orden superior en la expansión de f.

Figura 5

Control Estadístico de Calidad (2020)


6 Daniel Andres Delgado O (1622960) & Juliana Pavas Herrera (1630814)

1.1.2. Regresión polinomial local

¿Por qué detenerse en ajustes lineales locales? Podemos ajustar ajustes polinomiales locales de
cualquier grado d.
 2
N
X d
X
mı́n Kλ (x0 , xi ) yi − α(x0 ) − βj (x0 )xji  (1.11)
α(x0 ),βj (x0 ),j=1,2,...,d
i=1 j=1

Pd
con solución fˆ(x0 ) = α̂(x0 ) + j=1 β̂j (x0 )xj0 . De hecho, una expansión como (6.10) nos dirá que
el sesgo solo tendrá componentes de grado d + 1 y superiores (ejercicio 6.2). La figura 5 ilustra
la regresión cuadrática local. Los ajustes lineales locales tienden a estar sesgados en las regiones
de curvatura de la función verdadera, un fenómeno conocido como recorte de colinas y llenado de
valles. Local La regresión cuadrática generalmente puede corregir este sesgo.

Por supuesto, hay un precio que pagar por esta reducción del sesgo, y es mayor varianza. El ajuste
en el panel derecho de la Figura 5 es un poco más ondulado, especialmente en las colas. Asumiendo
el modelo yi = f (xi ) + ei , con ei independiente e idénticamente distribuida con media cero y
2
σ 2 , V ar(fˆ(x0 )) = σ 2 kl(x0 )k , donde l(x0 ) es el vector de pesos de grano equivalentes en x0 . Se
puede demostrar (ejercicio 6.3) que kl(x0 )k aumenta con d, por lo que hay una compensación de
sesgo-varianza al seleccionar el grado del polinomio.

Figura 6

La figura 6 ilustra estas curvas de varianza para polinomios locales de grado cero, uno y dos. Para
resumir algunos conocimientos recopilados sobre este tema:

• Los ajustes lineales locales pueden ayudar a sesgar drásticamente los límites en un modesto
costo en variación. Los ajustes cuadráticos locales hacen poco en los límites del sesgo, pero
aumentan mucho la varianza.
• Los ajustes cuadráticos locales tienden a ser más útiles para reducir el sesgo debido a
curvatura en el interior del dominio.
• El análisis asintótico sugiere que los polinomios locales de grado impar dominan los de grado
parejo. Esto se debe en gran parte al hecho de que asintóticamente, el MSE está dominado
por efectos de frontera.

Si bien puede ser útil retocar y moverse desde ajustes lineales locales en el límite a los ajustes
cuadráticos locales en el interior, no recomendamos tales estrategias. Por lo general, la aplicación

Control Estadístico de Calidad (2020)


Taller 4 7

determinará el grado de ajuste. Por ejemplo, si estamos interesados en la extrapolación, entonces


el límite es de mayor interés y los ajustes lineales locales probablemente sean más confiables.

1.2. Seleccionar el ancho del kernel


En cada uno de los kernels Kλ , λ es un parámetro que controla su ancho:

• Para el núcleo de Epanechnikov o tri-cube con ancho métrico, λ es el radio de la región de


apoyo.
• Para el kernel gaussiano, λ es la desviación estándar.
• λ es el número k de vecinos más cercanos en k vecindarios más cercanos, a menudo se expresa
como una fracción o intervalo k / N de la muestra de entrenamiento total.

Figura 7

Existe una compensación natural entre sesgo y varianza a medida que cambiamos el ancho de la
ventana de promedios, que es más explícita para los promedios locales:

• Si la ventana es estrecha, fˆ(x0 ) es un promedio de un pequeño número de yi cerca de x0 , y


su varianza será relativamente grande, cercana a la de un yi individual. El sesgo tenderá a
ser pequeño, nuevamente porque cada de E(yi ) = f (xi ) debe estar cerca de f (x0 ).
• Si la ventana es amplia, la varianza de fˆ(x0 ) será pequeña en relación con la varianza de
cualquier yi , debido a los efectos del promedio. El sesgo será mayor, porque ahora estamos
usando observaciones xi más alejadas de x0 , y no hay garantía de que f (xi ) esté cerca de
f (x0 ).

Se aplican argumentos similares a las estimaciones de regresión local, digamos lineal local: a medida
que el ancho llega a cero, las estimaciones se acercan a una función lineal por partes que interpola
los datos de entrenamiento; a medida que el ancho se vuelve infinitamente grande, el ajuste se
aproxima al ajuste de mínimos cuadrados lineales globales de los datos.
La discusión en el Capítulo 5 sobre la selección del parámetro de regularización para suavizar
splines se aplica aquí y no se repetirá. Los suavizadores de regresión local son estimadores lineales,
se construye la matriz de suavización fˆ = Sλ y que es equivalente al kernel de (6.8), y tiene ij-esima
entrada {Sλ }ij = li (xj ). . La validación cruzada de omisión es particularmente simple (ejercicio
6.7), al igual que la validación cruzada generalizada, Cp (ejercicio 6.10) y la validación cruzada de
k veces.
Los grados de libertad efectivos se definen nuevamente como traza (Sλ ) y se pueden usar para
calibrar la cantidad de suavizado. La figura 7 compara los núcleos equivalentes para una spline
suavizante y una regresión lineal local. La regresión local más suave tiene un intervalo del 40 %, lo
que da como resultado gl= traza(Sλ ) = 5,86. El spline de suavizado se calibró para tener el mismo
gl, y sus granos equivalentes son cualitativamente bastante similares.

Control Estadístico de Calidad (2020)


8 Daniel Andres Delgado O (1622960) & Juliana Pavas Herrera (1630814)

1.3. Regresión Local en Rp

El suavizado de kernel y la regresión local se generalizan de forma muy natural a dos o más
dimensiones. El suavizador del núcleo de Nadaraya-Watson ajusta una constante localmente con
pesos proporcionados por un núcleo p-dimensional. La regresión lineal local se ajustará a un
hiperplano localmente en X, por mínimos cuadrados ponderados, con pesos proporcionados por
un núcleo p-dimensional. Es simple de implementar y generalmente se prefiere al ajuste constante
local por su desempeño superior en los límites.

Sea b(x) un vector de términos polinomiales en X de grado máximo d. por ejemplo, con d=1
y p=2 obtenemos b(X) = (1, X1 , X2 ), con d=2 obtenemos b(X) = (1, X1 , X2 , X12 , X22 , X1 X2 ), y
trivialmente con d= 0 obtenemos b(X) = 1. En cada x0 ∈ Rp resolver.

N
X
mı́n Kλ (x0 , xi )(yi − b(xi )T β(x0 ))2 (1.12)
β(X0 )
i=1

para producir el ajuste fˆ(x0 ) = b(x0 )T β̂(x0 ). Normalmente, el kernel será una función radial, como
el kernel radial de Epanechnikov o tri-cube.

 
kx − x0 k
Kλ (x0 , x) = D (1.13)
λ

Donde k.k es la norma euclidiana. Dado que la norma euclidiana depende de las unidades en cada
coordenada, tiene más sentido estandarizar cada predictor, por ejemplo, a la desviación estándar
de la unidad, antes de suavizar.

Si bien los efectos de contorno son un problema en el suavizado unidimensional, son un problema
mucho mayor en dos o más dimensiones, ya que la fracción de puntos en el límite es mayor.
De hecho, una de las manifestaciones de la maldición de la dimensionalidad es que la fracción de
puntos cercanos al límite aumenta a uno a medida que crece la dimensión. Modificar directamente el
kernel para acomodar límites bidimensionales se vuelve muy complicado, especialmente para límites
irregulares. La regresión polinomial local realiza sin problemas la corrección de límites en el orden
deseado en cualquier dimensión. La Figura 8 ilustra la regresión lineal local en algunas mediciones de
un estudio astronómico con un diseño de predicción inusual (en forma de estrella). Aquí, el límite es
extremadamente irregular y la superficie ajustada también debe interpolar sobre regiones de escasez
de datos cada vez mayor a medida que nos acercamos al límite. La regresión local se vuelve menos
útil en dimensiones mucho mayores que dos o tres. Hemos discutido con cierto detalle los problemas
de dimensionalidad, por ejemplo, en el Capítulo 2. Es imposible mantener simultáneamente la
localidad (⇒ bajo sesgo) y una muestra considerable en el vecindario (⇒baja varianza) a medida
que aumenta la dimensión, sin que aumente el tamaño total de la muestra. exponencialmente en p.
La visualización de fˆ(X) también se vuelve difícil en dimensiones superiores, y este suele ser uno
de los objetivos principales del suavizado.

Control Estadístico de Calidad (2020)


Taller 4 9

Figura 8

Aunque las imágenes de nubes dispersas y de estructura de alambre de la Figura 68 parecen


atractivas, es bastante difícil interpretar los resultados excepto a un nivel general. Desde la perspectiva
del análisis de datos, los gráficos condicionales son mucho más útiles.

La figura 9 muestra un análisis de algunos datos ambientales con tres predictores. La pantalla
enrejado muestra el ozono en función de la radiación, condicionado por las otras dos variables,
la temperatura y la velocidad del viento. Sin embargo, el condicionamiento sobre el valor de una
variable realmente implica local a ese valor (como en la regresión local). Encima de cada uno de
los paneles en la Figura 6.9 hay una indicación del rango de valores presentes en ese panel para
cada uno de los valores de acondicionamiento. En el propio panel se muestran los subconjuntos de
datos (respuesta frente a la variable restante) y se ajusta una regresión lineal local unidimensional
a los datos. Aunque esto no es lo mismo que mirar cortes de una superficie tridimensional ajustada,
probablemente sea más útil en términos de comprender el comportamiento conjunto de los datos.

1.4. Modelos de regresión local estructurados en Rp

Cuando la relación dimensión-tamaño de la muestra es desfavorable, la regresión local no nos ayuda


mucho, a menos que estemos dispuestos a hacer algunos supuestos estructurales sobre el modelo.
Gran parte de este libro trata sobre modelos estructurados de regresión y clasificación. Aquí nos
enfocamos en algunos enfoques directamente relacionados con los métodos del kernel.

Control Estadístico de Calidad (2020)


10 Daniel Andres Delgado O (1622960) & Juliana Pavas Herrera (1630814)

Figura 9

1.4.1. Núcleos estructurados

Una línea de enfoque es modificar el núcleo. El núcleo esférico predeterminado (6.13) da el mismo
peso a cada coordenada, por lo que una estrategia predeterminada natural es estandarizar cada
variable a la desviación estándar unitaria. Un enfoque más general es usar una matriz A semidefinida
positiva para pesar las diferentes coordenadas:

(x0 − x)T A(x0 − x)


 
Kλ,A (x0 , x) = D (1.14)
λ

Se pueden degradar u omitir coordenadas o direcciones completas imponiendo restricciones apropiadas


sobre A. Por ejemplo, si A es diagonal, entonces podemos aumentar o disminuir la influencia de los
predictores individuales Xj aumentando o disminuyendo Ajj . A menudo, los predictores son muchos
y están muy correlacionados, como los que surgen de señales o imágenes analógicas digitalizadas. La
función de covarianza de los predictores se puede usar para adaptar una métrica A que se enfoque
menos, digamos, en los contrastes de alta frecuencia (ejercicio 6.4). Se han realizado propuestas
para el aprendizaje de los parámetros de kernels multidimensionales. Por ejemplo, el modelo de
regresión proyección-persecución discutido en el Capítulo 11 es de este tipo, donde las versiones de
bajo rango de A implican funciones de cresta para fˆ(X). Los modelos más generales para A son
engorrosos y, en cambio, preferimos las formas estructuradas para la función de regresión que se
analiza a continuación.

Control Estadístico de Calidad (2020)


Taller 4 11

1.4.2. Funciones de regresión estructuradas

Estamos tratando de ajustar una función de regresión. E(Y | X) = f (X1 , X2 , ..., Xp ) en Rp , en el


que cada nivel de interacción está potencialmente presente. Es natural considerar descomposiciones
de análisis de varianza (ANOVA) de la forma:
X X
f (X1 , X2 , ..., Xp ) = α + gj (Xj ) + (Xk , Xι ) + ... (1.15)
j k<ι

y luego introducir la estructura eliminando algunos de los términos dePorden superior. Los modelos
p
aditivos asumen solo términos de efecto principal : f (X) = α + j=1 gi (Xi ), los modelos de
segundo orden tendrán términos con interacciones de orden como máximo dos, y así sucesivamente.
En el Capítulo 9, describimos algoritmos de backfitting iterativos para ajustar tales modelos
de interacción de bajo orden. En el modelo aditivo, por ejemplo, si se asume que todos los
términos excepto el k-ésimo son conocidos, entonces podemos estimar gk por regresión local de Y −
j ) en Xk . Esto se hace para cada función a su vez, repetidamente, hasta la convergencia.
P
g
j6≡k j (X
El detalle importante es que en cualquier etapa, lo único que se necesita es una regresión local
unidimensional. Las mismas ideas se pueden utilizar para ajustar las descomposiciones ANOVA de
baja dimensión.

Un caso especial importante de estos modelos estructurados es la clase de modelos de coeficientes


variables. Supongamos, por ejemplo, que dividimos los p predictores en X en un conjunto (X1 , X2 , ..., Xp )
con q < p, y el resto de las variables que recolectamos en el vector Z. Luego asumimos el modelo
condicionalmente lineal.

f (X) = α(Z) + β1 (Z)X1 + ... + βq (Z)Xq (1.16)

Para Z dado, este es un modelo lineal, pero cada uno de los coeficientes puede variar con Z. Es
natural ajustar este modelo por mínimos cuadrados ponderados localmente:

N
X
mı́n Kλ (z0 , zi )(yi − α(z0 ) − X1i β1 (z0 ) − ... − Xqi βq (z0 ))2 (1.17)
α(z0 ),β(z0 )
i=1

Figura 10

Control Estadístico de Calidad (2020)


12 Daniel Andres Delgado O (1622960) & Juliana Pavas Herrera (1630814)

La figura 10 ilustra la idea de las mediciones de la aorta humana. Una afirmación de larga data
ha sido que la aorta se engrosa con la edad. Aquí modelamos el diámetro de la aorta como una
función lineal de la edad, pero permitimos que los coeficientes varíen con el sexo y la profundidad
de la aorta. Usamos un modelo de regresión local por separado para hombres y mujeres. Mientras
que la aorta claramente se engrosa con la edad en las regiones más altas de la aorta, la relación se
desvanece con la distancia hacia la aorta. La figura 11 muestra la intersección y la pendiente en
función de la profundidad.

Figura 11

1.5. Probabilidad local y otros modelos


El concepto de modelos de regresión local y de coeficientes variables es extremadamente amplio:
cualquier modelo paramétrico puede hacerse local si el método de ajuste tiene en cuenta los pesos
de observación. Aquí hay unos ejemplos:

• Asociado con cada observación yi hay un parámetro θi = θ(xi ) = xTi β lineal en las covariables
PN
xi , y la inferencia para β se basa en la probabilidad logaritmica l(β) = T
i=1 l(yi , xi β).
Podemos modelos θ(X) de manera más flexible utilizando la probabilidad local de x0 para la
inferenia de θ(x0 ) = xT0 β(x0 ):

N
X
l(β(x0 )) = Kλ (x0 , xi )l(yi , xTi β(x0 )) (1.18)
i=1

Muchos modelos de verosimilitud, en particular la familia de lineales generalizados modelos que


incluyen modelos log-lineales y logísticos, involucran las covariables de forma lineal. La probabilidad
local permite una relajación de un global modelo lineal a uno que es localmente lineal.

• Como arriba, excepto que diferentes variables están asociadas con θ de aquellas utilizado para
definir la probabilidad local:

Control Estadístico de Calidad (2020)


Taller 4 13

N
X
l(θ(z0 )) = Kλ (z0 , zi )l(yi , η(xi , θ(x0 ))) (1.19)
i=1

Por ejemplo, η(x, θ) = xT θ podría ser un modelo lineal en x. Esto encajará un modelo de coeficiente
variable θ(z) maximizando la probabilidad local.

• Los modelos autorregresivos de series de tiempo de orden k tienen la forma yt = β0 +β1 yt−1 +
... + βk yt−k + et . Denotando el retraso establecido por zt = (yt−1 , yt−2 , ..., yt−k ), el modelo
parece un modelo lineal estandar yt = ztT β + et , y normalmente se ajusta por mínimos
cuadrados. El ajuste por mínimos cuadrados locales con un kernel K(z0 , zt ) permite que el
modelo varíe de acuerdo con la historia a corto plazo de la serie. Esto debe distinguirse de
los modelos lineales dinámicos más tradicionales que varían según el tiempo de ventana.

Como ilustración de la probabilidad local, consideramos la versión local del modelo de regresión
logística lineal multi clase (4.36) del Capítulo 4. Los datos constan de las características xi y una
respuesta categórica asociada gi ∈ {1, 2, ..., J}, y el modelo lineal tiene la forma:

T
eβj0 +βj x
P r(G = j | X = x) = PJ−1 βk0 +β T x (1.20)
1 + k=1 e j

La probabilidad logarítmica local para este modelo de clase J se puede escribir.

N
( " J−1
#)
X X
T T
Kλ (x0 , xi ) βgi (x0 ) + βgi (x0 ) (xi − x0 ) − log 1 + exp(βko (x0 ) + βk (x0 ) (xi − x0 ))
i=1 k=1
(1.21)

teniendo en cuenta:

• hemos utilizado gi como subíndice en la primera línea para seleccionar el numerador apropiado;

• βJ0 = 0 y βj = 0 para definir el modelos;

• hemos centrado las regresiones locales en x0 , de modo que las probabilidades posteriores
ajustadas en x0 son simplemente

ˆ
eβj0 (x0 )
Pˆr(G = j | X = x0 ) = PJ−1 βˆ (x ) (1.22)
1 + k=1 e j0 0

Control Estadístico de Calidad (2020)


14 Daniel Andres Delgado O (1622960) & Juliana Pavas Herrera (1630814)

Figura 12

Este modelo se puede utilizar para una clasificación multiclase flexible en dimensiones moderadamente
bajas, aunque se han reportado éxitos con el problema de clasificación de códigos postales de alta
dimensión. Los modelos aditivos generalizados (Capítulo 9) que utilizan métodos de suavizado de
kernel están estrechamente relacionados y evitan problemas de dimensionalidad asumiendo una
estructura aditiva para la función de regresión.

Como ilustración simple, ajustamos un modelo logístico lineal local de dos clases para los datos
de enfermedades cardíacas del Capítulo 4. La Figura 12 muestra los modelos logísticos locales
univariados ajustados a dos de los factores de riesgo (por separado). Este es un dispositivo de
cribado útil para detectar no linealidades, cuando los propios datos tienen poca información visual
que ofrecer. En este caso se descubre una anomalía inesperada en los datos, que puede haber pasado
desapercibida con los métodos tradicionales.

Dado que la CHD es un indicador binario, podríamos estimar la prevalencia condicional P r(G =
j | x0 ) simplemente suavizando esta respuesta binaria directamente sin recurrir a una formulación
de probabilidad. Esto equivale a ajustar un modelo de regresión logística localmente constante
(ejercicio 6.5). Para disfrutar de la corrección de sesgo del suavizado local-lineal, es más natural
operar en la escala logit sin restricciones.

Normalmente, con la regresión logística, calculamos las estimaciones de los parámetros, así como sus
errores estándar. Esto también se puede hacer localmente y, por lo tanto, podemos producir, como
se muestra en la gráfica, bandas de error estándar puntuales estimadas sobre nuestra prevalencia
ajustada.

Control Estadístico de Calidad (2020)


Taller 4 15

Figura 13

Control Estadístico de Calidad (2020)

También podría gustarte