Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Traduccion
Traduccion
Taller 4
Plan de Muestreo Por Variables
1,a
Daniel Andres Delgado O (1622960)
2,b
, Juliana Pavas Herrera (1630814)
1 Escuela de Estadística, Facultad de Ingeniería, Universidad del Valle, Cali, Colombia
Figura 1
como una estimación de la función de regresión E(Y | X = x). Aquí Nk (x) es el conjunto de k
puntos más cercanos a x en la distancia al cuadrado, y Ave denota el promedio (media). La idea es
relajar la definición de expectativa condicional, como se ilustra en el panel izquierdo de la Figura
1, y calcular un promedio en una vecindad del punto objetivo. En este caso, hemos utilizado la
vecindad 30 más cercana: el ajuste en x0 es el promedio de los 30 pares cuyos valores xi están más
cerca de x0 . La curva verde está llena de baches. ya que fˆ(x) es discontinua en x. A medida que
movemos x0 de izquierda a derecha, el k vecindario más cercano permanece constante, hasta que
un punto xi a la derecha de x0 se vuelve más cercano que el punto más lejano xi en el vecindario
a la izquierda de x0 , momento en el cual xi reemplaza a xi 0 . El promedio en 1 cambia de manera
discreta, lo que lleva a una fˆ(x) discontinua.
Esta discontinuidad es fea e innecesaria. En lugar de dar todo el puntos en la vecindad igual peso,
podemos asignar pesos que mueren suavemente con la distancia desde el punto objetivo. El panel
de la derecha muestra un ejemplo de esto, utilizando el llamado promedio ponderado del kernel de
Nadaraya-Watson.
PN
ˆ Kλ (x0 , xi )yi
f (x0 ) = Pi=1
N
(1.2)
i=1 Kλ (x0 , xi )
|x − x0 |
Kλ (x0 , xi ) = D( ) (1.3)
λ
Con: 3
4 (1 − t2 ) si |t| ≤ 1.
D(t) = (1.4)
0 en otro caso
La función ajustada ahora es continua y bastante suave en el panel derecho de la Figura 1 A medida
que movemos el objetivo de izquierda a derecha, los puntos ingresan al vecindario inicialmente con
un peso cero y luego su contribución aumenta lentamente (vea el ejercicio 6.1).
En el panel derecho usamos un tamaño de ventana métrica λ = 0.2 para ajustar el kernel, que no
cambia cuando movemos el punto de destino x0 , mientras que el tamaño de la ventana de suavizado
de 30 vecinos más cercanos se adapta a la densidad local de xi . Sin embargo, también se pueden
usar estos vecindarios adaptativos con kernels, pero necesitamos usar una notación más general.
Sea hλ (x0 ) una función de ancho (indexada por λ) que determina el ancho de la vecindad en x0 .
Entonces, de manera más general, tenemos:
|x − x0 |
Kλ (x0 , x) = D( ) (1.5)
hλ (x0 )
de xi a x0 .
Hay una serie de detalles a los que hay que prestar atención en la práctica.
• El parámetro de suavizado λ, que determina el ancho del local vecindario, tiene que ser
determinado. Gran λ implica menor varianza (promedios sobre más observaciones) pero
mayor sesgo (esencialmente asumimos que la función verdadera es constante dentro de la
ventana).
• Los anchos de la ventana métrica (hλ (x) constante) tienden a mantener el sesgo de la
estimación constante, pero la varianza es inversamente proporcional a la densidad local. Los
anchos de ventana del vecino más cercano exhiben lo contrario comportamiento; la varianza
permanece constante y el sesgo absoluto varía inversamente con la densidad local.
• Los problemas surgen con los vecinos más cercanos cuando hay vínculos en el xi . Con la
mayoría de las técnicas de suavizado, uno puede simplemente reducir el conjunto de datos
promediando el yi en valores empatados de X, y complementando estos nuevos observaciones
en los valores únicos de xi con un peso adicional wi (que multiplica el peso del grano).
Figura 2
• Esto deja un problema más general con el que lidiar: pesos de observación wi . Operativamente,
simplemente los multiplicamos por los pesos del núcleo antes de calcular el promedio ponderado.
Con los vecindarios más cercanos, ahora es natural insistir en los vecindarios con un contenido
de peso total k (relativo a wi ). En caso de desbordamiento (la última observación necesaria
P
en un vecindario tiene un peso wj que hace que la suma de pesos exceda el presupuesto k),
entonces se pueden usar partes fraccionarias.
• Surgen problemas de límites. Los barrios métricos tienden a contener menos puntos en los
límites, mientras que los barrios más cercanos se ensanchan.
• el kernel de Epanechnikov tiene soporte compacto (necesario cuando se usa con el tamaño
de la ventana del vecino más cercano). Otro núcleo compacto popular se basa en la función
tri-cube.
(
3
(1 − |t| )3 si |t| ≤ 1.
D(t) = (1.6)
0 en otro caso
Esto es más plano en la parte superior (como la caja del vecino más cercano) y es diferenciable en
el límite de su soporte. La función de densidad gaussiana D(t) = Φ(t) es un núcleo no compacto
popular, con la desviación estándar jugando el papel del tamaño de la ventana. La figura 2 compara
los tres.
Hemos pasado de la media móvil bruta a una media ponderada localmente variable mediante el uso
de la ponderación del grano. Sin embargo, el ajuste suave del núcleo todavía presenta problemas,
como se muestra en la Figura 3 (panel izquierdo). Los promedios ponderados localmente pueden
estar muy sesgados en los límites del dominio, debido a la asimetría del kernel en esa región. Al
ajustar líneas rectas en lugar de constantes localmente, podemos eliminar este sesgo exactamente
al primer orden; consulte la Figura 3 (panel derecho). En realidad, este sesgo también puede
estar presente en el interior del dominio, si los valores de X no están igualmente espaciados (por
las mismas razones, pero generalmente menos graves). De nuevo, la regresión lineal ponderada
localmente hará una corrección de primer orden.
Figura 3
N
X
mı́n Kλ (x0 , xi )[yi − α(x0 ) − β(x0 )xi ]2 (1.7)
α(x0 ),β(x0 )
i=1
La estimación es entonces fˆ(x0 ) = α̂(x0 ) + β̂(x0 )x0 . Observe que, aunque ajustamos un modelo
lineal completo a los datos de la región, solo lo usamos para evaluar el ajuste en el punto único x0 .
Definimos la función con valores vectoriales b(x)T = (1, x). sea B la matriz de regresión NX2 con la
i-esima fila b(xi )T , y W (x0 una matriz diagonal NXN con el i-esimo elemento diagonal Kλ (x0 , xi ).
Luego:
N
X
= li (x0 )yi (1.9)
i=1
La ecuación (1.8) da una expresión explícita para la estimación de la regresión lineal local, y (1.9)
destaca el hecho de que la estimación es lineal en yi (li (x0 ) no implica y). Estos pesos li (x0 )
combinados con el grado de ponderación Kλ (x0 , .) y las operaciones de mínimos cuadrados, y a
veces son referido como el kernel equivalente.
Figura 4
N N N N
X X X f 00 (x0 ) X
E fˆ(x0 ) = li (x0 )f (xi ) = f (x0 ) li (x0 )+f 0 (x0 ) (xi −x0 )li (x0 )+ (xi −x0 )2 li (x0 )+R
i=1 i=1 i=1
2 i=1
(1.10)
Figura 5
¿Por qué detenerse en ajustes lineales locales? Podemos ajustar ajustes polinomiales locales de
cualquier grado d.
2
N
X d
X
mı́n Kλ (x0 , xi ) yi − α(x0 ) − βj (x0 )xji (1.11)
α(x0 ),βj (x0 ),j=1,2,...,d
i=1 j=1
Pd
con solución fˆ(x0 ) = α̂(x0 ) + j=1 β̂j (x0 )xj0 . De hecho, una expansión como (6.10) nos dirá que
el sesgo solo tendrá componentes de grado d + 1 y superiores (ejercicio 6.2). La figura 5 ilustra
la regresión cuadrática local. Los ajustes lineales locales tienden a estar sesgados en las regiones
de curvatura de la función verdadera, un fenómeno conocido como recorte de colinas y llenado de
valles. Local La regresión cuadrática generalmente puede corregir este sesgo.
Por supuesto, hay un precio que pagar por esta reducción del sesgo, y es mayor varianza. El ajuste
en el panel derecho de la Figura 5 es un poco más ondulado, especialmente en las colas. Asumiendo
el modelo yi = f (xi ) + ei , con ei independiente e idénticamente distribuida con media cero y
2
σ 2 , V ar(fˆ(x0 )) = σ 2 kl(x0 )k , donde l(x0 ) es el vector de pesos de grano equivalentes en x0 . Se
puede demostrar (ejercicio 6.3) que kl(x0 )k aumenta con d, por lo que hay una compensación de
sesgo-varianza al seleccionar el grado del polinomio.
Figura 6
La figura 6 ilustra estas curvas de varianza para polinomios locales de grado cero, uno y dos. Para
resumir algunos conocimientos recopilados sobre este tema:
• Los ajustes lineales locales pueden ayudar a sesgar drásticamente los límites en un modesto
costo en variación. Los ajustes cuadráticos locales hacen poco en los límites del sesgo, pero
aumentan mucho la varianza.
• Los ajustes cuadráticos locales tienden a ser más útiles para reducir el sesgo debido a
curvatura en el interior del dominio.
• El análisis asintótico sugiere que los polinomios locales de grado impar dominan los de grado
parejo. Esto se debe en gran parte al hecho de que asintóticamente, el MSE está dominado
por efectos de frontera.
Si bien puede ser útil retocar y moverse desde ajustes lineales locales en el límite a los ajustes
cuadráticos locales en el interior, no recomendamos tales estrategias. Por lo general, la aplicación
Figura 7
Existe una compensación natural entre sesgo y varianza a medida que cambiamos el ancho de la
ventana de promedios, que es más explícita para los promedios locales:
Se aplican argumentos similares a las estimaciones de regresión local, digamos lineal local: a medida
que el ancho llega a cero, las estimaciones se acercan a una función lineal por partes que interpola
los datos de entrenamiento; a medida que el ancho se vuelve infinitamente grande, el ajuste se
aproxima al ajuste de mínimos cuadrados lineales globales de los datos.
La discusión en el Capítulo 5 sobre la selección del parámetro de regularización para suavizar
splines se aplica aquí y no se repetirá. Los suavizadores de regresión local son estimadores lineales,
se construye la matriz de suavización fˆ = Sλ y que es equivalente al kernel de (6.8), y tiene ij-esima
entrada {Sλ }ij = li (xj ). . La validación cruzada de omisión es particularmente simple (ejercicio
6.7), al igual que la validación cruzada generalizada, Cp (ejercicio 6.10) y la validación cruzada de
k veces.
Los grados de libertad efectivos se definen nuevamente como traza (Sλ ) y se pueden usar para
calibrar la cantidad de suavizado. La figura 7 compara los núcleos equivalentes para una spline
suavizante y una regresión lineal local. La regresión local más suave tiene un intervalo del 40 %, lo
que da como resultado gl= traza(Sλ ) = 5,86. El spline de suavizado se calibró para tener el mismo
gl, y sus granos equivalentes son cualitativamente bastante similares.
El suavizado de kernel y la regresión local se generalizan de forma muy natural a dos o más
dimensiones. El suavizador del núcleo de Nadaraya-Watson ajusta una constante localmente con
pesos proporcionados por un núcleo p-dimensional. La regresión lineal local se ajustará a un
hiperplano localmente en X, por mínimos cuadrados ponderados, con pesos proporcionados por
un núcleo p-dimensional. Es simple de implementar y generalmente se prefiere al ajuste constante
local por su desempeño superior en los límites.
Sea b(x) un vector de términos polinomiales en X de grado máximo d. por ejemplo, con d=1
y p=2 obtenemos b(X) = (1, X1 , X2 ), con d=2 obtenemos b(X) = (1, X1 , X2 , X12 , X22 , X1 X2 ), y
trivialmente con d= 0 obtenemos b(X) = 1. En cada x0 ∈ Rp resolver.
N
X
mı́n Kλ (x0 , xi )(yi − b(xi )T β(x0 ))2 (1.12)
β(X0 )
i=1
para producir el ajuste fˆ(x0 ) = b(x0 )T β̂(x0 ). Normalmente, el kernel será una función radial, como
el kernel radial de Epanechnikov o tri-cube.
kx − x0 k
Kλ (x0 , x) = D (1.13)
λ
Donde k.k es la norma euclidiana. Dado que la norma euclidiana depende de las unidades en cada
coordenada, tiene más sentido estandarizar cada predictor, por ejemplo, a la desviación estándar
de la unidad, antes de suavizar.
Si bien los efectos de contorno son un problema en el suavizado unidimensional, son un problema
mucho mayor en dos o más dimensiones, ya que la fracción de puntos en el límite es mayor.
De hecho, una de las manifestaciones de la maldición de la dimensionalidad es que la fracción de
puntos cercanos al límite aumenta a uno a medida que crece la dimensión. Modificar directamente el
kernel para acomodar límites bidimensionales se vuelve muy complicado, especialmente para límites
irregulares. La regresión polinomial local realiza sin problemas la corrección de límites en el orden
deseado en cualquier dimensión. La Figura 8 ilustra la regresión lineal local en algunas mediciones de
un estudio astronómico con un diseño de predicción inusual (en forma de estrella). Aquí, el límite es
extremadamente irregular y la superficie ajustada también debe interpolar sobre regiones de escasez
de datos cada vez mayor a medida que nos acercamos al límite. La regresión local se vuelve menos
útil en dimensiones mucho mayores que dos o tres. Hemos discutido con cierto detalle los problemas
de dimensionalidad, por ejemplo, en el Capítulo 2. Es imposible mantener simultáneamente la
localidad (⇒ bajo sesgo) y una muestra considerable en el vecindario (⇒baja varianza) a medida
que aumenta la dimensión, sin que aumente el tamaño total de la muestra. exponencialmente en p.
La visualización de fˆ(X) también se vuelve difícil en dimensiones superiores, y este suele ser uno
de los objetivos principales del suavizado.
Figura 8
La figura 9 muestra un análisis de algunos datos ambientales con tres predictores. La pantalla
enrejado muestra el ozono en función de la radiación, condicionado por las otras dos variables,
la temperatura y la velocidad del viento. Sin embargo, el condicionamiento sobre el valor de una
variable realmente implica local a ese valor (como en la regresión local). Encima de cada uno de
los paneles en la Figura 6.9 hay una indicación del rango de valores presentes en ese panel para
cada uno de los valores de acondicionamiento. En el propio panel se muestran los subconjuntos de
datos (respuesta frente a la variable restante) y se ajusta una regresión lineal local unidimensional
a los datos. Aunque esto no es lo mismo que mirar cortes de una superficie tridimensional ajustada,
probablemente sea más útil en términos de comprender el comportamiento conjunto de los datos.
Figura 9
Una línea de enfoque es modificar el núcleo. El núcleo esférico predeterminado (6.13) da el mismo
peso a cada coordenada, por lo que una estrategia predeterminada natural es estandarizar cada
variable a la desviación estándar unitaria. Un enfoque más general es usar una matriz A semidefinida
positiva para pesar las diferentes coordenadas:
y luego introducir la estructura eliminando algunos de los términos dePorden superior. Los modelos
p
aditivos asumen solo términos de efecto principal : f (X) = α + j=1 gi (Xi ), los modelos de
segundo orden tendrán términos con interacciones de orden como máximo dos, y así sucesivamente.
En el Capítulo 9, describimos algoritmos de backfitting iterativos para ajustar tales modelos
de interacción de bajo orden. En el modelo aditivo, por ejemplo, si se asume que todos los
términos excepto el k-ésimo son conocidos, entonces podemos estimar gk por regresión local de Y −
j ) en Xk . Esto se hace para cada función a su vez, repetidamente, hasta la convergencia.
P
g
j6≡k j (X
El detalle importante es que en cualquier etapa, lo único que se necesita es una regresión local
unidimensional. Las mismas ideas se pueden utilizar para ajustar las descomposiciones ANOVA de
baja dimensión.
Para Z dado, este es un modelo lineal, pero cada uno de los coeficientes puede variar con Z. Es
natural ajustar este modelo por mínimos cuadrados ponderados localmente:
N
X
mı́n Kλ (z0 , zi )(yi − α(z0 ) − X1i β1 (z0 ) − ... − Xqi βq (z0 ))2 (1.17)
α(z0 ),β(z0 )
i=1
Figura 10
La figura 10 ilustra la idea de las mediciones de la aorta humana. Una afirmación de larga data
ha sido que la aorta se engrosa con la edad. Aquí modelamos el diámetro de la aorta como una
función lineal de la edad, pero permitimos que los coeficientes varíen con el sexo y la profundidad
de la aorta. Usamos un modelo de regresión local por separado para hombres y mujeres. Mientras
que la aorta claramente se engrosa con la edad en las regiones más altas de la aorta, la relación se
desvanece con la distancia hacia la aorta. La figura 11 muestra la intersección y la pendiente en
función de la profundidad.
Figura 11
• Asociado con cada observación yi hay un parámetro θi = θ(xi ) = xTi β lineal en las covariables
PN
xi , y la inferencia para β se basa en la probabilidad logaritmica l(β) = T
i=1 l(yi , xi β).
Podemos modelos θ(X) de manera más flexible utilizando la probabilidad local de x0 para la
inferenia de θ(x0 ) = xT0 β(x0 ):
N
X
l(β(x0 )) = Kλ (x0 , xi )l(yi , xTi β(x0 )) (1.18)
i=1
• Como arriba, excepto que diferentes variables están asociadas con θ de aquellas utilizado para
definir la probabilidad local:
N
X
l(θ(z0 )) = Kλ (z0 , zi )l(yi , η(xi , θ(x0 ))) (1.19)
i=1
Por ejemplo, η(x, θ) = xT θ podría ser un modelo lineal en x. Esto encajará un modelo de coeficiente
variable θ(z) maximizando la probabilidad local.
• Los modelos autorregresivos de series de tiempo de orden k tienen la forma yt = β0 +β1 yt−1 +
... + βk yt−k + et . Denotando el retraso establecido por zt = (yt−1 , yt−2 , ..., yt−k ), el modelo
parece un modelo lineal estandar yt = ztT β + et , y normalmente se ajusta por mínimos
cuadrados. El ajuste por mínimos cuadrados locales con un kernel K(z0 , zt ) permite que el
modelo varíe de acuerdo con la historia a corto plazo de la serie. Esto debe distinguirse de
los modelos lineales dinámicos más tradicionales que varían según el tiempo de ventana.
Como ilustración de la probabilidad local, consideramos la versión local del modelo de regresión
logística lineal multi clase (4.36) del Capítulo 4. Los datos constan de las características xi y una
respuesta categórica asociada gi ∈ {1, 2, ..., J}, y el modelo lineal tiene la forma:
T
eβj0 +βj x
P r(G = j | X = x) = PJ−1 βk0 +β T x (1.20)
1 + k=1 e j
N
( " J−1
#)
X X
T T
Kλ (x0 , xi ) βgi (x0 ) + βgi (x0 ) (xi − x0 ) − log 1 + exp(βko (x0 ) + βk (x0 ) (xi − x0 ))
i=1 k=1
(1.21)
teniendo en cuenta:
• hemos utilizado gi como subíndice en la primera línea para seleccionar el numerador apropiado;
• hemos centrado las regresiones locales en x0 , de modo que las probabilidades posteriores
ajustadas en x0 son simplemente
ˆ
eβj0 (x0 )
Pˆr(G = j | X = x0 ) = PJ−1 βˆ (x ) (1.22)
1 + k=1 e j0 0
Figura 12
Este modelo se puede utilizar para una clasificación multiclase flexible en dimensiones moderadamente
bajas, aunque se han reportado éxitos con el problema de clasificación de códigos postales de alta
dimensión. Los modelos aditivos generalizados (Capítulo 9) que utilizan métodos de suavizado de
kernel están estrechamente relacionados y evitan problemas de dimensionalidad asumiendo una
estructura aditiva para la función de regresión.
Como ilustración simple, ajustamos un modelo logístico lineal local de dos clases para los datos
de enfermedades cardíacas del Capítulo 4. La Figura 12 muestra los modelos logísticos locales
univariados ajustados a dos de los factores de riesgo (por separado). Este es un dispositivo de
cribado útil para detectar no linealidades, cuando los propios datos tienen poca información visual
que ofrecer. En este caso se descubre una anomalía inesperada en los datos, que puede haber pasado
desapercibida con los métodos tradicionales.
Dado que la CHD es un indicador binario, podríamos estimar la prevalencia condicional P r(G =
j | x0 ) simplemente suavizando esta respuesta binaria directamente sin recurrir a una formulación
de probabilidad. Esto equivale a ajustar un modelo de regresión logística localmente constante
(ejercicio 6.5). Para disfrutar de la corrección de sesgo del suavizado local-lineal, es más natural
operar en la escala logit sin restricciones.
Normalmente, con la regresión logística, calculamos las estimaciones de los parámetros, así como sus
errores estándar. Esto también se puede hacer localmente y, por lo tanto, podemos producir, como
se muestra en la gráfica, bandas de error estándar puntuales estimadas sobre nuestra prevalencia
ajustada.
Figura 13