Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Este capítulo trata sobre la regresión lineal, un enfoque muy simple para el aprendizaje
supervisado. En particular, la regresión lineal es una herramienta útil para predecir una
respuesta cuantitativa. La regresión lineal existe desde hace mucho tiempo y es el tema de
innumerables libros de texto. Aunque pueda parecer algo aburrido en comparación con
algunos de los enfoques de aprendizaje estadístico más modernos descritos en capítulos
posteriores de este libro, la regresión lineal sigue siendo un método de aprendizaje
estadístico útil y ampliamente utilizado. Además, sirve como un buen punto de partida para
enfoques más nuevos: como veremos en capítulos posteriores, muchos enfoques
sofisticados de aprendizaje estadístico pueden verse como generalizaciones o extensiones
de la regresión lineal. En consecuencia, no se puede subestimar la importancia de tener una
buena comprensión de la regresión lineal antes de estudiar métodos de aprendizaje más
complejos. En este capítulo, revisamos algunas de las ideas clave que subyacen al modelo
de regresión lineal, así como el enfoque de mínimos cuadrados que se usa con más
frecuencia para ajustar este modelo. Recuerde los datos de publicidad del capítulo 2. La
figura 2.1 muestra las ventas (en miles de unidades) de un producto en particular como una
función de los presupuestos publicitarios (en miles de dólares) para los medios de
televisión, radio y periódicos. Supongamos que en nuestro rol de consultores estadísticos se
nos pide que sugieramos, sobre la base de estos datos, un plan de marketing para el
próximo año que resultará en altas ventas de productos. ¿Qué información sería útil para
ofrecer tal recomendación? Aquí hay algunas preguntas importantes que podríamos tratar
de abordar:
1. ¿Existe una relación entre el presupuesto publicitario y las ventas? Nuestro primer
objetivo debería ser determinar si los datos proporcionan evidencia de una asociación entre
el gasto publicitario y las ventas. Si la evidencia es débil, entonces se podría argumentar
que no debería gastarse dinero en publicidad.
2. ¿Qué tan fuerte es la relación entre el presupuesto publicitario y las ventas? Asumiendo
que existe una relación entre publicidad y ventas, nos gustaría conocer la fuerza de esta
relación. En otras palabras, dado un cierto presupuesto publicitario, ¿podemos predecir las
ventas con un alto nivel de precisión? Esta sería una relación sólida. ¿O una predicción de
ventas basada en gastos publicitarios es solo un poco mejor que una suposición aleatoria?
Esta sería una relación débil.
3. ¿Qué medios contribuyen a las ventas? ¿Contribuyen los tres medios (televisión, radio y
periódicos) a las ventas, o sólo contribuyen uno o dos de los medios? Para responder a esta
pregunta, debemos encontrar una manera de separar los efectos individuales de cada medio
cuando hemos gastado dinero en los tres medios.
4. ¿Con qué precisión podemos estimar el efecto de cada medio en las ventas? Por cada
dólar gastado en publicidad en un medio en particular, ¿en qué cantidad aumentarán las
ventas? ¿Con qué precisión podemos predecir esta cantidad de aumento?
5. ¿Con qué precisión podemos predecir las ventas futuras? Para cualquier nivel dado de
publicidad en televisión, radio o periódicos, ¿cuál es nuestra predicción para las ventas y
cuál es la precisión de esta predicción?
6. ¿Es la relación lineal? Si existe aproximadamente una relación lineal entre el gasto
publicitario en los distintos medios y las ventas, la regresión lineal es una herramienta
adecuada. Si no es así, es posible que aún sea posible transformar el predictor o la respuesta
para poder utilizar la regresión lineal.
7. ¿Existe sinergia entre los medios publicitarios? Quizás gastar $ 50,000 en publicidad
televisiva y $ 50,000 en publicidad radial resulte en más ventas que asignar $ 100,000 a la
televisión o la radio individualmente. En marketing, esto se conoce como efecto de
sinergia, mientras que en estadística se llama efecto de interacción.
Resulta que la regresión lineal se puede utilizar para responder a cada una de estas
preguntas. Primero discutiremos todas estas preguntas en un contexto general, y luego
volveremos a ellas en este contexto específico en la Sección 3.4.
Puede leer “≈” como “aproximadamente se modela como”. A veces describiremos (3.1)
diciendo que estamos haciendo una regresión de Y sobre X (o Y sobre X). Por ejemplo, X
puede representar publicidad televisiva e Y puede representar ventas. Entonces podemos
hacer una regresión de las ventas a la televisión ajustando el modelo
En la ecuación 3.1, β 0 y β 1 son dos constantes desconocidas que representan los términos
de intersección y pendiente en el modelo lineal. Juntos, β 0 y β 1 son pendientes de
intersección conocidas como coeficientes o parámetros del modelo. Una vez que hayamos
utilizado nuestros datos de entrenamiento de parámetros de coeficientes para producir
estimaciones ^β 0 y ^β 1 para los coeficientes del modelo, podemos predecir las ventas futuras
sobre la base de un valor particular de publicidad televisiva calculando
representan n pares de observación, cada uno de los cuales consta de una medida de X y
una medida de Y. En el ejemplo de Publicidad, este conjunto de datos consta del
presupuesto de publicidad televisiva y las ventas de productos en n = 200 mercados
diferentes. (Recuerde que los datos se muestran en la Figura 2.1.) Nuestro objetivo es
obtener estimaciones de coeficientes ^β 0 y ^β 1 de manera que el modelo lineal (3.1) se ajuste
bien a los datos disponibles, es decir, de modo que y i= β^ 0+ ^β 1 x i para i=1, ..., n. En otras
palabras, queremos encontrar una intersección ^β 0 y una pendiente ^β 1 tal que la línea
resultante esté lo más cerca posible de los n = 200 puntos de datos. Hay varias formas de
medir la cercanía. Sin embargo, con mucho, el enfoque más común implica minimizar el
criterio de mínimos cuadrados, mínimos cuadrados y adoptamos ese enfoque en este
capítulo. Los enfoques alternativos se considerarán en el Capítulo 6.
Figura 3.1. Para los datos de Publicidad, se muestra el ajuste de mínimos cuadrados para la regresión de
las ventas a la televisión. El ajuste se encuentra minimizando la suma de errores al cuadrado. Cada
segmento de línea gris representa un error y el ajuste hace y el ajuste hace un compromiso al promediar
sus cuadrados. En este caso, un ajuste lineal captura la esencia de la relación, aunque es algo deficiente
en la parte izquierda de la trama.
o equivalentemente como
n n
1
donde ý ´¿ ∑ y y x́ ¿´ 1n ∑ xi son las medias muestrales. En otras palabras, (3.4) define las
n i=1 i i=1
estimaciones del coeficiente de mínimos cuadrados para la regresión lineal simple. La
Figura 3.1 muestra el ajuste de regresión lineal simple a los datos de Publicidad, donde ^β 0=
7.03 y ^β 1= 0.0475. En otras palabras, de acuerdo con
Figura 3.2. Gráficos de contorno y tridimensionales del RSS sobre los datos de Publicidad, utilizando las
ventas como respuesta y la TV como predictor. Los puntos rojos corresponden a las estimaciones de
mínimos cuadrados ^ β 0 y ^β 1 , dadas por (3.4).
Dos líneas en un ejemplo simulado simple. Creamos 100 X aleatorias y generamos 100 Y
correspondientes del modelo
Donde ϵ se generó a partir de una distribución normal con media cero. La línea roja en el
panel de la izquierda de la Figura 3.3 muestra la relación verdadera, f (X) = 2 + 3X,
mientras que la línea azul es la estimación de mínimos cuadrados basada en los datos
observados. La verdadera relación generalmente no se conoce para datos reales, pero la
línea de mínimos cuadrados siempre se puede calcular usando las estimaciones de
coeficientes dadas en (3.4). En otras palabras, en aplicaciones reales, tenemos acceso a un
conjunto de observaciones a partir de las cuales podemos calcular la línea de mínimos
cuadrados; sin embargo, la línea de regresión de la población no se observa. En el panel de
la derecha de la Figura 3.3 hemos generado diez conjuntos de datos diferentes del modelo
dado por (3.6) y hemos trazado las diez líneas de mínimos cuadrados correspondientes.
Observe que diferentes conjuntos de datos generados a partir del mismo modelo verdadero
dan como resultado líneas de mínimos cuadrados ligeramente diferentes, pero la línea de
regresión de la población no observada no cambia.
A primera vista, la diferencia entre la línea de regresión de la población y la línea de
mínimos cuadrados puede parecer sutil y confusa. Solo tenemos un conjunto de datos,
entonces, ¿qué significa que dos líneas diferentes describen la relación entre el predictor y
la respuesta? Fundamentalmente, el concepto de estas dos líneas es una extensión natural
del enfoque estadístico estándar de usar información de una muestra para estimar las
características de una gran población. Por ejemplo, suponga que estamos interesados en
conocer la media poblacional μ de alguna variable aleatoria Y. Desafortunadamente, μ es
desconocido, pero tenemos acceso a n observaciones de Y, que podemos escribir como
y 1 ,. . . , y n , y que podemos usar para estimar μ. Una estimación razonable es ^μ= ý, donde
n
1
ý= ∑ y , es la media muestral. La media de la muestra y la media de la población son
n i=1 i
diferentes, pero en general la media de la muestra proporcionará una buena estimación de la
media de la población. De la misma manera, los coeficientes desconocidos β 0 y β 1 en la
regresión lineal definen la línea de regresión de la población. Buscamos estimar estos
coeficientes desconocidos usando ^β 0 y ^β 1 dados en (3.4). Estas estimaciones de
coeficientes definen la línea de mínimos cuadrados.
La analogía entre la regresión lineal y la estimación de la media de una variable aleatoria
es adecuada basada en el concepto de sesgo. Si utilizamos la media muestral de sesgo ^μ
para estimar μ, esta estimación es insesgada, en el sentido de que, en promedio, es
insesgada, esperamos que ^μ sea igual a μ. ¿Qué significa esto exactamente? Significa que
sobre la base de un conjunto particular de observaciones y 1 ,. . . , y n , podría sobreestimar μ,
y sobre la base de otro conjunto de observaciones, ^μ podría subestimar μ. Pero si
pudiéramos promediar un gran número de estimaciones de μ obtenidas de un gran número
de conjuntos de observaciones, entonces este promedio sería exactamente igual a μ. Por lo
tanto, un estimador insesgado no sobreestima ni subestima sistemáticamente el parámetro
verdadero. La propiedad del sesgo también se aplica a las estimaciones del coeficiente de
mínimos cuadrados dadas por (3.4): si estimamos β 0 y β 1, sobre la base de un conjunto de
datos en particular, nuestras estimaciones no serán exactamente iguales a β 0 y β 1. Pero si
pudiéramos promediar las estimaciones obtenidas sobre una gran cantidad de conjuntos de
datos, ¡entonces el promedio de estas estimaciones sería acertado! De hecho, podemos ver
en el panel de la derecha de la Figura 3.3 que el promedio de muchas líneas de mínimos
cuadrados, cada una estimada a partir de un conjunto de datos separado, está bastante cerca
de la línea de regresión de la población real.
Continuamos con la analogía con la estimación de la media poblacional μ de una variable
aleatoria Y. Una pregunta natural es la siguiente: ¿qué precisión tiene la media muestral ˆμ
como una estimación de μ? Hemos establecido que el promedio de ^μ sobre muchos
conjuntos de datos será muy cercano a μ, pero que una sola estimación de ^μ puede ser una
subestimación o sobreestimación sustancial de μ. ¿A qué distancia estará esa única
estimación de ^μ ? En general, respondemos a esta pregunta calculando el error estándar de
^μ, escrito como SE (^μ). Tenemos estándar la conocida fórmula
donde ❑2 = Var (ϵ). Para que estas fórmulas sean estrictamente válidas, debemos suponer
que los errores i para cada observación no están correlacionados con la varianza común ❑2.
Esto claramente no es cierto en la Figura 3.1, pero la fórmula aún resulta ser una buena
aproximación. Observe en la fórmula que SE ( ^β 1) es menor cuando las x i están más
dispersas; intuitivamente tenemos más apalancamiento para estimar una pendiente cuando
este es el caso. También vemos que SE ( ^β 0) sería lo mismo que SE (^μ) si x́ fuera cero (en
cuyo caso ^β 0 sería igual a ý). En general, ❑2 no se conoce, pero se puede estimar a partir de
los datos. Esta estimación se conoce como error estándar residual y viene dada por la
fórmula error estándar residual RSE= √ RSS/( n−2). Estrictamente hablando, cuando se
estima ❑2 a partir de los datos, debemos escribir SE ( ^β 1) para indicar que se ha realizado
una estimación, pero para simplificar la notación, eliminaremos este “sombrero” adicional.
Los errores estándar se pueden utilizar para calcular los intervalos de confianza. Un
intervalo de confianza de confianza del 95% se define como un rango de valores tal que,
con una probabilidad de intervalo del 95%, el rango contendrá el verdadero valor
desconocido del parámetro. El rango se define en términos de límites inferior y superior
calculados a partir de la muestra de datos. Para la regresión lineal, el intervalo de confianza
del 95% para β 1 toma aproximadamente la forma
En el caso de los datos publicitarios, el intervalo de confianza del 95% para β 0 es [6.130,
7.935] y el intervalo de confianza del 95% para β 1 es [0.042, 0.053]. Por lo tanto, podemos
concluir que en ausencia de publicidad, las ventas caerán, en promedio, entre 6,130 y 7,940
unidades. Además, por cada aumento de $ 1,000 en publicidad televisiva, habrá un aumento
promedio en las ventas de entre 42 y 53 unidades. Los errores estándar también se pueden
utilizar para realizar pruebas de hipótesis sobre los coeficientes de hipótesis. La prueba de
hipótesis más común implica probar la hipótesis de prueba nula de
Versus
que mide el número de desviaciones estándar en las que ^β 1 está alejado de 0. Si realmente
no hay relación entre X e Y, entonces esperamos que (3.14) tenga una distribución t con n -
2 grados de libertad. La distribución t tiene forma de campana y para valores de n
superiores a aproximadamente 30 es bastante similar a la distribución normal. En
consecuencia, es una cuestión sencilla calcular la probabilidad de observar cualquier valor
igual a | t | o mayor, asumiendo β 1 = 0. A esta probabilidad la llamamos valor p. Hablando
aproximadamente del valor p, interpretamos el valor p de la siguiente manera: un valor p
pequeño indica que es poco probable que se observe una asociación tan sustancial entre el
predictor y la respuesta debida al azar, en ausencia de una asociación real entre el valor de p
predictor y la respuesta. Por lo tanto, si vemos un valor p pequeño, entonces podemos
inferir que existe una asociación entre el predictor y la respuesta. Rechazamos la hipótesis
nula, es decir, declaramos que existe una relación entre X e Y, si el valor p es lo
suficientemente pequeño. Los límites típicos del valor p para rechazar la hipótesis nula son
5 o 1%. Cuando n = 30, estos corresponden a estadísticos t (3.14) de alrededor de 2 y 2.75,
respectivamente.
Tabla 3.1. Para los datos de Publicidad, coeficientes del modelo de mínimos cuadrados para la regresión
del número de unidades vendidas sobre el presupuesto de publicidad televisiva. Un aumento de $ 1,000 en
el presupuesto de publicidad en televisión está asociado con un aumento en las ventas de alrededor de 50
unidades (recuerde que la variable de ventas está en miles de unidades y la variable de televisión está en
miles de dólares).
La Tabla 3.1 proporciona detalles del modelo de mínimos cuadrados para la regresión del
número de unidades vendidas en el presupuesto de publicidad televisiva para los datos de
Publicidad. Observe que los coeficientes para ^β 0 y ^β 1, son muy grandes en relación con sus
errores estándar, por lo que los estadísticos t también son grandes; las probabilidades de ver
tales valores si H 0 es verdadera son virtualmente cero. Por tanto, podemos concluir que β 0
= 0 y β 1 = 0.4
|
3.1.3 Evaluación de la precisión del modelo
Una vez que hemos rechazado la hipótesis nula (3.12) a favor de la hipótesis alternativa
(3.13), es natural querer cuantificar la medida en que el modelo se ajusta a los datos. La
calidad de un ajuste de regresión lineal generalmente se evalúa utilizando dos cantidades
relacionadas: el error estándar residual (RSE) y el estadístico R2
Tenga en cuenta que RSS se definió en la Sección 3.1.1 y viene dado por la fórmula
Estadística R2
El RSE proporciona una medida absoluta de la falta de ajuste del modelo (3.5) a los datos.
Pero dado que se mide en unidades de Y, no siempre está claro qué constituye un buen
RSE. La estadística R2 proporciona una medida alternativa de ajuste. Toma la forma de una
proporción, la proporción de varianza explicada, por lo que siempre toma un valor entre 0 y
1, y es independiente de la escala de Y.
Para calcular R2, usamos la fórmula
donde TSS = ∑ ( y i− ý )2 es la suma total de cuadrados, y RSS se define como suma total
de en (3.16). TSS mide la varianza total en la respuesta Y, y se pueden considerar
cuadrados como la cantidad de variabilidad inherente a la respuesta antes de que se realice
la regresión. Por el contrario, RSS mide la cantidad de variabilidad que queda sin explicar
después de realizar la regresión. Por lo tanto, TSS - RSS mide la cantidad de variabilidad en
la respuesta que se explica (o elimina) al realizar la regresión, y R2 mide la proporción de
variabilidad en Y que se puede explicar usando X. Un estadístico R2 cercano a 1 indica que
una gran proporción de la variabilidad en la respuesta se ha explicado por la regresión. Un
número cercano a 0 indica que la regresión no explicó gran parte de la variabilidad en la
respuesta; esto puede ocurrir porque el modelo lineal es incorrecto, o el error inherente ❑2
es alto, o ambos. En la tabla 3.2, el R2 fue 0,61, por lo que poco menos de dos tercios de la
variabilidad en las ventas se explica por una regresión lineal en la televisión.
El estadístico R2 (3.17) tiene una ventaja interpretativa sobre el RSE (3.15), ya que a
diferencia del RSE, siempre se encuentra entre 0 y 1. Sin embargo, aún puede ser un
desafío determinar cuál es un buen valor de R2 y, en general, esto dependerá de la
aplicación. Por ejemplo, en ciertos problemas de física, podemos saber que los datos
realmente provienen de un modelo lineal con un pequeño error residual. En este caso,
esperaríamos ver un valor de R2 extremadamente cercano a 1, y un valor de R2
sustancialmente más pequeño podría indicar un problema grave con el experimento en el
que se generaron los datos. Por otro lado, en aplicaciones típicas en biología, psicología,
marketing y otros dominios, el modelo lineal (3.5) es, en el mejor de los casos, una
aproximación extremadamente aproximada a los datos, y los errores residuales debidos a
otros factores no medidos suelen ser muy grandes. En este entorno, esperaríamos que el
predictor explique solo una pequeña proporción de la varianza en la respuesta, y un valor de
R2 muy por debajo de 0,1 podría ser más realista. El estadístico R2 es una medida de la
relación lineal entre X e Y. Recuerde que la correlación, definida como
también es una medida de la relación lineal entre X e Y. 5 Esto sugiere que podríamos usar
r = Cor (X, Y) en lugar de R2 para evaluar el ajuste del modelo lineal. De hecho, se puede
demostrar que, en la configuración de regresión lineal simple, R2 = r 2. En otras palabras, la
correlación al cuadrado y el estadístico R2 son idénticos. Sin embargo, en la siguiente
sección analizaremos el problema de regresión lineal múltiple, en el que usamos varios
predictores simultáneamente para predecir la respuesta. El concepto de correlación entre los
predictores y la respuesta no se extiende automáticamente a esta configuración, ya que la
correlación cuantifica la asociación entre un solo par de variables en lugar de entre un
mayor número de variables. Veremos que R2 cumple este rol.
Tabla 3.3. Modelos de regresión lineal más simples para los datos publicitarios. Coeficientes del modelo
de regresión lineal simple para el número de unidades vendidas en Top: presupuesto de publicidad radial
y Bottom: presupuesto de publicidad en periódicos. Un aumento de $ 1,000 en el gasto en publicidad
radial se asocia con un aumento promedio en las ventas de alrededor de 203 unidades, mientras que el
mismo aumento en el gasto en publicidad en periódicos se asocia con un aumento promedio en las ventas
de alrededor de 55 unidades (Tenga en cuenta que la variable de ventas está en miles de unidades, y las
variables de radio y periódicos están en miles de dólares).
Figura 3.4. En un entorno tridimensional, con dos predictores y una respuesta, la línea de regresión de
mínimos cuadrados se convierte en un plano. El plano se elige para minimizar la suma de las distancias
verticales cuadradas entre cada observación (mostrada en rojo) y el plano.
Los valores ^β 0 , β^ 1 , … , β^ p que minimizan (3.22) son las estimaciones del coeficiente de
regresión de mínimos cuadrados múltiples. A diferencia de las estimaciones de regresión
lineal simple dadas en (3.4), las estimaciones de coeficientes de regresión múltiple tienen
formas algo complicadas que se representan más fácilmente usando álgebra matricial. Por
esta razón, no los proporcionamos aquí. Se puede utilizar cualquier paquete de software
estadístico para calcular estas estimaciones de coeficientes, y más adelante en este capítulo
mostraremos cómo se puede hacer esto en R. La figura 3.4 ilustra un ejemplo del ajuste de
mínimos cuadrados a un conjunto de datos de juguete con p = 2 predictores.
La Tabla 3.4 muestra las estimaciones del coeficiente de regresión múltiple cuando los
presupuestos de publicidad de televisión, radio y periódicos se utilizan para predecir las
ventas de productos utilizando los datos de publicidad. Interpretamos estos resultados de la
siguiente manera: para una cantidad determinada de publicidad en televisión y periódicos,
gastar $ 1,000 adicionales en publicidad por radio genera un aumento en las ventas de
aproximadamente 189 unidades. Al comparar estas estimaciones de coeficientes con las que
se muestran en las tablas 3.1 y 3.3, notamos que las estimaciones de coeficientes de
regresión múltiple para TV y radio son bastante similares a las estimaciones de coeficientes
de regresión lineal simple. Sin embargo, mientras que la estimación del coeficiente de
regresión de los periódicos en la tabla 3.3 fue significativamente diferente de cero, la
estimación del coeficiente de los periódicos en el modelo de regresión múltiple es cercana a
cero, y el valor p correspondiente ya no es significativo, con un valor alrededor de 0.86.
Esto ilustra
Tabla 3.4. Para los datos de publicidad, estimaciones de coeficientes de mínimos cuadrados de la
regresión lineal múltiple del número de unidades vendidas en los presupuestos de publicidad de radio,
televisión y periódicos.
que los coeficientes de regresión simple y múltiple pueden ser bastante diferentes. Esta
diferencia se debe al hecho de que en el caso de regresión simple, el término pendiente
representa el efecto promedio de un aumento de $ 1,000 en la publicidad en periódicos,
ignorando otros predictores como la televisión y la radio. En contraste, en la configuración
de regresión múltiple, el coeficiente para los periódicos representa el efecto promedio de
incrementar el gasto en periódicos en $ 1,000 mientras se mantiene fija la televisión y la
radio.
¿Tiene sentido que la regresión múltiple sugiera que no hay relación entre las ventas y el
periódico mientras que la regresión lineal simple implica lo contrario? De hecho lo hace.
Considere la matriz de correlación para las tres variables predictoras y la variable de
respuesta, que se muestran en la Tabla 3.5. Observe que la correlación entre la radio y el
periódico es de 0,35. Esto revela una tendencia a gastar más en publicidad en periódicos en
los mercados donde se gasta más en publicidad por radio. Ahora suponga que la regresión
múltiple es correcta y que la publicidad en los periódicos no tiene un impacto directo en las
ventas, pero la publicidad por radio sí aumenta las ventas. Entonces, en los mercados donde
gastamos más en radio, nuestras ventas tenderán a ser más altas y, como muestra nuestra
matriz de correlación, también tendemos a gastar más en publicidad en los periódicos en
esos mismos mercados. Por lo tanto, en una regresión lineal simple que solo examina las
ventas frente a los periódicos, observaremos que los valores más altos de los periódicos
tienden a asociarse con valores más altos de las ventas, aunque la publicidad en los
periódicos no afecta las ventas. De modo que las ventas de periódicos son un sustituto de la
publicidad radial; el periódico recibe "crédito" por el efecto de la radio en las ventas.
Este resultado ligeramente contradictorio es muy común en muchas situaciones de la vida
real. Considere un ejemplo absurdo para ilustrar el punto. Ejecutar una regresión de los
ataques de tiburones frente a las ventas de helados para los datos recopilados en una
comunidad de playa determinada durante un período de tiempo mostraría una relación
positiva, similar a la observada entre las ventas y el periódico. Por supuesto, nadie (todavía)
ha sugerido que los helados deberían prohibirse en las playas para reducir los ataques de
tiburones. En realidad, las temperaturas más altas hacen que más personas visiten la playa,
lo que a su vez se traduce en más ventas de helados y más ataques de tiburones. Una
regresión múltiple de los ataques frente a las ventas de helados y la temperatura revela que,
como implica la intuición, el anterior predictor ya no es significativo después de ajustar la
temperatura.
Tabla 3.5. Matriz de correlación para TV, radio, periódicos y ventas para los datos publicitarios
Tabla 3.6. Más información sobre el modelo de mínimos cuadrados para la regresión del número de
unidades vendidas en los presupuestos publicitarios de televisión, periódicos y radio en los datos de
Publicidad. Otra información sobre este modelo se muestra en la Tabla 3.4.
donde, como con la regresión lineal simple, TSS = ∑ ( y i− ý )2y RSS = ∑ ( y i− ^y )2. Si los
supuestos del modelo lineal son correctos, se puede demostrar que
Por lo tanto, cuando no hay relación entre la respuesta y los predictores, uno esperaría que
el estadístico F tomara un valor cercano a 1. Por otro lado, si H a es verdadero, entonces
E{(TSS-RSS)/p}>❑2, por lo que esperamos que F sea mayor que 1.
El estadístico F para el modelo de regresión lineal múltiple obtenido mediante la regresión
de las ventas en radio, televisión y periódicos se muestra en la tabla 3.6. En este ejemplo, el
estadístico F es 570. Dado que es mucho mayor que 1, proporciona evidencia convincente
contra la hipótesis nula H 0. En otras palabras, la estadística F grande sugiere que al menos
uno de los medios publicitarios debe estar relacionado con las ventas. Sin embargo, ¿qué
pasaría si el estadístico F hubiera estado más cerca de 1? ¿Qué tan grande debe ser el
estadístico F antes de que podamos rechazar H 0 y concluir que existe una relación? Resulta
que la respuesta depende de los valores de ny p. Cuando n es grande, un estadístico F que
sea un poco mayor que 1 aún podría proporcionar evidencia en contra de H 0. Por el
contrario, se necesita un estadístico F más grande para rechazar H 0 si n es pequeño. Cuando
H 0 es verdadera y los errores i tienen una distribución normal, el estadístico F sigue una
distribución F.6 Para cualquier valor dado de nyp, se puede usar cualquier paquete de
software estadístico para calcular el valor p asociado con el F -estadístico usando esta
distribución. Con base en este valor p, podemos determinar si rechazar o no H 0. Para los
datos publicitarios, el valor p asociado con el estadístico F en la tabla 3.6 es esencialmente
cero, por lo que tenemos evidencia extremadamente fuerte de que al menos uno de los
medios está asociado con un aumento de las ventas.
En (3.23) estamos probando H 0 que todos los coeficientes son cero. A veces queremos
probar que un subconjunto particular de q de los coeficientes es cero. Esto corresponde a
una hipótesis nula
donde por conveniencia hemos puesto las variables elegidas por omisión al final de la lista.
En este caso ajustamos un segundo modelo que usa todas las variables excepto las últimas
q. Suponga que la suma de cuadrados residual para ese modelo es RSS0. Entonces el
estadístico F apropiado es
Observe que en la tabla 3.4, para cada predictor individual se reportaron un estadístico t y
un valor p. Estos proporcionan información sobre si cada predictor individual está
relacionado con la respuesta, después de ajustar por los otros predictores. Resulta que cada
uno de estos es exactamente equivalente a la prueba F que omite esa única variable del
modelo, dejando todas las demás en, es decir. q = 1 pulgada (3,24). Entonces informa el
efecto parcial de agregar esa variable al modelo. Por ejemplo, como discutimos
anteriormente, estos valores p indican que la televisión y la radio están relacionados con las
ventas, pero que no hay evidencia de que el periódico esté asociado con las ventas, en
presencia de estos dos.
Dados estos valores p individuales para cada variable, ¿por qué necesitamos mirar el
estadístico F general? Después de todo, parece probable que si alguno de los valores p para
las variables individuales es muy pequeño, entonces al menos uno de los predictores está
relacionado con la respuesta. Sin embargo, esta lógica es defectuosa, especialmente cuando
el número de predictores p es grande.
Por ejemplo, considere un ejemplo en el que p = 100 y H 0: β 1=β 2=… β P =0 es verdadero,
por lo que ninguna variable está realmente asociada con la respuesta. En esta situación,
alrededor del 5% de los valores p asociados con cada variable (del tipo que se muestra en la
Tabla 3.4) estarán por debajo de 0,05 por azar. En otras palabras, esperamos ver
aproximadamente cinco valores p pequeños incluso en ausencia de una verdadera
asociación entre los predictores y la respuesta. De hecho, ¡tenemos casi la garantía de que
observaremos al menos un valor p por debajo de 0,05 por casualidad! Por lo tanto, si
usamos los estadísticos t individuales y los valores p asociados para decidir si existe o no
alguna asociación entre las variables y la respuesta, existe una probabilidad muy alta de que
lleguemos a la conclusión incorrecta de que existe una relación. Sin embargo, el estadístico
F no sufre este problema porque se ajusta al número de predictores. Por lo tanto, si H 0 es
verdadera, solo hay un 5% de probabilidad de que el estadístico F dé como resultado un
valor p por debajo de 0.05, independientemente del número de predictores o el número de
observaciones.
El enfoque de usar un estadístico F para probar cualquier asociación entre los predictores y
la respuesta funciona cuando p es relativamente pequeño, y ciertamente pequeño en
comparación con n. Sin embargo, a veces tenemos una gran cantidad de variables. Si p> n,
entonces hay más coeficientes β j para estimar que observaciones a partir de las cuales
estimarlos. En este caso, ni siquiera podemos ajustar el modelo de regresión lineal múltiple
usando mínimos cuadrados, por lo que no se puede usar el estadístico F, y tampoco la
mayoría de los otros conceptos que hemos visto hasta ahora en este capítulo. Cuando p es
grande, se pueden usar algunos de los enfoques discutidos en la siguiente sección, como la
selección directa. Esta configuración de alta dimensión se analiza con mayor detalle en el
Capítulo 6.
que se simplifica a (3.15) para una regresión lineal simple. Por tanto, los modelos con más
variables pueden tener un RSE más alto si la disminución de RSS es pequeña en relación
con el aumento de p.
Además de observar las estadísticas RSE y R2que acabamos de comentar, puede resultar
útil trazar los datos. Los resúmenes gráficos pueden revelar problemas con un modelo que
no son visibles en las estadísticas numéricas. Por ejemplo, la Figura 3.5 muestra una gráfica
tridimensional de TV y radio versus ventas. Vemos que algunas observaciones se
encuentran por encima y otras por debajo del plano de regresión de mínimos cuadrados.
Observe que hay un patrón claro de residuos negativos, seguidos de residuos positivos,
seguidos de residuos negativos. En particular, el modelo lineal parece sobreestimar las
ventas para los casos en los que la mayor parte del dinero publicitario se gastó
exclusivamente en
Figura 3.5. Para los datos de publicidad, una regresión lineal se ajusta a las ventas utilizando la televisión
y la radio como predictores. A partir del patrón de los residuos, podemos ver que existe una relación no
lineal pronunciada en los datos.
TV o radio. Subestima las ventas en los casos en que el presupuesto se dividió entre los dos
medios. Este patrón no lineal pronunciado no se puede modelar con precisión mediante
regresión lineal. Sugiere una sinergia o efecto de interacción entre los medios publicitarios,
por lo que la combinación de los medios da como resultado un mayor impulso a las ventas
que el uso de un solo medio. En la Sección 3.3.2, discutiremos la extensión del modelo
lineal para acomodar tales efectos sinérgicos mediante el uso de términos de interacción.
Cuatro: predicciones
Una vez que hemos ajustado el modelo de regresión múltiple, es sencillo aplicar (3.21) para
predecir la respuesta Y sobre la base de un conjunto de valores para los predictores
X 0 , X 1 , … , X P Sin embargo, hay tres tipos de incertidumbre asociados con esta predicción.
2. Por supuesto, en la práctica, asumir un modelo lineal para f (X) es casi siempre una
aproximación de la realidad, por lo que existe una fuente adicional de error
potencialmente reducible que llamamos sesgo del modelo. Entonces, cuando
usamos un modelo lineal, de hecho estamos estimando la mejor aproximación lineal
a la superficie verdadera. Sin embargo, aquí ignoraremos esta discrepancia y
operaremos como si el modelo lineal fuera correcto.
Usamos un intervalo de confianza para cuantificar la incertidumbre que rodea a las ventas
promedio en un gran número de ciudades. Por ejemplo, dado que se gastan $ 100,000 en
publicidad televisiva y $ 20,000 en publicidad radial en cada ciudad, el intervalo de
confianza del 95% es [10,985, 11,528]. Interpretamos que esto significa que el 95% de los
intervalos de esta forma contendrán el valor verdadero de f (X). Por otro lado, se puede usar
un intervalo de predicción para cuantificar la incertidumbre que rodea a las ventas de una
ciudad en particular. Dado que se gastan $ 100,000 en publicidad televisiva y $ 20,000 en
publicidad radial en esa ciudad, el intervalo de predicción del 95% es [7,930, 14,580].
Interpretamos que esto significa que el 95% de los intervalos de esta forma contendrán el
valor real de Y para esta ciudad. Tenga en cuenta que ambos intervalos están centrados en
11,256, pero que el intervalo de predicción es sustancialmente más amplio que el intervalo
de confianza, lo que refleja la mayor incertidumbre sobre las ventas de una ciudad
determinada en comparación con las ventas promedio en muchas ubicaciones.
Figura 3.6. El conjunto de datos de crédito contiene información sobre el saldo, la edad, las tarjetas, la
educación, los ingresos, el límite y la calificación de varios clientes potenciales.
Tabla 3.7. Estimaciones del coeficiente de mínimos cuadrados asociadas con la regresión del equilibrio
sobre el género en el conjunto de datos de crédito. El modelo lineal se da en (3.27). Es decir, el género se
codifica como una variable ficticia, como en (3.26)
y utilice esta variable como predictor en la ecuación de regresión. Esto da como resultado el
modelo
Luego, ambas variables se pueden usar en la ecuación de regresión, para obtener el modelo
Ahora β 0 puede interpretarse como el saldo promedio de la tarjeta de crédito para
afroamericanos, β 1 puede interpretarse como la diferencia en el saldo promedio entre las
categorías asiática y afroamericana, y β 2 puede interpretarse como la diferencia en el saldo
promedio entre caucásicos y afroamericanos.
Tabla 3.8. Estimaciones del coeficiente de mínimos cuadrados asociadas con la regresión del equilibrio
sobre la etnia en el conjunto de datos Credit. El modelo lineal se da en (3.30). Es decir, la etnicidad se
codifica a través de dos variables ficticias (3.28) y (3.29).
Categorías afroamericanas. Siempre habrá una variable ficticia menos que el número de
niveles. El nivel sin variable ficticia (afroamericano en este ejemplo) se conoce como línea
de base. En la Tabla 3.8, vemos que el saldo estimado para la línea de base, Afroamericano,
$531.00. Se estima que la categoría asiática tendrá $18,69 menos de deuda que la categoría
afroamericana, y que la categoría caucásica tendrá $12,50 menos deuda que la categoría
afroamericana. Sin embargo, los valores p asociados con las estimaciones de los
coeficientes para las dos variables ficticias son muy grandes, lo que sugiere que no hay
evidencia estadística de una diferencia real en el saldo de las tarjetas de crédito entre las
etnias. Una vez más, el nivel seleccionado como categoría de referencia es arbitrario y las
predicciones finales para cada grupo serán las mismas independientemente de esta elección.
Sin embargo, los coeficientes y sus valores p dependen de la elección de la codificación de
la variable ficticia. En lugar de confiar en los coeficientes individuales, podemos usar una
prueba F para probar H 0: β 1=β 2=0 ; esto no depende de la codificación.
Esta prueba F tiene un valor p de 0,96, lo que indica que no podemos rechazar la hipótesis
nula de que no existe una relación entre el equilibrio y la etnia.
El uso de este enfoque de variable ficticia no presenta dificultades al incorporar predictores
tanto cuantitativos como cualitativos. Por ejemplo, para hacer una regresión del saldo en
una variable cuantitativa como el ingreso y una variable cualitativa como el estudiante,
simplemente debemos crear una variable ficticia para el estudiante y luego ajustar un
modelo de regresión múltiple utilizando el ingreso y la variable ficticia como predictores
del saldo de la tarjeta de crédito.
Hay muchas formas diferentes de codificar variables cualitativas además del enfoque de
variable ficticia adoptado aquí. Todos estos enfoques conducen a ajustes de modelo
equivalentes, pero los coeficientes son diferentes y tienen diferentes interpretaciones, y
están diseñados para medir contrastes particulares. Este tema está más allá del alcance del
libro, por lo que no lo profundizaremos más.
¿Cómo la inclusión de este término de interacción relaja el supuesto aditivo? Observe que
(3.31) se puede reescribir como
Tabla 3.9. Para los datos de Publicidad, estimaciones de coeficientes de mínimos cuadrados asociados con
la regresión de las ventas en TV y radio, con un término de interacción, como en (3.33).
~ ~
donde β 1=β 1 + β 3 X 2. Dado que β 1 cambia con X 2 , el efecto de X 1 en Y ya no es constante:
ajustar X 2 cambiará el impacto de X 1 en Y. Por ejemplo, supongamos que estamos
interesados en estudiar la productividad de una fábrica. Deseamos predecir el número de
unidades producidas sobre la base del número de líneas de producción y el número total de
trabajadores. Parece probable que el efecto de aumentar el número de líneas de producción
dependa del número de trabajadores, ya que, si no hay trabajadores disponibles para operar
las líneas, aumentar el número de líneas no aumentará la producción. Esto sugiere que sería
apropiado incluir un término de interacción entre líneas y trabajadores en un modelo lineal
para predecir unidades. Supongamos que cuando ajustamos el modelo, obtenemos
En otras palabras, agregar una línea adicional aumentará el número de unidades producidas
por 3.4 + 1.4 × trabajadores. Por lo tanto, cuantos más trabajadores tengamos, más fuerte
será el efecto de las líneas. Volvamos ahora al ejemplo de publicidad. Un modelo lineal que
usa radio, televisión y una interacción entre los dos para predecir las ventas toma la forma
Podemos interpretar β3 como el aumento en la efectividad de la publicidad televisiva por
un aumento de una unidad en la publicidad radial (o viceversa). Los coeficientes que
resultan del ajuste del modelo (3.33) se dan en la Tabla 3.9.
Los resultados de la Tabla 3.9 sugieren fuertemente que el modelo que incluye el término
de interacción es superior al modelo que contiene solo el efecto principal. El valor p para el
término de interacción, TV × radio, es extremadamente bajo, lo que indica que hay una
fuerte evidencia de H a: β 3 = 0. En otras palabras, está claro que la verdadera relación no es
aditiva. El R2 para el modelo (3.33) es 96.8%, comparado con sólo 89.7% para el modelo
que predice las ventas usando TV y radio sin un término de interacción. Esto significa que
(96,8 - 89,7) / (100 −89,7) = 69% de la variabilidad en las ventas que queda después de
ajustar el modelo aditivo ha sido explicada por el término de interacción. El coeficiente
estimado de la Tabla 3.9 sugieren que un aumento en la publicidad televisiva de $ 1,000
está asociado con un aumento en las ventas de
( β^ 1 + ^β 3 × radio ) ×1,000=19+1.1× unidadesde radio. Y un aumento en la publicidad por
radio de $ 1,000 estará asociado con un aumento en las ventas de
( β^ 2 + ^β 3 × TV ) ×1,000=29+1.1× unidadesde TV .
En este ejemplo, los valores p asociados con la televisión, la radio y el término de
interacción son todos estadísticamente significativos (tabla 3.9), por lo que es obvio que las
tres variables deben incluirse en el modelo. Sin embargo, a veces ocurre que un término de
interacción tiene un valor p muy pequeño, pero los efectos principales asociados (en este
caso, televisión y radio) no lo tienen. El principio jerárquico establece que si incluimos una
interacción en un modelo, también debemos incluir los efectos principales, incluso si los p-
valores asociados con sus coeficientes no son significativos. En otras palabras, si la
interacción entre X 1 y X 2 parece importante, entonces deberíamos incluir tanto X 1 como X 2
en el modelo, incluso si sus estimaciones de coeficientes tienen valores p grandes. El
fundamento de este principio es que si X 1 × X 2 está relacionado con la respuesta, entonces
tiene poco interés si los coeficientes de X 1 o X 2 son exactamente cero o no. Además, X 1 ×
X 2 normalmente se correlaciona con X 1 y X 2 , por lo que dejarlos fuera tiende a alterar el
significado de la interacción.
En el ejemplo anterior, consideramos una interacción entre la televisión y la radio, las
cuales son variables cuantitativas. Sin embargo, el concepto de interacciones se aplica
igualmente a las variables cualitativas o a una combinación de variables cuantitativas y
cualitativas. De hecho, una interacción entre una variable cualitativa y una variable
cuantitativa tiene una interpretación particularmente agradable. Considere el conjunto de
datos de Crédito de la Sección 3.3.1 y suponga que deseamos predecir el saldo utilizando
las variables de ingresos (cuantitativas) y de estudiantes (cualitativas). En ausencia de un
término de interacción, el modelo toma la forma
Tenga en cuenta que esto equivale a ajustar dos líneas paralelas a los datos, una para
estudiantes y otra para no estudiantes. Las líneas para estudiantes y no estudiantes tienen
intersecciones diferentes, β 0 + β 2 versus β 0, pero la misma pendiente, β 1. Esto se ilustra en
el panel de la izquierda de la Figura 3.7. El hecho de que las líneas sean paralelas significa
que el efecto promedio sobre el equilibrio de un aumento de una unidad en el ingreso no
depende de si el individuo es un estudiante o no. Esto representa una limitación
potencialmente seria del modelo, ya que, de hecho, un cambio en los ingresos puede tener
un efecto muy diferente en el saldo de la tarjeta de crédito de un estudiante frente a un no
estudiante.
Esta limitación se puede abordar agregando una variable de interacción, creada al
multiplicar el ingreso con la variable ficticia para el estudiante. Nuestro
Figura 3.7. Para los datos de crédito, se muestran las líneas de mínimos cuadrados para la predicción del
saldo de los ingresos para estudiantes y no estudiantes. Izquierda: el modelo (3.34) estaba en forma. No
hay interacción entre los ingresos y el estudiante. Derecha: el modelo (3.35) estaba en forma. Existe un
término de interacción entre los ingresos y el estudiante.
Relaciones no lineales
Como se discutió anteriormente, el modelo de regresión lineal (3.19) supone una relación
lineal entre la respuesta y los predictores. Pero en algunos casos, la verdadera relación entre
la respuesta y los predictores puede no ser lineal. Aquí presentamos una forma muy simple
de extender directamente el modelo lineal para acomodar relaciones no lineales, usando
regresión polinomial. En los capítulos posteriores de polinomios, presentaremos enfoques
más complejos para realizar ajustes no lineales de regresión en entornos más generales.
Considere la Figura 3.8, en la que se muestra el mpg (kilometraje de gasolina en millas por
galón) versus caballos de fuerza para varios autos en el conjunto de datos Auto. Los
Figura 3.8. El conjunto de datos automático. Para varios autos, se muestran las millas por galón y los
caballos de fuerza. El ajuste de regresión lineal se muestra en naranja. El ajuste de regresión lineal para
un modelo que incluye caballos de fuerza2 se muestra Como una curva azul. El ajuste de regresión lineal
para un modelo que incluye todos los polinomios de caballos de fuerza hasta el quinto grado se muestra
en verde.
la línea naranja representa el ajuste de regresión lineal. Existe una relación pronunciada
entre mpg y caballos de fuerza, pero parece claro que esta relación es de hecho no lineal:
los datos sugieren una relación curva. Un enfoque simple para incorporar asociaciones no
lineales en un modelo lineal es incluir versiones transformadas de los predictores en el
modelo. Por ejemplo, los puntos de la figura 3.8 parecen tener una forma cuadrática, lo que
sugiere que un modelo de la forma
puede proporcionar un mejor ajuste. La ecuación 3.36 implica predecir mpg utilizando una
función no lineal de caballos de fuerza. ¡Pero sigue siendo un modelo lineal! Es decir,
(3.36) es simplemente un modelo de regresión lineal múltiple con X 1 = caballos de fuerza y
X 2 = caballos de fuerza2 . Entonces, podemos usar un software de regresión lineal estándar
para estimar β 0, β 1 y β 2 con el fin de producir un ajuste no lineal. La curva azul de la Figura
3.8 muestra el ajuste cuadrático resultante a los datos. El ajuste cuadrático parece ser
sustancialmente mejor que el ajuste obtenido cuando solo se incluye el término lineal. El R2
del ajuste cuadrático es 0.688, comparado con 0.606 para el ajuste lineal, y el valor p en la
tabla 3.10 para el término cuadrático es altamente significativo. Si incluir
caballos de fuerza2 condujo a una mejora tan grande en el modelo, ¿por qué no incluir
caballos de fuerza3 , caballos de fuerza 4o incluso caballos de fuerza5 ? La curva verde
Tabla 10. Para el conjunto de datos de Auto, estimaciones de coeficientes de mínimos cuadrados
asociados con la regresión de mpg en caballos de fuerza y caballos de fuerza2 .
en la Figura 3.8 muestra el ajuste que resulta de incluir todos los polinomios hasta el quinto
grado en el modelo (3.36). El ajuste resultante parece innecesariamente ondulado, es decir,
no está claro que incluir los términos adicionales realmente haya llevado a un mejor ajuste
a los datos. El enfoque que acabamos de describir para extender el modelo lineal para
acomodar relaciones no lineales se conoce como regresión polinomial, ya que hemos
incluido funciones polinomiales de los predictores en el modelo de regresión. Exploramos
más a fondo este enfoque y otras extensiones no lineales del modelo lineal en el Capítulo 7.
Figura 3.9. Gráficos de residuos versus valores predichos (o ajustados) para el conjunto de datos
automático. En cada gráfico, la línea roja se ajusta suavemente a los residuos, con la intención de facilitar
la identificación de una tendencia. Izquierda: una regresión lineal de mpg en caballos de fuerza. Un patrón
fuerte en los residuos indica no linealidad en los datos. Derecha: una regresión lineal de mpg en caballos
de fuerza y caballos de fuerza2. Hay poco patrón en los residuales.
dado que hay múltiples predictores, en su lugar graficamos los residuales versus los
valores predichos (o ajustados) ^y i Idealmente, la gráfica residual no mostrará un
patrón discernible ajustado. La presencia de un patrón puede indicar un problema
con algún aspecto del modelo lineal.
El panel izquierdo de la Figura 3.9 muestra un gráfico residual de la regresión lineal
de mpg a caballos de fuerza en el conjunto de datos Auto que se ilustró en la Figura
3.8. La línea roja se ajusta suavemente a los residuales, que se muestran para
facilitar la identificación de tendencias. Los residuos exhiben una clara forma de U,
lo que proporciona una fuerte indicación de no linealidad en los datos. En contraste,
el panel de la derecha de la Figura 3.9 muestra la gráfica residual que resulta del
modelo (3.36), que contiene un término cuadrático. Parece haber un pequeño patrón
en los residuos, lo que sugiere que el término cuadrático mejora el ajuste a los datos.
Si la gráfica residual indica que hay asociaciones no lineales en los datos, entonces
un enfoque simple es utilizar transformaciones no lineales de los predictores, como
log X , √ X y X 2 en el modelo de regresión. En los últimos capítulos de este libro,
analizaremos otros enfoques no lineales más avanzados para abordar este problema.
2. Correlación de términos de error
Un supuesto importante del modelo de regresión lineal es que los términos de error,
1, 2, ..., n, no están correlacionados. ¿Qué significa esto? Por ejemplo, si los errores
no están correlacionados, entonces el hecho de que i sea positivo proporciona poca
o ninguna información sobre el signo de i + 1. Los errores estándar que se calculan
para los coeficientes de regresión estimados o los valores ajustados se basan en el
supuesto de términos de error no correlacionados. Si de hecho existe una
correlación entre los términos de error, entonces los errores estándar estimados
tenderán a subestimar los errores estándar verdaderos. Como resultado, los
intervalos de confianza y predicción serán más estrechos de lo que deberían. Por
ejemplo, un intervalo de confianza del 95% puede tener en realidad una
probabilidad mucho menor que 0,95 de contener el valor real del parámetro.
Además, los valores p asociados con el modelo serán más bajos de lo que deberían
ser; esto podría llevarnos a concluir erróneamente que un parámetro es
estadísticamente significativo. En resumen, si los términos de error están
correlacionados, es posible que tengamos un sentido de confianza injustificado en
nuestro modelo.
Como ejemplo extremo, supongamos que duplicamos accidentalmente nuestros
datos, lo que lleva a observaciones y términos de error idénticos en pares. Si
ignoramos esto, nuestros cálculos de error estándar serían como si tuviéramos una
muestra de tamaño 2n, cuando en realidad solo tenemos n muestras. Nuestros
parámetros estimados serían los mismos para las 2n muestras que para las n
muestras, pero los intervalos de confianza serían más estrechos en un factor de √ 2!
¿Por qué pueden producirse correlaciones entre los términos de error? Estas
correlaciones ocurren con frecuencia en el contexto de datos de series de tiempo,
que consisten en servicios de series de tiempo para las cuales se obtienen
mediciones en puntos discretos en el tiempo. En muchos casos, las observaciones
que se obtienen en puntos de tiempo adyacentes tendrán errores correlacionados
positivamente. Para determinar si este es el caso para un conjunto de datos dado,
podemos graficar los residuos de nuestro modelo en función del tiempo. Si los
errores no están correlacionados, entonces no debería haber un patrón discernible.
Por otro lado, si los términos de error están correlacionados positivamente, es
posible que se observe un seguimiento en los residuos, es decir, los residuos
adyacentes pueden tener valores similares de seguimiento. La figura 3.10
proporciona una ilustración. En el panel superior, vemos los residuos de un ajuste
de regresión lineal a los datos generados con errores no correlacionados. No hay
evidencia de una tendencia relacionada con el tiempo en los residuos. En contraste,
los residuos en el panel inferior provienen de un conjunto de datos en el que los
errores adyacentes tenían una correlación de 0.9. Ahora hay un patrón claro en los
residuos: los residuos adyacentes tienden a adquirir valores similares. Finalmente, el
panel central ilustra un caso más moderado en el que los residuales tenían una
correlación de 0.5. Todavía hay evidencia de seguimiento, pero el patrón es menos
claro.
Se han desarrollado muchos métodos para tener debidamente en cuenta las
correlaciones en los términos de error en los datos de series de tiempo. La
correlación entre los términos de error también puede ocurrir fuera de los datos de
series de tiempo. Por ejemplo, considere un estudio en el que se predice la altura de
los individuos a partir de su peso. La suposición de errores no correlacionados
podría violarse si algunos de los individuos del estudio son miembros de la misma
familia, comen la misma dieta o han estado expuestos a los mismos factores
ambientales. En general, la suposición de errores no correlacionados es
extremadamente importante para la regresión lineal, así como para otros métodos
estadísticos, y un buen diseño experimental es crucial para mitigar el riesgo de tales
correlaciones.
Figura 3.10. Gráficos de residuos de conjuntos de datos de series de tiempo simulados generados con
diferentes niveles de correlación ρ entre términos de error para puntos de tiempo adyacentes.
Otro supuesto importante del modelo de regresión lineal es que los términos de
error tienen una varianza constante, Var (i) = ❑2. Los errores estándar, los
intervalos de confianza y las pruebas de hipótesis asociados con el modelo lineal se
basan en esta suposición.
Desafortunadamente, a menudo ocurre que las variaciones de los términos de error
no son constantes. Por ejemplo, las variaciones de los términos de error pueden
aumentar con el valor de la respuesta. Se pueden identificar varianzas no constantes
en los errores, o heterocedasticidad, a partir de la presencia de una forma de embudo
en la gráfica residual. Se muestra un ejemplo en el panel de la izquierda de la Figura
3.11, en el que la magnitud de los residuales tiende a aumentar con los valores
ajustados. Ante este problema, una posible solución es transformar la respuesta Y
utilizando una función cóncava como log Y o √ Y . Tal transformación da como
resultado una mayor cantidad de contracción de las respuestas más grandes, lo que
lleva a una reducción de la heterocedasticidad. El panel de la derecha de la Figura
3.11 muestra la gráfica residual después de transformar la respuesta
Figura 11. Parcelas residuales. En cada gráfico, la línea roja se ajusta suavemente a los residuos, con la
intención de facilitar la identificación de una tendencia. Las líneas azules siguen los cuantiles externos de
los residuos y enfatizan los patrones. Izquierda: la forma del embudo indica heterocedasticidad. Derecha:
el predictor ha sido transformado logarítmicamente y ahora no hay evidencia de heterocedasticidad.
utilizando log Y. Los residuos ahora parecen tener una varianza constante, aunque
hay alguna evidencia de una ligera relación no lineal en los datos.
A veces tenemos una buena idea de la variación de cada respuesta. Por ejemplo, la
iésima respuesta podría ser un promedio de ni observaciones crudas. Si cada una de
estas observaciones sin procesar no está correlacionada con la varianza ❑2, entonces
su promedio tiene varianza ❑2i =❑2 /ni. En este caso, un remedio simple es ajustar
nuestro modelo por mínimos cuadrados ponderados, con pesos proporcionales a las
varianzas inversas, es decir. w i=ni en este caso. La mayoría de los programas de
regresión lineal permiten pesos de observación.
4. Valores atípicos
Un valor atípico es un punto en el que y i está lejos del valor predicho por el modelo.
Los valores atípicos pueden surgir por diversas razones, como el registro incorrecto
de una observación durante la recopilación de datos.
El punto rojo (observación 20) en el panel de la izquierda de la Figura 3.12 ilustra
un valor atípico típico. La línea sólida roja es el ajuste de regresión de mínimos
cuadrados, mientras que la línea discontinua azul es el ajuste de mínimos cuadrados
después de eliminar el valor atípico. En este caso, eliminar el valor atípico tiene
poco efecto en la línea de mínimos cuadrados: casi no produce ningún cambio en la
pendiente y una reducción minúscula en la intersección. Es típico que un valor
atípico que no tiene un valor predictor inusual tenga poco efecto en el ajuste por
mínimos cuadrados. Sin embargo, incluso si un valor atípico no tiene mucho efecto
en el ajuste por mínimos cuadrados, puede causar otros problemas. Por ejemplo, en
este ejemplo, el RSE es 1.09 cuando se incluye el valor atípico en la regresión, pero
es solo 0.77 cuando se elimina el valor atípico. Dado que el RSE se utiliza para
calcular todos los intervalos de confianza y
Figura 12. Izquierda: La línea de regresión de mínimos cuadrados se muestra en rojo y la línea de
regresión después de eliminar el valor atípico se muestra en azul. Centro: el gráfico de residuos identifica
claramente el valor atípico. Derecha: El valor atípico Derecha: El valor atípico tiene un residuo
estudentizado de 6; normalmente esperamos valores entre −3 y 3.
Valores p, un aumento tan dramático causado por un solo punto de datos puede
tener implicaciones para la interpretación del ajuste. De manera similar, la inclusión
del valor atípico hace que R2 disminuya de 0,892 a 0,805.
Se pueden utilizar gráficos de residuos para identificar valores atípicos. En este
ejemplo, el valor atípico es claramente visible en el gráfico de residuos ilustrado en
el panel central de la Figura 3.12. Pero en la práctica, puede ser difícil decidir qué
tan grande debe ser un residuo antes de considerar el punto como un valor atípico.
Para abordar este problema, en lugar de graficar los residuos, podemos graficar los
residuales estudentizados, calculados dividiendo cada e i residual por su error
estándar estimado. Las observaciones cuyos residuales estudentizados son
superiores a 3 en valor absoluto son posibles valores atípicos. En el panel de la
derecha de la figura 3.12, el residuo estudentizado del valor atípico excede 6,
mientras que todas las demás observaciones tienen residuos estudentizados entre -2
y 2.Si creemos que se ha producido un valor atípico debido a un error en la
recopilación o el registro de datos, una solución es simplemente eliminar la
observación. Sin embargo, se debe tener cuidado, ya que un valor atípico puede
indicar una deficiencia en el modelo, como un predictor faltante.
5. Puntos de alto apalancamiento
Acabamos de ver que los valores atípicos son observaciones para las que la
respuesta y i es inusual dado el predictor x i. En contraste, las observaciones con alto
apalancamiento alto apalancamiento tienen un valor inusual para xi. Por ejemplo, la
observación 41 en el panel de la izquierda de la Figura 3.13 tiene un alto
apalancamiento, ya que el valor del predictor para esta observación es grande en
relación con las otras observaciones. (Tenga en cuenta que los datos que se
muestran en la Figura 3.13 son los mismos que los datos que se muestran en la
Figura 3.12, pero con la adición de una única observación de alto apalancamiento).
La línea sólida roja es el ajuste de mínimos cuadrados a los datos, mientras que la
línea discontinua azul es el ajuste producido cuando se elimina la observación 41.
Al comparar los paneles de la izquierda de las Figuras 3.12 y 3.13, observamos que
eliminar la observación de alto apalancamiento tiene un impacto mucho más
sustancial en la línea de mínimos cuadrados
Figura 13. Izquierda: Observación 41 es un alto punto de apalancamiento, mientras que 20 no lo es. La
línea roja es el ajuste a todos los datos y la línea azul es el ajuste con la observación 41 eliminada. Centro:
la observación roja no es inusual en términos de su valor x 1 o su valor x 2, pero aún queda fuera del
grueso de los datos y, por lo tanto, tiene un alto apalancamiento. Derecha: Observación 41 tiene un
apalancamiento alto y un residual alto.
Figura 3.14. Diagramas de dispersión de las observaciones del conjunto de datos Credit. Izquierda: una
gráfica de edad versus límite. Estas dos variables no son colineales. Derecha: una gráfica de calificación
versus límite. Existe una alta colinealidad.
que exceda en gran medida (p+1)/n, entonces podemos sospechar que el punto
correspondiente tiene un alto apalancamiento. El panel de la derecha de la Figura 3.13
proporciona una gráfica de los residuales estudentizados versus hi para los datos en el
panel de la izquierda de la Figura 3.13. La Observación 41 se destaca por tener una
estadística de apalancamiento muy alta, así como un residuo estudiantil alto. En otras
palabras, es un valor atípico y una observación de alto apalancamiento. ¡Esta es una
combinación particularmente peligrosa! Este gráfico también revela la razón por la que
la observación 20 tuvo un efecto relativamente pequeño sobre el ajuste por mínimos
cuadrados en la Figura 3.12: tiene un apalancamiento bajo.
6. Colinealidad
La colinealidad se refiere a la situación en la que dos o más variables predictoras
están estrechamente relacionadas entre sí. El concepto de colinealidad se ilustra en
la Figura 3.14 utilizando el conjunto de datos Credit. En el panel de la izquierda de
la Figura 3.14, los dos predictores límite y edad parecen no tener una relación obvia.
En contraste, en el panel de la derecha de la Figura 3.14, el límite y la calificación
de los predictores están altamente correlacionados entre sí, y decimos que son
colineales. La presencia de colinealidad puede plantear problemas en el contexto de
regresión, ya que puede resultar difícil separar los efectos individuales de las
variables colineales en la respuesta. En otras palabras, dado que el límite y la
calificación tienden a aumentar o disminuir juntos, puede ser difícil determinar
cómo se asocia cada uno por separado con la respuesta, el equilibrio.
La figura 3.15 ilustra algunas de las dificultades que pueden resultar de la
colinealidad. El panel de la izquierda de la Figura 3.15 es un gráfico de contorno del
RSS (3.22) asociado con diferentes estimaciones de coeficientes posibles para la
regresión del equilibrio en el límite y la edad. Cada elipse representa un conjunto de
coeficientes que corresponden al mismo RSS, con las elipses más cercanas al centro
que toman los valores más bajos de RSS. Los puntos negros y los puntos asociados
Figura 15. Gráficos de contorno para los valores de RSS en función de los parámetros β para varias
regresiones que involucran el conjunto de datos Credit. En cada gráfico, los puntos negros representan los
valores de los coeficientes correspondientes al RSS mínim Izquierda: una gráfica de contorno de RSS para
la regresión del equilibrio sobre la edad y el límite. El valor mínimo está bien definido. Derecha: un gráfico
de contorno de RSS para la regresión del equilibrio sobre la calificación y el límite. Debido a la
colinealidad, hay muchos pares (βLimit, βRating) con un valor similar para RSS.
las líneas representan las estimaciones de los coeficientes que dan como resultado el
RSS más pequeño posible; en otras palabras, estas son las estimaciones de mínimos
cuadrados. Los ejes para el límite y la edad se han escalado para que la gráfica
incluya posibles estimaciones de coeficientes que son hasta cuatro errores estándar a
cada lado de las estimaciones de mínimos cuadrados. Por tanto, el gráfico incluye
todos los valores plausibles de los coeficientes. Por ejemplo, vemos que el
verdadero coeficiente límite está casi con certeza entre 0,15 y 0,20.
En contraste, el panel de la derecha de la Figura 3.15 muestra gráficas de contorno
de la RSS asociadas con posibles estimaciones de coeficientes para la regresión del
equilibrio al límite y la calificación, que sabemos que son altamente colineales.
Ahora los contornos corren a lo largo de un estrecho valle; Existe una amplia gama
de valores para las estimaciones de coeficientes que dan como resultado valores
iguales para RSS. Por lo tanto, un pequeño cambio en los datos podría hacer que el
par de valores de coeficiente que produce el RSS más pequeño, es decir, las
estimaciones de mínimos cuadrados, se mueva en cualquier lugar a lo largo de este
valle. Esto da lugar a una gran incertidumbre en las estimaciones de los coeficientes.
Observe que la escala para el coeficiente límite ahora va desde aproximadamente
−0,2 a 0,2; esto es un aumento de ocho veces sobre el rango plausible del
coeficiente límite en la regresión con la edad. Curiosamente, a pesar de que los
coeficientes de límite y calificación ahora tienen mucha más incertidumbre
individual, es casi seguro que se encuentren en algún lugar de este valle de
contorno. Por ejemplo, no esperaríamos que el valor real de los coeficientes de
límite y calificación sea −0,1 y 1 respectivamente, aunque ese valor es plausible
para cada coeficiente individualmente.
Tabla 3.11. Se muestran los resultados de dos modelos de regresión múltiple que involucran el conjunto de
datos Credit. El modelo 1 es una regresión del equilibrio sobre la edad y el límite, y el modelo 2 una
regresión del equilibrio sobre la calificación y el límite. El error estándar de βˆlimit aumenta 12 veces en la
segunda regresión, debido a la colinealidad.
2
dondeR X ∨ X es el R2 de una regresión de X j a todos los demás predictores. Si
j −j
R2X ∨ X está cerca de uno, entonces la colinealidad está presente, por lo que el VIF
j −j
será grande.
En los datos de crédito, una regresión del equilibrio por edad, calificación y límite
indica que los predictores tienen valores de VIF de 1.01, 160.67 y 160.59. Como
sospechábamos, ¡existe una colinealidad considerable en los datos! Ante el
problema de la colinealidad, existen dos soluciones sencillas. El primero es eliminar
una de las variables problemáticas de la regresión. Esto generalmente se puede
hacer sin comprometer mucho el ajuste de regresión, ya que la presencia de
colinealidad implica que la información que esta variable proporciona sobre la
respuesta es redundante en presencia de las otras variables. Por ejemplo, si
regresamos el equilibrio a la edad y el límite, sin el predictor de calificación,
entonces los valores de VIF resultantes están cerca del valor mínimo posible de 1 y
el R2 cae de 0,754 a 0,75. Por lo tanto, eliminar la calificación del conjunto de
predictores ha resuelto de manera efectiva el problema de colinealidad sin
comprometer el ajuste. La segunda solución es combinar las variables colineales
juntas en un solo predictor. Por ejemplo, podríamos tomar el promedio de versiones
estandarizadas de límite y calificación para crear una nueva variable que mida la
solvencia crediticia.
2. ¿Qué tan fuerte es la relación? Discutimos dos medidas de precisión del modelo en
la Sección 3.1.3. Primero, el RSE estima la desviación estándar de la respuesta de la
línea de regresión de la población. Para los datos de publicidad, el RSE es de 1.681
unidades, mientras que el valor medio de la respuesta es de 14.022, lo que indica un
porcentaje de error de aproximadamente el 12%. En segundo lugar, la estadística R2
registra el porcentaje de variabilidad en la respuesta que explican los predictores.
Los predictores explican casi el 90% de la variación en las ventas. Las estadísticas
RSE y R2 se muestran en la Tabla 3.6.
6. ¿Es la relación lineal? En la Sección 3.3.3, vimos que las gráficas de residuos se
pueden usar para identificar la no linealidad. Si las relaciones son lineales, las
gráficas de residuos no deben mostrar ningún patrón. En el caso de los datos de
Publicidad, observamos un efecto no lineal en la Figura 3.5, aunque este efecto
también podría observarse en una gráfica residual. En la Sección 3.3.2, discutimos
la inclusión de transformaciones de los predictores en el modelo de regresión lineal
para acomodar relaciones no lineales.
Figura 3.16. Gráficos de f ˆ (X) usando regresión KNN en un conjunto de datos bidimensionales con 64
observaciones (puntos naranjas). Izquierda: K = 1 da como resultado un ajuste aproximado de la función
escalonada. Derecha: K = 9 produce un ajuste mucho más suave.
Figura 3.17. Gráficos de f ˆ (X) usando regresión KNN en un conjunto de datos unidimensionales con 100
observaciones. La verdadera relación viene dada por la línea negra sólida. Izquierda: La curva azul
corresponde a K = 1 e interpola (es decir, pasa directamente) Los datos de entrenamiento. Derecha: la
curva azul corresponde a K = 9 y representa un ajuste más suave.
Figura 3.18. El mismo conjunto de datos que se muestra en la Figura 3.17 se investiga más a fondo.
Izquierda: la línea discontinua azul es el ajuste de mínimos cuadrados a los datos. Dado que f (X) es de
hecho lineal (se muestra como la línea negra), la línea de regresión de mínimos cuadrados proporciona
una muy buena estimación de f (X). Derecha: La línea horizontal discontinua representa el MSE del
conjunto de prueba de mínimos cuadrados, mientras que la línea verde continua corresponde al MSE para
KNN en función de 1 / K (en la escala logarítmica). La regresión lineal logra un MSE de prueba más bajo
que la regresión KNN, ya que f (X) es de hecho lineal. Para la regresión KNN, los mejores resultados
ocurren con un valor muy grande de K, correspondiente a un valor pequeño de 1 / K.
Figura 19. Arriba a la izquierda: en un entorno con una relación ligeramente no lineal entre X e Y (línea
negra continua), se muestran los ajustes KNN con K = 1 (azul) y K = 9 (rojo). Arriba a la derecha: para los
datos ligeramente no lineales, se muestran el conjunto de prueba MSE para regresión de mínimos
cuadrados (negro horizontal) y KNN con varios valores de 1 / K (verde). Abajo a la izquierda y abajo a la
derecha: como en el panel superior, pero con una relación fuertemente no lineal entre X e Y.
predictores que no están asociados con la respuesta. Cuando p = 1 o p = 2, KNN supera a la
regresión lineal. Pero para p = 3 los resultados son mixtos, y para p ≥ 4 la regresión lineal
es superior a KNN. De hecho, el aumento de dimensión solo ha provocado un pequeño
deterioro en el conjunto de pruebas de regresión lineal MSE, pero ha provocado un
aumento de más de diez veces en el MSE para KNN. Esta disminución en el rendimiento a
medida que aumenta la dimensión es un problema común para KNN, y resulta del hecho de
que en dimensiones superiores hay efectivamente una reducción en el tamaño de la
muestra. En este conjunto de datos hay 100 observaciones de entrenamiento; cuando p = 1,
esto proporciona suficiente información para estimar con precisión f (X). Sin embargo, la
distribución de 100 observaciones en p = 20 dimensiones da como resultado un fenómeno
en el que una observación dada no tiene vecinos cercanos; esta es la llamada maldición de
la dimensionalidad. Es decir, las K observaciones más cercanas a una observación de
prueba dada x 0 pueden estar muy lejos de x 0 en el espacio p-dimensional cuando p es
grande, lo que lleva a una
Pruebe MSE para la regresión lineal (líneas punteadas negras) y KNN (curvas verdes) a
medida que aumenta el número de variables p. La función verdadera es no lineal en la
primera variable, como en el panel inferior de la Figura 3.19, y no depende de las variables
adicionales. El rendimiento de la regresión lineal se deteriora lentamente en presencia de
estas variables de ruido adicionales, mientras que el rendimiento de KNN se degrada
mucho más rápidamente a medida que aumenta p. Predicción muy deficiente de f (x0) y,
por tanto, un ajuste KNN deficiente. Como regla general, los métodos paramétricos
tenderán a superar los enfoques no paramétricos cuando hay una pequeña cantidad de
observaciones por predictor.
Incluso en problemas en los que la dimensión es pequeña, podríamos preferir la regresión
lineal a KNN desde el punto de vista de la interpretabilidad. Si la prueba MSE de KNN es
solo ligeramente más baja que la de la regresión lineal, podríamos estar dispuestos a
renunciar a un poco de precisión de predicción en aras de un modelo simple que se puede
describir en términos de unos pocos coeficientes, y para el cual Los valores p están
disponibles.
3.6 Laboratorio: Regresión lineal
3.6.1 Bibliotecas
La función library () se usa para cargar bibliotecas o grupos de funciones y conjuntos de
datos que no están incluidos en la distribución R base. Las funciones básicas que realizan
regresión lineal por mínimos cuadrados y otros análisis simples vienen de serie con la
distribución base, pero las funciones más exóticas requieren bibliotecas adicionales. Aquí
cargamos el paquete MASS, que es una colección muy grande de conjuntos de datos y
funciones. También cargamos el paquete ISLR, que incluye los conjuntos de datos
asociados con este libro.
¿Para obtener más información sobre el conjunto de datos, podemos escribir? Boston.
Comenzaremos usando la función lm () para ajustar un modelo de regresión lineal simple,
con medv como respuesta y lstat como predictor. La sintaxis básica es lm (y∼x, datos),
donde y es la respuesta, x es el predictor y datos es el conjunto de datos en el que se
guardan estas dos variables.
El comando provoca un error porque R no sabe dónde encontrar las variables medv y lstat.
La siguiente línea le dice a R que las variables están en Boston. Si adjuntamos Boston, la
primera línea funciona bien porque R ahora reconoce las variables.
Podemos usar la función names () para averiguar qué otras piezas de información de names
() están almacenadas en lm.fit. Aunque podemos extraer estas cantidades por nombre, p. Ej.
lm.fit $ coefficients: es más seguro utilizar funciones de extracción como coef () para
acceder a ellas.
Para obtener un intervalo de confianza para las estimaciones de los coeficientes, podemos
usar el comando confint ().
Por ejemplo, el intervalo de confianza del 95% asociado con un valor de lstat de 10 es
(24,47, 25,63) y el intervalo de predicción del 95% es (12,828, 37,28). Como era de
esperar, los intervalos de confianza y predicción se centran en el mismo punto (un valor
previsto de 25,05 para medv cuando lstat es igual a 10), pero estos últimos son
sustancialmente más amplios.
Ahora trazaremos medv y lstat junto con la línea de regresión de mínimos cuadrados
usando las funciones plot () y abline ().
Sobre la base de las gráficas de residuos, existe alguna evidencia de no linealidad. Las
estadísticas de apalancamiento se pueden calcular para cualquier número de predictores
utilizando la función de valores de sombrero ().
¿Qué pasa si quisiéramos realizar una regresión usando todas las variables menos una? Por
ejemplo, en el resultado de la regresión anterior, la edad tiene un valor p alto. Por lo tanto,
es posible que deseemos ejecutar una regresión que excluya este predictor. La siguiente
sintaxis da como resultado una regresión que utiliza todos los predictores excepto la edad.
El valor p cercano a cero asociados con el término cuadrático sugiere que conduce a un
modelo mejorado. Usamos la función anova () para cuantificar aún más el grado en el que
el ajuste cuadrático es superior al ajuste lineal.
Aquí el Modelo 1 representa el submodelo lineal que contiene solo un predictor, lstat,
mientras que el Modelo 2 corresponde al modelo cuadrático más grande que tiene dos
predictores, lstat y lstat2. La función anova () realiza una prueba de hipótesis comparando
los dos modelos. La hipótesis nula es que los dos modelos se ajustan igualmente bien a los
datos, y la hipótesis alternativa es que el modelo completo es superior. Aquí el estadístico F
es 135 y el valor p asociado es virtualmente cero. Esto proporciona una evidencia muy clara
de que el modelo que contiene los predictores lstat y lstat2 es muy superior al modelo que
solo contiene el predictor lstat. Esto no es sorprendente, ya que antes vimos evidencia de no
linealidad en la relación entre medv e lstat. Si escribimos
luego vemos que cuando se incluye el término lstat2 en el modelo, hay un patrón poco
discernible en los residuos. Para crear un ajuste cúbico, podemos incluir un predictor de la
forma I (X ^ 3). Sin embargo, este enfoque puede empezar a resultar complicado para
polinomios de orden superior. Un mejor enfoque implica el uso de la función poly () poly ()
para crear el polinomio dentro de lm (). Por ejemplo, el siguiente comando produce un
ajuste polinomial de quinto orden:
Esto sugiere que la inclusión de términos polinomiales adicionales, hasta el quinto orden,
conduce a una mejora en el ajuste del modelo. Sin embargo, una mayor investigación de los
datos revela que ningún término polinomial más allá del quinto orden tiene valores p
significativos en un ajuste de regresión.
Por supuesto, de ninguna manera estamos restringidos al uso de transformaciones
polinomiales de los predictores. Aquí probamos una transformación logarítmica.
3.6.6 Predictores cualitativos
Ahora examinaremos los datos de Carseats, que son parte de la biblioteca ISLR.
Intentaremos predecir las ventas (ventas de asientos de seguridad para niños) en 400
ubicaciones en función de una serie de predictores. Dada una variable cualitativa como
Shelveloc, R genera variables ficticias automáticamente. A continuación, ajustamos un
modelo de regresión múltiple que incluye algunos términos de interacción.
La función contrasts () devuelve la codificación que R usa para las variables ficticias
contrasts ().
Utilice los contrastes? Para aprender sobre otros contrastes y cómo configurarlos. R ha
creado una variable ficticia ShelveLocGood que toma un valor de 1 si la ubicación de la
estantería es buena y 0 en caso contrario. También ha creado una variable ficticia
ShelveLocMedium que es igual a 1 si la ubicación de la estantería es media y 0 en caso
contrario. Una mala ubicación de las estanterías corresponde a un cero para cada una de las
dos variables ficticias. El hecho de que el coeficiente para ShelveLocGood en el resultado
de la regresión es positivo indica que una buena ubicación de estantería está asociada con
altas ventas (en relación con una mala ubicación). Y ShelveLocMedium tiene un
coeficiente positivo menor, lo que indica que una ubicación de estantería mediana genera
mayores ventas que una mala ubicación de estantería, pero ventas más bajas que una buena
ubicación de estantería.
3.6.7 Funciones de escritura
Como hemos visto, R viene con muchas funciones útiles y aún hay más funciones
disponibles a través de las bibliotecas de R. Sin embargo, a menudo nos interesará realizar
una operación para la que no hay ninguna función disponible. En esta configuración, es
posible que queramos escribir nuestra propia función. Por ejemplo, a continuación
proporcionamos una función simple que lee en las bibliotecas ISLR y MASS, llamada
LoadLibraries (). Antes de que hayamos creado la función, R devuelve un error si
intentamos llamarla.
Ahora creamos la función. Tenga en cuenta que los símbolos + están impresos por R y no
deben escribirse. El símbolo {informa a R que están a punto de introducirse varios
comandos. Presionar Enter después de escribir {hará que R imprima el símbolo +. Luego
podemos ingresar tantos comandos como queramos, presionando Enter después de cada
uno. Finalmente, el símbolo} informa a R que no se ingresarán más comandos.
5. Considere los valores ajustados que resultan de realizar una regresión lineal sin una
intersección. En esta configuración, el i-ésimo valor ajustado toma la forma
Donde
¿Qué es a i' ?
Nota: Interpretamos este resultado diciendo que los valores ajustados de la regresión
lineal son combinaciones lineales de los valores de respuesta.
Aplicaciones
a) Realice una regresión lineal simple de y sobre x, sin una intersección. Informe la
estimación del coeficiente ^β , el error estándar de esta estimación del coeficiente
y el estadístico t y el valor p asociados con la hipótesis nula H 0: β = 0. Comente
estos resultados. (Puede realizar una regresión sin una intersección con el
comando lm (y∼x + 0).)
b) Ahora realice una regresión lineal simple de x sobre y sin una intersección, e
informe la estimación del coeficiente, su error estándar y el estadístico t
correspondiente y los valores p asociados con la hipótesis nula H0: β = 0.
Comente sobre estos resultados.
c) ¿Cuál es la relación entre los resultados obtenidos en (a) y (b)?
d) Para la regresión de Y sobre X sin una intersección, el estadístico t para H 0: β =
0 toma la forma ^β /SE ( ^β ), donde ^β viene dado por (3.38), y donde
(Estas fórmulas son ligeramente diferentes de las dadas en las Secciones 3.1.1 y
3.1.2, ya que aquí estamos realizando una regresión sin una intersección.)
Muestre algebraicamente, y confirme numéricamente en R, que el estadístico t
se puede escribir como
e) Utilizando los resultados de (d), argumente que el estadístico t para la regresión
de y sobre x es el mismo que el estadístico t para la regresión de x sobre y.
f) En R, demuestre que cuando la regresión se realiza con una intersección, el
estadístico t para H 0: β 1 = 0 es el mismo para la regresión de y sobre x que para
la regresión de x sobre y.
12. Este problema implica una regresión lineal simple sin una intersección.
13. En este ejercicio, creará algunos datos simulados y le ajustará modelos de regresión
lineal simple. Asegúrese de usar set.seed (1) antes de comenzar la parte (a) para
garantizar resultados consistentes.
a) Con la función rnorm (), cree un vector, x, que contenga 100 observaciones
extraídas de una distribución N (0, 1). Esto representa una característica, X.
b) Con la función rnorm (), cree un vector, eps, que contenga 100
observaciones extraídas de una distribución N (0, 0,25), es decir, una
distribución normal con media cero y varianza 0,25.
c) Usando xy eps, genere un vector y de acuerdo con el modelo