Introducción Al Aprendizaje Estadístico Con Aplicaciones en R Cap3

Introducción al aprendizaje estadístico con aplicaciones en R
Gareth James, Daniela Witten,

Trevor Hastie, Robert Tibshirani
Capítulo 3. Regresión Lineal
Este capítulo trata sobre la regresión lineal, un enfoque muy simple para el aprendizaje
supervisado. En particular, la regresión lineal es una herramienta útil para predecir una
respuesta cuantitativa. La regresión lineal existe desde hace mucho tiempo y es el tema de
innumerables libros de texto. Aunque pueda parecer algo aburrido en comparación con
algunos de los enfoques de aprendizaje estadístico más modernos descritos en capítulos
posteriores de este libro, la regresión lineal sigue siendo un método de aprendizaje
estadístico útil y ampliamente utilizado. Además, sirve como un buen punto de partida para
enfoques más nuevos: como veremos en capítulos posteriores, muchos enfoques
sofisticados de aprendizaje estadístico pueden verse como generalizaciones o extensiones
de la regresión lineal. En consecuencia, no se puede subestimar la importancia de tener una
buena comprensión de la regresión lineal antes de estudiar métodos de aprendizaje más
complejos. En este capítulo, revisamos algunas de las ideas clave que subyacen al modelo
de regresión lineal, así como el enfoque de mínimos cuadrados que se usa con más
frecuencia para ajustar este modelo. Recuerde los datos de publicidad del capítulo 2. La
figura 2.1 muestra las ventas (en miles de unidades) de un producto en particular como una
función de los presupuestos publicitarios (en miles de dólares) para los medios de
televisión, radio y periódicos. Supongamos que en nuestro rol de consultores estadísticos se
nos pide que sugieramos, sobre la base de estos datos, un plan de marketing para el
próximo año que resultará en altas ventas de productos. ¿Qué información sería útil para
ofrecer tal recomendación? Aquí hay algunas preguntas importantes que podríamos tratar
de abordar:
1. ¿Existe una relación entre el presupuesto publicitario y las ventas? Nuestro primer
objetivo debería ser determinar si los datos proporcionan evidencia de una asociación entre
el gasto publicitario y las ventas. Si la evidencia es débil, entonces se podría argumentar
que no debería gastarse dinero en publicidad.
2. ¿Qué tan fuerte es la relación entre el presupuesto publicitario y las ventas? Asumiendo
que existe una relación entre publicidad y ventas, nos gustaría conocer la fuerza de esta
relación. En otras palabras, dado un cierto presupuesto publicitario, ¿podemos predecir las
ventas con un alto nivel de precisión? Esta sería una relación sólida. ¿O una predicción de
ventas basada en gastos publicitarios es solo un poco mejor que una suposición aleatoria?
Esta sería una relación débil.
3. ¿Qué medios contribuyen a las ventas? ¿Contribuyen los tres medios (televisión, radio y
periódicos) a las ventas, o sólo contribuyen uno o dos de los medios? Para responder a esta
pregunta, debemos encontrar una manera de separar los efectos individuales de cada medio
cuando hemos gastado dinero en los tres medios.
4. ¿Con qué precisión podemos estimar el efecto de cada medio en las ventas? Por cada
dólar gastado en publicidad en un medio en particular, ¿en qué cantidad aumentarán las
ventas? ¿Con qué precisión podemos predecir esta cantidad de aumento?
5. ¿Con qué precisión podemos predecir las ventas futuras? Para cualquier nivel dado de
publicidad en televisión, radio o periódicos, ¿cuál es nuestra predicción para las ventas y
cuál es la precisión de esta predicción?
6. ¿Es la relación lineal? Si existe aproximadamente una relación lineal entre el gasto
publicitario en los distintos medios y las ventas, la regresión lineal es una herramienta
adecuada. Si no es así, es posible que aún sea posible transformar el predictor o la respuesta
para poder utilizar la regresión lineal.
7. ¿Existe sinergia entre los medios publicitarios? Quizás gastar $ 50,000 en publicidad
televisiva y $ 50,000 en publicidad radial resulte en más ventas que asignar $ 100,000 a la
televisión o la radio individualmente. En marketing, esto se conoce como efecto de
sinergia, mientras que en estadística se llama efecto de interacción.
Resulta que la regresión lineal se puede utilizar para responder a cada una de estas
preguntas. Primero discutiremos todas estas preguntas en un contexto general, y luego
volveremos a ellas en este contexto específico en la Sección 3.4.
3.1. Regresión lineal simple

La regresión lineal simple hace honor a su nombre: es un enfoque lineal simple muy
sencillo para predecir una respuesta cuantitativa Y sobre la base de una única variable
predictora X. Se supone que hay aproximadamente una relación lineal entre X e Y.
Matemáticamente, podemos escribir esta relación lineal como
Puede leer “≈” como “aproximadamente se modela como”. A veces describiremos (3.1)
diciendo que estamos haciendo una regresión de Y sobre X (o Y sobre X). Por ejemplo, X
puede representar publicidad televisiva e Y puede representar ventas. Entonces podemos
hacer una regresión de las ventas a la televisión ajustando el modelo
En la ecuación 3.1, β 0 y β 1 son dos constantes desconocidas que representan los términos
de intersección y pendiente en el modelo lineal. Juntos, β 0 y β 1 son pendientes de
intersección conocidas como coeficientes o parámetros del modelo. Una vez que hayamos
utilizado nuestros datos de entrenamiento de parámetros de coeficientes para producir
estimaciones ^β 0 y ^β 1 para los coeficientes del modelo, podemos predecir las ventas futuras
sobre la base de un valor particular de publicidad televisiva calculando
donde ^y indica una predicción de Y sobre la base de X = x. Aquí usamos un símbolo de

sombrero, ˆ, para denotar el valor estimado de un parámetro o coeficiente desconocido, o
para denotar el valor predicho de la respuesta.
3.1.1 Estimación de coeficientes

En la práctica, se desconocen β 0 y β 1. Entonces, antes de que podamos usar (3.1) para hacer
predicciones, debemos usar datos para estimar los coeficientes. Dejar
representan n pares de observación, cada uno de los cuales consta de una medida de X y
una medida de Y. En el ejemplo de Publicidad, este conjunto de datos consta del
presupuesto de publicidad televisiva y las ventas de productos en n = 200 mercados
diferentes. (Recuerde que los datos se muestran en la Figura 2.1.) Nuestro objetivo es
obtener estimaciones de coeficientes ^β 0 y ^β 1 de manera que el modelo lineal (3.1) se ajuste
bien a los datos disponibles, es decir, de modo que y i= β^ 0+ ^β 1 x i para i=1, ..., n. En otras
palabras, queremos encontrar una intersección ^β 0 y una pendiente ^β 1 tal que la línea
resultante esté lo más cerca posible de los n = 200 puntos de datos. Hay varias formas de
medir la cercanía. Sin embargo, con mucho, el enfoque más común implica minimizar el
criterio de mínimos cuadrados, mínimos cuadrados y adoptamos ese enfoque en este
capítulo. Los enfoques alternativos se considerarán en el Capítulo 6.
Figura 3.1. Para los datos de Publicidad, se muestra el ajuste de mínimos cuadrados para la regresión de
las ventas a la televisión. El ajuste se encuentra minimizando la suma de errores al cuadrado. Cada
segmento de línea gris representa un error y el ajuste hace y el ajuste hace un compromiso al promediar
sus cuadrados. En este caso, un ajuste lineal captura la esencia de la relación, aunque es algo deficiente
en la parte izquierda de la trama.
Sea ^y i= β^ 0+ ^β 1 x i la predicción para Y basada en el i-ésimo valor de X. Entonces e i= y i− ^yi

representa el i-ésimo residuo; esta es la diferencia entre el i-ésimo valor de respuesta
observado y el i-ésimo valor de respuesta que predice nuestro modelo lineal. Definimos la
suma de cuadrados residual (RSS) como
o equivalentemente como
El enfoque de mínimos cuadrados elige ^β 0 y ^β 1 para minimizar la RSS. Usando un poco de

cálculo, se puede demostrar que los minimizadores son
n n
1
donde ý ´¿ ∑ y y x́ ¿´ 1n ∑ xi son las medias muestrales. En otras palabras, (3.4) define las
n i=1 i i=1
estimaciones del coeficiente de mínimos cuadrados para la regresión lineal simple. La
Figura 3.1 muestra el ajuste de regresión lineal simple a los datos de Publicidad, donde ^β 0=
7.03 y ^β 1= 0.0475. En otras palabras, de acuerdo con
Figura 3.2. Gráficos de contorno y tridimensionales del RSS sobre los datos de Publicidad, utilizando las
ventas como respuesta y la TV como predictor. Los puntos rojos corresponden a las estimaciones de
mínimos cuadrados ^ β 0 y ^β 1 , dadas por (3.4).
Según esta aproximación, $ 1,000 adicionales gastados en publicidad televisiva se asocian

con la venta de aproximadamente 47,5 unidades adicionales del producto. En la Figura 3.2,
hemos calculado RSS para varios valores de β 0 y β 1, utilizando los datos publicitarios con
las ventas como respuesta y la TV como predictor. En cada gráfico, el punto rojo representa
el par de estimaciones de mínimos cuadrados ( ^β 0, ^β 1) dadas por (3.4). Estos valores
minimizan claramente el RSS.
3.1.2 Evaluación de la precisión de las estimaciones de coeficientes Recuerde de (2.1) que
asumimos que la verdadera relación entre X e Y toma la forma Y = f (X) + ϵ para alguna
función desconocida f, donde es un error aleatorio de media cero término. Si f debe
aproximarse mediante una función lineal, entonces podemos escribir esta relación como
Aquí, β 0 es el término de intersección, es decir, el valor esperado de Y cuando X = 0, y β 1

es la pendiente, el aumento promedio en Y asociado con un aumento de una unidad en X.
El término de error es un comodín para lo que echamos de menos con este modelo simple:
la verdadera relación probablemente no sea lineal, puede haber otras variables que causen
variación en Y y puede haber un error de medición. Normalmente asumimos que el término
de error es independiente de X. El modelo dado por (3.5) define la línea de regresión de la
población, que es la mejor aproximación lineal a la verdadera relación entre X e Y. Las
estimaciones del coeficiente de regresión de mínimos cuadrados (3.4) caracterizan la línea
de mínimos cuadrados (3.2). El panel de la izquierda de la Figura 3.3 muestra estos
Figura 3.3. Un conjunto de datos simulados. Izquierda: la línea roja representa la relación verdadera, f (X)
= 2 + 3X, que se conoce como la línea de regresión de la población. La línea azul es la línea de mínimos
cuadrados; es la estimación de mínimos cuadrados para f (X) basada en los datos observados, que se
muestran en negro. Derecha: La línea de regresión de la población se muestra nuevamente en rojo y la
línea de mínimos cuadrados en azul oscuro. En azul claro, se muestran diez líneas de mínimos cuadrados,
cada una calculada sobre la base de un conjunto separado de observaciones aleatorias. Cada línea de
mínimos cuadrados es diferente, pero en promedio, las líneas de mínimos cuadrados están bastante cerca
de la línea de regresión de la población.
Dos líneas en un ejemplo simulado simple. Creamos 100 X aleatorias y generamos 100 Y
correspondientes del modelo
Donde ϵ se generó a partir de una distribución normal con media cero. La línea roja en el
panel de la izquierda de la Figura 3.3 muestra la relación verdadera, f (X) = 2 + 3X,
mientras que la línea azul es la estimación de mínimos cuadrados basada en los datos
observados. La verdadera relación generalmente no se conoce para datos reales, pero la
línea de mínimos cuadrados siempre se puede calcular usando las estimaciones de
coeficientes dadas en (3.4). En otras palabras, en aplicaciones reales, tenemos acceso a un
conjunto de observaciones a partir de las cuales podemos calcular la línea de mínimos
cuadrados; sin embargo, la línea de regresión de la población no se observa. En el panel de
la derecha de la Figura 3.3 hemos generado diez conjuntos de datos diferentes del modelo
dado por (3.6) y hemos trazado las diez líneas de mínimos cuadrados correspondientes.
Observe que diferentes conjuntos de datos generados a partir del mismo modelo verdadero
dan como resultado líneas de mínimos cuadrados ligeramente diferentes, pero la línea de
regresión de la población no observada no cambia.
A primera vista, la diferencia entre la línea de regresión de la población y la línea de
mínimos cuadrados puede parecer sutil y confusa. Solo tenemos un conjunto de datos,
entonces, ¿qué significa que dos líneas diferentes describen la relación entre el predictor y
la respuesta? Fundamentalmente, el concepto de estas dos líneas es una extensión natural
del enfoque estadístico estándar de usar información de una muestra para estimar las
características de una gran población. Por ejemplo, suponga que estamos interesados en
conocer la media poblacional μ de alguna variable aleatoria Y. Desafortunadamente, μ es
desconocido, pero tenemos acceso a n observaciones de Y, que podemos escribir como
y 1 ,. . . , y n , y que podemos usar para estimar μ. Una estimación razonable es ^μ= ý, donde
n
1
ý= ∑ y , es la media muestral. La media de la muestra y la media de la población son
n i=1 i
diferentes, pero en general la media de la muestra proporcionará una buena estimación de la
media de la población. De la misma manera, los coeficientes desconocidos β 0 y β 1 en la
regresión lineal definen la línea de regresión de la población. Buscamos estimar estos
coeficientes desconocidos usando ^β 0 y ^β 1 dados en (3.4). Estas estimaciones de
coeficientes definen la línea de mínimos cuadrados.
La analogía entre la regresión lineal y la estimación de la media de una variable aleatoria
es adecuada basada en el concepto de sesgo. Si utilizamos la media muestral de sesgo ^μ
para estimar μ, esta estimación es insesgada, en el sentido de que, en promedio, es
insesgada, esperamos que ^μ sea igual a μ. ¿Qué significa esto exactamente? Significa que
sobre la base de un conjunto particular de observaciones y 1 ,. . . , y n , podría sobreestimar μ,
y sobre la base de otro conjunto de observaciones, ^μ podría subestimar μ. Pero si
pudiéramos promediar un gran número de estimaciones de μ obtenidas de un gran número
de conjuntos de observaciones, entonces este promedio sería exactamente igual a μ. Por lo
tanto, un estimador insesgado no sobreestima ni subestima sistemáticamente el parámetro
verdadero. La propiedad del sesgo también se aplica a las estimaciones del coeficiente de
mínimos cuadrados dadas por (3.4): si estimamos β 0 y β 1, sobre la base de un conjunto de
datos en particular, nuestras estimaciones no serán exactamente iguales a β 0 y β 1. Pero si
pudiéramos promediar las estimaciones obtenidas sobre una gran cantidad de conjuntos de
datos, ¡entonces el promedio de estas estimaciones sería acertado! De hecho, podemos ver
en el panel de la derecha de la Figura 3.3 que el promedio de muchas líneas de mínimos
cuadrados, cada una estimada a partir de un conjunto de datos separado, está bastante cerca
de la línea de regresión de la población real.
Continuamos con la analogía con la estimación de la media poblacional μ de una variable
aleatoria Y. Una pregunta natural es la siguiente: ¿qué precisión tiene la media muestral ˆμ
como una estimación de μ? Hemos establecido que el promedio de ^μ sobre muchos
conjuntos de datos será muy cercano a μ, pero que una sola estimación de ^μ puede ser una
subestimación o sobreestimación sustancial de μ. ¿A qué distancia estará esa única
estimación de ^μ ? En general, respondemos a esta pregunta calculando el error estándar de
^μ, escrito como SE (^μ). Tenemos estándar la conocida fórmula
donde σ es la desviación estándar de cada una de las realizaciones y i de Y. En términos

generales, el error estándar nos dice la cantidad promedio en la que esta estimación ˆμ
difiere del valor real de μ. La ecuación 3.7 también nos dice cómo esta desviación se reduce
con n: cuantas más observaciones tengamos, menor será el error estándar de ^μ. De manera
similar, podemos preguntarnos qué tan cerca están y ^β 1 de los valores verdaderos β 0 y β 1.
Para calcular los errores estándar asociados con ^β 0 y ^β 1, usamos las siguientes fórmulas:
donde ❑2 = Var (ϵ). Para que estas fórmulas sean estrictamente válidas, debemos suponer
que los errores i para cada observación no están correlacionados con la varianza común ❑2.
Esto claramente no es cierto en la Figura 3.1, pero la fórmula aún resulta ser una buena
aproximación. Observe en la fórmula que SE ( ^β 1) es menor cuando las x i están más
dispersas; intuitivamente tenemos más apalancamiento para estimar una pendiente cuando
este es el caso. También vemos que SE ( ^β 0) sería lo mismo que SE (^μ) si x́ fuera cero (en
cuyo caso ^β 0 sería igual a ý). En general, ❑2 no se conoce, pero se puede estimar a partir de
los datos. Esta estimación se conoce como error estándar residual y viene dada por la
fórmula error estándar residual RSE= √ RSS/( n−2). Estrictamente hablando, cuando se
estima ❑2 a partir de los datos, debemos escribir SE ( ^β 1) para indicar que se ha realizado
una estimación, pero para simplificar la notación, eliminaremos este “sombrero” adicional.
Los errores estándar se pueden utilizar para calcular los intervalos de confianza. Un
intervalo de confianza de confianza del 95% se define como un rango de valores tal que,
con una probabilidad de intervalo del 95%, el rango contendrá el verdadero valor
desconocido del parámetro. El rango se define en términos de límites inferior y superior
calculados a partir de la muestra de datos. Para la regresión lineal, el intervalo de confianza
del 95% para β 1 toma aproximadamente la forma
Es decir, hay aproximadamente un 95% de probabilidad de que el intervalo
contendrá el verdadero valor de β 1. De manera similar, un intervalo de confianza para β 0

aproximadamente toma la forma
En el caso de los datos publicitarios, el intervalo de confianza del 95% para β 0 es [6.130,
7.935] y el intervalo de confianza del 95% para β 1 es [0.042, 0.053]. Por lo tanto, podemos
concluir que en ausencia de publicidad, las ventas caerán, en promedio, entre 6,130 y 7,940
unidades. Además, por cada aumento de $ 1,000 en publicidad televisiva, habrá un aumento
promedio en las ventas de entre 42 y 53 unidades. Los errores estándar también se pueden
utilizar para realizar pruebas de hipótesis sobre los coeficientes de hipótesis. La prueba de
hipótesis más común implica probar la hipótesis de prueba nula de
versus la hipótesis alternativa
Matemáticamente, esto corresponde a probar
Versus
ya que si β 1= 0 entonces el modelo (3.5) se reduce a Y = β 0+, y X no está asociado con Y.

Para probar la hipótesis nula, necesitamos determinar si ^β 1, nuestra estimación de β 1, está
lo suficientemente lejos de cero como para estar seguros de que β 1 no es cero. ¿Qué tan
lejos es lo suficientemente lejos? Por supuesto, esto depende de la precisión de ^β 1, es decir,
depende de SE ( ^β 1). Si SE ( ^β 1) es pequeño, incluso valores relativamente pequeños de ^β 1
pueden proporcionar una fuerte evidencia de que β 1 ≠ 0 y, por lo tanto, existe una relación
entre X e Y. Por el contrario, si SE ( ^β 1) es grande, entonces ^β 1 debe ser grande en valor
absoluto para que podamos rechazar la hipótesis nula. En la práctica, calculamos un
estadístico t, estadístico t dado por
que mide el número de desviaciones estándar en las que ^β 1 está alejado de 0. Si realmente
no hay relación entre X e Y, entonces esperamos que (3.14) tenga una distribución t con n -
2 grados de libertad. La distribución t tiene forma de campana y para valores de n
superiores a aproximadamente 30 es bastante similar a la distribución normal. En
consecuencia, es una cuestión sencilla calcular la probabilidad de observar cualquier valor
igual a | t | o mayor, asumiendo β 1 = 0. A esta probabilidad la llamamos valor p. Hablando
aproximadamente del valor p, interpretamos el valor p de la siguiente manera: un valor p
pequeño indica que es poco probable que se observe una asociación tan sustancial entre el
predictor y la respuesta debida al azar, en ausencia de una asociación real entre el valor de p
predictor y la respuesta. Por lo tanto, si vemos un valor p pequeño, entonces podemos
inferir que existe una asociación entre el predictor y la respuesta. Rechazamos la hipótesis
nula, es decir, declaramos que existe una relación entre X e Y, si el valor p es lo
suficientemente pequeño. Los límites típicos del valor p para rechazar la hipótesis nula son
5 o 1%. Cuando n = 30, estos corresponden a estadísticos t (3.14) de alrededor de 2 y 2.75,
respectivamente.
Tabla 3.1. Para los datos de Publicidad, coeficientes del modelo de mínimos cuadrados para la regresión
del número de unidades vendidas sobre el presupuesto de publicidad televisiva. Un aumento de $ 1,000 en
el presupuesto de publicidad en televisión está asociado con un aumento en las ventas de alrededor de 50
unidades (recuerde que la variable de ventas está en miles de unidades y la variable de televisión está en
miles de dólares).
La Tabla 3.1 proporciona detalles del modelo de mínimos cuadrados para la regresión del
número de unidades vendidas en el presupuesto de publicidad televisiva para los datos de
Publicidad. Observe que los coeficientes para ^β 0 y ^β 1, son muy grandes en relación con sus
errores estándar, por lo que los estadísticos t también son grandes; las probabilidades de ver
tales valores si H 0 es verdadera son virtualmente cero. Por tanto, podemos concluir que β 0
= 0 y β 1 = 0.4
|
3.1.3 Evaluación de la precisión del modelo
Una vez que hemos rechazado la hipótesis nula (3.12) a favor de la hipótesis alternativa
(3.13), es natural querer cuantificar la medida en que el modelo se ajusta a los datos. La
calidad de un ajuste de regresión lineal generalmente se evalúa utilizando dos cantidades
relacionadas: el error estándar residual (RSE) y el estadístico R2
La Tabla 3.2 muestra el RSE, el estadístico R2 y el estadístico F (que se describirá en la

Sección 3.2.2) para la regresión lineal del número de unidades vendidas en el presupuesto
de publicidad televisiva.
Error estándar residual

Recuerde del modelo (3.5) que asociado con cada observación hay un término de error.
Debido a la presencia de estos términos de error, incluso si conociéramos la línea de
regresión verdadera (es decir, incluso si se conocieran β 0 y β 1 no seríamos capaces de
predecir perfectamente Y a partir de X. La RSE es una estimación del estándar
Tabla 3.2. Para los datos de publicidad, más información sobre el modelo de mínimos cuadrados para la
regresión del número de unidades vendidas sobre el presupuesto de publicidad en televisión.
desviación de. En términos generales, es la cantidad promedio que la respuesta se desviará

de la línea de regresión verdadera. Se calcula usando la fórmula
Tenga en cuenta que RSS se definió en la Sección 3.1.1 y viene dado por la fórmula
En el caso de los datos publicitarios, vemos en el resultado de la regresión lineal en la Tabla

3.2 que el RSE es 3.26. En otras palabras, las ventas reales en cada mercado se desvían de
la línea de regresión real en aproximadamente 3260 unidades, en promedio. Otra forma de
pensar en esto es que incluso si el modelo fuera correcto y los verdaderos valores de los
coeficientes desconocidos β0 y β1 se conocieran con exactitud, cualquier predicción de
ventas basada en la publicidad televisiva todavía estaría desviada en unas 3260 unidades en
promedio. Por supuesto, si 3260 unidades es un error de predicción aceptable o no, depende
del contexto del problema. En el conjunto de datos publicitarios, el valor medio de las
ventas en todos los mercados es de aproximadamente 14.000 unidades, por lo que el error
porcentual es 3.260 / 14.000 = 23%.
El RSE se considera una medida de la falta de ajuste del modelo (3.5) a los datos. Si las
predicciones obtenidas con el modelo están muy cerca de los valores de resultado reales, es
y i ≈ y i para i = 1, ..., n, entonces (3.15) será pequeño y podemos concluir que el
decir, si ^
modelo se ajusta los datos muy bien. Por otro lado, si ˆyi está muy lejos de yi para una o
más observaciones, entonces la RSE puede ser bastante grande, lo que indica que el modelo
no se ajusta bien a los datos.
Estadística R2
El RSE proporciona una medida absoluta de la falta de ajuste del modelo (3.5) a los datos.
Pero dado que se mide en unidades de Y, no siempre está claro qué constituye un buen
RSE. La estadística R2 proporciona una medida alternativa de ajuste. Toma la forma de una
proporción, la proporción de varianza explicada, por lo que siempre toma un valor entre 0 y
1, y es independiente de la escala de Y.
Para calcular R2, usamos la fórmula
donde TSS = ∑ ( y i− ý )2 es la suma total de cuadrados, y RSS se define como suma total
de en (3.16). TSS mide la varianza total en la respuesta Y, y se pueden considerar
cuadrados como la cantidad de variabilidad inherente a la respuesta antes de que se realice
la regresión. Por el contrario, RSS mide la cantidad de variabilidad que queda sin explicar
después de realizar la regresión. Por lo tanto, TSS - RSS mide la cantidad de variabilidad en
la respuesta que se explica (o elimina) al realizar la regresión, y R2 mide la proporción de
variabilidad en Y que se puede explicar usando X. Un estadístico R2 cercano a 1 indica que
una gran proporción de la variabilidad en la respuesta se ha explicado por la regresión. Un
número cercano a 0 indica que la regresión no explicó gran parte de la variabilidad en la
respuesta; esto puede ocurrir porque el modelo lineal es incorrecto, o el error inherente ❑2
es alto, o ambos. En la tabla 3.2, el R2 fue 0,61, por lo que poco menos de dos tercios de la
variabilidad en las ventas se explica por una regresión lineal en la televisión.
El estadístico R2 (3.17) tiene una ventaja interpretativa sobre el RSE (3.15), ya que a
diferencia del RSE, siempre se encuentra entre 0 y 1. Sin embargo, aún puede ser un
desafío determinar cuál es un buen valor de R2 y, en general, esto dependerá de la
aplicación. Por ejemplo, en ciertos problemas de física, podemos saber que los datos
realmente provienen de un modelo lineal con un pequeño error residual. En este caso,
esperaríamos ver un valor de R2 extremadamente cercano a 1, y un valor de R2
sustancialmente más pequeño podría indicar un problema grave con el experimento en el
que se generaron los datos. Por otro lado, en aplicaciones típicas en biología, psicología,
marketing y otros dominios, el modelo lineal (3.5) es, en el mejor de los casos, una
aproximación extremadamente aproximada a los datos, y los errores residuales debidos a
otros factores no medidos suelen ser muy grandes. En este entorno, esperaríamos que el
predictor explique solo una pequeña proporción de la varianza en la respuesta, y un valor de
R2 muy por debajo de 0,1 podría ser más realista. El estadístico R2 es una medida de la
relación lineal entre X e Y. Recuerde que la correlación, definida como
también es una medida de la relación lineal entre X e Y. 5 Esto sugiere que podríamos usar
r = Cor (X, Y) en lugar de R2 para evaluar el ajuste del modelo lineal. De hecho, se puede
demostrar que, en la configuración de regresión lineal simple, R2 = r 2. En otras palabras, la
correlación al cuadrado y el estadístico R2 son idénticos. Sin embargo, en la siguiente
sección analizaremos el problema de regresión lineal múltiple, en el que usamos varios
predictores simultáneamente para predecir la respuesta. El concepto de correlación entre los
predictores y la respuesta no se extiende automáticamente a esta configuración, ya que la
correlación cuantifica la asociación entre un solo par de variables en lugar de entre un
mayor número de variables. Veremos que R2 cumple este rol.
3.2 Regresión lineal múltiple

La regresión lineal simple es un enfoque útil para predecir una respuesta sobre la base de
una única variable predictora. Sin embargo, en la práctica, a menudo tenemos más de un
predictor. Por ejemplo, en los datos de publicidad, hemos examinado la relación entre las
ventas y la publicidad en televisión. También tenemos datos sobre la cantidad de dinero
gastado en publicidad en la radio y en los periódicos, y es posible que deseemos saber si
alguno de estos dos medios está asociado con las ventas. ¿Cómo podemos ampliar nuestro
análisis de los datos publicitarios para acomodar estos dos predictores adicionales?
Una opción es ejecutar tres regresiones lineales simples separadas, cada una de las cuales
utiliza un medio publicitario diferente como predictor. Por ejemplo, podemos ajustar una
regresión lineal simple para predecir las ventas sobre la base de la cantidad gastada en
anuncios de radio. Los resultados se muestran en la Tabla 3.3 (tabla superior). Encontramos
que un aumento de $ 1,000 en el gasto en publicidad por radio está asociado con un
aumento en las ventas de alrededor de 203 unidades. La tabla 3.3 (tabla inferior) contiene
los coeficientes de mínimos cuadrados para una regresión lineal simple de las ventas sobre
el presupuesto de publicidad de los periódicos. Un aumento de $ 1,000 en el presupuesto de
publicidad de los periódicos está asociado con un aumento en las ventas de
aproximadamente 55 unidades.
Sin embargo, el enfoque de ajustar un modelo de regresión lineal simple separado para cada
predictor no es del todo satisfactorio. En primer lugar, no está claro cómo hacer una sola
predicción de ventas dados los niveles de los tres presupuestos de medios publicitarios, ya
que cada uno de los presupuestos está asociado con una ecuación de regresión separada. En
segundo lugar, cada una de las tres ecuaciones de regresión ignora los otros dos medios al
formar estimaciones para los coeficientes de regresión. En breve veremos que si los
presupuestos de los medios están correlacionados entre sí en los 200 mercados que
constituyen nuestro conjunto de datos, esto puede llevar a estimaciones muy engañosas de
los efectos de los medios individuales en las ventas.
En lugar de ajustar un modelo de regresión lineal simple separado para cada predictor, un
mejor enfoque es extender el modelo de regresión lineal simple (3.5) para que pueda
acomodar directamente múltiples predictores. Podemos hacer esto dando a cada predictor
un coeficiente de pendiente separado en un solo modelo. En general, suponga que tenemos
p predictores distintos. Entonces, el modelo de regresión lineal múltiple toma la forma
Tabla 3.3. Modelos de regresión lineal más simples para los datos publicitarios. Coeficientes del modelo
de regresión lineal simple para el número de unidades vendidas en Top: presupuesto de publicidad radial
y Bottom: presupuesto de publicidad en periódicos. Un aumento de $ 1,000 en el gasto en publicidad
radial se asocia con un aumento promedio en las ventas de alrededor de 203 unidades, mientras que el
mismo aumento en el gasto en publicidad en periódicos se asocia con un aumento promedio en las ventas
de alrededor de 55 unidades (Tenga en cuenta que la variable de ventas está en miles de unidades, y las
variables de radio y periódicos están en miles de dólares).
donde X j representa el j-ésimo predictor y β j cuantifica la asociación entre esa variable y la

respuesta. Interpretamos β j como el efecto promedio sobre Y de un aumento de una unidad
en X j, manteniendo fijos todos los demás predictores. En el ejemplo de la publicidad,
(3.19) se convierte en
3.2.1 Estimación de los coeficientes de regresión

Como fue el caso en la configuración de regresión lineal simple, los coeficientes de
regresión β 0 , β 1 , … , β p en (3.19) son desconocidos y deben estimarse. Dadas las
estimaciones ^β 0 , β^ 1 , … , β^ p podemos hacer predicciones usando la fórmula
Los parámetros se estiman utilizando el mismo enfoque de mínimos cuadrados que vimos
en el contexto de la regresión lineal simple. Elegimos β 0 , β 1 , … , β p para minimizar la suma
de los residuos al cuadrado
Figura 3.4. En un entorno tridimensional, con dos predictores y una respuesta, la línea de regresión de
mínimos cuadrados se convierte en un plano. El plano se elige para minimizar la suma de las distancias
verticales cuadradas entre cada observación (mostrada en rojo) y el plano.
Los valores ^β 0 , β^ 1 , … , β^ p que minimizan (3.22) son las estimaciones del coeficiente de
regresión de mínimos cuadrados múltiples. A diferencia de las estimaciones de regresión
lineal simple dadas en (3.4), las estimaciones de coeficientes de regresión múltiple tienen
formas algo complicadas que se representan más fácilmente usando álgebra matricial. Por
esta razón, no los proporcionamos aquí. Se puede utilizar cualquier paquete de software
estadístico para calcular estas estimaciones de coeficientes, y más adelante en este capítulo
mostraremos cómo se puede hacer esto en R. La figura 3.4 ilustra un ejemplo del ajuste de
mínimos cuadrados a un conjunto de datos de juguete con p = 2 predictores.
La Tabla 3.4 muestra las estimaciones del coeficiente de regresión múltiple cuando los
presupuestos de publicidad de televisión, radio y periódicos se utilizan para predecir las
ventas de productos utilizando los datos de publicidad. Interpretamos estos resultados de la
siguiente manera: para una cantidad determinada de publicidad en televisión y periódicos,
gastar $ 1,000 adicionales en publicidad por radio genera un aumento en las ventas de
aproximadamente 189 unidades. Al comparar estas estimaciones de coeficientes con las que
se muestran en las tablas 3.1 y 3.3, notamos que las estimaciones de coeficientes de
regresión múltiple para TV y radio son bastante similares a las estimaciones de coeficientes
de regresión lineal simple. Sin embargo, mientras que la estimación del coeficiente de
regresión de los periódicos en la tabla 3.3 fue significativamente diferente de cero, la
estimación del coeficiente de los periódicos en el modelo de regresión múltiple es cercana a
cero, y el valor p correspondiente ya no es significativo, con un valor alrededor de 0.86.
Esto ilustra
Tabla 3.4. Para los datos de publicidad, estimaciones de coeficientes de mínimos cuadrados de la
regresión lineal múltiple del número de unidades vendidas en los presupuestos de publicidad de radio,
televisión y periódicos.
que los coeficientes de regresión simple y múltiple pueden ser bastante diferentes. Esta
diferencia se debe al hecho de que en el caso de regresión simple, el término pendiente
representa el efecto promedio de un aumento de $ 1,000 en la publicidad en periódicos,
ignorando otros predictores como la televisión y la radio. En contraste, en la configuración
de regresión múltiple, el coeficiente para los periódicos representa el efecto promedio de
incrementar el gasto en periódicos en $ 1,000 mientras se mantiene fija la televisión y la
radio.
¿Tiene sentido que la regresión múltiple sugiera que no hay relación entre las ventas y el
periódico mientras que la regresión lineal simple implica lo contrario? De hecho lo hace.
Considere la matriz de correlación para las tres variables predictoras y la variable de
respuesta, que se muestran en la Tabla 3.5. Observe que la correlación entre la radio y el
periódico es de 0,35. Esto revela una tendencia a gastar más en publicidad en periódicos en
los mercados donde se gasta más en publicidad por radio. Ahora suponga que la regresión
múltiple es correcta y que la publicidad en los periódicos no tiene un impacto directo en las
ventas, pero la publicidad por radio sí aumenta las ventas. Entonces, en los mercados donde
gastamos más en radio, nuestras ventas tenderán a ser más altas y, como muestra nuestra
matriz de correlación, también tendemos a gastar más en publicidad en los periódicos en
esos mismos mercados. Por lo tanto, en una regresión lineal simple que solo examina las
ventas frente a los periódicos, observaremos que los valores más altos de los periódicos
tienden a asociarse con valores más altos de las ventas, aunque la publicidad en los
periódicos no afecta las ventas. De modo que las ventas de periódicos son un sustituto de la
publicidad radial; el periódico recibe "crédito" por el efecto de la radio en las ventas.
Este resultado ligeramente contradictorio es muy común en muchas situaciones de la vida
real. Considere un ejemplo absurdo para ilustrar el punto. Ejecutar una regresión de los
ataques de tiburones frente a las ventas de helados para los datos recopilados en una
comunidad de playa determinada durante un período de tiempo mostraría una relación
positiva, similar a la observada entre las ventas y el periódico. Por supuesto, nadie (todavía)
ha sugerido que los helados deberían prohibirse en las playas para reducir los ataques de
tiburones. En realidad, las temperaturas más altas hacen que más personas visiten la playa,
lo que a su vez se traduce en más ventas de helados y más ataques de tiburones. Una
regresión múltiple de los ataques frente a las ventas de helados y la temperatura revela que,
como implica la intuición, el anterior predictor ya no es significativo después de ajustar la
temperatura.
Tabla 3.5. Matriz de correlación para TV, radio, periódicos y ventas para los datos publicitarios
3.2.2 Algunas preguntas importantes

Cuando realizamos regresión lineal múltiple, generalmente estamos interesados en
responder algunas preguntas importantes.
1. ¿Al menos uno de los predictores X 1 , X 2 , … , X P es útil para predecir la respuesta?
2. ¿Todos los predictores ayudan a explicar Y, o sólo es útil un subconjunto de predictores?
3. ¿Qué tan bien se ajusta el modelo a los datos?
4. Dado un conjunto de valores predictores, ¿qué valor de respuesta deberíamos predecir y
qué tan precisa es nuestra predicción?
Ahora abordamos cada una de estas preguntas por turno.
Uno: ¿Existe una relación entre la respuesta y los predictores?

Recuerde que en la configuración de regresión lineal simple, para determinar si existe una
relación entre la respuesta y el predictor, simplemente podemos verificar si β 1=0. En la
configuración de regresión múltiple con p predictores, necesitamos preguntar si todos los
coeficientes de regresión son cero, es decir, si β 1=β 2=…=β P . Al igual que en la
configuración de regresión lineal simple, utilizamos una prueba de hipótesis para responder
a esta pregunta. Probamos la hipótesis nula,
versus la alternativa
Esta prueba de hipótesis se realiza calculando el estadístico F,
Tabla 3.6. Más información sobre el modelo de mínimos cuadrados para la regresión del número de
unidades vendidas en los presupuestos publicitarios de televisión, periódicos y radio en los datos de
Publicidad. Otra información sobre este modelo se muestra en la Tabla 3.4.
donde, como con la regresión lineal simple, TSS = ∑ ( y i− ý )2y RSS = ∑ ( y i− ^y )2. Si los
supuestos del modelo lineal son correctos, se puede demostrar que
y que, siempre que H 0 sea verdadera,
Por lo tanto, cuando no hay relación entre la respuesta y los predictores, uno esperaría que
el estadístico F tomara un valor cercano a 1. Por otro lado, si H a es verdadero, entonces
E{(TSS-RSS)/p}>❑2, por lo que esperamos que F sea mayor que 1.
El estadístico F para el modelo de regresión lineal múltiple obtenido mediante la regresión
de las ventas en radio, televisión y periódicos se muestra en la tabla 3.6. En este ejemplo, el
estadístico F es 570. Dado que es mucho mayor que 1, proporciona evidencia convincente
contra la hipótesis nula H 0. En otras palabras, la estadística F grande sugiere que al menos
uno de los medios publicitarios debe estar relacionado con las ventas. Sin embargo, ¿qué
pasaría si el estadístico F hubiera estado más cerca de 1? ¿Qué tan grande debe ser el
estadístico F antes de que podamos rechazar H 0 y concluir que existe una relación? Resulta
que la respuesta depende de los valores de ny p. Cuando n es grande, un estadístico F que
sea un poco mayor que 1 aún podría proporcionar evidencia en contra de H 0. Por el
contrario, se necesita un estadístico F más grande para rechazar H 0 si n es pequeño. Cuando
H 0 es verdadera y los errores i tienen una distribución normal, el estadístico F sigue una
distribución F.6 Para cualquier valor dado de nyp, se puede usar cualquier paquete de
software estadístico para calcular el valor p asociado con el F -estadístico usando esta
distribución. Con base en este valor p, podemos determinar si rechazar o no H 0. Para los
datos publicitarios, el valor p asociado con el estadístico F en la tabla 3.6 es esencialmente
cero, por lo que tenemos evidencia extremadamente fuerte de que al menos uno de los
medios está asociado con un aumento de las ventas.
En (3.23) estamos probando H 0 que todos los coeficientes son cero. A veces queremos
probar que un subconjunto particular de q de los coeficientes es cero. Esto corresponde a
una hipótesis nula
donde por conveniencia hemos puesto las variables elegidas por omisión al final de la lista.
En este caso ajustamos un segundo modelo que usa todas las variables excepto las últimas
q. Suponga que la suma de cuadrados residual para ese modelo es RSS0. Entonces el
estadístico F apropiado es
Observe que en la tabla 3.4, para cada predictor individual se reportaron un estadístico t y
un valor p. Estos proporcionan información sobre si cada predictor individual está
relacionado con la respuesta, después de ajustar por los otros predictores. Resulta que cada
uno de estos es exactamente equivalente a la prueba F que omite esa única variable del
modelo, dejando todas las demás en, es decir. q = 1 pulgada (3,24). Entonces informa el
efecto parcial de agregar esa variable al modelo. Por ejemplo, como discutimos
anteriormente, estos valores p indican que la televisión y la radio están relacionados con las
ventas, pero que no hay evidencia de que el periódico esté asociado con las ventas, en
presencia de estos dos.
Dados estos valores p individuales para cada variable, ¿por qué necesitamos mirar el
estadístico F general? Después de todo, parece probable que si alguno de los valores p para
las variables individuales es muy pequeño, entonces al menos uno de los predictores está
relacionado con la respuesta. Sin embargo, esta lógica es defectuosa, especialmente cuando
el número de predictores p es grande.
Por ejemplo, considere un ejemplo en el que p = 100 y H 0: β 1=β 2=… β P =0 es verdadero,
por lo que ninguna variable está realmente asociada con la respuesta. En esta situación,
alrededor del 5% de los valores p asociados con cada variable (del tipo que se muestra en la
Tabla 3.4) estarán por debajo de 0,05 por azar. En otras palabras, esperamos ver
aproximadamente cinco valores p pequeños incluso en ausencia de una verdadera
asociación entre los predictores y la respuesta. De hecho, ¡tenemos casi la garantía de que
observaremos al menos un valor p por debajo de 0,05 por casualidad! Por lo tanto, si
usamos los estadísticos t individuales y los valores p asociados para decidir si existe o no
alguna asociación entre las variables y la respuesta, existe una probabilidad muy alta de que
lleguemos a la conclusión incorrecta de que existe una relación. Sin embargo, el estadístico
F no sufre este problema porque se ajusta al número de predictores. Por lo tanto, si H 0 es
verdadera, solo hay un 5% de probabilidad de que el estadístico F dé como resultado un
valor p por debajo de 0.05, independientemente del número de predictores o el número de
observaciones.
El enfoque de usar un estadístico F para probar cualquier asociación entre los predictores y
la respuesta funciona cuando p es relativamente pequeño, y ciertamente pequeño en
comparación con n. Sin embargo, a veces tenemos una gran cantidad de variables. Si p> n,
entonces hay más coeficientes β j para estimar que observaciones a partir de las cuales
estimarlos. En este caso, ni siquiera podemos ajustar el modelo de regresión lineal múltiple
usando mínimos cuadrados, por lo que no se puede usar el estadístico F, y tampoco la
mayoría de los otros conceptos que hemos visto hasta ahora en este capítulo. Cuando p es
grande, se pueden usar algunos de los enfoques discutidos en la siguiente sección, como la
selección directa. Esta configuración de alta dimensión se analiza con mayor detalle en el
Capítulo 6.
Dos: Decidir sobre variables importantes

Como se discutió en la sección anterior, el primer paso en un análisis de regresión múltiple
es calcular el estadístico F y examinar el valor p asociado. Si concluimos sobre la base de
ese valor p que al menos uno de los predictores está relacionado con la respuesta, entonces
es natural preguntarse cuáles son los culpables. Podríamos mirar los valores p individuales
como en la tabla 3.4, pero como se discutió, si p es grande, es probable que hagamos
algunos descubrimientos falsos.
Es posible que todos los predictores estén asociados con la respuesta, pero es más frecuente
que la respuesta solo esté relacionada con un subconjunto de predictores. La tarea de
determinar qué predictores están asociados con la respuesta, con el fin de ajustar un solo
modelo que involucra solo a esos predictores, se denomina selección de variables. El
problema de la selección de variables se estudia ampliamente en el capítulo 6, por lo que
aquí proporcionaremos sólo una breve selección de algunos enfoques clásicos.
Idealmente, nos gustaría realizar la selección de variables probando muchos modelos
diferentes, cada uno con un subconjunto diferente de predictores. Por ejemplo, si p = 2,
entonces podemos considerar cuatro modelos: (1) un modelo que no contiene variables, (2)
un modelo que contiene solo X 1 , (3) un modelo que contiene solo X 2 y (4) un modelo que
contiene ambos X 1 y X 2 . Entonces podemos seleccionar el mejor modelo de todos los
modelos que hemos considerado. ¿Cómo determinamos qué modelo es mejor? Se pueden
utilizar varias estadísticas para juzgar la calidad de un modelo. Estos incluyen C p de
Mallow, Akaike informa- Criterio de información de Akaike C p de Mallow (AIC), Criterio
de información Bayesiano (BIC) y Criterio de información Akaike ajustado Criterio de
información Bayesiano R2. Estos se discuten con más detalle en el Capítulo 6. También
podemos determinar qué modelo de R2 ajustado es mejor trazando varios resultados del
modelo, como los residuos, para buscar patrones.
Desafortunadamente, hay un total de modelos 2 p que contienen subconjuntos de p
variables. Esto significa que incluso para p moderado, no es factible probar todos los
subconjuntos posibles de predictores. Por ejemplo, vimos que si p = 2, entonces hay 22 = 4
modelos a considerar. Pero si p = 30, ¡entonces debemos considerar 230 = 1,073,741,824
modelos! Esto no es práctico. Por lo tanto, a menos que p sea muy pequeño, no podemos
considerar todos los modelos 2 p y, en su lugar, necesitamos un enfoque automatizado y
eficiente para elegir un conjunto más pequeño de modelos a considerar. Hay tres enfoques
clásicos para esta tarea:
• Selección hacia adelante. Comenzamos con el modelo nulo, un modelo que contiene una
intersección, pero no predictores. Luego ajustamos p regresiones lineales simples y
agregamos al modelo nulo la variable que resulta en el RSS más bajo. Luego agregamos a
ese modelo la variable que da como resultado el RSS más bajo para el nuevo modelo de dos
variables. Este enfoque se continúa hasta que se cumpla alguna regla de detención.
• Selección hacia atrás. Comenzamos con todas las variables del modelo y eliminamos la
variable con el valor p más grande, es decir, la variable que es menos significativa
estadísticamente. Se ajusta el nuevo modelo de variable (p - 1) y se elimina la variable con
el valor p más grande. Este procedimiento continúa hasta que se alcanza una regla de
detención. Por ejemplo, podemos detenernos cuando todas las variables restantes tengan un
valor p por debajo de algún umbral.
• Selección mixta. Ésta es una combinación de selección hacia adelante y hacia atrás.
Comenzamos sin variables en el modelo y, al igual que con la selección hacia adelante,
agregamos la variable que proporciona el mejor ajuste. Continuamos agregando variables
una por una. Por supuesto, como notamos con el ejemplo de publicidad, los valores p de las
variables pueden aumentar a medida que
Se agregan nuevos predictores al modelo. Por lo tanto, si en algún momento el valor p de
una de las variables del modelo se eleva por encima de cierto umbral, eliminamos esa
variable del modelo. Continuamos realizando estos pasos hacia adelante y hacia atrás hasta
que todas las variables en el modelo tengan un valor p suficientemente bajo, y todas las
variables fuera del modelo tendrían un valor p grande si se agregan al modelo. La selección
hacia atrás no se puede usar si p> n, mientras que la selección hacia adelante siempre se
puede usar. La selección hacia adelante es un enfoque codicioso y puede incluir variables al
principio que luego se vuelven redundantes. La selección mixta puede remediar esto.
Tres: ajuste del modelo

Dos de las medidas numéricas más comunes de ajuste del modelo son el RSE y R2, la
fracción de varianza explicada. Estas cantidades se calculan e interpretan de la misma
manera que para la regresión lineal simple.
Recuerde que en la regresión simple, R2 es el cuadrado de la correlación de la respuesta y la
variable. En la regresión lineal múltiple, resulta que es igual a Cor (Y , Y^ )2, el cuadrado de
la correlación entre la respuesta y el modelo lineal ajustado; de hecho, una propiedad del
modelo lineal ajustado es que maximiza esta correlación entre todos los modelos lineales
posibles.
Un valor de R2 cercano a 1 indica que el modelo explica una gran parte de la varianza en la
variable de respuesta. Como ejemplo, vimos en la Tabla 3.6 que para los datos de
Publicidad, el modelo que usa los tres medios publicitarios para predecir las ventas tiene un
R2 de 0.8972. Por otro lado, el modelo que usa solo TV y radio para predecir las ventas
tiene un valor R2 de 0.89719. En otras palabras, hay un pequeño aumento en R2 si
incluimos la publicidad en periódicos en el modelo que ya contiene publicidad en televisión
y radio, aunque vimos anteriormente que el valor p para la publicidad en periódicos en la
Tabla 3.4 no es significativo. Resulta que R2 siempre aumentará cuando se agreguen más
variables al modelo, incluso si esas variables solo están débilmente asociadas con la
respuesta. Esto se debe al hecho de que agregar otra variable a las ecuaciones de mínimos
cuadrados deben permitirnos ajustar los datos de entrenamiento (aunque no necesariamente
los datos de prueba) con mayor precisión. Por lo tanto, la estadística R2, que también se
calcula sobre los datos de entrenamiento, debe aumentar. El hecho de que agregar
publicidad en periódicos al modelo que contiene solo publicidad en televisión y radio
conduce a un pequeño aumento en R2 proporciona evidencia adicional de que el periódico
puede eliminarse del modelo. Esencialmente, el periódico no proporciona una mejora real
en el ajuste del modelo a las muestras de entrenamiento, y su inclusión probablemente
conducirá a resultados deficientes en muestras de prueba independientes debido al
sobreajuste.
Por el contrario, el modelo que contiene solo TV como predictor tuvo un R2de 0,61 (Tabla
3.2). Agregar radio al modelo conduce a una mejora sustancial en R2. Esto implica que un
modelo que utiliza los gastos de televisión y radio para predecir las ventas es
sustancialmente mejor que uno que utiliza solo publicidad televisiva. Podríamos cuantificar
aún más esta mejora observando el valor p para el coeficiente de radio en un modelo que
contiene solo televisión y radio como predictores.
El modelo que contiene solo televisión y radio como predictores tiene un RSE de 1.681, y
el modelo que también contiene periódicos como predictor tiene un RSE de 1.686 (Tabla
3.6). En contraste, el modelo que contiene solo TV tiene un RSE de 3.26 (Tabla 3.2). Esto
corrobora nuestra conclusión anterior de que un modelo que utiliza los gastos de televisión
y radio para predecir las ventas es mucho más preciso (en los datos de formación) que uno
que solo utiliza los gastos de televisión. Además, dado que los gastos en televisión y radio
se utilizan como predictores, no tiene sentido utilizar también el gasto en periódicos como
predictor en el modelo. El lector atento puede preguntarse cómo puede aumentar el RSE
cuando se agrega el periódico al modelo, dado que el RSS debe disminuir. En general, RSE
se define como
que se simplifica a (3.15) para una regresión lineal simple. Por tanto, los modelos con más
variables pueden tener un RSE más alto si la disminución de RSS es pequeña en relación
con el aumento de p.
Además de observar las estadísticas RSE y R2que acabamos de comentar, puede resultar
útil trazar los datos. Los resúmenes gráficos pueden revelar problemas con un modelo que
no son visibles en las estadísticas numéricas. Por ejemplo, la Figura 3.5 muestra una gráfica
tridimensional de TV y radio versus ventas. Vemos que algunas observaciones se
encuentran por encima y otras por debajo del plano de regresión de mínimos cuadrados.
Observe que hay un patrón claro de residuos negativos, seguidos de residuos positivos,
seguidos de residuos negativos. En particular, el modelo lineal parece sobreestimar las
ventas para los casos en los que la mayor parte del dinero publicitario se gastó
exclusivamente en
Figura 3.5. Para los datos de publicidad, una regresión lineal se ajusta a las ventas utilizando la televisión
y la radio como predictores. A partir del patrón de los residuos, podemos ver que existe una relación no
lineal pronunciada en los datos.
TV o radio. Subestima las ventas en los casos en que el presupuesto se dividió entre los dos
medios. Este patrón no lineal pronunciado no se puede modelar con precisión mediante
regresión lineal. Sugiere una sinergia o efecto de interacción entre los medios publicitarios,
por lo que la combinación de los medios da como resultado un mayor impulso a las ventas
que el uso de un solo medio. En la Sección 3.3.2, discutiremos la extensión del modelo
lineal para acomodar tales efectos sinérgicos mediante el uso de términos de interacción.
Cuatro: predicciones
Una vez que hemos ajustado el modelo de regresión múltiple, es sencillo aplicar (3.21) para
predecir la respuesta Y sobre la base de un conjunto de valores para los predictores
X 0 , X 1 , … , X P Sin embargo, hay tres tipos de incertidumbre asociados con esta predicción.
1. Las estimaciones de los coeficientes ^β 0 , β^ 1 , … , β^ p son estimaciones de β 0 , β 1 , … , β P.

Es decir, el plano de mínimos cuadrados
es solo una estimación del plano de regresión de la población real
La inexactitud en las estimaciones de los coeficientes está relacionada con el error

reducible del Capítulo 2. Podemos calcular un intervalo de confianza para
determinar qué tan cerca estará Y^ de f (X).
2. Por supuesto, en la práctica, asumir un modelo lineal para f (X) es casi siempre una
aproximación de la realidad, por lo que existe una fuente adicional de error
potencialmente reducible que llamamos sesgo del modelo. Entonces, cuando
usamos un modelo lineal, de hecho estamos estimando la mejor aproximación lineal
a la superficie verdadera. Sin embargo, aquí ignoraremos esta discrepancia y
operaremos como si el modelo lineal fuera correcto.
3. Incluso si supiéramos f (X), es decir, incluso si supiéramos los valores verdaderos

de β 0 , β 1 , … , β P el valor de respuesta no se puede predecir perfectamente debido al
error aleatorio en el modelo (3.21) . En el Capítulo 2, nos referimos a esto como el
error irreducible. ¿Cuánto variará Y de Y^ ? Usamos intervalos de predicción para
responder a esta pregunta. Los intervalos de predicción son siempre más amplios
que los intervalos de confianza, porque incorporan tanto el error en la estimación de
f (X) (el error reducible) como la incertidumbre en cuanto a cuánto diferirá un punto
individual del plano de regresión de la población (el error irreducible).
Usamos un intervalo de confianza para cuantificar la incertidumbre que rodea a las ventas
promedio en un gran número de ciudades. Por ejemplo, dado que se gastan $ 100,000 en
publicidad televisiva y $ 20,000 en publicidad radial en cada ciudad, el intervalo de
confianza del 95% es [10,985, 11,528]. Interpretamos que esto significa que el 95% de los
intervalos de esta forma contendrán el valor verdadero de f (X). Por otro lado, se puede usar
un intervalo de predicción para cuantificar la incertidumbre que rodea a las ventas de una
ciudad en particular. Dado que se gastan $ 100,000 en publicidad televisiva y $ 20,000 en
publicidad radial en esa ciudad, el intervalo de predicción del 95% es [7,930, 14,580].
Interpretamos que esto significa que el 95% de los intervalos de esta forma contendrán el
valor real de Y para esta ciudad. Tenga en cuenta que ambos intervalos están centrados en
11,256, pero que el intervalo de predicción es sustancialmente más amplio que el intervalo
de confianza, lo que refleja la mayor incertidumbre sobre las ventas de una ciudad
determinada en comparación con las ventas promedio en muchas ubicaciones.
3.3 Otras consideraciones en el modelo de regresión

3.3.1 Predictores cualitativos
En nuestra discusión hasta ahora, hemos asumido que todas las variables en nuestro modelo
de regresión lineal son cuantitativas. Pero en la práctica, este no es necesariamente el caso;
a menudo, algunos predictores son cualitativos.
Por ejemplo, el conjunto de datos de crédito que se muestra en la Figura 3.6 registra el
saldo (deuda promedio de tarjetas de crédito para un número de individuos) así como varios
predictores cuantitativos: edad, tarjetas (número de tarjetas de crédito), educación (años de
educación), ingresos (en miles de dólares), límite (límite de crédito) y calificación
(calificación crediticia). Cada panel de la Figura 3.6 es un diagrama de dispersión para un
par de variables cuyas identidades están dadas por las etiquetas de fila y columna
correspondientes. Por ejemplo, el diagrama de dispersión directamente a la derecha de la
palabra "Equilibrio" representa el equilibrio frente a la edad, mientras que el diagrama
directamente a la derecha de "Edad" corresponde a la edad frente a las cartas. Además de
estas variables cuantitativas, también tenemos cuatro variables cualitativas: género,
estudiante (estado de estudiante), estado (estado civil) y etnia (caucásico, afroamericano o
asiático).
Figura 3.6. El conjunto de datos de crédito contiene información sobre el saldo, la edad, las tarjetas, la
educación, los ingresos, el límite y la calificación de varios clientes potenciales.
Tabla 3.7. Estimaciones del coeficiente de mínimos cuadrados asociadas con la regresión del equilibrio
sobre el género en el conjunto de datos de crédito. El modelo lineal se da en (3.27). Es decir, el género se
codifica como una variable ficticia, como en (3.26)
Predictores con solo dos niveles

Supongamos que deseamos investigar las diferencias en el saldo de las tarjetas de crédito
entre hombres y mujeres, ignorando por el momento las otras variables. Si un predictor
cualitativo (también conocido como factor) solo tiene dos niveles, o valores posibles,
entonces incorporarlo a un modelo de regresión es muy simple. Simplemente creamos un
indicador o variable ficticia que toma dos posibles valores numéricos. Por ejemplo,
basándonos en la variable de género, podemos crear una nueva variable que tome la forma
y utilice esta variable como predictor en la ecuación de regresión. Esto da como resultado el
modelo
Ahora, β 0 se puede interpretar como el saldo promedio de la tarjeta de crédito entre

hombres, β 0 + β 1 como el saldo promedio de la tarjeta de crédito entre las mujeres y β 1
como la diferencia promedio en el saldo de la tarjeta de crédito entre mujeres y hombres.
La Tabla 3.7 muestra las estimaciones de coeficientes y otra información asociada con el
modelo (3.27). La deuda de tarjeta de crédito promedio para los hombres se estima en
$509.80, mientras que se estima que las mujeres tienen $19.73 en deuda adicional por un
total de $509.80 + $19.73 = $529.53. Sin embargo, notamos que el valor p de la variable
ficticia es muy alto. Esto indica que no hay evidencia estadística de una diferencia en el
saldo promedio de las tarjetas de crédito entre los géneros.
La decisión de codificar mujeres como 1 y hombres como 0 en (3.27) es arbitraria y no
tiene ningún efecto sobre el ajuste de regresión, pero altera la interpretación de los
coeficientes. Si hubiéramos codificado a los hombres como 1 y a las mujeres como 0,
entonces las estimaciones para β 0 y β 1 habrían sido 529.53 y −19.73, respectivamente, lo
que condujo una vez más a una predicción de la deuda de tarjetas de crédito de $529.53 -
$19.73 = $509.80 para los hombres y una predicción de $ 529.53 para mujeres.
Alternativamente, en lugar de un esquema de codificación 0/1, podríamos crear una
variable ficticia
y use esta variable en la ecuación de regresión. Esto da como resultado el modelo
Ahora, β 0 se puede interpretar como el saldo promedio general de la tarjeta de crédito

(ignorando el efecto de género), y β 1 es la cantidad que las mujeres están por encima del
promedio y los hombres por debajo del promedio. En este ejemplo, la estimación de β0
sería $ 519.665, a medio camino entre los promedios masculinos y femeninos de $ 509.80 y
$ 529.53. La estimación de β1 sería $ 9,865, que es la mitad de $ 19,73, la diferencia
promedio entre mujeres y hombres. Es importante señalar que las predicciones finales para
los saldos acreedores de hombres y mujeres serán idénticas independientemente del
esquema de codificación utilizado. La única diferencia está en la forma en que se
interpretan los coeficientes.
Predictores cualitativos con más de dos niveles

Cuando un predictor cualitativo tiene más de dos niveles, una sola variable ficticia no
puede representar todos los valores posibles. En esta situación, podemos crear variables
ficticias adicionales. Por ejemplo, para la variable de etnia creamos dos variables ficticias.
El primero podría ser
Y el segundo podría ser
Luego, ambas variables se pueden usar en la ecuación de regresión, para obtener el modelo
Ahora β 0 puede interpretarse como el saldo promedio de la tarjeta de crédito para
afroamericanos, β 1 puede interpretarse como la diferencia en el saldo promedio entre las
categorías asiática y afroamericana, y β 2 puede interpretarse como la diferencia en el saldo
promedio entre caucásicos y afroamericanos.
Tabla 3.8. Estimaciones del coeficiente de mínimos cuadrados asociadas con la regresión del equilibrio
sobre la etnia en el conjunto de datos Credit. El modelo lineal se da en (3.30). Es decir, la etnicidad se
codifica a través de dos variables ficticias (3.28) y (3.29).
Categorías afroamericanas. Siempre habrá una variable ficticia menos que el número de
niveles. El nivel sin variable ficticia (afroamericano en este ejemplo) se conoce como línea
de base. En la Tabla 3.8, vemos que el saldo estimado para la línea de base, Afroamericano,
$531.00. Se estima que la categoría asiática tendrá $18,69 menos de deuda que la categoría
afroamericana, y que la categoría caucásica tendrá $12,50 menos deuda que la categoría
afroamericana. Sin embargo, los valores p asociados con las estimaciones de los
coeficientes para las dos variables ficticias son muy grandes, lo que sugiere que no hay
evidencia estadística de una diferencia real en el saldo de las tarjetas de crédito entre las
etnias. Una vez más, el nivel seleccionado como categoría de referencia es arbitrario y las
predicciones finales para cada grupo serán las mismas independientemente de esta elección.
Sin embargo, los coeficientes y sus valores p dependen de la elección de la codificación de
la variable ficticia. En lugar de confiar en los coeficientes individuales, podemos usar una
prueba F para probar H 0: β 1=β 2=0 ; esto no depende de la codificación.
Esta prueba F tiene un valor p de 0,96, lo que indica que no podemos rechazar la hipótesis
nula de que no existe una relación entre el equilibrio y la etnia.
El uso de este enfoque de variable ficticia no presenta dificultades al incorporar predictores
tanto cuantitativos como cualitativos. Por ejemplo, para hacer una regresión del saldo en
una variable cuantitativa como el ingreso y una variable cualitativa como el estudiante,
simplemente debemos crear una variable ficticia para el estudiante y luego ajustar un
modelo de regresión múltiple utilizando el ingreso y la variable ficticia como predictores
del saldo de la tarjeta de crédito.
Hay muchas formas diferentes de codificar variables cualitativas además del enfoque de
variable ficticia adoptado aquí. Todos estos enfoques conducen a ajustes de modelo
equivalentes, pero los coeficientes son diferentes y tienen diferentes interpretaciones, y
están diseñados para medir contrastes particulares. Este tema está más allá del alcance del
libro, por lo que no lo profundizaremos más.
3.3.2 Extensiones del modelo lineal

El modelo de regresión lineal estándar (3.19) proporciona resultados interpretables y
funciona bastante bien en muchos problemas del mundo real. Sin embargo, hace varios
supuestos muy restrictivos que a menudo se violan en la práctica. Dos de los supuestos más
importantes establecen que la relación entre los predictores y la respuesta es aditiva y
lineal. El supuesto aditivo significa que el efecto de los cambios en un predictor X j sobre la
respuesta Y es independiente de los valores de los otros predictores. El supuesto lineal
establece que el cambio en la respuesta Y debido a un cambio de una unidad en X j es
constante, independientemente del valor de X j. En este libro, examinamos varios métodos
sofisticados que relajan estos dos supuestos. Aquí, examinamos brevemente algunos
enfoques clásicos comunes para extender el modelo lineal.
Eliminación de la suposición aditiva

En nuestro análisis anterior de los datos de publicidad, llegamos a la conclusión de que
tanto la televisión como la radio parecen estar asociadas con las ventas. Los modelos
lineales que formaron la base para esta conclusión asumieron que el efecto sobre las ventas
de aumentar un medio publicitario es independiente de la cantidad gastada en los otros
medios. Por ejemplo, el modelo lineal (3.20) establece que el efecto promedio en las ventas
de un aumento de una unidad en TV es siempre β 1, independientemente de la cantidad
gastada en radio.
Sin embargo, este modelo simple puede ser incorrecto. Suponga que gastar dinero en
publicidad radial en realidad aumenta la efectividad de la publicidad televisiva, de modo
que el término pendiente para la televisión debería aumentar a medida que aumenta la
radio. En esta situación, dado un presupuesto fijo de $ 100.000, gastar la mitad en radio y la
otra mitad en televisión puede incrementar las ventas más que destinar la cantidad total a
televisión o radio. En marketing, esto se conoce como un efecto de sinergia, y en las
estadísticas se lo conoce como un efecto de interacción. La figura 3.5 sugiere que tal efecto
puede estar presente en los datos publicitarios. Observe que cuando los niveles de televisión
o radio son bajos, las ventas reales son más bajas que las predichas por el modelo lineal.
Pero cuando la publicidad se divide entre los dos medios, el modelo tiende a subestimar las
ventas. Considere el modelo de regresión lineal estándar con dos variables,
Según este modelo, si aumentamos X1 en una unidad, Y aumentará en un promedio de β 1
unidades. Observe que la presencia de X 2 no altera esta afirmación, es decir,
independientemente del valor de X 2 , un aumento de una unidad en X 1 conducirá a un
aumento de unidades β 1 en Y. Una forma de ampliar este modelo para permitir los efectos
de interacción es incluir un tercer predictor, llamado término de interacción, que se
construye calculando el producto de X 1 y X 2 . Esto da como resultado el modelo
¿Cómo la inclusión de este término de interacción relaja el supuesto aditivo? Observe que
(3.31) se puede reescribir como
Tabla 3.9. Para los datos de Publicidad, estimaciones de coeficientes de mínimos cuadrados asociados con
la regresión de las ventas en TV y radio, con un término de interacción, como en (3.33).
~ ~
donde β 1=β 1 + β 3 X 2. Dado que β 1 cambia con X 2 , el efecto de X 1 en Y ya no es constante:
ajustar X 2 cambiará el impacto de X 1 en Y. Por ejemplo, supongamos que estamos
interesados en estudiar la productividad de una fábrica. Deseamos predecir el número de
unidades producidas sobre la base del número de líneas de producción y el número total de
trabajadores. Parece probable que el efecto de aumentar el número de líneas de producción
dependa del número de trabajadores, ya que, si no hay trabajadores disponibles para operar
las líneas, aumentar el número de líneas no aumentará la producción. Esto sugiere que sería
apropiado incluir un término de interacción entre líneas y trabajadores en un modelo lineal
para predecir unidades. Supongamos que cuando ajustamos el modelo, obtenemos
En otras palabras, agregar una línea adicional aumentará el número de unidades producidas
por 3.4 + 1.4 × trabajadores. Por lo tanto, cuantos más trabajadores tengamos, más fuerte
será el efecto de las líneas. Volvamos ahora al ejemplo de publicidad. Un modelo lineal que
usa radio, televisión y una interacción entre los dos para predecir las ventas toma la forma
Podemos interpretar β3 como el aumento en la efectividad de la publicidad televisiva por
un aumento de una unidad en la publicidad radial (o viceversa). Los coeficientes que
resultan del ajuste del modelo (3.33) se dan en la Tabla 3.9.
Los resultados de la Tabla 3.9 sugieren fuertemente que el modelo que incluye el término
de interacción es superior al modelo que contiene solo el efecto principal. El valor p para el
término de interacción, TV × radio, es extremadamente bajo, lo que indica que hay una
fuerte evidencia de H a: β 3 = 0. En otras palabras, está claro que la verdadera relación no es
aditiva. El R2 para el modelo (3.33) es 96.8%, comparado con sólo 89.7% para el modelo
que predice las ventas usando TV y radio sin un término de interacción. Esto significa que
(96,8 - 89,7) / (100 −89,7) = 69% de la variabilidad en las ventas que queda después de
ajustar el modelo aditivo ha sido explicada por el término de interacción. El coeficiente
estimado de la Tabla 3.9 sugieren que un aumento en la publicidad televisiva de $ 1,000
está asociado con un aumento en las ventas de
( β^ 1 + ^β 3 × radio ) ×1,000=19+1.1× unidadesde radio. Y un aumento en la publicidad por
radio de $ 1,000 estará asociado con un aumento en las ventas de
( β^ 2 + ^β 3 × TV ) ×1,000=29+1.1× unidadesde TV .
En este ejemplo, los valores p asociados con la televisión, la radio y el término de
interacción son todos estadísticamente significativos (tabla 3.9), por lo que es obvio que las
tres variables deben incluirse en el modelo. Sin embargo, a veces ocurre que un término de
interacción tiene un valor p muy pequeño, pero los efectos principales asociados (en este
caso, televisión y radio) no lo tienen. El principio jerárquico establece que si incluimos una
interacción en un modelo, también debemos incluir los efectos principales, incluso si los p-
valores asociados con sus coeficientes no son significativos. En otras palabras, si la
interacción entre X 1 y X 2 parece importante, entonces deberíamos incluir tanto X 1 como X 2
en el modelo, incluso si sus estimaciones de coeficientes tienen valores p grandes. El
fundamento de este principio es que si X 1 × X 2 está relacionado con la respuesta, entonces
tiene poco interés si los coeficientes de X 1 o X 2 son exactamente cero o no. Además, X 1 ×
X 2 normalmente se correlaciona con X 1 y X 2 , por lo que dejarlos fuera tiende a alterar el
significado de la interacción.
En el ejemplo anterior, consideramos una interacción entre la televisión y la radio, las
cuales son variables cuantitativas. Sin embargo, el concepto de interacciones se aplica
igualmente a las variables cualitativas o a una combinación de variables cuantitativas y
cualitativas. De hecho, una interacción entre una variable cualitativa y una variable
cuantitativa tiene una interpretación particularmente agradable. Considere el conjunto de
datos de Crédito de la Sección 3.3.1 y suponga que deseamos predecir el saldo utilizando
las variables de ingresos (cuantitativas) y de estudiantes (cualitativas). En ausencia de un
término de interacción, el modelo toma la forma
Tenga en cuenta que esto equivale a ajustar dos líneas paralelas a los datos, una para
estudiantes y otra para no estudiantes. Las líneas para estudiantes y no estudiantes tienen
intersecciones diferentes, β 0 + β 2 versus β 0, pero la misma pendiente, β 1. Esto se ilustra en
el panel de la izquierda de la Figura 3.7. El hecho de que las líneas sean paralelas significa
que el efecto promedio sobre el equilibrio de un aumento de una unidad en el ingreso no
depende de si el individuo es un estudiante o no. Esto representa una limitación
potencialmente seria del modelo, ya que, de hecho, un cambio en los ingresos puede tener
un efecto muy diferente en el saldo de la tarjeta de crédito de un estudiante frente a un no
estudiante.
Esta limitación se puede abordar agregando una variable de interacción, creada al
multiplicar el ingreso con la variable ficticia para el estudiante. Nuestro
Figura 3.7. Para los datos de crédito, se muestran las líneas de mínimos cuadrados para la predicción del
saldo de los ingresos para estudiantes y no estudiantes. Izquierda: el modelo (3.34) estaba en forma. No
hay interacción entre los ingresos y el estudiante. Derecha: el modelo (3.35) estaba en forma. Existe un
término de interacción entre los ingresos y el estudiante.
modelo ahora se convierte en

Una vez más, tenemos dos líneas de regresión diferentes para los estudiantes y los no
estudiantes. Pero ahora esas líneas de regresión tienen diferentes intersecciones, β 0 + β 2
versus β 0, así como diferentes pendientes, β 1 + β 3 versus β 1. Esto permite la posibilidad de
que los cambios en los ingresos puedan afectar los saldos de las tarjetas de crédito de
estudiantes y no estudiantes de manera diferente. El panel de la derecha de la Figura 3.7
muestra las relaciones estimadas entre los ingresos y el equilibrio para estudiantes y no
estudiantes en el modelo (3.35). Observamos que la pendiente para los estudiantes es menor
que la pendiente para los no estudiantes. Esto sugiere que los aumentos en los ingresos
están asociados con aumentos más pequeños en el saldo de la tarjeta de crédito entre los
estudiantes en comparación con los no estudiantes.
Relaciones no lineales
Como se discutió anteriormente, el modelo de regresión lineal (3.19) supone una relación
lineal entre la respuesta y los predictores. Pero en algunos casos, la verdadera relación entre
la respuesta y los predictores puede no ser lineal. Aquí presentamos una forma muy simple
de extender directamente el modelo lineal para acomodar relaciones no lineales, usando
regresión polinomial. En los capítulos posteriores de polinomios, presentaremos enfoques
más complejos para realizar ajustes no lineales de regresión en entornos más generales.
Considere la Figura 3.8, en la que se muestra el mpg (kilometraje de gasolina en millas por
galón) versus caballos de fuerza para varios autos en el conjunto de datos Auto. Los
Figura 3.8. El conjunto de datos automático. Para varios autos, se muestran las millas por galón y los
caballos de fuerza. El ajuste de regresión lineal se muestra en naranja. El ajuste de regresión lineal para
un modelo que incluye caballos de fuerza2 se muestra Como una curva azul. El ajuste de regresión lineal
para un modelo que incluye todos los polinomios de caballos de fuerza hasta el quinto grado se muestra
en verde.
la línea naranja representa el ajuste de regresión lineal. Existe una relación pronunciada
entre mpg y caballos de fuerza, pero parece claro que esta relación es de hecho no lineal:
los datos sugieren una relación curva. Un enfoque simple para incorporar asociaciones no
lineales en un modelo lineal es incluir versiones transformadas de los predictores en el
modelo. Por ejemplo, los puntos de la figura 3.8 parecen tener una forma cuadrática, lo que
sugiere que un modelo de la forma
puede proporcionar un mejor ajuste. La ecuación 3.36 implica predecir mpg utilizando una
función no lineal de caballos de fuerza. ¡Pero sigue siendo un modelo lineal! Es decir,
(3.36) es simplemente un modelo de regresión lineal múltiple con X 1 = caballos de fuerza y
X 2 = caballos de fuerza2 . Entonces, podemos usar un software de regresión lineal estándar
para estimar β 0, β 1 y β 2 con el fin de producir un ajuste no lineal. La curva azul de la Figura
3.8 muestra el ajuste cuadrático resultante a los datos. El ajuste cuadrático parece ser
sustancialmente mejor que el ajuste obtenido cuando solo se incluye el término lineal. El R2
del ajuste cuadrático es 0.688, comparado con 0.606 para el ajuste lineal, y el valor p en la
tabla 3.10 para el término cuadrático es altamente significativo. Si incluir
caballos de fuerza2 condujo a una mejora tan grande en el modelo, ¿por qué no incluir
caballos de fuerza3 , caballos de fuerza 4o incluso caballos de fuerza5 ? La curva verde
Tabla 10. Para el conjunto de datos de Auto, estimaciones de coeficientes de mínimos cuadrados
asociados con la regresión de mpg en caballos de fuerza y caballos de fuerza2 .
en la Figura 3.8 muestra el ajuste que resulta de incluir todos los polinomios hasta el quinto
grado en el modelo (3.36). El ajuste resultante parece innecesariamente ondulado, es decir,
no está claro que incluir los términos adicionales realmente haya llevado a un mejor ajuste
a los datos. El enfoque que acabamos de describir para extender el modelo lineal para
acomodar relaciones no lineales se conoce como regresión polinomial, ya que hemos
incluido funciones polinomiales de los predictores en el modelo de regresión. Exploramos
más a fondo este enfoque y otras extensiones no lineales del modelo lineal en el Capítulo 7.
3.3.3 Problemas potenciales

Cuando ajustamos un modelo de regresión lineal a un conjunto de datos en particular,
pueden ocurrir muchos problemas. Los más comunes entre estos son los siguientes:
1. No linealidad de las relaciones respuesta-predictor.
2. Correlación de términos de error.
3. Varianza no constante de los términos de error.
4. Valores atípicos.
5. Puntos de alto apalancamiento.
6. Colinealidad.
En la práctica, identificar y superar estos problemas es tanto un arte como una ciencia. Se
han escrito muchas páginas en innumerables libros sobre este tema. Dado que el modelo de
regresión lineal no es nuestro enfoque principal aquí, proporcionaremos solo un breve
resumen de algunos puntos clave.
1. No linealidad de los datos
El modelo de regresión lineal asume que existe una relación lineal entre los
predictores y la respuesta. Si la verdadera relación está lejos de ser lineal, entonces
prácticamente todas las conclusiones que extraemos del ajuste son sospechosas.
Además, la precisión de la predicción del modelo se puede reducir
significativamente. Los gráficos de residuos son una herramienta gráfica útil para
identificar la no linealidad. parcela residual. Dado un modelo de regresión lineal
simple, podemos graficar los residuos, e i= y i− ^yi , frente al predictor x i. En el caso
de un modelo de regresión múltiple,
Figura 3.9. Gráficos de residuos versus valores predichos (o ajustados) para el conjunto de datos
automático. En cada gráfico, la línea roja se ajusta suavemente a los residuos, con la intención de facilitar
la identificación de una tendencia. Izquierda: una regresión lineal de mpg en caballos de fuerza. Un patrón
fuerte en los residuos indica no linealidad en los datos. Derecha: una regresión lineal de mpg en caballos
de fuerza y caballos de fuerza2. Hay poco patrón en los residuales.
dado que hay múltiples predictores, en su lugar graficamos los residuales versus los
valores predichos (o ajustados) ^y i Idealmente, la gráfica residual no mostrará un
patrón discernible ajustado. La presencia de un patrón puede indicar un problema
con algún aspecto del modelo lineal.
El panel izquierdo de la Figura 3.9 muestra un gráfico residual de la regresión lineal
de mpg a caballos de fuerza en el conjunto de datos Auto que se ilustró en la Figura
3.8. La línea roja se ajusta suavemente a los residuales, que se muestran para
facilitar la identificación de tendencias. Los residuos exhiben una clara forma de U,
lo que proporciona una fuerte indicación de no linealidad en los datos. En contraste,
el panel de la derecha de la Figura 3.9 muestra la gráfica residual que resulta del
modelo (3.36), que contiene un término cuadrático. Parece haber un pequeño patrón
en los residuos, lo que sugiere que el término cuadrático mejora el ajuste a los datos.
Si la gráfica residual indica que hay asociaciones no lineales en los datos, entonces
un enfoque simple es utilizar transformaciones no lineales de los predictores, como
log X , √ X y X 2 en el modelo de regresión. En los últimos capítulos de este libro,
analizaremos otros enfoques no lineales más avanzados para abordar este problema.
2. Correlación de términos de error
Un supuesto importante del modelo de regresión lineal es que los términos de error,
1, 2, ..., n, no están correlacionados. ¿Qué significa esto? Por ejemplo, si los errores
no están correlacionados, entonces el hecho de que i sea positivo proporciona poca
o ninguna información sobre el signo de i + 1. Los errores estándar que se calculan
para los coeficientes de regresión estimados o los valores ajustados se basan en el
supuesto de términos de error no correlacionados. Si de hecho existe una
correlación entre los términos de error, entonces los errores estándar estimados
tenderán a subestimar los errores estándar verdaderos. Como resultado, los
intervalos de confianza y predicción serán más estrechos de lo que deberían. Por
ejemplo, un intervalo de confianza del 95% puede tener en realidad una
probabilidad mucho menor que 0,95 de contener el valor real del parámetro.
Además, los valores p asociados con el modelo serán más bajos de lo que deberían
ser; esto podría llevarnos a concluir erróneamente que un parámetro es
estadísticamente significativo. En resumen, si los términos de error están
correlacionados, es posible que tengamos un sentido de confianza injustificado en
nuestro modelo.
Como ejemplo extremo, supongamos que duplicamos accidentalmente nuestros
datos, lo que lleva a observaciones y términos de error idénticos en pares. Si
ignoramos esto, nuestros cálculos de error estándar serían como si tuviéramos una
muestra de tamaño 2n, cuando en realidad solo tenemos n muestras. Nuestros
parámetros estimados serían los mismos para las 2n muestras que para las n
muestras, pero los intervalos de confianza serían más estrechos en un factor de √ 2!
¿Por qué pueden producirse correlaciones entre los términos de error? Estas
correlaciones ocurren con frecuencia en el contexto de datos de series de tiempo,
que consisten en servicios de series de tiempo para las cuales se obtienen
mediciones en puntos discretos en el tiempo. En muchos casos, las observaciones
que se obtienen en puntos de tiempo adyacentes tendrán errores correlacionados
positivamente. Para determinar si este es el caso para un conjunto de datos dado,
podemos graficar los residuos de nuestro modelo en función del tiempo. Si los
errores no están correlacionados, entonces no debería haber un patrón discernible.
Por otro lado, si los términos de error están correlacionados positivamente, es
posible que se observe un seguimiento en los residuos, es decir, los residuos
adyacentes pueden tener valores similares de seguimiento. La figura 3.10
proporciona una ilustración. En el panel superior, vemos los residuos de un ajuste
de regresión lineal a los datos generados con errores no correlacionados. No hay
evidencia de una tendencia relacionada con el tiempo en los residuos. En contraste,
los residuos en el panel inferior provienen de un conjunto de datos en el que los
errores adyacentes tenían una correlación de 0.9. Ahora hay un patrón claro en los
residuos: los residuos adyacentes tienden a adquirir valores similares. Finalmente, el
panel central ilustra un caso más moderado en el que los residuales tenían una
correlación de 0.5. Todavía hay evidencia de seguimiento, pero el patrón es menos
claro.
Se han desarrollado muchos métodos para tener debidamente en cuenta las
correlaciones en los términos de error en los datos de series de tiempo. La
correlación entre los términos de error también puede ocurrir fuera de los datos de
series de tiempo. Por ejemplo, considere un estudio en el que se predice la altura de
los individuos a partir de su peso. La suposición de errores no correlacionados
podría violarse si algunos de los individuos del estudio son miembros de la misma
familia, comen la misma dieta o han estado expuestos a los mismos factores
ambientales. En general, la suposición de errores no correlacionados es
extremadamente importante para la regresión lineal, así como para otros métodos
estadísticos, y un buen diseño experimental es crucial para mitigar el riesgo de tales
correlaciones.
Figura 3.10. Gráficos de residuos de conjuntos de datos de series de tiempo simulados generados con
diferentes niveles de correlación ρ entre términos de error para puntos de tiempo adyacentes.
3. Variación no constante de términos de error
Otro supuesto importante del modelo de regresión lineal es que los términos de
error tienen una varianza constante, Var (i) = ❑2. Los errores estándar, los
intervalos de confianza y las pruebas de hipótesis asociados con el modelo lineal se
basan en esta suposición.
Desafortunadamente, a menudo ocurre que las variaciones de los términos de error
no son constantes. Por ejemplo, las variaciones de los términos de error pueden
aumentar con el valor de la respuesta. Se pueden identificar varianzas no constantes
en los errores, o heterocedasticidad, a partir de la presencia de una forma de embudo
en la gráfica residual. Se muestra un ejemplo en el panel de la izquierda de la Figura
3.11, en el que la magnitud de los residuales tiende a aumentar con los valores
ajustados. Ante este problema, una posible solución es transformar la respuesta Y
utilizando una función cóncava como log Y o √ Y . Tal transformación da como
resultado una mayor cantidad de contracción de las respuestas más grandes, lo que
lleva a una reducción de la heterocedasticidad. El panel de la derecha de la Figura
3.11 muestra la gráfica residual después de transformar la respuesta
Figura 11. Parcelas residuales. En cada gráfico, la línea roja se ajusta suavemente a los residuos, con la
intención de facilitar la identificación de una tendencia. Las líneas azules siguen los cuantiles externos de
los residuos y enfatizan los patrones. Izquierda: la forma del embudo indica heterocedasticidad. Derecha:
el predictor ha sido transformado logarítmicamente y ahora no hay evidencia de heterocedasticidad.
utilizando log Y. Los residuos ahora parecen tener una varianza constante, aunque
hay alguna evidencia de una ligera relación no lineal en los datos.
A veces tenemos una buena idea de la variación de cada respuesta. Por ejemplo, la
iésima respuesta podría ser un promedio de ni observaciones crudas. Si cada una de
estas observaciones sin procesar no está correlacionada con la varianza ❑2, entonces
su promedio tiene varianza ❑2i =❑2 /ni. En este caso, un remedio simple es ajustar
nuestro modelo por mínimos cuadrados ponderados, con pesos proporcionales a las
varianzas inversas, es decir. w i=ni en este caso. La mayoría de los programas de
regresión lineal permiten pesos de observación.
4. Valores atípicos
Un valor atípico es un punto en el que y i está lejos del valor predicho por el modelo.
Los valores atípicos pueden surgir por diversas razones, como el registro incorrecto
de una observación durante la recopilación de datos.
El punto rojo (observación 20) en el panel de la izquierda de la Figura 3.12 ilustra
un valor atípico típico. La línea sólida roja es el ajuste de regresión de mínimos
cuadrados, mientras que la línea discontinua azul es el ajuste de mínimos cuadrados
después de eliminar el valor atípico. En este caso, eliminar el valor atípico tiene
poco efecto en la línea de mínimos cuadrados: casi no produce ningún cambio en la
pendiente y una reducción minúscula en la intersección. Es típico que un valor
atípico que no tiene un valor predictor inusual tenga poco efecto en el ajuste por
mínimos cuadrados. Sin embargo, incluso si un valor atípico no tiene mucho efecto
en el ajuste por mínimos cuadrados, puede causar otros problemas. Por ejemplo, en
este ejemplo, el RSE es 1.09 cuando se incluye el valor atípico en la regresión, pero
es solo 0.77 cuando se elimina el valor atípico. Dado que el RSE se utiliza para
calcular todos los intervalos de confianza y
Figura 12. Izquierda: La línea de regresión de mínimos cuadrados se muestra en rojo y la línea de
regresión después de eliminar el valor atípico se muestra en azul. Centro: el gráfico de residuos identifica
claramente el valor atípico. Derecha: El valor atípico Derecha: El valor atípico tiene un residuo
estudentizado de 6; normalmente esperamos valores entre −3 y 3.
Valores p, un aumento tan dramático causado por un solo punto de datos puede
tener implicaciones para la interpretación del ajuste. De manera similar, la inclusión
del valor atípico hace que R2 disminuya de 0,892 a 0,805.
Se pueden utilizar gráficos de residuos para identificar valores atípicos. En este
ejemplo, el valor atípico es claramente visible en el gráfico de residuos ilustrado en
el panel central de la Figura 3.12. Pero en la práctica, puede ser difícil decidir qué
tan grande debe ser un residuo antes de considerar el punto como un valor atípico.
Para abordar este problema, en lugar de graficar los residuos, podemos graficar los
residuales estudentizados, calculados dividiendo cada e i residual por su error
estándar estimado. Las observaciones cuyos residuales estudentizados son
superiores a 3 en valor absoluto son posibles valores atípicos. En el panel de la
derecha de la figura 3.12, el residuo estudentizado del valor atípico excede 6,
mientras que todas las demás observaciones tienen residuos estudentizados entre -2
y 2.Si creemos que se ha producido un valor atípico debido a un error en la
recopilación o el registro de datos, una solución es simplemente eliminar la
observación. Sin embargo, se debe tener cuidado, ya que un valor atípico puede
indicar una deficiencia en el modelo, como un predictor faltante.
5. Puntos de alto apalancamiento
Acabamos de ver que los valores atípicos son observaciones para las que la
respuesta y i es inusual dado el predictor x i. En contraste, las observaciones con alto
apalancamiento alto apalancamiento tienen un valor inusual para xi. Por ejemplo, la
observación 41 en el panel de la izquierda de la Figura 3.13 tiene un alto
apalancamiento, ya que el valor del predictor para esta observación es grande en
relación con las otras observaciones. (Tenga en cuenta que los datos que se
muestran en la Figura 3.13 son los mismos que los datos que se muestran en la
Figura 3.12, pero con la adición de una única observación de alto apalancamiento).
La línea sólida roja es el ajuste de mínimos cuadrados a los datos, mientras que la
línea discontinua azul es el ajuste producido cuando se elimina la observación 41.
Al comparar los paneles de la izquierda de las Figuras 3.12 y 3.13, observamos que
eliminar la observación de alto apalancamiento tiene un impacto mucho más
sustancial en la línea de mínimos cuadrados
Figura 13. Izquierda: Observación 41 es un alto punto de apalancamiento, mientras que 20 no lo es. La
línea roja es el ajuste a todos los datos y la línea azul es el ajuste con la observación 41 eliminada. Centro:
la observación roja no es inusual en términos de su valor x 1 o su valor x 2, pero aún queda fuera del
grueso de los datos y, por lo tanto, tiene un alto apalancamiento. Derecha: Observación 41 tiene un
apalancamiento alto y un residual alto.
que eliminar el valor atípico. De hecho, las observaciones de alto apalancamiento

tienden a tener un impacto considerable en la línea de regresión estimada. Es motivo
de preocupación si la línea de mínimos cuadrados se ve muy afectada por solo un
par de observaciones, porque cualquier problema con estos puntos puede invalidar
el ajuste completo. Por esta razón, es importante identificar las observaciones de
alto apalancamiento.
En una regresión lineal simple, las observaciones de alto apalancamiento son
bastante fáciles de identificar, ya que simplemente podemos buscar observaciones
para las que el valor del predictor está fuera del rango normal de las observaciones.
Pero en una regresión lineal múltiple con muchos predictores, es posible tener una
observación que esté dentro del rango de los valores de cada predictor individual,
pero que es inusual en términos del conjunto completo de predictores. Se muestra
un ejemplo en el panel central de la Figura 3.13, para un conjunto de datos con dos
predictores, X 1 y X 2 . La mayoría de los valores predictores de las observaciones se
encuentran dentro de la elipse de trazos azules, pero la observación roja está fuera
de este rango. Pero ni su valor para X 1 ni su valor para X 2 son inusuales. Entonces,
si examinamos solo X 1 o solo X 2 , no notaremos este alto punto de apalancamiento.
Este problema es más pronunciado en configuraciones de regresión múltiple con
más de dos predictores, porque entonces no hay una manera simple de trazar todas
las dimensiones de los datos simultáneamente.
Para cuantificar el apalancamiento de una observación, calculamos la estadística de
apalancamiento. Un gran valor de esta estadística indica una observación con alto
apalancamiento. Para una regresión lineal simple,
De esta ecuación se desprende claramente que hi aumenta con la distancia de x 1 a x́

. Existe una simple extensión de hi al caso de múltiples predictores, aunque aquí no
proporcionamos la fórmula. La estadística de apalancamiento hi está siempre entre
1/n y 1, y el apalancamiento promedio para todas las observaciones es siempre igual
a (p+1)/n. Entonces, si una observación dada tiene una estadística de
apalancamiento
Figura 3.14. Diagramas de dispersión de las observaciones del conjunto de datos Credit. Izquierda: una
gráfica de edad versus límite. Estas dos variables no son colineales. Derecha: una gráfica de calificación
versus límite. Existe una alta colinealidad.
que exceda en gran medida (p+1)/n, entonces podemos sospechar que el punto
correspondiente tiene un alto apalancamiento. El panel de la derecha de la Figura 3.13
proporciona una gráfica de los residuales estudentizados versus hi para los datos en el
panel de la izquierda de la Figura 3.13. La Observación 41 se destaca por tener una
estadística de apalancamiento muy alta, así como un residuo estudiantil alto. En otras
palabras, es un valor atípico y una observación de alto apalancamiento. ¡Esta es una
combinación particularmente peligrosa! Este gráfico también revela la razón por la que
la observación 20 tuvo un efecto relativamente pequeño sobre el ajuste por mínimos
cuadrados en la Figura 3.12: tiene un apalancamiento bajo.
6. Colinealidad
La colinealidad se refiere a la situación en la que dos o más variables predictoras
están estrechamente relacionadas entre sí. El concepto de colinealidad se ilustra en
la Figura 3.14 utilizando el conjunto de datos Credit. En el panel de la izquierda de
la Figura 3.14, los dos predictores límite y edad parecen no tener una relación obvia.
En contraste, en el panel de la derecha de la Figura 3.14, el límite y la calificación
de los predictores están altamente correlacionados entre sí, y decimos que son
colineales. La presencia de colinealidad puede plantear problemas en el contexto de
regresión, ya que puede resultar difícil separar los efectos individuales de las
variables colineales en la respuesta. En otras palabras, dado que el límite y la
calificación tienden a aumentar o disminuir juntos, puede ser difícil determinar
cómo se asocia cada uno por separado con la respuesta, el equilibrio.
La figura 3.15 ilustra algunas de las dificultades que pueden resultar de la
colinealidad. El panel de la izquierda de la Figura 3.15 es un gráfico de contorno del
RSS (3.22) asociado con diferentes estimaciones de coeficientes posibles para la
regresión del equilibrio en el límite y la edad. Cada elipse representa un conjunto de
coeficientes que corresponden al mismo RSS, con las elipses más cercanas al centro
que toman los valores más bajos de RSS. Los puntos negros y los puntos asociados
Figura 15. Gráficos de contorno para los valores de RSS en función de los parámetros β para varias
regresiones que involucran el conjunto de datos Credit. En cada gráfico, los puntos negros representan los
valores de los coeficientes correspondientes al RSS mínim Izquierda: una gráfica de contorno de RSS para
la regresión del equilibrio sobre la edad y el límite. El valor mínimo está bien definido. Derecha: un gráfico
de contorno de RSS para la regresión del equilibrio sobre la calificación y el límite. Debido a la
colinealidad, hay muchos pares (βLimit, βRating) con un valor similar para RSS.
las líneas representan las estimaciones de los coeficientes que dan como resultado el
RSS más pequeño posible; en otras palabras, estas son las estimaciones de mínimos
cuadrados. Los ejes para el límite y la edad se han escalado para que la gráfica
incluya posibles estimaciones de coeficientes que son hasta cuatro errores estándar a
cada lado de las estimaciones de mínimos cuadrados. Por tanto, el gráfico incluye
todos los valores plausibles de los coeficientes. Por ejemplo, vemos que el
verdadero coeficiente límite está casi con certeza entre 0,15 y 0,20.
En contraste, el panel de la derecha de la Figura 3.15 muestra gráficas de contorno
de la RSS asociadas con posibles estimaciones de coeficientes para la regresión del
equilibrio al límite y la calificación, que sabemos que son altamente colineales.
Ahora los contornos corren a lo largo de un estrecho valle; Existe una amplia gama
de valores para las estimaciones de coeficientes que dan como resultado valores
iguales para RSS. Por lo tanto, un pequeño cambio en los datos podría hacer que el
par de valores de coeficiente que produce el RSS más pequeño, es decir, las
estimaciones de mínimos cuadrados, se mueva en cualquier lugar a lo largo de este
valle. Esto da lugar a una gran incertidumbre en las estimaciones de los coeficientes.
Observe que la escala para el coeficiente límite ahora va desde aproximadamente
−0,2 a 0,2; esto es un aumento de ocho veces sobre el rango plausible del
coeficiente límite en la regresión con la edad. Curiosamente, a pesar de que los
coeficientes de límite y calificación ahora tienen mucha más incertidumbre
individual, es casi seguro que se encuentren en algún lugar de este valle de
contorno. Por ejemplo, no esperaríamos que el valor real de los coeficientes de
límite y calificación sea −0,1 y 1 respectivamente, aunque ese valor es plausible
para cada coeficiente individualmente.
Tabla 3.11. Se muestran los resultados de dos modelos de regresión múltiple que involucran el conjunto de
datos Credit. El modelo 1 es una regresión del equilibrio sobre la edad y el límite, y el modelo 2 una
regresión del equilibrio sobre la calificación y el límite. El error estándar de βˆlimit aumenta 12 veces en la
segunda regresión, debido a la colinealidad.
Dado que la colinealidad reduce la precisión de las estimaciones de los coeficientes

de regresión, hace que el error estándar de ^β j aumente. Recuerde que el estadístico t
para cada predictor se calcula dividiendo ^β j por su error estándar. En consecuencia,
la colinealidad da como resultado una disminución del estadístico t. Como
resultado, en presencia de colinealidad, es posible que no rechacemos H 0: β j = 0.
Esto significa que la potencia de la prueba de hipótesis (la probabilidad de detectar
correctamente un coeficiente distinto de cero) se reduce por la colinealidad.
El cuadro 3.11 compara las estimaciones de coeficientes obtenidas de dos modelos
de regresión múltiple separados. La primera es una regresión del equilibrio sobre la
edad y el límite, y la segunda es una regresión del equilibrio sobre la calificación y
el límite. En la primera regresión, tanto la edad como el límite son muy
significativos con valores de p muy pequeños. En el segundo, la colinealidad entre
el límite y la calificación ha provocado que el error estándar para la estimación del
coeficiente límite aumente en un factor de 12 y el valor p aumente a 0,701. En otras
palabras, la importancia de la variable límite se ha enmascarado debido a la
presencia de colinealidad. Para evitar tal situación, es deseable identificar y abordar
posibles problemas de colinealidad mientras se ajusta el modelo.
Una forma sencilla de detectar la colinealidad es observar la matriz de correlación
de los predictores. Un elemento de esta matriz que es grande en valor absoluto
indica un par de variables altamente correlacionadas y, por lo tanto, un problema de
colinealidad en los datos. Desafortunadamente, no todos los problemas de
colinealidad pueden detectarse mediante la inspección de la matriz de correlación:
es posible que exista colinealidad entre tres o más variables incluso si ningún par de
variables tiene una correlación particularmente alta. A esta situación la llamamos
multicolinealidad. En lugar de inspeccionar la matriz de correlación, una mejor
manera de evaluar la multicolinealidad es calcular el factor de inflación de la
varianza (VIF). El VIF es la razón de la varianza de ^β j cuando se ajusta el modelo
completo dividido por la varianza de ^β j si se ajusta por sí solo. El valor más
pequeño posible para VIF es 1, que indica la ausencia total de colinealidad.
Normalmente, en la práctica existe una pequeña cantidad de colinealidad entre los
predictores. Como regla general, un valor de VIF que exceda de 5 o 10 indica una
cantidad problemática de colinealidad. El VIF para cada variable se puede calcular
usando la fórmula
2
dondeR X ∨ X es el R2 de una regresión de X j a todos los demás predictores. Si
j −j
R2X ∨ X está cerca de uno, entonces la colinealidad está presente, por lo que el VIF
j −j
será grande.
En los datos de crédito, una regresión del equilibrio por edad, calificación y límite
indica que los predictores tienen valores de VIF de 1.01, 160.67 y 160.59. Como
sospechábamos, ¡existe una colinealidad considerable en los datos! Ante el
problema de la colinealidad, existen dos soluciones sencillas. El primero es eliminar
una de las variables problemáticas de la regresión. Esto generalmente se puede
hacer sin comprometer mucho el ajuste de regresión, ya que la presencia de
colinealidad implica que la información que esta variable proporciona sobre la
respuesta es redundante en presencia de las otras variables. Por ejemplo, si
regresamos el equilibrio a la edad y el límite, sin el predictor de calificación,
entonces los valores de VIF resultantes están cerca del valor mínimo posible de 1 y
el R2 cae de 0,754 a 0,75. Por lo tanto, eliminar la calificación del conjunto de
predictores ha resuelto de manera efectiva el problema de colinealidad sin
comprometer el ajuste. La segunda solución es combinar las variables colineales
juntas en un solo predictor. Por ejemplo, podríamos tomar el promedio de versiones
estandarizadas de límite y calificación para crear una nueva variable que mida la
solvencia crediticia.
3.4 El plan de marketing

Ahora volvemos brevemente a las siete preguntas sobre los datos publicitarios que nos
propusimos responder al comienzo de este capítulo.
1. ¿Existe una relación entre las ventas publicitarias y el presupuesto? Esta pregunta se
puede responder ajustando un modelo de regresión múltiple de ventas a televisión,
radio y periódicos, como en (3.20), y probando la hipótesis H 0:
β TV =β radio=β newspaper =0 . En la Sección 3.2.2, mostramos que el estadístico F se
puede usar para determinar si debemos rechazar o no esta hipótesis nula. En este
caso, el valor p correspondiente al estadístico F de la tabla 3.6 es muy bajo, lo que
indica una clara evidencia de una relación entre publicidad y ventas.
2. ¿Qué tan fuerte es la relación? Discutimos dos medidas de precisión del modelo en
la Sección 3.1.3. Primero, el RSE estima la desviación estándar de la respuesta de la
línea de regresión de la población. Para los datos de publicidad, el RSE es de 1.681
unidades, mientras que el valor medio de la respuesta es de 14.022, lo que indica un
porcentaje de error de aproximadamente el 12%. En segundo lugar, la estadística R2
registra el porcentaje de variabilidad en la respuesta que explican los predictores.
Los predictores explican casi el 90% de la variación en las ventas. Las estadísticas
RSE y R2 se muestran en la Tabla 3.6.
3. ¿Qué medios contribuyen a las ventas?

Para responder a esta pregunta, podemos examinar los valores p asociados con el
estadístico t de cada predictor (Sección 3.1.2). En la regresión lineal múltiple que se
muestra en la tabla 3.4, los valores p para televisión y radio son bajos, pero el valor
p para periódicos no lo es. Esto sugiere que solo la televisión y la radio están
relacionadas con las ventas. En el Capítulo 6 exploramos esta pregunta en
mayor detalle.
4. ¿Qué tan grande es el efecto de cada medio en las ventas?

En la sección 3.1.2 vimos que el error estándar de βˆj se puede usar para construir
intervalos de confianza para β J . Para los datos de Publicidad, los intervalos de
confianza del 95% son los siguientes: (0.043, 0.049) para TV, (0.172, 0.206) para
radio y (−0.013, 0.011) para periódicos. Los intervalos de confianza para la
televisión y la radio son estrechos y distantes de cero, lo que proporciona evidencia
de que estos medios están relacionados con las ventas. Pero el intervalo para
periódico incluye cero, lo que indica que la variable no es estadísticamente
significativa dados los valores de TV y radio.
Vimos en la Sección 3.3.3 que la colinealidad puede resultar en errores estándar
muy amplios. ¿Podría la colinealidad ser la razón por la que el intervalo de
confianza asociado con el periódico es tan amplio? Los puntajes VIF son 1.005,
1.145 y 1.145 para TV, radio y periódicos, lo que sugiere que no hay evidencia de
colinealidad. Para evaluar la asociación de cada medio individualmente con las
ventas, podemos realizar tres regresiones lineales simples separadas. Los resultados
se muestran en las Tablas 3.1 y 3.3. Existe evidencia de una asociación
extremadamente fuerte entre TV y ventas y entre radio y ventas. Existe evidencia de
una leve asociación entre los periódicos y las ventas, cuando se ignoran los valores
de la televisión y la radio.
5. ¿Con qué precisión podemos predecir las ventas futuras?

La respuesta se puede predecir usando (3.21). La precisión asociada con esta
estimación depende de si deseamos predecir una respuesta individual, Y = f (X) + ϵ,
o la respuesta promedio, f (X) (Sección 3.2.2). Si es el primero, usamos un intervalo
de predicción, y si es el segundo, usamos un intervalo de confianza. Los intervalos
de predicción siempre serán más amplios que los intervalos de confianza porque dan
cuenta de la incertidumbre asociada con el error irreductible.
6. ¿Es la relación lineal? En la Sección 3.3.3, vimos que las gráficas de residuos se
pueden usar para identificar la no linealidad. Si las relaciones son lineales, las
gráficas de residuos no deben mostrar ningún patrón. En el caso de los datos de
Publicidad, observamos un efecto no lineal en la Figura 3.5, aunque este efecto
también podría observarse en una gráfica residual. En la Sección 3.3.2, discutimos
la inclusión de transformaciones de los predictores en el modelo de regresión lineal
para acomodar relaciones no lineales.
7. ¿Existe sinergia entre los medios publicitarios?

El modelo de regresión lineal estándar supone una relación aditiva entre los
predictores y la respuesta. Un modelo aditivo es fácil de interpretar porque el efecto
de cada predictor en la respuesta no está relacionado con los valores de los otros
predictores. Sin embargo, la suposición aditiva puede ser poco realista para ciertos
conjuntos de datos. En la Sección 3.3.3, mostramos cómo incluir un término de
interacción en el modelo de regresión para acomodar relaciones no aditivas. Un
pequeño valor p asociado con el término de interacción indica la presencia de tales
relaciones. La figura 3.5 sugirió que los datos publicitarios pueden no ser aditivos.
La inclusión de un término de interacción en el modelo da como resultado un
aumento sustancial en R2, de alrededor del 90% a casi el 97%.
3.5 Comparación de regresión lineal con K vecinos más cercanos
Como se discutió en el Capítulo 2, la regresión lineal es un ejemplo de un enfoque
paramétrico porque asume una forma funcional lineal para f (X). Los métodos paramétricos
tienen varias ventajas. A menudo son fáciles de ajustar, porque solo es necesario estimar un
pequeño número de coeficientes. En el caso de la regresión lineal, los coeficientes tienen
interpretaciones simples y las pruebas de significación estadística se pueden realizar
fácilmente. Pero los métodos paramétricos tienen una desventaja: por construcción, hacen
supuestos sólidos sobre la forma de f (X). Si la forma funcional especificada está lejos de la
verdad y nuestro objetivo es la precisión de la predicción, entonces el método paramétrico
funcionará mal. Por ejemplo, si asumimos una relación lineal entre X e Y pero la verdadera
relación está lejos de ser lineal, entonces el modelo resultante proporcionará un ajuste
deficiente a los datos y cualquier conclusión que se extraiga de él será sospechosa.
Por el contrario, los métodos no paramétricos no asumen explícitamente una forma
paramétrica para f (X) y, por lo tanto, proporcionan un enfoque alternativo y más flexible
para realizar la regresión. Discutimos varios métodos no paramétricos en este libro. Aquí
consideramos uno de los métodos no paramétricos más simples y mejor conocidos, la
regresión de K vecinos más cercanos (regresión KNN).
Figura 3.16. Gráficos de f ˆ (X) usando regresión KNN en un conjunto de datos bidimensionales con 64
observaciones (puntos naranjas). Izquierda: K = 1 da como resultado un ajuste aproximado de la función
escalonada. Derecha: K = 9 produce un ajuste mucho más suave.
El método de regresión KNN está estrechamente relacionado con el clasificador KNN

discutido en el Capítulo 2. Dado un valor para K y un punto de predicción x 0, la regresión
KNN identifica primero las K observaciones de entrenamiento que están más cercanas a x 0,
representadas por N 0. Luego estima f ( x 0) usando el promedio de todas las respuestas de
entrenamiento en N 0. En otras palabras,
La figura 3.16 ilustra dos ajustes KNN en un conjunto de datos con p = 2 predictores. El
ajuste con K = 1 se muestra en el panel de la izquierda, mientras que el panel de la derecha
corresponde a K = 9. Vemos que cuando K = 1, el ajuste KNN interpola perfectamente las
observaciones de entrenamiento y, en consecuencia, toma la forma de una función de paso.
Cuando K = 9, el ajuste KNN sigue siendo una función escalonada, pero un promedio de
nueve observaciones da como resultado regiones mucho más pequeñas de predicción
constante y, en consecuencia, un ajuste más suave. En general, el valor óptimo de K
dependerá de la compensación sesgo-varianza, que presentamos en el capítulo 2. Un valor
pequeño de K proporciona el ajuste más flexible, que tendrá un sesgo bajo, pero una
varianza alta. Esta variación se debe al hecho de que la predicción en una región
determinada depende completamente de una sola observación. Por el contrario, valores más
altos de K proporcionan un ajuste más suave y menos variable; la predicción en una región
es un promedio de varios puntos, por lo que cambiar una observación tiene un efecto
menor. Sin embargo, el suavizado puede causar sesgo al enmascarar parte de la estructura
en f (X). En el Capítulo 5, presentamos varios enfoques para estimar las tasas de error de
prueba. Estos métodos se pueden utilizar para identificar el valor óptimo de K en la
regresión KNN.
¿En qué contexto un enfoque paramétrico como la regresión lineal de mínimos cuadrados
superará a un enfoque no paramétrico como la regresión KNN? La respuesta es simple: el
enfoque paramétrico superará al enfoque no paramétrico si la forma paramétrica que se ha
seleccionado está cerca de la forma verdadera de f. La figura 3.17 proporciona un ejemplo
con datos generados a partir de un modelo de regresión lineal unidimensional. Las líneas
negras continuas representan f (X), mientras que las curvas azules corresponden a los
ajustes KNN usando K = 1 y K = 9. En este caso, las predicciones de K = 1 son demasiado
variables, mientras que el ajuste más suave de K = 9 es mucho más cerca de f (X). Sin
embargo, dado que la verdadera relación es lineal, es difícil que un enfoque no paramétrico
compita con la regresión lineal: un enfoque no paramétrico incurre en un costo en la
varianza que no se compensa con una reducción del sesgo. La línea discontinua azul en el
panel de la izquierda de la Figura 3.18 representa el ajuste de regresión lineal a los mismos
datos. Es casi perfecto. El panel de la derecha de la Figura 3.18 revela que la regresión
lineal supera a KNN para estos datos. La línea verde continua, trazada como una función de
1 / K, representa el error cuadrático medio (MSE) del conjunto de prueba para KNN. Los
errores KNN están muy por encima de la línea discontinua negra, que es la prueba MSE
para la regresión lineal. Cuando el valor de K es grande, KNN realiza solo un poco peor
que la regresión de mínimos cuadrados en términos de MSE. Funciona mucho peor cuando
K es pequeño.
En la práctica, la verdadera relación entre X e Y rara vez es exactamente lineal. La Figura
3.19 examina los rendimientos relativos de la regresión de mínimos cuadrados y KNN bajo
niveles crecientes de no linealidad en la relación entre X e Y. En la fila superior, la
verdadera relación es casi lineal. En este caso vemos que la prueba MSE para regresión
lineal sigue siendo superior a la de KNN para valores bajos de K. Sin embargo, para K ≥ 4,
KNN supera a la regresión lineal. La segunda fila ilustra una desviación más sustancial de
la linealidad. En esta situación, KNN supera sustancialmente a la regresión lineal para
todos los valores de K.Nótese que a medida que aumenta el grado de no linealidad, hay
pocos cambios en el MSE del conjunto de prueba para el método KNN no paramétrico,
pero hay un gran aumento en el conjunto de prueba MSE de regresión lineal.
Las Figuras 3.18 y 3.19 muestran situaciones en las que KNN se comporta ligeramente peor
que la regresión lineal cuando la relación es lineal, pero mucho mejor que la regresión
lineal para situaciones no lineales. En una situación de la vida real en la que se desconoce la
verdadera relación, se podría llegar a la conclusión de que KNN debería favorecerse sobre
la regresión lineal porque, en el peor de los casos, será ligeramente inferior a la regresión
lineal si la verdadera relación es lineal y puede dar resultados sustancialmente mejores si la
verdadera relación no es lineal. Pero en realidad, incluso cuando la verdadera relación es
muy no lineal, KNN puede proporcionar resultados inferiores a la regresión lineal. En
particular, las Figuras 3.18 y 3.19 ilustran configuraciones con un predictor p = 1. Pero en
dimensiones superiores, KNN a menudo tiene un rendimiento peor que la regresión lineal.
La Figura 3.20 considera la misma situación fuertemente no lineal que en la segunda fila de
la Figura 3.19, excepto que hemos agregado ruido adicional
Figura 3.17. Gráficos de f ˆ (X) usando regresión KNN en un conjunto de datos unidimensionales con 100
observaciones. La verdadera relación viene dada por la línea negra sólida. Izquierda: La curva azul
corresponde a K = 1 e interpola (es decir, pasa directamente) Los datos de entrenamiento. Derecha: la
curva azul corresponde a K = 9 y representa un ajuste más suave.
Figura 3.18. El mismo conjunto de datos que se muestra en la Figura 3.17 se investiga más a fondo.
Izquierda: la línea discontinua azul es el ajuste de mínimos cuadrados a los datos. Dado que f (X) es de
hecho lineal (se muestra como la línea negra), la línea de regresión de mínimos cuadrados proporciona
una muy buena estimación de f (X). Derecha: La línea horizontal discontinua representa el MSE del
conjunto de prueba de mínimos cuadrados, mientras que la línea verde continua corresponde al MSE para
KNN en función de 1 / K (en la escala logarítmica). La regresión lineal logra un MSE de prueba más bajo
que la regresión KNN, ya que f (X) es de hecho lineal. Para la regresión KNN, los mejores resultados
ocurren con un valor muy grande de K, correspondiente a un valor pequeño de 1 / K.
Figura 19. Arriba a la izquierda: en un entorno con una relación ligeramente no lineal entre X e Y (línea
negra continua), se muestran los ajustes KNN con K = 1 (azul) y K = 9 (rojo). Arriba a la derecha: para los
datos ligeramente no lineales, se muestran el conjunto de prueba MSE para regresión de mínimos
cuadrados (negro horizontal) y KNN con varios valores de 1 / K (verde). Abajo a la izquierda y abajo a la
derecha: como en el panel superior, pero con una relación fuertemente no lineal entre X e Y.
predictores que no están asociados con la respuesta. Cuando p = 1 o p = 2, KNN supera a la
regresión lineal. Pero para p = 3 los resultados son mixtos, y para p ≥ 4 la regresión lineal
es superior a KNN. De hecho, el aumento de dimensión solo ha provocado un pequeño
deterioro en el conjunto de pruebas de regresión lineal MSE, pero ha provocado un
aumento de más de diez veces en el MSE para KNN. Esta disminución en el rendimiento a
medida que aumenta la dimensión es un problema común para KNN, y resulta del hecho de
que en dimensiones superiores hay efectivamente una reducción en el tamaño de la
muestra. En este conjunto de datos hay 100 observaciones de entrenamiento; cuando p = 1,
esto proporciona suficiente información para estimar con precisión f (X). Sin embargo, la
distribución de 100 observaciones en p = 20 dimensiones da como resultado un fenómeno
en el que una observación dada no tiene vecinos cercanos; esta es la llamada maldición de
la dimensionalidad. Es decir, las K observaciones más cercanas a una observación de
prueba dada x 0 pueden estar muy lejos de x 0 en el espacio p-dimensional cuando p es
grande, lo que lleva a una
Pruebe MSE para la regresión lineal (líneas punteadas negras) y KNN (curvas verdes) a
medida que aumenta el número de variables p. La función verdadera es no lineal en la
primera variable, como en el panel inferior de la Figura 3.19, y no depende de las variables
adicionales. El rendimiento de la regresión lineal se deteriora lentamente en presencia de
estas variables de ruido adicionales, mientras que el rendimiento de KNN se degrada
mucho más rápidamente a medida que aumenta p. Predicción muy deficiente de f (x0) y,
por tanto, un ajuste KNN deficiente. Como regla general, los métodos paramétricos
tenderán a superar los enfoques no paramétricos cuando hay una pequeña cantidad de
observaciones por predictor.
Incluso en problemas en los que la dimensión es pequeña, podríamos preferir la regresión
lineal a KNN desde el punto de vista de la interpretabilidad. Si la prueba MSE de KNN es
solo ligeramente más baja que la de la regresión lineal, podríamos estar dispuestos a
renunciar a un poco de precisión de predicción en aras de un modelo simple que se puede
describir en términos de unos pocos coeficientes, y para el cual Los valores p están
disponibles.
3.6 Laboratorio: Regresión lineal
3.6.1 Bibliotecas
La función library () se usa para cargar bibliotecas o grupos de funciones y conjuntos de
datos que no están incluidos en la distribución R base. Las funciones básicas que realizan
regresión lineal por mínimos cuadrados y otros análisis simples vienen de serie con la
distribución base, pero las funciones más exóticas requieren bibliotecas adicionales. Aquí
cargamos el paquete MASS, que es una colección muy grande de conjuntos de datos y
funciones. También cargamos el paquete ISLR, que incluye los conjuntos de datos
asociados con este libro.
Si recibe un mensaje de error al cargar cualquiera de estas bibliotecas, probablemente

indica que la biblioteca correspondiente aún no se ha instalado en su sistema. Algunas
bibliotecas, como MASS, vienen con R y no es necesario instalarlas por separado en su
computadora. Sin embargo, otros paquetes, como ISLR, deben descargarse la primera vez
que se utilizan. Esto se puede hacer directamente desde R. Por ejemplo, en un sistema
Windows, seleccione la opción Instalar paquete en la pestaña Paquetes. Después de
seleccionar cualquier sitio espejo, aparecerá una lista de paquetes disponibles. Simplemente
seleccione el paquete que desea instalar y R lo descargará automáticamente.
Alternativamente, esto se puede hacer en la línea de comandos de R a través de
install.packages ("ISLR"). Esta instalación solo debe realizarse la primera vez que utilice
un paquete. Sin embargo, la función library () debe llamarse cada vez que desee utilizar un
paquete determinado.
3.6.2 Regresión lineal simple
La biblioteca MASS contiene el conjunto de datos de Boston, que registra medv (valor
medio de la vivienda) para 506 vecindarios alrededor de Boston. Trataremos de predecir
medv utilizando 13 predictores como rm (número promedio de habitaciones por casa), edad
(edad promedio de las casas) e lstat (porcentaje de hogares con un nivel socioeconómico
bajo).
¿Para obtener más información sobre el conjunto de datos, podemos escribir? Boston.
Comenzaremos usando la función lm () para ajustar un modelo de regresión lineal simple,
con medv como respuesta y lstat como predictor. La sintaxis básica es lm (y∼x, datos),
donde y es la respuesta, x es el predictor y datos es el conjunto de datos en el que se
guardan estas dos variables.
El comando provoca un error porque R no sabe dónde encontrar las variables medv y lstat.
La siguiente línea le dice a R que las variables están en Boston. Si adjuntamos Boston, la
primera línea funciona bien porque R ahora reconoce las variables.
Si escribimos lm.fit, se genera información básica sobre el modelo. Para obtener

información más detallada, utilizamos el resumen (lm.fit). Esto nos da valores p y errores
estándar para los coeficientes, así como el estadístico R2 y el estadístico F para el modelo.
Podemos usar la función names () para averiguar qué otras piezas de información de names
() están almacenadas en lm.fit. Aunque podemos extraer estas cantidades por nombre, p. Ej.
lm.fit $ coefficients: es más seguro utilizar funciones de extracción como coef () para
acceder a ellas.
Para obtener un intervalo de confianza para las estimaciones de los coeficientes, podemos
usar el comando confint ().
La función predict () se puede utilizar para producir intervalos de confianza e intervalos de

predicción para la predicción de meds para un valor dado de fstat
Por ejemplo, el intervalo de confianza del 95% asociado con un valor de lstat de 10 es
(24,47, 25,63) y el intervalo de predicción del 95% es (12,828, 37,28). Como era de
esperar, los intervalos de confianza y predicción se centran en el mismo punto (un valor
previsto de 25,05 para medv cuando lstat es igual a 10), pero estos últimos son
sustancialmente más amplios.
Ahora trazaremos medv y lstat junto con la línea de regresión de mínimos cuadrados
usando las funciones plot () y abline ().
Existe alguna evidencia de no linealidad en la relación entre lstat y medv. Exploraremos

este problema más adelante en este laboratorio.
La función abline () se puede usar para dibujar cualquier línea, no solo la línea de regresión
de mínimos cuadrados. Para dibujar una línea con intersección a y pendiente b, escribimos
abline (a, b). A continuación, experimentamos con algunos ajustes adicionales para trazar
líneas y puntos. El comando lwd = 3 hace que el ancho de la línea de regresión aumente en
un factor de 3; esto también funciona para las funciones plot () y lines (). También podemos
usar la opción pch para crear diferentes símbolos de trazado.
A continuación, examinamos algunos gráficos de diagnóstico, varios de los cuales se

discutieron en la Sección 3.3.3. Se producen automáticamente cuatro gráficos de
diagnóstico aplicando la función plot () directamente a la salida de lm (). En general, este
comando producirá una gráfica a la vez, y presionar Enter generará la siguiente gráfica. Sin
embargo, a menudo es conveniente ver los cuatro gráficos juntos. Podemos lograr esto
usando la función par (), que le dice a R que divida la pantalla de visualización par () en
paneles separados para que se puedan ver múltiples gráficos simultáneamente. Por ejemplo,
par (mfrow = c (2,2)) divide la región de trazado en una cuadrícula de paneles de 2 × 2.
Alternativamente, podemos calcular los residuos de un ajuste de regresión lineal usando la

función residuals (). La función rstudent () devolverá los residuales () rstudent () residuos
estudentizados, y podemos usar esta función para graficar los residuales contra los valores
ajustados.
Sobre la base de las gráficas de residuos, existe alguna evidencia de no linealidad. Las
estadísticas de apalancamiento se pueden calcular para cualquier número de predictores
utilizando la función de valores de sombrero ().
La función which.max () identifica el índice del elemento más grande de un vector

which.max (). En este caso, nos dice qué observación tiene la estadística de apalancamiento
más grande.
3.6.3 Regresión lineal múltiple
Para ajustar un modelo de regresión lineal múltiple usando mínimos cuadrados, usamos
nuevamente la función lm (). La sintaxis lm (y∼x1 + x2 + x3) se usa para ajustar un modelo
con tres predictores, x1, x2 y x3. La función de resumen () ahora genera los coeficientes de
regresión para todos los predictores.
El conjunto de datos de Boston contiene 13 variables, por lo que sería engorroso tener que
escribir todas ellas para realizar una regresión utilizando todos los predictores. En su lugar,
podemos usar la siguiente abreviatura:
Podemos acceder a los componentes individuales de un objeto de resumen por nombre
(escriba? Summary.lm para ver qué hay disponible). Por tanto, el resumen (lm.fit) $ r.sq
nos da el R2, y el resumen (lm.fit) $ sigma nos da el RSE. La función vif () vif (), parte del
paquete del automóvil, se puede utilizar para calcular los factores de inflación de la
varianza. La mayoría de los VIF son de bajos a moderados para estos datos. El paquete del
automóvil no forma parte de la instalación de la base R, por lo que debe descargarse la
primera vez que lo use mediante la opción install.packages en R.
¿Qué pasa si quisiéramos realizar una regresión usando todas las variables menos una? Por
ejemplo, en el resultado de la regresión anterior, la edad tiene un valor p alto. Por lo tanto,
es posible que deseemos ejecutar una regresión que excluya este predictor. La siguiente
sintaxis da como resultado una regresión que utiliza todos los predictores excepto la edad.
Alternativamente, se puede utilizar la función update ().
3.6.4 Términos de interacción

Es fácil incluir términos de interacción en un modelo lineal usando la función lm (). La
sintaxis lstat: black le dice a R que incluya un término de interacción entre lstat y black. La
sintaxis lstat * age incluye simultáneamente lstat, age y el término de interacción lstat × age
como predictores; es una abreviatura de lstat + age + lstat: age.
3.6.5 Transformaciones no lineales de los predictores
La función lm () también puede acomodar transformaciones no lineales de los predictores.
Por ejemplo, dado un predictor X, podemos crear un predictor X2 usando I (X ^ 2). La
función I () es necesaria ya que ^ tiene un significado especial I () en una fórmula; el ajuste
como lo hacemos permite el uso estándar en R, que es elevar X a la potencia 2. Ahora
realizamos una regresión de medv sobre lstat y lstat2.
El valor p cercano a cero asociados con el término cuadrático sugiere que conduce a un
modelo mejorado. Usamos la función anova () para cuantificar aún más el grado en el que
el ajuste cuadrático es superior al ajuste lineal.
Aquí el Modelo 1 representa el submodelo lineal que contiene solo un predictor, lstat,
mientras que el Modelo 2 corresponde al modelo cuadrático más grande que tiene dos
predictores, lstat y lstat2. La función anova () realiza una prueba de hipótesis comparando
los dos modelos. La hipótesis nula es que los dos modelos se ajustan igualmente bien a los
datos, y la hipótesis alternativa es que el modelo completo es superior. Aquí el estadístico F
es 135 y el valor p asociado es virtualmente cero. Esto proporciona una evidencia muy clara
de que el modelo que contiene los predictores lstat y lstat2 es muy superior al modelo que
solo contiene el predictor lstat. Esto no es sorprendente, ya que antes vimos evidencia de no
linealidad en la relación entre medv e lstat. Si escribimos
luego vemos que cuando se incluye el término lstat2 en el modelo, hay un patrón poco
discernible en los residuos. Para crear un ajuste cúbico, podemos incluir un predictor de la
forma I (X ^ 3). Sin embargo, este enfoque puede empezar a resultar complicado para
polinomios de orden superior. Un mejor enfoque implica el uso de la función poly () poly ()
para crear el polinomio dentro de lm (). Por ejemplo, el siguiente comando produce un
ajuste polinomial de quinto orden:
Esto sugiere que la inclusión de términos polinomiales adicionales, hasta el quinto orden,
conduce a una mejora en el ajuste del modelo. Sin embargo, una mayor investigación de los
datos revela que ningún término polinomial más allá del quinto orden tiene valores p
significativos en un ajuste de regresión.
Por supuesto, de ninguna manera estamos restringidos al uso de transformaciones
polinomiales de los predictores. Aquí probamos una transformación logarítmica.
3.6.6 Predictores cualitativos
Ahora examinaremos los datos de Carseats, que son parte de la biblioteca ISLR.
Intentaremos predecir las ventas (ventas de asientos de seguridad para niños) en 400
ubicaciones en función de una serie de predictores. Dada una variable cualitativa como
Shelveloc, R genera variables ficticias automáticamente. A continuación, ajustamos un
modelo de regresión múltiple que incluye algunos términos de interacción.
La función contrasts () devuelve la codificación que R usa para las variables ficticias
contrasts ().
Utilice los contrastes? Para aprender sobre otros contrastes y cómo configurarlos. R ha
creado una variable ficticia ShelveLocGood que toma un valor de 1 si la ubicación de la
estantería es buena y 0 en caso contrario. También ha creado una variable ficticia
ShelveLocMedium que es igual a 1 si la ubicación de la estantería es media y 0 en caso
contrario. Una mala ubicación de las estanterías corresponde a un cero para cada una de las
dos variables ficticias. El hecho de que el coeficiente para ShelveLocGood en el resultado
de la regresión es positivo indica que una buena ubicación de estantería está asociada con
altas ventas (en relación con una mala ubicación). Y ShelveLocMedium tiene un
coeficiente positivo menor, lo que indica que una ubicación de estantería mediana genera
mayores ventas que una mala ubicación de estantería, pero ventas más bajas que una buena
ubicación de estantería.
3.6.7 Funciones de escritura
Como hemos visto, R viene con muchas funciones útiles y aún hay más funciones
disponibles a través de las bibliotecas de R. Sin embargo, a menudo nos interesará realizar
una operación para la que no hay ninguna función disponible. En esta configuración, es
posible que queramos escribir nuestra propia función. Por ejemplo, a continuación
proporcionamos una función simple que lee en las bibliotecas ISLR y MASS, llamada
LoadLibraries (). Antes de que hayamos creado la función, R devuelve un error si
intentamos llamarla.
Ahora creamos la función. Tenga en cuenta que los símbolos + están impresos por R y no
deben escribirse. El símbolo {informa a R que están a punto de introducirse varios
comandos. Presionar Enter después de escribir {hará que R imprima el símbolo +. Luego
podemos ingresar tantos comandos como queramos, presionando Enter después de cada
uno. Finalmente, el símbolo} informa a R que no se ingresarán más comandos.
Ahora, si escribimos Cargar bibliotecas, R nos dirá qué hay en la función.
Si llamamos a la función, las bibliotecas se cargan y se genera la declaración de impresión.

3.7 Ejercicios conceptuales
1. Describa las hipótesis nulas a las que corresponden los valores p dados en la tabla
3.4. Explique qué conclusiones puede sacar basándose en estos valores p. Su
explicación debe expresarse en términos de ventas, televisión, radio y periódicos,
más que en términos de los coeficientes del modelo lineal.
2. Explique cuidadosamente las diferencias entre el clasificador KNN y los métodos

de regresión KNN.
3. Suponga que tenemos un conjunto de datos con cinco predictores, X 1 = GPA, X 2 =

IQ, X 3 = Género (1 para Mujer y 0 para Hombre), X 4 = Interacción entre GPA y IQ,
y X 5 = Interacción entre GPA y Género. La respuesta es salario inicial después de la
graduación (en miles de dólares). Suponga que usamos mínimos cuadrados para
ajustar el modelo y obtenemos
^β 0=50 , ^β 1=20 , ^β2 =0.07 , ^β3 =35 , β^ 4 =0.01 , ^β5 =−10.
a) ¿Qué respuesta es correcta y por qué?
I. Por un valor fijo de CI y GPA, los hombres ganan más en promedio que
las mujeres.
II. Por un valor fijo de CI y GPA, las mujeres ganan más en promedio que
los hombres.
III. Para un valor fijo de CI y GPA, los hombres ganan más en promedio que
las mujeres siempre que el GPA sea lo suficientemente alto.
IV. Para un valor fijo de CI y GPA, las mujeres ganan más en promedio que
los hombres siempre que el GPA sea lo suficientemente alto.
b) Predecir el salario de una mujer con un CI de 110 y un GPA de 4.0.
c) Verdadero o falso: Dado que el coeficiente del término de interacción GPA /
IQ es muy pequeño, hay muy poca evidencia de un efecto de interacción.
Justifica tu respuesta.
4. Recopilo un conjunto de datos (n = 100 observaciones) que contienen un solo

predictor y una respuesta cuantitativa. Luego ajusté un modelo de regresión lineal a
los datos, así como una regresión cúbica separada, es decir,
Y = β0 + β 1 X + β 2 X 2+ β 3 X 3 +ϵ.
a) Suponga que la verdadera relación entre X e Y es lineal, es decir,
Y = β0 + β 1 X +ϵ . Considere la suma de cuadrados residual de entrenamiento
(RSS) para la regresión lineal, y también el RSS de entrenamiento para la
regresión cúbica. ¿Esperaríamos que uno fuera más bajo que el otro,
esperaríamos que fueran iguales o no hay suficiente información para
contar? Justifica tu respuesta.
b) Responda (a) usando prueba en lugar de entrenamiento RSS.
c) Suponga que la verdadera relación entre X e Y no es lineal, pero no sabemos
qué tan lejos está de lineal. Considere el RSS de entrenamiento para la
regresión lineal y también el RSS de entrenamiento para la regresión cúbica.
¿Esperaríamos que uno fuera más bajo que el otro, esperaríamos que fueran
iguales o no hay suficiente información para contar? Justifica tu respuesta.
d) d) Responda (c) usando prueba en lugar de entrenamiento RSS.
5. Considere los valores ajustados que resultan de realizar una regresión lineal sin una
intersección. En esta configuración, el i-ésimo valor ajustado toma la forma
Donde
Demuestra que podemos escribir
¿Qué es a i' ?
Nota: Interpretamos este resultado diciendo que los valores ajustados de la regresión
lineal son combinaciones lineales de los valores de respuesta.
6. Usando (3.4), argumente que en el caso de regresión lineal simple, la línea de

mínimos cuadrados siempre pasa por el punto (x́ , ý).
7. En el texto se afirma que en el caso de la regresión lineal simple de Y sobre X, el

estadístico R2 (3.17) es igual al cuadrado de la correlación entre X e Y (3.18).
Demuestre que este es el caso. Para simplificar, puede suponer que x́ = ý = 0.
Aplicaciones
8. Esta pregunta implica el uso de regresión lineal simple en el conjunto de datos

Auto.
a) Utilice la función lm () para realizar una regresión lineal simple con mpg como
respuesta y caballos de fuerza como predictor. Utilice la función de resumen ()
para imprimir los resultados. Comente sobre la salida. Por ejemplo:
I. ¿Existe una relación entre el predictor y la respuesta?
II. ¿Qué tan fuerte es la relación entre el predictor y la respuesta?
III. ¿La relación entre el predictor y la respuesta es positiva o negativa?
IV. ¿Cuál es el mpg previsto asociado con una potencia de 98? ¿Cuáles son
los intervalos de predicción y confianza del 95% asociados?
b) Grafique la respuesta y el predictor. Utilice la función abline () para mostrar la
línea de regresión de mínimos cuadrados.
c) Utilice la función plot () para producir gráficos de diagnóstico del ajuste de

regresión de mínimos cuadrados. Comente sobre cualquier problema que vea
con el ajuste.
9. Esta pregunta implica el uso de regresión lineal múltiple en el conjunto de datos

Auto.
a) Produzca una matriz de diagrama de dispersión que incluya todas las variables
en el conjunto de datos.
b) Calcule la matriz de correlaciones entre las variables usando la función cor ().
Deberá excluir la variable de nombre, cor (), que es cualitativa.
c) Utilice la función lm () para realizar una regresión lineal múltiple con mpg como
respuesta y todas las demás variables excepto el nombre como predictores.
Utilice la función de resumen () para imprimir los resultados.
Comente sobre la salida. Por ejemplo:
I. ¿Existe una relación entre los predictores y la respuesta?
II. ¿Qué predictores parecen tener una relación estadísticamente significativa
con la respuesta?
III. ¿Qué sugiere el coeficiente de la variable año?
d) Utilice la función plot () para producir gráficos de diagnóstico del ajuste de
regresión lineal. Comente sobre cualquier problema que vea con el ajuste.
¿Sugieren las gráficas de residuos algún valor atípico inusualmente grande? ¿El
gráfico de apalancamiento identifica observaciones con apalancamiento
inusualmente alto?
e) Utilice los símbolos * y: para ajustar modelos de regresión lineal con efectos de
interacción. ¿Alguna interacción parece ser estadísticamente significativa?
f) Pruebe algunas transformaciones diferentes de las variables, como log (X), √ X ,
X 2 . Comente sus hallazgos.
10. Esta pregunta debe responderse utilizando el conjunto de datos de Asientos para
automóvil.
a) Ajuste un modelo de regresión múltiple para predecir las ventas usando Price,
Urban y US.
b) Proporcione una interpretación de cada coeficiente en el modelo. Tenga
cuidado, ¡algunas de las variables del modelo son cualitativas!
c) Escriba el modelo en forma de ecuación, teniendo cuidado de manejar
adecuadamente las variables cualitativas.
d) ¿Para cuál de los predictores puede rechazar la hipótesis nula H 0: β j = 0?
e) Sobre la base de su respuesta a la pregunta anterior, ajuste un modelo más
pequeño que solo use los predictores para los que hay evidencia de asociación
con el resultado.
f) ¿Qué tan bien se ajustan los modelos en (a) y (e) a los datos?
g) Con el modelo de (e), obtenga intervalos de confianza del 95% para los
coeficientes.
h) ¿Existe evidencia de valores atípicos u observaciones de alto apalancamiento en
el modelo de (e)?
11. En este problema, investigaremos el estadístico t para la hipótesis nula H 0: β = 0 en

regresión lineal simple sin intersección. Para comenzar, generamos un predictor xy
una respuesta y de la siguiente manera.
a) Realice una regresión lineal simple de y sobre x, sin una intersección. Informe la
estimación del coeficiente ^β , el error estándar de esta estimación del coeficiente
y el estadístico t y el valor p asociados con la hipótesis nula H 0: β = 0. Comente
estos resultados. (Puede realizar una regresión sin una intersección con el
comando lm (y∼x + 0).)
b) Ahora realice una regresión lineal simple de x sobre y sin una intersección, e
informe la estimación del coeficiente, su error estándar y el estadístico t
correspondiente y los valores p asociados con la hipótesis nula H0: β = 0.
Comente sobre estos resultados.
c) ¿Cuál es la relación entre los resultados obtenidos en (a) y (b)?
d) Para la regresión de Y sobre X sin una intersección, el estadístico t para H 0: β =
0 toma la forma ^β /SE ( ^β ), donde ^β viene dado por (3.38), y donde
(Estas fórmulas son ligeramente diferentes de las dadas en las Secciones 3.1.1 y
3.1.2, ya que aquí estamos realizando una regresión sin una intersección.)
Muestre algebraicamente, y confirme numéricamente en R, que el estadístico t
se puede escribir como
e) Utilizando los resultados de (d), argumente que el estadístico t para la regresión
de y sobre x es el mismo que el estadístico t para la regresión de x sobre y.
f) En R, demuestre que cuando la regresión se realiza con una intersección, el
estadístico t para H 0: β 1 = 0 es el mismo para la regresión de y sobre x que para
la regresión de x sobre y.
12. Este problema implica una regresión lineal simple sin una intersección.
a) Recuerde que la estimación del coeficiente ^β para la regresión lineal de Y sobre X

sin una intersección viene dada por (3.38). ¿En qué circunstancias el coeficiente
estimado para la regresión de X sobre Y es el mismo que el coeficiente estimado
para la regresión de Y sobre X?
b) Genere un ejemplo en R con n = 100 observaciones en el que la estimación del
coeficiente para la regresión de X sobre Y es diferente de la estimación del
coeficiente para la regresión de Y sobre X.
c) Genere un ejemplo en R con n = 100 observaciones en el que el coeficiente
estimado para la regresión de X sobre Y es el mismo que el coeficiente estimado
para la regresión de Y sobre X.
13. En este ejercicio, creará algunos datos simulados y le ajustará modelos de regresión
lineal simple. Asegúrese de usar set.seed (1) antes de comenzar la parte (a) para
garantizar resultados consistentes.
a) Con la función rnorm (), cree un vector, x, que contenga 100 observaciones
extraídas de una distribución N (0, 1). Esto representa una característica, X.
b) Con la función rnorm (), cree un vector, eps, que contenga 100
observaciones extraídas de una distribución N (0, 0,25), es decir, una
distribución normal con media cero y varianza 0,25.
c) Usando xy eps, genere un vector y de acuerdo con el modelo
¿Cuál es la longitud del vector y? ¿Cuáles son los valores de β 0 y β 1 en este

modelo lineal?
d) Cree una gráfica de dispersión que muestre la relación entre xey. Comente
sobre lo que observa.
e) Ajuste un modelo lineal de mínimos cuadrados para predecir y usando x.
Comente el modelo obtenido. ¿Cómo se comparan ^β 0 y ^β 1con β 0 y β 1?
f) Muestre la línea de mínimos cuadrados en la gráfica de dispersión obtenida
en (d). Dibuja la línea de regresión de la población en el gráfico, en un color
diferente. Utilice el comando legend () para crear una leyenda adecuada.
g) Ahora ajuste un modelo de regresión polinomial que predice y usando x y x 2
. ¿Existe evidencia de que el término cuadrático mejora el ajuste del
modelo? Explica tu respuesta.
h) Repita (a) - (f) después de modificar el proceso de generación de datos de tal
manera que haya menos ruido en los datos. El modelo (3.39) debería seguir
siendo el mismo. Puede hacer esto disminuyendo la varianza de la
distribución normal utilizada para generar el término de error en (b).
Describe tus resultados. (i)
i) Repita (a) - (f) después de modificar el proceso de generación de datos de tal
manera que haya más ruido en los datos. El modelo (3.39) debería seguir
siendo el mismo. Puede hacer esto aumentando la varianza de la distribución
normal utilizada para generar el término de error en (b). Describe tus
resultados.
j) ¿Cuáles son los intervalos de confianza para β 0 y β 1basados en el conjunto
de datos original, el conjunto de datos más ruidoso y el conjunto de datos
menos ruidoso? Comente sus resultados.
14. Este problema se centra en el problema de la colinealidad.

a) Realice los siguientes comandos en R:
La última línea corresponde a la creación de un modelo lineal en el que y es

una función de x1 y x2. Escribe la forma del modelo lineal. ¿Cuáles son los
coeficientes de regresión?
b) ¿Cuál es la correlación entre x1 y x2? Cree un diagrama de dispersión que
muestre la relación entre las variables.
c) Con estos datos, ajuste una regresión de mínimos cuadrados para predecir y
usando x1 y x2. Describe los resultados obtenidos. ¿Qué son ^β 0 y ^β 1 y ^β 2?
¿Cómo se relacionan estos con los verdaderos β 0 y β 1y β 2? ¿Puede rechazar
la hipótesis nula H 0: β 1 = 0? ¿Qué tal la hipótesis nula H0: β2 = 0?
d) Ahora ajuste una regresión de mínimos cuadrados para predecir y usando
solo x1. Comente sus resultados. ¿Puede rechazar la hipótesis nula H 0: β 1 =
0?
e) Ahora ajuste una regresión de mínimos cuadrados para predecir y usando
solo x2. Comente sus resultados. ¿Puede rechazar la hipótesis nula H 0: β 1 =
0?
f) ¿Los resultados obtenidos en (c) - (e) se contradicen entre sí? Explica tu
respuesta.
g) Supongamos ahora que obtenemos una observación adicional, que
lamentablemente no se midió correctamente.
Vuelva a ajustar los modelos lineales de (c) a (e) utilizando estos nuevos
datos. ¿Qué efecto tiene esta nueva observación en cada uno de los modelos?
En cada modelo, ¿esta observación es un valor atípico? ¿Un punto de alto
apalancamiento? ¿Ambos? Explique sus respuestas.
15. Este problema involucra el conjunto de datos de Boston, que vimos en el laboratorio
de este capítulo. Ahora intentaremos predecir la tasa de delincuencia per cápita
utilizando las otras variables de este conjunto de datos. En otras palabras, la tasa de
criminalidad per cápita es la respuesta y las otras variables son los predictores.
a) Para cada predictor, ajuste un modelo de regresión lineal simple para
predecir la respuesta. Describe tus resultados. ¿En cuál de los modelos existe
una asociación estadísticamente significativa entre el predictor y la
respuesta? Cree algunos gráficos para respaldar sus afirmaciones.
b) Ajuste un modelo de regresión múltiple para predecir la respuesta utilizando
todos los predictores. Describe tus resultados. ¿Para qué predictores
podemos rechazar la hipótesis nula H 0: β 1 = 0??
c) ¿Cómo se comparan los resultados de (a) con los resultados de (b)? Cree una
gráfica que muestre los coeficientes de regresión univariante de (a) en el eje
x, y los coeficientes de regresión múltiple de (b) en el eje y. Es decir, cada
predictor se muestra como un solo punto en el gráfico. Su coeficiente en un
modelo de regresión lineal simple se muestra en el eje x, y su coeficiente
estimado en el modelo de regresión lineal múltiple se muestra en el eje y.
d) ¿Existe evidencia de asociación no lineal entre alguno de los predictores y la
respuesta? Para responder a esta pregunta, para cada predictor X, ajuste un
modelo de la forma

Introducción Al Aprendizaje Estadístico Con Aplicaciones en R Cap3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción Al Aprendizaje Estadístico Con Aplicaciones en R Cap3

Cargado por

Copyright:

Formatos disponibles

Introducción al aprendizaje estadístico con aplicaciones en R

Gareth James, Daniela Witten,

Capítulo 3. Regresión Lineal

3.1. Regresión lineal simple

donde ^y indica una predicción de Y sobre la base de X = x. Aquí usamos un símbolo de

3.1.1 Estimación de coeficientes

Sea ^y i= β^ 0+ ^β 1 x i la predicción para Y basada en el i-ésimo valor de X. Entonces e i= y i− ^yi

El enfoque de mínimos cuadrados elige ^β 0 y ^β 1 para minimizar la RSS. Usando un poco de

Según esta aproximación, $ 1,000 adicionales gastados en publicidad televisiva se asocian

Aquí, β 0 es el término de intersección, es decir, el valor esperado de Y cuando X = 0, y β 1

donde σ es la desviación estándar de cada una de las realizaciones y i de Y. En términos

Es decir, hay aproximadamente un 95% de probabilidad de que el intervalo

contendrá el verdadero valor de β 1. De manera similar, un intervalo de confianza para β 0

versus la hipótesis alternativa

Matemáticamente, esto corresponde a probar

ya que si β 1= 0 entonces el modelo (3.5) se reduce a Y = β 0+, y X no está asociado con Y.

La Tabla 3.2 muestra el RSE, el estadístico R2 y el estadístico F (que se describirá en la

Error estándar residual

desviación de. En términos generales, es la cantidad promedio que la respuesta se desviará

En el caso de los datos publicitarios, vemos en el resultado de la regresión lineal en la Tabla

3.2 Regresión lineal múltiple

donde X j representa el j-ésimo predictor y β j cuantifica la asociación entre esa variable y la

3.2.1 Estimación de los coeficientes de regresión

3.2.2 Algunas preguntas importantes

Uno: ¿Existe una relación entre la respuesta y los predictores?

Esta prueba de hipótesis se realiza calculando el estadístico F,

y que, siempre que H 0 sea verdadera,

Dos: Decidir sobre variables importantes

Tres: ajuste del modelo

1. Las estimaciones de los coeficientes ^β 0 , β^ 1 , … , β^ p son estimaciones de β 0 , β 1 , … , β P.

es solo una estimación del plano de regresión de la población real

La inexactitud en las estimaciones de los coeficientes está relacionada con el error

3. Incluso si supiéramos f (X), es decir, incluso si supiéramos los valores verdaderos

3.3 Otras consideraciones en el modelo de regresión

Predictores con solo dos niveles

Ahora, β 0 se puede interpretar como el saldo promedio de la tarjeta de crédito entre

y use esta variable en la ecuación de regresión. Esto da como resultado el modelo

Ahora, β 0 se puede interpretar como el saldo promedio general de la tarjeta de crédito

Predictores cualitativos con más de dos niveles

Y el segundo podría ser

3.3.2 Extensiones del modelo lineal

Eliminación de la suposición aditiva

modelo ahora se convierte en

3.3.3 Problemas potenciales

3. Variación no constante de términos de error

que eliminar el valor atípico. De hecho, las observaciones de alto apalancamiento

De esta ecuación se desprende claramente que hi aumenta con la distancia de x 1 a x́

Dado que la colinealidad reduce la precisión de las estimaciones de los coeficientes

3.4 El plan de marketing

3. ¿Qué medios contribuyen a las ventas?

4. ¿Qué tan grande es el efecto de cada medio en las ventas?

5. ¿Con qué precisión podemos predecir las ventas futuras?

7. ¿Existe sinergia entre los medios publicitarios?

El método de regresión KNN está estrechamente relacionado con el clasificador KNN

Si recibe un mensaje de error al cargar cualquiera de estas bibliotecas, probablemente

Si escribimos lm.fit, se genera información básica sobre el modelo. Para obtener

La función predict () se puede utilizar para producir intervalos de confianza e intervalos de

Existe alguna evidencia de no linealidad en la relación entre lstat y medv. Exploraremos

A continuación, examinamos algunos gráficos de diagnóstico, varios de los cuales se

Alternativamente, podemos calcular los residuos de un ajuste de regresión lineal usando la

La función which.max () identifica el índice del elemento más grande de un vector

Alternativamente, se puede utilizar la función update ().

3.6.4 Términos de interacción