Está en la página 1de 63

1.

Regresión Lineal1

• La regresión lineal es una herramienta útil para predecir una variable respuesta
cuantitativa. Pertenece a la clase de los métodos de aprendizaje estadístico
supervisado.

• A pesar de que esta técnica puede parecer algo sencilla en comparación con algunos
de los métodos de aprendizaje estadístico más modernos, la regresión lineal sigue
siendo un método de aprendizaje estadístico útil y ampliamente utilizado.

• Además, sirve como un buen punto de partida para los enfoques más recientes, pues
muchas de las técnicas de aprendizaje estadístico sofisticado pueden ser vistas como
generalizaciones o extensiones de la regresión lineal.

• En consecuencia, no se puede subestimar la importancia de tener una buena


comprensión de la regresión lineal antes de estudiar métodos de aprendizaje más
complejos.

• En este capítulo, se revisarán algunas de las ideas claves subyacentes al modelo de


regresión lineal, así como el enfoque de mínimos cuadrados, que es el método más
utilizado para ajustar este modelo.

• Para motivar el estudio del aprendizaje estadístico, comenzamos con un ejemplo


simple. Supongamos que somos consultores estadísticos contratados por un cliente
que necesita asesoría en cómo mejorar las ventas de un producto en particular. Para
esto se cuenta con un conjunto de datos, llamado Publicidad, el cual contiene las
ventas del producto en 200 mercados diferentes, junto con los presupuestos de
publicidad (en miles de dólares) para el producto en cada uno de los mercados para
tres medios diferentes: TV, Radio y Periódico. Los datos son presentados en la Figura
1.1.

1
Tomado de An Introduction to Statistical Learning with Applications in R, de James, Witten,
Hastie yTibshirani
Figura 1.1

• A nuestro cliente no le es posible aumentar directamente las ventas del producto, y


necesita hacer publicidad. Por otro lado, el cliente puede controlar el gasto publicitario
en cada uno de los tres medios. Por lo tanto, si determinamos que hay una asociación
entre la publicidad y las ventas, entonces podemos aconsejar a nuestro cliente cómo
debe ajustar los presupuestos en publicidad, de manera que indirectamente se
aumenten las ventas. En otras palabras, nuestro objetivo es desarrollar un modelo
preciso que pueda ser usado para predecir las ventas sobre la base de los gastos en los
tres medios publicitarios.

• Supongamos que en nuestro papel de consultores estadísticos se nos pide que


sugiramos, sobre la base de estos datos, un plan de mercadeo (marketing) para el
próximo año, que produzca una venta alta del producto.

• ¿Qué información sería útil para proporcionar tal recomendación? Aquí hay algunas
preguntas importantes que podríamos tratar de abordar:

1. ¿Existe una relación entre el presupuesto de publicidad y las ventas?


Nuestro primer objetivo debe ser determinar si los datos proporcionan evidencia de una
asociación entre el gasto publicitario y las ventas. Si la evidencia es débil, entonces se
podría argumentar que no se debe gastar dinero en publicidad!

2. ¿Qué tan fuerte es la relación entre el presupuesto publicitario y las ventas?


Asumiendo que hay una relación entre la publicidad y las ventas, nos gustaría saber la
fuerza de esta relación. En otras palabras, dado un cierto presupuesto publicitario,
¿podemos predecir las ventas con un alto nivel de precisión? Esta sería una relación
fuerte. ¿O es una predicción de las ventas basadas en gastos de publicidad sólo un poco
mejor que una suposición al azar? Esta sería una relación débil.

3. ¿Qué medios de publicidad contribuyen a las ventas?


¿Los tres medios de comunicación -TV, radio y periódico- contribuyen a las ventas, o sólo
uno o dos de los medios contribuyen? Para responder a esta pregunta, debemos
encontrar una manera de separar los efectos individuales de cada medio sobre las ventas
cuando hemos gastado dinero en los tres medios.

4. ¿Con qué precisión podemos estimar el efecto de cada medio de publicidad sobre las
ventas?
Por cada dólar gastado en publicidad en un medio en particular, ¿en qué cantidad
aumentará el volumen de ventas? ¿Con qué precisión podemos predecir esta cantidad de
aumento?

5. ¿Con qué precisión podemos predecir las ventas futuras?


Para cualquier nivel de publicidad en televisión, radio o periódico, ¿cuál es nuestra
predicción de ventas y cuál es la precisión de esta predicción?

6. ¿Es la relación lineal?


Si existe aproximadamente una relación lineal entre el gasto publicitario en los diversos
medios y las ventas, la regresión lineal es una herramienta apropiada. Si no es así, puede
ser posible transformar el predictor o la respuesta de forma tal que puedan usarse los
procedimientos de la regresión lineal.

7. ¿Hay sinergia entre los medios publicitarios?


Tal vez un gasto de $50,000 en publicidad televisiva y $50,000 en publicidad en la radio
produce más ventas que la asignación de $100,000 a la televisión o la radio
individualmente. En marketing, esto se conoce como un efecto de sinergia, mientras que
en estadística se llama efecto de interacción.

• La regresión lineal puede ser utilizada para responder cada una de estas preguntas.

1.1 La Regresión Lineal Simple


La regresión lineal simple trata de predecir una respuesta cuantitativa Y (o variable
dependiente cuantitativa) sobre la base de una única variable predictora X (o variable
independiente). Supone que hay aproximadamente una relación lineal entre X e Y.
Matemáticamente, podemos escribir esta relación lineal como

Y  0  1 X (1.1)

En esta expresión “≈” se puede leer como “es aproximadamente modelada como”.
También se dice que se está regresando a Y sobre X.

Por ejemplo, X puede representar el gasto de publicidad en TV e Y puede representar las


ventas. Entonces podemos regresar las ventas sobre TV ajustando el modelo

ventas  0  1TV

En la ecuación (1.1),  0 y 1 son dos constantes desconocidas que representan los


términos de intercepto y pendiente en el modelo lineal. Juntos,  0 y 1 son llamados
coeficientes del modelo o parámetros. Una vez que hemos utilizado nuestros datos de
entrenamiento para producir estimaciones ̂ 0 y ̂1 para los coeficientes del modelo,
podemos predecir las ventas futuras sobre la base de un valor particular del gasto de
publicidad en televisión, calculando

ŷ  ˆ 0  ˆ1 x (1.2)

donde ŷ indica una predicción de Y sobre la base de X=x. Se usa el símbolo sombrero ˆ
para denotar el valor estimado de un parámetro desconocido o coeficiente, o denotar el
valor predicho de la respuesta.

1.1.1 Estimando los Coeficientes

En la práctica,  0 y 1 son desconocidos. Así que antes de que podamos usar (1.1) para
hacer predicciones, debemos utilizar datos para estimar los coeficientes. Suponga que
(x1, y1), (x2, y2),. . . , (xn, yn) representan n pares de observaciones, cada uno de los cuales
consiste en una medición de X y una medida de Y. En el ejemplo de Publicidad, este
conjunto de datos consiste del presupuesto publicitario de TV y las ventas del producto
para n = 200 diferentes mercados. La Figura 1.1 muestra los datos.

El objetivo es obtener estimaciones ̂ 0 y ̂1 tales que el modelo (1.1) se ajuste bien a los
datos disponibles, es decir, que yi  ˆ 0  ˆ 1 xi , para i=1,2,…, n. En otras palabras,

queremos encontrar un intercepto ̂ 0 y una pendiente ̂1 tal que la recta resultante esté
tan cerca como sea posible a los n=200 datos.

Hay muchas formas de medir cercanía. Sin embargo, el enfoque más común consiste en
minimizar el criterio de los mínimos cuadrados.

Sea ŷi  ˆ 0  ˆ 1 xi la predicción de Y basada en el i-ésimo valor de X.


ˆ i representa el i-ésimo residual, es decir la diferencia entre el valor de
Entonces ei = yi -y
la i-ésima respuesta observada y la predicción de ese valor que es hecha por el modelo
lineal. Se define la suma de cuadrados residual (RSS) como

o equivalentemente,

(1.3)

El enfoque de mínimos cuadrados elige ̂ 0 y ̂1 de forma tal que minimicen la RSS.
Usando un poco de cálculo, el mínimo se obtiene en

(1.4)

1 n 1 n
donde y   yi y x   xi son las medias muestrales.
n i 1 n i 1

En otras palabras, (1.4) definen las estimaciones de mínimos cuadrados de los coeficientes
del modelo de regresión lineal simple.
La Figura 1.2 muestra el ajuste de mínimos cuadrados a los datos de publicidad, donde
̂ 0 =7.03 y ̂1 =0.0475. En otras palabras, de acuerdo a este modelo, un gasto adicional
de $1000 en publicidad en TV está asociado a una venta de aproximadamente 47.5
unidades adicionales del producto.

En La Figura 1.3 se calculó la RSS para varios valores de  0 y 1 usando los datos de
publicidad, con las ventas como respuesta y TV como predictora. En cada gráfica el punto
rojo es el par de estimaciones de mínimos cuadrados ( ̂ 0 , ̂1 ). Estos valores claramente
minimizan la RSS.

Figura 1.2
Figura 1.3 Gráfico de contornos y gráfica tridimensional de la RSS.

1.1.2 Evaluación de la exactitud de las estimaciones de coeficientes

En general, podemos suponer que la verdadera relación entre X e Y toma la forma

para alguna función desconocida f, donde 𝜖 es un término de error aleatorio de media


cero. Si f puede ser aproximado por una función lineal, entonces podemos escribir esta
relación como

(1.5)

Aquí β0 es el término de intercepto, es decir, el valor esperado de Y cuando X=0, y β1 es la


pendiente, es decir, el incremento promedio en Y asociado con el aumento de una unidad
en X. El término de error 𝜖 (que no es observable) recoge todo lo que no tiene en cuenta
este modelo simple: la relación verdadera probablemente no es lineal, puede haber otras
variables que causan variación en Y, y puede haber error de medida. Normalmente
suponemos que el término de error 𝜖 es independiente de X.

El modelo dado en (1.5) define la recta de regresión poblacional, la cual es la mejor


aproximación lineal a la verdadera relación entre X y Y.
Las estimaciones de mínimos cuadrados (1.4) de los coeficientes de regresión caracterizan
la recta de mínimos cuadrados (1.2). El panel izquierdo de la Figura 1.4 muestra estas dos
rectas en un ejemplo simulado. Se generaron 100 valores aleatorios de X, y se calcularon
los correspondientes valores de Y usando el modelo

(1.6)

donde 𝜖 fue generada usando una distribución Normal de media cero.

La línea roja en el panel izquierdo de la Figura 1.4 muestra la relación verdadera,


f (X) = 2 + 3X, mientras que la línea azul es la estimación de mínimos cuadrados basada en
los datos observados. La relación verdadera generalmente no se conoce para los datos
reales, pero la recta de mínimos cuadrados siempre se puede calcular usando las
estimaciones de los coeficientes dados en (1.4).

En otras palabras, en aplicaciones reales, tenemos acceso a un conjunto de observaciones


a partir de las cuales podemos calcular (estimar) la recta de mínimos cuadrados; sin
embargo, la recta de regresión de la población no es posible observarla.

En el panel derecho de la Figura 1.4 hemos generado diez conjuntos de datos diferentes
del modelo dado por (1.6) y graficado las correspondientes diez rectas de mínimos
cuadrados. Observe que diferentes conjuntos de datos generados a partir del mismo
modelo verdadero resultan en rectas de mínimos cuadrados ligeramente diferentes, pero
la recta de regresión poblacional no observada no cambia.

A primera vista, la diferencia entre la recta de regresión poblacional y la recta de mínimos


cuadrados puede parecer sutil y confusa. Sólo tenemos un conjunto de datos, y ¿qué
significa que dos líneas diferentes describen la relación entre el predictor y la respuesta?

Fundamentalmente, el concepto de estas dos líneas es una extensión natural del enfoque
estadístico estándar de usar información de una muestra para estimar características de
una población grande. Por ejemplo, supongamos que estamos interesados en conocer la
media de la población μ de alguna variable aleatoria Y.
Figura 1.4 Un conjunto de datos simulado. Izquierda: La línea roja representa la verdadera relación,
f(X)=2+3X, que se conoce como la línea de regresión poblacional. La línea azul es la recta de mínimos
cuadrados; es la estimación de mínimos cuadrados para f (X) basada en los datos observados, mostrados en
negro. Derecha: La recta de regresión poblacional se muestra nuevamente en rojo, y la línea de mínimos
cuadrados en azul oscuro. En azul claro, se muestran diez líneas de mínimos cuadrados, cada una calculada
sobre la base de un conjunto de observaciones aleatorias distinto. Cada recta de mínimos cuadrados es
diferente, pero en promedio, las rectas de mínimos cuadrados están bastante cerca de la recta de regresión
poblacional.

Desafortunadamente, μ es desconocido, pero tenemos acceso a n observaciones de Y, que


podemos escribir como y1,. . . , yn, y las cuales se pueden usar para estimar μ. Un
estimador razonable de μ es

1n
ˆ = y , donde y=  yi .
n i 1

La media de la muestra y la media de la población son diferentes, pero en general la


media de la muestra proporcionará una buena estimación de la media de la población. De
la misma manera, los coeficientes desconocidos β0 y β1 en la regresión lineal definen la
recta de regresión poblacional. Buscamos estimar estos coeficientes desconocidos usando
̂ 0 y ̂1 dados en (1.4). Estas estimaciones de los coeficientes definen la recta de
mínimos cuadrados.

La analogía entre la regresión lineal y la estimación de la media de una variable aleatoria


es adecuada, si utilizamos el concepto de sesgo.
Si usamos la media ̂ de la muestra para estimar μ, esta estimación es insesgada, en el
sentido de que en promedio, esperamos que ̂ sea igual a μ. ¿Qué significa esto
exactamente? Significa que sobre la base de un conjunto particular de observaciones y1,. .
. , yn, ̂ puede sobrestimar μ, y sobre la base de otro conjunto de observaciones, ̂
puede subestimar μ. Pero si pudiéramos hacer un promedio de un gran número de
estimaciones de μ obtenidas de un gran número de conjuntos de observaciones, entonces
este promedio sería exactamente igual a μ. Por lo tanto, un estimador insesgado no
subestima o sobrestima sistemáticamente el parámetro verdadero.

La propiedad de insesgamiento se cumple para las estimaciones de los coeficientes de los


mínimos cuadrados dados por (1.4) también: si estimamos β0 y β1 sobre la base de un
determinado conjunto de datos, entonces nuestras estimaciones no serán exactamente
iguales a β0 y β1. Pero si pudiéramos hacer un promedio de las estimaciones obtenidas en
un gran número de conjuntos de datos, entonces el promedio de estas estimaciones sería
perfecto. De hecho, podemos ver en el panel derecho de la Figura 1.4 que el promedio de
muchas líneas de mínimos cuadrados, cada una estimada a partir de un conjunto de datos
separado, es bastante cercana a la línea de regresión de la población verdadera.

Continuando con la analogía de la estimación de la media poblacional μ de una variable


aleatoria Y, una pregunta natural es la siguiente: ¿cuán exacta es la media muestral ̂
como una estimación de μ? Hemos establecido que el promedio de ̂ sobre muchos
conjuntos de datos será muy cercano a μ, pero que una sola estimación ̂ puede ser una
sustancial subestimación o sobreestimación de μ.

¿Qué tan lejos estará esa estimación única de μ? En general, respondemos a esta
pregunta calculando el error estándar de ̂ , escrito como SE( ̂ ). Para esto, se tiene la
bien conocida fórmula

(1.7)

donde σ es la desviación estándar de cada una de las realizaciones yi de Y.

A grandes rasgos, el error estándar nos indica la cantidad promedio que esta estimación ̂
difiere del valor real de μ. La ecuación (1.7) también nos dice cómo disminuye esta
desviación con n, pues mientras más observaciones tengamos, menor es el error estándar
de ̂ . De una manera similar, podemos preguntarnos cuán cerca están ̂ 0 y ̂1 de los
valores verdaderos β0 y β1. Para calcular los errores estándar asociados con ̂ 0 y ̂1 ,
usamos las siguientes fórmulas:

(3.8)

donde σ2 = Var(𝜖). Para que estas fórmulas sean estrictamente válidas, debemos asumir
que los errores 𝜖𝑖 para cada observación no están correlacionados y que tienen varianza
común σ2. Esto claramente no es cierto en la Figura 1.2, pero la fórmula todavía resulta
ser una buena aproximación. Observe en la fórmula que SE( ̂1 ) es menor cuando los xi
están más dispersos; intuitivamente tenemos más influencia (leverage) para estimar una
pendiente cuando esto ocurre. También vemos que SE( ̂ 0 ) sería el mismo SE( ̂ ) si x

fuera cero (en cuyo caso ̂ 0 sería igual a y ). En general, σ2 no se conoce, pero se puede
estimar a partir de los datos. La estimación de σ se conoce como el error estándar residual
y está dada por la fórmula:

Estrictamente hablando, cuando σ2 es estimado a partir de los datos debemos escribir


SEˆ (ˆ1 ) , para indicar que se ha hecho una estimación, pero por simplicidad en la
notación no se usa este "sombrero" adicional.

Se pueden usar los errores estándar para calcular intervalos de confianza. Un intervalo de
confianza del 95% se define como un rango de valores tal que con una probabilidad del
95%, el intervalo contendrá el verdadero valor desconocido del parámetro.

El rango se define en términos de los límites inferior y superior calculados a partir de la


muestra de datos. Para la regresión lineal, el intervalo de confianza del 95% para β1 toma
aproximadamente la forma

(3.9)
Es decir, hay aproximadamente un 95% de probabilidad de que el intervalo

(3.10)

contenga el verdadero valor de 1 . Similarmente, un intervalo de confianza para  0 es de


la forma

(3.11)

En el caso de los datos de publicidad, el intervalo de confianza del 95% para β0 es


[6.130, 7.935] y el intervalo de confianza del 95% para β1 es [0.042, 0.053].

Por lo tanto, podemos concluir que en ausencia de publicidad, las ventas, en promedio,
estarán entre 6,130 y 7,940 unidades. Además, por cada aumento de $1,000 en publicidad
televisiva, habrá un aumento promedio en ventas de entre 42 y 53 unidades.

Los errores estándar también se pueden utilizar para realizar pruebas de hipótesis sobre
los coeficientes. La prueba de hipótesis más común consiste en probar la hipótesis nula

Ho: No hay relación lineal entre X e Y (1.12)

versus la hipótesis alternativa

Ha: Hay alguna relación entre X e Y. (1.13)

Matemáticamente, esto corresponde a probar

Ho: β1 = 0
versus
Ha: β1  0,

ya que si β1 = 0 entonces el modelo (1.5) se reduce a Y = β0 + 𝜖, y X no estará asociado


linealmente con Y. Para probar la hipótesis nula, necesitamos determinar si ̂1 , nuestra
estimación para β1, está lo suficientemente lejos de cero, de manera que podamos estar
seguros de que β1 no es cero. ¿Qué tan lejos es lo suficientemente lejos? Esto por
supuesto depende de la precisión de ̂1 , es decir, depende de SE( ̂1 ). Si SE( ̂1 ) es
pequeño, entonces incluso valores relativamente pequeños de ̂1 pueden proporcionar
una fuerte evidencia de que β1  0, y por lo tanto que existe una relación lineal entre X e
Y. Por el contrario, si SE( ̂1 ) es grande, entonces ̂1 debe ser grande en valor absoluto
para que podamos rechazar la hipótesis nula. En la práctica, se calcula un estadístico t,
dado por

(1.14)

El cual mide el número de desviaciones estándar que ̂1 está lejos de 0. Si realmente no
hay relación lineal entre X e Y, y los errores tienen distribución normal, entonces
esperamos que (1.14) tendrá una distribución t con n-2 grados de libertad. La distribución
t tiene una forma de campana y para valores de n mayores que aproximadamente 30, es
bastante similar a la distribución normal. En consecuencia, es una cuestión simple calcular
la probabilidad de observar cualquier valor igual a |t| o mayor, suponiendo β1 = 0. A esta
probabilidad se le llama el p-valor. A grandes rasgos, el p-valor se interpreta de la
siguiente manera: un pequeño p-valor indica que es poco probable que se observe una
asociación tan sustancial entre el predictor y la respuesta debido al azar, en ausencia de
una asociación lineal real entre el predictor y la respuesta.

Por lo tanto, si el p-valor es pequeño, entonces se puede inferir que hay una asociación
entre el predictor y la respuesta. Rechazamos la hipótesis nula, es decir, declaramos que
existe una relación lineal entre X e Y, si el p-valor es lo suficientemente pequeño. Las
cotas típicas del p-valor para rechazar la hipótesis nula son 5% o 1%. Cuando n = 30, estos
corresponden a estadísticos t (1.14) de alrededor de 2 y 2.75, respectivamente.

La Tabla 1.1 proporciona detalles del modelo de mínimos cuadrados para la regresión del
número de unidades vendidas en el presupuesto de publicidad de TV para los datos de
Publicidad. Obsérvese que los coeficientes estimados para β0 y β1 son muy grandes en
relación con sus errores estándar, por lo que los estadísticos t también son grandes; Las
probabilidades de ver tales valores si H0 es verdadera son virtualmente cero. Por lo tanto
podemos concluir que β0  0 y β1  0.
Tabla 1.1

En la tabla 1.1, un pequeño p-valor para el intercepto indica que podemos rechazar la
hipótesis nula de que β0 = 0, y un pequeño p-valor para TV indica que podemos rechazar la
hipótesis nula de que β1 = 0. El rechazo de la última hipótesis nula nos permite concluir
que existe una relación lineal entre la televisión y las ventas. El rechazo de la primera nos
permite concluir que en ausencia de gasto en TV, las ventas no son cero.

1.1.3 Evaluación de la exactitud del modelo

Una vez que hemos rechazado la hipótesis nula (1.12) a favor de la hipótesis alternativa
(1.13), es natural querer cuantificar hasta qué punto el modelo se ajusta a los datos. La
calidad de un ajuste de regresión lineal típicamente se evalúa usando dos cantidades
relacionadas: el error estándar residual (RSE) y el estadístico R2.

La Tabla 1.2 muestra el RSE, el estadístico R2 y el estadístico F (que será descrito en la


Sección 1.2.2) para la regresión lineal del número de unidades vendidas sobre el
presupuesto de publicidad en televisión.

Tabla 1.2

Error Estándar Residual

Recordemos del modelo (1.5) que asociado con cada observación hay un término de error
ϵ. Debido a la presencia de estos términos de error, aunque conociéramos la verdadera
recta de regresión (es decir, incluso si se conocieran β0 y β1), no podríamos predecir
perfectamente Y a partir de X. La RSE es una estimación de la desviación estándar de ϵ. En
términos generales, es la cantidad promedio en que la respuesta se desviará de la
verdadera recta de regresión. Se calcula utilizando la fórmula

(1.15)

Observe que la RSS fue definida en la Sección 1.1.1, y está dada por la fórmula

(1.16)

En el caso de los datos de publicidad, vemos en la Tabla 1.2 que el RSE es 3.26. En otras
palabras, las ventas reales en cada mercado se desvían de la verdadera recta de regresión
en aproximadamente 3,260 unidades, en promedio. Otra forma de interpretar es que
incluso si el modelo fuera correcto y los verdaderos valores de los coeficientes
desconocidos β0 y β1 fueran conocidos con exactitud, cualquier predicción de las ventas
sobre la base de la publicidad televisiva seguiría estando alejado en unas 3,260 unidades
en promedio. Por supuesto, si las 3,260 unidades son un error de predicción aceptable
depende del contexto del problema. En el conjunto de datos de publicidad, el valor medio
de las ventas en todos los mercados es de aproximadamente 14,000 unidades, por lo que
el porcentaje de error es de 3,260 / 14,000 = 23%

El RSE se considera una medida de la falta de ajuste del modelo (1.5) a los datos. Si las
predicciones obtenidas utilizando el modelo son muy cercanas a los verdaderos valores de
resultado, es decir, si ŷi ≈ yi para i = 1,. . . , n, entonces (1.15) será pequeño, y podemos
concluir que el modelo se ajusta muy bien a los datos. Por otro lado, si ŷi está muy lejos
de yi para una o más observaciones, entonces el RSE puede ser muy grande, lo que indica
que el modelo no se ajusta bien a los datos.

Estadístico R2

El RSE proporciona una medida absoluta de la falta de ajuste del modelo (1.5) a los datos.
Pero como se mide en las unidades de Y, no siempre queda claro qué constituye un buen
RSE. El estadístico R2 proporciona una medida alternativa de ajuste. Toma la forma de una
proporción, la proporción de la varianza explicada, y toma siempre un valor entre 0 y 1 ( si
el modelo tiene intercepto), y es independiente de la escala de Y. Para calcular R2,
utilizamos la fórmula

(1.17)
donde

es la suma de cuadrados total y RSS fue definida en (1.16).

TSS mide la variación total en la respuesta Y, y puede ser pensada como la cantidad de la
variabilidad inherente en la respuesta antes de que se realice la regresión. Por el
contrario, RSS mide la cantidad de variabilidad que se deja sin explicación después de
realizar la regresión. Por tanto, TSS-RSS mide la cantidad de variabilidad en la respuesta
que se explica (o se elimina) realizando la regresión, y R2 mide la proporción de
variabilidad en Y que se puede explicar usando X. Un estadístico R2 cercano a 1 indica que
una gran proporción de la variabilidad en la respuesta ha sido explicada por la regresión.
Un número cercano a 0 indica que la regresión no explicó gran parte de la variabilidad en
la respuesta; esto puede ocurrir porque el modelo lineal es incorrecto, o el error inherente
σ2 es alto, o ambos. En la Tabla 1.2, el R2 fue de 0.61, por lo que apenas menos de dos
tercios de la variabilidad en las ventas se explica por una regresión lineal sobre TV.

El estadístico R2 (1.17) tiene una ventaja interpretativa sobre el RSE (1.15), ya que a
diferencia del RSE, siempre está entre 0 y 1. Sin embargo, aún puede ser un reto
determinar qué es un buen valor R2, y en general, esto dependerá de la aplicación. Por
ejemplo, en ciertos problemas de la física, se puede conocer que los datos realmente
provienen de un modelo lineal con un pequeño error residual. En este caso, esperamos
ver un valor de R2 que es extremadamente cercano a 1, y un valor R2 sustancialmente más
pequeño podría indicar un problema serio con el experimento por medio del cual se
generaron los datos. Por otra parte, en aplicaciones típicas en biología, psicología,
marketing y otras áreas, el modelo lineal (1.5) es en el mejor de los casos una
aproximación extremadamente burda a los datos, y los errores residuales debidos a otros
factores no medidos son a menudo muy grandes. En este contexto, se espera que sólo una
proporción muy pequeña de la varianza en la respuesta se explica por el predictor, y un
valor R2 pequeño (por debajo de 0.1) podría ser más realista!

El estadístico R2 es una medida de la relación lineal entre X e Y. Recuerde que la


correlación (muestral), definida como
(1.18)

es también una medida de la relación lineal entre X e Y. Esto sugiere que se podría usar
r=Cor(X, Y) en lugar de R2 para evaluar el ajuste del modelo lineal. De hecho, se puede
demostrar que en el ajuste de regresión lineal simple, R2 = r2. En otras palabras, la
correlación cuadrática y el estadístico R2 son idénticos. Sin embargo, en la siguiente
sección se discutirá el problema de regresión lineal múltiple, en la cual se usan varios
predictores simultáneamente para predecir la respuesta. El concepto de correlación entre
los predictores y la respuesta no se extiende automáticamente a este ajuste, ya que la
correlación cuantifica la asociación lineal entre un solo par de variables y no tiene en
cuenta un mayor número de variables. Veremos que R2 cumple con este papel.

1.2 Regresión Lineal Múltiple

La regresión lineal simple es un método útil para predecir una respuesta sobre la base de
una sola variable predictora. Sin embargo, en la práctica frecuentemente se tiene más de
un predictor. Por ejemplo, en los datos de Publicidad, se examinó la relación entre las
ventas y la publicidad televisiva. También tenemos datos de la cantidad de dinero gastado
en la publicidad en la radio y en los periódicos, y es posible que desee saber si cualquiera
de estos otros dos medios de publicidad se asocia con las ventas. ¿Cómo podemos ampliar
nuestro análisis de los datos publicitarios para acomodar estos dos predictores
adicionales?

Una opción es ejecutar tres regresiones lineales sencillas separadas, cada una de las cuales
utiliza un medio publicitario diferente como predictor. Por ejemplo, podemos establecer
una regresión lineal simple para predecir las ventas sobre la base de la cantidad gastada
en anuncios de radio. Los resultados se muestran en la Tabla 1.3 (tabla superior).
Encontramos que un aumento de $1,000 en el gasto en publicidad de radio se asocia con
un aumento en ventas de alrededor de 203 unidades. La Tabla 1.3 (tabla inferior) contiene
los coeficientes de mínimos cuadrados para una simple regresión lineal de las ventas en el
presupuesto de publicidad en los periódicos. Un aumento de $1,000 en el presupuesto de
publicidad en los periódicos se asocia con un aumento en las ventas de aproximadamente
55 unidades.
Sin embargo, el enfoque de ajustar un modelo de regresión lineal simple por separado
para cada predictor no es del todo satisfactorio. En primer lugar, no está claro cómo hacer
una sola predicción de las ventas dados los niveles de los tres presupuestos de medios de
publicidad, ya que cada uno de los presupuestos se asocia con una ecuación de regresión
por separado. En segundo lugar, cada una de las tres ecuaciones de regresión ignora los
otros dos medios al obtener estimaciones para los coeficientes de regresión. Más adelante
se verá que si los presupuestos de los medios de publicidad están correlacionados entre sí
en los 200 mercados que constituyen nuestro conjunto de datos, entonces podemos llegar
a estimaciones muy engañosas de los efectos individuales de los medios sobre las ventas.

Tabla 1.3

En lugar de ajustar un modelo de regresión lineal simple por separado para cada
predictor, una mejor aproximación es extender el modelo de regresión lineal simple (1.5)
para que pueda utilizar directamente múltiples predictores. Podemos hacer esto dando a
cada predictor un coeficiente de pendiente separado en un solo modelo. En general,
supongamos que tenemos p predictores distintos. Entonces el modelo de regresión lineal
múltiple toma la forma

(1.19)

Donde Xj representa la j-ésima predictora y βj cuantifica la asociación entre esa variable y


la respuesta. Interpretamos βj como el efecto promedio sobre Y de un aumento de una
unidad en Xj, manteniendo fijos todos los demás predictores. En el ejemplo de publicidad,
(1.19) el modelo sería
(1.20)

1.2.1 Estimación de los Coeficientes de Regresión

Como en el ajuste de regresión lineal simple, los coeficientes de regresión β0, β1,. . . , βp en
(1.19) son desconocidos, y deben ser estimados. Dadas las estimaciones ̂ 0 , ̂1 , …, ˆ p ,
podemos hacer predicciones usando la fórmula

(1.21)

Los parámetros se estiman usando el mismo enfoque de mínimos cuadrados que vimos en
el contexto de la regresión lineal simple. Elegimos ̂ 0 , ̂1 , …, ˆ p de forma que minimicen
la suma de los residuos cuadrados

(1.22)

Los valores ̂ 0 , ̂1 , …, ˆ p que minimizan (1.22) son las estimaciones de mínimos
cuadrados de la regresión lineal múltiple. A diferencia de las estimaciones de la regresión
lineal simple dadas en (1.4), las estimaciones de los coeficientes de la regresión múltiple
tienen formas algo complicadas las cuales se presentan más fácilmente usando álgebra
matricial. Por esta razón, no los proporcionamos aquí. Se puede utilizar cualquier paquete
de software estadístico para calcular las estimaciones de los coeficientes y, más adelante
en este capítulo, mostraremos cómo esto se puede hacer en R. La Figura 1.5 ilustra un
ejemplo del ajuste de mínimos cuadrados a un conjunto de datos con p = 2 predictores.
Figura 1.5

La Tabla 1.4 muestra las estimaciones de los coeficientes de la regresión múltiple cuando
se usan presupuestos para publicidad en televisión, radio y periódicos para predecir las
ventas de productos, usando los datos de Publicidad. Interpretamos estos resultados de la
siguiente manera: para una cantidad fija (dada) de publicidad en TV y periódicos, un gasto
adicional de $1,000 en publicidad por radio produce un aumento en las ventas de
aproximadamente 189 unidades. Al comparar estas estimaciones de coeficientes con las
mostradas en las Tablas 1.1 y 1.3, observamos que las estimaciones de los coeficientes de
regresión múltiple para TV y radio son bastante similares a las estimaciones del
coeficiente de regresión lineal simple. Sin embargo, mientras que la estimación del
coeficiente de regresión del gasto en publicidad en periódicos en la Tabla 1.3 era
significativamente diferente de cero, su estimación en el modelo de regresión múltiple es
cercana a cero, y el p-valor correspondiente ya no es significativo, con un valor alrededor
de 0.86.
Tabla 1.4

Esto ilustra que los coeficientes de la regresión simple y de regresión múltiple pueden ser
muy diferentes. Esta diferencia se deriva del hecho de que en el caso de regresión simple,
el término de pendiente representa el efecto promedio de un aumento de $1,000 en la
publicidad en los periódicos, ignorando otros predictores como la televisión y la radio. Por
el contrario, en el ajuste de regresión múltiple, el coeficiente para el periódico representa
el efecto promedio del aumento del gasto de publicidad en los periódicos en $1,000
mientras se mantiene fijo el gasto en televisión y radio, es decir, teniendo en cuenta la
presencia del gasto en televisión y radio.

¿Tiene sentido que la regresión múltiple sugiera que no hay relación entre ventas y la
publicidad en periódicos mientras que la regresión lineal simple implica lo contrario?
Considere la matriz de correlación para las tres variables predictoras y la variable
respuesta, que se muestran en la Tabla 1.5. Observe que la correlación entre la radio y el
periódico es 0.35. Esto revela una tendencia a gastar más en publicidad en los periódicos
en los mercados donde se gasta más en publicidad por radio. Supongamos que la
regresión múltiple es correcta y que la publicidad en los periódicos no tiene un impacto
directo en las ventas, pero que la publicidad por radio sí aumenta las ventas. Luego, en los
mercados donde gastamos más en radio, las ventas tenderán a ser más altas y, como
muestra la matriz de correlaciones, en esos mismos mercados se tiende a gastar más en
publicidad en los periódicos. Por lo tanto, en una simple regresión lineal que sólo examina
las ventas frente al gasto en publicidad en los periódicos, observaremos que los valores
más altos de la publicidad en periódicos tienden a estar asociados con valores más altos
de ventas, aunque la publicidad en los periódicos no afecta realmente a las ventas. De
esta manera, las ventas por periódicos son un sustituto del efecto de la publicidad radial;
Periódico se gana el "crédito" por el efecto de la radio en las ventas.
Tabla 1.5

Este resultado ligeramente contraintuitivo es muy común en muchas situaciones de la vida


real. Considere un ejemplo absurdo para ilustrar el punto. La realización de una regresión
del número de ataques de tiburón versus las ventas de helado para los datos recolectados
en una comunidad playera durante un período de tiempo mostraría una relación positiva,
similar a la vista entre las ventas y el periódico. Por supuesto nadie (aún) ha sugerido que
los helados deben ser prohibidos en las playas para tratar de reducir los ataques de los
tiburones. En realidad, las temperaturas más altas hacen que más personas visiten la
playa, lo que a su vez resulta en más ventas de helados y más ataques de tiburones. Una
regresión múltiple de los ataques frente a las ventas de helado y la temperatura revela
que, como lo indica la intuición, el predictor anterior ya no es significativo después de
ajustar por la temperatura.

1.2.2 Algunas Preguntas Importantes

Cuando realizamos una regresión lineal múltiple, por lo general estamos interesados en
responder a algunas preguntas importantes.

1. ¿Es al menos uno de los predictores X1, X2,. . . , Xp útil en la predicción de la respuesta?

2. ¿Todos los predictores ayudan a explicar Y, o sólo un subconjunto de los predictores es


útil?

3. ¿Qué tan bien el modelo ajusta a los datos?

4. Dado un conjunto de valores predictores, ¿cuál es valor de predicho de la respuesta,


y qué tan precisa es la predicción?

A continuación abordamos cada una de estas preguntas.


Uno: ¿Existe una relación entre la respuesta y los predictores?

Recuerde que en el ajuste de la regresión lineal simple, para determinar si existe una
relación entre la respuesta y el predictor simplemente se puede verificar si β1 = 0. En el
ajuste de regresión múltiple con p predictores, necesitamos preguntar si todos los
coeficientes de regresión son cero, es decir, si β1 = β2 = · · · = βp = 0. Como en el ajuste de
regresión lineal simple, se utiliza una prueba de hipótesis para responder a esta pregunta.
Probamos la hipótesis nula,

H0: β1 = β2 = · · · = βp = 0

versus la alternativa

Ha: al menos un βj no es cero.

Esta prueba de hipótesis se realiza calculando el estadístico F ,

(1.23)

donde,

Si los supuestos del modelo lineal son correctos, se puede probar que

E{RSS/(n − p − 1)} = σ2

y que, dado que Ho es cierto,

E{(TSS − RSS)/p} = σ2.


Por lo tanto, cuando no hay relación entre la respuesta y los predictores, se esperaría que
el estadístico F asumiera un valor cercano a 1. Por otro lado, si Ha es verdadera, entonces
E {(TSS - RSS) / p}> σ2, por lo que se esperaría que F sea mayor que 1.

El estadístico F para el modelo de regresión lineal múltiple obtenido por la regresión de las
ventas sobre los gastos en publicidad en radio, televisión y periódicos se muestran en la
Tabla 1.6.

Tabla 1.6.

En este ejemplo, el estadístico F es 570. Dado que es mucho mayor que 1, hay evidencia
convincente contra la hipótesis nula H0. En otras palabras, el estadístico F sugiere que al
menos uno de los medios publicitarios debe estar relacionado con las ventas. Sin
embargo, ¿qué pasaría si el estadístico F estuviera más cerca de 1? ¿Qué tamaño debe
tener el estadístico F antes de rechazar H0 y concluir que hay una relación? Resulta que la
respuesta depende de los valores de n y p. Cuando n es grande, un estadístico F que es
sólo un poco más grande que 1 aún podría proporcionar evidencia contra H0.

En contraste, un estadístico F más grande es necesario para rechazar H0 si n es pequeño.


Cuando H0 es verdadera y los errores tienen una distribución normal, el estadístico F sigue
una distribución F. Para cualquier valor dado de n y p, cualquier paquete de software
estadístico puede usarse para calcular el p-valor asociado con el estadístico F utilizando
esta distribución. Basado en este p-valor, podemos determinar si rechazamos o no H0.
Para los datos de publicidad, el p-valor asociado al estadístico F en la Tabla 1.6 es
esencialmente cero, por lo que tenemos evidencia extremadamente fuerte de que al
menos uno de los medios de publicidad se asocia con el aumento de las ventas.

En (1.23) estamos probando H0 que todos los coeficientes son cero. A veces queremos
probar que un subconjunto particular de que q de los coeficientes son cero. Esto
corresponde a una hipótesis nula

H0: βp−q+1 = βp−q+2 = . . . = βp = 0,


donde por conveniencia hemos puesto las variables elegidas para la omisión al final de la
lista.

En este caso se ajusta un segundo modelo que utiliza todas las variables, excepto las
últimas q. Supongamos que la suma residual de cuadrados para ese modelo es RSS0.
Entonces el estadístico F apropiada es

(1.24)

Observe que en la Tabla 1.4, para cada predictor individual se informó un estadístico t y
un p-valor. Estos proporcionan información sobre si cada predictor individual está
relacionado con la respuesta, después de ajustar los otros predictores. Resulta que cada
uno de estos son exactamente equivalentes a la prueba F que omite esa única variable del
modelo, dejando a todas los demás, es decir q=1 en (1.24). Por tanto, el estadístico F
reporta el efecto parcial de agregar esa variable al modelo. Por ejemplo, como se
comentó anteriormente, estos p-valores indican que la televisión y la radio están
relacionadas con las ventas, pero que no hay evidencia de que el periódico esté asociado
con las ventas, en presencia de esas dos.

Teniendo en cuenta estos p-valores individuales para cada variable, ¿por qué tenemos
que mirar al estadístico F? Después de todo, parece probable que si alguno de los p-
valores de las variables individuales es muy pequeño, al menos uno de los predictores está
relacionado con la respuesta. Sin embargo, esta lógica es defectuosa, especialmente
cuando el número de predictores p es grande.

Por ejemplo, considere un ejemplo en el que p=100 y H0: β1=β2=. . . = β100=0 es verdadero,
por lo que ninguna variable está realmente asociada con la respuesta. En esta situación,
aproximadamente el 5% de los p-valores asociados con cada variable (del tipo mostrado
en la Tabla 1.4) estarán por debajo de 0.05 por casualidad (azar). En otras palabras,
esperamos ver aproximadamente cinco pequeños p-valores, incluso en la ausencia de una
verdadera asociación entre los predictores y la respuesta.

En efecto, existe una gran posibilidad de que vamos a observar al menos un p-valor por
debajo de 0.05 por puro azar! Por lo tanto, si se utilizan los estadísticos t individuales y los
p-valores asociados para decidir si existe o no una asociación entre las variables y la
respuesta, existe una probabilidad muy alta de que se concluya erróneamente de que
existe una relación. Sin embargo, el estadístico F no sufre de este problema, ya que se
ajusta por el número de predictores. Por lo tanto, si H0 es cierto, existe sólo un 5% de
probabilidad de que el estadístico F resulte con un p-valor por debajo de 0.05,
independientemente del número de predictores o del número de observaciones.

El enfoque de usar un estadístico F para probar cualquier asociación entre los predictores
y la respuesta funciona cuando p es relativamente pequeño y realmente pequeño
comparado con n. Sin embargo, a veces tenemos un gran número de variables. Si p> n
entonces hay más coeficientes βj para estimar que observaciones con las cuales
estimarlos. En este caso, ni siquiera podemos ajustar el modelo de regresión lineal
múltiple usando mínimos cuadrados, por lo que no se puede utilizar el estadístico F, ni
tampoco la mayoría de los otros conceptos que hemos visto hasta ahora en este capítulo.
Cuando p es grande, se pueden usar algunos de los enfoques discutidos en la siguiente
sección, como la selección hacia adelante. Este ajuste de alta dimensionalidad se discutirá
después.

Dos: La decisión sobre las variables que son importantes

Como se discutió en la sección anterior, el primer paso en un análisis de regresión múltiple


es calcular el estadístico F y examinar el p-valor asociado. Si concluimos sobre la base de
ese p-valor que al menos uno de los predictores está relacionado con la respuesta,
entonces es natural preguntarse cuáles predictores son los culpables! Podríamos mirar los
p-valores individuales como en la Tabla 1.4, pero como se discutió, si p es grande, es
probable que hagamos algunos descubrimientos falsos. Es posible que todos los
predictores estén asociados con la respuesta, pero es más frecuente que la respuesta sólo
esté relacionada con un subconjunto de los predictores. La tarea de determinar qué
predictores están asociados con la respuesta, con el fin de ajustar un modelo único que
involucre sólo aquellos predictores, se conoce como la selección de variables. Aquí sólo
proporcionaremos un breve esbozo de algunos enfoques clásicos.

Idealmente, nos gustaría realizar una selección de variables probando una gran cantidad
de modelos diferentes, cada uno de los cuales contiene un subconjunto diferente de los
predictores. Por ejemplo, si p=2, entonces podemos considerar cuatro modelos: (1) un
modelo que no contenga variables, (2) un modelo que contenga sólo X1, (3) un modelo
que contenga sólo X2 y (4) un modelo que contenga ambos X1 y X2. A continuación,
podemos seleccionar el mejor modelo de todos los modelos que hemos considerado.
¿Cómo se determina cuál modelo es el mejor? Se pueden utilizar varios estadísticos para
juzgar la calidad de un modelo. Estos incluyen el estadístico Cp de Mallows, el criterio de
información de Akaike (AIC), el criterio de información bayesiano (BIC) y el R2 ajustado.
También podemos determinar qué modelo es el mejor graficando varios resultados del
modelo, tales como los residuos, para buscar patrones.

Desafortunadamente, hay un total de 2p modelos que contienen subconjuntos de p


variables. Esto significa que incluso para p moderado, probar cada posible subconjunto de
los predictores es inviable. Por ejemplo, vimos que si p = 2, entonces hay 2 2 = 4 modelos
que considerar. Pero si p=30, entonces debemos considerar 230=1.073.741.824 modelos!
Esto no es práctico. Por lo tanto, a menos que p sea muy pequeño, no podemos
considerar todos los 2p modelos, y en su lugar necesitamos un enfoque automatizado y
eficiente para elegir un conjunto más pequeño de modelos a considerar. Existen tres
enfoques clásicos para esta tarea:

• Selección hacia adelante. Comenzamos con el modelo nulo, es decir, un modelo que
contiene un intercepto pero no predictores. A continuación, se ajustan p regresiones
simples lineales y se añade al modelo nulo la variable que da como resultado el RSS
más bajo. Luego añadimos a ese modelo la variable que da como resultado el RSS más
bajo para el nuevo modelo de dos variables. Este enfoque se continúa hasta que se
cumple alguna regla de detención.

• Selección hacia atrás. Comenzamos con todas las variables del modelo y eliminamos la
variable con el mayor p-valor, es decir, la variable que es menos significativa desde el
punto de vista estadístico. El nuevo modelo con (p-1) variables se ajusta y se elimina la
variable con el mayor p-valor. Este procedimiento continúa hasta que se alcanza una
regla de detención. Por ejemplo, podemos detener el proceso cuando todas las
variables restantes tienen un p-valor por debajo de cierto umbral.

• Selección mixta. Esta es una combinación de selección hacia adelante y hacia atrás.
Comenzamos sin variables en el modelo, y como con la selección de selección hacia
adelante, agregamos la variable que proporciona el mejor ajuste. Continuamos
agregando variables una por una. Por supuesto, como hemos observado con el
ejemplo de publicidad, los p-valores para las variables pueden llegar a ser más grandes
a medida que se agregan nuevos predictores al modelo. Por lo tanto, si en cualquier
punto el p-valor para una de las variables en el modelo se eleva por encima de cierto
umbral, entonces eliminamos esa variable del modelo. Continuamos realizando estos
pasos hacia adelante y hacia atrás hasta que todas las variables del modelo tengan un
p-valor lo suficientemente bajo, y todas las variables fuera del modelo tendrían un
gran p-valor si se añadieran al modelo.

La selección hacia atrás no se puede usar si p>n, mientras que la selección hacia adelante
siempre se puede usar. La selección hacia adelante es un enfoque ambicioso, y al
comienzo puede incluir variables que luego se vuelven redundantes. La selección mixta
puede remediar esto.

Tres: El Ajuste del Modelo

Dos de las medidas numéricas más comunes de ajuste de modelo son el RSE y R 2, la
fracción de varianza explicada. Estas cantidades se calculan e interpretan de la misma
manera que para la regresión lineal simple.

Recuerde que en la regresión simple, R2 es el cuadrado de la correlación de la respuesta y


la variable. En la regresión lineal múltiple, el R2 es igual a la Cor( Y , Ŷ )2, el cuadrado de la
correlación entre la respuesta y el modelo lineal ajustado; de hecho, una propiedad del
modelo lineal ajustado por mínimos cuadrados es que maximiza esta correlación entre
todos los modelos lineales posibles.

Un valor de R2 cercano a 1 indica que el modelo explica una gran parte de la varianza en la
variable de respuesta. Como ejemplo, vimos en la Tabla 1.6 que para los datos de
publicidad, el modelo que utiliza los tres medios publicitarios para predecir las ventas
tiene un R2 de 0.8972. Por otro lado, el modelo que utiliza sólo la televisión y la radio para
predecir las ventas tiene un valor R2 de 0.89719. En otras palabras, hay un pequeño
aumento en R2 si incluimos la publicidad de periódicos en el modelo que ya contiene
publicidad en televisión y radio, aunque vimos anteriormente que el p-valor para la
publicidad de periódicos en la Tabla 1.4 no es significativo. Resulta que R2 aumentará
siempre cuando se agreguen más variables al modelo, incluso si esas variables sólo están
débilmente asociadas con la respuesta.

Esto se debe al hecho de que la adición de otra variable a las ecuaciones de mínimos
cuadrados debe permitirnos ajustar los datos de entrenamiento (aunque no
necesariamente los datos de prueba) con mayor precisión. Por lo tanto, el estadístico R2,
que también se calcula en los datos de entrenamiento, debe aumentar. El hecho de que la
adición de publicidad en los periódicos al modelo que sólo contiene publicidad en la
televisión y en la radio produce sólo un pequeño incremento en R2 proporciona pruebas
adicionales de que el periódico puede ser eliminado del modelo. Esencialmente, el
periódico no proporciona una mejora real en el ajuste del modelo a las muestras de
entrenamiento, y su inclusión probablemente dará lugar a malos resultados en las
muestras de prueba independientes debido al sobreajuste.

Por el contrario, el modelo que contenía sólo TV como predictor tenía un R2 de 0.61 (Tabla
1.2). La adición de radio al modelo conduce a una mejora sustancial en R2. Esto implica
que un modelo que usa los gastos de televisión y radio para predecir las ventas es
sustancialmente mejor que uno que usa sólo publicidad en televisión. Podríamos
cuantificar esta mejora mirando el p-valor para el coeficiente de radio en un modelo que
contiene sólo TV y radio como predictores.

El modelo que contiene sólo TV y radio como predictores tiene un RSE de 1.681, y el
modelo que también contiene el periódico como predictor tiene un RSE de 1.686! (Tabla
1.6). Por el contrario, el modelo que contiene sólo TV tiene un RSE de 3.26 (Tabla 1.2).
Esto corrobora nuestra conclusión anterior de que un modelo que usa los gastos de
televisión y radio para predecir las ventas es mucho más preciso (en los datos de
entrenamiento) que uno que sólo usa el gasto en televisión.

Además, dado que los gastos de televisión y radio se utilizan como predictores, tampoco
tiene sentido utilizar el gasto de los periódicos como predictor en el modelo. Es
importante preguntarse cómo el RSE puede aumentar cuando el periódico se añade al
modelo dado que la RSS debe disminuir. En general el RSE se define como

(1.25)

la cual se simplifica a (1.15) para una regresión lineal simple. Por lo tanto, los modelos con
más variables pueden tener mayor RSE si la disminución en RSS es pequeña en relación
con el aumento en p.

Además de mirar los estadísticos RSE y R2 (ajustado), puede ser útil graficar los datos. Los
resúmenes gráficos pueden revelar problemas en el modelo que no son visibles desde los
valores obtenidos por los estadísticos.

Por ejemplo, la Figura 1.5 muestra un gráfico tridimensional de TV y radio versus ventas.
Se observa que algunos datos están por encima y algunas otras observaciones están por
debajo del plano de regresión de mínimos cuadrados. En particular, el modelo lineal
parece sobreestimar las ventas en los casos en que la mayor parte del dinero publicitario
se gastó exclusivamente en televisión o radio. Subestima las ventas para los casos en que
el presupuesto se dividió entre los dos medios de comunicación.

Figura 1.5

Este pronunciado patrón no lineal no puede ser modelado con precisión usando la
regresión lineal. Sugiere un efecto de sinergia o interacción entre los medios publicitarios,
por lo que la combinación de los medios de comunicación en conjunto da como resultado
un mayor impulso a las ventas que el uso de cualquier medio individual. En la Sección
1.3.2, discutiremos la extensión del modelo lineal para acomodar tales efectos sinérgicos a
través del uso de términos de interacción.

Cuatro: Predicciones

Una vez que se ha ajustado el modelo de regresión múltiple, es sencillo aplicar (1.21) para
predecir la respuesta Y sobre la base de un conjunto de valores para los predictores X1,
X2,. . . , Xp. Sin embargo, hay tres tipos de incertidumbre asociada con esta predicción.

1. Los coeficientes estimados ̂ 0 , ̂1 , …, ˆ p son estimaciones para β0, β1,. . . , βp.
Es decir, el plano de mínimos cuadrados
es sólo una estimación para el verdadero plano de regresión poblacional

La inexactitud en las estimaciones de los coeficientes está relacionada con el error


reducible visto antes. Podemos calcular un intervalo de confianza para determinar cuan
cercano estará Ŷ a f(X).

2. Por supuesto, en la práctica suponiendo que un modelo lineal para f(X) es una buena
aproximación de la realidad, hay una fuente adicional de error potencialmente reducible
que llamamos sesgo del modelo. Así que cuando usamos un modelo lineal, de hecho
estamos estimando la mejor aproximación lineal a la superficie verdadera. Sin embargo,
aquí ignoraremos esta discrepancia, y operaremos como si el modelo lineal fuera correcto.

3. Incluso si supiéramos qué es f(X), es decir, incluso si conociéramos los valores


verdaderos para β0, β1, … , βp, el valor de respuesta no puede ser predicho perfectamente
debido al error aleatorio 𝜖 en el modelo (1.21). 𝜖 es llamado el error irreducible. ¿Cuánto
discrepa Y de Ŷ ? El uso de intervalos de predicción responde a esta pregunta.

Los intervalos de predicción son siempre más amplios que los intervalos de confianza, ya
que incorporan tanto el error en la estimación de f(X) (el error reducible) como la
incertidumbre de cuánto diferirá un punto individual del plano de regresión poblacional
(el error irreducible).

Se utiliza un intervalo de confianza para cuantificar la incertidumbre que rodea las ventas
promedio en un gran número de ciudades. Por ejemplo, dado que en cada ciudad se
gastan $100,000 en publicidad de televisión y $20,000 en publicidad de radio, el intervalo
de confianza del 95% es [10,985, 11,528]. Esto significa que el 95% de los intervalos de
esta forma contendrán el verdadero valor de E(Y)=f(X).

Por otro lado, un intervalo de predicción puede usarse para cuantificar la incertidumbre
que rodea las ventas de una ciudad en particular. Dado que en una ciudad se gasta
$100,000 en publicidad de televisión y $20,000 en publicidad de radio, el intervalo de
predicción del 95% es [7,930, 14,580]. Esto significa que el 95% de los intervalos de esta
forma contendrán el verdadero valor de Y (las ventas) para esa ciudad. Ambos intervalos
están centrados en 11.256, pero el intervalo de predicción es sustancialmente más amplio
que el intervalo de confianza, lo que refleja la mayor incertidumbre sobre las ventas de
una ciudad en comparación con las ventas promedio en muchas ciudades.

1.3 Otras consideraciones en el modelo de regresión

1.3.1 Predictores cualitativos

Hasta ahora, hemos asumido que todas las variables en nuestro modelo de regresión
lineal son cuantitativas. Pero en la práctica, esto no es necesariamente el caso; A menudo
algunos predictores son cualitativos.

Por ejemplo, el conjunto de datos de crédito para individuos que se muestra en la figura
1.6 registra el saldo (promedio de la deuda de tarjetas de crédito), así como varios
predictores cuantitativos: edad, tarjetas (número de tarjetas de crédito), educación (años
de educación), ingreso (en miles de dólares), límite (límite de crédito) y calificación
(calificación crediticia). Cada panel de la Figura 1.6 es un diagrama de dispersión para un
par de variables que están identificadas por las etiquetas de fila y columna
correspondientes. Por ejemplo, el diagrama de dispersión a la derecha de la palabra
"Saldo" grafica directamente el saldo frente a la edad, mientras que el gráfico a la derecha
de "Edad" corresponde a la edad versus las tarjetas. Además de estas variables
cuantitativas, también tenemos cuatro variables cualitativas: sexo, estudiante (estatus
estudiantil), estatus (estado civil) y etnia (caucásica, afroamericana o asiática).

Predictores con sólo dos niveles

Suponga que deseamos investigar las diferencias en el saldo de tarjetas de crédito entre
hombres y mujeres, ignorando las otras variables por el momento. Si un predictor
cualitativo (también conocido como un factor) sólo tiene dos niveles, o categorías, o
valores posibles, entonces su incorporación en un modelo de regresión es muy simple.
Para esto se crea un indicador o variable dummy que toma dos valores numéricos
posibles. Por ejemplo, basándonos en la variable de género, podemos crear una nueva
variable que tome la forma

(1.26)
y esta variable se usa como una predictora en la ecuación de regresión. El modelo
resultante es

(1.27)

Figura 1.6

Ahora β0 se interpreta como el saldo promedio de la tarjeta de crédito para los hombres,
β0 + β1 como el saldo promedio de la tarjeta de crédito para las mujeres, y β1 como la
diferencia promedia en el saldo de la tarjeta de crédito entre las mujeres y los hombres.
La Tabla 1.7 muestra las estimaciones de coeficientes y otra información asociada con el
modelo (1.27). Se estima que la deuda promedio de tarjetas de crédito para los hombres
es de $509.80, mientras que para las mujeres se calcula que tienen $19.73 de deuda
adicional para un total de $ 509.80 + $ 19.73 = $ 529.53. Sin embargo, observamos que el
p-valor para la variable dummy es muy alto. Esto indica que no hay evidencia estadística
de una diferencia en el saldo promedio de tarjetas de crédito entre los géneros.

Tabla 1.7

La decisión de codificar a las mujeres como 1 y los hombres como 0 en (1.27) es arbitraria,
y no tiene ningún efecto en el ajuste de regresión, pero sí altera la interpretación de los
coeficientes. Si hubiéramos codificado a los hombres como 1 y las mujeres como 0,
entonces las estimaciones para β0 y β1 habrían sido 529.53 y -19.73, respectivamente, lo
que conduce una vez más a una predicción de la deuda de tarjetas de crédito de $529.53-
$19.73 = $509.80 para los hombres y una predicción de $529.53 para las mujeres.
Alternativamente, en lugar de un esquema de codificación 0/1, podríamos crear una
variable dummy

y usar esta variable en la ecuación de regresión. El modelo resultante es

En este caso, β0 puede ser interpretado como el saldo promedio de la tarjeta de crédito
promedio (ignorando el efecto de género), y β1 es la cantidad que las mujeres están por
encima del promedio y que los hombres están por debajo del promedio. En este ejemplo,
la estimación para β0 es $519.665, a medio camino entre los promedios de hombres y
mujeres de $509.80 y $529.53. La estimación para β1 es $9.865, que es la mitad de $19.73,
la diferencia media entre las mujeres y los hombres. Es importante señalar que las
predicciones finales de los saldos de crédito de los hombres y las mujeres serán idénticas,
independientemente del esquema de codificación utilizado. La única diferencia está en la
forma en que se interpretan los coeficientes.

Predictores cualitativos con más de dos niveles

Cuando un predictor cualitativo tiene más de dos niveles, una sola variable dummy no
puede representar todos los valores posibles. En esta situación, podemos crear variables
dummy adicionales. Por ejemplo, para la variable étnica se crean dos variables ficticias. La
primera podría ser

(1.28)

y la segunda sería

(1.29)

Estas dos variables pueden ser usadas en la ecuación de regresión para obtener el modelo

(3.30)

Ahora β0 puede ser interpretado como el saldo promedio de tarjetas de crédito para los
Afroamericanos, β1 puede interpretarse como la diferencia en el saldo promedio entre las
categorías Asiática y Afroamericana, y β2 puede interpretarse como la diferencia en el
saldo promedio entre las categorías Caucásica y Afroamericana.

Siempre habrá una variable dummy menos que el número de niveles que tenga la variable
cualitativa. El nivel sin variable dummy, Afroamericano en este ejemplo, se conoce como
la línea de base. De la Tabla 1.8, vemos que el saldo estimado para la línea base,
Afroamericano, es $531.00.
Tabla 1.8

Se estima que la categoría Asiática tendrá 18.69 dólares menos de deuda que la categoría
Afroamericana y que la categoría Caucásica tendrá menos 12.50 dólares de deuda que la
categoría Afroamericana. Sin embargo, los p-valores asociados con las estimaciones de los
coeficientes para las dos variables ficticias son muy grandes, lo que sugiere que no hay
evidencia estadística de una diferencia real en el saldo de tarjetas de crédito entre las
etnias.

Una vez más, el nivel seleccionado como categoría de línea de base es arbitrario y las
predicciones finales para cada grupo serán las mismas independientemente de esta
elección. Sin embargo, los coeficientes y sus p-valores dependen de la elección de la
codificación de la variable ficticia. En lugar de confiar en los coeficientes individuales,
podemos usar una prueba F para probar H0: β1=β2=0, la cual no depende de la
codificación. Esta prueba F tiene un p-valor de 0,96, lo que indica que no podemos
rechazar la hipótesis nula de que no hay relación entre saldo y etnicidad.

El uso de este enfoque variable dummy no presenta dificultades cuando se incorporan


tanto los predictores cuantitativos como cualitativos. Por ejemplo, para regresar el saldo
sobre una variable cuantitativa como el ingreso y una variable cualitativa como
estudiante, debemos simplemente crear una variable ficticia para estudiante y luego
ajustar un modelo de regresión múltiple usando el ingreso y la variable ficticia como
predictores del saldo de la tarjeta de crédito.

Hay muchas maneras diferentes de codificar las variables cualitativas además del enfoque
de variable ficticia que se toma aquí. Todos estos enfoques conducen a ajustes de
modelos equivalentes, pero los coeficientes son diferentes, tienen diferentes
interpretaciones, y están diseñados para medir contrastes particulares.

1.3.2 Extensiones del modelo lineal

El modelo de regresión lineal estándar (1.19) proporciona resultados interpretables y


funciona bastante bien en muchos problemas del mundo real. Sin embargo, hace varios
supuestos altamente restrictivos que a menudo son violados en la práctica. Dos de los
supuestos más importantes afirman que la relación entre los predictores y la respuesta es
aditiva y lineal.

La suposición aditiva significa que el efecto de los cambios en un predictor Xj sobre la


respuesta Y es independiente de los valores de los otros predictores. La hipótesis lineal
establece que el cambio en la respuesta Y debido a un cambio de una unidad en Xj es
constante, independientemente del valor de Xj. A continuación se presentan algunos
métodos que relajan estos dos supuestos. Se estudiarán brevemente algunos enfoques
clásicos comunes para extender el modelo lineal.

Eliminación del supuesto de aditividad

En el análisis anterior de los datos de Publicidad, llegamos a la conclusión de que tanto la


televisión como la radio parecen estar asociadas con las ventas. Los modelos lineales que
formaron la base para esta conclusión supusieron que el efecto sobre las ventas de
aumentar un medio publicitario es independiente de la cantidad gastada en los otros
medios. Por ejemplo, el modelo lineal (1.20) establece que el efecto promedio sobre las
ventas de un aumento de una unidad en TV es siempre β1, independientemente de la
cantidad gastada en radio.

Sin embargo, este modelo tan simple puede ser incorrecto. Supongamos que gastar
dinero en propaganda radial realmente aumenta la efectividad de la publicidad televisiva,
de modo que el coeficiente de la pendiente para TV debería aumentar a medida que
aumenta el gasto en radio. En esta situación, dado un presupuesto fijo de 100,000 dólares,
gastar la mitad en la radio y la mitad en la televisión puede aumentar las ventas más que
asignar la cantidad total a la televisión o a la radio. En marketing, esto se conoce como un
efecto de sinergia, y en estadística se conoce como un efecto de interacción. La Figura 1.5
sugiere que tal efecto puede estar presente en los datos de publicidad.

Observe que cuando uno de los niveles de TV o radio es bajo, las ventas verdaderas son
inferiores a las previstas por el modelo lineal. Pero cuando la publicidad se divide entre los
dos medios, entonces el modelo tiende a subestimar las ventas. Considere el modelo de
regresión lineal estándar con dos variables,

Según este modelo, si aumentamos X1 en una unidad, entonces Y aumentará en un


promedio de β1 unidades. Observe que la presencia de X2 no altera esta afirmación, es
decir, independientemente del valor de X2, un incremento de una unidad en X1 dará lugar
a un incremento de unidad β1 en Y. Una forma de ampliar este modelo para permitir
efectos de interacción es incluir un tercer predictor, llamado término de interacción, que
se construye calculando el producto de X1 y X2. Esto produce el modelo

(1.31)

¿Cómo la inclusión de este término de la interacción relaja el supuesto de aditividad?


Observe que (1.31) se puede reescribir como

(1.32)

Donde 1  1  3 X 2 . Dado que 1 cambia con X2, el efecto de X1 en Y ya no es


constante: el valor de X2 cambiará el impacto de X1 en Y.

Por ejemplo, suponga que se quiere estudiar la productividad de una fábrica. Se desea
predecir el número de unidades producidas sobre la base del número de líneas de
producción y el número total de trabajadores. Parece probable que el efecto de aumentar
el número de líneas de producción dependerá del número de trabajadores, ya que si no
hay trabajadores disponibles para operar las líneas, el aumento del número de líneas no
aumentará la producción. Esto sugiere que sería apropiado incluir un término de
interacción entre líneas y trabajadores en un modelo lineal para predecir las unidades.

Suponga que cuando se ajusta el modelo, obtenemos

En otras palabras, añadir una línea adicional aumentará el número de unidades


producidas por 3.4 + 1.4 × trabajadores. Por lo tanto, cuanto más trabajadores tengamos,
más fuerte será el efecto de las líneas de producción.

Regresando al ejemplo de Publicidad, un modelo lineal que utiliza radio, TV, y una
interacción entre los dos para predecir las ventas toma la forma
(1.33)

Podemos interpretar β3 como el aumento de la efectividad de la publicidad televisiva para


un incremento de una unidad en la publicidad radial (o viceversa). Los coeficientes que
resultan del ajuste del modelo (1.33) se presentan en la Tabla 1.9.

Tabla 1.9

Los resultados de la Tabla 1.9 sugieren fuertemente que el modelo que incluye el término
de interacción es superior al modelo que contiene sólo los efectos principales. El p-valor
para el término de interacción, TV x radio, es extremadamente bajo, indicando que hay
una fuerte evidencia de que Ha: β3 es diferente de 0. En otras palabras, está claro que la
verdadera relación no es aditiva. El R2 para el modelo (1.33) es 96.8%, comparado con
solamente 89.7% para el modelo que predice ventas usando la TV y la radio sin un término
de la interacción. Esto significa que (96,8-89,7)/(100-89,7) = 69% de la variabilidad en las
ventas que permanece después de ajustar el modelo aditivo se ha explicado por el
término de interacción.

Las estimaciones de los coeficientes en la Tabla 1.9 sugieren que un aumento en la


publicidad de televisión de $1,000 está asociado con el aumento de ventas de

( ̂1 + ̂ 3 ×radio) × 1,000 = 19+1.1×radio unidades.

Y un aumento de la publicidad en la radio de $1,000 se asociará con un aumento en las


ventas de

( ̂ 2 + ̂ 3 ×TV)×1,000=29+1.1× TV unidades.

En este ejemplo, los p-valores asociados con TV, radio y el término de interacción son
todos estadísticamente significativos (Tabla 1.9), por lo que es obvio que las tres variables
deben ser incluidas en el modelo. Sin embargo, a veces ocurre que un término de
interacción tiene un p-valor pequeño, pero los efectos principales asociados (en este caso,
televisión y radio) no.

El principio jerárquico establece que si se incluye una interacción en un modelo, también


debemos incluir los efectos principales, incluso si los p-valores asociados con sus
coeficientes no son significativos. En otras palabras, si la interacción entre X1 y X2 parece
importante, entonces deberíamos incluir tanto X1 como X2 en el modelo, incluso si las
estimaciones de sus coeficientes tienen grandes p-valores. La razón de este principio es
que si X1 × X2 está relacionado con la respuesta, entonces si los coeficientes de X1 o X2 son
exactamente cero es de poco interés. También X1 × X2 se correlaciona típicamente con X1 y
X2, y así dejarlas fuera tiende a alterar el significado de la interacción.

En el ejemplo anterior, se consideró una interacción entre la TV y la radio, ambas variables


cuantitativas. Sin embargo, el concepto de interacción se aplica tanto a variables
cualitativas como a una combinación de variables cuantitativas y cualitativas. De hecho,
una interacción entre una variable cualitativa y una variable cuantitativa tiene una
interpretación particularmente importante. Consideremos el conjunto de datos de Crédito
de la Sección 1.3.1 y supongamos que deseamos predecir el saldo usando las variables de
ingreso (cuantitativo) y de estudiante (cualitativo). En ausencia de un término de
interacción, el modelo toma la forma

(1.34)

Observe que esto equivale a ajustar a los datos dos rectas paralelas, una para los
estudiantes y otra para los no estudiantes. Las rectas para estudiantes y no estudiantes
tienen interceptos diferentes, β0+β2 versus β0, pero la misma pendiente, β1. Esto se ilustra
en el panel izquierdo de la figura 1.7. El hecho de que las rectas sean paralelas significa
que el efecto promedio sobre el saldo de un aumento en una unidad de ingresos no
depende de si el individuo es o no un estudiante.

Esto representa una limitación potencialmente seria del modelo, ya que de hecho un
cambio en los ingresos puede tener un efecto muy diferente en el saldo de la tarjeta de
crédito de un estudiante versus un no estudiante. Esta limitación puede ser abordada
mediante la adición de una variable de interacción, creada multiplicando el ingreso por la
variable dummy para estudiante. Nuestro modelo ahora se convierte en

(1.35)

Una vez más, tenemos dos rectas de regresión diferentes para los estudiantes y los no-
estudiantes. Pero ahora esas rectas de regresión tienen diferentes interceptos, β0+β2
frente a β0, así como diferentes pendientes, β1+β3 frente a β1. Esto permite la posibilidad
de que los cambios en los ingresos puedan afectar los saldos de tarjetas de crédito de
estudiantes y no estudiantes de manera diferente. El panel derecho de la figura 1.7
muestra las relaciones estimadas entre ingreso y saldo para estudiantes y no estudiantes
en el modelo (1.35). Observamos que la pendiente para los estudiantes es menor que la
pendiente para los no-estudiantes. Esto sugiere que los aumentos en los ingresos están
asociados con aumentos más pequeños en el saldo de la tarjeta de crédito entre los
estudiantes en comparación con los no estudiantes.

Figura 1.7
Relaciones no lineales

Como se discutió anteriormente, el modelo de regresión lineal (1.19) asume una relación
lineal entre la respuesta y los predictores. Pero en algunos casos, la verdadera relación
entre la respuesta y los predictores puede ser no lineal. En lo que sigue se presenta una
manera muy simple de extender el modelo lineal para acomodar las relaciones no lineales,
utilizando la regresión polinomial.

Considere la Figura 1.8, en la que se muestra el mpg (consumo de gas en millas por galón)
y la potencia de un grupo de automóviles en el conjunto de datos denominado Auto. La
línea naranja representa el ajuste de la regresión lineal. Hay una relación clara entre mpg
y caballos de fuerza, pero parece claro que esta relación es de hecho no lineal: los datos
sugieren una relación curvada. Un enfoque simple para incorporar asociaciones no
lineales en un modelo lineal es incluir transformaciones de los predictores en el modelo.
Por ejemplo, los puntos en la Figura 1.8 parecen tener una forma cuadrática, lo que
sugiere que un modelo de la forma

(1.36)

puede proporcionar un mejor ajuste. La ecuación (1.36) implica la predicción de mpg


usando una función no lineal de los caballos de fuerza. ¡Pero sigue siendo un modelo
lineal! Es decir, (1.36) es simplemente un modelo de regresión lineal múltiple con
X1=caballos de fuerza y X2=caballos de fuerza2. Por lo tanto, podemos utilizar el software
de regresión lineal estándar para estimar β0, β1 y β2 con el fin de producir un ajuste no
lineal. La curva azul de la figura 1.8 muestra el ajuste cuadrático a los datos resultante. El
ajuste cuadrático parece ser sustancialmente mejor que el ajuste obtenido cuando sólo se
incluye el término lineal. El R2 del ajuste cuadrático es 0.688, en comparación con 0.606
para el ajuste lineal, y el p-valor en la Tabla 1.10 para el término cuadrático es muy
significativo.

Tabla 1.10
Si la inclusión de caballos de fuerza2 produjo a una gran mejora en el modelo, ¿por qué no
incluir caballos de fuerza3, caballos de fuerza4, o incluso caballos de fuerza5? La curva
verde de la Figura 1.8 muestra el ajuste que resulta de incluir todos los polinomios hasta el
quinto grado en el modelo (1.36). El ajuste resultante parece innecesariamente ondulado,
es decir, no está claro que la inclusión de los términos adicionales realmente conduzca a
un mejor ajuste a los datos.
La aproximación que acabamos de describir para extender el modelo lineal para acomodar
relaciones no lineales se conoce como regresión polinomial, ya que hemos incluido
funciones polinomiales de los predictores en el modelo de regresión.

Figura 1.8

1.3.3 Problemas potenciales

Cuando ajustamos un modelo de regresión lineal a un determinado conjunto de datos,


pueden surgir muchos problemas. Los más comunes entre estos son los siguientes:

1. No linealidad de las relaciones respuesta-predictor.

2. Correlación de los términos de error.


3. Variación no constante de los términos de error.

4. Valores atípicos.

5. Puntos de alto leverage (apalancamiento).

6. Colinealidad.
En la práctica, identificar y superar estos problemas es tanto un arte como una ciencia. En
la literatura se han escrito mucho sobre este tema. Se mostrará sólo un breve resumen de
algunos puntos clave.

1. No linealidad de los datos

El modelo de regresión lineal asume que existe una relación lineal entre los predictores y
la respuesta. Si la verdadera relación está lejos de ser lineal, casi todas las conclusiones
que extraemos del ajuste son sospechosas. Además, la precisión de predicción del modelo
puede reducirse significativamente.

Los gráficos residuales son una herramienta gráfica muy útil para identificar la no
linealidad. Dado un modelo de regresión lineal simple, podemos graficar los residuos,
ei  yi  ˆyi , contra el predictor xi. En el caso de un modelo de regresión múltiple puesto
que hay múltiples predictores, en su lugar podemos graficar los residuos contra los valores
predichos (o ajustados) ŷi . Idealmente, el gráfico residual no mostrará ningún patrón
distinguible. La presencia de un patrón puede indicar un problema con algún aspecto del
modelo lineal.

El panel izquierdo de la Figura 1.9 muestra un gráfico residual de la regresión lineal de


mpg sobre caballos de fuerza en el conjunto de datos Auto que se ilustró en la Figura 1.8.
La línea roja es un ajuste suave a los residuos, que se muestra con el fin de facilitar la
identificación de alguna tendencia. Los residuos presentan una clara forma de U, lo que
proporciona una fuerte indicación de no linealidad en los datos. Por el contrario, el panel
derecho de la Figura 1.9 muestra el gráfico residual que resulta del modelo (1.36), que
contiene un término cuadrático. El patrón anterior en los residuos prácticamente
desaparece, lo que sugiere que el término cuadrático mejora el ajuste a los datos.
Figura 1.9

Si la gráfica residual indica que hay asociaciones no lineales en los datos, entonces una
aproximación simple es utilizar transformaciones no lineales de los predictores, tales
2
como log X , X y X , en el modelo de regresión.

2. Correlación de los términos de error

Un supuesto importante del modelo de regresión lineal es que los términos de error, 𝜖1,
𝜖2 ,. . . , 𝜖𝑛 , no están correlacionados. ¿Qué significa esto? Por ejemplo, si los errores no
están correlacionados, entonces el hecho de que 𝜖𝑖 sea positivo proporciona poca o
ninguna información sobre el signo de 𝜖𝑖+1 . Los errores estándar que se calculan para los
coeficientes de regresión estimados o para los valores ajustados se basan en la suposición
de términos de error no correlacionados. Si de hecho hay correlación entre los términos
de error, entonces los errores estándar estimados tenderán a subestimar los verdaderos
errores estándar. Como resultado, los intervalos de confianza y predicción serán más
estrechos de lo que deberían ser.

Por ejemplo, un intervalo de confianza del 95% puede, en realidad, tener una probabilidad
mucho menor que 0.95 de contener el verdadero valor del parámetro. Además, los p-
valores asociados con el modelo serán más bajos de lo que deberían ser; esto podría
hacernos concluir erróneamente que un parámetro es estadísticamente significativo. En
resumen, si los términos de error están correlacionados, no podemos tener confianza en
nuestro modelo.
Como un ejemplo extremo, supongamos que duplicamos accidentalmente nuestros datos,
dando lugar a observaciones y términos de error idénticos en parejas. Si ignoramos esto,
en los cálculos del error estándar parecería como si tuviéramos una muestra de tamaño
2n, cuando de hecho sólo tenemos n observaciones. Los parámetros estimados serían los
mismos para los 2n datos como para las n observaciones, pero los intervalos de confianza
serían más estrechos por un factor de 2.

¿Por qué pueden ocurrir correlaciones entre los términos de error? Tales correlaciones
ocurren con frecuencia en el contexto de datos de series temporales, que consisten en
observaciones para las cuales se obtienen mediciones en puntos discretos en el tiempo.
En muchos casos, las observaciones que se obtienen en puntos de tiempo adyacentes
tendrán errores correlacionados positivamente. Con el fin de determinar si este es el caso
en un conjunto de datos dado, podemos graficar los residuos del modelo en función del
tiempo. Si los errores no están correlacionados, entonces no debería haber ningún patrón
distinguible.

Por otra parte, si los términos de error están correlacionados positivamente, entonces
podemos ver un seguimiento en los residuos, es decir, los residuos adyacentes pueden
tener valores similares. La Figura 1.10 proporciona una ilustración. En el panel superior,
vemos los residuos de un ajuste de regresión lineal a los datos generados con errores no
correlacionados. No hay evidencia de una tendencia relacionada con el tiempo en los
residuos. Por el contrario, los residuos en el panel inferior pertenecen a un conjunto de
datos en el que los errores adyacentes tenían una correlación de 0.9. Ahora existe un
patrón claro en los residuales, los residuos adyacentes tienden a tomar valores similares.
Finalmente, el panel central ilustra un caso más moderado en el que los residuos tenían
una correlación de 0.5. Todavía hay evidencia de seguimiento, pero el patrón es menos
claro.
Figura 1.10

Se han desarrollado muchos métodos para tener debidamente en cuenta las correlaciones
en los términos de error en los datos de series de tiempo. La correlación entre los
términos de error también puede ocurrir en datos que no son series de tiempo. Por
ejemplo, considere un estudio en el cual se quiere predecir las estaturas de los individuos
por medio de sus pesos. La suposición de errores no correlacionados podría ser violada si
algunos de los individuos en el estudio son miembros de la misma familia, o comen la
misma dieta, o han estado expuestos a los mismos factores ambientales. En general, la
suposición de errores no correlacionados es extremadamente importante para la
regresión lineal, así como para otros métodos estadísticos, y un buen diseño experimental
es crucial para mitigar el riesgo de tales correlaciones.
3. Variación no constante de los términos de error

Otra hipótesis importante del modelo de regresión lineal es que los términos de error
tienen una varianza constante, Var(𝜖𝑖 )=σ2. Los errores estándar, los intervalos de
confianza y las pruebas de hipótesis asociadas con el modelo lineal se basan en este
supuesto.

Desafortunadamente, es frecuente que las variaciones de los términos de error no sean


constantes. Por ejemplo, las variaciones de los términos de error pueden aumentar con el
valor de la respuesta. Se puede identificar variaciones no constantes en los errores, o
heterocedasticidad, por la presencia de una forma de embudo en el gráfico residual. Un
ejemplo se muestra en el panel izquierdo de la Figura 1.11, en el que la magnitud de los
residuos tiende a aumentar con los valores ajustados. Cuando se enfrenta a este
problema, una posible solución es transformar la respuesta Y usando una transformación
cóncava tal como log Y o Y .

Dicha transformación resulta en una mayor cantidad de contracción de las respuestas


mayores, dando lugar a una reducción de la heterocedasticidad. El panel derecho de la
Figura 1.11 muestra el gráfico residual después de transformar la respuesta usando logY.
Los residuos ahora parecen tener una varianza constante, aunque hay alguna evidencia de
una ligera relación no lineal en los datos.

En algunos casos se puede tener una idea de cómo es la varianza de cada respuesta. Por
ejemplo, la i-ésima respuesta podría ser un promedio de ni observaciones originales. Si
cada una de estas observaciones originales no está correlacionada y tiene varianza σ2,
entonces su promedio tiene una varianza  i2   2 / ni . En este caso, un remedio simple
es ajustar nuestro modelo por mínimos cuadrados ponderados, con pesos proporcionales
a las varianzas inversas, es decir, i  ni , en este caso. La mayoría del software de
regresión lineal permite estas ponderaciones en las observaciones.
Figura 1.11

4. Valores atípicos

Un valor atípico (outlier) es un punto para el cual yi está lejos del valor predicho por el
modelo. Los valores atípicos pueden surgir por una variedad de razones, tales como el
registro incorrecto de una observación durante la recolección de los datos.

El punto rojo (observación 20) en el panel izquierdo de la Figura 1.12 ilustra un valor
atípico. La línea sólida roja es el ajuste de regresión de mínimos cuadrados, mientras que
la línea azul discontinua es el ajuste de mínimos cuadrados después de la eliminación del
valor atípico. En este caso, la remoción del valor atípico tiene poco efecto en la recta de
mínimos cuadrados: no se produce casi ningún cambio en la pendiente, y hay una
reducción minúscula en el intercepto.

Es frecuente que un valor atípico que no tiene un valor inusual en el predictor, tenga poco
efecto en el ajuste de mínimos cuadrados. Sin embargo, si un valor atípico no tiene mucho
efecto en el ajuste de mínimos cuadrados, puede causar otros problemas. Por ejemplo, en
el ejemplo, el RSE es 1.09 cuando el valor atípico se incluye en la regresión, pero es sólo
0.77 cuando se elimina el valor atípico.

Dado que el RSE se utiliza para calcular todos los intervalos de confianza y los p-valores,
un aumento tan dramático causado por un único punto de datos puede tener
implicaciones para la interpretación del ajuste. De forma similar, la inclusión del valor
atípico hace que el R2 disminuya de 0,892 a 0,805.

Los gráficos de residuales se pueden utilizar para identificar los valores atípicos. En este
ejemplo, el outlier es claramente visible en el gráfico residual del panel central de la Figura
1.12. Pero en la práctica, puede ser difícil decidir cuán grande debe ser un residuo antes
de considerar el punto como un valor atípico. Para resolver este problema, en lugar de
graficar los residuos, podemos graficar los residuos estudentizados, los cuales se calculan
dividiendo cada residual ei por su error estándar estimado. Las observaciones cuyos
residuos estudentizados son mayores que 3 en valor absoluto son posibles valores
atípicos. En el panel derecho de la Figura 1.12, el residuo estudentizado del outlier es
mayor que 6, mientras que para todas las demás observaciones los residuales
estudentizados caen entre -2 y 2.

Si un valor atípico es debido a un error en la recolección o registro de datos, entonces una


solución es simplemente eliminar la observación. Sin embargo, se debe tener cuidado, ya
que un valor atípico puede indicar una deficiencia en el modelo, como la falta de un
predictor.

Figura 1.12

5. Puntos de alto Leverage (Apalancamiento)

Acabamos de ver que los valores atípicos son observaciones para las cuales la respuesta yi
es inusual dado el predictor xi. En contraste, las observaciones con alto leverage
(apalancamiento) tienen un valor inusual para xi. Por ejemplo, la observación 41 en el
panel izquierdo de la Figura 1.13 tiene un alto grado de leverage, ya que el valor predictor
para esta observación es grande con respecto a las otras observaciones. (Obsérvese que
los datos que se muestran en la Figura 1.13 son los mismos que los mostrados en la Figura
1.12, pero con la adición de una sola observación de alto leverage). La línea sólida roja es
el ajuste por mínimos cuadrados de los datos, mientras que la línea azul discontinua es el
ajuste producido cuando se retira la observación 41.

Comparando los paneles de la izquierda de las Figuras 1.12 y 1.13, observamos que
eliminar la observación de alto leverage tiene un impacto mucho más sustancial en la
línea de mínimos cuadrados que la eliminación del valor atípico. De hecho, las
observaciones de alto leverage tienden a tener un impacto considerable en la recta de
regresión estimada. Es preocupante que la recta de mínimos cuadrados esté fuertemente
afectada por sólo un par de observaciones, ya que cualquier problema con estos puntos
puede invalidar todo el ajuste. Por esta razón, es importante identificar observaciones de
alto leverage.

Figura 1.13

En una regresión lineal simple, las observaciones de alto leverage son bastante fáciles de
identificar, ya que simplemente podemos buscar observaciones para las cuales el valor del
predictor está fuera del rango normal de las observaciones de X. Pero en una regresión
lineal múltiple con muchos predictores, es posible tener una observación que esté bien
dentro del rango de los valores de cada predictor individual, pero que es inusual en
términos del conjunto completo de predictores. Un ejemplo se muestra en el panel
central de la Figura 1.13, para un conjunto de datos con dos predictores, X1 y X2. La
mayoría de los valores de predicción de las observaciones caen dentro de la elipse de
rayas azules, pero la observación roja está bien afuera de este rango. Pero ni su valor para
X1 ni su valor para X2 es inusual. Así que si examinamos sólo X1 o simplemente X2, no
notaremos este punto de alto leverage. Este problema es más pronunciado en regresiones
múltiples con más de dos predictores, porque no hay una manera simple de graficar todas
las dimensiones de los datos simultáneamente.
Para cuantificar el leverage de una observación, se calcula el estadístico de leverage. Un
gran valor de este estadístico indica una observación con alto leverage. Para una regresión
lineal simple,

(1.37)

De esta ecuación se desprende que hi aumenta con la distancia xi a x . Hay una extensión
simple de hi al caso de los predictores múltiples, aunque no proporcionamos la fórmula
aquí. El estadístico de leverage hi está siempre entre 1/n y 1, y el leverage promedio para
todas las observaciones es siempre igual a (p+1)/n. Por lo tanto, si una observación dada
tiene un estadístico de leverage que excede en gran medida (p+1)/n, entonces podemos
sospechar que el punto correspondiente tiene un alto apalancamiento.

El panel derecho de la Figura 1.13 proporciona una gráfica de los residuos estudentizados
versus hi para los datos en el panel izquierdo de la Figura 1.13. La observación 41 se
destaca con un estadístico de leverage muy alto, así como un alto residuo estudentizado.
En otras palabras, es una observación atípica, así como una observación de alto leverage.
Esta es una combinación particularmente peligrosa! Esta gráfica también revela la razón
por la que la observación 20 tuvo relativamente poco efecto sobre el ajuste de mínimos
cuadrados en la Figura 1.12: tiene un bajo nivel de leverage.

6. Colinealidad

La colinealidad se refiere a la situación en la cual dos o más variables predictoras están


estrechamente relacionadas entre sí. El concepto de colinealidad se ilustra en la Figura
1.14 utilizando el conjunto de datos de Default. En el panel izquierdo de la Figura 1.14, los
predictores límite (de crédito) y edad parecen no tener una relación obvia.

Por el contrario, en el panel de la derecha de la Figura 1.14, los predictores límite y


calificación (crediticia) están muy correlacionados entre sí, y decimos que son colineales.
La presencia de colinealidad puede llegar a crear problemas en el contexto de regresión,
ya que puede ser difícil separar los efectos individuales de las variables colineales sobre la
variable respuesta.
Figura 1.14

En otras palabras, dado que límite y calificación tienden a aumentar o disminuir juntos,
puede ser difícil determinar cómo cada uno está asociado por separado con la respuesta,
el saldo. La Figura 1.15 ilustra algunas de las dificultades que puede producir la
colinealidad. El panel izquierdo de la Figura 1.15 es un diagrama de contorno del RSS
(1.22) asociado con diferentes estimaciones posibles de los coeficientes para la regresión
del saldo sobre el límite y la edad. Cada elipse representa un conjunto de coeficientes que
corresponden al mismo RSS, para las elipses más cercanas al centro la RSS toma los
valores más bajos. Los puntos negros y las líneas discontinuas asociadas representan las
estimaciones de los coeficientes que dan como resultado la RSS más pequeña posible; en
otras palabras, éstas son las estimaciones de mínimos cuadrados.

Los ejes para los predictores límite y edad se han escalado de modo que la gráfica incluya
las estimaciones posibles del coeficiente que son hasta cuatro errores estándar en
cualquier lado de las estimaciones de los mínimos cuadrados. De esta manera, la gráfica
incluye todos los valores plausibles para los coeficientes. Por ejemplo, vemos que el
verdadero coeficiente de límite es casi seguramente un valor entre 0,15 y 0,20.

En contraste, el panel derecho de la Figura 1.15 muestra gráficas de contorno del RSS
asociadas con posibles estimaciones de coeficientes para la regresión del saldo sobre el
límite y la calificación, que sabemos que son altamente colineales. Ahora los contornos
recorren una estrecha región; existe una amplia gama de valores para las estimaciones de
coeficientes que resultan en valores iguales para RSS.
Por lo tanto, un pequeño cambio en los datos podría hacer que el par de valores de
coeficientes que producen el RSS más pequeño -es decir, las estimaciones de mínimos
cuadrados- se mueva a cualquier parte a lo largo de esta zona. Esto da lugar a una gran
incertidumbre en las estimaciones de los coeficientes. Obsérvese que la escala para el
coeficiente de límite ahora es de aproximadamente -0.2 a 0.2; Esto es un aumento de
ocho veces sobre el rango plausible del coeficiente de límite en la regresión con la edad.
Curiosamente, a pesar de que los coeficientes de límite y calificación ahora tienen mucha
más incertidumbre individual, seguramente se encontrarán en alguna parte en esta región
del contorno. Por ejemplo, no esperaríamos que el valor real de los coeficientes de límite
y de calificación sea -0.1 y 1 respectivamente, aun cuando tal valor sea plausible para cada
coeficiente individualmente.

Figura 1.15

Dado que la colinealidad reduce la precisión de las estimaciones de los coeficientes de


regresión, hace que el error estándar para ̂ j crezca. Recordemos que el estadístico t
para cada predictor se calcula dividiendo ̂ j por su error estándar. En consecuencia, la
colinealidad produce una disminución en el estadístico t. Como resultado, en presencia de
colinealidad, podemos no rechazar H0: βj=0. Esto significa que la potencia de la prueba de
hipótesis, es decir, la probabilidad de detectar correctamente un coeficiente no nulo, se
reduce por la colinealidad.

La Tabla 1.11 compara las estimaciones de los coeficientes obtenidas en dos modelos de
regresión múltiple separados. El primero es una regresión del saldo sobre edad y límite, y
el segundo es una regresión del saldo sobre calificación y límite.
Table 3.11

En la primera regresión, tanto la edad como el límite son muy significativos con p-valores
muy pequeños. En el segundo, la colinealidad entre límite y calificación ha provocado que
el error estándar para la estimación del coeficiente límite aumentara en un factor de 12 y
el p-valor aumentara a 0.701. En otras palabras, la importancia de la variable límite ha
sido enmascarada debido a la presencia de colinealidad.

Para evitar tal situación, es deseable identificar y abordar posibles problemas de


colinealidad mientras se ajusta al modelo. Una manera simple de detectar colinealidad es
mirar la matriz de correlación de los predictores. Un elemento de esta matriz que es
grande en valor absoluto indica un par de variables altamente correlacionadas, y por lo
tanto un problema de colinealidad en los datos. Desafortunadamente, no todos los
problemas de colinealidad pueden ser detectados mediante la inspección de la matriz de
correlación: es posible que exista una colinealidad entre tres o más variables incluso si
ningún par de variables tiene una correlación particularmente alta. Llamamos a esta
situación multicolinealidad.

En lugar de inspeccionar la matriz de correlación, una forma mejor de evaluar la


multicolinealidad es calcular el factor de inflación de la varianza (VIF). El valor más
pequeño posible para el VIF es 1, lo que indica la ausencia total de colinealidad.
Típicamente en la práctica hay una pequeña cantidad de colinealidad entre los
predictores. Como regla general, un valor VIF que excede de 5 o 10 indica una cantidad
problemática de colinealidad. El VIF para cada variable se puede calcular usando la
fórmula
donde RX2 j |X  j es el R2 de una regresión de Xj sobre los demás predictores. Si RX2 j |X  j es
cercano a 1, la colinealidad está presente , y el VIF será grande.

En los datos de crédito, una regresión del saldo sobre edad, calificación y límite indica que
los predictores tienen valores de VIF de 1,01, 160,67 y 160,59. Como sospechábamos, ¡hay
una considerable colinealidad en los datos!

Cuando se enfrenta al problema de la colinealidad, existen dos soluciones simples. La


primera es eliminar una de las variables problemáticas de la regresión. Normalmente esto
puede hacerse sin mucho compromiso con el ajuste de regresión, ya que la presencia de la
colinealidad implica que la información que esta variable proporciona sobre la respuesta
es redundante en presencia de las otras variables. Por ejemplo, si se regresa el saldo sobre
la edad y el límite, sin el predictor calificación, entonces los valores de VIF resultantes se
acercan al valor mínimo posible de 1 y el R2 desciende de 0,754 a 0,75. Por lo tanto, la
salida de la calificación del conjunto de predictores ha resuelto el problema de la
colinealidad sin comprometer el ajuste.

La segunda solución consiste en combinar las variables colineales en un único predictor.


Por ejemplo, podríamos tomar el promedio de versiones estandarizadas de límite y
calificación para crear una nueva variable que mida la solvencia crediticia.

1.4 El Plan de Mercadeo

Regresemos brevemente a las siete preguntas sobre los datos de Publicidad que nos
propusimos responder al principio de este capítulo.

1. ¿Existe una relación entre las ventas y el presupuesto?


Esta pregunta puede ser respondida ajustando un modelo de regresión múltiple de las
ventas sobre la televisión, la radio y el periódico, como en (1.20), y probando la hipótesis
H0: βTV = βradio = βnewspaper = 0. En la Sección 1.2.2 mostramos que el estadístico F puede
utilizarse para determinar si debemos o no rechazar esta hipótesis nula. En este caso, el
valor p correspondiente al estadístico F de la Tabla 1.6 es muy bajo, indicando evidencia
clara de una relación entre la publicidad y las ventas.

2. ¿Qué tan fuerte es la relación?


Discutimos dos medidas de exactitud del modelo en la Sección 1.1.3. En primer lugar, el
RSE estima la desviación estándar de la respuesta con respecto a la recta de regresión de
la población. Para los datos de publicidad, el RSE es de 1,681 unidades, mientras que el
valor medio de la respuesta es de 14,022, lo que indica un porcentaje de error de
aproximadamente 12%. En segundo lugar, el estadístico R2 registra el porcentaje de
variabilidad en la respuesta que se explica por los predictores. Los predictores explican
casi el 90% de la varianza en las ventas. Las estadísticas RSE y R2 se muestran en la Tabla
1.6.

3. ¿Qué medios contribuyen a las ventas?


Para responder a esta pregunta, podemos examinar los p-valores asociados con el
estadístico t de cada predictor (Sección 1.1.2). En la regresión lineal múltiple mostrada en
la Tabla 1.4, los p-valores para TV y radio son bajos, pero el p-valor para el periódico no lo
es. Esto sugiere que sólo la televisión y la radio están relacionadas con las ventas.

4. ¿Qué tan grande es el efecto de cada medio sobre las ventas?


Vimos en la Sección 3.1.2 que el error estándar de ̂ j puede ser usado para construir
intervalos de confianza para βj. Para los datos de Publicidad, los intervalos de confianza
del 95% son los siguientes: (0.043, 0.049) para TV, (0.172, 0.206) para radio y (-0.013,
0.011) para periódicos. Los intervalos de confianza para la televisión y la radio son
estrechos y lejos de cero, proporcionando evidencia de que estos medios están
relacionados con las ventas. Pero el intervalo para el periódico incluye cero, lo que indica
que la variable no es estadísticamente significativa dados los valores de TV y radio.

Vimos en la Sección 1.3.3 que la colinealidad puede resultar en errores estándar muy
amplios. ¿Podría ser la colinealidad el motivo de que el intervalo de confianza asociado
con el periódico sea tan amplio? Las puntuaciones de VIF son 1.005, 1.145 y 1.145 para
TV, radio y periódico, lo que sugiere que no hay evidencia de colinealidad.
Con el fin de evaluar la asociación de cada medio individualmente sobre las ventas,
podemos realizar tres regresiones lineales sencillas separadas. Los resultados se muestran
en las Tablas 1.1 y 1.3. Hay evidencia de una asociación extremadamente fuerte entre la
televisión y las ventas y entre la radio y las ventas. Hay evidencia de una ligera asociación
entre el periódico y las ventas, cuando se ignoran los valores de la televisión y la radio.

5. ¿Con qué precisión podemos predecir las ventas futuras?


La variable respuesta se puede predecir usando (3.21). La precisión asociada con esta
estimación depende de si se desea predecir una respuesta individual, Y = f(X) + 𝜖, o la
respuesta media, f(X) (Sección 1.2.2). Para la primera, se utiliza un intervalo de predicción,
y para la segunda se utiliza un intervalo de confianza. Los intervalos de predicción siempre
serán más amplios que los intervalos de confianza porque representan la incertidumbre
asociada con 𝜖, El error irreducible.
6. ¿Es la relación lineal?
En la sección 1.3.3, vimos que los gráficos de residuales se pueden utilizar para identificar
la no linealidad. Si las relaciones son lineales, entonces los gráficos residuales no deben
mostrar ningún patrón. En el caso de los datos de Publicidad, observamos un efecto no
lineal en la Figura 1.5, aunque este efecto también podría observarse en un gráfico
residual. En la Sección 1.3.2, se discutió la inclusión de las transformaciones de los
predictores en la regresión lineal para acomodar relaciones no lineales.

7. ¿Hay sinergia entre los medios publicitarios?


El modelo de regresión lineal estándar asume una relación aditiva entre los predictores y
la respuesta. Un modelo aditivo es fácil de interpretar porque el efecto de cada predictor
sobre la respuesta no está relacionado con los valores de los otros predictores. Sin
embargo, la suposición de aditividad puede ser poco realista para ciertos conjuntos de
datos. En la Sección 1.3.2, mostramos cómo incluir un término de interacción en el
modelo de regresión para acomodar las relaciones no aditivas. Un pequeño p-valor
asociado con el término de interacción indica la presencia de tales relaciones. La Figura
1.5 sugirió que los datos de Publicidad pueden no ser aditivos. La inclusión de un término
de interacción en el modelo da como resultado un aumento sustancial en R 2, de alrededor
de 90% a casi 97%.

1.5 Comparación de la regresión lineal con K-vecinos más cercanos (KNN)

La regresión lineal es un ejemplo de un enfoque paramétrico debido a que asume una


forma funcional lineal para f(X). Los métodos paramétricos tienen varias ventajas. A
menudo son fáciles de ajustar, porque se necesita estimar sólo un pequeño número de
coeficientes. En el caso de la regresión lineal, los coeficientes tienen interpretaciones
simples, y las pruebas de significación estadística se pueden realizar fácilmente. Sin
embargo, los métodos paramétricos tienen una desventaja: por construcción, hacen
suposiciones fuertes sobre la forma de f(X). Si la forma funcional especificada está lejos de
ser cierta y la precisión de la predicción es nuestra meta, entonces el método paramétrico
funcionará mal. Por ejemplo, si asumimos una relación lineal entre X e Y, pero la relación
verdadera está lejos de ser lineal, entonces el modelo resultante proporcionará un ajuste
pobre a los datos, y cualquier conclusión extraída de él será sospechosa.

Por el contrario, los métodos no paramétricos no asumen explícitamente una forma


paramétrica para f(X), y por lo tanto proporcionan un enfoque alternativo y más flexible
para realizar la regresión. Aquí consideraremos uno de los métodos no paramétricos más
simples y conocidos, la regresión de los K-vecinos más cercanos (regresión KNN).
El método de regresión KNN está estrechamente relacionado con el método de
clasificación KNN (más adelante se verá). Dado un valor para K y un punto de predicción
x0, la regresión KNN identifica primero las K observaciones de entrenamiento que están
más cerca a x0, representadas por N0. Luego estima f(x0) usando la media de todas las
respuestas en N 0. En otras palabras,

La Figura 1.16 ilustra dos ajustes de KNN en un conjunto de datos con p = 2 predictores. El
ajuste con K = 1 se muestra en el panel izquierdo, mientras que el panel del lado derecho
corresponde a K = 9. Vemos que cuando K = 1, el ajuste KNN interpola perfectamente las
observaciones de entrenamiento y, en consecuencia, adopta la forma de una función
escalonada. Cuando K = 9, el ajuste KNN sigue siendo una función escalonada, pero el
promedio de nueve observaciones produce regiones mucho más pequeñas de predicción
constante y, en consecuencia, un ajuste más suave.

Figura 1.16

En general, el valor óptimo de K dependerá de un tradeoff de sesgo-varianza. Un valor


pequeño para K proporciona un ajuste más flexible, que tendrá un bajo sesgo pero una
varianza alta. Esta varianza se debe al hecho de que la predicción en una región dada
depende enteramente de una sola observación. Por el contrario, valores mayores de K
proporcionan un ajuste más suave y menos variable; La predicción en una región es un
promedio de varios puntos, y así cambiar una observación tiene un efecto menor. Sin
embargo, el suavizado puede causar sesgo al enmascarar parte de la estructura en f(X).
¿En qué escenario un enfoque paramétrico, como la regresión lineal por mínimos
cuadrados, superará a un enfoque no paramétrico como la regresión KNN? La respuesta
es simple: el enfoque paramétrico superará el enfoque no paramétrico si la forma
paramétrica que se ha seleccionado está próxima a la forma verdadera de f. La Figura 1.17
proporciona un ejemplo con datos generados a partir de un modelo de regresión lineal
unidimensional. Las líneas negras sólidas representan f(X), mientras que las curvas azules
corresponden a los ajustes de KNN usando K = 1 y K = 9. En este caso, las predicciones de
K = 1 son demasiado variables, mientras que el ajuste mucho más suave con K = 9 está
más cerca de f(X).

Figura 1.17

Sin embargo, como la relación verdadera es lineal, es difícil que un enfoque no


paramétrico compita con la regresión lineal: el enfoque no paramétrico implica un costo
en varianza que no se compensa con una reducción en el sesgo. La línea azul discontinua
en el panel izquierdo de la Figura 1.18 representa la regresión lineal ajustada a los mismos
datos. Es casi perfecta. El panel derecho de la Figura 1.18 revela que la regresión lineal
supera a KNN para estos datos. La línea verde, representada gráficamente como una
función de 1/K, representa el error cuadrático medio (MSE) del conjunto de pruebas para
KNN. Los errores KNN están muy por encima de la recta punteada negra, que es el MSE
para la regresión lineal. Cuando el valor de K es grande, la regresión KNN se comporta sólo
un poco peor que la regresión de mínimos cuadrados en términos del MSE. A medida que
K decrece el comportamiento tiende a ser cada vez peor.
Figura 1.18

En la práctica, la verdadera relación entre X e Y rara vez es exactamente lineal. La Figura


1.19 examina los comportamientos relativos de la regresión de mínimos cuadrados y de
KNN bajo niveles crecientes de no linealidad en la relación entre X e Y. En la fila superior,
la relación verdadera es casi lineal. En este caso vemos que el MSE para la regresión lineal
es aún superior a la de KNN para valores bajos de K. Sin embargo, para K ≥ 4, KNN supera
a la regresión lineal. La segunda fila ilustra una desviación más fuerte de la linealidad. En
esta situación, KNN sustancialmente supera la regresión lineal para todos los valores de K.
Observe que a medida que aumenta la no linealidad, hay poco cambio en el conjunto de
los MSE para el método no paramétrico KNN, pero hay un gran aumento en el MSE de la
regresión lineal.
Figura 1.19

Las Figuras 1.18 y 1.19 muestran situaciones en las que KNN se comporta ligeramente
peor que la regresión lineal cuando la relación es lineal, pero mucho mejor que la
regresión lineal para situaciones no lineales. En una situación de la vida real en la que se
desconoce la verdadera relación, se podría llegar a la conclusión de que KNN debe ser
mejor que la regresión lineal porque será ligeramente inferior a la regresión lineal si la
relación verdadera es lineal y puede dar resultados sustancialmente mejores si la relación
verdadera no es lineal. Pero en realidad, incluso cuando la verdadera relación es
altamente no lineal, KNN puede proporcionar resultados inferiores a la regresión lineal. En
particular, tanto las Figuras 1.18 como 1.19 ilustran ajustes con p = 1 predictor. Pero en
dimensiones superiores, KNN a menudo se comporta peor que la regresión lineal.

La Figura 1.20 considera la misma situación fuertemente no lineal como en la segunda fila
de la Figura 1.19, excepto que se han añadido otros predictores de ruido que no están
asociados con la respuesta. Cuando p = 1 o p = 2, KNN supera a la regresión lineal. Pero
para p = 3 los resultados son mixtos, y para p ≥ 4 la regresión lineal es superior a KNN. De
hecho, el aumento de dimensión sólo ha causado un pequeño deterioro en el conjunto de
pruebas de regresión lineal MSE, pero ha causado un aumento de más de diez veces en el
MSE para KNN. Esta disminución en el rendimiento a medida que aumenta la dimensión
es un problema común para KNN, y resulta del hecho de que en dimensiones superiores
hay efectivamente una reducción en el tamaño de la muestra. En este conjunto de datos
hay 100 observaciones de entrenamiento; Cuando p = 1, esto proporciona suficiente
información para estimar con exactitud f(X). Sin embargo, el empleo de 100 observaciones
sobre p = 20 dimensiones da lugar a un fenómeno en el que una observación dada no
tiene vecinos cercanos -esta es la llamada maldición de la dimensionalidad. Es decir, las
observaciones K más cercanas a una observación de prueba dada x0 pueden estar muy
lejos de x0 en el espacio p-dimensional cuando p es grande, lo que lleva a una predicción
muy pobre de f(x0) y por lo tanto un ajuste pobre de KNN. Como regla general, los
métodos paramétricos tienden a superar a los enfoques no paramétricos cuando hay un
pequeño número de observaciones por predictor.

Figura 1.20

Incluso en problemas en los que la dimensión es pequeña, podríamos preferir la regresión


lineal a KNN desde el punto de vista de la interpretabilidad. Si el MSE de KNN es sólo
ligeramente inferior a la de la regresión lineal, podríamos estar dispuestos a renunciar a
un poco de exactitud de la predicción en aras de un modelo simple que se puede describir
en términos de sólo unos pocos coeficientes, y para los cuales los p-valores están
disponibles.

1.6 Laboratorio: Regresión lineal

Ver script: LAB_Regresión_Lineal.

También podría gustarte