Está en la página 1de 4

Multicolinealidad en la regresin mltiple

Definicin y efecto de la multicolinealidad

Un ejemplo de multicolinealidad

En el anlisis de regresin mltiple, los coeficientes de regresin a menudo se vuelven menos confiables conforme aumenta el grado de correlacin entre las variables independientes. Si existe un alto nivel de correlacin entre algunas de las variables independientes, nos enfrentamos a un problema que los estadsticos llaman multicolinealidad. La multicolinealidad puede presentarse si deseamos estimar la recuperacin de las ventas de una empresa y utilizamos tanto el nmero de vendedores empleados como sus salarios totales. Como los valores asociados con estas dos variables independientes tienen una correlacin alta, necesitamos usar slo un conjunto de ellos para realizar nuestra estimacin. De hecho, al agregar una segunda variable que est correlacionada con la primera, se distorsionan los valores de los coeficientes de regresin. Sin embargo, a menudo podemos predecir bien Y, incluso cuando haya multicolinealidad. Consideremos un ejemplo donde existe multicolinealidad para ver cmo afecta a la regresin. Durante los 12 meses pasados, el gerente del restaurante Pizza Shack ha estado poniendo una serie de anuncios en el peridico local. Los anuncios se programan y pagan el mes anterior a que aparezcan.
Regresin mltiple y modelado

588

Captulo 13

Tabla 13-4 Datos de ventas y anuncios para el restaurante Pizza Shack

Mes Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre Enero Febrero Marzo Abril

X1 Nmero de anuncios publicados


12 11 9 7 12 8 6 13 8 6 8 10

X2 Costo de anuncios publicados (cientos de dlares)


13.9 12.0 9.3 9.7 12.3 11.4 9.3 14.3 10.2 8.4 11.2 11.1

Y Venta total de pizzas (miles de dlares)


43.6 38.0 30.1 35.3 46.4 34.2 30.2 40.7 38.5 22.6 37.6 35.2

Dos regresiones simples

Uso de ambas variables explicativas en una regresin mltiple

Cada anuncio contiene un cupn que permite llevarse dos pizzas pagando solamente la de mayor precio. El gerente recolect los datos de la tabla 13-4 y le gustara utilizarlos para predecir las ventas de pizzas. En las figuras 13-6 y 13-7, se dieron los resultados de Minitab para las regresiones respectivas de las ventas totales sobre el nmero de anuncios y sobre el costo. Para la regresin sobre el nmero de anuncios, tenemos que el valor t observado es 3.95. Con 10 grados de libertad y un nivel de significancia de 0.01, se encontr que el valor t crtico (tomado de la tabla 2 del apndice) es 3.169. Como to tc (o de manera equivalente, como p es menor que 0.01), concluimos que el nmero de anuncios es una variable explicativa altamente significativa de las ventas totales. Note tambin que r 2 61.0%, de modo que el nmero de anuncios explica aproximadamente el 61% de la variacin en las ventas de pizzas. Para la regresin sobre el costo de los anuncios, el valor t observado es 4.54, de modo que el costo de los anuncios es una variable explicativa de las ventas totales todava ms significativa que el nmero de anuncios (para los que el valor t observado fue slo 3.95). En esta regresin, r 2 67.3%, as que el costo de los anuncios explica aproximadamente el 67% de la variacin de las ventas de pizzas. Como ambas variables explicativas son altamente significativas por s mismas, intentamos utilizar ambas en una regresin mltiple. El resultado se presenta en la figura 13-8. La regresin mltiple es altamente significativa como un todo, ya que la p de ANOVA es 0.006.

Figura 13-6 Regresin de las ventas sobre el nmero de anuncios con Minitab

Anlisis de regresin
La ecuacin de regresin es VENTAS = 16.9 + 2.08 ANUNCIOS Pronosticador Constante ANUNCIOS s = 4.206 Anlisis de varianza FUENTE Regresin Error Total GL 1 10 11 13.4 SC 276.31 176.88 453.19 MC 276.31 17.69 F 15.62 p 0.003 Coef 16.937 2.0832 DesvEst 4.982 0.5271 Cociente-t 3.40 3.95 p 0.007 0.003

R-sq = 61.0%

Inferencias sobre parmetros de poblacin

589

Figura 13-7 Regresin de las ventas sobre el costo de los anuncios con Minitab

Anlisis de regresin
La ecuacin de regresin es VENTAS = 4.17 + 2.87 COSTO Pronosticador Constante ANUNCIOS s = 3.849 Coef 4.173 2.8725 R-sq = 67.3% DesvEst 7.109 0.6330 Cociente-t 0.59 4.54 p 0.570 0.000

Anlisis de varianza FUENTE Regresin Error Total GL 1 10 11 SC 305.04 148.15 453.19 MC 305.04 14.81 F 20.59 p 0.000

Prdida de significancia individual

Correlacin entre dos variables explicativas

Ambas variables explican lo mismo

El coeficiente de determinacin mltiple es R2 68.4%, de manera que las dos variables juntas explican alrededor del 68% de la variacin de las ventas totales. Sin embargo, si observamos los valores p para las variables individuales de la regresin mltiple, vemos que, incluso al nivel 0.1, ninguna de las variables es una variable explicativa significativa. Qu sucedi? En la regresin simple, cada variable es altamente significativa, y en la regresin mltiple lo son de manera colectiva, pero no en forma individual. Esta aparente contradiccin se explica cuando observamos que el nmero de anuncios tiene una correlacin alta con el costo de los mismos. De hecho, la correlacin entre estas dos variables es r 0.8949, de modo que tenemos un problema de multicolinealidad en los datos. Podramos preguntarnos por qu estas dos variables no estn perfectamente correlacionadas. La razn es que el costo de un anuncio vara ligeramente, dependiendo del lugar que ocupa en el peridico. Por ejemplo, el domingo, los anuncios colocados en la seccin de televisin cuestan ms que los de la seccin de noticias, y el administrador de Pizza Shack ha colocado anuncios en cada una de estas secciones en diferentes ocasiones. Como X1 y X2 tienen una relacin estrecha, en efecto, cada una explica la misma parte de la variabilidad de Y. sta es la razn por la que obtenemos r 2 61.0% en la primera regresin simple, r 2 67.3% en la segunda regresin simple, y una r 2 de slo 68.4% en la regresin mltiple. Agre-

FIGURA 13-8 Regresin de Minitab para ventas sobre el nmero y el costo de los anuncios

Anlisis de regresin
La ecuacin de regresin es VENTAS = 6.58 + 0.62 ANUNCIOS + 2.14 COSTO Pronosticador Constante ANUNCIOS COSTO s = 3.989 Coef 6.584 0.625 2.139 R-sq = 68.4% DesvEst 8.542 1.120 1.479 Cociente-t 0.77 0.56 1.45 p 0.461 0.591 0.180

Anlisis de varianza FUENTE Regresin Error Total GL 2 9 11 SC 309.99 143.20 453.19 MC 154.99 15.91 F 9.74 p 0.006

590

Captulo 13

Regresin mltiple y modelado

Las contribuciones individuales no pueden separarse

gar el nmero de anuncios como segunda variable explicativa, adems del costo de los anuncios, explica nada ms alrededor del 1% adicional de la variacin de las ventas totales. En este punto, es justo preguntarse: qu variable realmente explica la variacin de las ventas totales en la regresin mltiple? La respuesta es que ambas la explican, pero no podemos separar sus contribuciones individuales, debido a que estn altamente correlacionadas entre s. En consecuencia, sus coeficientes en la regresin mltiple tienen errores estndar altos, valores t calculados relativamente bajos y valores prob | t | relativamente altos. De qu manera nos afecta esta multicolinealidad? Todava podemos hacer predicciones relativamente precisas cuando se encuentra presente: note que para la regresin mltiple (la salida se da en la figura 13-8), el error estndar de la estimacin, que determina el ancho de los intervalos de confianza para las predicciones es 3.989, mientras que para la regresin simple con el costo de los anuncios como variable explicativa (salida en la figura 13-7), tenemos se 3.849. Lo que no podemos hacer es predecir con mucha precisin cmo cambiarn las ventas si aumentamos en uno el nmero de anuncios. La regresin mltiple dice que b1 0.625 (esto es, cada anuncio aumenta las ventas totales de pizzas alrededor de $625), pero el error estndar de este coeficiente es 1.12 (es decir, aproximadamente $1,120).
cunto cambiar la variable dependiente si manipula las variables independientes. Entonces, el objetivo debe ser minimizar la multicolinealidad. Sugerencia: la mejor regresin mltiple es la que explica la relacin entre los datos al sealar la responsabilidad de la mayor proporcin de la variacin en la variable dependiente, con el menor nmero de variables independientes. Advertencia: no es una buena idea incluir demasiadas variables independientes slo porque cuenta con una computadora y un paquete de software para estadstica.

Sugerencia: el concepto de hacer inferencias respecto a una regresin mltiple es justo lo mismo que se hizo en el captulo 12, cuando hicimos inferencias respecto a una recta de regresin, excepto que ahora se emplean dos o ms variables independientes. Advertencia: la multicolinealidad es un problema que debe manejarse en la regresin mltiple y es necesario desarrollar una comprensin con sentido comn. Recuerde que todava puede hacer predicciones precisas cuando est presente. Pero recuerde tambin que no puede decir con mucha precisin
SUGERENCIAS Y SUPOSICIONES