Está en la página 1de 14

Unidad 4 / Escenario 8

Lectura fundamental

Regresión lineal múltiple

Contenido

1 Inferencias del modelo de regresión y modelo múltiple

2 Regresión lineal múltiple

3 Excel para regresión múltiple

Referencias

Palabras claves: regresión múltiple, correlación, pendiente, pronóstico.


1. Inferencias del modelo de regresión y modelo múltiple

1.1. Error estándar de la estimación

En la lectura anterior vimos que se puede encontrar un vector de residuos (error)  = y − ŷ en el que pocas veces los
valores observados coinciden con los de la estimación, donde realmente se está encontrando la distancia entre el
estimado y observado sea la más mı́nima.

Figura 1. Error estándar de la estimación.


Fuente: elaboración propia.

Para medir la confiabilidad de la regresión ŷ = BX, se utiliza el error estándar de estimación se , que mide la
dispersión o variabilidad de los valores observados alrededor de la recta de regresión, ver figura 1. Vamos a ver que
una lı́nea más exacta de un estimador va a tener un error estándar de la estimación más pequeño de lo contrario
va a tener una forma el error estándar de estimación más grande .

Figura 2. Comparación error estándar de la estimación.


Fuente: elaboración propia.

El error estándar de la estimación es:

POLITÉCNICO GRANCOLOMBIANO 1
rP
y 2 − β0 y − β1 xy
P P
se =
n−2

Se divide entre n-2 que son los grados de libertad. Se pierden 2 grados de libertad por los dos parámetros del
modelo de regresión.

Para el ejemplo que se trabajó en la semana anterior: Dado x el número de motos circulantes (millones) en una
semana en Bogotá y y los accidentes de tránsito(cientos) se quiere conocer cómo se relacionan ambas variables.

Tabla 1. Número de motos y accidentes de tránsito.


Número de motos en tránsito X (Millones) Número de accidentes de tránsito (Cientos)
4 2.0
4 1.3
5 1.5
6 2.0
9 2.8
11 3.0
13 3.5
14 3.0
17 4.0
18 4.5
Fuente: elaboración propia

En donde:

ŷ = 0.8175 + 0.1923x
P
y = 27.6
P
xy = 327.4

y 2 = 86.28
P

q
86.28−(0.8175∗27.6)−(0.1923∗327.4)
Encontramos que el error estándar es: se = (10−2) = 0.3078

Para los valores de y estimados puntualmente se puede obtener una estimación mediante un intervalo de confianza
para la recta de regresión o los valores estimados.

1.2. Intérvalo de confianza para la estimación

Para el cálculo del intervalo de confianza asumimos muestras pequeñas y no se conoce la desviación estándar de la
población, entonces se utiliza la distribución t-student con (n-2) grados de libertad, notada por la siguiente
expresión:

POLITÉCNICO GRANCOLOMBIANO 2
ŷ ± tSe

Ejemplo: para x: Número de motos en tránsito y y: Número de accidente tránsito , se tiene que la estimación
puntual para 10 millones de motos es:

ŷ = 0.8175 + 0.1923(10) = 2.7405

Para construir el intervalo de confianza vamos a fijar un nivel de confianza del 95 % y vamos a ubicar en una tabla
t-student con 8 grados de libertad (n-2), el valor según la tabla es t = 2, 31.

Figura 3. Valores tabla t con nivel de significancia 95 %.


Fuente: elaboración propia

El intérvalo queda en la siguiente forma.

2, 7405 ± (2, 31)(0, 3078)


Lı́mite inferior = 2,029
Lı́mite superior =3,4515

Con un nivel de confianza del 95 % se puede decir que para 10 millones de motos en tránsito se estiman entre 202
y 345 accidentes de tránsito.

POLITÉCNICO GRANCOLOMBIANO 3
1.3. Intérvalo de confianza para la pendiente β1

El intérvalo de confianza para el coeficiente de regresión o pendiente del modelo de regresión se puede calcular como:

β1 ± tα/2 SB

donde tα/2 es el valor de la distribución t student con (n-2) grados de libertad y SB es la desviación estándar del
parámetro β1 y se obtiene:

s
S2
SB =
(x − x̄)2
P

P
2 (y − ŷ)
S =
(n − 2)

Tabla 2: Cálculos previos para encontrar SB .


x y ŷ (y − ŷ)2 (x − x̄)2
4 2 1.5867 0.1708 37.21
4 1.3 1.5867 0.0821 16
5 1.5 1.779 0.0778 25
6 2 1.9713 0.00082 36
9 2.8 2.5482 0.063 81
11 3 2.9328 0.004515 121
13 3.5 3.3174 0.0333 169
14 3 3.5097 0.2597 196
17 4 4.0866 0.0074 289
18 4.5 4.2789 0.0488 324
Total 0.7491 1294.21
Fuente: elaboración propia

Con un nivel de confianza del 95 % el valor t = 2,31 El intervalo queda:

0, 1923 ± (2, 31)(0, 0085)


Lı́mite inferior = 0,17265
Lı́mite superior=0,21194

POLITÉCNICO GRANCOLOMBIANO 4
1.4. Prueba de Hipótesis sobre la pendiente

Es pertinente determinar la importancia de la variable independiente en el modelo de regresión para estimar los
valores de la variable dependiente, para esto se plantea la siguiente hipótesis:
H0 : β1 = 0
H1 : β1 6= 0
En donde la estadı́stica de prueba es:

β1
t=
SB

0.1923
t= 0.085 = 22.607

Como se puede observar en la figura 3 el valor del estadı́stico de prueba 22,607 cae en la zona de rechazo, lo cual
significa que está rechazándose la hipótesis nula H0 y aceptamos H1 es decir que el número de motos circulando, si
contribuye con información para estimar los valores del número de accidentes.

1.5. Prueba de hipótesis para el coeficiente de correlación

La prueba para determinar si hay correlación entre variables tiene la forma:


H0 : ρ = 0
(No hay correlación)
H1 : ρ 6= 0
(Sí hay correlación)

La estadı́stica de prueba es:

r
t= q
1−r2
n−2

Dado un r del ejemplo de 0.9622:

0.9622
t= q = 9.993
1−0.9622
10−2

El anterior valor cae en la zona de rechazo, por lo tanto, se rechaza la hipótesis nula y se acepta la alternativa, es
decir si hay correlación entre las variables a un nivel de significancia del 5 %.

POLITÉCNICO GRANCOLOMBIANO 5
2. Regresión Lineal múltiple

El Análisis de Regresión Lineal Múltiple nos permite establecer la relación que se produce entre una variable
dependiente Y y un conjunto de variables independientes (X1, X2, ...Xk).

El análisis de regresión lineal múltiple se aproxima más a situaciones de análisis real puesto que los fenómenos,
hechos y procesos sociales son complejos y deben ser explicados en la medida de lo posible por la serie de variables
participan en su desempeño.

La variable dependiente como las independientes son variables continuas. La anotación matemática del modelo o
ecuación de regresión lineal múltiple es la que sigue: Y = β0 + β1 x1 + β2 x2 + ... + βn xn = βX

en donde:

Y es la variable a predecir y los β , son parámetros desconocidos a estimar. Estos se pueden aproximar mediante:

β̂ = (X t X)−1 X t Y

Los modelos simples pueden verse mejorados al introducir una segunda (tercera, cuarta,...) variable independiente
o explicativa. Consideramos que un modelo de regresión lineal simple se ha ”mejorado” cuando al introducir en
el mismo más variables independientes la proporción de variabilidad explicada se incrementa. Pero ¿qué variables
son las que mejor explican el hecho?; ¿qué variables no son necesarias incluir en el modelo dada su nula o
escasa explicación sobre la variable dependiente?.

En la figura 4 se observa el plano a construir mediante mínimos cuadrados ordinarios para dos variables explicativas
y una dependiente.

Figura 4: Plano de mínimos cuadrados en regresión lineal múltiple.


Fuente: elaboración propia.

Esta lectura se enfocará en los siguientes temas:

• Determinación de la bondad de ajuste de los datos al modelo de regresión lineal múltiple. (R2 )

POLITÉCNICO GRANCOLOMBIANO 6
• Elección del modelo que con el menor número de variables explica más la variable dependiente o criterio.
• Estimación de los parámetros de la ecuación y del modelo o ecuación predictiva.
• Exposición de los pasos y Cuadro de Diálogo del Análisis de Regresión Lineal (Múltiple) que podemos seguir
para la obtención de los estadı́sticos y las pruebas necesarias citadas en cada uno de los puntos precedentes.

En el análisis de regresión lineal múltiple la construcción de su correspondiente ecuación se realiza seleccionando


las variables una a una. Buscando entre todas las posibles variables explicativas aquellas que más y mejor expliquen
a la variable dependiente sin que ninguna de ellas sea combinación lineal de las restantes.

Este procedimiento implica que:

• En cada paso solo se introduce aquella variable que cumple unos criterios de entrada.
• Una vez introducida, en cada paso se valora si alguna de las variables cumplen criterios de salida.
• En cada paso se valora la bondad de ajuste de los datos al modelo de regresión lineal y se calculan los
parámetros del modelo verificado en dicho paso

El proceso se inicia sin ninguna variable independiente en la ecuación de regresión y el proceso concluye cuando
no queda ninguna variable fuera de la ecuación que satisfaga el criterio de selección (garantiza que las variables
seleccionadas son significativas) y/o el criterio de eliminación (garantizar que una variable seleccionada no es
redundante).

1. Verificación de los criterios de probabilidad de entrada. El p-valor asociado al estadı́stico T nos indica si la
información proporcionada por cada una de las variables es redundante. Si éste es menor que un determinado
valor crı́tico, la variable será seleccionada. Por defecto establece en 0.05 el valor crı́tico de la probabilidad de
entrada.
2. Verificación del criterio de probabilidad de salida. En este caso, si el p-valor asociado al estadı́stico T, o
probabilidad de salida, es mayor que un determinado valor crı́tico, la variable será eliminada. Por defecto
establece en 0.1 el valor crı́tico de la probabilidad de salida (nótese que con la finalidad de que una variable no
pueda entrar y salir de la ecuación en dos pasos consecutivos, el valor crı́tico de la probabilidad de salida debe
ser mayor que el de la probabilidad de entrada). En el caso práctico que recogemos en los resultados puede
apreciarse que las dos variables independientes han superado los criterios de entrada y de salida.

En cada paso, en el que se introduce o elimina una variable, se obtienen los estadı́sticos de bondad de ajuste (R,
R2 , R2 corregido, error tı́pico de la estimación), el análisis de varianza y la estimación de parámetros considerando
las variables introducidas. El Excel ofrece dos tablas con esta información: en la primera resume los estadı́sticos
de bondad de ajuste y en la segunda nos presenta el análisis de varianza. En ellas se comparan los resultados
obtenidos para cada una de las ecuaciones o modelo obtenidos con la secuencia de pasos utilizados.

A continuación exponemos los principales elementos a considerar en el análisis de regresión múltiple. Recordemos
que éstos ya se expusieron en el capı́tulo de regresión simple. Aquı́ enfatizamos aquellos aspectos que debemos
considerar cuando éstos son aplicados en el análisis de regresión múltiple.

1. Coeficiente de Correlación Múltiple (R). Mide la intensidad de la relación entre un conjunto de variables
independientes y una variable dependiente.

POLITÉCNICO GRANCOLOMBIANO 7
2. Matriz de correlación que establece la relación entre cada variable independiente con la variable dependiente.

3. Análisis de Varianza. La tabla de análisis de varianza permite valorar hasta qué punto es adecuado el modelo
de regresión lineal para estimar los valores de la variable dependiente. La tabla de ANOVA proporciona el
estadı́stico F a partir del cual podemos contrastar la H0 de que R2 es igual a 0, la pendiente de la recta de
regresión es igual a 0, o lo que es lo mismo, la hipótesis de que las dos variables están incorrelacionadas. Si el
p-valor asociado al estadı́stico F es menor que el nivel de significación (normalmente 0.05), rechazaremos la
hipótesis nula planteada. Del mismo modo podremos considerar que los resultados obtenidos con la muestra
son generalizables a la población a la que pertenece la muestra.

Una vez estudiada la relación entre las variables, estimamos los parámetros de la regresión lineal. En el caso del
análisis de regresión múltiple tendremos tantas ecuaciones como modelos o pasos hayamos efectuado. De todos
ellos elegiremos aquel que mejor se ajuste. Éste es el ultimo de los modelos generados.

El criterio para obtener los coeficientes de regresión β es el de mı́nimos cuadrados. Este consiste en minimi-
zar la suma de los cuadrados de los residuos de tal manera que la recta de regresión que definamos es la que más se
acerca a la nube de puntos observados y, en consecuencia, la que mejor los representa, ver figura 4.

Los estadı́sticos asociados a la variable independiente son:

• Coeficiente de regresión β>0 . Este coeficiente nos indica el número de unidades que aumentará la variable
dependiente o criterio por cada unidad que aumente la variable independiente.

• β0 El valor de la constante coincide con el punto en el que la recta de regresión corta el eje de ordenadas.

3. Excel para regresión múltiple

La función de análisis de datos está incluida en todas las versiones de Excel, primero debe desbloquear la herra-
mienta desde el menú de complementos e instalarla. Para esto, abre el programa Excel y da clic en ”Archivos” para
que se despliegue un menú. Selecciona ”Opciones” y luego ”Complementos” y se abrirá una ventana más pequeña
con una serie de opciones. Dar clic en ”ir”, seleccionar ”Herramientas para análisis”, da clic en ”Aceptar”. Luego,
aparecerá en el menú ”Datos” la opción ”Análisis de datos” lista para ser utilizada.

3.1. Ejemplo de aplicación regresión lineal múltiple

El gerente de ventas de un distribuidor grande de partes automotrices desea estimar en el mes de abril las ventas
totales anuales de una región. Con base en las ventas regionales, también se pueden estimar las ventas totales de
la compañı́a. Parece que varios factores están relacionados con las ventas (millones de dólares), como el número
de almacenes de descuento que en la región venden componentes de la compañı́a, el número de automóviles en
la región registrados desde el 1 de abril (millones), el ingreso por persona del primer trimestre del año (miles de
millones de dólares), la antigüedad promedio de los automóviles (años) y el número de supervisores por tienda.

POLITÉCNICO GRANCOLOMBIANO 8
Tabla 3: Datos ejemplo regresión múltiple.

Ingreso personal (miles millones de dólares)


Ventas anules(millones de dólares)

Antigüedadpromedio automóviles
No. Almacenes de descuento

No. Automóviles registrados

No. de supervisores
Y X1 X2 X3 X4 X5
37.702 1739 9.27 85.40 3.5 9
24.196 1221 5.86 60.70 5 5
32.055 1846 8.81 68.10 4.4 7
3.611 120 3.81 20.20 4.9 5
17.625 1096 10.31 33.80 3.5 7
45.919 2290 11.62 95.10 4.1 13
29.600 1687 8.96 69.30 4.1 15
8.114 241 6.28 16.30 5.9 11
20.116 649 7.77 34.90 5.5 16
12.994 1427 10.92 15.10 4.1 10

a. Con la matriz de correlación determine ¿qué variable individual tiene la correlación más fuerte con la variable
dependiente? b. ¿Qué porcentaje de la variación de las ventas se explica mediante la ecuación de regresión? c.
Realice la prueba general de hipótesis para determinar si alguno de los coeficientes de regresión es diferente de
cero con un nivel de significancia del 5 % d. Interprete los parámetros del nuevo modelo.

a. Con la matriz de correlación determine ¿qué variable individual tiene la correlación más fuerte con la variable
dependiente

Para resolver esta inquietud vamos a Excel, en datos y en análisis de datos solicitamos el procedimiento de
coeficiente de correlación, ver figura 5. Obteniendo la matriz de correlación de cada pareja de variables, para
identificar que variables presentan una alta correlación con la variable dependiente Y, se observa en la figura 6 que
estas variables son X1 y X3.

POLITÉCNICO GRANCOLOMBIANO 9
Figura 5: Coeficientes de correlación, Excel
Fuente: elaboración propia

Figura 6: Resultados coeficientes de correlación


Fuente: elaboración propia

b.¿Qué porcentaje de la variación de las ventas se explica mediante la ecuación de regresión?


Para esto en análisis de datos se busca el procedimiento de regresión, ver figura 7. Obteniendo la salida mostrada
en la figura 8.

El porcentaje de variación explicado se interpreta con R2 con el mismo criterio que en la regresión lineal simple.
En este caso un valor R2 = 0, 9888 indica en porcentaje un valor del 98,88 % indicando que el modelo de regresión
múltiple presenta un buen ajuste para predecir los valores de Y (ventas).

c. Realice la prueba general de hipótesis para determinar si alguno de los coeficientes de regresión es diferente de
cero con un nivel de significancia del 5 %

En la tabla de resultados se observa, figura 8, la probabilidad que aparece al frente de cada variable. Si esta
probabilidad es menor al nivel de significancia α dado, entonces se dice que los coeficientes de las variables X2,
X3, X4 son diferentes de cero, es decir que estas variables son importantes para el modelo y por lo tanto no se
pueden eliminar.

POLITÉCNICO GRANCOLOMBIANO 10
Figura 7: Regresión en Excel.
Fuente: elaboración propia

Figura 8. Resultados inferencias.


Fuente: elaboración propia

d.Interpretación de las variables en el nuevo modelo:


Para la interpretación de cada parámetro del modelo se va a utilizar el mismo criterio visto en el modelo de
regresión lineal simple: Y = −25.80 − 0.00071X1 + 2.06X2 + 0.418X3 + 2.779X4 − 0.08X5

Por ejemplo por cada Automóvil registrado aumenta en 2.06 unidades las ventas anuales.

POLITÉCNICO GRANCOLOMBIANO 11
Referencias

[1] Anderson D., Sweenei, D. y Willians, T. (2004). Estadı́stica para administración y economı́a. México: Cengage
Learning Editores

[2] Newbold, P. (2008). Estadı́stica para los Negocios y la Economı́a. México: Ed. Prentice Hall.

POLITÉCNICO GRANCOLOMBIANO 12
INFORMACIÓN TÉCNICA

Módulo: Estadı́stica II
Unidad 4: Análisis de regresión y correlación lineal simple
Escenario 8: Regresión lineal múltiple

Autor: Daniel Ernesto Santiago Garnica

Asesor Pedagógico: Diana Marcela Salcedo Dı́az


Diseñador Gráfico: Jully Amanda Guzman
Corrector de estilo: Felipe Garán
Asistente: Ginna Paola Quiroga

Este material pertenece al Politécnico Grancolombiano.


Por ende, es de uso exclusivo de las Instituciones
adscritas a la Red Ilumno. Prohibida su reproducción
total o parcial.

POLITÉCNICO GRANCOLOMBIANO 13

También podría gustarte