vjdtaEYPo5uJPdId - NnrRjRyk - Lleew B Lectura 20 Fundamental 208 PDF

Unidad 4 / Escenario 8
Lectura fundamental
Regresión lineal múltiple
Contenido
1 Inferencias del modelo de regresión y modelo múltiple
2 Regresión lineal múltiple
3 Excel para regresión múltiple
Referencias
Palabras claves: regresión múltiple, correlación, pendiente, pronóstico.

1. Inferencias del modelo de regresión y modelo múltiple
1.1. Error estándar de la estimación
En la lectura anterior vimos que se puede encontrar un vector de residuos (error) = y − ŷ en el que pocas veces los
valores observados coinciden con los de la estimación, donde realmente se está encontrando la distancia entre el
estimado y observado sea la más mı́nima.
Figura 1. Error estándar de la estimación.

Fuente: elaboración propia.
Para medir la confiabilidad de la regresión ŷ = BX, se utiliza el error estándar de estimación se , que mide la
dispersión o variabilidad de los valores observados alrededor de la recta de regresión, ver figura 1. Vamos a ver que
una lı́nea más exacta de un estimador va a tener un error estándar de la estimación más pequeño de lo contrario
va a tener una forma el error estándar de estimación más grande .
Figura 2. Comparación error estándar de la estimación.

El error estándar de la estimación es:
POLITÉCNICO GRANCOLOMBIANO 1
rP
y 2 − β0 y − β1 xy
P P
se =
n−2
Se divide entre n-2 que son los grados de libertad. Se pierden 2 grados de libertad por los dos parámetros del
modelo de regresión.
Para el ejemplo que se trabajó en la semana anterior: Dado x el número de motos circulantes (millones) en una
semana en Bogotá y y los accidentes de tránsito(cientos) se quiere conocer cómo se relacionan ambas variables.
Tabla 1. Número de motos y accidentes de tránsito.

Número de motos en tránsito X (Millones) Número de accidentes de tránsito (Cientos)
4 2.0
4 1.3
5 1.5
6 2.0
9 2.8
11 3.0
13 3.5
14 3.0
17 4.0
18 4.5
Fuente: elaboración propia
En donde:
ŷ = 0.8175 + 0.1923x
P
y = 27.6
P
xy = 327.4
y 2 = 86.28
P
q
86.28−(0.8175∗27.6)−(0.1923∗327.4)
Encontramos que el error estándar es: se = (10−2) = 0.3078
Para los valores de y estimados puntualmente se puede obtener una estimación mediante un intervalo de confianza
para la recta de regresión o los valores estimados.
1.2. Intérvalo de confianza para la estimación
Para el cálculo del intervalo de confianza asumimos muestras pequeñas y no se conoce la desviación estándar de la
población, entonces se utiliza la distribución t-student con (n-2) grados de libertad, notada por la siguiente
expresión:
ŷ ± tSe
Ejemplo: para x: Número de motos en tránsito y y: Número de accidente tránsito , se tiene que la estimación
puntual para 10 millones de motos es:
ŷ = 0.8175 + 0.1923(10) = 2.7405
Para construir el intervalo de confianza vamos a fijar un nivel de confianza del 95 % y vamos a ubicar en una tabla
t-student con 8 grados de libertad (n-2), el valor según la tabla es t = 2, 31.
Figura 3. Valores tabla t con nivel de significancia 95 %.

El intérvalo queda en la siguiente forma.
2, 7405 ± (2, 31)(0, 3078)

Lı́mite inferior = 2,029
Lı́mite superior =3,4515
Con un nivel de confianza del 95 % se puede decir que para 10 millones de motos en tránsito se estiman entre 202
y 345 accidentes de tránsito.
1.3. Intérvalo de confianza para la pendiente β1
El intérvalo de confianza para el coeficiente de regresión o pendiente del modelo de regresión se puede calcular como:
β1 ± tα/2 SB
donde tα/2 es el valor de la distribución t student con (n-2) grados de libertad y SB es la desviación estándar del
parámetro β1 y se obtiene:
s
S2
SB =
(x − x̄)2
P
P
2 (y − ŷ)
S =
(n − 2)
Tabla 2: Cálculos previos para encontrar SB .

x y ŷ (y − ŷ)2 (x − x̄)2
4 2 1.5867 0.1708 37.21
4 1.3 1.5867 0.0821 16
5 1.5 1.779 0.0778 25
6 2 1.9713 0.00082 36
9 2.8 2.5482 0.063 81
11 3 2.9328 0.004515 121
13 3.5 3.3174 0.0333 169
14 3 3.5097 0.2597 196
17 4 4.0866 0.0074 289
18 4.5 4.2789 0.0488 324
Total 0.7491 1294.21
Con un nivel de confianza del 95 % el valor t = 2,31 El intervalo queda:
0, 1923 ± (2, 31)(0, 0085)

Lı́mite inferior = 0,17265
Lı́mite superior=0,21194
1.4. Prueba de Hipótesis sobre la pendiente
Es pertinente determinar la importancia de la variable independiente en el modelo de regresión para estimar los
valores de la variable dependiente, para esto se plantea la siguiente hipótesis:
H0 : β1 = 0
H1 : β1 6= 0
En donde la estadı́stica de prueba es:
β1
t=
SB
0.1923
t= 0.085 = 22.607
Como se puede observar en la figura 3 el valor del estadı́stico de prueba 22,607 cae en la zona de rechazo, lo cual
significa que está rechazándose la hipótesis nula H0 y aceptamos H1 es decir que el número de motos circulando, si
contribuye con información para estimar los valores del número de accidentes.
1.5. Prueba de hipótesis para el coeficiente de correlación
La prueba para determinar si hay correlación entre variables tiene la forma:

H0 : ρ = 0
(No hay correlación)
H1 : ρ 6= 0
(Sí hay correlación)
La estadı́stica de prueba es:
r
t= q
1−r2
n−2
Dado un r del ejemplo de 0.9622:
0.9622
t= q = 9.993
1−0.9622
10−2
El anterior valor cae en la zona de rechazo, por lo tanto, se rechaza la hipótesis nula y se acepta la alternativa, es
decir si hay correlación entre las variables a un nivel de significancia del 5 %.
2. Regresión Lineal múltiple
El Análisis de Regresión Lineal Múltiple nos permite establecer la relación que se produce entre una variable
dependiente Y y un conjunto de variables independientes (X1, X2, ...Xk).
El análisis de regresión lineal múltiple se aproxima más a situaciones de análisis real puesto que los fenómenos,
hechos y procesos sociales son complejos y deben ser explicados en la medida de lo posible por la serie de variables
participan en su desempeño.
La variable dependiente como las independientes son variables continuas. La anotación matemática del modelo o
ecuación de regresión lineal múltiple es la que sigue: Y = β0 + β1 x1 + β2 x2 + ... + βn xn = βX
en donde:
Y es la variable a predecir y los β , son parámetros desconocidos a estimar. Estos se pueden aproximar mediante:
β̂ = (X t X)−1 X t Y
Los modelos simples pueden verse mejorados al introducir una segunda (tercera, cuarta,...) variable independiente
o explicativa. Consideramos que un modelo de regresión lineal simple se ha ”mejorado” cuando al introducir en
el mismo más variables independientes la proporción de variabilidad explicada se incrementa. Pero ¿qué variables
son las que mejor explican el hecho?; ¿qué variables no son necesarias incluir en el modelo dada su nula o
escasa explicación sobre la variable dependiente?.
En la figura 4 se observa el plano a construir mediante mínimos cuadrados ordinarios para dos variables explicativas
y una dependiente.
Figura 4: Plano de mínimos cuadrados en regresión lineal múltiple.

Esta lectura se enfocará en los siguientes temas:
• Determinación de la bondad de ajuste de los datos al modelo de regresión lineal múltiple. (R2 )
• Elección del modelo que con el menor número de variables explica más la variable dependiente o criterio.
• Estimación de los parámetros de la ecuación y del modelo o ecuación predictiva.
• Exposición de los pasos y Cuadro de Diálogo del Análisis de Regresión Lineal (Múltiple) que podemos seguir
para la obtención de los estadı́sticos y las pruebas necesarias citadas en cada uno de los puntos precedentes.
En el análisis de regresión lineal múltiple la construcción de su correspondiente ecuación se realiza seleccionando

las variables una a una. Buscando entre todas las posibles variables explicativas aquellas que más y mejor expliquen
a la variable dependiente sin que ninguna de ellas sea combinación lineal de las restantes.
Este procedimiento implica que:
• En cada paso solo se introduce aquella variable que cumple unos criterios de entrada.
• Una vez introducida, en cada paso se valora si alguna de las variables cumplen criterios de salida.
• En cada paso se valora la bondad de ajuste de los datos al modelo de regresión lineal y se calculan los
parámetros del modelo verificado en dicho paso
El proceso se inicia sin ninguna variable independiente en la ecuación de regresión y el proceso concluye cuando
no queda ninguna variable fuera de la ecuación que satisfaga el criterio de selección (garantiza que las variables
seleccionadas son significativas) y/o el criterio de eliminación (garantizar que una variable seleccionada no es
redundante).
1. Verificación de los criterios de probabilidad de entrada. El p-valor asociado al estadı́stico T nos indica si la
información proporcionada por cada una de las variables es redundante. Si éste es menor que un determinado
valor crı́tico, la variable será seleccionada. Por defecto establece en 0.05 el valor crı́tico de la probabilidad de
entrada.
2. Verificación del criterio de probabilidad de salida. En este caso, si el p-valor asociado al estadı́stico T, o
probabilidad de salida, es mayor que un determinado valor crı́tico, la variable será eliminada. Por defecto
establece en 0.1 el valor crı́tico de la probabilidad de salida (nótese que con la finalidad de que una variable no
pueda entrar y salir de la ecuación en dos pasos consecutivos, el valor crı́tico de la probabilidad de salida debe
ser mayor que el de la probabilidad de entrada). En el caso práctico que recogemos en los resultados puede
apreciarse que las dos variables independientes han superado los criterios de entrada y de salida.
En cada paso, en el que se introduce o elimina una variable, se obtienen los estadı́sticos de bondad de ajuste (R,
R2 , R2 corregido, error tı́pico de la estimación), el análisis de varianza y la estimación de parámetros considerando
las variables introducidas. El Excel ofrece dos tablas con esta información: en la primera resume los estadı́sticos
de bondad de ajuste y en la segunda nos presenta el análisis de varianza. En ellas se comparan los resultados
obtenidos para cada una de las ecuaciones o modelo obtenidos con la secuencia de pasos utilizados.
A continuación exponemos los principales elementos a considerar en el análisis de regresión múltiple. Recordemos
que éstos ya se expusieron en el capı́tulo de regresión simple. Aquı́ enfatizamos aquellos aspectos que debemos
considerar cuando éstos son aplicados en el análisis de regresión múltiple.
1. Coeficiente de Correlación Múltiple (R). Mide la intensidad de la relación entre un conjunto de variables
independientes y una variable dependiente.
2. Matriz de correlación que establece la relación entre cada variable independiente con la variable dependiente.
3. Análisis de Varianza. La tabla de análisis de varianza permite valorar hasta qué punto es adecuado el modelo
de regresión lineal para estimar los valores de la variable dependiente. La tabla de ANOVA proporciona el
estadı́stico F a partir del cual podemos contrastar la H0 de que R2 es igual a 0, la pendiente de la recta de
regresión es igual a 0, o lo que es lo mismo, la hipótesis de que las dos variables están incorrelacionadas. Si el
p-valor asociado al estadı́stico F es menor que el nivel de significación (normalmente 0.05), rechazaremos la
hipótesis nula planteada. Del mismo modo podremos considerar que los resultados obtenidos con la muestra
son generalizables a la población a la que pertenece la muestra.
Una vez estudiada la relación entre las variables, estimamos los parámetros de la regresión lineal. En el caso del
análisis de regresión múltiple tendremos tantas ecuaciones como modelos o pasos hayamos efectuado. De todos
ellos elegiremos aquel que mejor se ajuste. Éste es el ultimo de los modelos generados.
El criterio para obtener los coeficientes de regresión β es el de mı́nimos cuadrados. Este consiste en minimi-
zar la suma de los cuadrados de los residuos de tal manera que la recta de regresión que definamos es la que más se
acerca a la nube de puntos observados y, en consecuencia, la que mejor los representa, ver figura 4.
Los estadı́sticos asociados a la variable independiente son:
• Coeficiente de regresión β>0 . Este coeficiente nos indica el número de unidades que aumentará la variable
dependiente o criterio por cada unidad que aumente la variable independiente.
• β0 El valor de la constante coincide con el punto en el que la recta de regresión corta el eje de ordenadas.
3. Excel para regresión múltiple
La función de análisis de datos está incluida en todas las versiones de Excel, primero debe desbloquear la herra-
mienta desde el menú de complementos e instalarla. Para esto, abre el programa Excel y da clic en ”Archivos” para
que se despliegue un menú. Selecciona ”Opciones” y luego ”Complementos” y se abrirá una ventana más pequeña
con una serie de opciones. Dar clic en ”ir”, seleccionar ”Herramientas para análisis”, da clic en ”Aceptar”. Luego,
aparecerá en el menú ”Datos” la opción ”Análisis de datos” lista para ser utilizada.
3.1. Ejemplo de aplicación regresión lineal múltiple
El gerente de ventas de un distribuidor grande de partes automotrices desea estimar en el mes de abril las ventas
totales anuales de una región. Con base en las ventas regionales, también se pueden estimar las ventas totales de
la compañı́a. Parece que varios factores están relacionados con las ventas (millones de dólares), como el número
de almacenes de descuento que en la región venden componentes de la compañı́a, el número de automóviles en
la región registrados desde el 1 de abril (millones), el ingreso por persona del primer trimestre del año (miles de
millones de dólares), la antigüedad promedio de los automóviles (años) y el número de supervisores por tienda.
Tabla 3: Datos ejemplo regresión múltiple.
Ingreso personal (miles millones de dólares)

Ventas anules(millones de dólares)
Antigüedadpromedio automóviles
No. Almacenes de descuento
No. Automóviles registrados
No. de supervisores
Y X1 X2 X3 X4 X5
37.702 1739 9.27 85.40 3.5 9
24.196 1221 5.86 60.70 5 5
32.055 1846 8.81 68.10 4.4 7
3.611 120 3.81 20.20 4.9 5
17.625 1096 10.31 33.80 3.5 7
45.919 2290 11.62 95.10 4.1 13
29.600 1687 8.96 69.30 4.1 15
8.114 241 6.28 16.30 5.9 11
20.116 649 7.77 34.90 5.5 16
12.994 1427 10.92 15.10 4.1 10
a. Con la matriz de correlación determine ¿qué variable individual tiene la correlación más fuerte con la variable
dependiente? b. ¿Qué porcentaje de la variación de las ventas se explica mediante la ecuación de regresión? c.
Realice la prueba general de hipótesis para determinar si alguno de los coeficientes de regresión es diferente de
cero con un nivel de significancia del 5 % d. Interprete los parámetros del nuevo modelo.
a. Con la matriz de correlación determine ¿qué variable individual tiene la correlación más fuerte con la variable
dependiente
Para resolver esta inquietud vamos a Excel, en datos y en análisis de datos solicitamos el procedimiento de
coeficiente de correlación, ver figura 5. Obteniendo la matriz de correlación de cada pareja de variables, para
identificar que variables presentan una alta correlación con la variable dependiente Y, se observa en la figura 6 que
estas variables son X1 y X3.
Figura 5: Coeficientes de correlación, Excel
Figura 6: Resultados coeficientes de correlación

b.¿Qué porcentaje de la variación de las ventas se explica mediante la ecuación de regresión?

Para esto en análisis de datos se busca el procedimiento de regresión, ver figura 7. Obteniendo la salida mostrada
en la figura 8.
El porcentaje de variación explicado se interpreta con R2 con el mismo criterio que en la regresión lineal simple.
En este caso un valor R2 = 0, 9888 indica en porcentaje un valor del 98,88 % indicando que el modelo de regresión
múltiple presenta un buen ajuste para predecir los valores de Y (ventas).
c. Realice la prueba general de hipótesis para determinar si alguno de los coeficientes de regresión es diferente de
cero con un nivel de significancia del 5 %
En la tabla de resultados se observa, figura 8, la probabilidad que aparece al frente de cada variable. Si esta
probabilidad es menor al nivel de significancia α dado, entonces se dice que los coeficientes de las variables X2,
X3, X4 son diferentes de cero, es decir que estas variables son importantes para el modelo y por lo tanto no se
pueden eliminar.
Figura 7: Regresión en Excel.
Figura 8. Resultados inferencias.

d.Interpretación de las variables en el nuevo modelo:

Para la interpretación de cada parámetro del modelo se va a utilizar el mismo criterio visto en el modelo de
regresión lineal simple: Y = −25.80 − 0.00071X1 + 2.06X2 + 0.418X3 + 2.779X4 − 0.08X5
Por ejemplo por cada Automóvil registrado aumenta en 2.06 unidades las ventas anuales.
Referencias
[1] Anderson D., Sweenei, D. y Willians, T. (2004). Estadı́stica para administración y economı́a. México: Cengage
Learning Editores
[2] Newbold, P. (2008). Estadı́stica para los Negocios y la Economı́a. México: Ed. Prentice Hall.
INFORMACIÓN TÉCNICA
Módulo: Estadı́stica II
Unidad 4: Análisis de regresión y correlación lineal simple
Escenario 8: Regresión lineal múltiple
Autor: Daniel Ernesto Santiago Garnica
Asesor Pedagógico: Diana Marcela Salcedo Dı́az

Diseñador Gráfico: Jully Amanda Guzman
Corrector de estilo: Felipe Garán
Asistente: Ginna Paola Quiroga
Este material pertenece al Politécnico Grancolombiano.

Por ende, es de uso exclusivo de las Instituciones
adscritas a la Red Ilumno. Prohibida su reproducción
total o parcial.

vjdtaEYPo5uJPdId - NnrRjRyk - Lleew B Lectura 20 Fundamental 208 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

vjdtaEYPo5uJPdId - NnrRjRyk - Lleew B Lectura 20 Fundamental 208 PDF

Cargado por

Copyright:

Formatos disponibles

Unidad 4 / Escenario 8

Regresión lineal múltiple

1 Inferencias del modelo de regresión y modelo múltiple

2 Regresión lineal múltiple

3 Excel para regresión múltiple

Palabras claves: regresión múltiple, correlación, pendiente, pronóstico.

1.1. Error estándar de la estimación

Figura 1. Error estándar de la estimación.

Figura 2. Comparación error estándar de la estimación.

El error estándar de la estimación es:

Tabla 1. Número de motos y accidentes de tránsito.

1.2. Intérvalo de confianza para la estimación

ŷ = 0.8175 + 0.1923(10) = 2.7405

Figura 3. Valores tabla t con nivel de significancia 95 %.

El intérvalo queda en la siguiente forma.

2, 7405 ± (2, 31)(0, 3078)

Tabla 2: Cálculos previos para encontrar SB .

Con un nivel de confianza del 95 % el valor t = 2,31 El intervalo queda:

0, 1923 ± (2, 31)(0, 0085)

1.5. Prueba de hipótesis para el coeficiente de correlación

La prueba para determinar si hay correlación entre variables tiene la forma:

La estadı́stica de prueba es:

Dado un r del ejemplo de 0.9622:

Figura 4: Plano de mínimos cuadrados en regresión lineal múltiple.

Esta lectura se enfocará en los siguientes temas:

En el análisis de regresión lineal múltiple la construcción de su correspondiente ecuación se realiza seleccionando

Este procedimiento implica que:

Los estadı́sticos asociados a la variable independiente son:

3. Excel para regresión múltiple

3.1. Ejemplo de aplicación regresión lineal múltiple

Ingreso personal (miles millones de dólares)

No. Automóviles registrados

Figura 6: Resultados coeficientes de correlación

b.¿Qué porcentaje de la variación de las ventas se explica mediante la ecuación de regresión?

Figura 8. Resultados inferencias.

d.Interpretación de las variables en el nuevo modelo:

Autor: Daniel Ernesto Santiago Garnica

Asesor Pedagógico: Diana Marcela Salcedo Dı́az

Este material pertenece al Politécnico Grancolombiano.

También podría gustarte