Está en la página 1de 13

Estadística y pronósticos

para la toma de decisiones

Regresión lineal simple y


regresión lineal múltiple

Tema 13: Inferencias en


modelos de regresión múltiple
y predicción
Introducción
Anteriormente se utilizó el modelo de regresión lineal simple para analizar cómo una variable cuantitativa (la
variable dependiente Y) es afectada por otra variable cuantitativa (la variable independiente X). En general, se
prefiere incluir tantas variables independientes que demuestren afectar significativamente la variable dependi-
ente. La principal ventaja de la regresión múltiple es que nos permite utilizar más información disponible para
estimar la variable dependiente. Además, en la regresión múltiple se puede observar cada una de las variables
independientes y probar si contribuyen de manera significativa a la forma en que la regresión describe los datos.
La regresión múltiple permitirá también ajustar tanto curvas como rectas. Las curvas de ajuste son una técnica
de modelado que se puede utilizar en la regresión múltiple para aumentar la precisión de nuestras ecuaciones
de estimación.

Como ejemplo, uno de los problemas más fuertes que tienen que afrontar los administradores es el ausentismo
de los empleados o trabajadores, pues esto hace que decrezca la productividad de un grupo operacional, el
personal de oficina, una planta manufacturera y otros, y disminuye también la calidad del producto.

Por consiguiente, los administradores de negocios tratan de identificar las causas del ausentismo de los emplea-
dos para poder tomar medidas para controlarlo o reducirlo. El análisis de regresión es un método para deter-
minar variables que están relacionadas con el ausentismo de los trabajadores. El primer paso sería definir una
medida Y para el ausentismo de los empleados; por ejemplo, el número de inasistencias por mes. El siguiente
paso sería definir un conjunto de variables independientes que podrían estar relacionadas con Y. Finalmente, se
relaciona Y con las variables independientes utilizando un modelo de regresión múltiple, y se ajusta el modelo
al conjunto de datos.

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
02
Si la ecuación de predicción por mínimos cuadrados resultante proporciona un buen ajuste de los datos, es
decir, si permite predecir una medida Y del ausentismo con un pequeño error de predicción, se concluirá que al
menos una de las variables independientes aporta información para predecir Y.

Explicación
Pronóstico para la variable dependiente Y

Una vez ajustado el modelo de regresión a los datos, se puede pronosticar el peso promedio de peso final y
desarrollar intervalos de confianza y de predicción estimados con la suposición de que el modelo de regresión
ajustado es adecuado. Supóngase que se desea predecir el peso promedio final cuando X1, el peso inicial, es
de 35 kilogramos y X2, los alimentos consumidos, es igual a 280 kilogramos.

Solución:

Si se utiliza la ecuación de regresión múltiple:


Ŷ = -22.1377 + 1.4420 X1 + 0.2110 X2
Con X1 =35 y X2 =280, se tiene:
Ŷ = -22.1377 + 1.4420 (35) + 0.2110(280)
Y así:
Ŷ = 87.55

Por lo tanto, se estima que el peso final en promedio será de 87.55 cuando el peso inicial es de 35 kg y la can-
tidad de alimentos consumidos sea de 280 Kg.

Inferencias en modelos de regresión múltiple

La evaluación del modelo se puede hacer en tres formas:

Por medio del La prueba de F


El coeficiente de
error estándar de del análisis de
determinación
la estimación varianza

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
03
Error estándar de la estimación
Recuérdese que σε es la desviación estándar de la variable del error e y que, debido a que es un parámetro
poblacional, es necesario estimar su valor por medio del uso de Sε. En regresión múltiple, el error estándar de
la estimación se define como sigue:

SCE
Sε = = CME
n - k -1

En donde:
n = número de observaciones
k = número de variables independientes en la función de regresión
SCE = suma de cuadrados del error
CME = cuadrado medio del error
Volviendo al ejemplo anterior, a continuación puede verse parte de la salida de Excel.

Análisis de Varianza
Grados de Suma de cuadrados
Libertad
Regresión 2 1738.3393
Residuos (error) 7 402.1607
Total 9 2140.5000

402.1607 402.1607
Sε = = = 57.4515 = 7.5797
10 - 2 -1 7

Coeficiente de determinación

El coeficiente de determinación es dado por:

R2 = Suma de cuadrados de regresión


Suma de cuadrados totales

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
04
Y representa la razón de la variación de la respuesta Y explicada por su relación con las X. Para el ejemplo
anterior se tiene que el coeficiente de determinación es:

R2 = Suma de cuadrados de regresión 1738.3393


= 0.8121
Suma de cuadrados totales 2140.5000 =

En este caso, el 81.21% de la variación en el peso final se explica por X1 (peso inicial) y X2 (alimentos consumi-
dos). En la práctica, 0 ≤ R2 ≤ 1, y el valor de R2 debe interpretarse en relación con los extremos, 0 y 1.

El coeficiente de determinación R2 siempre se puede incrementar al agregar una variable independiente


X adicional a la función de regresión, aun si la variable adicional es no-significativa (no importante). Por esta
razón, algunos analistas prefieren calcular el valor de R2, ajustado al número de términos en la función de re-
gresión. El coeficiente de determinación ajustado se da por:

R2Ajustado = 1- (1- R2 )  n - 1 
 n - k - 1

Al igual que R2, el coeficiente de determinación ajustado R2 es una medida de la proporción en la respuesta Y
explicada por la regresión. Cuando el número de observaciones n es relativamente grande comparado con el
número de variables independientes k, el R2ajustado es aproximadamente igual a R2. En el ejemplo que se está
llevando a cabo:

 10 - 1 
R2 Ajustado = 1- (1- 0.8121)   = 0.7584
 10 - 2 - 1 

La correlación múltiple puede verse en la salida de Excel (que se presenta enseguida) es 0.9012.

Estadísticas de la regresión
Coeficiente de correlación múltiple 0.9012
Coeficiente de determinación R2 0.8121
R2 Ajustado 0.7584
Error típico 7.5797
Observaciones 10

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
05
Análisis de varianza
Grados de libertad Suma de cuadrados Cuadrados medios F
Regresión 2 1738.3393 869.1696 15.13
Residuos (error) 7 402.1607 57.4515
Total 9 2140.5000

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción -22.1377 22.2507 -0.9949 0.3529 -74.7523 30.4769

Variable x 1 1.4420 0.7297 1.9760 0.0887 -0.2836 3.1675

Variable x 2 0.2110 0.0724 2.9152 0.0225 0.0398 0.3821

Significancia de la regresión

En la tabla siguiente se muestra el análisis de varianza utilizado en la descomposición de la variación total


(Suma de cuadrados totales, SCT) en sus partes explicada (Suma de cuadrados de regresión, SCR) y no
explicada (Suma de cuadrados del error, SCE):

SCT=SCR+SCE

Fuentes de Grados de Sumas de Cuadrados


Fcalculada
variación libertad cuadrados medios
CM Regresión
CMRegresión
Regresión k SCR SCR =
CMError
k
57.4515
SCE= SCT – CMError =
Error n-k-1
SCR SCError
n - k -1

Total n-1 SCT

En donde:
n = número de observaciones
k = número de variables independientes en la función de regresión
Prueba de hipótesis :

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
06
1. Establecimiento De Hipótesis.
H0 : β1 = β2 = ... βk = 0 (Las variables independientes no afectan a Y)
En oposición a:
Ha : βi ≠ 0 (Al menos una variable X afecta a Y)

2. Estadística de prueba
CM Regresión
Fcalculada =
CM Error

3. Regla de decisión
Rechazar H0 si Fcalculada es mayor que Fteórica:
En donde:
gl Regresión
Fteóricaα=F
gl Error

gl regresión = grados de libertad de regresión


gl error = grados de libertad del error
α = nivel de significancia

4. Conclusión
Existen dos posibilidades:
a. Si Fcalculada es mayor que Fteórica, se rechaza H0 (Existe evidencia de que al menos una X afecta a Y).
b. Si Fcalculada es menor que Fteórica, no se rechaza H0 (No existe evidencia de alguna X afecte a Y).

5. Ejemplo
Con el ejemplo anterior se probará la significancia de la regresión con α = 0.05. El cuadro del análisis de vari-
anza se presenta a continuación:

Análisis de varianza
Grados de libertad Suma de cuadrados Cuadrados medios F
Regresión 2 1738.3393 869.1696 15.13
Residuos (error) 7 402.1607 57.4515
Total 9 2140.5000

Prueba de hipótesis :

1. Establecimiento de hipótesis
H0 : β1 = β2 = 0 (El peso inicial X1 y los alimentos consumidos X2 no afectan el peso final Y).

En oposición a:
Ha : βi ≠ 0 (Al menos una variable independiente X, ya sea el peso inicial X1 o los alimentos consumidos X2,
afectan el peso final Y).

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
07
2. Estadística de prueba
CM Regresión 869.1696
FCalculable = = = 15.13
CM Error 57.4515
3. Regla de decisión
Rechazar H0 si Fcalculada es mayor que Fteórica: F27 (0.05) = 4.74
El valor de Fteórica puede obtenerse en la tabla 8 de la tabla de F.

Haz clic aquí para revisar la tabla.

4. Conclusión
Puesto que Fcalculada = 15.13 es mayor que Fteórica = F27 (0.05) = 4.74, se rechaza Ho. (Existe evidencia de que al
menos una variable independiente, peso inicial X1 o alimentos consumidos X2, o ambas, afectan el peso final
Y).

Uso de la tabla de F

Es la tabla de F utilizada en el ejemplo anterior y está integrada de la siguiente forma: la primera hilera tiene
los grados de libertad, df1, del numerador, mientras que en la primera columna están los grados de libertad
del denominador, df2. La tabla de F proporciona valores de Fdf1df2 (α ) para a = 0.25, 0.10, 0.05, 0.025, 0.01,
0.005 y 0.001, los cuales se pueden leer en la segunda columna.

Ejemplo:
Se quiere encontrar F415(0.01). De la tabla 8 se lee, en la intersección de la columna con df1 = 4 y la hilera con
df2 = 15, el valor de 4.89. Por lo tanto, F415(0.01) = 4.89. Enseguida se ilustra lo anterior con una porción de la
tabla de F.

α
TABLE 8

Percentage points of the F distribution ( between
df2
13 and 18)

df1

df2 α 12 34 56 78 91 0
13 .25 1.45 1.55 1.55 1.53 1.52 1.51 1.50 1.49 1.49 1.48
.10 3.10 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14
.05 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67
.025 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25
.01 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10
.005 11.37 8.19 6.93 6.23 5.79 5.48 5.25 5.08 4.94 4.82
.001 17.82 12.31 10.21 9.07 8.35 7.86 7.49 7.21 6.98 6.80
14 .25 1.44 1.53 1.53 1.52 1.51 1.50 1.49 1.48 1.47 1.46
.10 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10
.05 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60
.025 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15
.01 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94
.005 11.06 7.92 6.68 6.00 5.56 5.26 5.03 4.86 4.72 4.60
.001 17.14 11.78 9.73 8.62 7.92 7.44 7.08 6.80 6.58 6.40
15 .25 1.43 1.52 1.52 1.51 1.49 1.48 1.47 1.46 1.46 1.45
.10 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06
.05 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54
.025 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06
.01 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80
.005 10.80 7.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 4.42
.001 16.59 11.34 9.34 8.25 7.57 7.09 6.74 6.47 6.26 6.08

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
08
Pruebas sobre los coeficientes individuales de regresión

Con frecuencia se tiene interés en probar hipótesis acerca de los coeficientes individuales de regresión. Tales
pruebas serían útiles para determinar el valor de cada una de las variables independientes en el modelo de
regresión. Por ejemplo, el problema podría ser más efectivo con la inclusión de variables adicionales o tal vez
con la eliminación de una o más de las variables que ya se encuentran en el modelo.

El agregar una variable a un modelo de regresión siempre hace que la suma de cuadrados para regresión au-
mente, y que la suma de cuadrados del error disminuya. Debe decidirse si el aumento en la suma de cuadra-
dos de la regresión es suficiente para justificar el uso de la variable adicional en el modelo. Además, agregar
al modelo una variable sin importancia en realidad puede aumentar el error cuadrado medio, disminuyendo así
la utilidad del modelo.

En el modelo de regresión múltiple, dado que se tienen más de una variable independiente, se puede probar
para cada una, si existe suficiente evidencia para una relación entre esta variable y la variable dependiente.
Prueba de hipótesis para la pendiente en regresión múltiple:

1. Establecimiento de hipótesis
H0 : βi = 0 (La variable independiente xi no afecta a Y).
En oposición a:
Ha : βi ≠ 0 (La variable independiente xi afecta a Y).
Para i = 1, 2,…, k

2. Estadística de prueba

bi-βi
tCalculada =
Sb
i

3. Regla de decisión
Rechazar H0 si | tcalculada | es mayor que tteórica.
En donde:

t Teórica = tα /2 ( n-k-1)

En donde:

n = número de observaciones
k = número de variables independientes en la función de regresión
α = al nivel de significancia

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
09
4. Conclusión

Existen dos posibilidades:

a. Si | tcalculada | es mayor que tteórica, se rechaza H0 (Existe evidencia de que Xi afecta a Y).

Para ilustrar lo anterior, se utilizará la salida de Excel del ejemplo anterior, en donde se probarán los dos coefi-
cientes de regresión, es decir, se desea determinar si la variable, peso inicial (X1) y los alimentos consumidos
(X2) afectan el peso final, Y. El nivel de significancia será α = 0.05.

Análisis de varianza
Grados de libertad Suma de cuadrados Cuadrados medios F
Regresión 2 1738.3393 869.1696 15.13
Residuos (error) 7 402.1607 57.4515
Total 9 2140.5000

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción -22.1377 22.2507 -0.9949 0.3529 -74.7523 30.4769

Variable x 1 1.4420 0.7297 1.9760 0.0887 -0.2836 3.1675

Variable x 2 0.2110 0.0724 2.9152 0.0225 0.0398 0.3821

Al realizar la prueba para determinar si la variable peso inicial X1 tienen un efecto significativo en el peso final
Y.
El modelo a evaluar, es Ŷ = -22.1377 + 1.4420X1 + 0.2110X2.

1. Establecimiento de hipótesis
H0 : β1= 0 (El peso inicial, x1 no afecta el peso final, Y)

En oposición a:

Ha : β1 ≠ 0 (El peso inicial, x1 afecta el peso final, Y)

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
10
2. Estadística de prueba
bi-βi 1.4420-0
t Calculada = = =1.9760
Sbi 0.7297
3. Regla de decisión

Rechazar H0 si |tcalculada| = 1.9760 es mayor que tteórica.

En donde:

tteórica = tα/2 (n-k-1) = t0.05/2 (7) = t0.025 (7) = 2.365

En donde el valor de tteórica se obtiene de la tabla de distribución de t.

4. Conclusión
Puesto que |tcalculada| = 1.9760 es menor que tteórica = 2.365, no se rechaza H0. (Esto es, no existe evidencia de
que el peso inicial X1 afecte el peso final Y, o bien, la variable peso inicial X1 no tienen efecto significativo en el
peso final Y).
Ahora se va a realizar la prueba para determinar si la variable alimentos consumidos X2 afecta el peso final Y.

Haz clic en los botones para ver a detalle.

1. Establecimiento de hipótesis
H0 : β2 = 0 (La variable alimentos consumidos X2 no afecta el peso final Y).

En oposición a:
Ha : β2 ≠ 0 (La variable alimentos consumidos X2 afecta el peso final Y).

2. Estadística de prueba

bi-βi 2.110-0
t Calculada = = =2.9152
Sbi 0.0724

3. Regla de decisión
Rechazar H0 si |tcalculada| = 2.9152 es mayor que tteórica.
En donde:
t Teórica = tα / 2 ( n-k-1) =t 0.05 / 2 ( 7 ) =t 0.025 (7)=2.365

En donde el valor de tteórica se obtuvo de la tabla de t.

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
11
4. Conclusión

Puesto que |tcalculada| = 2.9152 es mayor que tteórica = 2.365, se rechaza H0. (esto es: existe evidencia de que
la variable alimentos consumidos X2 afecta el peso final Y, o bien, la variable alimentos consumidos X2 tiene
efecto significativo en el peso final Y).En este ejemplo se ha encontrado que la variable X2 alimentos consumi-
dos está relacionada con el peso final Y; por otra parte, en este modelo se encontró que no hay evidencia de
que el peso inicial X1 esté relacionado con el peso final.

Intervalos de confianza

En el análisis de regresión múltiple, un intervalo de confianza para una pendiente de la población se puede
estimar a partir de la siguiente expresión:

b1 ± tα / 2 ( n-k-1) Sbi
Para el presente ejemplo, se utiliza la salida de Excel; una parte de esta salida para estimar el coeficiente se
presenta enseguida:

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción -22.1377 22.2507 -0.9949 0.3529 -74.7523 30.4769

Variable x 1 1.4420 0.7297 1.9760 0.0887 -0.2836 3.1675

Variable x 2 0.2110 0.0724 2.9152 0.0225 0.0398 0.3821

Si se establece un intervalo de confianza del 95% para la pendiente de la población de peso inicial; si se tiene
que el valor crítico de:

t0.05/ 2 ( 7 ) = t0.025 ( 7 ) = 2.365

Mientras que Sb1 = 0.7297, el cual se obtiene de la salida de Excel; de este modo:

1.4420 ± 2.365 ( 0.7297 )


1.4420 ± 1.7257

Entonces, con un 95% de confianza, se tiene que el verdadero valor β1 se encuentra en el intervalo (-0.2837,
3.1677). Desde el punto de vista de la prueba de hipótesis, puesto que este intervalo de confianza contiene al
cero, se concluye que el coeficiente de correlación β1 no tiene efecto significativo.

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
12
Checkpoint
Asegúrate de comprender:

• La interpretación de las pruebas de hipótesis en el contexto del problema.


• La construcción de intervalos de predicción.

Referencias bibliográficas
Hanke, J. E., y Wichern, D. W. (2010). Pronósticos en los negocios (9ª ed.). México: Pearson

Levin, R., y Rubin, D. (2010). Estadística para administración y economía (7ª ed.). México. Pearson edu-
cación

Rodríguez, J., Pierdant, E., y Rodríguez, C. (2016). Estadística para administración (2ª ed.). México: Editorial
Patria

Tema 13: Inferencias en modelos de regresión múltiple y predicción


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
13

También podría gustarte