Está en la página 1de 9

TECNOLOGICO NACIONAL DE MEXICO-ITQ.

ESTADISTICA INFERENCIAL II-AEF-1025-INDUSTRIAL LOGISTICA.

ELABORO: MC. ROMAN MENDOZA GONZALEZ- FEBRERO-2024.

COMPLEMENTOS EDUCACIONALES. TEMA 2. REGRESION


LINEAL MULTIPLE Y CORRELACION.
Aprendizaje basado en problemas. Cantidad 2.

Propósito. Para aplicar este método de enseñanza en este tema de Regresión Lineal
Múltiple se diseñaron los siguientes 2 ABP. La competencia general que se busca lograr
con esto es que el alumno de Gestión Empresarial aprenda a estimar el valor de una
variable dependiente desconocida, utilizando técnicas de Regresión Lineal con dos o más
variables explicativas (o independiente). Esto le permitirá construir modelos predictivos en
situaciones de decisión empresarial.
Metodología. En cada uno de estos ABP, se presenta un enunciado del problema. (Se
resolverá en equipo, y no se le dará al alumno la solución). Luego se agregan preguntas de
tal modo que deberán contestar con la solución obtenida y los aprendizajes logrados, y
otras nuevas que el propio alumno debe lograr responder. Es decir el ABP es un proceso
inverso a lo tradicional. Se trata primero de situar al alumno en una situación problemática.
Y luego hacerlo que desarrolle conceptos, procedimientos estadísticos y llegue a la
solución.
Con esto los alumnos tendrán que identificas sus necesidades, buscar más información de
la disponible. Incluyendo de sus otras materias estudiadas, etc. Hasta resolver el problema.
En sesión plenaria el equipo presentara a todo el grupo el proceso seguido y los resultados.
El profesor funciona como un guía solamente y realiza la evaluación y retroalimentación del
proceso, más que la solución en sí misma.
Parte de la solución del ABP, se da aquí para el maestro; y está en forma breve. Solo como
referencia y apoyo para que pueda aplicar esta técnica en su aula de clases.
PROBLEMA (ABP) 1. Caso Butler Tracking Company. Esta empresa se dedica al
transporte de mercancías en el sur de california. Su actividad principal es hacer entregas
en su área local. Para mejorar el horario de trabajo desean estimar el tiempo total de
recorrido diario necesario para efectuar las entregas. Al principio creían que el tiempo total
de recorridos diario estaba estrechamente relacionado con el número de millas recorridas
para realizar las entregas. A partir de una muestra aleatoria simple de 10 repartidores con
asignación de recorrido (Driving Assingment) se obtuvieron los siguientes datos.

Al tratar de identificar otra variable independiente se encontró que el número de entregas


podría contribuir también a la duración total del recorrido.
Y(tiempo total) de recorrido. Xl (millas recorridas). X2 (Números de entregas).

9.3 100 4

4.8 50 3
8.9 100 4

6.5 100 2

4.2 50 2

6.2 80 2

7.4 75 3

6.0 65 4

7.6 90 3

6.1 90 2

A partir de la tabla anterior.

PREGUNTAS. A). Obtener e interpretar el Modelo de RLM mediante mínimos cuadrados.

B). Obtener e interpretar los valores de S, R2 Y R2- ajustada.

C). Para la gestión empresarial; explicar qué importancia tendría el uso de este
procedimiento estadístico y sus resultados.

RESULTADOS. Ecuación de regresión.


Y(tiempo de recorrido) = -0.869 + 0.06113 X1(millas recorridas)
+ 0.923 X2(número de entregas).
Interpretación de la ecuación. El valor b1 =0.6113, representa la estimación del cambio en
Y debido a un cambio en una unidad en X1 mientras todas las demás variables
independientes permanecen constantes. Así 0.06113, que es positivo son las horas del
incremento esperado en el tiempo de recorrido que corresponde al incremento de una milla
en la distancia recorrida cuando el número de entregas permanece constante.

Como b2 = 0.923 también resulto positivo representa una estimación del incremento
esperado en el tiempo de recorrido que corresponde al incremento de una entrega cuando
el número de millas recorridas permanece constante.

Resumen del modelo: Se obtienen S = 0.573142, R-sq ( R2 ) = 90.4 % y R-sq (adj) o R2


ajustada = 87.6%.

Interpretación. El 90.4% de la variabilidad en el tiempo de recorrido Y se explica por la


ecuación de regresión estimada en la que las variables independientes son las millas
recorridas y el número de entregas.
En un modelo de RLS con un solo variable número de millas recorridas (X) seria 𝑌̂ =
1.27 + 0.078𝑥1 y un 𝑅 2 = 66.4%. Así, al agregar el número de entregas como una variable
independiente más, el porcentaje de variabilidad en el tiempo de recorrido que se explica
por la ecuación de regresión múltiple aumenta de 66.4 a 90.4%. Aun así queda un 1- 0.904
= 0.0960. Es decir un 9.6% de la variabilidad del tiempo de los recorridos queda sin explicar.

El valor R2 ajustada. Se prefiere ajustar R2 al número de variables independientes para


evitar sobre estimar el efecto de agregar una variable independiente sobre la cantidad de
la variabilidad que se explica por la ecuación de regresión estimada. Así R2 ajustada = 0.88
es más bajo que R2. De este modo el valor R2 ajustado compensa el número de variables
independientes en el modelo.

El valor (S) error estándar de estimación. Representa la variabilidad de los valores Y


respecto del plano de regresión. Esto es que tan dispersos o separados están los puntos
de datos de la muestra respecto al plano de regresión estimado. Entre más cerca de cero
es este valor es mejor el modelo. En este caso S = 0.573 esta relativamente cerca de cero.

Solo comparando otros modelos de RLM con otras variables regresoras este valor obraría
mejor sentido.

PROBLEMA (ABP) 2. Para el enunciado del mismo problema anterior, con esos datos de
la muestra y los resultados anteriores.
PREGUNTAS. A). Realice la prueba F de significancia global del modelo así como las
pruebas individuales correspondientes para X1 y X2.
B). Utilizando la ecuación de RLM obtenida, calcular un intervalo de confianza de 95% de
probabilidad para Y, si se tiene una entrega de dos productos y el recorrido a realizar por el
vehículo es de 100 millas.
C). Explicar brevemente el significado de la predicción anterior y como se aplicaría en esta
empresa.

RESULTADOS. A). Prueba F. Planteamiento de las hipótesis. H0 : β1 = β2 = 0.

H1 ∶ Un o más de los parámetros es diferente de cero. Como se tienen dos variables


independientes X1 y X 2.
CMR 10.8
De la tabla Anova (Análisis of variance) de Minitab. F0 = = =
CME 0.328
2.9 es el valor del estadistico de prueba.

Se tiene v1 = 2 grados de libertad; que son dos variables de regresión, y v2 = n − p − 1


= n-p-1 =10-2-1=7 grados de libertad. Usando el criterio del valor P.

Como el Valor P = 0.0000 y ∝= 0.01; valor P < 0.0100 rechazar H0 . Se concluye que
existe una relación significativa entre el tiempo de recorrido Y y las dos variables
independientes: X1 millas recorridas y X 2 numero de entregas.

Prueba t. Como la prueba F resulto significativa. Se realizaran dos pruebas de hipótesis.


Una para cada variable de regresión considerada. Para las millas recorridas (X1).

H0 : β1 = 0. Contra la alternativa H1 : β1 ≠ 0. Con ∝= 0.01; y v = n − p − 1= v = 10 − 2 −1

= 7 grados de libertad. Y se usa una curva t de Student de dos colas.

De minitab (tabla de coeficientes), se obtiene b1 = 0.061135 y Sb1 =


0.061135
0.009888 entonces t 0 = 0.009888 = 6.18.

Utilizando el criterio de valor P; 0.00000 < 0.0100 Se rechaza H0 . Y se concluye que X1


es estadísticamente significativo.

Para el número de entregas (x2). H0 : β1 = 0. Contra H1 : β1 ≠ 0. Utilizando la misma curva


t y los mismos grados de libertad.
De minitab (tabla de coeficientes): Entonces como en la prueba anterior de X1; b1 =
0.9234
0.9234 y Sb2 = 0.221E1 entonces t 0 = 0.2211 = 4.18; que le corresponde un valor P =
0.004. Luego con el criterio de valor P.

0.004 < 0.0100 Se rechaza H0 y H1 . Se concluye que x1 es estadísticamente


significativo.

C). Intervalo de confianza para Y de 95% de probabilidad. Se trata de calcular un intervalo


de confianza del tiempo medio de recorrido de todos los camiones que recorren 100
millas y efectúan 2 entregas.

Si se utiliza la ecuación de regresión estimada 𝑦̂ = −0.869 + 0.0611𝑥1 +


0.923𝑥2 ; sustituyendo los valores de x1 =100 y x2 =2 se obtiene.

𝑦̂ = −0.869 + 0.0611(100) + +0.923(2) = 7.09 . Por lo tanto, la estimación puntual del


tiempo de recorrido es aproximadamente de 7 horas.

Este intervalo se obtiene mediante la fórmula siguiente que contiene algunas operaciones
matriciales.

ŷ0 − t ∝/2 (s)√𝐱𝐨′ (𝐱 ′ 𝐱)−𝟏 𝐱𝐨 < µy l x1 , x2 < ŷo + t ∝/2 (s)√𝐱𝐨′ (𝐱 ′ 𝐱)−𝟏 𝐱𝐨

Entonces se tiene la cantidad ŷ0 = 7.09. Mientras que el término bajo el radical es un
producto matricial. Con los tamaños apropiados de las matrices involucradas y resultaría
un escalar; es decir una matriz de orden 1x1. Que permita extraer la raíz.
1
Como X1 = 100 y X2 = 2. Se tienen las matrices xo = [100] de orden 3x 1 y su transpuesta:
2

xo′ = [1 100 2] de orden 1x3.

La matriz (𝐱 ′ 𝐱)−𝟏 sería la matriz de varianza–covarianza de los datos muéstrales. Para los
otros términos indicados, se tiene: S = 0.573, t 0.025, 7 = 2.365.

Finalmente el intervalo de confianza buscado resulta ser: 6.258 a 7.926 horas.

Ejercicios/casos prácticos. Ejercicios resueltos. Cantidad 2.

PROBLEMA 1. Se sometió a prueba un grupo de camiones ligeros con motores que utilizan
Diésel como combustible para saber si la humedad, la temperatura del aire y la presión
barométrica influyen en la cantidad de óxido nitroso que emiten (en ppm). Las emisiones se
midieron en distintos momentos y en diversas condiciones experimentales. Los datos de
una muestra de datos experimentales se presentan a continuación.

Humedad. Temperat. Presión X3 Óxi. Nitros.


X1 X2 Y
72.4 76.3 29.18 0.9
41.6 70.3 29.35 0.91
34.3 77.1 29.24 0.96
35.1 68 29.27 0.89
10.7 79 29.78 1
12.9 67.4 29.39 1.1
8.3 66.8 29.69 1.15
20.1 76.9 29.48 1.03
72.2 77.7 29.09 0.77
24 67.7 29.6 1.07
23.2 76.8 29.38 1.07
47.4 86.6 29.35 0.94
31.5 76.9 29.63 1.1
10.6 86.3 29.56 1.1
11.2 86 29.48 1.1
73.3 76.3 29.4 0.91
75.4 77.9 29.28 0.87
96.6 78.7 29.29 0.78
107.4 86.8 29.03 0.82
54.9 70.9 29.37 0.95

Con esta información. A). Pruebe Los modelos de RLS, para cada una de las variables
independientes. Y muestre si un modelo de RLM con las tres variables mejora los
anteriores. B). Obtenga e interprete el coeficiente de determinación lineal múltiple.
Solución. A). El siguiente cuadro comparativo muestra los modelos de RLS.
C). Comentar la existencia de multicolinealidad entre la variable x1 y la variable x2.

Modelo. Ecuación de regresión. Valor S. Valor R2.


Con X1. 𝑦̂ = 1.11 − 0.003324 𝑥1 0.0568 76.98
Humedad.
Con X2. 𝑦̂ = 1.21 − 0.0032 𝑥2 0.1165 3.27
Temperatura.
Con X3. 𝑦̂ = −12.51 + 0.4603 𝑥3 0.0750 59.91
Presión.

Modelo de RLM.
𝑦̂=-3.51-0.002625 x1+ 0.00080 x2+0.154 x3. Con valores S = 0.0561 y R2 = 80.05
Interpretación. El error estándar de estimación S más bajo es para el modelo con tres
variables independientes. Un 80.05% de la variabilidad de la cantidad de óxido nitroso es
explicada por estas tres variables. Según el coeficiente b1 = -0.002625, la variable humedad
es la que disminuye más las emisiones de óxido nitroso en la combustión del motor diésel.
Mientras que la presión es la variable que aumenta más las emisiones de este gas; que la
variable temperatura.
El modelo de RLM tendría un poder de predicción mejor que cualquiera de los modelos RLS
mostrados.
B). El coeficiente de determinación más alto R2 también es el múltiple. Un 80.05% de la
variabilidad de la cantidad de óxido nitroso es explicada por estas tres variables.
C). Se analiza el coeficiente de correlación rxy entre las variables humedad y temperatura.
Y resulto un valor de 0.254 o 2.54%. Como es menor que 0.7; se puede concluir que son
variables independientes y no hay problema de multicolinealidad.
PROBLEMA 2. Con los mismos datos de la muestra del problema anterior. Y con los
resultados del problema 1. A). Obtenga la matriz de varianza-covarianza de los datos.
B). Suponga que el modelo de RLM es válido y que se está diseñando un nuevo motor
diésel de este tipo. Para unos valores experimentales de 50% de humedad, 76 grados F de
temperatura y 29.3 Kgs./cm2 de presión; obtener un intervalo de predicción (IP) de 95% de
probabilidad para Y.
C). Realice la prueba de residuos contra ajustes y la prueba de normalidad de los residuos
estandarizados. Muestre ambas gráficas.
SOLUCION. A). La matriz de varianza-covarianza o matriz A-1es de orden 4x4.
2861.93 −0.46077 −0.10483 −96.41996
[ −0.46077 0.00014 0.00007 0.01566 ]
−0.10483 −0.00007 0.00133 0.00022
−96.41996 0.01566 0.00022 3.25692

B). Utilizando la fórmula de un Intervalo de predicción IP, de 95% de probabilidad. Dado


por la siguiente expresión, que involucra algunas operaciones con matrices.

ŷo − t ∝/2 (s)√1 + 𝐱𝐨′ (𝐱 ′ 𝐱)−𝟏 𝐱𝐨 < yo < ŷo + t ∝/2 (s)√1 + 𝐱𝐨′ (𝐱 ′ 𝐱)−𝟏 xo .

Para esta, la cantidad en negritas es un producto matricial. Sustituyendo en ella los valores
pedidos.

0.938434 − (2.12) (0.05616)(1.032032) < ŷo < 0.938434 + (2.12) (0.05616)(1.032032). Y


el resultado es: 0.815547 A 1.06132.

C). Grafica de residuos contra valores ajustados.

Interpretación. Se aprecia que los puntos están dispersos de manera aleatoria alrededor de
la línea central (el residuo cero); arriba son positivos y abajo negativos. No existe ninguna
razón para cuestionar el supuesto de que el termino del error 𝜖 esta normalmente
distribuido. Así se concluye que los supuestos del modelo son razonables.

Grafica de normalidad de los residuos estandarizados. La siguiente figura hecha por minitab
muestra esta prueba.
Interpretación. Esta es una gráfica de residuos estandarizados contra una escala especial
de probabilidad. Se puede observar que la mayoría de los puntos se agrupan alrededor de
la recta dibujada. Se concluye, por lo tanto que el supuesto de que los términos del error 𝜖
tienen una distribución de probabilidad normal.

Ejercicios/casos prácticos. Ejercicios propuestos. Cantidad 2.

PROBLEMA 1. Hop Scotch Airlines utilizo publicidad en un modelo de regresión simple,


para explicar y predecir el número de pasajeros. Se desea incorporar una segunda variable
explicativa dentro de su modelo para explicar mejor el número de pasajeros. Con base en
el principio de que el ingreso de las personas es la determinante primaria de la demanda,
Hop Scotch escoge el ingreso nacional como segunda variable.
Los siguientes datos, corresponden a las observaciones de los últimos 15 meses sobre el
número de pasajeros Y (en miles), que volaron en la compañía en todo el país, los montos
en miles de dólares X1 erogados por la empresa y el monto mensual del ingreso nacional
bruto del país X2 en billones de dólares, investigados.

Y X1 X2
Pasajeros Publicidad Ingr.Nacinal.
(miles). (miles de $). (billones de $).
15 10 2.4
17 12 2.72
13 8 2.08
23 17 3.68
16 10 2.56
21 15 3.36
14 10 2.24
20 14 3.2
24 19 3.84
17 10 2.72
16 11 2.07
18 13 2.33
23 16 2.98
15 10 1.94
16 12 2.17

Con esta información. A). Obtener el modelo de regresión lineal múltiple de mínimos
cuadrados. B). Obtenga un modelo de RLS para cada variable de regresión X 1 y X2; y con
base en el coeficiente de determinación del modelo, decir si alguno de estos dos modelos
es mejor que el modelo de RLM utilizado aquí. C). Obtener la tabla ANOVA y la tabla de
coeficientes. Realice con estas las pruebas de hipótesis correspondientes acerca de los
parámetros del modelo de regresión lineal múltiple.
PROBLEMA 2. Con los mismos datos del problema y las respuestas anteriores. A). Realice
el análisis residual. Obtenga conclusiones.
B). Obtener un intervalo de confianza para la respuesta media de Y y otro de predicción
para Y de 95% de probabilidad. Si se tiene una inversión en publicidad de 9.5 en miles de
dólares y el Ingreso Nacional en este momento es de 2.41 billones de dólares.
C). Para la gerencia general de esta empresa que utilidad tendrían estos resultados. Cual
intervalo recomendaría? Dar razones.
Secuencia didáctica. Cantidad 1.
Objetivo. Se propone el siguiente orden de realización de operaciones para resolver un
problema de RLM como un ciclo de aprendizaje completo. Se proporciona el enunciado del
problema y la lista de actividades a realizar. El maestro organiza a los alumnos en equipo,
fija el tiempo de realización y los productos a entregar. Así como la forma en que se evaluara
el proceso de aprendizaje y la solución. Las actividades de aprendizaje de esta secuencia,
corresponden en lo general a las señaladas en el programa, para este tema
Los pasos para la secuencia didáctica sugerida serian:
1. Encontrar e interpretar la ecuación de RLM, así como los valores de las medidas de la
calidad del ajuste del modelo obtenido. S, R2 y R2 ajustada.
2. Obtener la matriz de varianza-covarianza o A -1 = (𝒙𝒕 𝒙)−𝟏 con operaciones matriciales.
3. Obtener la tabla ANOVA y con esta realizar la prueba F de significancia global del modelo
obtenido. Usando un valor de α y con el criterio del valor P.
4. Obtener la tabla de coeficientes y con esta realizar las pruebas t de significancia
individual del modelo obtenido. Usando un valor de α y con el criterio del valor P.
5. Mostrar que no existe el problema de multicolinealidad entre las dos variables de
regresión empleadas.
6. Realizar el análisis de los residuos del modelo obtenido. Y mostrar que se cumplen los
supuestos estadísticos del término del error del modelo; para validar los resultados y
conclusiones.
7. Usar la ecuación de RLM obtenida y calcular el IC y el IP de 95% de probabilidad para la
variable dependiente Y. Para este problema considere que x1 = 45 ( cientos de horas) de
auditorías de campo realizadas y que X2 = 20 ( cientos de horas) dedicadas en trabajo de
computadora.
PROBLEMA 1. El servicio interno de contribuciones (IRS internal revenue service) de
Estados Unidos está tratando de estimar la cantidad mensual de impuestos no pagados
descubiertos por su departamento de auditoría.
En el pasado, el IRS estimaba esta cantidad con base en el número esperado de horas de
trabajo de auditorías de campo. En los últimos años, sin embargo, la horas de trabajo de
auditorías de campo se han convertido en un pronosticador erradico de los impuestos no
pagados reales. Por esto se piensa buscar otro factor para mejorar la ecuación de
estimación. Como el departamento de auditorías tiene un registro del número de horas que
usa sus computadoras para detectar impuestos no pagados. Así se reunieron los siguientes
datos de los meses anteriores.

Con los datos de esta muestra realizar las actividades de la secuencia didáctica descrita.

Mes. X1 X2 Y
Horas de trabajo Horas en Impuestos Reales
de auditoria de computadora(dos no pagados des-
camp (dos ceros ceros omitidos). cubiertos ( en mill.
omitidos). de dólares).
Enero 45 16 29
Febrero 42 14 24
Marzo 44 15 27
Abril 45 13 25
Mayo 43 13 26
Junio 46 14 28
Julio 44 16 30
Agosto 45 16 28
Septiembre 44 15 28
Octubre 43 15 27

También podría gustarte