Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Propósito. Para aplicar este método de enseñanza en este tema de Regresión Lineal
Múltiple se diseñaron los siguientes 2 ABP. La competencia general que se busca lograr
con esto es que el alumno de Gestión Empresarial aprenda a estimar el valor de una
variable dependiente desconocida, utilizando técnicas de Regresión Lineal con dos o más
variables explicativas (o independiente). Esto le permitirá construir modelos predictivos en
situaciones de decisión empresarial.
Metodología. En cada uno de estos ABP, se presenta un enunciado del problema. (Se
resolverá en equipo, y no se le dará al alumno la solución). Luego se agregan preguntas de
tal modo que deberán contestar con la solución obtenida y los aprendizajes logrados, y
otras nuevas que el propio alumno debe lograr responder. Es decir el ABP es un proceso
inverso a lo tradicional. Se trata primero de situar al alumno en una situación problemática.
Y luego hacerlo que desarrolle conceptos, procedimientos estadísticos y llegue a la
solución.
Con esto los alumnos tendrán que identificas sus necesidades, buscar más información de
la disponible. Incluyendo de sus otras materias estudiadas, etc. Hasta resolver el problema.
En sesión plenaria el equipo presentara a todo el grupo el proceso seguido y los resultados.
El profesor funciona como un guía solamente y realiza la evaluación y retroalimentación del
proceso, más que la solución en sí misma.
Parte de la solución del ABP, se da aquí para el maestro; y está en forma breve. Solo como
referencia y apoyo para que pueda aplicar esta técnica en su aula de clases.
PROBLEMA (ABP) 1. Caso Butler Tracking Company. Esta empresa se dedica al
transporte de mercancías en el sur de california. Su actividad principal es hacer entregas
en su área local. Para mejorar el horario de trabajo desean estimar el tiempo total de
recorrido diario necesario para efectuar las entregas. Al principio creían que el tiempo total
de recorridos diario estaba estrechamente relacionado con el número de millas recorridas
para realizar las entregas. A partir de una muestra aleatoria simple de 10 repartidores con
asignación de recorrido (Driving Assingment) se obtuvieron los siguientes datos.
9.3 100 4
4.8 50 3
8.9 100 4
6.5 100 2
4.2 50 2
6.2 80 2
7.4 75 3
6.0 65 4
7.6 90 3
6.1 90 2
C). Para la gestión empresarial; explicar qué importancia tendría el uso de este
procedimiento estadístico y sus resultados.
Como b2 = 0.923 también resulto positivo representa una estimación del incremento
esperado en el tiempo de recorrido que corresponde al incremento de una entrega cuando
el número de millas recorridas permanece constante.
Solo comparando otros modelos de RLM con otras variables regresoras este valor obraría
mejor sentido.
PROBLEMA (ABP) 2. Para el enunciado del mismo problema anterior, con esos datos de
la muestra y los resultados anteriores.
PREGUNTAS. A). Realice la prueba F de significancia global del modelo así como las
pruebas individuales correspondientes para X1 y X2.
B). Utilizando la ecuación de RLM obtenida, calcular un intervalo de confianza de 95% de
probabilidad para Y, si se tiene una entrega de dos productos y el recorrido a realizar por el
vehículo es de 100 millas.
C). Explicar brevemente el significado de la predicción anterior y como se aplicaría en esta
empresa.
Como el Valor P = 0.0000 y ∝= 0.01; valor P < 0.0100 rechazar H0 . Se concluye que
existe una relación significativa entre el tiempo de recorrido Y y las dos variables
independientes: X1 millas recorridas y X 2 numero de entregas.
Este intervalo se obtiene mediante la fórmula siguiente que contiene algunas operaciones
matriciales.
ŷ0 − t ∝/2 (s)√𝐱𝐨′ (𝐱 ′ 𝐱)−𝟏 𝐱𝐨 < µy l x1 , x2 < ŷo + t ∝/2 (s)√𝐱𝐨′ (𝐱 ′ 𝐱)−𝟏 𝐱𝐨
Entonces se tiene la cantidad ŷ0 = 7.09. Mientras que el término bajo el radical es un
producto matricial. Con los tamaños apropiados de las matrices involucradas y resultaría
un escalar; es decir una matriz de orden 1x1. Que permita extraer la raíz.
1
Como X1 = 100 y X2 = 2. Se tienen las matrices xo = [100] de orden 3x 1 y su transpuesta:
2
La matriz (𝐱 ′ 𝐱)−𝟏 sería la matriz de varianza–covarianza de los datos muéstrales. Para los
otros términos indicados, se tiene: S = 0.573, t 0.025, 7 = 2.365.
PROBLEMA 1. Se sometió a prueba un grupo de camiones ligeros con motores que utilizan
Diésel como combustible para saber si la humedad, la temperatura del aire y la presión
barométrica influyen en la cantidad de óxido nitroso que emiten (en ppm). Las emisiones se
midieron en distintos momentos y en diversas condiciones experimentales. Los datos de
una muestra de datos experimentales se presentan a continuación.
Con esta información. A). Pruebe Los modelos de RLS, para cada una de las variables
independientes. Y muestre si un modelo de RLM con las tres variables mejora los
anteriores. B). Obtenga e interprete el coeficiente de determinación lineal múltiple.
Solución. A). El siguiente cuadro comparativo muestra los modelos de RLS.
C). Comentar la existencia de multicolinealidad entre la variable x1 y la variable x2.
Modelo de RLM.
𝑦̂=-3.51-0.002625 x1+ 0.00080 x2+0.154 x3. Con valores S = 0.0561 y R2 = 80.05
Interpretación. El error estándar de estimación S más bajo es para el modelo con tres
variables independientes. Un 80.05% de la variabilidad de la cantidad de óxido nitroso es
explicada por estas tres variables. Según el coeficiente b1 = -0.002625, la variable humedad
es la que disminuye más las emisiones de óxido nitroso en la combustión del motor diésel.
Mientras que la presión es la variable que aumenta más las emisiones de este gas; que la
variable temperatura.
El modelo de RLM tendría un poder de predicción mejor que cualquiera de los modelos RLS
mostrados.
B). El coeficiente de determinación más alto R2 también es el múltiple. Un 80.05% de la
variabilidad de la cantidad de óxido nitroso es explicada por estas tres variables.
C). Se analiza el coeficiente de correlación rxy entre las variables humedad y temperatura.
Y resulto un valor de 0.254 o 2.54%. Como es menor que 0.7; se puede concluir que son
variables independientes y no hay problema de multicolinealidad.
PROBLEMA 2. Con los mismos datos de la muestra del problema anterior. Y con los
resultados del problema 1. A). Obtenga la matriz de varianza-covarianza de los datos.
B). Suponga que el modelo de RLM es válido y que se está diseñando un nuevo motor
diésel de este tipo. Para unos valores experimentales de 50% de humedad, 76 grados F de
temperatura y 29.3 Kgs./cm2 de presión; obtener un intervalo de predicción (IP) de 95% de
probabilidad para Y.
C). Realice la prueba de residuos contra ajustes y la prueba de normalidad de los residuos
estandarizados. Muestre ambas gráficas.
SOLUCION. A). La matriz de varianza-covarianza o matriz A-1es de orden 4x4.
2861.93 −0.46077 −0.10483 −96.41996
[ −0.46077 0.00014 0.00007 0.01566 ]
−0.10483 −0.00007 0.00133 0.00022
−96.41996 0.01566 0.00022 3.25692
ŷo − t ∝/2 (s)√1 + 𝐱𝐨′ (𝐱 ′ 𝐱)−𝟏 𝐱𝐨 < yo < ŷo + t ∝/2 (s)√1 + 𝐱𝐨′ (𝐱 ′ 𝐱)−𝟏 xo .
Para esta, la cantidad en negritas es un producto matricial. Sustituyendo en ella los valores
pedidos.
Interpretación. Se aprecia que los puntos están dispersos de manera aleatoria alrededor de
la línea central (el residuo cero); arriba son positivos y abajo negativos. No existe ninguna
razón para cuestionar el supuesto de que el termino del error 𝜖 esta normalmente
distribuido. Así se concluye que los supuestos del modelo son razonables.
Grafica de normalidad de los residuos estandarizados. La siguiente figura hecha por minitab
muestra esta prueba.
Interpretación. Esta es una gráfica de residuos estandarizados contra una escala especial
de probabilidad. Se puede observar que la mayoría de los puntos se agrupan alrededor de
la recta dibujada. Se concluye, por lo tanto que el supuesto de que los términos del error 𝜖
tienen una distribución de probabilidad normal.
Y X1 X2
Pasajeros Publicidad Ingr.Nacinal.
(miles). (miles de $). (billones de $).
15 10 2.4
17 12 2.72
13 8 2.08
23 17 3.68
16 10 2.56
21 15 3.36
14 10 2.24
20 14 3.2
24 19 3.84
17 10 2.72
16 11 2.07
18 13 2.33
23 16 2.98
15 10 1.94
16 12 2.17
Con esta información. A). Obtener el modelo de regresión lineal múltiple de mínimos
cuadrados. B). Obtenga un modelo de RLS para cada variable de regresión X 1 y X2; y con
base en el coeficiente de determinación del modelo, decir si alguno de estos dos modelos
es mejor que el modelo de RLM utilizado aquí. C). Obtener la tabla ANOVA y la tabla de
coeficientes. Realice con estas las pruebas de hipótesis correspondientes acerca de los
parámetros del modelo de regresión lineal múltiple.
PROBLEMA 2. Con los mismos datos del problema y las respuestas anteriores. A). Realice
el análisis residual. Obtenga conclusiones.
B). Obtener un intervalo de confianza para la respuesta media de Y y otro de predicción
para Y de 95% de probabilidad. Si se tiene una inversión en publicidad de 9.5 en miles de
dólares y el Ingreso Nacional en este momento es de 2.41 billones de dólares.
C). Para la gerencia general de esta empresa que utilidad tendrían estos resultados. Cual
intervalo recomendaría? Dar razones.
Secuencia didáctica. Cantidad 1.
Objetivo. Se propone el siguiente orden de realización de operaciones para resolver un
problema de RLM como un ciclo de aprendizaje completo. Se proporciona el enunciado del
problema y la lista de actividades a realizar. El maestro organiza a los alumnos en equipo,
fija el tiempo de realización y los productos a entregar. Así como la forma en que se evaluara
el proceso de aprendizaje y la solución. Las actividades de aprendizaje de esta secuencia,
corresponden en lo general a las señaladas en el programa, para este tema
Los pasos para la secuencia didáctica sugerida serian:
1. Encontrar e interpretar la ecuación de RLM, así como los valores de las medidas de la
calidad del ajuste del modelo obtenido. S, R2 y R2 ajustada.
2. Obtener la matriz de varianza-covarianza o A -1 = (𝒙𝒕 𝒙)−𝟏 con operaciones matriciales.
3. Obtener la tabla ANOVA y con esta realizar la prueba F de significancia global del modelo
obtenido. Usando un valor de α y con el criterio del valor P.
4. Obtener la tabla de coeficientes y con esta realizar las pruebas t de significancia
individual del modelo obtenido. Usando un valor de α y con el criterio del valor P.
5. Mostrar que no existe el problema de multicolinealidad entre las dos variables de
regresión empleadas.
6. Realizar el análisis de los residuos del modelo obtenido. Y mostrar que se cumplen los
supuestos estadísticos del término del error del modelo; para validar los resultados y
conclusiones.
7. Usar la ecuación de RLM obtenida y calcular el IC y el IP de 95% de probabilidad para la
variable dependiente Y. Para este problema considere que x1 = 45 ( cientos de horas) de
auditorías de campo realizadas y que X2 = 20 ( cientos de horas) dedicadas en trabajo de
computadora.
PROBLEMA 1. El servicio interno de contribuciones (IRS internal revenue service) de
Estados Unidos está tratando de estimar la cantidad mensual de impuestos no pagados
descubiertos por su departamento de auditoría.
En el pasado, el IRS estimaba esta cantidad con base en el número esperado de horas de
trabajo de auditorías de campo. En los últimos años, sin embargo, la horas de trabajo de
auditorías de campo se han convertido en un pronosticador erradico de los impuestos no
pagados reales. Por esto se piensa buscar otro factor para mejorar la ecuación de
estimación. Como el departamento de auditorías tiene un registro del número de horas que
usa sus computadoras para detectar impuestos no pagados. Así se reunieron los siguientes
datos de los meses anteriores.
Con los datos de esta muestra realizar las actividades de la secuencia didáctica descrita.
Mes. X1 X2 Y
Horas de trabajo Horas en Impuestos Reales
de auditoria de computadora(dos no pagados des-
camp (dos ceros ceros omitidos). cubiertos ( en mill.
omitidos). de dólares).
Enero 45 16 29
Febrero 42 14 24
Marzo 44 15 27
Abril 45 13 25
Mayo 43 13 26
Junio 46 14 28
Julio 44 16 30
Agosto 45 16 28
Septiembre 44 15 28
Octubre 43 15 27