Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CONCEPTOS
REGRESIÓN LINEAL SIMPLE
• Es el estudio de la relación lineal existente entre una variable aleatoria Y, llamada variable
dependiente y otra variable X, llamada variable independiente o explicativa.
• El objetivo principal es estimar Y para un valor específico de X.
• El modelo de regresión lineal poblacional tiene la siguiente forma:
Y i=β 0 + β 1 X +e i i=1 , 2 ,… , n
Aquí:
Y: Variable dependiente o variable respuesta. X: Variable independiente o predictora.
β 0 y β 1 : Son los parámetros del modelo que deben estimarse.
e i: Es la variable aleatoria que representa los errores y se distribuye normalmente con media
cero y varianza 1.
DIAGRAMA DE DISPERSIÓN
Un diagrama de dispersión es un tipo de gráfico formado por los pares ordenados (x, y) que
corresponde a los valores de las variables dependiente e independiente respectivamente y que se
ubican como puntos de un plano cartesiano.
Nos permite deducir si existe alguna relación entre estas dos variables.
Ejemplos
• Según el diagrama de dispersión se puede establecer algún tipo de relación lineal entre las
variables.
• Si el diagrama de dispersión indica la existencia de una relación de tipo lineal, entonces se
utilizan los datos para estimar un modelo
ESTIMACIÓN DE PARÁMETROS
• El procedimiento matemático utilizado para el proceso de estimación es el de mínimos
cuadrados.
• El método consiste en determinar una ecuación que produzca que la suma de los cuadrados de
los errores sea mínima.
• Los parámetros estimados están expresados por:
1
( ) ( )(∑ )
n n n
n ∑ xi yi − ∑ xi yi
^β 0= ȳ − ^β1 x̄ y ^β 1= i=1 i=1 i=1
(∑ ) (∑ )
n n 2
2
n x −
i xi
i=1 i=1
Y^ = ^β0 + β^ 1 X
Se usará el análisis de varianza para la validación del modelo con la siguiente estadística de
prueba:
CMR
F c= F
CME (1, n−2)
Tabla del análisis de varianza:
Donde:
SCR: Suma de cuadrados de la regresión
SCE: Suma de cuadrados del error
CMR: Cuadrado medio de la regresión
CME: Cuadrado medio del error
La prueba es de cola derecha
Donde:
Se rechaza Ho si FC es mayor que F Crítico
SCR: Suma de cuadrad
También se rechaza Ho si Valor p < α
SCE: Suma de cuadrad
Coeficiente de determinación
Es una medida de la bondad de ajuste del modelo
Mide la proporción de la variabilidad total de Y que es explicada por X a través del modelo de
regresión lineal simple.
Su cálculo se realiza con la siguiente fórmula:
SCR
R 2= siendo:0 ≤ R2 ≤1
SCT
Coeficiente de no determinación
Expresa la proporción de la variabilidad de Y que no es explicada por el modelo de regresión lineal
simple.
Su cálculo se realiza con la siguiente fórmula:
SCR
1−R 2=1−
SCT
Coeficiente de correlación
Mide el grado de la asociación lineal entre Y y X.
El coeficiente de correlación toma valores entre -1 y 1
r = -1 Asociación perfecta inversa
3
-1 < r < 0 Asociación inversa
r = 0 No hay Asociación
r = 1 Asociación perfecta directa
0< r <1 Asociación directa
r =±
√ SCR
SCT
IC (μ y )= y 0 ± t
i
IC ( Y i )= y 0 ± t
( α
2
, GLE ) √1
× Se × 1+ + ¿ ¿ ¿
n
EJEMPLO 1
Caso: Dronet S.A.C.
Marco, ingeniero industrial de la empresa Dronet S.A.C., actualmente está a cargo del área de producción
de una planta ensambladora de Drones.
Últimamente se han reportado problemas en los tiempos de vuelo de los drones del modelo DJI MAVIC 2
ENTERPRISE, situación que afecta fuertemente la imagen de la empresa.
Marco piensa que el tiempo de vuelo de los drones (duración) del modelo DJI MAVIC 2 ENTERPRISE
depende de la temperatura del medio ambiente. Para una muestra de 10 drones se tienen los siguientes
resultados:
Duración en minutos (Y) 8.0 9.0 10.3 8.4 8.6 12.5 14.0 11.5 8.9 10.0
Temperatura en °C (X) 25 26 20 25 23 18 18 20 21 22
Se le ha encargado a Marco realizar el pronóstico del tiempo de vuelo de un dron cuando la temperatura
en el ambiente es de 24 °C y determinar la correlación entre el tiempo de vuelo del dron y la temperatura
del ambiente. Si se establece que el tiempo de vuelo es mayor a 5 minutos y la correlación es menor a
0.965, se debe seguir fabricando el modelo DJI MAVIC 2 ENTERPRISE. Utilice un nivel de significación
de 5%.
4
Representación:
Variable dependiente = Y: Duración en minutos
Variable Independiente = X : Temperatura en ° C
Unidad experimental: Un dron
Herramienta estadística:
Se realizará el Análisis de Regresión Lineal Simple.
Verificación de supuestos
90
N
AD
Valor p
10
0.261
0.624
Porcentaje
60
50
10
Decisión: No se rechaza HO 5
1
-3 -2 -1 0 1 2 3
Independencia de errores
H0: Los errores no están autocorrelacionados (los errores son independientes)
H1: Los errores están autocorrelacionados (los errores son dependientes)
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.36394
Estadístico de prueba: DW= 2,36394
No existe autocorrelación de los errores.
Cálculo:
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 26.147 26.1467 23.17 0.001
Temperatura (X) 1 26.147 26.1467 23.17 0.001
Error 8 9.029 1.1287
Falta de ajuste 5 7.104 1.4209 2.21 0.273
Error puro 3 1.925 0.6417
Total 9 35.176
Análisis:
Validación del modelo
H0: β1 = 0 (No existe relación lineal entre la duración en minutos y temperatura °C)
H1: β1 ≠ 0 (Sí existe relación lineal entre la duración en minutos y temperatura °C)
α = 0.05
Estadístico de prueba: F = 23.17
5
Valor p= 0.001 < 0.05
Decisión: Se rechaza H0.
Conclusión: Con un nivel de significancia del 5%, el modelo lineal estimado entre la duración en minutos
y la temperatura en °C es válido. Es decir, existe relación lineal entre la duración en minutos y temperatura
°C.
Y = 22.94 – 0.588X
Interpretación de B1 = - 0.588
Por cada unidad adicional en X, entonces Y se incrementa/disminuye en promedio B 1 unidades
Por 1 °C adicional en la temperatura del medio ambiente, entonces la duración del tiempo de vuelo de
los drones disminuye en promedio 0.588 minutos
Interprete R2*100%= 74.33%
El 74.33% de la variabilidad en el tiempo de vuelo de los drones es explicado por la temperatura del
medio ambiente
Interprete R = √ 0.7433=−0.8621
El nivel de ajuste entre la temperatura del medio ambiente y la duración del tiempo de vuelo de los
drones es alto/muy bueno
Estimación puntual de la duración de vuelo en minutos cuando la temperatura en el ambiente es 24
°C
Se procederá a reemplazar el valor de 24 °C en la ecuación de regresión.
Configuración
Valor de
Variable configuración
Temperatura (X) 24
Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
8.82619 0.430261 (7.83401; 9.81837) (6.18304; 11.4693)
Argumentación:
Dado que se cumplen las dos condiciones, entonces se deberá seguir fabricando drones del modelo
DJI MAVIC 2 ENTERPRISE.
6
EJERCICIOS PROPUESTOS
1. Caso: Sedapar S.A.C.
El jefe de operaciones de Sedapar S.A.C. empresa que brinda servicios de agua potable y
alcantarillado, sospecha que el tiempo total del servicio está en función del número de operarios
asignados. Con el fin de determinar un modelo lineal, que permita predecir el tiempo total del
servicio, se seleccionó una muestra aleatoria de 10 servicios realizados y se registró el tiempo
total y la cantidad de operarios asignados. A continuación, se presentan los datos:
Tiempo Total Número de Operarios
25 12
26 10
27 10
27 9
28 8
30 6
30 6
32 4
31 4
32 5
Con un nivel de confianza del 98%, el jefe de operaciones debe determinar si con 12 operarios es
posible atender los problemas de alcantarillado en un tiempo promedio menor a 26 horas. De no
ser así, debería contratar a más operarios. Explique y fundamente, si será necesario contratar a
más operarios. Use un nivel de significación del 5%.
2. El vicepresidente de Motor Perú S.A es informado por el equipo de la compañía, que la
resistencia al corte de la unidad ensamblada está en función de la antigüedad de la carga
propulsora cuando se moldea el motor. Para ello se toman al azar 20 observaciones para probar
esta relación. La información recogida se muestra en la siguiente tabla:
N° Observación Resistencia al corte (PSI) Antigüedad (Semanas)
1 2158,70 15,50
2 1678,15 23,75
3 2316,00 08,00
4 2061,30 17,00
5 2207,50 05,00
6 1708,30 19,00
7 1784,70 24,00
8 2575,00 02,50
9 2357,90 07,50
10 2277,70 11,00
11 2165,20 13,00
12 2399,55 03,75
12 1779,80 25,00
14 2336,75 09,75
15 1765,30 22,00
16 2053,50 18,00
17 2414,40 06,00
18 2200,50 12,50
19 2654,20 02,00
20 1753,70 21,50
Use un nivel de significación del 2%, los datos se encuentran en la hoja.
7
a. Verifique los supuestos,
b. Valide el modelo de regresión lineal,
c. Presente la ecuación estimada e interprete ambos coeficientes,
d. Estime la resistencia al corte de un motor fabricado por una carga propulsora de 20 semanas de
antigüedad,
e. Estime con un intervalo de confianza del 98%, la resistencia media al corte de un motor fabricado por
una carga propulsora de 20 semanas de antigüedad,
f. Estime con un intervalo de confianza del 98%, la resistencia al corte de un motor fabricado por una
carga propulsora de 20 semanas de antigüedad.
3. Un ingeniero que labora en una distribuidora eléctrica desea encontrar un modelo de regresión
lineal que le permita predecir el consumo de electricidad en su localidad a partir de las
temperaturas mínimas que se pronostican para el día siguiente, Los datos de la temperatura y el
consumo real, obtenidos de una muestra de diez días son los siguientes:
Temperatura (°C) -12 0 13 25 -7,5 18,5 15,5 28 14,5 20
Consumo (megawatios) 15,50 13,50 11,00 8,50 14,80 9,85 10,50 8,50 10,00 9,50
Use un nivel de significación del 6%.
a. Verifique los supuestos,
b. Valide el modelo de regresión lineal,
c. Presente la ecuación estimada e interprete ambos coeficientes,
d. Determine la varianza total de la variable dependiente explicada a través del
e. Interprete el coeficiente de correlación,
f. Estime el consumo de electricidad cuando la temperatura es de 15 °C,
g. Estime con un intervalo de confianza del 94%, el consumo de electricidad cuando la temperatura es de
15 °C,
h. Estime con un intervalo de confianza del 94%, el consumo promedio de electricidad cuando la
temperatura es de 15 °C.
4. Un ingeniero químico está calibrando un espectrómetro para medir la concentración de CO en
muestras de aire, esta calibración implica que debe comprobar que existe una relación lineal en la
concentración verdadera de CO (X) y la concentración medida por el espectrómetro (Y), Para tal
fin, selecciona 11 muestras de aire en las que conoce su verdadera concentración de CO y las
compara con la concentración medida por el espectrómetro, los datos son los siguientes (las
unidades son ppm):
Concentración de CO 0 10 20 30 40 50 60 70 80 90 100
Concentración 1 12 20 29 38 48 61 68 79 91 97