Está en la página 1de 8

UNIVERSIDAD PERUANA DE CIENCIAS APLICADAS

DEPARTAMENTO ACADÉMICO DE CIENCIAS

Estadística Aplicada 2 CE87


ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

LOGRO DE APRENDIZAJE TEMARIO


Al término de la unidad, el  Diagramas de dispersión y validación de supuestos.
estudiante pronostica valores a  Estimación de los parámetros y validación del modelo.
partir de modelos de regresión  Coeficiente de determinación y correlación.
que brindan la adecuada validez  Predicción para un valor medio y para un valor individual.
estadística.

CONCEPTOS
REGRESIÓN LINEAL SIMPLE

• Es el estudio de la relación lineal existente entre una variable aleatoria Y, llamada variable
dependiente y otra variable X, llamada variable independiente o explicativa.
• El objetivo principal es estimar Y para un valor específico de X.
• El modelo de regresión lineal poblacional tiene la siguiente forma:

Y i=β 0 + β 1 X +e i i=1 , 2 ,… , n
Aquí:
Y: Variable dependiente o variable respuesta. X: Variable independiente o predictora.
β 0 y β 1 : Son los parámetros del modelo que deben estimarse.
e i: Es la variable aleatoria que representa los errores y se distribuye normalmente con media
cero y varianza 1.

DIAGRAMA DE DISPERSIÓN
Un diagrama de dispersión es un tipo de gráfico formado por los pares ordenados (x, y) que
corresponde a los valores de las variables dependiente e independiente respectivamente y que se
ubican como puntos de un plano cartesiano.
Nos permite deducir si existe alguna relación entre estas dos variables.

Ejemplos

• Según el diagrama de dispersión se puede establecer algún tipo de relación lineal entre las
variables.
• Si el diagrama de dispersión indica la existencia de una relación de tipo lineal, entonces se
utilizan los datos para estimar un modelo

ESTIMACIÓN DE PARÁMETROS
• El procedimiento matemático utilizado para el proceso de estimación es el de mínimos
cuadrados.
• El método consiste en determinar una ecuación que produzca que la suma de los cuadrados de
los errores sea mínima.
• Los parámetros estimados están expresados por:

1
( ) ( )(∑ )
n n n
n ∑ xi yi − ∑ xi yi
^β 0= ȳ − ^β1 x̄ y ^β 1= i=1 i=1 i=1

(∑ ) (∑ )
n n 2
2
n x −
i xi
i=1 i=1

MODELO O ECUACIÓN ESTIMADA

Y^ = ^β0 + β^ 1 X

Coeficiente de intersección ( ^β 0 ); es el valor de Y, cuando x = 0.


Coeficiente de regresión poblacional estimado ( β^ 1 ) ; mide el cambio que se producirá en la variable
dependiente Y por un cambio unitario en la variable X.

La relación entre X e Y puede ser:


Directa: ^β 1 >0 , pendiente positiva

Inversa: ^β 1 <0 , pendiente negativa

SUPUESTOS DEL MODELO


Dos supuestos más importantes del modelo:
1. Normalidad de los errores o residuos
2. Independencia de los errores o residuos

Verificación de los supuestos:


Supuestos de normalidad de los errores o residuos
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente

Estadístico de prueba: Anderson Darling


Si Valor p >  No se rechaza H0
Se cumple el supuesto de Normalidad de errores

Supuestos de independencia de los errores o residuos

Estadístico de prueba: Durbin-Watson


Si 1 ≤ DW ≤ 3, Se cumple el supuesto de independencia de
errores.
Revisar el indicador de DW
2
La falta de independencia de los residuos se le conoce como autocorrelación de los residuos

VALIDACIÓN DEL MODELO


H0 : 1  0 (No Existe relación lineal entre X e Y)
H1 : 1  0 (Existe relación lineal entre X e Y)

Se usará el análisis de varianza para la validación del modelo con la siguiente estadística de
prueba:
CMR
F c= F
CME (1, n−2)
Tabla del análisis de varianza:
Donde:
SCR: Suma de cuadrados de la regresión
SCE: Suma de cuadrados del error
CMR: Cuadrado medio de la regresión
CME: Cuadrado medio del error
La prueba es de cola derecha
Donde:
Se rechaza Ho si FC es mayor que F Crítico
SCR: Suma de cuadrad
También se rechaza Ho si Valor p < α
SCE: Suma de cuadrad

COEFICIENTES DE DETERMINACIÓN, NO DETERMINACIÓN Y CORRELACIÓN

Coeficiente de determinación
Es una medida de la bondad de ajuste del modelo
Mide la proporción de la variabilidad total de Y que es explicada por X a través del modelo de
regresión lineal simple.
Su cálculo se realiza con la siguiente fórmula:
SCR
R 2= siendo:0 ≤ R2 ≤1
SCT

Coeficiente de no determinación
Expresa la proporción de la variabilidad de Y que no es explicada por el modelo de regresión lineal
simple.
Su cálculo se realiza con la siguiente fórmula:
SCR
1−R 2=1−
SCT

Coeficiente de correlación
Mide el grado de la asociación lineal entre Y y X.
El coeficiente de correlación toma valores entre -1 y 1
r = -1 Asociación perfecta inversa
3
-1 < r < 0 Asociación inversa
r = 0 No hay Asociación
r = 1 Asociación perfecta directa
0< r <1 Asociación directa

Su cálculo se realiza con la siguiente fórmula:

r =±
√ SCR
SCT

Lleva el signo del coeficiente de la variable X del modelo

PREDICCIÓN POR INTERVALOS DE CONFIANZA


Intervalo de confianza para un valor medio

IC (μ y )= y 0 ± t
i

Intervalo de confianza para un valor individual


(
α
2
,GLE )
× Se ×
√ 1
n
+¿ ¿ ¿

IC ( Y i )= y 0 ± t
( α
2
, GLE ) √1
× Se × 1+ + ¿ ¿ ¿
n

y 0= ^β0 + β^ 1 x 0 y Se= √ CME

Donde: GLE: Grados de libertad del error


Se: Desviación estándar del error x0: Valor de la variable X (dato)
CME: Cuadrado medio del error x : Valor de la media de X
t: Distribución t-Student n: Tamaño de la muestra
SCX: Suma de cuadrados de X α: Nivel de significación

EJEMPLO 1
Caso: Dronet S.A.C.
Marco, ingeniero industrial de la empresa Dronet S.A.C., actualmente está a cargo del área de producción
de una planta ensambladora de Drones.
Últimamente se han reportado problemas en los tiempos de vuelo de los drones del modelo DJI MAVIC 2
ENTERPRISE, situación que afecta fuertemente la imagen de la empresa.
Marco piensa que el tiempo de vuelo de los drones (duración) del modelo DJI MAVIC 2 ENTERPRISE
depende de la temperatura del medio ambiente. Para una muestra de 10 drones se tienen los siguientes
resultados:

Duración en minutos (Y) 8.0 9.0 10.3 8.4 8.6 12.5 14.0 11.5 8.9 10.0
Temperatura en °C (X) 25 26 20 25 23 18 18 20 21 22

Se le ha encargado a Marco realizar el pronóstico del tiempo de vuelo de un dron cuando la temperatura
en el ambiente es de 24 °C y determinar la correlación entre el tiempo de vuelo del dron y la temperatura
del ambiente. Si se establece que el tiempo de vuelo es mayor a 5 minutos y la correlación es menor a
0.965, se debe seguir fabricando el modelo DJI MAVIC 2 ENTERPRISE. Utilice un nivel de significación
de 5%.

Solución del caso Dronet S.A.C.


Interpretación:
Determinar si se debe continuar fabricando el modelo DJI MAVIC 2 ENTERPRISE.

4
Representación:
Variable dependiente = Y: Duración en minutos
Variable Independiente = X : Temperatura en ° C
Unidad experimental: Un dron
Herramienta estadística:
Se realizará el Análisis de Regresión Lineal Simple.

Hipótesis para resolver:


H0: β1 = 0 (No existe relación lineal entre la duración en minutos y temperatura °C)

H1: β1 ≠ 0 (Existe relación lineal entre la duración en minutos y temperatura °C)


α = 0.05

Verificación de supuestos

Normalidad de los errores Gráfica de probabilidad delos residuos


Normal

H0: Los errores se distribuyen normalmente 99


Media
Desv.Est.
-2.93099E-15
1.002

H1: Los errores no se distribuyen normalmente 95

90
N
AD
Valor p
10
0.261
0.624

Estadístico de prueba: AD=0.261 80


70

Porcentaje
60
50

Valor p = 0,624 >  = 0,05


40
30
20

10

Decisión: No se rechaza HO 5

1
-3 -2 -1 0 1 2 3

Conclusión: A un nivel de significación del RESID1

5%, los errores se distribuyen normalmente.

Independencia de errores
H0: Los errores no están autocorrelacionados (los errores son independientes)
H1: Los errores están autocorrelacionados (los errores son dependientes)
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.36394
Estadístico de prueba: DW= 2,36394
No existe autocorrelación de los errores.

Cálculo:
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 26.147 26.1467 23.17 0.001
  Temperatura (X) 1 26.147 26.1467 23.17 0.001
Error 8 9.029 1.1287    
  Falta de ajuste 5 7.104 1.4209 2.21 0.273
  Error puro 3 1.925 0.6417    
Total 9 35.176      

Análisis:
Validación del modelo
H0: β1 = 0 (No existe relación lineal entre la duración en minutos y temperatura °C)
H1: β1 ≠ 0 (Sí existe relación lineal entre la duración en minutos y temperatura °C)
α = 0.05
Estadístico de prueba: F = 23.17

5
Valor p= 0.001 < 0.05
Decisión: Se rechaza H0.
Conclusión: Con un nivel de significancia del 5%, el modelo lineal estimado entre la duración en minutos
y la temperatura en °C es válido. Es decir, existe relación lineal entre la duración en minutos y temperatura
°C.

Presentación del modelo estimado


Ecuación de regresión
Duración (Y) = 22.94 - 0.588 Temperatura (X)
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 22.94 2.68 8.54 0.000  
Temperatura (X) -0.588 0.122 -4.81 0.001 1.00

Y = 22.94 – 0.588X
Interpretación de B1 = - 0.588
Por cada unidad adicional en X, entonces Y se incrementa/disminuye en promedio B 1 unidades
Por 1 °C adicional en la temperatura del medio ambiente, entonces la duración del tiempo de vuelo de
los drones disminuye en promedio 0.588 minutos
Interprete R2*100%= 74.33%
El 74.33% de la variabilidad en el tiempo de vuelo de los drones es explicado por la temperatura del
medio ambiente
Interprete R = √ 0.7433=−0.8621
El nivel de ajuste entre la temperatura del medio ambiente y la duración del tiempo de vuelo de los
drones es alto/muy bueno
Estimación puntual de la duración de vuelo en minutos cuando la temperatura en el ambiente es 24
°C
Se procederá a reemplazar el valor de 24 °C en la ecuación de regresión.

Configuración
Valor de
Variable configuración
Temperatura (X) 24

Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
8.82619 0.430261 (7.83401; 9.81837) (6.18304; 11.4693)

El tiempo de vuelo es mayor a 5 minutos.


Se determina el coeficiente de correlación de Pearson.

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
1.06238 74.33% 71.12% 56.48%

r =√ 0.7433=0.8621 La correlación es menor a 0.965

Argumentación:
Dado que se cumplen las dos condiciones, entonces se deberá seguir fabricando drones del modelo
DJI MAVIC 2 ENTERPRISE.

6
EJERCICIOS PROPUESTOS
1. Caso: Sedapar S.A.C.
El jefe de operaciones de Sedapar S.A.C. empresa que brinda servicios de agua potable y
alcantarillado, sospecha que el tiempo total del servicio está en función del número de operarios
asignados. Con el fin de determinar un modelo lineal, que permita predecir el tiempo total del
servicio, se seleccionó una muestra aleatoria de 10 servicios realizados y se registró el tiempo
total y la cantidad de operarios asignados. A continuación, se presentan los datos:
Tiempo Total Número de Operarios
25 12
26 10
27 10
27 9
28 8
30 6
30 6
32 4
31 4
32 5

Con un nivel de confianza del 98%, el jefe de operaciones debe determinar si con 12 operarios es
posible atender los problemas de alcantarillado en un tiempo promedio menor a 26 horas. De no
ser así, debería contratar a más operarios. Explique y fundamente, si será necesario contratar a
más operarios. Use un nivel de significación del 5%.
2. El vicepresidente de Motor Perú S.A es informado por el equipo de la compañía, que la
resistencia al corte de la unidad ensamblada está en función de la antigüedad de la carga
propulsora cuando se moldea el motor. Para ello se toman al azar 20 observaciones para probar
esta relación. La información recogida se muestra en la siguiente tabla:
N° Observación Resistencia al corte (PSI) Antigüedad (Semanas)
1 2158,70 15,50
2 1678,15 23,75
3 2316,00 08,00
4 2061,30 17,00
5 2207,50 05,00
6 1708,30 19,00
7 1784,70 24,00
8 2575,00 02,50
9 2357,90 07,50
10 2277,70 11,00
11 2165,20 13,00
12 2399,55 03,75
12 1779,80 25,00
14 2336,75 09,75
15 1765,30 22,00
16 2053,50 18,00
17 2414,40 06,00
18 2200,50 12,50
19 2654,20 02,00
20 1753,70 21,50
Use un nivel de significación del 2%, los datos se encuentran en la hoja.
7
a. Verifique los supuestos,
b. Valide el modelo de regresión lineal,
c. Presente la ecuación estimada e interprete ambos coeficientes,
d. Estime la resistencia al corte de un motor fabricado por una carga propulsora de 20 semanas de
antigüedad,
e. Estime con un intervalo de confianza del 98%, la resistencia media al corte de un motor fabricado por
una carga propulsora de 20 semanas de antigüedad,
f. Estime con un intervalo de confianza del 98%, la resistencia al corte de un motor fabricado por una
carga propulsora de 20 semanas de antigüedad.
3. Un ingeniero que labora en una distribuidora eléctrica desea encontrar un modelo de regresión
lineal que le permita predecir el consumo de electricidad en su localidad a partir de las
temperaturas mínimas que se pronostican para el día siguiente, Los datos de la temperatura y el
consumo real, obtenidos de una muestra de diez días son los siguientes:
Temperatura (°C) -12 0 13 25 -7,5 18,5 15,5 28 14,5 20
Consumo (megawatios) 15,50 13,50 11,00 8,50 14,80 9,85 10,50 8,50 10,00 9,50
Use un nivel de significación del 6%.
a. Verifique los supuestos,
b. Valide el modelo de regresión lineal,
c. Presente la ecuación estimada e interprete ambos coeficientes,
d. Determine la varianza total de la variable dependiente explicada a través del
e. Interprete el coeficiente de correlación,
f. Estime el consumo de electricidad cuando la temperatura es de 15 °C,
g. Estime con un intervalo de confianza del 94%, el consumo de electricidad cuando la temperatura es de
15 °C,
h. Estime con un intervalo de confianza del 94%, el consumo promedio de electricidad cuando la
temperatura es de 15 °C.
4. Un ingeniero químico está calibrando un espectrómetro para medir la concentración de CO en
muestras de aire, esta calibración implica que debe comprobar que existe una relación lineal en la
concentración verdadera de CO (X) y la concentración medida por el espectrómetro (Y), Para tal
fin, selecciona 11 muestras de aire en las que conoce su verdadera concentración de CO y las
compara con la concentración medida por el espectrómetro, los datos son los siguientes (las
unidades son ppm):

Concentración de CO 0 10 20 30 40 50 60 70 80 90 100
Concentración 1 12 20 29 38 48 61 68 79 91 97

Use un nivel de significación del 8%.


a. Verifique los supuestos,
b. Valide el modelo de regresión lineal,
c. Presente la ecuación estimada e interprete ambos coeficientes,
d. ¿Qué porcentaje de la concentración medida por el espectrómetro es explicada por el modelo de
regresión estimado?
e. Interprete el coeficiente de correlación
f. ¿Cuál será la concentración medida por el espectrómetro cuando la concentración de CO en el aire sea
de 82 ppm?
g. Con un 92% de confianza, ¿cuál será la concentración medida por el espectrómetro cuando la
concentración de CO en el aire sea de 90 ppm?

También podría gustarte