Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión y
correlación Lineal
Simple
Módulo 12
Probabilidad y Estadística
2023-1
Videoconferencia 13
Análisis de regresión y correlación lineal
simple
LOGRO DE LA SESIÓN
Al término de la sesión, resolverás
problemas de situaciones reales,
aplicando el análisis de regresión y
correlación lineal, interpretando los
resultados de forma adecuada y
utilizando el complemento Megastat y
software estadístico SPSS para la toma
de decisiones.
Análisis de regresión y correlación lineal
simple
ÍNDICE
1. Introducción
2. Análisis de regresión lineal
simple
3. Medida de bondad de ajuste
4. Predicciones
5. Ejemplos
6. Aprendo jugando con Genially
7. Conclusiones
8. Consultas
Análisis de regresión y correlación lineal
simple
https://www.youtube.com/watch?v=yUm1qoQ82mU
Introducción
Una industria metal mecánica desea conocer si el número de defectos en sus lotes de producción
está relacionado el porcentaje de un Nuevo Material adquirido, por lo cual registra los datos y
construye el siguiente gráfico de dispersión:
¿Crees que el número de defectos en los lotes de producción puede ser explicada por el % del
nuevo material adquirido?
Modelo de Regresión
Predice o explica como es influida una variable dependiente Y por una variable
independiente X.
El diagrama de dispersión indica la existencia de una relación de tipo lineal. Entonces, se utilizan
los datos para estimar un modelo. Existen distintos tipos de relaciones entre variables, siendo las
más importantes:
SUPUESTOS DEL
MODELO
1. Normalidad de los errores (Kolmogorov -
Regla de Decisión:
Smirnov) Si Valor –p ≥ α Aceptar
H0 : Los errores se distribuyen normalmente
Ho
H1 : Los errores no se distribuyen normalmente Si Valor –p < α Rechazar
Ho
Estadístico de
prueba:
Valor –p
xxxx
Se define:
Interpretación:
(-)INVERSA (+)DIRECTA
Perfect - - 0
Perfect
a -1 0.40 0.70 +1 a
Inversa 0.70 0.40 Directa
BONDAD DE AJUSTE
B. Coeficiente de
determinación:
El coeficiente de determinación (r2), llamado también R cuadrado, refleja la bondad de ajuste de un modelo a la
variable que pretende explicar.
Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.
Cuanto mas cerca a 1 se situé su valor, mayor será el ajuste del modelo a la variable que estamos intentando
explicar. (r2 > 0.70)
De forma inversa, cuanto más cerca de cero, menos ajustado será el modelo y por tanto, menos fiable será.
Se define:
Intervalos de confianza para la media y valor individual estimados
Para hallar un IC con un nivel de confianza del (1-α )100%, de los valores que se predijeron para la
1.
respuesta media y para valor individual de Y, dado un valor de Xo
4. Donde: 𝑆𝐶𝑅
𝑆𝑥𝑥 =
^2
𝐵 1
Ejemplo de Aplicación 1
El gerente del banco “Caja Norte” cree que el monto del préstamo depende de los ingresos de los clientes. Para probarlo
selecciona al azar una muestra del monto del préstamo (miles de soles) y el ingreso mensual (miles de soles) de 15 clientes del
banco. En la siguiente tabla se muestran los datos registrados de la muestra:
Ingreso mensual 3.5 3.7 12.6 3.8 8.9 7.1 5.6 7.9 12.5 6.3 2.4 8.1 15.4 3.6 3.4
Monto del
19.7 18.5 32.8 29 40.2 28.3 28.4 28.2 35.6 15.4 19.7 22.8 42.5 25.6 15.6
préstamo
a) Presente el diagrama de dispersión. ¿Los datos pueden aproximarse a una regresión lineal?
b) Pruebe los supuestos del modelo de regresión lineal simple. Use un nivel de significación del 5%.
c) Presente la ecuación de regresión lineal simple. Interprete el coeficiente de regresión y valide el modelo al nivel de
significación del 5%.
d) Interprete el coeficiente de correlación y determinación.
e) Estime con una confianza del 95%, el monto promedio de un préstamo si el ingreso del cliente es de 15 mil soles.
f) Estime el monto promedio de un préstamo si el ingreso del cliente es de 15 mil soles.
Desarrollamos usando Megastat
Título adecuado
Desarrollamos usando Megastat
a)Presente el diagrama de dispersión. ¿Los datos pueden aproximarse a una
regresión lineal?
Gráfico 1. Ingreso mensual y Monto del préstamo de los
clientes del banco "Caja Norte"
Monto del préstamo en milesde soles (Y) 45
40
35
30
25
20
15
0 2 4 6 8 10 12 14 16 18
Ingreso mensual en milesde soles(X)
Al seguir los puntos una tendencia lineal, los datos pueden ajustarse a un regresión lineal.
Desarrollamos usando Megastat
b. Pruebe los supuestos del modelo de regresión lineal simple. Use nivel de
significación del 5%
Primer supuesto: Los errores no están autocorrelacionados
Segundo supuesto: Normalidad de los errores
Ho: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
Desarrollamos usando Megastat
2° Del recuadro “Regresión lineal”, seleccionamos la variable “Monto del préstamo” e
“Ingreso mensual del cliente” y la colocamos en el recuadro “Dependientes” e
“Independiente” respectivamente.
Desarrollamos usando Megastat
Se genera una variable nueva con los errores no estandarizados
Durbin-Watson = 1.654
Desarrollamos usando Megastat
Con los errores no estandarizados seguimos los siguientes pasos para probar si se ajustan a
una distribución normal.
Desarrollamos usando Megastat
b) Pruebe los supuestos del modelo de regresión lineal simple. Use un nivel de
significación del 5%.
Primer supuesto: Los errores no están autocorrelacionados:
Como el valor Durbin Watson = 1.654, está en el intervalo [1;3], por lo tanto se
cumple el primer supuesto.
Desarrollamos usando Megastat
Segundo supuesto: Normalidad de errores: Análisis gráfico: Los datos se ajustan a la recta
Ho: Los errores se distribuyen normalmente de la curva Normal, gráficamente se concluye
H1: Los errores no se distribuyen normalmente que los errores se distribuyen normalmente
Decisión:
Como Sig. = 0.368 > α= 0.05 Aceptar H0
Conclusión:
Con un nivel de significación del 5% los errores se
distribuyen normalmente.
Desarrollamos usando Megastat
c) Presente la ecuación de regresión lineal simple. Interprete el
coeficiente de regresión y valide el modelo al nivel de significación del
5%.
ANOVA table
Source SS df MS F p-value
Regression 605.305 1 605.3048 20.26 0.001
Residual 388.339 13 29.8722
Total 993.644 14
Decisión:
Como Sig.= 0.001 < α =0.05 Se Rechaza H0
Conclusión:
Con un nivel de significación del 5% existe relación lineal entre el ingreso mensual del
cliente y monto del préstamo, por lo tanto sea firma que el modelo es válido
Desarrollamos usando Megastat
Regression Analysis
r² 0.609
r 0.780
Std. Error 5.466
n 15
k 1
Dep. Var. Monto del préstamo (Y)
r = 0.780; Existe una correlación positiva alta entre el monto del préstamo y el ingreso
mensual del cliente.
R2=0.609; El 60.9% de la variabilidad del monto del préstamo se debe al ingreso del cliente,
además el modelo no presenta un buen ajuste (R2 <0.7)
Desarrollamos usando Megastat
e) Estime con una confianza del 95%, el monto promedio de un préstamo si el
ingreso del cliente es de 15 mil soles.
1° Ingresamos el valor del ingreso del cliente (X=15) para estimar el monto del préstamo.
Desarrollamos usando Megastat
e) Estime con una confianza del 95%, el monto promedio de un préstamo
si el ingreso del cliente es de 15 mil soles.
1° Ingresamos el valor del ingreso del cliente (X=15) para estimar el monto del préstamo.
El monto promedio de un préstamo si el ingreso mensual del clientes es de 15 mil soles es 40.1326 miles de soles.
Ejemplo de Aplicación 2
Un aspecto importante que quiere determinar el gerente general de una Aerolínea Internacional es si el precio del vuelo (en dólares) está en
función de la distancia recorrida. Los datos para el análisis del gerente se muestran a continuación:
Precio del vuelo ($) 870 840 960 810 630 870 900 900 810 990 810 1020 900 870 990 630 1050 840 780
Distancia recorrida
4480 4320 5240 4520 2920 5040 4880 4840 4440 5520 4120 5560 5000 4880 5480 3480 5960 4480 3960
(Km)
a) Presente el diagrama de dispersión. ¿Los datos pueden aproximarse a una regresión lineal?
b) Pruebe los supuestos del modelo de regresión lineal simple. Use un nivel de significación del 1%.
c) Presente la ecuación de regresión lineal simple. Interprete el coeficiente de regresión y valide el modelo
al nivel de significación del 1%.
d) Interprete el coeficiente de correlación y determinación.
e) Pronostique, con 94% de confianza, el precio promedio de un vuelo cuando la distancia recorrida es de
4300 km.
Desarrollamos usando Megastat
a)Presente el diagrama de dispersión. ¿Los datos pueden aproximarse a una
regresión lineal?
Gráfico 2. Distancia recorrida (Km) y Precio del vuelo ($) de pasajeros de una aerolínea
1100
1050
f(x) = 0.146995735072755 x + 177.354741595585
R² = 0.945168461701002
1000
950
Precio del vuelo ($)
900
850
800
750
700
650
600
2000 2500 3000 3500 4000 4500 5000 5500 6000 6500
Al seguir los puntos una tendencia lineal, los datos pueden ajustarse a una regresión lineal.
Desarrollamos usando Megastat
b) Pruebe los supuestos del modelo de regresión lineal simple. Use un nivel de significación
del 1%.
Primer supuesto: Los errores no están autocorrelacionados:
Como el valor Durbin Watson = 2.04, está en el intervalo [1;3], por lo tanto se
cumple el primer supuesto.
Desarrollamos usando Megastat
b. Pruebe los supuestos del modelo de regresión lineal simple. Use nivel de
significación del 1%
Análisis gráfico: Los datos se ajustan a la
Segundo supuesto: Normalidad de errores: recta de la curva Normal, gráficamente se
Ho: Los errores se distribuyen normalmente concluye que los errores se distribuyen
H1: Los errores no se distribuyen normalmente normalmente
Normal Curve Plot
40.0
20.0
0.0
Residual
-20.0
-40.0
-60.0
-80.0
-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0
Normal Score
Decisión:
Como Sig. = 0.5318 > α= 0.01 No se RH0
Conclusión:
Con un nivel de significación del 1% los errores se
distribuyen normalmente.
Desarrollamos usando Megastat
c) Presente la ecuación de regresión lineal simple. Interprete el coeficiente de
regresión y valide el modelo al nivel de significación del 1%.
Interpretación:
Decisión:
Como p-value= 0.000000 < α =0.01 Se Rechaza H0
Conclusión:
Con un nivel de significación del 1% existe relación lineal entre el la distancia recorrida y el
precio del vuelo, por lo tanto se afirma que el modelo es válido
Desarrollamos usando Megastat
r = 0.972; Existe una correlación positiva alta entre la distancia recorrida y el precio del vuelo.
R2=0.945; El 94.5% de la variabilidad del precio del vuelo se debe a la distancia recorrida.
Además el modelo presenta un buen ajuste (R2 > 0.7)
Desarrollamos usando Megastat
e) Pronostique, con 94% de confianza, el precio promedio de un vuelo
cuando la distancia recorrida es de 4300 km.
Con un nivel de confianza del 94%, el precio promedio de un vuelo si la distancia recorrida es de
4300 km esta contenido en el intervalo de 795.142 hasta 823.731 dólares.
Evaluando lo
aprendido
Aprendiendo de forma divertida con
Quizizz