Está en la página 1de 45

Análisis de

Regresión y
correlación Lineal
Simple
Módulo 12

Probabilidad y Estadística
2023-1

Videoconferencia 13
Análisis de regresión y correlación lineal
simple

LOGRO DE LA SESIÓN
Al término de la sesión, resolverás
problemas de situaciones reales,
aplicando el análisis de regresión y
correlación lineal, interpretando los
resultados de forma adecuada y
utilizando el complemento Megastat y
software estadístico SPSS para la toma
de decisiones.
Análisis de regresión y correlación lineal
simple

ÍNDICE

1. Introducción
2. Análisis de regresión lineal
simple
3. Medida de bondad de ajuste
4. Predicciones
5. Ejemplos
6. Aprendo jugando con Genially
7. Conclusiones
8. Consultas
Análisis de regresión y correlación lineal
simple

https://www.youtube.com/watch?v=yUm1qoQ82mU
Introducción
Una industria metal mecánica desea conocer si el número de defectos en sus lotes de producción
está relacionado el porcentaje de un Nuevo Material adquirido, por lo cual registra los datos y
construye el siguiente gráfico de dispersión:

¿Crees que el número de defectos en los lotes de producción puede ser explicada por el % del
nuevo material adquirido?
Modelo de Regresión

Predice o explica como es influida una variable dependiente Y por una variable
independiente X.

El objetivo es obtener estimaciones razonables de Y para distintos valores de X a


partir de una muestra de n pares de valores (x1,y1),…,(xn,yn).
Ejemplos:

Estimar el precio de Predecir el gasto Prever el tiempo de


una vivienda en económico familiar de conexión a un
función de su cierta zona en función programa en función
superficie del número de de la velocidad del
familias procesador
Ecuación de regresión

Si la variable dependiente (Y) está relacionada con la variable independiente (X),


entonces la relación funcional o ecuación de regresión entre Y y X tiene la siguiente
forma:
Ecuación de Regresión
Estimada

: Intercepto con el eje. Es el valor de Y que se obtiene


cuando X = 0.
: Pendiente de la recta. Mide el cambio que se producirá en la
variable Y por cada unidad que se incremente X.
La relación entre X e Y puede ser:
Diagrama de dispersión

• Llamada también nube de puntos.


• Representación gráfica de X e Y.
• Constituye el primer paso para investigar la relación existente entre variables.

El diagrama de dispersión indica la existencia de una relación de tipo lineal. Entonces, se utilizan
los datos para estimar un modelo. Existen distintos tipos de relaciones entre variables, siendo las
más importantes:
SUPUESTOS DEL
MODELO
1. Normalidad de los errores (Kolmogorov -
Regla de Decisión:
Smirnov) Si Valor –p ≥ α Aceptar
H0 : Los errores se distribuyen normalmente
Ho
H1 : Los errores no se distribuyen normalmente Si Valor –p < α Rechazar
Ho

2. Autocorrelación de los errores (Durbin -


Watson: DW)
PRUEBA DE
INDEPENDENCIA
Validar el coeficiente de
regresión
Hipótesis:
(No existe relación lineal entre X e Y)

(Existe relación lineal entre X e Y)

Estadístico de
prueba:
Valor –p

xxxx

Supuestos: Normalidad en los residuos y No autocorrelación de los


residuos.
BONDAD DE AJUSTE
A. Coeficiente de
correlación
El coeficiente de correlación (r) consiste en determinar el grado de relación entre dos
variables.
El coeficiente de correlación es un número comprendido entre: -1≤ r ≤ 1

Se define:

Interpretación:

• Si r > 0, se dice que hay una correlación directa positiva.


• Si r = 1, se dice que hay una correlación perfecta positiva.
• Si r < 0, se dice que hay una correlación inversa negativa.
• Si r = -1, se dice que hay una correlación perfecta negativa.
• Si r = 0, se dice que no hay correlación lineal entre las 2 variables.
Coeficiente de correlación de Pearson -
Interpretación
Interpretación:
En la siguiente recta mostramos, mediante valores, el nivel de relación entre las
variables, ya que puede existir una relación, baja regular y alta, ya sea directa/positiva o
inversa/negativa

(-)INVERSA (+)DIRECTA

Alta Baja Baja Alta


Regular Regular

Perfect - - 0
Perfect
a -1 0.40 0.70 +1 a
Inversa 0.70 0.40 Directa
BONDAD DE AJUSTE
B. Coeficiente de
determinación:
El coeficiente de determinación (r2), llamado también R cuadrado, refleja la bondad de ajuste de un modelo a la
variable que pretende explicar.
Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.
Cuanto mas cerca a 1 se situé su valor, mayor será el ajuste del modelo a la variable que estamos intentando
explicar. (r2 > 0.70)
De forma inversa, cuanto más cerca de cero, menos ajustado será el modelo y por tanto, menos fiable será.

Se define:
Intervalos de confianza para la media y valor individual estimados

Para hallar un IC con un nivel de confianza del (1-α )100%, de los valores que se predijeron para la
1.
respuesta media y para valor individual de Y, dado un valor de Xo

2. Para un valor medio:

3. Para un valor individual:

4. Donde: 𝑆𝐶𝑅
𝑆𝑥𝑥 =
^2
𝐵 1
Ejemplo de Aplicación 1
El gerente del banco “Caja Norte” cree que el monto del préstamo depende de los ingresos de los clientes. Para probarlo
selecciona al azar una muestra del monto del préstamo (miles de soles) y el ingreso mensual (miles de soles) de 15 clientes del
banco. En la siguiente tabla se muestran los datos registrados de la muestra:
Ingreso mensual 3.5 3.7 12.6 3.8 8.9 7.1 5.6 7.9 12.5 6.3 2.4 8.1 15.4 3.6 3.4
Monto del
19.7 18.5 32.8 29 40.2 28.3 28.4 28.2 35.6 15.4 19.7 22.8 42.5 25.6 15.6
préstamo
a) Presente el diagrama de dispersión. ¿Los datos pueden aproximarse a una regresión lineal?
b) Pruebe los supuestos del modelo de regresión lineal simple. Use un nivel de significación del 5%.
c) Presente la ecuación de regresión lineal simple. Interprete el coeficiente de regresión y valide el modelo al nivel de
significación del 5%.
d) Interprete el coeficiente de correlación y determinación.
e) Estime con una confianza del 95%, el monto promedio de un préstamo si el ingreso del cliente es de 15 mil soles.
f) Estime el monto promedio de un préstamo si el ingreso del cliente es de 15 mil soles.
Desarrollamos usando Megastat

a) Presente el diagrama de dispersión. ¿ Los datos pueden aproximarse a una


regresión lineal?
1° Identificar variables dependiente e independiente
X: Ingreso mensual Y: Monto de préstamo
2° Ingresamos los datos de ambas variables en Excel - Megastat
Desarrollamos usando Megastat

Título adecuado
Desarrollamos usando Megastat
a)Presente el diagrama de dispersión. ¿Los datos pueden aproximarse a una
regresión lineal?
Gráfico 1. Ingreso mensual y Monto del préstamo de los
clientes del banco "Caja Norte"
Monto del préstamo en milesde soles (Y) 45

40

35

30

25

20

15
0 2 4 6 8 10 12 14 16 18
Ingreso mensual en milesde soles(X)

Al seguir los puntos una tendencia lineal, los datos pueden ajustarse a un regresión lineal.
Desarrollamos usando Megastat
b. Pruebe los supuestos del modelo de regresión lineal simple. Use nivel de
significación del 5%
Primer supuesto: Los errores no están autocorrelacionados
Segundo supuesto: Normalidad de los errores
Ho: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
Desarrollamos usando Megastat
2° Del recuadro “Regresión lineal”, seleccionamos la variable “Monto del préstamo” e
“Ingreso mensual del cliente” y la colocamos en el recuadro “Dependientes” e
“Independiente” respectivamente.
Desarrollamos usando Megastat
Se genera una variable nueva con los errores no estandarizados

Observation Monto del préstamo (Y) Predicted Residual


1 19.70 21.03 -1.3276
2 18.50 6/30/2020 4:27.06
-2.8598
3 32.80 36.15 -3.3455
4 29.00 21.53 7.4740
5 40.20 30.00 10.2014
6 28.30 27.01 1.2917
7 28.40 24.52 3.8837
8 28.20 28.34 -0.1373
9 35.60 35.98 -0.3794
10 15.40 25.68 -10.2792
11 19.70 19.20 0.4999
12 22.80 28.67 -5.8696
13 42.50 40.80 1.7028
14 25.60 21.19 4.4063
15 15.60 20.86 -5.2614

Durbin-Watson = 1.654
Desarrollamos usando Megastat

Con los errores no estandarizados seguimos los siguientes pasos para probar si se ajustan a
una distribución normal.
Desarrollamos usando Megastat
b) Pruebe los supuestos del modelo de regresión lineal simple. Use un nivel de
significación del 5%.
Primer supuesto: Los errores no están autocorrelacionados:

Como el valor Durbin Watson = 1.654, está en el intervalo [1;3], por lo tanto se
cumple el primer supuesto.
Desarrollamos usando Megastat
Segundo supuesto: Normalidad de errores: Análisis gráfico: Los datos se ajustan a la recta
Ho: Los errores se distribuyen normalmente de la curva Normal, gráficamente se concluye
H1: Los errores no se distribuyen normalmente que los errores se distribuyen normalmente

Decisión:
Como Sig. = 0.368 > α= 0.05 Aceptar H0
Conclusión:
Con un nivel de significación del 5% los errores se
distribuyen normalmente.
Desarrollamos usando Megastat
c) Presente la ecuación de regresión lineal simple. Interprete el
coeficiente de regresión y valide el modelo al nivel de significación del
5%.

Regression output confidence interval


variables coefficients std. error t (df=13) p-value 95% lower 95% upper
Intercept 15.213 2.9394 5.176 0.0002 8.8628 21.5632
Ingreso mensual (X) 1.661 0.3691 4.501 0.0006 0.8640 2.4586

Ecuación de regresión: = 15.213 + 1.661𝑋


Coeficiente de regresión: 𝛽= 1.661
Interpretación:
Si el ingreso del cliente aumenta en mil soles, el monto del préstamo aumentará en
1661 soles.
Desarrollamos usando Megastat

Validación del modelo:


H0: 𝛽1 = 0
H1: 𝛽1 ≠ 0

ANOVA table
Source SS df MS F p-value
Regression 605.305 1 605.3048 20.26 0.001
Residual 388.339 13 29.8722
Total 993.644 14

Decisión:
Como Sig.= 0.001 < α =0.05  Se Rechaza H0
Conclusión:
Con un nivel de significación del 5% existe relación lineal entre el ingreso mensual del
cliente y monto del préstamo, por lo tanto sea firma que el modelo es válido
Desarrollamos usando Megastat

d) Interprete el coeficiente de correlación y determinación.

Regression Analysis

r² 0.609
r 0.780
Std. Error 5.466
n 15
k 1
Dep. Var. Monto del préstamo (Y)

r = 0.780; Existe una correlación positiva alta entre el monto del préstamo y el ingreso
mensual del cliente.
R2=0.609; El 60.9% de la variabilidad del monto del préstamo se debe al ingreso del cliente,
además el modelo no presenta un buen ajuste (R2 <0.7)
Desarrollamos usando Megastat
e) Estime con una confianza del 95%, el monto promedio de un préstamo si el
ingreso del cliente es de 15 mil soles.
1° Ingresamos el valor del ingreso del cliente (X=15) para estimar el monto del préstamo.
Desarrollamos usando Megastat
e) Estime con una confianza del 95%, el monto promedio de un préstamo
si el ingreso del cliente es de 15 mil soles.
1° Ingresamos el valor del ingreso del cliente (X=15) para estimar el monto del préstamo.

Seleccionar esta opción


para digitar el valor a
predecir
Ingresar el valor
Desarrollamos usando Megastat
Predicted values for: Monto del préstamo (Y)
95% Confidence Interval 95% Prediction Interval
Ingreso mensual (X) Predicted lower upper lower upper Leverage
15 40.1326 33.0534 47.2118 26.3655 53.8998 0.359

I.C. (= [ 33. 0534; 47. 2118]


Con un nivel de confianza del 95%, el monto promedio de un préstamo si el ingreso mensual del clientes es de 15
mil soles está contenido en el intervalo de 33.0534 hasta 47.2118 miles de soles.

f) Estime el monto promedio de un préstamo si el ingreso del cliente es de 15


mil soles.
Predicted values for: Monto del préstamo (Y)
95% Confidence Interval 95% Prediction Interval
Ingreso mensual (X) Predicted lower upper lower upper Leverage
15 40.1326 33.0534 47.2118 26.3655 53.8998 0.359

El monto promedio de un préstamo si el ingreso mensual del clientes es de 15 mil soles es 40.1326 miles de soles.
Ejemplo de Aplicación 2
Un aspecto importante que quiere determinar el gerente general de una Aerolínea Internacional es si el precio del vuelo (en dólares) está en
función de la distancia recorrida. Los datos para el análisis del gerente se muestran a continuación:

Precio del vuelo ($) 870 840 960 810 630 870 900 900 810 990 810 1020 900 870 990 630 1050 840 780

Distancia recorrida
4480 4320 5240 4520 2920 5040 4880 4840 4440 5520 4120 5560 5000 4880 5480 3480 5960 4480 3960
(Km)

a) Presente el diagrama de dispersión. ¿Los datos pueden aproximarse a una regresión lineal?
b) Pruebe los supuestos del modelo de regresión lineal simple. Use un nivel de significación del 1%.
c) Presente la ecuación de regresión lineal simple. Interprete el coeficiente de regresión y valide el modelo
al nivel de significación del 1%.
d) Interprete el coeficiente de correlación y determinación.
e) Pronostique, con 94% de confianza, el precio promedio de un vuelo cuando la distancia recorrida es de
4300 km.
Desarrollamos usando Megastat
a)Presente el diagrama de dispersión. ¿Los datos pueden aproximarse a una
regresión lineal?
Gráfico 2. Distancia recorrida (Km) y Precio del vuelo ($) de pasajeros de una aerolínea

1100

1050
f(x) = 0.146995735072755 x + 177.354741595585
R² = 0.945168461701002
1000

950
Precio del vuelo ($)

900

850

800

750

700

650

600
2000 2500 3000 3500 4000 4500 5000 5500 6000 6500

Distancia recorrida (Km)

Al seguir los puntos una tendencia lineal, los datos pueden ajustarse a una regresión lineal.
Desarrollamos usando Megastat
b) Pruebe los supuestos del modelo de regresión lineal simple. Use un nivel de significación
del 1%.
Primer supuesto: Los errores no están autocorrelacionados:

Como el valor Durbin Watson = 2.04, está en el intervalo [1;3], por lo tanto se
cumple el primer supuesto.
Desarrollamos usando Megastat
b. Pruebe los supuestos del modelo de regresión lineal simple. Use nivel de
significación del 1%
Análisis gráfico: Los datos se ajustan a la
Segundo supuesto: Normalidad de errores: recta de la curva Normal, gráficamente se
Ho: Los errores se distribuyen normalmente concluye que los errores se distribuyen
H1: Los errores no se distribuyen normalmente normalmente
Normal Curve Plot
40.0

20.0

0.0

Residual
-20.0

-40.0

-60.0

-80.0
-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0
Normal Score

Decisión:
Como Sig. = 0.5318 > α= 0.01 No se RH0
Conclusión:
Con un nivel de significación del 1% los errores se
distribuyen normalmente.
Desarrollamos usando Megastat
c) Presente la ecuación de regresión lineal simple. Interprete el coeficiente de
regresión y valide el modelo al nivel de significación del 1%.

Ecuación de regresión: = 177.3547 + 0.1470𝑋


Coeficiente de regresión: 𝛽1= 0.1470

Interpretación:

Si la distancia recorrida aumenta en un km, el precio del vuelo aumentará en


0.1470 dólares.
Desarrollamos usando Megastat

Validación del modelo:


H0: 𝛽1 = 0
H1: 𝛽1 ≠ 0

Decisión:
Como p-value= 0.000000 < α =0.01  Se Rechaza H0
Conclusión:
Con un nivel de significación del 1% existe relación lineal entre el la distancia recorrida y el
precio del vuelo, por lo tanto se afirma que el modelo es válido
Desarrollamos usando Megastat

d) Interprete el coeficiente de correlación y determinación.

r = 0.972; Existe una correlación positiva alta entre la distancia recorrida y el precio del vuelo.

R2=0.945; El 94.5% de la variabilidad del precio del vuelo se debe a la distancia recorrida.
Además el modelo presenta un buen ajuste (R2 > 0.7)
Desarrollamos usando Megastat
e) Pronostique, con 94% de confianza, el precio promedio de un vuelo
cuando la distancia recorrida es de 4300 km.

I.C. (= [ 795.142; 823.731]

Con un nivel de confianza del 94%, el precio promedio de un vuelo si la distancia recorrida es de
4300 km esta contenido en el intervalo de 795.142 hasta 823.731 dólares.
Evaluando lo
aprendido
Aprendiendo de forma divertida con
Quizizz

Estimados estudiantes repasamos


lo aprendido respondiendo a los
ítems propuestos a través del
siguiente link:
Conclusiones
1. El diagrama de dispersión constituye el primer paso para
investigar la relación entre dos variables cuantitativas. El
coeficiente de correlación indica el grado de relación entre las
variables. El coeficiente de determinación refleja que tan
representativo es el modelo de regresión lineal estimado con
respecto a los datos originales.
2. A través del modelo de regresión se puede realizar estimaciones
futuras respecto a la variable independiente.
3. El modelo de regresión lineal presenta dos supuestos: la no
autocorrelación de los errores y la normalidad de los errores.
4. Para comprobar que existe relación lineal entre X y Y se utiliza el
análisis de varianza(ANOVA), donde si p-valor es menor al nivel
de significancia se concluye que existe relación lineal entre las
variables.
5. Para realizar un pronóstico, ya sea por estimación puntual o
estimación interválica, es necesario conocer el valor de la
variable independiente.
Recordamos nuestro logro de
aprendizaje...!!
Te invito a reflexionar.

Al término de la sesión, resolverás problemas de situaciones reales,


aplicando el análisis de regresión y correlación lineal, interpretando los
resultados de forma adecuada y utilizando el Complemento Megastat y
SPSS para la toma de decisiones.
¿Lo lograste?

Estoy seguro que sí..!!


Si tienes dudas recuerda enviar tus consultas a
través de Pregúntale al profesor o Mensajería
interna y te responderemos como máximo en 24
horas
CONSULTAS

Realiza consultas a través


del chat o solicita al
docente activar el
micrófono para participar.
GRACIA
S
© 2022 | Universidad Privada del
Norte

También podría gustarte