Está en la página 1de 54

SESIÓN 8

REGRESIÓN LINEAL Y CORRELACIONES

Mg.
@ucvvirtual.edu.pe
ANALISIS DE CORRELACIÓN

CAPACIDADES:
Analiza el coeficiente de correlación de
Pearson para dos variables
cuantitativas y los coeficientes para el
modelo de regresión lineal simple.

TEMÁTICA:
⮚ Aplicaciones con el diagrama de
dispersión.
⮚ Coeficiente de correlación lineal de
Pearson.
⮚ Modelo de regresión lineal simple
(Uso de EXCEL).
Diagrama de Dispersión
Es la representación de los puntos o datos de cada una de
las variables en el plano cartesiano.

Es recomendable en todo estudio de regresión porque


permite tener una idea, sobre la existencia o no de3 la
Diagrama de dispersión o nube de puntos
Tenemos las alturas y los pesos de 30 individuos
representados en un diagrama de dispersión. Observar
datos del cuadro anterior

Altura Peso en
en cm. Kg. Pesa 85
187 76 kg.
Pesa 76
161 50
kg.
197 85
179 65
Pesa 50

Mide 197
Mide 187
171 66
kg.
169 60

cm.
Mide

cm.
166 54 161 cm.
176 84
163 68
…. ….
4
Relación entre las variables altura (X) y peso (Y) de los
30 individuos vistos en el ejemplo anterior.

ESO
L P
A ,E
N T
ME
A AU
R
LTU
A A
I L TA
S EN
M
AU Por lo tanto existe una relación lineal
positiva

5
DIAGRAMA DE DISPERSION
O NUBE DE PUNTOS

(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa


Y Y Y
• •
• • • • ••
• •
• • • ••
• • • • •
•• X
•• •
X X

Y • Y Y
• •• • • • ••
•• •
•• • •• • • •
• •• • • • • ••
• ••
•• •• •• • • •
•••
• ••
X X X
(d) Curvilínea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
COEFICIENTE DE CORRELACIÓN (ρ)

• La correlación se estima mediante el coeficiente de


correlación de Pearson (r), y es utilizado cuando ambas
variables son cuantitativas siguiendo una distribución
normal.
• Para cada coeficiente obtenido se puede realizar el siguiente el
contraste de hipótesis para determinar si, el coeficiente es
igual a cero:
• H0: ρ = 0
• H1: ρ ≠ 0
COEFICIENTE DE CORRELACIÓN DE
PEARSON (r)
• Mide la fuerza y dirección de una relación lineal entre 2 variables
cuantitativas siguiendo una distribución normal.
• Se puede realizar el siguiente contraste de hipótesis para determinar
si el coeficiente es igual a cero: H0: ρ = 0 vs H1: ρ ≠ 0

X Y XY X2 Y2


Correlación Lineal - Tendencias

Muy Alt Modera Baj Muy Muy Baj Modera Alt Muy
Alta a da a baja baja a da a Alta
- -- - -- - -- - -- - -- 0 + 0. + 0. + 0. + 0. + 1
1 Perfecta0.8 0.6 0.4 0.2 Nul 2 4 6 8 Perfecta
-- a +

✔ El valor R oscila entre [-1; 1].


✔ Cuanto más cerca esté R de -1 o +1 mejor será el grado de relación
lineal.
Ejemplo 1:

El jefe de personal de una empresa evalúa el puntaje de estrés de sus


empleados y desea conocer como afecta su nivel de atención
- Trace el diagrama de dispersión.
Capacida
Estrés d de - Determine el grado de relación lineal entre estas 2
atención variables.
62 39 90

25 80

Capacidad de atención
80

33 42 70

23 84 60

50
79 19
40
11 75
30
48 25 20
50 20 10

30 54 0
0 10 20 30 40 50 60 70 80 90
78 19
7 84
Estrés
Coeficiente de Correlación de
Pearson «R»
Ejemplo 1:
Capaci  
Estrés dad de    
(x) atenció
n (Y)    
XY X2 Y2
 
62 39 2418 3844 1521
25 80 2000 625 6400
33 42 1386 1089 1764
23 84 1932 529 7056
79 19 1501 6241 361
11 75
 
825 121 5625
48 25 1200 2304 625
50 20 1000 2500 400  
30 54 1620 900 2916
78 19 1482 6084 361 Existe una relación inversa y muy alta
7 84 588 49 7056 entre El estrés (X) y la capacidad de
∑ 446 541 15952 24286 34085 atención (Y).
Ejemplo 2: (en Excel)

Considere un estudio donde se


mide el DAP: Diámetro a la
Altura del Pecho (X) en
centímetros y la Altura (Y) en
metros. Se considera una
muestra de 10 árboles, los
datos son:

Calcule e interprete la
correlación.
Aplicación de la correlación
https://www.xatakaciencia.com/sabias-que/no-simple-que-ano-human
o-equivalga-a-siete-perrunos-este-estudio

La ciencia consiguió
establecer la verdadera
equivalencia entre años
humanos y caninos. Aunque
pueden haber diferencias
entre razas (en este caso se
usaron perros labradores),
"todos los perros exhiben una
trayectoria de desarrollo,
fisiológica y patológica
similar".
Esta es la fórmula: Edad
humana= 16*ln(edad canina)
+31
Dinámica
• ¿Se podrá determinar la estatura de una persona si se
conoce la medida de la extensión de su brazo?.
• ¿Existirá la relación entre dichas variables?

Alumn Extensión de Estatur


o brazos en cm. a en
cm.
1 72 172
2 69 161
3 70 180
4 71 175
5 70 169 A partir de los datos observados
6 75 172 • ¿Qué análisis descriptivo se puede
7 70 162 realizar?
• ¿Qué tipo de variable tenemos en el
8 68 163 estudio?
9 65 150 • Existe una relación entre las dos
10 68 166 variables?
• Como se puede caracterizar esa relación?
Solución en Excel
Solución en Excel
Para calcular el coeficiente de Correlación de Pearson.
En excel: =COEF.DE.CORREL(matriz1,matriz2)
REGRESION LINEAL

Caracteriza la relación entre una var. dependiente (Y) y una variable independiente (X). Es decir,
estudia cómo los cambios en una variable X afecta a una variable dependiente Y.
El propósito de la regresión lineal, es modelar la
dependencia de la variable Y en función de la variable X a
Y
través de la ecuación de una recta.

Variable Variable b=
dependient independiente a pendiente
e

Intercepto Pendiente
MODELO DE REGRESIÓN LINEAL SIMPLE

La relación entre 2 variables numéricas puede ser representada mediante la línea de mejor
ajuste a los datos llamada recta de regresión
Se busca encontrar una función de X muy simple (lineal) que nos permita aproximar Y
mediante la siguiente formula:

Y  
Dependientes

X
Independientes
Explicativas
MODELO DE REGRESIÓN LINEAL SIMPLE

Diagrama de Dispersión
Extensió
Estatura
n de 185
en cm.
brazos. 180
72 cm 172
175
69 cm 161
70 180 170
71 175 165

Estatura (cm)
70 169
160
75 172
70 162 155
68 163 150
65 150
Y = 8.9623 +
68 166
145 2.264x
140 R2 = 0.4985
La recta de regresión nos 135
describe cómo varía la media de 64 66 68 70 72 74 76

una variable (dependiente) en Extensión de los brazos (cm)


función de la otra (independiente)
Recta de Regresión
Para estimar la recta de regresión se aplica el método de mínimos
cuadrados. Esta línea es la que hace mínima la suma de los cuadrados de
los residuos 🡪 ∑e2 = ∑(Yreal – Yest)2.

Pendient
e
 

yi
Intercept
o
a
El método de Mínimos Cuadrados

Alumno Extensión de Estatura


brazos cm (X) cm. (Y) X2 Y2 XY
(n)
1 72 172 5184 29584 12384
2 69 161 4761 25921 11109
3 70 180 4900 32400 12600
4 71 175 5041 30625 12425
5 70 169 4900 28561 11830
6 75 172 5625 29584 12900
7 70 162 4900 26244 11340
8 68 163 4624 26569 11084
9 65 150 4225 22500 9750
10 68 166 4624 27556 11288
La ecuación de la recta
SUMA 698 1670 48784 279544 116710 es
PROMEDI
 
O 69.8 167     
 
El Coeficiente correlación de
Pearson (r)
Extensión de Estatur
Alumno brazos cm.
a cm.
(n) (X) (Y)
1 72 172
2 69 161
3 70 180
4 71 175
5 70 169
6 75 172
7 70 162
=COEF.DE.CORREL(Matriz1,
8 68 163 Matriz2)
9 65 150
10 68 166
=COEF.DE.CORREL(B4:B13,C
4:C13)
r = 0.70606
Que tan bueno es el modelo?
r2 = Proporción de la variación total en la variable y, que es
explicada por la variación en la variable independiente x.  

IMPORTANTE
• Si bien hay relación entre R2 y r, cada uno tiene una finalidad diferente:
• El coef. de correlación lineal (r) mide el grado de relación entre dos variables
• El coef. de determinación (R2) Nos indica que porcentaje de los datos es explicado por
el modelo. Cuanto más cerca a uno, las variables tendrán mayor correlación.

Y
Variación no
* Explicada
Variación Y’
Total
* Variación
Explicada
Error Estándar y Error de Estimación
Cuando se realiza una predicción, es importante determinar
el error estándar, el cual se representa por Sy.x y mide la
dispersión de los datos observados con respecto a la línea
de regresión.

Error de
predicción

El error de estimación,
que esta representado: e=y–y
EJEMPLO:
En un estudio de la relación entre la publicidad por radio y las ventas
de un producto, durante 10 semanas se han recopilado, los tiempos de
duración en minutos de la publicidad por semana (X), y el número de
artículos vendidos (Y).

Semana 1 2 3 4 5 6 7 8 9 10
Publicidad en 20 30 30 40 50 60 60 60 70 80
minutos X
Ventas Y 50 73 69 87 108 128 135 132 148 170

- Determine el promedio de Publicidad (x) y Ventas (Y)


- Determine el grado de relación
- Obtenga la ecuación de regresión.
- Interprete el valor de la pendiente.
- Si la publicidad es de 90 min, ¿cuánto será el número de artículos
vendidos?
X Y XY X2 Y2
Solución 20
30
50
73
1000
2190
400
900
2500
5329
30 69 2070 900 4761
40 87 3480 1600 7569
50 108 5400 2500 11664
60 128 7680 3600 16384
60 135 8100 3600 18225
60 132 7920 3600 17424
70 148 10360 4900 21904
80 170 13600 6400 28900
500 1100 61800 28400 134660
Solución
Reemplazando en las formula de los coeficientes de regresión, se tiene lo
siguiente:

Por lo tanto la recta de regresión Y = β0+β1(X), estará determinada de la siguiente


manera Y = 10+ 2x.

Interpretación
B0: El Número real de artículos vendidos es de 10 unidades.
B1: El número promedio de artículos vendidos aumenta en 2 unidades a medida que aumenta
cada minuto de duración, de la publicidad en la semana.
Regresión Lineal Simple
Ejemplo
- :
Tomando los datos del
ejemplo de la ausencia al
trabajo y la edad del
empleado :

- Obtenga la ecuación de
regresión.
- Interprete el valor de la
pendiente.
- Si un trabajador tiene 38
años, ¿cuántos días se
espera que falte al año?
Regresión Lineal Simple
Ejemplo
- : calcular el valor de los Coeficientes de la Ecuación:
Para
     
Las sumatorias:

   
 

Pendiente:    
Intercepto en el
 
origen:
 

 
 

   
Regresión Lineal Simple
Ejemplo
- :La Ecuación:  

 
- Interpretación de la Pendiente:

Por cada año adicional en la Edad del empleado (X), el n° de


días de ausencia (Y) disminuye en 0,5059.

- Si un trabajador tiene 38 años, ¿cuántos días se


espera que falte al año?
 

Si un trabajador tiene 38 años (X=38), se espera que durante


el año registre, aproximadamente, 11 faltas.
Ejemplo: (en Excel)
Considerando los datos del problema anterior, encuentre la
ecuación de regresión entre el DAP y la altura.
Datos→Análisis de Datos→Regresión (activar Nivel de Confianza)
→Aceptar
Ejemplo: (en Excel)

Interpretación  
de
Por cada centímetro adicional en el
 
DAP (X), la Altura del árbol (Y)
aumentará en 1,281028 metros.
Ejercicio 1 (Resuelto Excel)
• Una empresa dedicada a la producción de cierto artículo perecible, desea evaluar
la relación existente entre la distancia recorrida para transportar su producto a los
diferentes puntos de comercialización y las mermas producidas por dicho
transporte. Con este fi, se lleva a cabo un estudio en el que se observan, entre
otras variables:
Y= porcentaje de carga útil final (luego del transporte)
X= Distancia recorrida (decenas de kilómetros)
• Y se encuentra en una muestra aleatoria de 12 viajes o recorridos los siguientes
resultados:

Carga Útil (y) 91 95 93 98 97 97 88 94 89 90 92 95


Distancia 33 12 18 3 4 8 66 5 37 29 15 10
Recorrida (x)

• Con la finalidad de establecer medidas preventivas, ¿Cuál será el porcentaje de


carga útil para un futuro transporte de 250 km.?
Análisis de regresión simple

 
Análisis de regresión simple

100
Distancia Recorrida (x) Curva de regresión ajustada

95

90
Carga Útil (y)

Carga Útil (y)


Pronóstico Carga Útil (y)
85

80

75
0 10 20 30 40 50 60 70

Distancia Recorrida (x)


Ejercicio:
A continuación tenemos las estaturas en centímetros
(muestra x) y el peso en kilogramos (y) de niños de 6 años.

Niño 1 2 3 4 5 6 7 8 9 10

Estatura
121 123 108 118 111 109 114 103 110 115
(cm) x

Peso (kg) y 25 22 19 24 19 18 20 15 20 21
Reflexión del tema
• Para que sirve la regresión lineal
• Cual es el procedimiento para obtener la ecuación de
regresión
• Interpretar la pendiente y el intercepto (bo y b1)
• Para que sirve el coeficiente de correlación (r)
• Para que sirve el coeficiente de determinación (r2)
• Indique algunos ejemplos en la aplicación del modelo
de regresión.
Ejercicios para desarrollar
1. Los datos de la producción de trigo en toneladas (X) y
el precio del kilo de harina en soles (Y) en la década
de los 80 en Lima fueron:
Producción de trigo (X) 30 28 32 25 25 25 22 24 35
40
Precio de la harina (Y) 25 30 27 40 42 40 50 45 30
25
Ajusta la recta de regresión por el método de mínimos
cuadrados.
2. Los gastos semanales de publicidad y las ventas de una
empresa en dólares, para una muestra de 10 semanas
son:
Gastos 41 54 63 54 48 46 62 61 64 71
sem x
public
Ventas 125 138 142 1425 1450 1300 1400 1510 1575 1650
seman 0 0 5
a) Establezca la recta de regresión que permita predecir las ventas
semanales en función de los gastos de publicidad
b) Calcular el grado de relación entre las 2 variables
c) Interpreta la pendiente
d) Pronostica las ventas para gastos semanales de 50 y 60 dólares
e) Cuales son los errores de estimación cuando predice las ventas
semanales para gastos de publicidad de 61, 62 y 63 dólares
respectivamente
Ejercicios para desarrollar
En un estudio, por medio de detectores radioactivos, de la capacidad
corporal para absorber hierro y plomo, participaron diez sujetos. A
cada uno se le da una dosis oral idéntica de hierro (sulfato ferroso) y
de plomo (cloruro de plomo-203). Después de doce días se mide la
cantidad de cada componente retenida en el sistema corporal y, a
partir de éstas, se determinan los porcentajes absorbidos por el
cuerpo. Los datos obtenidos fueron:

Hierro (%) X 17 22 35 43 80 85 91 92 96
100
Plomo (%) Y 8 17 18 25 58 59 41 30 43
a) Dibuja la nube de puntos. Basándose en ella, ¿se puede esperar que el
58
coeficiente de correlación esté próximo a 1, -1 ó 0?.
b) Halla e interpreta el coeficiente de determinación.
c) Estima la recta de regresión y utilízala para predecir el porcentaje de hierro
absorbido por un individuo cuyo sistema corporal absorbe el 15% del plomo
ingerido.
Las calificaciones de un examen y el numero de horas de
estudio para el examen, de una muestra de 12 estudiantes,
se presenta en el siguiente cuadro:

Tiempo 3 3 3 4 4 5 5 5 6 6 7 8
de
estudio
Calificació 9 12 11 12 15 14 16 15 18 16 15 17
n
a) Hallar la recta de regresión
b) Interpreta la pendiente
c) Estimar la calificación cuando el tiempo de estudio es
10
d) Estimar el tiempo de estudio cuando la calificación es 8
En la siguiente tabla , donde :Y = Peso, x= Altura
a) Realice un diagrama de dispersión e indique
¿Sugiere la gráfica una asociación lineal?
b) Realice la ecuación de regresión
c) Interprete la pendiente, realice un pronóstico
d) Calcule e interprete el coeficiente de
correlación
e) Calcule e interprete el coeficiente de
determinación
f) Calcular e interpretar el error estándar de
estimación
La materia prima que se usa en la elaboración de una fibra Contenido
sintética se almacena en un local que no tiene control de de
humedad. Las mediciones de la humedad relativa en el Humedad humedad
(X) (Y)
local y del contenido de humedad de una muestra de la 42 12
materia prima (ambos en porcentajes) durante 12 35 8
días, dieron los siguientes resultados. 50 14
43 9
48 11
a) Realice un diagrama de dispersión e indique ¿Sugiere 62 16
la gráfica una asociación lineal? 31 7
36 9
b) Realice la ecuación de regresión 44 12
c) Interprete la pendiente, realice un pronóstico 39 10
55 13
d) Calcule e interprete el coeficiente de correlación 48 11
e) Calcule e interprete el coeficiente de determinación
f) Calcular e interpretar el error estándar de estimación
El siguiente conjunto de datos se ha tomado sobre grupos de trabajadoras de.
Cada grupo está formado por trabajadores de la misma profesión, en cada uno
de los veinticuatro grupos muestreados se han observado dos variables: el índice
de estandarizado de consumo de cigarrillos (x) y el índice de muertes por cáncer
de pulmón (Y) variable dependiente. Se desea estudiar la relación entre estas
dos variables.

1. Realice un diagrama de dispersión e indique ¿Sugiere la gráfica una


asociación lineal?
2. Realice la ecuación de regresión
3. Interprete la pendiente, realice un pronóstico
4. Calcule e interprete el coeficiente de correlación
5. Calcule e interprete el coeficiente de determinación
6. Calcular e interpretar el error estándar de estimación
Prueba Examen
El director de una escuela está interesado en de de
relacionar dos variables en los estudiantes y ha Habilidad admisión
tomado como información los resultados de la prueba mental X Y
de habilidad y del puntaje obtenido en el examen de 5 15
admisión, los cuales se muestran a continuación 10 19
15 25
20 29
23 32
a) Realice un diagrama de dispersión e interprete los 25 34
resultados 30 39
b) Realice la ecuación de regresión e interprete la 32 42
35 46
pendiente.
40 50
c) Calcule e interprete el error estándar de estimación
d) Calcule e interprete el coeficiente de determinación
e) Si el puntaje de la prueba de habilidad es de 50
puntos, cual es el pronóstico en el examen de
admisión
Una cadena de restaurantes de comida rápida decide llevar a cabo un
experimento para medir la influencia sobre las ventas del gasto en
publicidad. En 8 regiones del país, se realizaron diferentes variaciones
relativas en el gasto en publicidad, comparado con el año anterior, y se
observaron las variaciones en los niveles de ventas resultantes. La
tabla adjunta muestra los resultados.

a) Realice un diagrama de dispersión e interprete los resultados


b) Realice la ecuación de regresión e interprete la pendiente.
c) Calcule e interprete el error estándar de estimación
d) Calcule e interprete el coeficiente de determinación
e) Realice un pronóstico si el gasto de publicidad incrementa en un 5% y
en 15%
Una compañía de seguros considera que el número de vehículos (y)
que circulan por una determinada autopista a más de 120 km/h ,
puede ponerse en función del número de accidentes (x) que ocurren
en ella. Durante 7 días obtuvo los siguientes resultados:

Accidentes 5 7 5 3 2 1 9
xi
Vehículos yi 15 18 13 11 10 8 20

a) Realice un diagrama de dispersión e interprete los resultados


b) Realice la ecuación de regresión e interprete la pendiente.
c) Calcule e interprete el error estándar de estimación
d) Calcule e interprete el coeficiente de determinación
e) Realice un pronóstico si la cantidad de accidentes es de 4 y 6
En la tabla siguiente se indica la edad y la conducta
agresiva (medida en una escala de cero a 10) de 10 niños.

Edad 6 6 6.7 7 7.4 7.9 8 8.2 8.5 8.9


Conducta
9 6 7 8 7 4 2 3 3 1
agresiva

a) Obtener la recta de regresión de la conducta agresiva en función de


la edad.
b) Graficar la nube de puntos y la recta de regresión.
c) A partir de dicha recta, obtener el valor de la conducta agresiva que
correspondería a un niño de 7.2 años.
d) Calcular el error estándar de estimación.
e) Calcular e interpretar el coeficiente de determinación.
Una empresa transportadora considera que
existe una relación directa entre los gastos
publicitarios y el numero de pasajeros que
escogen viajar. Para determinar si esta relación
existe, y si es así cual podría ser la naturaleza
exacta, los datos son:

a) Calcule e interprete la ecuación de la recta de


regresión
b) Que le dice este modelo sobre la relación entre los
gastos publicitarios y el número de pasajeros
c) En esta aplicación el propósito de publicidad es
estimar los pasajeros. Estime los pasajeros para
una publicidad de $20.
Un banco en Atlanta que se especializa en créditos para vivienda intenta analizar
el mercado de finca raíz, midiendo el poder explicativo que las tasas de interés
tienen sobre el número de casas vendidas en el área. Se compilaron los datos
para un periodo de 10 meses, así:
Relación entre variables
Ordinales

• Coeficiente de correlación de rangos de


Spearman (ρ). -1 ≤ ρ ≤ 1

Donde di = Xi - Yi
REFERENCIAS

• Pagano, R. (2011). Estadística para ciencias del


comportamiento. (9. Ed). México: Cengage Learning
Editores Corporativo Santa Fe
• Lind, A., Marchal, G. y Wathen, A. (2012) . Estadística
aplicada a los negocios y la economía. (15. Ed). México:
McGraw-Hill Interamericana Editores

También podría gustarte