Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mg.
@ucvvirtual.edu.pe
ANALISIS DE CORRELACIÓN
CAPACIDADES:
Analiza el coeficiente de correlación de
Pearson para dos variables
cuantitativas y los coeficientes para el
modelo de regresión lineal simple.
TEMÁTICA:
⮚ Aplicaciones con el diagrama de
dispersión.
⮚ Coeficiente de correlación lineal de
Pearson.
⮚ Modelo de regresión lineal simple
(Uso de EXCEL).
Diagrama de Dispersión
Es la representación de los puntos o datos de cada una de
las variables en el plano cartesiano.
Altura Peso en
en cm. Kg. Pesa 85
187 76 kg.
Pesa 76
161 50
kg.
197 85
179 65
Pesa 50
Mide 197
Mide 187
171 66
kg.
169 60
cm.
Mide
cm.
166 54 161 cm.
176 84
163 68
…. ….
4
Relación entre las variables altura (X) y peso (Y) de los
30 individuos vistos en el ejemplo anterior.
ESO
L P
A ,E
N T
ME
A AU
R
LTU
A A
I L TA
S EN
M
AU Por lo tanto existe una relación lineal
positiva
5
DIAGRAMA DE DISPERSION
O NUBE DE PUNTOS
Y • Y Y
• •• • • • ••
•• •
•• • •• • • •
• •• • • • • ••
• ••
•• •• •• • • •
•••
• ••
X X X
(d) Curvilínea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
COEFICIENTE DE CORRELACIÓN (ρ)
X Y XY X2 Y2
∑
Correlación Lineal - Tendencias
Muy Alt Modera Baj Muy Muy Baj Modera Alt Muy
Alta a da a baja baja a da a Alta
- -- - -- - -- - -- - -- 0 + 0. + 0. + 0. + 0. + 1
1 Perfecta0.8 0.6 0.4 0.2 Nul 2 4 6 8 Perfecta
-- a +
25 80
Capacidad de atención
80
33 42 70
23 84 60
50
79 19
40
11 75
30
48 25 20
50 20 10
30 54 0
0 10 20 30 40 50 60 70 80 90
78 19
7 84
Estrés
Coeficiente de Correlación de
Pearson «R»
Ejemplo 1:
Capaci
Estrés dad de
(x) atenció
n (Y)
XY X2 Y2
62 39 2418 3844 1521
25 80 2000 625 6400
33 42 1386 1089 1764
23 84 1932 529 7056
79 19 1501 6241 361
11 75
825 121 5625
48 25 1200 2304 625
50 20 1000 2500 400
30 54 1620 900 2916
78 19 1482 6084 361 Existe una relación inversa y muy alta
7 84 588 49 7056 entre El estrés (X) y la capacidad de
∑ 446 541 15952 24286 34085 atención (Y).
Ejemplo 2: (en Excel)
Calcule e interprete la
correlación.
Aplicación de la correlación
https://www.xatakaciencia.com/sabias-que/no-simple-que-ano-human
o-equivalga-a-siete-perrunos-este-estudio
La ciencia consiguió
establecer la verdadera
equivalencia entre años
humanos y caninos. Aunque
pueden haber diferencias
entre razas (en este caso se
usaron perros labradores),
"todos los perros exhiben una
trayectoria de desarrollo,
fisiológica y patológica
similar".
Esta es la fórmula: Edad
humana= 16*ln(edad canina)
+31
Dinámica
• ¿Se podrá determinar la estatura de una persona si se
conoce la medida de la extensión de su brazo?.
• ¿Existirá la relación entre dichas variables?
Caracteriza la relación entre una var. dependiente (Y) y una variable independiente (X). Es decir,
estudia cómo los cambios en una variable X afecta a una variable dependiente Y.
El propósito de la regresión lineal, es modelar la
dependencia de la variable Y en función de la variable X a
Y
través de la ecuación de una recta.
Variable Variable b=
dependient independiente a pendiente
e
Intercepto Pendiente
MODELO DE REGRESIÓN LINEAL SIMPLE
La relación entre 2 variables numéricas puede ser representada mediante la línea de mejor
ajuste a los datos llamada recta de regresión
Se busca encontrar una función de X muy simple (lineal) que nos permita aproximar Y
mediante la siguiente formula:
Y
Dependientes
X
Independientes
Explicativas
MODELO DE REGRESIÓN LINEAL SIMPLE
Diagrama de Dispersión
Extensió
Estatura
n de 185
en cm.
brazos. 180
72 cm 172
175
69 cm 161
70 180 170
71 175 165
Estatura (cm)
70 169
160
75 172
70 162 155
68 163 150
65 150
Y = 8.9623 +
68 166
145 2.264x
140 R2 = 0.4985
La recta de regresión nos 135
describe cómo varía la media de 64 66 68 70 72 74 76
Pendient
e
yi
Intercept
o
a
El método de Mínimos Cuadrados
IMPORTANTE
• Si bien hay relación entre R2 y r, cada uno tiene una finalidad diferente:
• El coef. de correlación lineal (r) mide el grado de relación entre dos variables
• El coef. de determinación (R2) Nos indica que porcentaje de los datos es explicado por
el modelo. Cuanto más cerca a uno, las variables tendrán mayor correlación.
Y
Variación no
* Explicada
Variación Y’
Total
* Variación
Explicada
Error Estándar y Error de Estimación
Cuando se realiza una predicción, es importante determinar
el error estándar, el cual se representa por Sy.x y mide la
dispersión de los datos observados con respecto a la línea
de regresión.
Error de
predicción
El error de estimación,
que esta representado: e=y–y
EJEMPLO:
En un estudio de la relación entre la publicidad por radio y las ventas
de un producto, durante 10 semanas se han recopilado, los tiempos de
duración en minutos de la publicidad por semana (X), y el número de
artículos vendidos (Y).
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad en 20 30 30 40 50 60 60 60 70 80
minutos X
Ventas Y 50 73 69 87 108 128 135 132 148 170
Interpretación
B0: El Número real de artículos vendidos es de 10 unidades.
B1: El número promedio de artículos vendidos aumenta en 2 unidades a medida que aumenta
cada minuto de duración, de la publicidad en la semana.
Regresión Lineal Simple
Ejemplo
- :
Tomando los datos del
ejemplo de la ausencia al
trabajo y la edad del
empleado :
- Obtenga la ecuación de
regresión.
- Interprete el valor de la
pendiente.
- Si un trabajador tiene 38
años, ¿cuántos días se
espera que falte al año?
Regresión Lineal Simple
Ejemplo
- : calcular el valor de los Coeficientes de la Ecuación:
Para
Las sumatorias:
Pendiente:
Intercepto en el
origen:
Regresión Lineal Simple
Ejemplo
- :La Ecuación:
- Interpretación de la Pendiente:
Interpretación
de
Por cada centímetro adicional en el
DAP (X), la Altura del árbol (Y)
aumentará en 1,281028 metros.
Ejercicio 1 (Resuelto Excel)
• Una empresa dedicada a la producción de cierto artículo perecible, desea evaluar
la relación existente entre la distancia recorrida para transportar su producto a los
diferentes puntos de comercialización y las mermas producidas por dicho
transporte. Con este fi, se lleva a cabo un estudio en el que se observan, entre
otras variables:
Y= porcentaje de carga útil final (luego del transporte)
X= Distancia recorrida (decenas de kilómetros)
• Y se encuentra en una muestra aleatoria de 12 viajes o recorridos los siguientes
resultados:
Análisis de regresión simple
100
Distancia Recorrida (x) Curva de regresión ajustada
95
90
Carga Útil (y)
80
75
0 10 20 30 40 50 60 70
Niño 1 2 3 4 5 6 7 8 9 10
Estatura
121 123 108 118 111 109 114 103 110 115
(cm) x
Peso (kg) y 25 22 19 24 19 18 20 15 20 21
Reflexión del tema
• Para que sirve la regresión lineal
• Cual es el procedimiento para obtener la ecuación de
regresión
• Interpretar la pendiente y el intercepto (bo y b1)
• Para que sirve el coeficiente de correlación (r)
• Para que sirve el coeficiente de determinación (r2)
• Indique algunos ejemplos en la aplicación del modelo
de regresión.
Ejercicios para desarrollar
1. Los datos de la producción de trigo en toneladas (X) y
el precio del kilo de harina en soles (Y) en la década
de los 80 en Lima fueron:
Producción de trigo (X) 30 28 32 25 25 25 22 24 35
40
Precio de la harina (Y) 25 30 27 40 42 40 50 45 30
25
Ajusta la recta de regresión por el método de mínimos
cuadrados.
2. Los gastos semanales de publicidad y las ventas de una
empresa en dólares, para una muestra de 10 semanas
son:
Gastos 41 54 63 54 48 46 62 61 64 71
sem x
public
Ventas 125 138 142 1425 1450 1300 1400 1510 1575 1650
seman 0 0 5
a) Establezca la recta de regresión que permita predecir las ventas
semanales en función de los gastos de publicidad
b) Calcular el grado de relación entre las 2 variables
c) Interpreta la pendiente
d) Pronostica las ventas para gastos semanales de 50 y 60 dólares
e) Cuales son los errores de estimación cuando predice las ventas
semanales para gastos de publicidad de 61, 62 y 63 dólares
respectivamente
Ejercicios para desarrollar
En un estudio, por medio de detectores radioactivos, de la capacidad
corporal para absorber hierro y plomo, participaron diez sujetos. A
cada uno se le da una dosis oral idéntica de hierro (sulfato ferroso) y
de plomo (cloruro de plomo-203). Después de doce días se mide la
cantidad de cada componente retenida en el sistema corporal y, a
partir de éstas, se determinan los porcentajes absorbidos por el
cuerpo. Los datos obtenidos fueron:
Hierro (%) X 17 22 35 43 80 85 91 92 96
100
Plomo (%) Y 8 17 18 25 58 59 41 30 43
a) Dibuja la nube de puntos. Basándose en ella, ¿se puede esperar que el
58
coeficiente de correlación esté próximo a 1, -1 ó 0?.
b) Halla e interpreta el coeficiente de determinación.
c) Estima la recta de regresión y utilízala para predecir el porcentaje de hierro
absorbido por un individuo cuyo sistema corporal absorbe el 15% del plomo
ingerido.
Las calificaciones de un examen y el numero de horas de
estudio para el examen, de una muestra de 12 estudiantes,
se presenta en el siguiente cuadro:
Tiempo 3 3 3 4 4 5 5 5 6 6 7 8
de
estudio
Calificació 9 12 11 12 15 14 16 15 18 16 15 17
n
a) Hallar la recta de regresión
b) Interpreta la pendiente
c) Estimar la calificación cuando el tiempo de estudio es
10
d) Estimar el tiempo de estudio cuando la calificación es 8
En la siguiente tabla , donde :Y = Peso, x= Altura
a) Realice un diagrama de dispersión e indique
¿Sugiere la gráfica una asociación lineal?
b) Realice la ecuación de regresión
c) Interprete la pendiente, realice un pronóstico
d) Calcule e interprete el coeficiente de
correlación
e) Calcule e interprete el coeficiente de
determinación
f) Calcular e interpretar el error estándar de
estimación
La materia prima que se usa en la elaboración de una fibra Contenido
sintética se almacena en un local que no tiene control de de
humedad. Las mediciones de la humedad relativa en el Humedad humedad
(X) (Y)
local y del contenido de humedad de una muestra de la 42 12
materia prima (ambos en porcentajes) durante 12 35 8
días, dieron los siguientes resultados. 50 14
43 9
48 11
a) Realice un diagrama de dispersión e indique ¿Sugiere 62 16
la gráfica una asociación lineal? 31 7
36 9
b) Realice la ecuación de regresión 44 12
c) Interprete la pendiente, realice un pronóstico 39 10
55 13
d) Calcule e interprete el coeficiente de correlación 48 11
e) Calcule e interprete el coeficiente de determinación
f) Calcular e interpretar el error estándar de estimación
El siguiente conjunto de datos se ha tomado sobre grupos de trabajadoras de.
Cada grupo está formado por trabajadores de la misma profesión, en cada uno
de los veinticuatro grupos muestreados se han observado dos variables: el índice
de estandarizado de consumo de cigarrillos (x) y el índice de muertes por cáncer
de pulmón (Y) variable dependiente. Se desea estudiar la relación entre estas
dos variables.
Accidentes 5 7 5 3 2 1 9
xi
Vehículos yi 15 18 13 11 10 8 20
Donde di = Xi - Yi
REFERENCIAS