Está en la página 1de 20

SEMANA 8

 Correlación
 Coeficiente de correlación lineal de Pearson (r)
 Coeficiente de Determinación (r2)
ESTADÍSTICA

 Regresión
 Regresión lineal simple

Dra. Mariel Del Rocío Chotón Calvo


CORRELACIÓN

La covarianza indica cómo es la relación entre dos variables (orientación de la nube de


puntos), pero este parámetro no indica en forma precisa la medida de esa relación.
Correlación: es la relación que existe entre variables cuantitativas, indicando la fuerza y
dirección de la relación lineal entre dos o más variables. Cuando exista dicha relación se
puede obtener un modelo de regresión (simple o múltiple)
TIPOS DE CORRELACIÓN
 Simple: Tiene una sola variable predictora, explicativa o independiente (X) para explicar
una respuesta.
 Múltiple: Tiene varios predictores.
 Parcial: Tiene varios predictores .
 COEFICIENTES DE CORRELACIÓN
 Pearson: Se usa para variables cuantitativas normales.
 Spearman (: Recomendado para datos ordinales o de intervalo que no satisfacen la
condición de normalidad.
 de Kendall: Medida no paramétrica (de rangos), se usa en lugar de Spearman cuando el
conjunto de datos es pequeño y muchas puntuaciones estén en el mismo nivel.
 Coeficiente de asociación ordinal de Goodman –Kruskall (coeficiente gamma)
CORRELACIÓN LINEAL SIMPLE DE PEARSON

Pearson investigó si existía relación entre la altura del hijo/a y la del


padre, investigando más de 1000 casos y estableció una forma de
predecir la altura del hijo/a en base a la del padre (regresión)

Mide la relación lineal entre variables cuantitativas. Su valor varía entre –1 y 1, donde el signo
indica la dirección (+ o -) de la correlación y el valor numérico la magnitud de la correlación.
𝑛 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌
 
𝑟= 2 2
√ 𝑛 ∑ 𝑋 2 − (∑ 𝑋 ) √ 𝑛 ∑ 𝑌 2 − (∑ 𝑌 )
X i.Y. j
Cov( X , Y ) Cov( X , Y )    XY
r donde
i 1 j 1 n
Sx Sy
Donde:
Cov (X,Y): Covarianza Sx : Desviación estándar de X Sy : Desviación estándar de Y

-1 ≤ r ≤ 1

r≈0 r ≈ -1 r≈1
-1 ≤ r ≤ 1

COEFICIENTE DE DETERMINACIÓN
Se denota por R o por r2 e indica el porcentaje de variabilidad de una variable que es
explicada por la otra. Indica el grado de linealidad entre dos variables.
r2 %
REGRESIÓN
El objetivo de estudiar en forma conjunta 2 variables X e Y es encontrar alguna manera de
predecir valores de una de ellas en base a los valores conocidos de la otra variable.
El primer paso para determinar si puede existir o no dependencia/relación entre variables es
representando gráficamente los pares (X,Y) de valores observados mediante una nube de
puntos o diagrama de dispersión.
Y

X
Si en el gráfico se detecta que existe relación entre dos o más variables, el siguiente paso
sería intentar modelizar dicha relación, siendo la más sencilla para expresar la variable
dependiente a través de sus variables predictoras la ecuación lineal.
Las técnicas de regresión tienen por objeto:
 Modelar o encontrar una función que aproxime lo máximo posible la relación de
dependencia estadística entre variables.
 Predecir los valores de una de ellas, ejemplo: Y(variable dependiente o explicada) a partir
de los valores de otra u otras X que son variable(s) independiente(s) o explicativa(s).
 Cuantificar la relación de dependencia.
REGRESIÓN LINEAL SIMPLE

Consiste en determinar la ecuación Y = a + bX que mejor ajuste a los valores de la


muestra.
Donde:
Y : Variable dependiente
X : Variable independiente
a y b: Parámetros o constantes (a: intercepto con la recta y b: pendiente)
La ecuación puede utilizarse para estimar valores de una variable en base a los valores
conocidos de otra variable, intuir la relación causa-efecto entre dos variables y predecir
valores futuros de una variable.
n  XY    X   Y 
Cov X , Y  b
n  X     X 
2
b 2

S X2

a Y b 
X
a  Y  bX n n

“b” es el cambio promedio cuando X cambia una unidad.


b > 0 la tendencia lineal es creciente
b < 0 la tendencia lineal es decreciente
b = 0 no hay regresión
La recta estimada será:
𝒀
 ^ =𝒂+𝒃𝑿
EJEMPLOS
EJEMPLO 1: En una empresa de transportes trabajan 6 conductores, los años de antigüedad de
sus permisos de conducir y las infracciones cometidas en el último año por cada uno son:
Años 3 4 5 5 2 6
Infracciones 4 3 3 2 5 1

a. Graficar, calcular e interpretar el coeficiente de correlación.


b. Estime la recta de regresión
Solución:
Y (infracciones)

X (años)

El gráfico muestra una relación inversa, es decir que X (años) aumenta y Y (infracciones) disminuye.
Cálculo de sumatorias

2
 = 25

n
x 25
∑ 𝑋 =115
  2
∑ 𝑋𝑌=65
 

n yj
 
=18

18
∑ 𝑌 =64
 

X  i   4.1667 Y 
n

6
3
i 1 n 6 i 1

2 2 2
2 2
 X  115  25 
2 n Y  n Yj  64  18 
Sy     
n n
X  
S x2    i  
j
i
    1.8056
2
    1.667
i 1 n  i 1 n  6  6  i 1 n  i 1 n  6 6

S x  1.3437 S y  1.29
Coeficiente de correlación

  𝑛 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌
𝑟= 2 2
√ 𝑛 ∑ 𝑋 2 − (∑ 𝑋 ) √ 𝑛 ∑ 𝑌 2 − (∑ 𝑌 )

  6( 65) − ( 25 ) (18) − 60
𝑟= = =− 0.96
2
√ 6 ( 115 ) −(25) √6 ( 64 ) −(18)2 62.45

Utilizando la fórmula con Cov(X,Y):


65
X i.Y. j Cov( X , Y )   (4.167)(3)  1.6677
Cov ( X , Y )    XY 6
i 1 j 1 n

Cov( X , Y )  1.6677
r r  0.96
Sx Sy (1.3437)(1.29)

Interpretación:
Existe una relación inversa muy fuerte entre los años de antigüedad de sus permisos de
conducir y las infracciones cometidas en el último año.

Coeficiente de determinación

r2 = (- 0.96)2 = 0,9216 y esto indica que el 92.16% de la variación en las infracciones


cometidas en el último año, se debe a la variación en los años de antigüedad.
Recta de regresión
Cov X , Y   1.6677
b 2
  0.923
SX 1.8056
a  Y  b X  3  (0.923)( 4.1667)  6.846
Reemplazando se tiene la recta estimada:
𝑌
 ^ =𝑎+𝑏𝑋 𝑌^  =6.846 −0.923 𝑋
Para un conductor que tiene su permiso de 1año de antigüedad se estima el número de infracciones:
  5.923 ≈ 6 infracciones
  Graficar la recta estimada sobre el diagrama de dispersión o puntos.

𝒀^  =𝟔 . 𝟖𝟒𝟔 −𝟎 . 𝟗𝟐𝟑 𝑿


SALIDA EN EXCEL

Para el coeficiente de correlación de Pearson se tienen los siguientes procedimientos:


 Ingresar los datos, luego insertar la función = Pearson (sombrear datos de X, sombrear
datos de Y), enter.
 Otra forma es ingresar los datos, luego insertar la función =coef.de.correl(sombrear datos
para X, sombrear datos para y), enter.
Para la recta de regresión se ingresan los datos, luego ir a datos, análisis de datos, regresión,
seleccionar datos de Y, seleccionar de X, aceptar

El resultado es el siguiente:

a
b

𝒀^  =𝒂+𝒃𝑿 =𝟔 . 𝟖𝟒𝟔 −𝟎 . 𝟗𝟐𝟑 𝐗


EJEMPLO 2: El IPC y el precio del barril de petróleo durante el segundo semestre de 2018
IPC 2,4 2,2 2,2 2,7 3,6 4,1
Precio ($) 71,54 77,01 70,73 76,87 82,50 90,16

a. ¿Se puede asegurar que la evolución del IPC está directamente relacionada con el precio del petróleo?
b. Estimar el precio del barril de petróleo para un IPC de 5.2

SOLUCIÓN

Coeficiente de correlación:
r = 0.929 => Sí existe una correlación lineal positiva fuerte.
Coeficiente de determinación:
r2 = 0,863 y esto indica que el 86.3% de la variación en el precio del petróleo está explicado por la
variación en el IPC.
Recta de regresión:
Cov X , Y  4.501
b   8.46
S X2 0.532

a  Y  b X  78.135  (8.457)( 2.867)  53.89

𝑌
 ^ =𝑎+𝑏𝑋

𝒀^  =𝟓𝟑 .𝟖𝟗+𝟖. 𝟒𝟔 𝑿

El precio estimado del barril de petróleo para un IPC de 5.2 es igual a:


  = 97.882
EJEMPLO 3:
La inversión (miles de S/.) y la ganancia (miles de S/.) de una empresa en los últimos meses son:
Inversión 9 10 12 14 12 13 14 18 16 23 66 27 24 21 18 15 23 38 37 24 41
(X)
Ganancia 16 24 30 30 63 65 57 74 65 95 52 78 83 72 78 45 74 62 57 56 98
(Y)

Calcular e interpretar r, luego calcular lo mismo mediante una tabla bidimensional y comparar.
SOLUCIÓN

30770
Y  60.67 Cov( X , Y )   (22.62)(60.67)  93.016
X  22.62 21
Cov( X , Y ) 93.016
r   0.327
Sx Sy (13.175)(21.592)
Interpretación: Existe una relación positiva casi media entre la inversión y la ganancia.
El valor de r no es alto, por lo que no se recomienda estimar la recta de regresión.
Distribución de meses por inversión (miles de S/.), según su ganancia (miles de S/.)

520.5 1291.5
X  24.79 Sx = 12.6488 Y  61.5 Sy = 21.633
21 21
n n f ij X iY j 35211
Cov( X , Y )    XY   ( 24.8)(61.5)  151.5
i 1 j 1 n 21
Cov( X , Y ) 151.5
r   0.554
Sx Sy (12.6488)(21.633)

Interpretación: Existe una relación positiva media entre la inversión y la ganancia.


EJEMPLO 4: La publicidad y las ventas (en miles de S/.) de una empresa en 10 semanas se da a continuación:
Publicidad(X) 20 30 30 40 50 60 60 60 70 80
Ventas(Y) 50 73 69 87 108 128 135 132 148 170

a. Calcular e interpretar el coeficiente de correlación y el coeficiente de determinación.


b. Estimar la recta de regresión
SOLUCIÓN
180

160

140

120

100

80

60

40

20

0
10 20 30 40 50 60 70 80 90

Se puede evidenciar que existe relación positiva casi perfecta porque los puntos forman una recta.
2 500
 = 500
 
∑ 𝑋2=28400 X
10
 50

1100
 
∑ 𝑋𝑌=61800
 
=1100
∑ 𝑌 =134660
  Y
10
 110
Coeficiente de correlación
2 2
n
X i2  n X i  28400  500  S x  18.439
S 
2
x        340
i 1 n  i 1 n  10  10 

2 2
n Y j2 n Y j  134660  1100  S y  36.959
S 
2
      1366
n  i 1 n 
y
i 1 10  10 

X iY j 680
Cov( X , Y )    XY   (50)(110)  680
i 1 j 1 n 10

Cov( X , Y ) 680
r   0.998
Sx Sy (18.439)(36.959)

El valor de r = 0.998 entonces existe una relación positiva casi perfecta entre publicidad y ventas.
Calculando el coeficiente de determinación
𝑟  2 𝑥 100 %
  = 99.6%

El 99.6% de la variación en las ventas está explicado por la publicidad. Es decir que el 0.4% se debe a
otras variables.
Recta de regresión

Cov X , Y  680 a  Y  b X  110  (1.7)(50)  25


b 2
  1.7
SX 339.997

𝑌
 ^ =𝑎+𝑏𝑋

180

160 𝒀 ^ =𝟐𝟓+𝟏 .𝟕 𝑿


140

120

100

80

60

40

20

0
10 20 30 40 50 60 70 80 90
GRACIAS POR SU ATENCIÓN

También podría gustarte