Está en la página 1de 55

CORRELACION

Correlación y
regresión
Correlación

Es la relación entre dos variables cuantitativas


sin ser capaz de inferir relaciones causales.

Correlación es una técnica estadística utilizada


para determinar el grado en el que dos
variables están relacionadas
Diagrama de dispersión de puntos

• Dos variables cuantitativas


• Una variable es llamada independiente (X)
y la otra dependiente (Y)
• Los puntos no se unen
• No es tabla de frecuencias
Ejemplo
SBP
TAS(mm
(mmHg )
HG)

220
200

180
160

140
120

100
80 wtPeso
(kg)(Kg)
60 70 80 90 100 110 120

Dispersión de puntos de peso y presión arterial sistólica


SBP
TAS(mm Hg)HG)
(mm
220

200

180

160

140

120

100

80 Peso (Kg)
Wt (kg)
60 70 80 90 100 110 120

Diagrama de puntos dispersos de peso y tensión arterial sistólica


Dispersión de puntos

El modelo de los datos es indicativo del tipo de


relación entre las dos variables:
 Relación positiva

 Relación negativa

 No hay relación
Relación positiva
Calificación final del curso

Número de horas para estudio


18

16

14
cm

12
in CMen

10
Estatura
Height

0
0 10 20 30 40 50 60 70 80 90
Edad
Age en semanas
in Weeks
Relación negativa

Confiabilidad

Edad del Auto


Sin relación
Peso (libras)

Tasa de pulso (latidos/minuto)


Coeficiente de correlación

Estadístico que muestra el grado de


relación entre las dos variables
Coeficiente de correlación simple (r)

 También llamado correlación de


Pearson
 Mide la naturaleza y fuerza entre dos
variables cuantitativas.
El signo de r denota la naturaleza de
la asociación

Mientras que el valor de r denota la


fuerza de asociación.
 Si el signo es positivo, significa que la
relación es directa (un incremento en una
variable está asociado con el incremento
de la otra variable; una disminución de
una variable está asociado con la
disminución de la otra variable).

 Si el signo es negativo, significa una


relación inversa o indirecta (significando
que el incremento en una variable está
asociado con una disminución de la otra
variable).
 El valor de r está entre ( -1) y ( +1)
 El valor de r denota la fuerza de la
asociación como se ilustra en el siguiente
diagrama.

fuerte intermedio débil débil intermedio fuerte

1- -0.75 -0.25 0 0.25 0.75 1


indirecta Directa
Correlación correlación
perfecta perfecta
sin relación
Si r = cero significa que no hay asociación o
correlación entre las dos variables.

Si 0 < r < 0.25 = débil correlación.

Si 0.25 ≤ r < 0.75 = intermedia correlación.

Si 0.75 ≤ r < 1 = fuerte correlación.

Si r = l = perfecta correlación.
Cómo clacular el coeficiente de correlación¿
?simple (r)

 xy   x y
r n
 ( x) 2
  ( y) 
2
x 
2 .  y 
2 
 n  n 
  
:Ejemplo
Una muestra de 6 niños fue seleccionada, datos de su
edad en años y peso en kilogramos fue registrada
como se muestra en la siguiente tabla. Se requiere
encontrar la correlación entre edad y peso.

Peso (Kg) Edad Nº


(años) serial
12 7 1
8 6 2
12 8 3
10 5 4
11 6 5
13 9 6
Las dos variables son de tipo cuantitativo,
una variable (edad) es llamada
independiente y la otra (peso) es llamada
dependiente y con notación de variable Y,
para encontrar la relación entre edad y
peso, calcule el coeficiente de correlación
simple, usando la siguiente fórmula:

 x y
 xy  n
r 
 ( x) 2  ( y)2 
x 
2 .  y 
2 
 n  n 
  
Peso Edad

Y2 X2 xy (Kg) (años)
Serial
(y) (x)
144 49 84 12 7 1

64 36 48 8 6 2

144 64 96 12 8 3

100 25 50 10 5 4

121 36 66 11 6 5

169 81 117 13 9 6

=y2∑ =x2∑ xy=∑ =y∑ =x∑ Total


742 291 461 66 41
41  66
461 
r 6
 (41)2   (66)2 
291  .742  
 6  6 

r = 0.759
Fuerte correlación directa
Ejemplo: Relación entre ansiedad y puntaje de
pruebas

XY Y2 X2 Puntaje Ansiedad
de )X(
prueba
(Y)
20 4 100 2 10
24 9 64 3 8
18 81 4 9 2
7 49 1 7 1
30 36 25 6 5
30 25 36 5 6
XY=129∑ Y2 = 204∑ X2 = 230∑ Y = 32∑ X = 32∑
Calculando el coeficiente de correlación

(6)(129)  (32)(32) 774  1024


r   .94
 6(230)  32  6(204)  32 
2 2
(356)(200)

r = - 0.94

Fuerte correlación indirecta


Coeficiente de correlación de Rankings
de Spearman (rs)
No es una prueba no paramétrica de
correlación.
Este procedimiento usa los dos rankings que
puede asignarse a los valores de la muestra en
x y en y.
Coeficiente de correlación de rankings de
Spearman puede calcularse en los siguientes
casos:
Ambas variables son cuantitativas.
Ambas variables son cualitativas ordinales.
Una variable es cuantitativa y la otra es cualitativa
ordinal.
:Procedimiento
1. Ranquee los valores de X de primero a n
donde n es el número de pares de
valores de x y y en la muestra.
2. Ranquee el valor de y de primero a n.
3. Calcule el valor de di para cada par de
observaciones restando el ranking de yi
del ranking de xi.
4. Eleve al cuadrado cada di y ∑di2 lo cual
es la suma de valores al cuadrado.
5. Aplique la siguiente fórmula:

6 (di) 2
rs  1 
n(n 2  1)

El valor de rs denota la magnitud y


naturaleza de la asociación dando la
misma interpretación el r simple.
Ejemplo
En un estudio de la relación entre el nivel de
educación e ingreso, se obtuvieron los siguientes
datos. Encuentre la relación entre ellos y comente.

Ingreso Nivel de educación Números


(Y) (X) de la
muestra
25 Preparatoria A
10 Primaria B
8 Universidad C
10 Secundaria D
15 Secundaria E
50 Analfabeta F
60 Universidad G
Respuesta:
di2 di Ranking Ranking
Y X
(Y) (X)
4 2 3 5 25 Preparatoria A

0.25 0.5 5.5 6 10 Primaria B


30.25 - 7 1.5 8 Universidad C
5.5
4 -2 5.5 3.5 10 Secundaria D
0.25 - 4 3.5 15 Secundaria E
0.5
25 5 2 7 50 Analfabeta F
0.25 0.5 1 1.5 60 Universidad G

∑ di2=64
6  64
rs  1   0.1
7(48)

Comentario:
Hay una correlación débil indirecta entre el
nivel de educación y el ingreso.
Ejercicio
Análisis de regresión
Regresión: técnica enfocada a la predicción de
algunas variables conociendo a otras.

El proceso de predecir la variable Y usando la


variable X.
Regresión
 Usa la variable (x) para predecir el valor de la
variable resultado (y)
 Nos dice cuanto es el valor de cambio de y en
función del cambio en los valores de x.
Correlación y regresión

 Correlación describe la fuerza de una relación


lineal entre dos variables
 Lineal significa “línea recta”

 Regresión nos dice como trazar la línea recta


descrita en la correlación.
Regresión
 Calcule la línea que de “el mejor trazo” para un grupo de
datos
La línea de regresión hace la suma de cuadrados de los
residuales, menores a cualquier otra línea
Regresión minimiza los residuales
TAS(mmHg)
220

200

180

160

140

120

100
Peso
80 Kg
Wt (kg)
60 70 80 90 100 110 120
Usando el método de los cuadrados mínimos (un
procedimiento que minimiza las desviaciones
verticales de puntos trazados alrededor de la
línea recta) somos capaces de construir el mejor
trazado de la línea recta en la gráfica de puntos
dispersos y luego formular la ecuación de
regresión en la forma de:

ŷ  a  bX

 x y
 xy 
ŷ  y  b(x  x) bb1  n
(  x) 2
 x 2

n
Ecuación de regresión
SBP(mmH g)
TAS (mmHg)
220
 La ecuación de regresión 200

describe la línea de 180

regresión
160

140

matemáticamente 120

 Intersección 100

80
PesoWt (kg)
 Pendiente 60 70 80 90 100 110 120 (Kg)
Ecuación
Ecuación lineal
lineal
Y
Yŷ = baX + bX
a
Change
Cambio
b= pendiente
b = S lo p e in Y
en Y
C h a n g e i en
Cambio n XX
aa == Yintersección
-in te r c e p t
X
Horas estudiando y calificaciones
Regresión de calificaciones sobre horas de estudio


Regresión lineal
Linear Regression


Calificación final en el curso= 59.95 + 3.17 * horas de estudio 
90.00 Final grade in course = 59.95 + 3.17 * study
Calificación final en el curso

R2=0.88
R-Square = 0.88


80.00  

70.00  

2.00 4.00 6.00 8.00 10.00

Number
Número de of hours
horas spenten
empleadas studying
estudio

Calificación final predicha en clase =


59.95 + 3.17*(número de horas de estudio por
semana)
Calificación final en clases predicha= 59.95 + 3.17*(horas de
estudio)
… Prediga la calificación final de

 Alguien quien estudia 12 horas


 Calificación final = 59.95 + (3.17*12)
 Calificación final = 97.99

 Alguine quien estudia 1 hora:


 Calificación final = 59.95 + (3.17*1)
 Calificación final = 63.12
Ejercicio
Una muestra de 6 personas fue
seleccionada el valor de su edad
(variable x) y su peso, mostrados en la
siguiente tabla. Encuentre la ecuación de
regresión y que se predice del peso
cuando la edad es 8.5 años.
Peso (y) Edad (x) Número serial
12 7 1
8 6 2
12 8 3
10 5 4
11 6 5
13 9 6
Respuesta

Y2 X2 xy Peso (y) Edad Número


(x) serial
144 49 84 12 7 1
64 36 48 8 6 2
144 64 96 12 8 3
100 25 50 10 5 4
121 36 66 11 6 5
169 81 117 13 9 6

742 291 461 66 41 Total


41 66
x  6.83 y  11
6 6

41  66
461 
b 6  0.92
2
(41)
291 
6

Ecuación de regresión

ŷ (x)  11  0.9(x  6.83)


ŷ (x)  4.675  0.92x

ŷ (8.5)  4.675  0.92 * 8.5  12.50Kg

ŷ (7.5)  4.675  0.92 * 7.5  11.58Kg


12.6
Kg)
(in Kg) 12.4
12.2
Peso (en
12
Weight

11.8
11.6
11.4
7 7.5 8 8.5 9
Age (in(en
Edad years)
años)

Creamos una lñínea de regresión trazando dos


valores estimados para y contra su componente de
x, y luego extendiendo la línea a la derecha y a la
izquierda.
Ejercicio 2
PA Edad PA Edad
(y) (x) (y) (x)
128 46 120 20
Los siguientes son las
edades en años y la 136 53 128 43
presión arterial (PA) 146 60 141 63
de 20 adultos 124 20 126 26
aparentemente 143 63 134 53
sanos.
130 43 128 31
124 26 136 58
121 19 132 46
126 31 140 58
123 23 144 70
Encuentre la correlación entre
edad y presión arterial usando el
coeficiente de correlación de
Spearman y comente.
Encuentre la ecuación de
regresión
¿Cual es la presión arterial
predecible para un hombre de 25
años?
x2 xy y x Serial
400 2400 120 20 1
1849 5504 128 43 2
3969 8883 141 63 3
676 3276 126 26 4
2809 7102 134 53 5
961 3968 128 31 6
3364 7888 136 58 7
2116 6072 132 46 8
3364 8120 140 58 9
4900 10080 144 70 10
x2 xy y x Serial
2116 5888 128 46 11
2809 7208 136 53 12
3600 8760 146 60 13
400 2480 124 20 14
3969 9009 143 63 15
1849 5590 130 43 16
676 3224 124 26 17
361 2299 121 19 18
961 3906 126 31 19
529 2829 123 23 20
41678 114486 2630 852 Total
 x y
 xy 
n 114486 
852  2630
b1  = 20  0.4547
(  x) 2
852 2

x  n
2 41678 
20

ŷ =112.13 + 0.4547 x

para edad 25
Presión arterial = 112.13 + 0.4547 * 25=123.49 = 123.5 mm hg
Regresión múltiple

Análisis de regresión múltiple es una


extensión del análisis simple de regresión
permitiendo más de una variable
independiente.

También podría gustarte