Está en la página 1de 46

CORRELACIÓN LINEAL

SIMPLE Y REGRESIÓN
LINEAL SIMPLE
Correlación
Es la relación entre dos variables cuantitativas
sin ser capaz de inferir relaciones causales.

Correlación es una técnica estadística utilizada


para determinar el grado en el que dos
variables están relacionadas.
Dos variables están relacionadas si varían conjuntamente

La correlación se define por la co-variación, es una medida de relación y se mide por el


coeficiente de correlación (r de Pearson) en el caso de investigación cuantitativa donde se
tienen variables de esta misma naturaleza

Una correlación es una medida del grado en que dos variables se encuentran relacionadas.

Un estudio correlacional puede intentar determinar si individuos con una puntuación alta en
una variable también tiene puntuación alta en una segunda variable y si individuos con una baja
puntuación en una variable también tienen baja puntuación en la segunda.
Relación entre variables

A continuación se establecen gráficamente varios tipos de relaciones entre 


variables.

.
Tipos de correlación
Correlación positiva Correlación Negativa o inversa
Cuando hay valores altos o bajos, Es cuando los valores altos en una variable
simultáneamente en dos variables. coinciden con valores bajos en otra variable.
Ejemplo: Ejemplo:
Peso y altura en una muestra de niños de 5 a 12 años: La edad y fuerza física en una muestra de adultos de
los mayores son también los más altos y pesan más, y 30 a 80 años de edad: los mayores son los menores en
los más jóvenes pesan menos y son más bajos; fuerza física; hay una relación, que puede ser muy
decimos que peso y altura son dos variables grande: según los sujetos aumentan en una variable
relacionadas porque los más altos pesan más y los más (edad) disminuyen en la otra (fuerza física).
bajos pesan menos.
Casos en que se utiliza la correlación

Se realizan cuando no se pueden manipular las variables


de tratamiento debido a las siguientes razones:

1. Es imposible manipular físicamente las variables.

2. Los sucesos ya han ocurrido.

3. Se basa en observaciones muestrales y por lo tanto depende


mucho de una correcta técnica de muestreo..
Ejemplo

1) En cada caso tenemos cuatro sujetos (ejemplo reducido para poder ver todos los 
datos con facilidad) con puntuaciones en dos variables, X (un test de inteligencia) e Y
(una prueba objetiva de rendimiento).
2) Junto a la puntuación de cada sujeto en las dos variables, X e Y, ponemos su número 
de orden: 1º al que tenga la puntuación más alta, 2º al que tenga la siguiente más alta,
etc.:
Caso 1° Caso 2° Caso 3°
X # de Y # de X # de Y # de X # de Y # de
orden orden orden orden orden orden

40 1° 13 1° 40 1° 10 4° 40 1° 12 2°
39 2° 12 2° 39 2° 11 3° 39 2° 10 4°
38 3° 11 3° 38 3° 12 2° 38 3° 13 1°
37 4° 10 4° 37 4° 13 1° 37 4° 11 3°
Caso 1

Caso 1° Decimos por lo tanto que existe relación en la medida 


en que los sujetos ocupan la misma posición relativa
X # de Y # de en las dos variables.
orden orden
40 1° 13 1°
39 2° 12 2°
En el caso 1º la relación es positiva. 

38 3° 11 3°
37 4° 10 4°
En el caso 1° los sujetos tienen
el mismo orden en las dos
variables: el tener más de X
coincide con tener más de Y.
Entre X e Y existe una relación
positiva.
Caso 2

En este caso, nuevamente se presenta una relación, 


Caso 2°
ya que los sujetos guardan posiciones contrarias en
las dos variables.
X # de Y # de
Tenemos una relación, pero negativa.  orden orden
En los casos 1º y 2º la variación es clara y alta.  40 1° 10 4°
39 2° 11 3°
38 3° 12 2°
37 4° 13 1°
En el caso 2° el orden en las dos
variables es inverso: a más de X
corresponde menos de Y. Entre X e
Y hay relación, pero negativa.
Caso 3

Caso 3° No existe relación en la posición relativa de las 


variables.
X # de Y # de
orden orden
La relación puede ser moderada o baja o puede no 
40 1° 12 2°
haber relación, como en este caso.
39 2° 10 4°
38 3° 13 1°
37 4° 11 3°
En el caso 3° el orden en X no
tiene nada que ver con el orden
de Y; se puede estar alto en una
variable y bajo en la otra, y
viceversa; entre X e Y no hay
relación.
Representación gráfica

a) Una manera de representar las relaciones enunciadas puede ser


gráficamente. Podemos representar en el eje de abscisas las puntuaciones
en la primera variable, y en el de las ordenadas la segunda variable. Así,
algunas relaciones se representarían del siguiente modo.
Coeficiente de correlación (r)

Las relaciones lineales entre variables pueden ser expresadas por estadísticos
conocidos como coeficientes de correlación.

Un valor de -1 indica una


relación lineal negativa
La medida de correlación perfecta; un valor de +1
que indicaremos es el El valor de este coeficiente indica una relación lineal
coeficiente de correlación de puede variar de +1 a -1. positiva perfecta; un valor
Pearson (r). de cero indica que hay
ausencia total de relación
lineal entre las dos variables.
Interpretación del coeficiente de correlación
a) El coeficiente de correlación expresa en qué grado los sujetos (u objetos,
elementos…) están ordenados de la misma manera en dos variables
simultáneamente.

b) Los valores extremos son 0 (ninguna relación) y ±1 (máxima relación). Si r


= 1, el orden (posición relativa) de los sujetos es el mismo en las dos variables.

c) La magnitud del coeficiente es independiente del signo. r = -.95 expresa


más relación que r = +.75; el que la relación sea positiva o negativa es algo
distinto de que sea grande o pequeña.

d) Dos ítems (o sujetos, variables, etc.) que tengan entre sí una relación muy
alta, pueden ser valorados de manera muy distinta en términos absolutos.
… continuación
e) Un coeficiente de correlación no equivale a una proporción. Una correlación de r
=.50 no quiere decir que haya un 50% de variabilidad común o de varianza común
entre las dos variables.

f) No es necesario que las dos variables (X e Y) estén medidas en la misma escala


o en las mismas unidades.

g) En los coeficientes de correlación no hay unidad en sentido propio.

h) La correlación entre dos variables es relativa a los instrumentos utilizados.


¿Cómo valorar la magnitud de la correlación?

A manera de criterio orientador se sugieren las siguientes valoraciones.


Un valor de r entre: Indica una relación:
0 y .20 ..………………………… Muy baja
.20 y .40 ……………………………. Baja
.40 y .60 ……………………………. Moderada
.60 y .80 ……………………………. Apreciable, más bien alta
.80 y 1 …………………………… Alta o muy alta
¿Cómo calcular el coeficiente de correlación
simple (r)?

 xy   x y
r n

x 
2
(  x) 2
 
.  y 
2
(  y)2


 n  n 
  
Ejemplo:
Una muestra de 6 niños fue seleccionada, datos de su edad en
años y peso en kilogramos fue registrada como se muestra en la
siguiente tabla. Se requiere encontrar la correlación entre edad y
peso.

Nº Edad Peso (Kg)


serial (años)
1 7 12
2 6 8
3 8 12
4 5 10
5 6 11
6 9 13
Las dos variables son de tipo cuantitativo, una variable (edad)
es llamada independiente y la otra (peso) es llamada
dependiente y con notación de variable Y, para encontrar
la relación entre edad y peso, calcule el coeficiente de
correlación simple, usando la siguiente fórmula:

 xy   x y
r  n
 ( x) 2  ( y)2 
x 
2 .  y 
2 
 n  n 
  
Edad Peso

(años) (Kg) xy X2 Y2
Serial
(x) (y)
1 7 12 84 49 144
2 6 8 48 36 64
3 8 12 96 64 144
4 5 10 50 25 100
5 6 11 66 36 121
6 9 13 117 81 169
Total ∑x= ∑y= ∑xy= ∑x2= ∑y2=
41 66 461 291 742
41  66
461 
r 6
 (41)  
2
(66) 
2

291  .742  
 6  6 

r = 0.759
Ejemplo: Relación entre ansiedad y puntaje de pruebas

Ansiedad Puntaje X2 Y2 XY
(X) de
prueba
(Y)
10 2 100 4 20
8 3 64 9 24
2 9 4 81 18
1 7 1 49 7
5 6 25 36 30
6 5 36 25 30
∑X = 32 ∑Y = 32 ∑X2 = 230 ∑Y2 = 204 ∑XY=129
Calculando el coeficiente de correlación

(6)(129)  (32)(32) 774  1024


r   .94
6(230)  32 6(204)  32 
2 2
(356)(200)

r = - 0.94
Ejercicio
Análisis de regresión
Permite estudiar la relación funcional entre una
variable respuesta Y (variable dependiente) y una o
más variables regresoras X (variables independientes o
predictoras). El primer caso se conoce como
Regresión Lineal Simple y el segundo como Regresión
Lineal Múltiple (Draper y Smith, 1998).
Regresión
Un análisis de regresión nos puede servir para predecir o
describir el comportamiento de una variable respecto al
comportamiento de otra, que por su naturaleza es difícil
la observación directa, por lo que con la ayuda de un
modelo se puede entender lo anterior relacionando una o
más de una variable.
Correlación y regresión

 Correlación describe la fuerza de una relación


lineal entre dos variables
 Lineal significa “línea recta”

 Regresión nos dice como trazar la línea recta


descrita en la correlación.
Regresión
 Calcule la línea que de “el mejor trazo” para un grupo de
datos
La línea de regresión hace la suma de cuadrados de los
residuales, menores a cualquier otra línea
Regresión minimiza los residuales
SBP(mmHg)
220 TAS(mmHg)

200

180

160

140

120

100

80
Wt (kg)
60 70 80 90 100 110 120

Peso
Kg
Usando el método de los cuadrados mínimos (un
procedimiento que minimiza las desviaciones
verticales de puntos trazados alrededor de la línea
recta) somos capaces de construir el mejor trazado
de la línea recta en la gráfica de puntos dispersos y
luego formular la ecuación de regresión en la forma
de:

ŷ  a  bX

 x y
 xy 
ŷ  y  b(x  x) bb1  n
( x) 2
 x 2

n
Ecuación de regresión
SBP(mmH g) (mmHg)
TAS
220

200

 La ecuación de 180

160

regresión describe 140

120

100

la línea de 80
60 70 80 90 100 110 120
Wt (kg)

regresión Peso
(Kg)

matemáticamente
 Intersección

 Pendiente
Ecuación lineal
Y
ŷ =bX
Y a +bX
a
Change
Cambio
b=
bpendiente
= Slope en
in Y
Change in
Cambio enXX
a == Y-intercept
intersección
X
Horas estudiando y calificaciones
Regresión de calificaciones sobre horas de estudio


Regresión lineal
Linear Regression

Calificación final en el curso= 59.95 + 3.17 * horas de estudio 
90.00 Final grade in course = 59.95 + 3.17 * study

el curso
R2=0.88
R-Square = 0.88

e inencour se


final 

 
80.00
Fina l grad
Calificación

70.00  

2.00 4.00 6.00 8.00 10.00

Number
Número deof hours
horas spent en
empleadas studying
estudio

Calificación final predicha en clase =


59.95 + 3.17*(número de horas de estudio por
semana)
Calificación final en clases predicha= 59.95 + 3.17*(horas de
estudio)

Prediga la calificación final de …

 Alguien quien estudia 12 horas


 Calificación final = 59.95 + (3.17*12)
 Calificación final = 97.99

 Alguien quien estudia 1 hora:


 Calificación final = 59.95 + (3.17*1)
 Calificación final = 63.12
COEFICIENTE DE DETERMINACIÓN
(R2)
Este muestra qué proporción de la variación
total de los datos está siendo explicada por el
2
modelo adoptado, R es un valor entre 0 y 1;
a más cerca de 1 mejor funciona el modelo.
Ejercicio
Una muestra de 6 personas fue
seleccionada el valor de su edad
(variable x) y su peso, mostrados en la
siguiente tabla. Encuentre la ecuación de
regresión y que se predice del peso
cuando la edad es 8.5 años.
Número serial Edad (x) Peso (y)
1 7 12
2 6 8
3 8 12
4 5 10
5 6 11
6 9 13
Respuesta

Número Edad Peso (y) xy X2 Y2


serial (x)
1 7 12 84 49 144
2 6 8 48 36 64
3 8 12 96 64 144
4 5 10 50 25 100
5 6 11 66 36 121
6 9 13 117 81 169

Total 41 66 461 291 742


41 66
x  6.83 y  11
6 6

41  66
461 
b 6  0.92
2
(41)
291 
6

Ecuación de regresión

ŷ (x)  11  0.9(x  6.83)


ŷ (x)  4.675  0.92x

ŷ (8.5)  4.675  0.92 * 8.5  12.50Kg

ŷ (7.5)  4.675  0.92 * 7.5  11.58Kg


12.6

Kg)
(in Kg)
12.4
12.2

Peso (en
12

Weight
11.8
11.6
11.4
7 7.5 8 8.5 9
Age (in(en
Edad years)
años)

Creamos una línea de regresión trazando dos


valores estimados para y contra su componente de
x, y luego extendiendo la línea a la derecha y a la
izquierda.
Consideraciones
Supuestos
La variable X o independiente o predictora (está bajo el control
del investigador), la variable Y es la variable dependiente o
predicha.
Los valores de X son fijos (seleccionados previamente por el
investigador).
Para cada X, existe un conjunto de valores de Y, que deben seguir
una distribución normal (es decir, los valores de Y deben ser
normales), para aplicar con validez los procedimientos de inferencia
y/o estimación.
Todas las varianzas de las subpoblaciones de Y son iguales.
Usos

1.Para saber cómo se puede comportar un concepto o variable


conociendo el comportamiento de otra variable relacionada.

2.Medir la intensidad o fuerza en la asociación lineal entre


dos variables.

3.-Los datos procedentes de un estudio correlacional entre


variables pueden ser usados para predecir una puntuación.

4.-Para realizar tal predicción, se debe cuantificar la relación entre


las dos variables en términos de una función lineal específica
(recta de regresión). Se expresa como y = a + bx.
Limitantes

Los resultados no indican si existe una relación causa - efecto entre las
variables consideradas. Existen dos razones para no poder validar lo
anterior.

Problema de la tercera variable. No pueden saber si alguna variable


no observada o no considerada está relacionada a cada una de las otras
variables y es el actual agente causal.

Problema de la direccionalidad. Se refiere a la imposibilidad para


demostrar que variable ocurre en primer lugar (cuál fue la causa) y cuál
ocurre en segundo lugar (el efecto).
Precauciones
No se deben de correlacionar mediciones
de una variable hechas en personas o
eventos con mediciones de otra variable
realizadas en otras personas.

Correlaciones espurias. Es el caso de dos


variables aparentemente relacionadas pero que
en realidad no es así.

Para calcular el coeficiente de correlación r de


Pearson, las dos variables deben ser continuas
(cuantitativas).
E-grafía
 Abdel Wahab, M.M. (sf.) Correlación y Regresión. Conferencista sobre
Bioestadística. Instituto Superior de Salud Pública. Universidad de
Alejandría. Consultado el día 30 de septiembre. Disponible en:
http://www.pitt.edu/~super7/49011-50001/49181.ppt
 Hernández, R., Fernández C. y Baptista, P. (2008). Metodología de la
Investigación. México: Mc Graw Hill
 Morales, V. P. (2005). Estadística aplicada a las Ciencias Sociales
Correlación y Covarianza • Universidad Pontificia Comillas • Madrid:
Facultad de Ciencias Humanas y Sociales Departamento de Metodología y
Evaluación Pedro Morales Vallejo

También podría gustarte