Está en la página 1de 46

Correlación y Regresión Lineal

Introducción
 Si sobre una población de niños entre 0 y 6 años,
estudiamos las variables peso y estatura, esperamos que en
general ocurra que a mayor estatura también encontremos
mayor peso, aunque es posible que en algunos pocos casos
no ocurra así
 Si un grupo de obreros manufactureros de una fábrica
reciben mensualmente cursos de seguridad industrial, se
puede esperar que los accidentes industriales de esa fábrica
disminuya a lo largo del año.
 Se podría esperar que los estudiantes con mayores
calificaciones en la prueba interna de la Facultad de
Humanidades y Educación, obtenga altas calificaciones en
sus estudios en esa Facultad.
Introducción
Es frecuente que estudiemos sobre un mismo
grupo de sujetos u objetos los valores de dos
variables estadísticas distintas, con el fin de
examinar si existe alguna relación entre ellas, es
decir, si los cambios en una de ellas influyen en los
valores de la otra. Si ocurre esto decimos que las
variables están correlacionadas o bien que hay
correlación entre ellas.
Situación en el Marco Educativo
Un docente desea conocer si el tiempo dedicado al
estudio tiene alguna relación con los resultados de las
evaluaciones en química. Si existe alguna relación
entre estas dos variables podrá establecer los
mecanismos necesarios para ayudar a sus alumnos a
elevar globalmente su nivel de rendimiento en química.
Por ello le pide a sus alumnos que registren el tiempo
dedicado para la preparación del examen (en horas),
mientras que él registrará las calificaciones obtenidas
ellos en el examen de lapso, de manera de
correlacionarlo.
Distribución Bidimensional
Cuando sobre una población estudiamos simultáneamente
los valores de dos variables estadísticas, el conjunto de los
pares de valores correspondientes a cada individuo se
denomina distribución bidimensional o bivariante.

Tiempo
8 12 4 5 7 2 10 14 8 3 2 4 12 4 10
Preparación (x)
Calificaciones
9 14 5 7 10 10 12 18 8 2 8 6 17 5 13
Química (y)
Representación gráfica
¿Cómo sabemos si las Variables están relacionadas?

 Una forma sencilla de indagar si entre dos


variables, X e Y, existe relación lineal consiste en
la realización de un gráfico en el que aparecen las
dos variables en forma conjunta.
 Este gráfico se realiza en un sistema de
coordenadas cartesianas de forma que, en cada
uno de ellos, se represente una de las dos
variables. Para cada par de valores (x,y), se
dibuja un punto con las correspondientes
coordenadas
Representación gráfica
¿Cómo sabemos si las Variables están relacionadas?

Relación no lineal Posible relación lineal

Posible relación lineal No hay relación lineal


Representación gráfica
Diagrama de
Dispersión

El gráfico sugiere la posible De acuerdo con el gráfico


existencia de una relación es posible que entre las
lineal directa entre las variables exista una relación
variables lineal inversa
Representación gráfica
Cuando entre dos variables hay una relación lineal, la nube de
puntos suele tener una forma alargada (tendencia a la linealidad)

En la relación lineal directa, en En la relación lineal inversa, en


general, valores altos de la variable general, los valores altos de la
X se asocian con valores altos de la variable X se asocian con valores
variable Y, valores bajos de X se bajos de la variable Y, mientras que
emparejan con valores bajos de Y. valores bajos de X se asocian con
valores altos de Y.
En ambas relaciones los valores intermedios se asocian con intermedios.
Coeficiente de Correlación Lineal de Pearson
Una medida de la intensidad de asociación de las variables
¿Cómo saber cuales son valores altos y cuáles bajos?

–+ xi  x
++ yi  y
y
yi  y ––
xi  x +–
x

Valores altos xi  x  0 Valores bajos xi  x  0


yi  y  0 yi  y  0
Coeficiente de Correlación Lineal de Pearson
Tipos de Relaciones lineales
– + Zona II ++ Zona I ++ Zona I
– + Zona II

+ – Zona IV
– – Zona III + – Zona IV – – Zona III

En la relación lineal positiva En la relación lineal negativa


la mayoría de los puntos se la mayoría de los puntos se
ubican en las zonas I y III. ubican en las zonas II y IV.
Relación lineal positiva Relación lineal negativa
n n
 ( xi  x )( yi  y )  0  ( xi  x )( yi  y )  0
i 1 i 1
Coeficiente de Correlación Lineal de Pearson
n
 La expresión  ( xi  x )( yi  y ) ayuda a establecer el sentido de la
1
relación y su imagnitud, pero no considera el número de
parejas. Una medida completa es el promedio de los
productos de puntajes
n
 ( xi  x )( yi  y )
i 1 Covarianza
n
 La Covarianza mide la variación conjunta de las variables
consideradas, el modo en que covarían. Si es positiva la
covarianza entre X e Y, existirá una relación lineal positiva
entre ellas. Si la covarianza es negativa, existirá una relación
lineal inversa entre X e Y. Si la covarianza es cero, no
existirá relación lineal alguna entre ellas.
Coeficiente de Correlación Lineal de Pearson
 Tal como está planteada la covarianza presenta tres
problemas:
– Se expresa en el producto de las unidades de las variables
– No está acotada, puede tomar cualquier valor.
– No considera la dispersión o variabilidad de cada grupo
n
 ( xi  x )( yi  y ) Coeficiente de
1 n correlación de Pearson
r   z x z y  i 1
n i 1 sx s y n o Producto Momento

 Se divide entre la desviación estándar (número positivo),


entonces el signo de la expresión se mantiene, sin embargo,
la fluctuación de los valores cambia. El coeficiente de
correlación de Pearson sólo puede tomar valores entre +1 y
– 1, ambos inclusive.
Coeficiente de Correlación Lineal de Pearson

–1<r<0 0<r<+1

r=–1
r=+1
Coeficiente de Correlación Lineal de Pearson

 r es un número sin dimensiones que varía entre -1 y 1, ambos


inclusive. En el intervalo [– 1, +1], valores notables de r son:
+1.0 (correlación lineal positiva perfecta); 0.0 (correlación
lineal nula); -1.0 (correlación lineal negativa perfecta)
 Se utiliza cuando las dos variables son de tipo cuantitativo el
coeficiente de correlación
 Sólo indica que dos o más variables varían en forma conjunta:
la correlación en sí misma sólo sirve como índice del grado de
relación.
 El coeficiente aislado es simplemente un índice muy útil, no
una escala de medición real. Como medida de relación lineal, r
se ubica en una escala ordinal.
Visualización Coeficiente de Correlación Lineal de Pearson

Programado por Erich Neuwirth

target value 0,72


3
empirical
(data) value 0,75305
2

1
Desplace la
barra para
0
cambiar la
-3 -2 -1 0 1 2 3
correlación
-1

-2

-3
Visualización Coeficiente de Correlación Lineal de Pearson
Interpretación de r
 En la interpretación del resultado del coeficiente de
correlación Pearson hay que considerar tanto el signo como
la magnitud.
 El signo se indica el tipo de tipo de relación. Un r positivo
indica la tendencia a aumentar los valores de Y cuando
aumentan los de X, y a disminuir los valores de Y cuando
disminuyen los de X .
 Un r negativo señala la tendencia a disminuir los valores de
Y cuando aumentamos los de X y a aumentar los de Y
cuando disminuimos los de X.
 Un coeficiente de correlación en torno a cero indica que el
modelo de relación lineal entre esas variables no es válido.
Interpretación de r
Para la interpertación de la magnitud del coeficiente usualmente se
encuentran tablas que orientan sobre ese tema.
Tablas para la interpretación de r
Guilford (1956)
<0.20 correlación muy baja; relación casi insignificante
0.20 - 0.40 correlación baja; relación definida pero pequeña
0.40 - 0.70 correlación moderada; relación considerable
0.70 - 0.90 correlación elevada; relación notable
>0.90 correlación sumamente elevada; relación muy fiable
Fox (1981)
± 0.50 o menos: correlación baja => apenas 25% de varianza común
± 0.50 a ± 0.70: correlación moderada => 25% a 50% de varianza común
± 0.70 a ± 0.86: correlación alta => 50% a 75% de varianza común
± 0.86 o más: correlación muy alta => más del 75% de varianza común
Interpretación de r
 Para juzgar la magnitud de r es necesario considerar
la situación donde se calcula el coeficiente.
 Una relación que se considera como alto en una
situación puede parecer relativamente normal en
otra. Ej. Test de inteligencia – validez predictiva
 La interpretación de la magnitud de una correlación
con frecuencia es subjetiva Una posibilidad es
comparar con los resultados habitualmente
obtenidos en investigaciones similares.
Interpretación de r
 Otra opción para interpretar r es utilizar r2 ayuda a tener
una idea más clara de lo que implica un valor de r
 r2 es la proporción de varianza que tienen en común las
dos medidas respecto a la varianza total de ambas
variables. r2 se conoce como Coeficiente de
Determinación
 El porcentaje de varianza compartida es una estimación
de la eficacia predictiva de los datos en estudio .
 La diferencia 1 – r2 se denomina Coeficiente de
Alienación, implica la presencia de otras variables no
contempladas en este estudio
Interpretación de r
Relación entre r y r2
Análisis de Correlación Lineal

 Análisis lógico entre las variables. ¿Es autentica la


relación entre estas variables? ¿Tiene lógica esa relación?
 Análisis Estadístico de las Variables ¿Cuál es el nivel
de medición y la escala donde se ubican las variables?
–Si las dos variables son de tipo cuantitativo, se debe realizar el
diagrama de dispersión
 Cálculo del coeficiente de correlación adecuado
¿Cuál es el coeficiente de correlación adecuado según el
nivel de medición y la escala donde se ubican las
variables?
 Interpretación del coeficiente de correlación
Ejemplo de Correlación Lineal
A continuación tenemos las estaturas en centímetros (muestra x) y el
peso en kilogramos (y) de 10 niños de 6 años.
Niño/a x y x2 y2 xy
1 121 25 14641 625 3025
2 123 22 15129 484 2706
3 108 19 11664 361 2052
4 118 24 13924 576 2832
5 111 18 12321 324 1998
6 109 19 11881 361 2071
7 114 20 12996 400 2280
8 103 15 10609 225 1545
9 110 20 12100 400 2200
10 115 21 13225 441 2415
1132 203 128490 4197 23124
Ejemplo de Correlación Lineal
A continuación tenemos las estaturas en centímetros (muestra x) y el
peso en kilogramos (y) de 10 niños de 6 años.
n x y x2 y2 xy
10 1132 203 128490 4197 23124

n  xy    x  y 
r xy 
n x 2
   x  n  y    y  
2 2 2

10 * 23124  1132 * 203


rxy   0,8878
10 * 128490 1132 10 * 4197  203 
2 2
Correlaciones Espurias
 Una correlación espuria es aquella que es
conceptualmente falsa, sin sentido o
teóricamente sin sentido.
 En ocasiones la correlación espuria se debe a
factores diferentes de aquellos que se están
midiendo. La relación entre dos X e Y se
considera espuria si su covariación no surge de
una interconexión entre ellas, sino del hecho de
que una de ellas (o ambas) está relacionada con
una tercera variable o combinación de variables.
Correlación y Causalidad
 La existencia de una correlación no implica que
necesariamente deba existir una relación causal. Por
relación causal se entiende que si X e Y están
correlacionados, entonces X es en parte la causa de Y, o Y
es en parte la causa de X.
 En Educación raramente se supone que la presencia de
una correlación entre dos variables implica una relación
causal. En muchos casos dos variables están
correlacionadas porque a su vez lo están con otra u otras
subyacentes. Ej. Tiempo dedicado al estudio y los
resultados de las evaluaciones en Lengua. Correlación
directa. Posible variables subyacentes: capacidad individual,
tecnicas de estudio, entorno familiar, motivación, etc.
Aplicaciones Coeficiente de Correlación

 Una de las aplicaciones más importantes de los


coeficientes de correlación es la determinación de
la validez y la confiabilidad de instrumentos de
medición en la educación.
 En las ciencias sociales y la educación, en general
no se cuenta con instrumentos de medición únicos
y universales. Por lo tanto los instrumentos que se
utilicen necesitan contar con la validez y
confiabilidad suficiente como para que los
resultados que produzcan sean de calidad y
permitan obtener conclusiones válidas
Aplicaciones Coeficiente de Correlación

 Validez. Cuando se trata de obtener la validez de un


instrumento de medición es importante que entre los resultados
obtenidos a partir de él y otro criterio de valoración ya probado,
exista una correlación positiva. La obtención de una alta
correlación positiva se considera lo apropiado para otorgarle
validez a los resultados que arroja ese instrumento.
 Confiabilidad. Se refiere a la estabilidad de los resultados
cuando el instrumento es aplicado de nuevo, bien por la misma
persona al mismo objeto en diferente tiempo, o por otro
investigador. Esto indica que al realizar una medición y al cabo
de un cierto tiempo se aplica nuevamente el instrumento de
medición, las dos series de valores deben correlacionar
positivamente con una alta magnitud. Esto indicará que existe
confiabilidad en los resultados logrados con el instrumento.
Regresión Lineal

 Si se encuentra que entre las variables tiempo


dedicado al estudio y resultados de las evaluaciones
en Lengua presentan una alta relación lineal, ¿será
posible utilizar esa relación para conocer posible
valores de una variable en función de la otra?
 Si existe una alta correlación entre los resultados de
la Prueba de Ingreso a la Universidad (PIU) y el
rendimiento de los estudiantes durante sus estudios
universitarios, ¿Se podrán utilizar los resultados de
la PIU para seleccionar a los estudiantes en sus
estudios universitarios?
Regresión Lineal
 Aun cuando se sabe que la correlación no implica
causalidad, nada impide utilizar esa fuerte relación
entre las mediciones para intentar predecir una de
las variables basándose en la otra.
 La alta correlación entre las variables indica que
ellas tienen una fuerte relación lineal. La expresión
matemática de la recta en el plano tiene dos
variables, x e y, al darle un valor a una de ellas se
determina el valor de la otra.
 ¿Es posible hallar una recta que se “ajuste” a las
mediciones consideradas en el análisis de
correlación?
Regresión Lineal
 Es posible encontrar más de una recta que describa
la relación existente entre los datos

 El problema es cuál es la mejor. ¿Cuál de todas las


rectas posibles es la más adecuada para predecir
una variable en función de la otra, con cierta dosis
de seguridad?
Regresión Lineal
 Se necesita una recta que permita predecir los los
valores de una variable en función de la otra. Por lo
tanto la mejor recta será aquella donde el error
“estimación” sea el menor.
Si la recta que permite predecir y (variable
dependiente) en función de x (variable independiente)
es de la forma
y´ a yx  b yx x
 Cada vez que se calcule un valor y'i a través de la
recta seccionada, se incurre en un error que será
igual a la diferencia entre el valor real yi y el
estimado y'i.
Regresión Lineal
La mejor recta será aquella donde
n
 ( yi  y´i ) 2
i 1 Sea mínimo
n
La recta que cumple con esa condición es aquella que
tiene como coeficientes:
n  xy   x  y a yx  y  b yx x
b yx 
n  x 2  (  x )2
Las constantes a y b se determinan de modo que el
promedio de los errores al cuadrado que se comete al
estimar los valores de la variable sea mínimo. Por ello se le
conoce como el método de los mínimos cuadrados. La
recta así definida es la recta de regresión de y sobre x.
Regresión Lineal
La recta que permite predecir valores de x en función
de los valores de y es:
x´ a xy  bxy y
Cuyos coeficientes son:
n  xy   x  y
bxy 
n  y 2  (  y )2
a xy  x  bxy y

La recta así definida es la recta de regresión de x sobre y.


Regresión Lineal
 Si el coeficiente de correlación es 1 ó -1 las dos rectas coinciden,
puesto que entonces las observaciones tienen una relación lineal
perfecta. Están sobre una línea recta que naturalmente es la de
regresión. Por el contrario, si r = 0 entonces las dos rectas de
regresión son perpendiculares entre sí y paralelas a cada uno de los
ejes de coordenadas puesto que sus ecuaciones serían

r = +1 – 1 < r <+1

r=0
Error Estándar de Estimación
Una medición del Error
 Salvo en el caso de que el módulo de r sea 1 (si r = 1
o r = -1), cuando se estiman valores de la variable
dependiente utilizando la recta de regresión siempre
se incurre en errores.
 Una medida del error en el que puede incurrir se
puede calcular con:
' 2
s xy 
 ( yi  yi )
Error de Estimación
n
 Este índice es una medida del error promedio
cometido cuando se estima una variable a partir de
otra, no indican que siempre se cometerá ese error,
en algunos casos será mayor y en otros menor.
Error Estándar de Estimación
y

y – y´
y´- y
y
y  y  ( y  y)  ( y  y )

x
xi
VEx  ( y   y ) 2
VnoEx  ( y  y ) 2
r2   k2  
VT  ( y  y)2 VT  ( y  y)2
Ejemplo de Regresión

Niño/a x y xy x2 y  Ayx  Byx x


1 121 25 3025 14641
2 123 22 2706 15129
n  xy   x  y
3 108 19 2052 11664 B yx 
n  x   x 
2 2
4 118 24 2832 13924
5 111 18 1998 12321
6 109 19 2071 11881
A yx  y  B yx x
7 114 20 2280 12996
8 103 15 1545 10609
9 110 20 2200 12100
10 115 21 2415 13225
1132 203 23124 128490
Ejemplo de Regresión
n x y x2 xy x y
10 1132 203 128490 23124 11,32 20,3

n  xy   x  y
B yx 
n  x   x 
2 2

10 * 23124  1132 * 203


B yx   0,4154
10 * 128490  (1132) 2

A yx  y  B yx x
A yx  20,3  ( 0,4154) * 11,32  27,38
y   A yx  B yx x y   27,38  0,4154x
Otros Coeficientes de Correlación
Casos Especiales de r de Pearson
Spearman
 El coeficiente de correlación por rangos Spearman, rs
o , mide la fuerza de la relación lineal entre dos
variables cuando ambas se ubican en un escala de
medición ordinal. Ej. Nivel satisfacción con la carrera
que cursó y Orden en la promoción de graduación.
6 d i2
  1
n(n 2  1)
  más que la relación entre las variables X e Y, lo que
mide es la relación entre los ordenes de las dos
variables
 Su valor se encuentra acotado, - 1 <  < +1.
 Su calculo es sencillo.
 Cuando no hay empates es igual a r
Otros Coeficientes de Correlación
Casos Especiales de r de Pearson
Coeficiente phi
 El coeficiente  mide la fuerza de la relación lineal
entre dos variables nominales cuando ambas son
dicotómicas. Puede utilizarse con variables continua
dicotomizadas, p.e.cuando las puntuaciones de una
prueba se dividen por la mediana.
ad  bc

n1 n 2 n3 n 4

 Donde a, b. c y d representa frecuencias de una tabla de


2x2 y ni son los totales marginales de la ella.
 Es útil cuando se desea conocer la relación ítem – ítem.
Otros Coeficientes de Correlación
Casos Especiales de r de Pearson
Punto Biserial o Biserial Puntual
 El coeficiente de correlación punto biserial, rpb , se mide
la fuerza de la relación lineal entre dos variables, cuando
una de las variables es dicotómica y la otra por lo menos
se encuentra a escala de intervalo.
x p  xq
rbp  pq
sx
 rpb será mayor en cuanto más difieran los valores de x que
presenta la característica a (proporción p) de los valores de
x que presentan la característica b (proporción q).
 Es muy útil para el análisis de ítem cuando estos se
califican como correcto e incorrecto y se relacionan con la
puntuación del test o prueba. El resultado de r es un indice
del poder discriminativo del item
Otros Coeficientes de Correlación
Coeficiente de Contingencia
 Este coeficiente permite determinar el grado de
asociación entre dos variables categóricas, las cuales se
han dividido en más dos o más categorías
SN (Oij ) 2
C con S  
S eij
 El valor de C depende de la comparación de las
frecuencias observadas con las esperadas. La magnitud de
C depende de cuanto se apartan las frecuencias observadas
de las esperadas. A mayor diferencia mayor valor de C
 0 <C<1. Esto complica la interpretación del coefiente ya
el calculo no indica la dirección de la relación, la cual debe
deducirse de la tabla de contingencia
Otros Coeficientes de Correlación
Coeficiente de Contingencia
 El valor de C depende de la comparación de las
frecuencias observadas con las esperadas. La magnitud de
C depende de cuanto se apartan las frecuencias observadas
de las esperadas. A mayor diferencia mayor valor de C
 Si la tabla de contingencia tiene igual número de
columnas que filas, se puede calcular el valor máximo de
C. Si k es el número de filas (o columnas) el valor
máximo de C es
(k  1)
C max 
k
Coeficientes de Correlación
COEFICIENTE VARIABLE X VARIABLE Y

PEARSON Intervalo ó razón Intervalo ó razón

SPEARMAN Ordinal Ordinal

PHI Dicotómica Dicotómica


CONTINGENCIA Múltiple Múltiple

PUNTO BISERIAL Intervalo ó razón Dicotómica

También podría gustarte