Está en la página 1de 6

REGRESIÓN Y CORRELACIÓN

Trataremos distribuciones que tienen dos variables, es decir, dos características en cada
elemento de la muestra.
Por ejemplo, en un grupo de pacientes se toma el nivel de ansiedad y el peso corporal de
cada uno de ellos; se obtiene así para cada paciente sujeto un par de valores. Queremos
estudiar la relación entre ambas variables (nivel de ansiedad y peso corporal), es decir, la
covariación.

Gráfico de dispersión
El primer acercamiento al análisis de la covariación, podemos hacerlo utilizando un gráfico,
llamado ​Diagrama de Dispersión.

Para analizar el índice de masa corporal de un grupo de


pacientes, una nutricionista registra la estatura y el peso
corporal de 20 pacientes.

Estos datos permiten armar un gráfico, que nos orienta a


suponer si existe relación entre las variables. No es un
elemento de análisis concluyente sino orientativo.

Cada par de valores de la tabla se representa con un punto. Si


en el eje X (abscisas) se representan las estaturas y en el eje
Y (ordenadas) los pesos corporales, cada punto corresponde
a la estatura y el peso corporal de una misma paciente.

Veamos el gráfico de dispersión que resulta:

Si con los puntos así ubicados se


puede aproximar una recta, se dice
que la relación es lineal.

El ​método gráfico de análisis de la


covariación es limitado como toda
representación gráfica; no obstante,
puede dar una idea y ayudar a
descubrir el tipo de relación existente
entre dos variables y algunas otras
características.
Distintos diagramas de dispersión.

A. Lineal positiva

Se observa una clara relación ​lineal​, que es ​positiva​:


cuando una variable aumenta, la otra también.

B. Lineal perfecta positiva

La relación es ​lineal positiva y perfecta: ambas


variables crecen y además, los puntos están alineados.

C. Sin relación

No hay relación​: las variaciones de una variable no se


relacionan con las variaciones de la otra.

D. Relación curvilínea / no lineal

Se observa una clara relación, pero que no es lineal. En


este caso, se habla de​ relación curvilínea o no lineal.

E. Lineal perfecta negativa

Se observa una ​relación lineal perfecta​, pero en este


caso, es ​negativa​, pues al aumentar una variable, la otra
disminuye.

F. Lineal negativa

Existe una relación​ lineal y negativa.


Además de contar con este método gráfico, la covariación se estudia analíticamente
mediante otros dos métodos: ​la correlación​ y ​la regresión​.

Mediante ​la regresión​ se busca una expresión matemática que exprese la covariación.
Mediante ​la correlación se busca un número que sirva de indicador del grado de covariación
entre las dos variables.

Coeficiente de correlación lineal


Mediante la fórmula ​“Coeficiente de Pearson”​, obtenemos un número que se llama
coeficiente de correlación lineal, simbolizado con la letra r. Este coeficiente mide el grado de
la relación lineal entre las dos variables consideradas.

El coeficiente de correlación lineal, r, es un


valor que está siempre entre -1 y 1.

El coeficiente de correlación lineal, r, es un


valor que está siempre entre -1 y 1.

Cuando r es 1 o -1 la relación es funcional, es decir, el valor de una de las variables se


determina con seguridad a partir de la otra.
Si r = 1 indica una correlación positiva perfecta
Si r = -1 indica una correlación negativa perfecta.
Si r = 0 indica que no existe correlación lineal, pudiendo existir otro tipo de relación no lineal
entre las variables.
Si las variables son independientes, el coeficiente de correlación lineal será 0; pero un r = 0
no implica independencia.
.
EJEMPLO:
Este resultado indica una correlación alta y positiva entre las variables nivel de comprensión
lectora y calificación promedio del primer año de estudios universitarios.

Coeficiente de determinación
Se define ​coeficiente de determinación como el cuadrado del coeficiente de correlación
lineal. Este coeficiente determina el porcentaje de la variación de la variable “Y” que está
siendo explicada por la variable X mediante el modelo que las vincula.

Obtuvimos r = 0,78, entonces r² = 0,61.

¿Cómo interpretamos este resultado?


El 61% es la representatividad que tiene el modelo lineal para explicar la relación entre la
comprensión lectora y la calificación promedio; es decir, la variación en la calificación
promedio del 1er. año de estudios universitarios queda explicada en un 61% por la variación
en el puntaje de comprensión lectora.

Regresión

Diagrama de dispersión en el ejemplo:


La ubicación de los puntos en el diagrama de dispersión nos lleva a pensar que hay una
relación lineal entre los datos de las dos variables​. Podemos ver que a medida que aumenta
el puntaje de comprensión lectora, mayor es la calificación promedio.
Decimos, entonces, que esta ​relación es positiva o directa porque Y tiende a crecer cuando
crece X. También se observa que los puntos están concentrados a lo largo de una línea
ideal creciente. En el ejemplo que hemos considerado, correspondiente al caso de
dependencia causal unilateral, a pesar de que la comprensión lectora afecte en alguna
medida la calificación promedio, al registrar las observaciones, se obtendrán varios valores
de la calificación promedio con respecto a un valor de la variable comprensión lectora.
Aunque estos valores difícilmente se ajusten con exactitud a una función determinada,
puede ocurrir que los datos se encuentren “concentrados” alrededor de una línea o
simplemente muestran una tendencia lineal más o menos dispersa.

El propósito es encontrar una


línea “ideal” que mejor se
ajuste a los valores medidos
de las observaciones
realizadas, con la cual se
puede estimar una
dependencia exacta entre las
dos variables y condensar la
nube de puntos. Esta línea se
denomina recta de regresión.

También podría gustarte