Está en la página 1de 7

TEÓRICO: REGRESIÓN

El coeficiente de correlación y la regresión lineal simple son las dos técnicas


estadísticas más utilizadas para investigar la relación entre dos variables
continuas X e Y. La correlación pertenece a la Estadística Descriptiva y la
regresión a la Estadística Inferencial.
Regresión Lineal Simple
Es un modelo matemático para estimar el efecto de una variable sobre otra. Está
asociado con el coeficiente r de Pearson.
La regresión sirve para describir cómo es la relación entre dos variables X e Y,
de tal manera que nos permite hacer predicciones sobre los valores de la
variable Y, a partir de los de X. Cuando la correlación entre ambas variables es fuerte,
la regresión nos ofrece un modelo estadístico que puede alcanzar finalidades
predictivas.
Es la estimación de una recta que mejor se ajusta a las observaciones. Esta recta
se obtiene aplicando el criterio de los cuadrados mínimos, lo que significa que la
suma de las distancias de cada punto a la recta teórica, elevados al cuadrado,
será un valor mínimo.

Tenemos que tener los siguientes supuestos:

1.-Que la muestra haya sido tomada al azar de la población (Muestreo


probabilístico)

2.-Que las dos variables se distribuyan normalmente.

La regresión supone que hay una variable fija, controlada por el investigador (es
la variable independiente o predictora, variable X), y otra que no está controlada
(variable respuesta o dependiente, variable Y). La correlación supone que
ninguna es fija: las dos variables están fuera del control de investigador.
Podemos ver en un ejemplo el objetivo de la regresión, supongamos que un
investigador administró un test de inteligencia y hallo el Coeficiente Intelectual
(CI) de un grupo de alumnos, esta sería la variable independiente o predictora
(X) y quiere predecir el rendimiento de los alumnos en una prueba de
Razonamiento Lógico, esta es la variable dependiente o respuesta (Y). Dicho de
otra manera el investigador a través del conocimiento del CI puede predecir el
rendimiento de los alumnos en la prueba de Razonamiento Lógico. Es importante
saber que las predicciones que se realizan no son para los sujetos de las
muestras que conocemos, sino para cualquier sujeto perteneciente a la misma
población.

Se trata de una técnica estadística que analiza la relación entre dos variables
cuantitativas, tratando de verificar si dicha relación es lineal. Si tenemos dos
variables hablamos de regresión simple, si hay más de dos variables regresión
múltiple.
¿A qué llamamos relación lineal entre dos variables?
Una relación lineal es una tendencia en los datos que se puede expresar
mediante una línea recta.
Cuando ambas variables aumentan o disminuyen simultáneamente a un ritmo
constante, existe una relación lineal positiva. Cuando una variable aumenta
mientras la otra variable disminuye, existe una relación lineal negativa.

Relación lineal positiva fuerte. El coeficiente de


correlación de Pearson para esta relación es +0,921.

Relación lineal negativa fuerte. El coeficiente de


correlación de Pearson para esta relación es -0,968

Relación lineal negativa débil. Los puntos de los


datos parecen estar distribuidos de manera aleatoria. No se encuentran cerca de
la línea, lo que indica una relación muy débil, si existe alguna. El coeficiente de
correlación de Pearson para esta relación es −0.253.

Relación lineal perfecta positiva. Los pares


ordenados están ubicados sobre una línea recta. El coeficiente de correlación de
Pearson para esta relación es +1.
Relación lineal perfecta negativa. Los pares
ordenados están ubicados sobre una línea recta. El coeficiente de correlación de
Pearson para esta relación es -1.
En un grupo de personas observamos los valores que toman las variables
X = altura medida en centímetros, Y=peso medido en kilogramos, sabemos que
hay relación entre ambas variables. Conocida la altura de un individuo, no
podemos determinar de modo exacto su peso (dos personas que miden 1, 70m
pueden tener pesos de 60 y 65 kilos). Sin embargo, alguna relación entre ellas
debe existir, ya que parece más probable pensar que un individuo de 2m pese
más que otro que mida 1,60m.
Una vez que hemos hecho el diagrama de dispersión y después de observar una
posible relación lineal entre las dos variables, nos proponemos encontrar la
ecuación de la recta que mejor se ajuste a la nube de puntos. Esta recta se
denomina recta de regresión. Es la estimación de una recta que mejor se ajusta
a las observaciones. Esta recta se obtiene aplicando el criterio de los cuadrados
mínimos, lo que significa que la suma de las distancias de cada punto a la recta
teórica, elevados al cuadrado, será un valor mínimo.

Nos basamos para realizar la predicción en la ecuación de la recta: Y = a + b.x,


donde Y es un valor de la variable dependiente, que se desea predecir, “a” es la
ordenada en el origen (distancia donde la recta corta el eje Y desde el origen).
“b” la pendiente y “x” la valor de la variable independiente.

Interpretación de la ordenada en el origen a:


a: representa la estimación del valor de Y cuando X es igual a cero.

Interpretación de la pendiente de la recta b:


𝐒𝐲
Cuando b toma la forma 𝒃 = se llama coeficiente de regresión
𝐒𝐱

El coeficiente de regresión es muy importante, porque mide el cambio de la


variable Y por cada unidad de cambio de la variable X. Este parámetro nos
informa de cómo están relacionadas las dos variables en el sentido de que nos
indica si es positiva o negativa y en qué cantidad varían los valores de Y cuando
varían los valores de la X en una unidad. De hecho el coeficiente de regresión b
y el coeficiente de correlación r siempre tendrán el mismo signo.
 Si b > 0, cada aumento de X se corresponde con un aumento de Y;
 Si b < 0, Y decrece a medida que aumenta X

En el teórico de Correlación habíamos dado el siguiente ejemplo:


En un curso de Introducción a la Psicología, un profesor administra dos
exámenes. El profesor quiere determinar si las calificaciones de los estudiantes
en el segundo examen están correlacionadas con las calificaciones del primero.
Para facilitar los cálculos, se elige una muestra de ocho estudiantes. Sus
calificaciones aparecen en la siguiente tabla:

Alumnos Nota Examen 1 Nota Examen


1 9 10
2 8 9
3 6 9
4 7 8
5 6 6
6 5 7
7 4 5
8 3 2

Mx=6 ptos Sx=1,87 ptos


My=7 ptos Sy=2,44 ptos
r=0,90

Hay dos rectas de regresión Yx (variable independiente X; variable dependiente


Y) y la recta Xy (variable independiente Y; variable dependiente X).
Sy
𝑌𝑥 = r (𝑥 − 𝑀𝑥) + 𝑀𝑦 Cuando x es la variable independiente e y la variable
Sx
dependiente.

Sx
𝑋𝑦 = r (𝑦 − 𝑀𝑦) + 𝑀𝑥 Cuando y es la variable independiente x la variable
Sy
dependiente.

Gráfico: Diagrama de Dispersión y Recta de Regresión (en Excel)

DIAGRAMA DE DISPERSIÓN
12
y = 1,1786x - 0,0714
10 R² = 0,8103

8
EXAMEN 2

0
0 2 4 6 8 10
EXAMEN 1

La ecuación de la recta de regresión es: y=1,17x-0,0714

Vamos a comprobarlo con la fórmula de la recta de regresión de los cuadrados


mínimos, cuando x es la variable independiente e y es la variable dependiente.
Sy
𝑌𝑥 = r (𝑥 − 𝑀𝑥) + 𝑀𝑦
Sx

Y=variable dependiente (la que voy a predecir)


r=coeficiente de correlación de Pearson
Sy=desvío estándar de y
Sx=desvío estándar de x
X=variable independiente (la que controla el investigador)
Mx=media aritmética de x
My= media aritmética de y

2,44
Resolución Y = 0,90 (𝑥 − 6) + 7
1,87

2,44
1-b=0,90 =1,17 es la pendiente de la recta
1,87
2-Aplico la propiedad distributiva y multiplico 1,17.X, queda 1.17x
1,17. (-6)=-7,02+7=-0,02

La ecuación de la recta calculada por fórmula es:

Y=bx-a Y=1,17x-0,02

(La diferencia con los valores hallados con Excel es por un tema de redondeo)

Habíamos visto más arriba que las predicciones que se realizan no son para los
sujetos de las muestras que conocemos, sino para cualquier sujeto
perteneciente a la misma población.

Por ejemplo quiero saber qué valor tendrá en Y (Examen 2) una persona que
obtuvo 2 ptos. en X (Examen 1)

Ecuación de la recta: Y=1,17x-0,02 reemplazo x por 2

Y=1,17.2-0,02=2,32

Y=2,32 ¿Cómo se interpreta? Cuando X vale 2 ptos. Y estimado vale 2,32


ptos.

Uno de los objetivos más importantes de la regresión es la


aplicación del modelo para el pronóstico del valor de la variable dependiente
(Y) para un valor de la variable independiente (X) no observado en la muestra.

Un aspecto importante a la hora de aplicar el modelo de regresión obtenido es el


riesgo de la extrapolación. Es decir, cuando queremos conocer el valor que
presentará la variable Y para un determinado valor de X que se encuentre fuera
del intervalo de valores que toma la muestra, tenemos que ir con mucho cuidado:

a. Hemos determinado el modelo con la información contenida en la muestra, de


manera que no hemos tenido ninguna información del comportamiento de la
variable Y para valores de X de fuera del rango de la muestra.

b. Es posible que no tenga sentido la extrapolación que queremos hacer. Antes


de utilizar el modelo de regresión, debemos preguntarnos por lo que estamos
haciendo. Por ejemplo, no tendría ningún sentido utilizar el modelo de regresión
para calcular el peso de personas de diez centímetros o en el caso de nuestro
ejemplo donde las calificaciones están comprendidas entre 1 y 10 reemplazar
por 15 para predecir el valor de Y.

Si la correlación no es perfecta siempre se va a cometer un error en el valor


estimado, es posible determinar el error que se puede cometer en la predicción
realizada, para ello se debe determinar el ERROR ESTÁNDAR DE LA
ESTIMACIÓN PREDICTIVA. Este valor (para estimar Y a partir de X, siendo la
variable independiente X) es:
S(est.y)=Sy +- √1-r2
En nuestro ejemplo habíamos planteado que cuando X vale 2 ptos. Y estimado
vale 2,32 ptos. Dijimos que la correlación era de 0,90, es una correlación muy
alta pero no perfecta (1) por lo tanto vamos a cometer un error en la predicción
de Y
S (est.y)=2,44 √1-0,81 2,44. 0,43=1,05
Al valor de Y estimado le sumamos y restamos una vez el error de estimación
predictiva:
Y=2,32 + 1,05=3,37
Y=2,32 - 1,05=1,27
Por lo tanto el valor de Y estimado estará entre 1,27 ptos y 3,37 ptos. , en el
68,34% de los casos.
Entonces, si conocemos el desvío de la variable dependiente (Sy) y el coeficiente
de correlación (r), podemos calcular el error estándar de la estimación predictiva.
Es decir que el valor calculado de y estará en un 68,34% de los casos entre Y
S (est y)
Con este error estándar conocido es posible determinar el camino crítico (dos
líneas de puntos alrededor de la recta de regresión). Me permite calcular entre
qué valores estará cualquier valor que estoy prediciendo.

68,34%

y(correg) = y + Sest y

Para un valor y(correg) = y -Sest y


de x conocido

También podría gustarte