Está en la página 1de 6

REGRESION LINEAL

Introduccin
Resulta comn or frases como:

los sujetos ms frustrados son tambin ms agresivos;

niveles altos de colesterol en sangre suelen ir acompaados de dietas


alimenticias ricas en grasas;

sujetos muestran ms inters por una tarea cuanto mayor es el tamao


de la recompensa que reciben.

En todos estos ejemplos se habla de la relacin entre dos variables. En esta


conferencia se estudian algunos ndices estadsticos que permiten cuantificar
el grado de relacin existente entre dos variables.

Desarrollo

Correlacin positiva

Correlacin negativa

La primera figura muestra una situacin en la que a medida que aumentan las
puntuaciones en una de las variables, mayores son tambin las puntuaciones
en la otra; cuando ocurre esto, los puntos se sitan en una lnea recta
ascendente y hablamos de relacin lineal positiva. La segunda figura
representa una situacin en la que en la medida en que aumentan las
puntuaciones en una de las variables, menores son las puntuaciones en la
otra. En este caso, los puntos se sitan en una lnea recta descendente y se
tiene entonces una relacin lineal negativa.

No correlacin lineal (pudiera ser curvilnea)

No correlacin lineal

En la situacin representada en la tercera figura tambin existe una pauta de


variacin clara, pero no es lineal: los puntos no dibujan una lnea recta. Y en la
ltima figura no parece existir ninguna pauta de variacin clara, lo cual queda
reflejado en una nube de puntos dispersa, muy lejos de lo que podra ser una
lnea recta.

Coeficiente de correlacin
r

Cov x, y

S x S y

xi x yi y
N 1 S x S y

r 1 dos variables positivamente correlacionadas

r 1 dos variables negativamente correlacionadas

r 0 indica que no existe una relacin lineal entre esas variables

Antes de realizar cualquier anlisis de correlacin se recomienda plotear los


datos y analizar el diagrama de dispersin. De esta forma pudieran obtenerse
outliers que afectan el valor de r.

Tipos de coeficientes de correlacin


1. Coeficiente de correlacin de Pearson: El coeficiente de correlacin de
Pearson (1896) es, quiz, el mejor coeficiente y el ms utilizado para
estudiar el grado de relacin lineal existente entre dos variables
cuantitativas. Se suele representar por r y se obtiene tipificando el
promedio de los productos de las puntuaciones diferenciales de cada
caso (desviaciones de la media) en las dos variables correlacionadas.
El coeficiente de correlacin de Pearson toma valores entre -1 y 1. Un
valor de 1 indica relacin lineal perfecta positiva; un valor de -1 indica
2

relacin lineal perfecta negativa (en ambos casos los puntos se


encuentran dispuestos en una lnea recta); un valor de 0 indica relacin
lineal nula. El coeficiente r es una medida simtrica: la correlacin entre
X e Y es la misma que entre Y y X.
2. Coeficiente de correlacin Tau-b de Kendall: Este coeficiente de
correlacin es apropiado para estudiar la relacin entre variables
ordinales. Se basa en el nmero de inversiones y no inversiones entre
casos. Toma valores entre -1 y 1, y se interpreta exactamente igual que
el coeficiente de correlacin de Pearson.
La utilizacin de este coeficiente tiene sentido si las variables no
alcanzan el nivel de medida de intervalo y/o no podemos suponer que la
distribucin poblacional conjunta de las variables sea normal.
3. Coeficiente de correlacin de Spearman: El coeficiente de correlacin
rho de Spearman (1904) es el coeficiente de correlacin de Pearson,
pero aplicado despus de transformar las puntuaciones originales en
rangos. Toma valores entre -1 y 1, y se interpreta exactamente igual que
el coeficiente de correlacin de Pearson.
Al igual que ocurre con el coeficiente tau-b de Kendall, el de Spearman
puede utilizarse como una alternativa al de Pearson cuando las variables
estudiadas son ordinales y/o se incumple el supuesto de normalidad.

Regresin lineal simple


El coeficiente de correlacin estudia la posible relacin lineal dos variables
aleatorias. Por ejemplo el grfico siguiente sugiere la existencia de una
correlacin positiva entre la X y la Y.

Coeficiente
de
correlacin
CORREL(A2:A21,B2:B21)

de

Pearson:

r=0.9977

En

Excel:

Este es el modelo lineal que mejor ajusta esa nube de puntos.


Planteamiento del problema de la regresin en forma general
El caso ms simple, frecuente en la prctica, es aquel en que las funciones f j
son lineales, o sea, se buscan coeficientes k tales que:
y j 1 x1 2 x 2 n x n

donde

representa el error de estimacin.

Mtodo de los mnimos cuadrados para resolver el problema de la


regresin lineal simple
4

Se quiere obtener la ecuacin que mejor ajuste la nube de puntos, o


sea una ecuacin de la forma: y a bx . FUNCION DE REGRESION
TENERLA PRESENTE!!!
Los estimadores hallados son estimadores mnimos cuadrticos de los
parmetros originales. Ellos cumplen varias propiedades, como por ejemplo
son insesgados.
Coeficiente de determinacin R 2
El coeficiente de determinacin representa la proporcin de la varianza total
que es explicada por la regresin.
0 R 2 1 R 2 es una medida que puede utilizarse para determinar si se ha

hecho un buen ajuste de X e Y.


Por ejemplo, si R 2 0.90 puede afirmarse que el 90% de la varianza total es
explicada por la suma de cuadrados de la regresin, por lo tanto existe una
fuerte relacin entre X e Y.
El valor del R 2 aumenta en la medida en que se incrementan las variables en
el modelo. Por tanto, no es correcto comparar el valor del R 2 de dos
regresiones con un nmero de variables explicatorias diferentes.
Supuestos del modelo de regresin lineal
1. Linealidad: La ecuacin de regresin adopta una forma particular. En
concreto, la variable dependiente es la suma de un conjunto de
elementos: el origen de la recta, una combinacin lineal de variables
independientes o predictoras y los residuos. El incumplimiento del
supuesto de linealidad suele denominarse error de especificacin.
Algunos ejemplos son: omisin de variables independientes importantes,
5

inclusin de variables independientes irrelevantes, no linealidad (la


relacin entre las variables independientes y la dependiente no es
lineal), parmetros cambiantes (los parmetros no permanecen
constantes durante el tiempo que dura la recogida de datos), no
aditividad (el efecto de alguna variable independiente es sensible a los
niveles de alguna otra variable independiente), etc.
2. Independencia. Los residuos son independientes entre s, es decir, los
residuos constituyen una variable aleatoria (recordemos que los
residuos son las diferencias entre los valores observados y los
pronosticados). Es frecuente encontrarse con residuos
autocorrelacionados cuando se trabaja con series temporales.
3. Homocedasticidad. Para cada valor de la variable independiente (o
combinacin de valores de las variables independientes), la varianza de
los residuos es constante.
4. Normalidad. Para cada valor de la variable independiente (o
combinacin de valores de las variables independientes), los residuos se
distribuyen normalmente con media cero.
5. No-colinealidad. No existe relacin lineal exacta entre ninguna de las
variables independientes. El incumplimiento de este supuesto da origen
a colinealidad o multicolinealidad.