Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion PDF
Regresion PDF
En lo que respecta al papel que juegan las variables en el modelo, mientras que en el anlisis de la
relacin entre dos variables no se asuma un rol especfico para las variables implicadas (rol
simtrico de las variables), la aplicacin de un modelo predictivo supone que una de las 2 variables
adopta el papel de variable explicativa y la otra el de variable de respuesta y es, por tanto, que se
dice que las variables adoptan un rol asimtrico.
En la literatura estadstica se han planteado diferentes tipos de modelos predictivos que han dado
respuesta a las caractersticas (escala de medida, distribucin...) de las variables que pueden
aparecer implicadas en un determinado modelo. El ms conocido es el modelo de regresin lineal
(variable de respuesta cuantitativa), si bien, otras opciones a tener en cuenta son el modelo de
regresin logstica (variable de respuesta categrica) o el modelo de Poisson (variable de respuesta
cuantitativa con distribucin muy asimtrica), entre otros.
El modelo de regresin lineal es el ms utilizado a la hora de predecir los valores de una variable
cuantitativa a partir de los valores de otra variable explicativa tambin cuantitativa (modelo de
regresin lineal simple). Una generalizacin de este modelo, el de regresin lineal mltiple, permite
considerar ms de una variable explicativa cuantitativa. Por otra parte, tal como se ver en un tema
posterior, es tambin posible incluir variables explicativas categricas en un modelo de regresin
lineal si se sigue una determinada estrategia en la codificacin de los datos conocida como
codificacin ficticia.
En concreto, segn el modelo de regresin lineal simple, las puntuaciones de los sujetos en 2
variables -una de ellas considerada como variable predictora (X) y la otra como variable de
respuesta (Y)- vienen representadas (modeladas) por la ecuacin de una lnea recta:
Y = 0 + 1 X 1
Cuando hay ms de una variable explicativa (modelo de regresin lineal mltiple), se utiliza
un subndice para cada una de ellas, por ejemplo, para el caso de dos variables explicativas:
Y = 0 + 1 X 1 + 2 X 2
Y = 75, 4 + ( 0, 76) X
100 100
80 80
60 60
Puntu acin esc ala de es trs
40 40
20 20
0 0
0 20 40 60 80 100 0 20 40 60 80 100
Los dos parmetros de la ecuacin de regresin lineal simple, 0 y 1, son conocidos como el
origen (tambin, constante) y la pendiente del modelo, respectivamente. En conjunto reciben el
nombre de coeficientes de la ecuacin de regresin. Si la ecuacin de la recta de regresin es
obtenida a partir de una muestra, y no de una poblacin (esto es, los coeficientes de la ecuacin de
regresin son estadsticos, y no parmetros), la ecuacin se expresa como:
Y = b0 + b1 X 1
Una vez que sean conocidos los valores de 0 y 1 del modelo de regresin lineal simple, ste
puede ser utilizado como modelo predictivo, esto es, para realizar predicciones de los valores que
tomar la variable de respuesta para determinados valores de la variable explicativa. Basta para ello
con sustituir en la ecuacin de regresin el valor concreto de X que se quiera (Xi). Al hacerlo, se
obtendr el valor predicho para Y segn la ecuacin de regresin para aquellos casos que en la
variable X tomen el valor Xi. Este valor es conocido de forma genrica como puntuacin predicha,
18
17
X Y 16
15
14
2 5 13
12
11
4 9 10
9
8
5 11
7
6
5
4
6 13 3
2
1
8 17 0
0 1 2 3 4 5 6 7 8 9
valores predichos Y a partir de X segn el modelo de regresin coincidirn exactamente con los
valores observados en Y, no cometindose ningn error de prediccin. Sin embargo, esta situacin
es inusual en el mbito de las ciencias sociales y de la salud, donde casi siempre nos encontramos
con relaciones entre variables no perfectas (rXY 1 o -1). En estos casos, cuando se utiliza la recta
de regresin para predecir el valor en Y a partir del valor en X de un determinado sujeto (Xi), es
probable que se cometa un error en la prediccin realizada. A este error se le suele denominar como
error de prediccin o residual (Ei) y queda definido, por tanto, como la diferencia entre el verdadero
Ei = Yi Yi
Yi = Yi + Ei
Ejemplo de los conceptos presentados para dos variables X e Y (n = 5), siendo el modelo de
regresin lineal ajustado a la distribucin conjunta de ambas variables, el siguiente:
Y = 2,8 + 1,6 X
14
X Y
12
2 6 10
4 9 8
Y
5 10 6
6 14
2 Sq r lineal = 0,934
8 15 0
0 2 4 6 8
X
Por ejemplo, para el cuarto sujeto en la tabla (X4 = 6), el valor predicho es 12,4 ( Y4 =
2,8+1,66 = 12,4) y, en consecuencia, su error de prediccin o residual es 1,6 (E4 = 1412,4).
Del mismo modo, para el resto de casos:
X Y Y E
2 6 6,0 0
4 9 9,2 -0,2
5 10 10,8 -0,8
6 14 12,4 1,6
8 15 15,6 -0,6
14
12
1412,4 = 1,6
10
8
Y
2 Sq r lineal = 0,934
0 2 4 6 8
X
Otro ejemplo (Losilla y cols., 2005) para el caso de las variables X e Y cuyo diagrama de
dispersin se muestra a continuacin, siendo la correspondiente ecuacin de regresin:
Y = 0,6 + 0,45X
Interpretacin de 0 y 1: El origen (o constante) de la ecuacin de la recta de regresin (0)
representa el valor predicho en Y cuando la variable X es igual a 0; por su parte, ms interesante
resulta el valor de la pendiente (1), el cual representa la inclinacin de la recta de regresin
respecto al eje de abscisas, ms concretamente, cunto cambio se produce en Y por cada unidad de
incremento en X. En este sentido, 1 representa un indicador de la relevancia del efecto que los
cambios en X tienen sobre Y.
En cuanto que representa el incremento en Y por cada incremento de X en una unidad, el valor
de la pendiente estar expresado en las mismas unidades que la variable de respuesta Y.
Valores que puede tomar 1 : Puede tomar valores tanto positivos como negativos, siendo
mayores en valor absoluto cuanto mayor sea la pendiente de la recta de regresin. Sera igual a 0 si
la recta de regresin fuese horizontal. A continuacin se muestran 4 ejemplos que muestran el
vnculo directo entre el valor de y el tipo de relacin existente entre las variables:
Y 1 > 0 Y 1 < 0
X X
Figura A. Relacin lineal positiva (directa). Figura B. Relacin lineal negativa (inversa).
Y 1=0 Y 1 = 0
X X
Figura C. Ausencia de relacin. Figura D. Relacin no lineal: curvilnea.
En la figura A la relacin entre X e Y es positiva (1>0), lo cual indica que cada incremento de una
unidad en X producir un incremento en Y igual al valor de la pendiente. En la figura B la relacin
es inversa (1<0), por tanto, cada incremento de una unidad en X producir un decremento en Y
igual al valor de la pendiente. En la figura C y la figura D, 1=0 y, por tanto, la recta de regresin es
paralela al eje de abscisas, poniendo de manifiesto que no existe relacin lineal entre X e Y.
Ejemplo: A continuacin se presentan los datos de un estudio cuyo objetivo fue investigar el
efecto de las estrategias de afrontamiento (X) de los sujetos sobre su nivel de estrs (Y). En los
siguientes apartados veremos cmo obtener el valor de los dos coeficientes del modelo de
regresin lineal (lo que se conoce como el ajuste o identificacin del modelo), cmo utilizarlo
para realizar predicciones en Estrs a partir del valor de Afrontamiento de los sujetos, y
cmo valorar la calidad de dichas predicciones (lo que se conoce como el anlisis de la
bondad de ajuste o capacidad predictiva del modelo).
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Estrs 61 26 32 22 38 80 17 10 47 15 50 25 50 30 78 10 35 31 4 6 7 17 37 45 50 67 70
Afronta 38 80 40 84 62 18 65 78 22 60 50 58 20 45 19 84 63 43 87 84 83 85 35 15 29 28 35
100
80
60
Puntu acin esc ala de es trs
40
20
0
0 20 40 60 80 100
Estrategias de afrontamiento
Ello supone aplicar un procedimiento de clculo (mtodo de estimacin) que permita, a partir de
los datos disponibles, obtener los coeficientes de la ecuacin de la lnea recta que represente
ptimamente la distribucin conjunta de las variables modeladas. Ahora bien, cul es la lnea recta
que representa ptimamente a una nube de puntos?, en definitiva, cul es la que ofrece una mayor
bondad de ajuste?
Ejemplo: para los 3 pares de valores en las variables X e Y representados grficamente abajo se han
superpuesto 4 posibles rectas de regresin, cul sera la recta de regresin que elegiramos como
mejor?, por qu?
Dadas la ventaja del mtodo SCE frente a otros a la hora de evaluar la magnitud de los errores de
prediccin, ste ha venido en constituirse como el mtodo ms popular a la hora de estimar los
coeficientes de la ecuacin de regresin. As, para este mtodo, conocido como mtodo de los
mnimos cuadrados ordinarios, la mejor recta de regresin, de entre todas las posibles que se pueden
ajustar a la distribucin conjunta de 2 variables, ser aqulla para la que la SCE sea mnima:
Y en el caso que los mismos deban ser estimados a partir de datos muestrales, los mejores
estimadores puntuales de los anteriores parmetros son los siguientes estadsticos:
sY s 'Y
1 b1 = rXY o rXY 0 b0 = Y b1 X
sX s 'X
Ejercicio 2:
a) Obtener el valor de los coeficientes b0 y b1 para el ejemplo sobre afrontamiento y estrs, teniendo
en cuenta los siguientes resultados: rxy= 0,847; sX = 24,8; sY = 22,37; X = 52,22 e Y = 35,56
b) Plantear la ecuacin de la recta de regresin.
c) Qu prediccin de estrs haramos para un sujeto con una puntuacin de 78 en la escala de
afrontamiento (Xi = 78)? Cul sera el error de prediccin (Ei) para este sujeto?
d) Interpretar los coeficientes de la recta de regresin
e) Dibujar (de forma aproximada) la recta de regresin sobre el diagrama de dispersin de las
variables presentado anteriormente.
f) A continuacin se muestran los outputs obtenidos con el programa SPSS del anlisis de regresin
para este ejemplo. Identificar en los mismos los resultados obtenidos anteriormente.
Coeficientesa
Coeficient
es
Coeficientes no estandari
estandarizados zados
Modelo B Error tp. Beta t Sig.
1 (Constante) 75.425 5.532 13.634 .000
Estrategias de
-.763 .096 -.847 -7.951 .000
afrontamiento
a. Variable dependiente: Puntuacin escala de estrs
Y Y
X X
Figura A: Ausencia de relacin. Figura B: Relacin no lineal.
Ejemplo: la relacin entre los dos pares de variables X1-Y1 y X2-Y2 que aparece representada en
los dos siguientes diagramas de dispersin (Losilla y cls., 2005) es ajustada, casualmente, por la
misma ecuacin de regresin lineal ( Y ' = 5,74 + 0,56 X ). Sin embargo, tal como se puede intuir a
nivel visual, la bondad de ajuste de la ecuacin de la figura de la izquierda ser mejor que la de la
figura de la derecha.
10 10
8 8
6 6
4 4
2 2
0 0
Y
Y
10 12 14 16 18 20 22 24 26 28 10 12 14 16 18 20 22 24 26
X1 X2
predichas por el modelo de regresin ( Yi ) con las puntuaciones reales a partir de las que ha sido
estimado (Y i). El ndice ms utilizado en esta aproximacin es, precisamente, el conocido como la
suma de cuadrados de los errores de prediccin (o residuales) (SCE o SCY X ), el cual ya fue
introducido en el apartado anterior como criterio de referencia del mtodo de estimacin de
mnimos cuadrados ordinarios en la estimacin de los parmetros de la ecuacin de regresin:
n n
SCE (o SCY X ) = Ei2 = (Yi Yi ) 2
i =1 i =1
La suma de cuadrados de los residuales puede oscilar entre 0 y cualquier valor positivo. Si este
sumatorio da 0, el modelo de regresin se ajusta perfectamente a los datos; cuanto mayor sea su
valor, ello significar que ms errneas son las predicciones de la ecuacin de regresin y, por lo
tanto, peor su bondad como modelo predictivo. Consecuencia de esta ausencia de un techo
numrico, este ndice puede resultar difcil de interpretar en la prctica.
Un ndice derivado del anterior es el que se obtiene como media aritmtica del cuadrado de los
errores de prediccin, esto es, el resultado de dividir la SCE por n, el cual se denomina como
2
varianza de los errores ( SY X ). De nuevo, este ndice adolece del mismo problema de interpretacin
que SCE.
n
(Y Y )
i i
2
SY2 X = i =1
Otro ndice que supera el problema interpretativo de los dos anteriores ha sido propuesto tras
tomar como punto de referencia una relacin bsica que se da cuando se ajusta un modelo de
regresin lineal a 2 (o ms) variables. Es la que se conoce como igualdad de la descomposicin de
la varianza de Y, la cual se deriva del axioma que establece que la puntuacin observada en la
variable de respuesta es igual a la predicha segn el modelo de regresin ms el error de prediccin
(Y Y ) = (Y
i =1
i
2
i =1
i
'
Y ) 2 + (Yi Yi ' ) 2
i =1
Si cada uno de los trminos de la expresin anterior lo dividimos por n, tendremos la misma
igualdad expresada en forma de varianzas:
sY2 = sY2' + sY2 X
La anterior razn, conocido como coeficiente de determinacin (R2), puede tambin expresarse en
forma de razn de cuasi-varianzas o de sumas de cuadrados:
'
sY2 ' sY2 ' SCY '
R = 2 = 2' =
2
sY sY SCY
Otro propuesta de ndice de bondad de ajuste complementaria a la anterior, aunque mucho menos
utilizada en la prctica, es el conocido como coeficiente de alienacin, el cual tambin oscila entre 0
y 1, si bien, en este caso valores prximos a 1 indican peor bondad de ajuste del modelo a los datos.
Obviamente, CALN = 1 R
2
Destacar que, en el caso del modelo de regresin lineal simple, el coeficiente de determinacin
puede ser tambin calculado elevando al cuadrado el coeficiente de correlacin de Pearson entre la
SCY sY s 'Y
X Y
4 2
8 11
11 9
2 3
5 10
14 = 6,72 + 7,28
Ejercicio 4: En una muestra de 10 alumnos de enseanza secundaria se han medido dos variables:
rendimiento en el curso, cuantificado como el promedio de las calificaciones de las asignaturas del
curso (Y); y el promedio de horas de estudio semanal durante el curso, obtenido a partir de auto-
informe de los propios estudiantes (X). Los datos obtenidos son los que se muestran a continuacin:
X Y
5 3
12 6
7 4
9 5
15 9
10 6
12 6
8 5
18 9
14 7
Obtener a partir de los mismos: (1) medias y desviaciones tpicas de las dos variables [a mano o,
mejor, con la calculadora]; (2) el coeficiente de correlacin de Pearson entre ambas variables
[dem]; (3) la ecuacin del modelo de regresin lineal de Y sobre X [dem]; (4) los valores predichos
por la ecuacin de regresin para cada sujeto ( Yi ); (5) los errores de prediccin o residuales para
2
cada sujeto (Ei); (6) la varianza de los errores ( sY X ); (7) la varianza de Y ( sY ); (8) la varianza de las
2
2
puntuaciones predichas ( sY ) [a mano o, mejor, con la calculadora]; (9) comprobar que es cierta la
2
= S 2 + S Y2 X
igualdad de la descomposicin de la varianza ( SY Y ); (10) el coeficiente de determinacin
[de dos formas: (10.1) a partir de las varianzas; (10.2) a partir del coeficiente de correlacin entre X
e Y]; (11) interpretar las estimaciones puntuales de los parmetros de la ecuacin de regresin
obtenidos (b0 y b1); (12) estimar segn el modelo de regresin obtenido cul ser la puntuacin
media obtenida a final de curso para un estudiante que dedique 16 horas de estudio a la semana de
promedio.
ANOVA
Modelo Suma de cuadrados gl Media cuadrtica F Sig.
1 Regresin 31.613 1 31.613 105.935 .000(a)
Residual 2.387 8 .298
Total 34.000 9
a Variables predictoras: (Constante), Horas_estudio
b Variable dependiente: Rendimiento_curso
Coeficientes(a)
Coeficientes no Coeficientes
Modelo estandarizados estandarizados T Sig. Intervalo de confianza para B al 95%
B Error tp. Beta Lmite inferior Lmite superior
1 (Constante) .810 .533 1.519 .167 -.419 2.039
Horas_estudio .472 .046 .964 10.292 .000 .366 .578
Ejercicio 6: En el ejemplo anterior de las variables de Afrontamiento y Estrs sabemos que rXY
= 0,847 y que SY = 22,37. Cul ser el valor del coeficiente de determinacin?; cmo se
interpreta dicho valor?; cul es el valor de la varianza de Y explicada por el modelo de regresin
(en este caso, por la variable Afrontamiento)?, y cul el de la varianza de los residuales?
Referencias:
Losilla, J. M., Navarro, B., Palmer, A., Rodrigo, M. F. y Ato, M. (2005). Del contraste de hiptesis
al modelado estadstico. Documenta Universitaria. [www.edicionsapeticio.com]