Está en la página 1de 19

T.

13 El modelo de regresin lineal

1. Conceptos bsicos sobre el anlisis de regresin lineal


2. Ajuste de la recta de regresin
3. Bondad de ajuste del modelo de regresin
4. Estimacin y contraste de hiptesis
4.1. El parmetro de la pendiente de la ecuacin de regresin
4.1. Puntuacin predicha para un determinado valor de X
5. Comparacin de modelos

Modelos predictivos o de regresin: la representacin de la relacin entre dos (o ms) variables a


travs de un modelo formal supone contar con una expresin lgico-matemtica que, aparte de
resumir cmo es esa relacin, va a permitir realizar predicciones de los valores que tomar una de
las dos variables (la que se asuma como variable de respuesta, dependiente, criterio o Y) a partir
de los valores de la otra (la que se asuma como variable explicativa, independiente, predictora o
X).
En lo que respecta al papel que juegan las variables en el modelo, mientras que en el anlisis de la
relacin entre dos variables no se asuma un rol especfico para las variables implicadas (rol
simtrico de las variables), la aplicacin de un modelo predictivo supone que una de las 2 variables
adopta el papel de variable explicativa y la otra el de variable de respuesta y es, por tanto, que se
dice que las variables adoptan un rol asimtrico.
En la literatura estadstica se han planteado diferentes tipos de modelos predictivos que han dado
respuesta a las caractersticas de las variables (escala de medida, distribucin...) que pueden
aparecer implicadas en un determinado modelo. El ms conocido es el modelo de regresin lineal
(variable de respuesta cuantitativa), si bien, otras opciones a tener en cuenta son el modelo de
regresin logstica (variable de respuesta categrica) o el modelo de Poisson (variable de respuesta
cuantitativa con distribucin muy asimtrica), entre otros.

Anlisis y Proceso de Datos en Psicologa: T.13

Profs. J. Gabriel Molina y Mara F. Rodrigo

1. Conceptos bsicos sobre el anlisis de regresin lineal


El modelo de regresin lineal es el ms utilizado a la hora de predecir los valores de una variable
cuantitativa a partir de los valores de otra variable explicativa tambin cuantitativa (modelo de
regresin lineal simple). Una generalizacin de este modelo, el de regresin lineal mltiple, permite
considerar ms de una variable explicativa cuantitativa y, por otra parte, tal como se ver en un
tema posterior, es tambin posible incluir en este tipo de modelo, siguiendo una determinada
estrategia en la codificacin de los datos, variables explicativas categricas
En concreto, segn el modelo de regresin lineal simple, las puntuaciones de los sujetos en 2
variables -una de ellas considerada como variable predictora (X) y la otra como variable de
respuesta (Y)- vienen representadas (modeladas) por la ecuacin de una lnea recta:

Y = 0 + 1 X 1
Cuando hay ms de una variable explicativa (modelo de regresin lineal mltiple), se utiliza un
subndice para cada una de ellas, por ejemplo, para el caso de dos variables explicativas:

Y = 0 + 1 X 1 + 2 X 2
Como en la ecuacin de regresin lineal simple hay una nica variable predictora,
simplificaremos la expresin de la ecuacin de la recta a:

Y = 0 + 1 X
Ejemplo de aplicacin de un modelo de regresin lineal simple a fin de modelar la distribucin
conjunta de las variables Estrategias de afrontamiento y Estrs. En este ejemplo concreto, el
modelo de regresin se concreta en el ajuste a los datos de la siguiente ecuacin de regresin

100

100

80

80

60

60

40

20

0
0

20

40

60

80

100

Puntuacin escala de estrs

Puntu acin esc ala de es trs

(tambin conocida como recta de regresin): Y = 75, 4 + (0, 76) X

40

20

0
0

Estrategias de afrontamiento

20

40

60

80

100

Estrategias de afrontamiento

Los dos parmetros de la ecuacin de regresin lineal simple, 0 y 1, son conocidos como el
origen (tambin, constante) y la pendiente del modelo, respectivamente. En conjunto reciben el
nombre de coeficientes de la ecuacin de regresin.

Anlisis y Proceso de Datos en Psicologa: T.13

Profs. J. Gabriel Molina y Mara F. Rodrigo

Una vez que sean conocidos los valores de 0 y 1 del modelo de regresin lineal simple, ste
puede ser utilizado como modelo predictivo, esto es, para realizar predicciones de los valores que
tomar la variable de respuesta para determinados valores de la variable explicativa. Basta para ello
con sustituir en la ecuacin de regresin el valor concreto de X que se quiera (Xi). Al hacerlo, se
obtendr el valor predicho para Y segn la ecuacin de regresin para aquellos casos que en la
variable X tomen el valor Xi. Este valor es conocido de forma genrica como puntuacin predicha,
siendo representado simblicamente como Yi ' o Yi :

Yi = 0 + 1 X i
Ejercicio 1: A partir de la distribucin conjunta de las variables cuantitativas X e Y y el
correspondiente diagrama de dispersin, dibujad la recta de regresin que mejor se ajuste a la nube
de puntos. Cul ser la ecuacin de la recta de regresin dibujada?, cules sern, por tanto, los
valores de 0 y 1? Obtener los valores predichos en Y para distintos valores de X.

X
2
4
5
6
8

Y
5
9
11
13
17

18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0

Relaciones deterministas vs. probabilsticas y error de prediccin: El anterior ejemplo representa


el caso de una relacin determinista (perfecta) entre X e Y, donde rXY = 1, en consecuencia, los
valores predichos Y a partir de X segn el modelo de regresin coincidirn exactamente con los
valores observados en Y, no cometindose ningn error de prediccin. Sin embargo, esta situacin
es inusual en el mbito de las ciencias sociales y de la salud, donde casi siempre nos encontramos
con relaciones entre variables no perfectas (rXY 1 o -1). En estos casos, cuando se utiliza la recta
de regresin para predecir el valor en Y a partir del valor en X de un determinado sujeto (Xi), es
probable que se cometa un error en la prediccin realizada. A este error se le suele denominar como
error de prediccin o residual (Ei) y queda definido, por tanto, como la diferencia entre el verdadero
valor de un sujeto en la variable Y ( Yi ) y su valor predicho segn la ecuacin de regresin ( Yi ):

Ei = Yi Yi

Anlisis y Proceso de Datos en Psicologa: T.13

Profs. J. Gabriel Molina y Mara F. Rodrigo

De la expresin anterior se deriva que la puntuacin observada de un sujeto en Y se puede obtener


sumando a la puntuacin predicha el error de prediccin o residual para dicha puntuacin, esto es:

Yi = Yi + Ei
Ejemplo de los conceptos presentados para las dos siguientes variables X e Y (n = 5):

Y
6
9
10
14
15

14

12

10

X
2
4
5
6
8

Y = 2,8 + 1,6 X

Sq r lineal = 0,934

Utilizando la ecuacin de regresin ajustada a los datos, qu error cometemos al predecir Y a partir
de X para cada uno de los 5 casos?
Por ejemplo, para el cuarto sujeto en la tabla (X4 = 6), el valor predicho es 12,4 ( Y4 = 2,8+1,66) y el
error de prediccin o residual es 1,6 (E4 = 1412,4). Del mismo modo, para el resto de casos:
X

2
4
5
6
8

6
9
10
14
15

Y
6,0
9,2
10,8
12,4
15,6

E
0
-0,2
-0,8
1,6
-0,6

Adelantar que la columna de los errores de prediccin constituye un elemento de informacin clave
a la hora de tratar el concepto de bondad de ajuste del modelo de regresin, algo que se abordar en
una seccin posterior.
Grficamente, el residual correspondiente a cualquier punto del diagrama de dispersin viene
representado por su distancia vertical a la recta de regresin, tal como se muestra abajo para el caso
4 de la muestra.

Anlisis y Proceso de Datos en Psicologa: T.13

Profs. J. Gabriel Molina y Mara F. Rodrigo

14

1412,4 = 1,6
12

10

Sq r lineal = 0,934

0
0

Otro ejemplo (Losilla y cls., 2005) para el caso de las variables X e Y cuyo diagrama de dispersin
se muestra a continuacin, siendo la correspondiente ecuacin de regresin: Y = 0,6 + 0,45X
A la derecha se muestra la puntuacin predicha segn el modelo de regresin para la puntuacin Xi
= 1,65 y el correspondiente error de prediccin para este caso:

Interpretacin de 0 y 1: El origen (o constante) de la ecuacin de la recta de regresin (0)


representa el valor predicho en Y cuando la variable X es igual a 0; por su parte, ms interesante
resulta el valor de la pendiente (1), el cual representa la inclinacin de la recta de regresin
respecto al eje de abscisas, ms concretamente, cunto cambio se produce en Y por cada unidad de
incremento en X. En este sentido, 1 representa un indicador de la relevancia del efecto que los
cambios en X tienen sobre Y.

Anlisis y Proceso de Datos en Psicologa: T.13

Profs. J. Gabriel Molina y Mara F. Rodrigo

Ejemplo para el caso de 2 variables X e Y, siendo la ecuacin de regresin: Y = 0,6 + 0,45X

En cuanto que representa el incremento en Y por cada incremento de X en una unidad, el valor de la
pendiente estar expresado en las mismas unidades que la variable de respuesta Y.
Valores que puede tomar 1 : Puede tomar valores tanto positivos como negativos, siendo
mayores en valor absoluto cuanto mayor sea la pendiente de la recta de regresin. Sera igual a 0 si
la recta de regresin fuese horizontal. A continuacin se muestran 4 ejemplos que muestran el
vnculo directo entre el valor de y el tipo de relacin existente entre las variables:
Y

1 > 0

X
Figura A. Relacin lineal positiva (directa).
Y

1 < 0

X
Figura B. Relacin lineal negativa (inversa).

1=0

X
Figura C. Ausencia de relacin.

1 = 0

X
Figura D. Relacin no lineal: curvilnea.

En la figura A la relacin entre X e Y es positiva (1>0), lo cual indica que cada incremento de una
unidad en X producir un incremento en Y igual al valor de la pendiente. En la figura B la relacin
es inversa (1<0), por tanto, cada incremento de una unidad en X producir un decremento en Y
igual al valor de la pendiente. En la figura C y la figura D, 1=0 y, por tanto, la recta de regresin es
paralela al eje de abscisas, poniendo de manifiesto que no existe relacin lineal entre X e Y.
Anlisis y Proceso de Datos en Psicologa: T.13

Profs. J. Gabriel Molina y Mara F. Rodrigo

Ejemplo: A continuacin se presentan los datos de un estudio cuyo objetivo fue investigar el efecto
de las estrategias de afrontamiento (X) de los sujetos sobre su nivel de estrs (Y). En los siguientes
apartados veremos cmo obtener el valor de los dos coeficientes del modelo de regresin lineal (lo
que se conoce como el ajuste o identificacin del modelo), cmo utilizarlo para realizar
predicciones en Estrs a partir del valor de Afrontamiento de los sujetos, y cmo valorar la
calidad de dichas predicciones (lo que se conoce como el anlisis de la bondad de ajuste o
capacidad predictiva del modelo).
En la tabla inferior se muestran las puntuaciones recogidas a partir de una muestra de 27 sujetos en
una escala observacional de estrs y en un test de afrontamiento. El rango de puntuaciones en
ambas va de 0 a 100, de modo que a mayores puntuaciones, mayor estrs y mayor capacidad de
afrontamiento, respectivamente.

Caso

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

Estrs

61 26 32 22 38 80 17 10 47 15 50 25 50 30 78 10 35 31 4

7 17 37 45 50 67 70

Afronta 38 80 40 84 62 18 65 78 22 60 50 58 20 45 19 84 63 43 87 84 83 85 35 15 29 28 35

100

Puntu acin esc ala de es trs

80

60

40

20

0
0

20

40

60

80

100

Estrategias de afrontamiento

Anlisis y Proceso de Datos en Psicologa: T.13

Profs. J. Gabriel Molina y Mara F. Rodrigo

2. Ajuste de la recta de regresin


La identificacin o ajuste de un modelo de regresin supone obtener los coeficientes que
caracterizan al mismo, en el caso del modelo de regresin lineal simple, 0 y 1.
Ello supone aplicar un procedimiento de clculo (mtodo de estimacin) que permita, a partir de
los datos disponibles, obtener los coeficientes de la ecuacin de la lnea recta que represente
ptimamente la distribucin conjunta de las variables modeladas. Ahora bien, cul es la lnea recta
que representa ptimamente a una nube de puntos?, cul es la que ofrece una mayor bondad de
ajuste?
En principio, un criterio inmediato es considerar aqulla que d lugar a un menor error en las
predicciones, ahora bien, pueden considerarse diferentes criterios a la hora de valorar la magnitud
de los errores de prediccin. Por ejemplo, para los 3 pares de valores en las variables X e Y
representados grficamente abajo se han superpuesto 4 posibles rectas de regresin, cul sera la
recta de regresin?, en qu criterio nos hemos basado a la hora de valorar la magnitud de los
errores de prediccin?, qu ventajas e inconvenientes tienen los diferentes criterios que podemos
adoptar a la hora de tomar una decisin?

Criterio SE
Ei

Criterio SAE
| Ei |

Criterio SCE
Ei2

Recta A:

Y = 3 + 1.4 X

0+6+(6) = 0

0+6+6 = 12

0+62+ (6)2 = 72

Recta B:

Y = 7.3 + 0.2 X

6+0+0 = 6

6+0+0 = 6

(6)2+0+0 = 36

Recta C: Y = 3 + 0.5 X

3+(3)+0 = 0

3+3+0 = 6

32+(3)2+0 = 18

0+6+0 = 6

0+6+0 = 6

0+62+0 = 36

Recta D:

Y = 1 + 0.8 X

SE: Sumatorio de los errores; SAE: Sumatorio de valores absolutos de los errores; SCE: Sumatorio de cuadrados de los errores

Anlisis y Proceso de Datos en Psicologa: T.13

Profs. J. Gabriel Molina y Mara F. Rodrigo

La tabla anterior (Losilla y cls, 2005) ilustra grficamente la diferencia entre el uso de tres
criterios distintos a la hora de evaluar la magnitud del error de prediccin: la suma de los errores
(SE); la suma de los valores absolutos de los errores (SAE); y la suma de los cuadrados de los
errores (SCE). Como puede observarse, el criterio SE enmascara la posible existencia de errores de
gran magnitud que, al sumarse y ser de distinto signo, se compensan entre s dando lugar a un valor
de SE que puede llegar a ser bajo o incluso nulo. Tanto el criterio SAE como el SCE salvan este
inconveniente, sin embargo, el criterio SCE se ve favorecido por la existencia de errores que, en
general, sean tan bajos como sea posible, pues los errores individuales altos, al elevarse a cuadrado,
se convierten en nmeros muy grandes. En resumen, la ventaja del criterio SCE estriba en que su
valor ser ms bajo cuando globalmente los errores para todas las observaciones sean pequeos,
algo que resulta deseable para una recta que represente a todos los datos y que pueda utilizarse a la
hora de realizar predicciones.
Dadas la ventaja del criterio SCE frente a otros a la hora de evaluar la magnitud de los errores de
prediccin, ste ha sido el considerado por uno de los mtodos ms utilizados en la prctica a la
hora de estimar los coeficientes de la ecuacin de regresin, el denominado mtodo de mnimos
cuadrados ordinarios, segn el cual la mejor recta de regresin de entre todas las posibles ser
aqulla para la que la SCE sea mnima:
min( SCE ) = min ( Ei2 ) = min

( (Y Y ) )
2

Tras realizar las derivaciones matemticas pertinentes, de acuerdo al mtodo de mnimos


cuadrados ordinarios, las frmulas de obtencin de los parmetros de la ecuacin de regresin que
van a satisfacer el anterior criterio son las siguientes:
1 = XY

Y
X

0 = Y 1 X

Y en el caso que los mismos deban ser estimados a partir de datos muestrales, los mejores
estimadores de los anteriores parmetros son los siguientes estadsticos:

1 b1 = rXY

sY
sX

o rXY

s 'Y
s 'X

0 b0 = Y b1 X

En algunos libros de texto es utilizada la letra a para representar al estadstico de la constante de


la ecuacin de regresin.
A partir de lo anterior, la ecuacin de la recta de regresin quedara expresada a nivel muestral
como Yi = b0 + b1 X i , si bien, tambin aparece en algunos libros de texto como Yi = a + b X i .

Anlisis y Proceso de Datos en Psicologa: T.13

Profs. J. Gabriel Molina y Mara F. Rodrigo

Ejercicio 2:

a) Obtener el valor de los coeficientes b0 y b1 para el ejemplo sobre afrontamiento y estrs, teniendo
en cuenta los siguientes resultados: rxy= 0,847; sX = 24,8; sY = 22,37; X = 52,22 e Y = 35,56
b) Plantear la ecuacin de la recta de regresin.
c) Qu prediccin de estrs haramos para un sujeto con una puntuacin de 78 en la escala de
afrontamiento (Xi = 78)? Cul sera el error de prediccin (Ei) para este sujeto?
d) Interpretar los coeficientes de la recta de regresin
e) Dibujar (de forma aproximada) la recta de regresin sobre el diagrama de dispersin de las
variables presentado anteriormente.
f) A continuacin se muestran los outputs obtenidos con el programa SPSS del anlisis de regresin
para este ejemplo. Identificar en los mismos los resultados obtenidos anteriormente.
Resumen del modelo

Modelo
1

R
R cuadrado
.847a
.717

R cuadrado
corregida
.705

Error tp. de la
estimacin
12.14

a. Variables predictoras: (Constante), Estrategias de


afrontamiento
a
Coeficientes

Modelo
1
(Constante)
Estrategias de
afrontamiento

Coeficient
es
estandari
Coeficientes no
zados
estandarizados
B
Error tp.
Beta
75.425
5.532
-.763

.096

-.847

t
13.634

Sig.
.000

-7.951

.000

a. Variable dependiente: Puntuacin escala de estrs

Un mal uso que puede darse en la utilizacin del modelo de regresin lineal como modelo
predictivo consiste en realizar predicciones para valores de X que se hallen fuera del rango de
valores a partir del que se estimaron los parmetros de la ecuacin de regresin, dado que la
relacin entre X e Y puede ser distinta a la estimada ms all de dichos lmites. Grficamente, un
ejemplo en el que se dara esta situacin:

Anlisis y Proceso de Datos en Psicologa: T.13

10

Profs. J. Gabriel Molina y Mara F. Rodrigo

3. Bondad de ajuste del modelo de regresin


La bondad de ajuste de un modelo predictivo se refiere al grado en que la ecuacin de regresin
que represente al modelo se ajusta a la distribucin conjunta de las variables implicadas en el
mismo, lo cual se suele valorar a travs del anlisis del error de prediccin asociado a la utilizacin
del modelo en la prediccin de los valores de la variable de respuesta a partir de los valores de la
variable(s) explicativa(s), esto es, en su capacidad para realizar buenas predicciones de Y a partir de
X. Un mismo modelo de regresin puede presentar un mejor o peor ajuste a la nube de puntos y de
ello depender su capacidad predictiva.
Ejemplo: la relacin entre los dos pares de variables X e Y de los siguientes diagramas de

dispersin (Losilla y cls, 2005) es ajustada por el mismo modelo de regresin lineal, esto es, la recta
de regresin es la misma para ambas distribuciones conjuntas. Sin embargo, tal como se puede
intuir a nivel visual, en la figura de la izquierda los errores de prediccin sern menores en su

10

10

conjunto y, en consecuencia, el ajuste de la recta a la nube de puntos ser mejor.

10

12

14

16

18

20

22

24

26

28

0
10

X1

12

14

16

18

20

22

24

26

X2

Modelo 1: Y = 5.74 + 0.56 X 1

Modelo 2: Y = 5.74 + 0.56 X 2

Existen diferentes aproximaciones en la evaluacin de la bondad del ajuste de un modelo a la


realidad que ese modelo pretende representar. Una elemental consiste en comparar las puntuaciones
predichas por el modelo de regresin ( Yi ) con las puntuaciones reales a partir de las que ha sido
estimado (Y i). El ndice ms utilizado en esta aproximacin es, precisamente, el conocido como la
suma de cuadrados de los errores de prediccin (o residuales) (SCE o SCY X ), el cual ya fue
introducido en el apartado anterior como criterio de referencia del mtodo de estimacin de
mnimos cuadrados ordinarios en la estimacin de los parmetros de la ecuacin de regresin:
n

i =1

i =1

SCE (o SCY X ) = Ei2 = (Yi Yi ) 2

Anlisis y Proceso de Datos en Psicologa: T.13

11

Profs. J. Gabriel Molina y Mara F. Rodrigo

La suma de cuadrados de los errores puede oscilar entre 0 y cualquier valor positivo. Si este
sumatorio da 0, el modelo de regresin se ajusta perfectamente a los datos; cuanto mayor sea su
valor, ello significar que ms errneas son las predicciones de la ecuacin de regresin y, por lo
tanto, peor su bondad como modelo predictivo. Consecuencia de esta ausencia de un techo
numrico, este ndice puede resultar difcil de interpretar en la prctica.
Un ndice derivado del anterior es el que se obtiene como media aritmtica del cuadrado de los
errores de prediccin, esto es, el resultado de dividir la SCE por n, el cual se denomina como media
cuadrtica de los errores (MCE) o, tambin, varianza de los errores ( SY2 X ). De nuevo, este ndice
adolece del mismo problema de interpretacin que SCE.
n

(Yi Yi ) 2

MCE (o SY2 X ) = i =1

Otro ndice que supera el problema interpretativo de los dos anteriores ha sido propuesto tras
tomar como punto de referencia una relacin bsica que se da cuando se ajusta un modelo de
regresin lineal a 2 (o ms) variables. Es la que se conoce como igualdad de la descomposicin de
la varianza de Y, la cual se deriva de la premisa bsica que establece que la puntuacin observada en
la variable de respuesta es igual a la predicha segn el modelo de regresin ms el error de
prediccin cometido: Yi = Yi + Ei . A partir de la anterior igualdad se puede derivar algebraicamente
la siguiente: SCY = SCY ' + SCY X , o lo que es lo mismo:
n

i =1

i =1

i =1

(Yi Y )2 = (Yi ' Y )2 + (Yi Yi ' )2


Si cada uno de los trminos de la expresin anterior lo dividimos por n tendremos la misma
igualdad expresada en forma de varianzas: sY2 = sY2' + sY2 X . As, la varianza en las puntuaciones de la
variable de respuesta (Y) es igual a la varianza explicada por el modelo de regresin (varianza de las
puntuaciones predichas) ms la varianza no explicada por el modelo de regresin (varianza de los
errores o residuales).
(Y si se hubiese dividido por n-1, lo mismo con cuasi-varianzas: s 'Y2 = s 'Y2 ' + s 'Y2 X )
Consecuencia de la igualdad de descomposicin de la varianzas, se puede plantear un ndice de la
bondad de ajuste como razn de la varianza explicada por el modelo de regresin ( s 'Y2 ' ) respecto a
la varianza total ( sY2 ):

sY2 ' sY2


Anlisis y Proceso de Datos en Psicologa: T.13

12

Profs. J. Gabriel Molina y Mara F. Rodrigo

La anterior razn, conocido como coeficiente de determinacin (R2), puede tambin expresarse en
forma de razn de cuasi-varianzas o de sumas de cuadrados:
'

s 2 s 2 SC
R = Y2' = Y2'' = Y '
sY sY
SCY
2

El coeficiente de determinacin (R2) representa la proporcin de varianza de Y explicada por las


variables implicadas en el modelo de regresin ajustado a los datos (X en el modelo de regresin
lineal simple). En cuanto que una razn, este coeficiente oscilar siempre entre 0 y 1, de modo que
cuanto ms prximo sea R2 a 1, indicar mejor bondad de ajuste del modelo de regresin a la
distribucin conjunta de las variables. Si R2 es igual a 1, el ajuste ser perfecto.
Otro propuesta de ndice de bondad de ajuste complementaria a la anterior, aunque mucho menos
utilizada en la prctica, es el conocido como coeficiente de alienacin, el cual tambin oscila entre 0
y 1, si bien, en este caso valores prximos a 1 indican peor bondad de ajuste del modelo a los datos.
CALN =

SCY X sY2 X s 'Y2 X


= 2 = 2
SCY
sY
s 'Y

Destacar que, en el caso del modelo de regresin lineal simple, el coeficiente de determinacin
puede ser tambin calculado elevando al cuadrado el coeficiente de correlacin de Pearson entre la
2
variable predictora y la variable de respuesta R 2 = rXY
, lo cual puede facilitar enormemente el

clculo de R2 si se conoce rXY . En resumen:


SCY ' sY2 ' s 'Y2 '
2
R =
= 2 = 2 = rXY
SCY sY s 'Y
2

Ejemplo (Botella y cls. 2001, p. 218, ejercicio 12): Calcular la recta de regresin de Y sobre X a

partir de los 5 pares de puntuaciones siguientes.


X
4
8
11
2
5

Y
2
11
9
3
10

X = 6; SX = 3,16; Y = 7; SY = 3,74; rXY = 0,69

Ecuacin de la recta de Y sobre X: Y = 2, 08 + 0,82 X

Anlisis y Proceso de Datos en Psicologa: T.13

13

Profs. J. Gabriel Molina y Mara F. Rodrigo

Obtencin valores predichos Yi para cada sujeto:


X
4
8
11
2
5

Y
2
11
9
3
10

Y = 2, 08 + 0,82 X
5,36
8,64
11,1
3,72
6,18

(Yi Yi ) 2
11,29
5,57
4,41
0,52
14,59

(Yi Y ) 2
2,69
2,69
16,81
10,76
0,67

sY2 X = 7,28

sY2' = 6,71

A partir de los valores predichos se puede obtener:


- La varianza de los errores (o residuales) sY2 X = 7,28
- La varianza de las puntuaciones predichas sY2' = 6,71
Descomposicin de la varianza de Y:

sY2 = 3,742 = 13,99


13,99 = 6,71 + 7,28

SCY = SCY ' + SCY X

Proporcin de la varianza de Y explicada por X:


R2 = 6,71/13,99 = 0,48

(= 0,692)

Proporcin de la varianza de Y no explicada por X:


CALN = 7,28/13,99 = 0,52 (= 1 0,48)
Ejercicio 3: Al estudiar la relacin entre dos variables X e Y, sabemos que la varianza de Y es 10 y

la varianza de los errores es 8. Cul es el valor del coeficiente de determinacin y del de


alienacin?, y el del coeficiente de correlacin de Pearson entre X e Y?
Ejercicio 4: En una muestra de 10 alumnos de enseanza secundaria se han medido dos variables:

rendimiento en el curso, cuantificado como el promedio de las calificaciones de las asignaturas del
curso (Y); y el promedio de horas de estudio semanal durante el curso, obtenido a partir de autoinforme de los propios estudiantes (X). Los datos obtenidos son los que se muestran a continuacin:
X
5
12
7
9
15
10
12
8
18
14

Anlisis y Proceso de Datos en Psicologa: T.13

Y
3
6
4
5
9
6
6
5
9
7

14

Profs. J. Gabriel Molina y Mara F. Rodrigo

Obtener a partir de los mismos: (1) medias y desviaciones tpicas de las dos variables [a mano o,
mejor, con la calculadora]; (2) el coeficiente de correlacin de Pearson entre ambas variables
[dem]; (3) la ecuacin del modelo de regresin lineal de Y sobre X [dem]; (4) los valores predichos
por la ecuacin de regresin para cada sujeto ( Yi ); (5) los errores de prediccin o residuales para
cada sujeto (Ei); (6) la varianza de los errores ( sY2 X ); (7) la varianza de Y ( sY2 ); (8) la varianza de las
puntuaciones predichas ( sY2 ) [a mano o, mejor, con la calculadora]; (9) comprobar que es cierta la
2
2
2
igualdad de la descomposicin de la varianza ( SY = SY + SY X ); (10) el coeficiente de determinacin

[de dos formas: (10.1) a partir de las varianzas; (10.2) a partir del coeficiente de correlacin entre X
e Y]; (11) interpretar las estimaciones puntuales de los parmetros de la ecuacin de regresin
obtenidos (b0 y b1); (12) estimar segn el modelo de regresin obtenido cul ser la puntuacin
media obtenida a final de curso para un estudiante que dedique 16 horas de estudio a la semana de
promedio.
Ejercicio 5: A continuacin se muestran los outputs del anlisis de regresin obtenidos con el

programa SPSS para los datos del ejercicio anterior. Identificar en los mismos los resultados
obtenidos en el ejercicio anterior (apartados 2, 3 y 6 a 10).
Resumen del modelo
Modelo
1

R
.964(a)

R cuadrado
.930

R cuadrado
corregida
.921

Error tp. de la
estimacin
.546

ANOVA
Modelo
1

Regresin

Suma de cuadrados
31.613

gl
1

Media cuadrtica
31.613

Residual

2.387

.298

Total

34.000

F
105.935

Sig.
.000(a)

a Variables predictoras: (Constante), Horas_estudio


b Variable dependiente: Rendimiento_curso
Coeficientes(a)
Modelo

Coeficientes no
estandarizados

Coeficientes
estandarizados

(Constante)

Error tp.
.533

Beta

B
.810

Horas_estudio

.472

.046

.964

Sig.

Intervalo de confianza para


B al 95%

1.519

.167

Lmite
inferior
-.419

Lmite
superior
2.039

10.292

.000

.366

.578

Ejercicio 6: En el ejemplo de Afrontamiento y Estrs sabemos que rXY = 0,847 y que SY = 22,37

Cul es el valor del coeficiente de determinacin? Cmo se interpreta? Cul es el valor de la


varianza de Y explicada por X?

Anlisis y Proceso de Datos en Psicologa: T.13

15

Profs. J. Gabriel Molina y Mara F. Rodrigo

4. Estimacin y contraste de hiptesis


4.1. El parmetro de la pendiente de la ecuacin de regresin

De los dos parmetros del modelo de regresin lineal simple, nos vamos a centrar nicamente en
el parmetro asociado a la variable predictora (1) -la pendiente de la ecuacin de regresin- pues,
en la prctica, el contraste de hiptesis ms habitual es acerca de si 1 es significativamente distinto
de 0. Este contraste se utiliza para valorar si se puede considerar como significativamente distinta
de 0 la contribucin de la variable X (1 0) como predictora de la variable Y.
Estimacin por IC de 1 Teniendo en cuenta que el error estndar de la distribucin muestral del
estadstico b1 se obtiene segn:
EE (b1 ) =

SCY X
(n 2) SC X

la estimacin por IC del parmetro 1 , con un nivel de confianza (1-), vendr dada por:

SCY X
SCY X
; b1 + t( n 2)(1 )
IC (1 )( 1 ) = b1 + t( n 2)( )

2
2
(n 2) SC X
(n 2) SC X

Contraste de hiptesis: Siguiendo el procedimiento basado en ICs ya visto para otros casos, se
puede plantear cualquier contraste de hiptesis acerca del valor de 1 planteando el IC entorno al
valor de b1 obtenido a nivel muestral. Se decidir en funcin del IC obtenido y de la afirmacin
planteada en la Ho.
Ejercicio 7: Obtener la estimacin por IC del parmetro 1 correspondiente a la ecuacin de

regresin del ejercicio anterior ( = 0,05). Intentarlo tambin para el parmetro 0 a partir del error
estndar/tpico de este estadstico que se ofrece en la tercera tabla de resultados del SPSS. Se
puede decir que el tiempo de estudio (X) es un predictor estadsticamente significativo del
rendimiento acadmico (Y) => He : 1 0?
t(8)(0,05/2) = -2,31; t(8)(1-0,05/2) = 2,31
Ejercicio 8: En un estudio en enseanza primaria en que se pretenda poner de manifiesto la posible

influencia de las expectativas que de los estudiantes tienen los profesores sobre el rendimiento
acadmico de los mismos, se obtuvo a partir de una muestra de 200 estudiantes la siguiente
ecuacin de regresin: Y = 5,7 + 0,20X A partir de este resultado, se puede considerar
estadsticamente significativa la contribucin de la variable expectativas del profesor a la hora de
predecir el rendimiento acadmico de los estudiantes?

Anlisis y Proceso de Datos en Psicologa: T.13

16

(s2X = 9; s2Y = 4; = 0,05)

Profs. J. Gabriel Molina y Mara F. Rodrigo

4.2. Puntuacin predicha para un determinado valor de X

El IC de la puntuacin predicha en Y por el modelo de regresin para los sujetos que tienen una
determinada puntuacin Xi en la variable predictora, se obtiene a partir de la siguiente expresin:
2

SCY X 1 ( X i X ) '
'

IC (1 )(Y ) = YX i + t( n 2)( )
; YX + t
1+ +
EE (Y ')

SC X i ( n 2)(1 2 )
(n 2) n

'
Xi

A este IC se le suele denominar en la literatura estadstica como intervalo de prediccin (de la


puntuacin predicha por la ecuacin de regresin para un determinado valor Xi), trmino
coincidente con el presentado cuando se introdujo el concepto de distribucin muestral de un
estadstico.
Sealar que, aun permaneciendo constantes los dems trminos de la expresin, este intervalo de
prediccin variar en su amplitud en funcin del valor de Xi que se considere, en concreto, cuanto
mayor sea la distancia entre Xi y la X , mayor ser la amplitud del intervalo de prediccin y, por
tanto, menos preciso. Esto se puede observar fcilmente a nivel grfico si se representan las
conocidas como bandas de prediccin, esto es, los intervalos de prediccin de las puntuaciones
predichas para los distintos valores Xi que puede tomar X.

100

80

Bandas de
prediccin

60

40

20

0
0

20

Anlisis y Proceso de Datos en Psicologa: T.13

40

Xi

17

60

80

100

Profs. J. Gabriel Molina y Mara F. Rodrigo

5. Comparacin de modelos
La comparacin de modelos representa una tcnica de anlisis que permite comparar la bondad de
dos modelos de regresin, esto es, cul de los dos es mejor en la prediccin de una variable de
respuesta (Y).
Un requisito de esta tcnica es que uno de los modelos a comparar debe estar anidado en el otro,
esto es, si un modelo contiene una serie de variables predictoras, el otro contendra esas mismas
variables y alguna adicional. Al primero se le suele denominar como modelo anidado o restringido,
(MR), mientras que al segundo como modelo ampliado (MA).
La cuestin a la que nos va permitir contestar la tcnica de comparacin de modelos es si el MA
vale la pena frente al ms parsimonioso MR, es decir, en qu medida la inclusin de una nueva
variable(s) predictora X en el MR supone una mejora significativa de las predicciones de Y respecto
a las que se realizaran sin contar con esa variable X adicional.
En el caso del modelo de regresin lineal simple, la nica comparacin de modelos posible es la
del modelo con una variable predictora frente al modelo sin ninguna variable predictora (tambin
conocido como modelo nulo, MN):

Y ' = 0 + 1 X

vs. Y ' = 0

En trminos de contraste de hiptesis, la tcnica de comparacin de modelos, en el caso del


modelo de regresin lineal simple, nos va a permitir contrastar la He: 1 0 frente a la H0: 1 = 0 .
El modelo nulo es el ms elemental posible, pues supone no utilizar ninguna variable predictora.
Cuando no se utilice ninguna variable predictora, la mejor prediccin de Y consiste en asignar a
todos los sujetos como puntuacin predicha, la media de las puntuaciones en Y MN: Y = Y
Matemticamente: teniendo en cuenta que 0 = Y 1 X , si no se considera ninguna variable
predictora, entonces 0 = Y 0 = Y
En general, la hiptesis de que no hay diferencias entre dos modelos de regresin, un MR y un
MA, se contrasta mediante el estadstico F, el cual se obtiene como:

( SCY X MR SCY X MA )
F=

Anlisis y Proceso de Datos en Psicologa: T.13

SCY X MA

( pMA pMR )

(n pMA )
18

Profs. J. Gabriel Molina y Mara F. Rodrigo

En el caso en que el MR sea un MN, como ser en el caso de la regresin lineal simple, la
expresin del estadstico F para la comparacin de modelos se simplifica. As, la hiptesis de que
no hay diferencias entre un MN y un MA (H0: 1 = 0 ), se puede contrastar ms fcilmente a travs
de la siguiente expresin del estadstico F:

SCY 'MA
F=

SCY X MA

(2 1)

(n 2)

SCY 'MA (n 2)
SCY X MA

Interpretacin del estadstico F : si el nivel de significacin asociado al valor obtenido para el


estadstico F (Sig en tabla de resultados del SPSS) es inferior a 0.05 (si se ha considerado un de
0.05) o a 0.01 (si se ha considerado un de 0.01), se llega a la conclusin de que existe una
diferencia estadsticamente significativa del MA frente al MN o, en otros trminos, se rechaza la
H0: 1 = 0 .

Referencias:

Botella, J., Len, O. G., San Martn, R. y Barriopedro, M. I. (2001). Anlisis de datos en psicologa
I: teora y ejercicios. Madrid: Pirmide.
Pardo, A. y San Martn, R. (2001). Anlisis de datos en psicologa II. Madrid: Pirmide.
Losilla, J. M., Navarro, B., Palmer, A., Rodrigo, M. F. y Ato, M. (2005). Del contraste de hiptesis
al modelado estadstico. Documenta Universitaria. [www.edicionsapeticio.com]

Anlisis y Proceso de Datos en Psicologa: T.13

19

Profs. J. Gabriel Molina y Mara F. Rodrigo