Está en la página 1de 60

2011

UNED

DISEOS DE INVESTIGACIN Y ANLISIS DE DATOS


[TEMA 8]
Anlisis de Regresin Lineal Simple y Mltiple
1
ndice
8.1 Introduccin ...................................................................................................................................... 3
8.2 Objetivos ........................................................................................................................................... 4
8.3 Anlisis de Regresin Simple ............................................................................................................. 4
8.3.1 Coeficientes de la regresin lineal simple .................................................................................. 8
8.3.2 Bondad de Ajuste de la Recta de Regresin............................................................................. 12
8.3.3 Inferencias sobre la regresin .................................................................................................. 16
8.3.3.1 Contraste sobre la correlacin/regresin ......................................................................... 16
8.3.3.2 Intervalo de confianza (IC) para rXY ................................................................................... 20
8.3.3.3 Contraste para los coeficientes de la regresin, B y B0 ..................................................... 21
8.3.3.4 Intervalo de Confianza para los coeficientes de regresin, B y B0 .................................... 23
8.3.3.5 Intervalo de Confianza los valores estimados Y ............................................................... 25
8.3.4 Precisin de las estimaciones de los parmetros , , y 0 y su relacin con el tamao
muestral .....................................................................................................Error! Marcador no definido.
8.4 Anlisis de Regresin Mltiple ........................................................................................................ 30
8.4.1 Regresin con dos Variables Independientes .......................................................................... 30
8.4.2 Ajuste del modelo. Medidas de asociacin .............................................................................. 34
8.4.3 Correlacin Semiparcial y Parcial ............................................................................................. 37
8.4.4 Inferencias sobre la Regresin Mltiple................................................................................... 42
8.5 Ejercicio prctico ............................................................................................................................. 44
8.5.1 Resultados ................................................................................................................................ 49
8.5.2 Mtodo Stepwise (Pasos Sucesivos) ........................................................................................ 51
8.6 Resumen.......................................................................................................................................... 55
8.7 Ejercicio de Autoevaluacin ............................................................................................................ 56
8.7.1 Preguntas ................................................................................................................................. 57
8.7.2 Solucin ejercicios de autoevaluacin ..................................................................................... 58

2
8.1 Introduccin

Como se explica en el libro de Fundamentos de Investigacin, los diseos ex post facto se


caracterizan porque el investigador no puede manipular intencionalmente la variable independiente, ni
asignar aleatoriamente a los participantes a los diferentes niveles de la misma en estos diseos, el
investigador selecciona a los sujetos en funcin de que posean o no determinadas caractersticas. Uno
de los procedimientos de anlisis ms empleados para este tipo de diseos es el que se conoce como
Anlisis de Regresin/Correlacin. Este procedimiento analtico puede ser usado siempre que una
variable cuantitativa, en este caso la Variable Dependiente (VD), sea estudiada como una funcin de una
variable, o de una combinacin de varias Variables Independientes1 (VI). Cuando se estudia la VD en
funcin de una sola VI este anlisis se conoce como Anlisis de Regresin Simple (ARS). Cuando hay ms
de una VI se conoce como Anlisis de Regresin Mltiple (ARM).
La forma de la relacin entre la VD y la VI puede ser muy diversa. En el caso del ARS se pueden dar
relaciones lineales, exponenciales, potenciales, polinmicas, etc. En este texto nicamente vamos a
tratar las relaciones de carcter lineal, es decir, aquellas en las que la VD se puede expresar como una
funcin de la VI elevada a la primera potencia. Lo mismo sucede con las relaciones que se pueden dar en
el ARM, pero slo estudiaremos el caso en el que la VD se puede expresar como una combinacin lineal
de varias VI`s.
Aunque el ARM es una tcnica de anlisis para los diseos ex post facto, tambin se puede aplicar a
situaciones en las que se manipulan condiciones experimentales. Por tanto, las variables independientes
pueden tener una ocurrencia natural (sexo, Cociente Intelectual, tiempo que se tarda en aprender una
lista de palabras, introversin, ansiedad, etc.), o pueden ser variables manipuladas en un laboratorio. En
resumen, casi cualquier informacin que tenga inters para el estudio de la VD puede ser objeto de
incorporacin en este tipo de anlisis2.
El Anlisis de Regresin tiene una amplitud de aplicacin de gran alcance. Se emplea para contrastar
hiptesis generadas en el mbito de las ciencias de la conducta, de la salud, de la educacin, etc. Estas
hiptesis pueden llegar por la va de una teora formal, por investigaciones previas o simplemente por
algn tipo de intuicin cientfica acerca de algn fenmeno. Una lista breve de hiptesis sobre
determinadas situaciones puede dar idea del alcance de esta tcnica de anlisis:
El estrs en la vida cotidiana puede estar relacionado con la cantidad de das que las personas
causan baja laboral por enfermedad.
Cuando, para una poltica educativa racional, se quiere compara el rendimiento educativo en
funcin de si los estudiantes estudian en colegios pblicos o privados, es necesario el control
estadstico de determinadas caractersticas, tales como el CI, logros acadmicos previos,

1
Al igual que en los captulos de Diseos de ms de dos grupos, en este captulo designaremos la variable
dependiente por Y, mientras que las variables independientes las designaremos como Xi, siendo i = 1,.,n, segn el
nmero de variables independientes que se incorporen en el ARM.
2
Cohen, J, Cohen, P. , West, S. G.y Aiken, L. S. Applied Multiple Regression/Correlation. Analysis for the
Behavorial Sciences. 3 Ed. Lawrence Erlbaum Assoc. N, Jersey, 2003.

3
formacin acadmica de los padres, nivel de ingresos familiares, etc., porque pueden explicar el
rendimiento ms que el tipo de escuela.
La ejecucin de una tarea est relacionado con el nivel de activacin de las personas, y la
relacin tiene una forma de U invertida (esta relacin se conoce en el mbito de la psicologa
experimental como la Ley de Yerkes y Dodson)
Cada una de estas hiptesis plantea una relacin entre una o ms variables explicativas (VIs) y la
variable dependiente (VD) objeto de estudio y, por consiguiente, todas ellas pueden ser contrastadas
mediante Anlisis de Regresin.
En este captulo vamos a estudiar nicamente el Anlisis de Regresin Lineal Simple y Mltiple y
vamos a apoyar la explicacin mediante ejemplos numricos para facilitar la comprensin de la tcnica
de anlisis, utilizando el mnimo soporte matemtico que es posible.

8.2 Objetivos

Elaborar un modelo de regresin simple, para explicar el comportamiento de una variable


(dependiente) a partir de otra (independiente).
Interpretar los coeficientes del modelo elaborado.
Determinar si el modelo es suficientemente explicativo (bondad de ajuste)
Especificar el modelo estadstico que subyace al anlisis.
Elaborar un modelo de regresin lineal mltiple con dos variables predictoras.
Calcular la bondad del modelo de regresin mltiple.
Realizar inferencias sobre los coeficientes de correlacin y los de los modelos de regresin
ajustados.
Cuantificar la correlacin de dos variables cuando se excluye el influjo que otras variables tienen
sobre cada una de ellas.
Ver el desarrollo completo de un ejemplo de regresin mltiple realizado por un software de
anlisis estadstico.

8.3 Anlisis de Regresin Simple

Cuando una variable, que llamaremos independiente (VI), aporta informacin sobre otra variable,
que llamaremos dependiente (VD), decimos que ambas estn relacionadas y esa informacin puede
servir para saber ms sobre el comportamiento de la variable dependiente, sabiendo el
comportamiento de la independiente. Esta relacin, como se ha sealado en la introduccin, puede ser
de diversos tipos: lineal, potencial, exponencial, logartmica, polinmica, etc. El tipo de relacin entre las
variables se detecta a travs de la representacin grfica de todos los pares de valores en ambas
variables. Supongamos, por ejemplo, los datos de la Tabla 8.1 (que servirn como conjunto de datos
para la explicacin del ARS) con las puntuaciones de 16 escolares en dos variables: una prueba de
vocabulario (variable X o independiente) y el nmero de errores ortogrficos detectados dentro de un
texto (variable Y o dependiente).

4
Tabla 8.1
Datos de 16 escolares en una prueba de vocabulario (X) y nmero de errores ortogrficos
detectados en un texto (Y)

Sujeto X Y Sujeto X Y
1 3 9 9 10 22
2 1 7 10 2 6
3 7 12 11 5 10
4 9 18 12 7 18
5 10 18 13 9 16
6 8 13 14 6 13
7 4 8 15 7 15
8 6 17 16 8 16

Al confeccionar el correspondiente diagrama de dispersin o diagrama de puntos de los 16 pares de


datos (vase la Figura 8.1) se observa que hay un tendencia de carcter lineal y positiva, en el sentido
que a medida que un escolar punta ms alto en la prueba de vocabulario (X) tambin suele detectar
ms errores ortogrficos (Y). Obviamente estamos hablando de una tendencia porque esa relacin no
siempre se cumple de tal forma que no siempre una mayor puntuacin en vocabulario se corresponde
con una mayor deteccin de errores. Vase, por ejemplo, los sujetos 12 y 13; el segundo obtiene una
puntuacin mayor en la prueba de vocabulario (2 puntos), pero detecta dos errores menos que el
primero. An as, la tendencia global de los datos es claramente directa o positiva.
Por lo estudiado en el texto de Introduccin al Anlisis de Datos sabemos cmo cuantificar la relacin
entre dos variables cuantitativas: mediante el Coeficiente de Correlacin de Pearson, que puede
expresarse en trminos de puntuaciones directas, diferenciales o tpicas.

5
Figura 8.1 Diagrama de dispersin de los datos de la tabla 8.1

Estas frmulas son, respectivamente, las siguientes:

   
 

       
(8.1)


 

 
(8.2)

 
  

(8.3)

El resultado del coeficiente con puntuaciones directas y diferenciales para nuestros datos es:

16 1561 102 218


   0,8924

16 764 102  16 3294 218 

171,25
   0,8924

113,75 323,75

6
En la Tabla 8.2 se muestran los clculos necesarios para obtener los diferentes elementos de las
frmulas.

Tabla 8.2
Desarrollo para el clculo del coeficiente de correlacin de Pearson
Puntuaciones directas Puntuaciones diferenciales
Sujetos X Y XY X2 Y2 x y xy x2 y2
1 3 9 27 9 81 -3,375 -4,625 15,609375 11,390625 21,390625
2 1 7 7 1 49 -5,375 -6,625 35,609375 28,890625 43,890625
3 7 12 84 49 144 0,625 -1,625 -1,015625 0,390625 2,640625
4 9 18 162 81 324 2,625 4,375 11,484375 6,890625 19,140625
5 10 18 180 100 324 3,625 4,375 15,859375 13,140625 19,140625
6 8 13 104 64 169 1,625 -0,625 -1,015625 2,640625 0,390625
7 4 8 32 16 64 -2,375 -5,625 13,359375 5,640625 31,640625
8 6 17 102 36 289 -0,375 3,375 -1,265625 0,140625 11,390625
9 10 22 220 100 484 3,625 8,375 30,359375 13,140625 70,140625
10 2 6 12 4 36 -4,375 -7,625 33,359375 19,140625 58,140625
11 5 10 50 25 100 -1,375 -3,625 4,984375 1,890625 13,140625
12 7 18 126 49 324 0,625 4,375 2,734375 0,390625 19,140625
13 9 16 144 81 256 2,625 2,375 6,234375 6,890625 5,640625
14 6 13 78 36 169 -0,375 -0,625 0,234375 0,140625 0,390625
15 7 15 105 49 225 0,625 1,375 0,859375 0,390625 1,890625
16 8 16 128 64 256 1,625 2,375 3,859375 2,640625 5,640625
Suma 102 218 1561 764 3294 171,25 113,75 323,75
Media 6,375 13,625
Desv. Tp. 2,7538 4,6458

A la vista de los datos representados en el diagrama de la Figura 8.1, es fcil intuir que la relacin
entre ambas variables puede ser modelada de tal forma que la VD se represente como una funcin de
la VI. En este caso, la funcin que, a priori y visto el diagrama, mejor puede modelar la relacin es la
lineal, es decir, una funcin que exprese la VD en trminos de los valores de la VI, sometidos a algn tipo
de transformacin lineal. Dicho de otra forma, una funcin lineal que permita hacer una estimacin de
la VD a partir de la VI, es una funcin del tipo:

7
 #  $ % $& ; ()(*+,+ ( )./.+012(* ,1(0/+* (8.4 a)

 #  $ ; ()(*+,+ ( )./.+012(* ,13((01+4(* (8.4 b)

5    ; ()(*+,+ ( )./.+012(* /)10+* (8.4 c)

Al ser una estimacin, Y (puntuacin en Y predicha por el modelo lineal) se acercar ms o menos al
verdadero valor de la VD. Este ajuste ser mayor cuanto mayor sea la relacin entre las variables, es
decir, depender del valor del coeficiente de correlacin de Pearson, como tendremos ocasin de
demostrar ms adelante. An sabiendo que la mejor relacin puede ser representada por una funcin
lineal, queda an por determinar cul de las muchas funciones lineales (una para cada combinacin de
valores, parmetros o coeficientes de la regresin, B y B0 en la Ecuacin 8.4 lo cual significa que, en
esencia, son infinitas), es la que mejor ajusta los datos del diagrama.

8.3.1 Coeficientes de la regresin lineal simple


Antes de proceder al clculo de los coeficientes de regresin (B y B0) es conveniente observar qu
sucede una vez que hemos determinado la funcin y la representamos sobre los datos. En la Figura 8.2
se pueden ver los datos y una lnea vertical entre cada uno de los datos y la recta de ajuste que mejor
los ajusta (ms adelante veremos cmo se calcula esta recta). Cuando ya se ha construido la recta (que
es una estimacin de Y), y se procede a particularizar para cada valor de la VI (en este caso puntuacin
en vocabulario), los valores resultantes se sita, obviamente, a lo largo de la recta. En algunos casos el
valor que se obtiene con la recta de ajuste (la estimacin, Y) coincide con el verdadero valor de la VD
(representado por los puntos), aunque en la mayora de los casos no coincide. Es decir, si deseamos
predecir el comportamiento de VD utilizando su relacin con VI, una vez hecha la prediccin (valor en la
recta), vemos que en muchos casos difiere del verdadero valor de la VD para ese valor concreto de la VI.
Por tanto, cuando utilizamos el modelo lineal para estimar cada valor Y a partir de X aplicando la recta
de regresin obtenida, hay un error en la estimacin de la VD (Y) ya que el valor pronosticado (Y) y el
valor medido (Y) no suelen coincidir. La diferencia entre ambos es ese error de estimacin. En la Figura
8.2 este error viene dado por la magnitud o longitud de la lnea vertical que separa cada dato de la
prediccin realizada por la recta de regresin.

8
Figura 8.2 Errores despus del ajuste de una recta

De acuerdo a la frmula (8.4), los valores en la recta los hemos denominado Y, y a los valores de la
VD los hemos denominado Y. Pensemos en estas distancias (Y Y), como la distancia que hay entre
cada valor (Y) y su media (representada por Y, ya que la prediccin realizada por la recta de regresin
representa la media que sera de esperar si el anlisis se repitiese con infinitas muestras). Ahora,
tomemos estas distancias, elevmoslas al cuadrado y sumemos todos esos cuadrados. El valor
resultante de esta suma ser el Error Cuadrtico de la Recta de Ajuste (existen otras terminologas como
Recta de Estimacin, Recta de Prediccin o Recta de Regresin, siendo cualquiera de estas
denominaciones es vlida), y slo hay una recta que hace mnimo este error. Por esta razn a este
mtodo de ajuste de una recta de regresin se le conoce como ajuste por mnimos cuadrados ya que el
objetivo es encontrar los valores B y B0 que hacen ms pequeo (mnimo) el error (Y-Y) al cuadrado.
Adems, hay otra caracterstica importante de la recta de ajuste, que se puede enunciar del siguiente
modo: la recta de regresin es una estimacin insesgada de la VD en el sentido de que la media de los
valores pronosticados es igual a la media de los valores observados. Es decir,

7 57

 
(8.5)

Por procedimientos matemticos que no vamos a desarrollar, el valor del parmetro B de la funcin
lineal en (8.4) que minimiza los errores cuadrticos, se obtiene de acuerdo a la expresin:

8
$  
8
(8.6)

siendo rXY, el coeficiente de correlacin de Pearson


SY la desviacin tpica de la variable dependiente (Y)
SX la desviacin tpica de la variable independiente (X).

9
Conocido B, el valor de B0 se obtiene mediante la expresin:

$&  9 $9 (8.7)

Construida la recta de ajuste podemos expresar la variable dependiente, Y, como una funcin de la
variable independiente, X, mediante la siguiente expresin:

  $& % $ % : (8.8)

Donde representa el error de prediccin y est compuesto por las distancias entre cada valor de Y e Y
para una valor dado de X que observaramos si repitisemos el procedimiento a varias muestras
diferentes.
Cul es el significado de los coeficientes de regresin? En el anlisis de regresin simple el
coeficiente protagonista es el factor B, conocido como pendiente de la recta, y cuantifica el
incremento que se produce en la estimacin de la variable dependiente (Y) cuando la independiente (X)
aumenta en una unidad.
En la Figura 8.3 se ve de manera grfica el significado de B en nuestros datos. La estimacin de Y para
un valor X = 4, proporciona el valor 10,049, y para una X = 5, el valor es 11,555. La diferencia entre estos
valores al aumentar X en una unidad (de 4 a 5) es lo que aumenta Y y ese es el valor de la pendiente. En
el caso del ejemplo que ilustra esta explicacin la pendiente nos dice que los escolares, con cada punto
ms que obtienen en la prueba de vocabulario detectan, en promedio, 1,5 errores ms en la prueba de
lectura.

10
Figura 8.3 Interpretacin grfica de la pendiente de la recta de regresin

La constante de la recta de regresin, B0, seala el punto en el que sta corta al eje de ordenadas, es
decir, el valor estimado de Y cuando X es igual a 0. No es un coeficiente interpretable en el sentido en el
que lo es la pendiente. De hecho, casi nunca es objeto de interpretacin salvo cuando el valor 0 se
encuentra dentro del rango de valores de la VI. Si no es el caso, la recta de regresin slo se puede
interpretar dentro del rango de valores de la VI, pues es con esos valores con los que se construye la
recta de estimacin. Fuera de ese rango, no se sabe qu sucede con la funcin que relaciona X con Y y
por tanto podra ser que por debajo del menor valor de la VI y/o por encima del mayor valor de la VI la
funcin de estimacin de la VD cambiara su forma.
Para que sean vlidas las inferencias que sobre la VD se hagan con la recta de regresin, se deben de
cumplir cuatro supuestos bsicos, tres de los cuales son, en esencia, los mismos que ya se han
mencionado en las tcnicas de anlisis para las pruebas T y los ANOVAS:
1. Independencia de las observaciones. Este supuesto slo se contrasta si el proceso de
seleccin de la muestra no ha sido aleatorio.
2. Homocedasticidad. Su cumplimiento supone que las varianzas de las distribuciones de los
errores, condicionadas a los diferentes valores de la VI, deben ser iguales.
3. Normalidad de las distribuciones condicionadas.
4. Independencia entre los valores estimados, Y, y los errores de estimacin, . Expresado en
trminos de coeficiente de correlacin de Pearson, ry = 0. Esto es as debido a que los
errores se distribuyen de manera aleatoria, mientras que las estimaciones o pronsticos son
una funcin de la VI.
En la Figura 8.4 se representan los supuestos 2 (las varianzas de las cuatro curvas normales dibujadas
son idnticas) y 3 (para cada valor de Xi existe una gama de valores posibles que se distribuyen
normalmente con media Y). El supuesto 4 se puede ver numricamente en los datos de la Tabla 8.3.

11
Figura 8.4 Representacin supuestos 2 y 3 en el ARS

8.3.2 Bondad de Ajuste de la Recta de Regresin


La expresin Bondad de Ajuste, se refiere a cmo de explicativa es la recta respecto de los datos
sobre los que se ha ajustado. Al hacer un ajuste mnimo cuadrtico conseguimos un conjunto de valores,
situados sobre la recta, cuyo promedio coincide con el promedio de la VD, que estiman los diferentes
valores de la VD para cada valor de la VI. Denotaremos simblicamente estos valores estimados
mediante el smbolo de la variable dependiente (v.g., Y) con un acento en la parte superior derecha, es
decir, como Y y la nombraremos diciendo Y prima. Las estimaciones pueden diferir de los valores de
la VD, es decir, los valores de Y no tienen porqu coincidir exactamente con Y. La diferencia entre
ambos valores ser un error de estimacin que, siendo inevitable, trataremos de que sea lo menor
posible. La magnitud de los errores de estimacin son un primer indicio para determinar si el ajuste es
bueno o no. No obstante, tomar la magnitud de los errores aisladamente, sin poner sta en relacin con
alguna otra magnitud, no resuelve completamente el problema de determinar la bondad.
Para explicar el concepto de bondad de ajuste, veamos de qu est compuesta la varianza de la VD,
antes y despus de ajustar la recta de regresin sobre el conjunto de datos. Para ello, vamos a estudiar
lo que sucede en uno solo de los 16 valores que estamos utilizando como ejemplo numrico, tal como se
observa en la Figura 8.5.

12
Figura 8.5 Descomposicin de la suma de cuadrados de la VD

Imagine el lector que slo dispone de los estadsticos media y varianza de la prueba de deteccin de
errores del grupo de sujetos del ejemplo de la Tabla 8.1, y desea hacer una estimacin para un sujeto
concreto, y an no sabe que se ha determinado que dicha prueba est relacionada con la prueba de
vocabulario. A falta de otro tipo de informacin sobre la variable que se quiere estimar, lo correcto es

cada sujeto concreto el error que se cometer ser 7 9, y para el conjunto de datos, el error,
otorgar como mejor estimacin la media del grupo, por ser la que minimiza el error de prediccin. Para

expresado en trminos de cuadrados, es el mnimo posible. Es decir, si no tenemos idea de la relacin


entre la variable predictora (X) y la predicha (Y), y nos piden realizar una estimacin de Y, lo mejor que
podemos hacer es utilizar la media de Y como estimador. Cualquier otro valor que elijamos har que el
error de prediccin sea superior al que obtendramos si utilizamos la media.
Sigamos suponiendo que en un momento posterior disponemos de informacin sobre la relacin que
hay entre la deteccin de errores (Y) y una prueba de vocabulario (X) que han realizado los estudiantes,
y sabe cul es la recta de ajuste entre ambas variables. Si ahora desea hacer una estimacin de la
puntuacin de un sujeto en la prueba de errores, lo razonable es que aproveche la informacin nueva
de que dispone, y vea qu puntuacin ha obtenido el sujeto en vocabulario y, mediante la ecuacin de
la recta construida, haga una estimacin de la puntuacin en Y, que estar situada en la recta y que

pero an persiste un cierto error, el que va de Y a Y. Es decir, del error original,  9 , hemos
hemos denominado Y. Esta estimacin se aproxima ms al valor original (Y) de lo que lo haca la media

reducido una parte, 5 9, pero an queda otra parte,  5, sin explicar. Por tanto, la variable
original Y, expresada en puntuaciones diferenciales,  9 , es la suma de otras dos variables,
 5  5 9 , que, adems, son independientes entre s; su correlacin, pues, es cero. Por tanto
podemos afirmar que a nivel de cada puntuacin individual se cumple:

13
 9   # 9 %  5 (8.9)

y sumando para todos los puntos y elevando al cuadrado se obtiene lo que se conoce como Suma de
Cuadrados, dividiendo por el nmero de casos menos 1 se obtienen la varianza total de Y ( SY2 ), la
varianza de las Y predichas ( SY2' ) y la varianza de los errores ( S2 ). Como la relacin de la Ecuacin 8.9 se
sigue manteniendo, estas varianzas mantienen la relacin que puede verse en la Ecuacin 8.10:

 9 5 9  5


 % ; 8  8#

% 8<
 1  1  1
(8.10)

En resumen, cuando hay una relacin lineal entre dos variables, la varianza de la VD se puede
descomponer en dos varianzas: la de los pronsticos, debido a la relacin que la VD guarda con la VI, y la
de los errores o residuos. Esta relacin se cumple tanto para la Regresin Lineal Simple como para la
Mltiple. Esta descomposicin de las varianza de la VD en dos varianzas es el Teorema de Pitgoras
del Anlisis de Regresin Lineal.

Tabla 8.3
Desarrollo numrico de la descomposicin de la varianza de la VD
X Y >
= Y'  9  # 9   #   9 5 9   5
3 9 13,6250 8,5440 -4,6250 -5,0810 0,4560 21,3906 25,8170 0,2080
1 7 13,6250 5,5330 -6,6250 -8,0920 1,4670 43,8906 65,4810 2,1522
7 12 13,6250 14,5659 -1,6250 0,9409 -2,5659 2,6406 0,8854 6,5840
9 18 13,6250 17,5769 4,3750 3,9519 0,4231 19,1406 15,6177 0,1790
10 18 13,6250 19,0824 4,3750 5,4574 -1,0824 19,1406 29,7834 1,1716
8 13 13,6250 16,0714 -0,6250 2,4464 -3,0714 0,3906 5,9850 9,4337
4 8 13,6250 10,0495 -5,6250 -3,5755 -2,0495 31,6406 12,7846 4,2002
6 17 13,6250 13,0604 3,3750 -0,5646 3,9396 11,3906 0,3187 15,5201
10 22 13,6250 19,0824 8,3750 5,4574 2,9176 70,1406 29,7834 8,5123
2 6 13,6250 7,0385 -7,6250 -6,5865 -1,0385 58,1406 43,3825 1,0784
5 10 13,6250 11,5549 -3,6250 -2,0701 -1,5549 13,1406 4,2851 2,4179
7 18 13,6250 14,5659 4,3750 0,9409 3,4341 19,1406 0,8854 11,7928
9 16 13,6250 17,5769 2,3750 3,9519 -1,5769 5,6406 15,6177 2,4867
6 13 13,6250 13,0604 -0,6250 -0,5646 -0,0604 0,3906 0,3187 0,0037
7 15 13,6250 14,5659 1,3750 0,9409 0,4341 1,8906 0,8854 0,1884
8 16 13,6250 16,0714 2,3750 2,4464 -0,0714 5,6406 5,9850 0,0051
Suma 323,7500 257,8159 65,9341
Varianzas SY2 = 21,5833 SY2' = 17,1877 S 2 = 4,3956
SY2 = 323,75 /(16 1) = 21,5833
SY2' = 257,8159 /(16 1) = 17,1877
S 2 = 65,9341 /(16 1) = 4,3956
rY 0
rXY 0,8924
R2 0,7963

14
A partir de la Ecuacin 8.10, se puede establecer una serie de relaciones. La primera es lo que
representa la proporcin de la varianza de los pronsticos respecto de la VD: la proporcin de la
varianza de la VD explicada por la varianza de la VI, ya que los pronsticos son un combinacin lineal
de la propia VI, combinacin que est representada por la recta de regresin (Y = BX + B0). La cuanta de
esta proporcin es el cuadrado del coeficiente de correlacin de Pearson entre la VD y la VI (esto solo
sirve para el caso de la Regresin Lineal Simple).

?@BA  A C9B ?DEFG


 C9B
  H

?@B ?D@
(8.11)

8<  5 8IJKL7MNOL


    1 H

8 9
 8I
(8.12)

En resumen, H
(a partir de ahora lo designaremos como R2), denominado Coeficiente de

variabilidad de la VI, mientras que su complemento, 1 H ,


Determinacin, es la proporcin de la variabilidad de la VD que es imputada (o explicada por) la
denominado Coeficiente de Alienacin,
es la parte residual de la variabilidad de la VD, atribuible a otros factores no relacionados linealmente
con la VD.
Adems de esta interpretacin de R2, hay otra que tiene que ver con la reduccin del error original
de la VD. En este sentido, R2 es la proporcin en que se reduce el error de la VD cuando empleamos la
recta de regresin para estimarla. Observe el lector (Tabla 8.3) que el error cuadrtico inicial es
21,5833, y despus de ajustar la recta y proceder a las estimaciones de Y, an queda un error cuadrtico
de 4,3956. En trminos absolutos el error se ha reducido en 21,5833 4,3956 = 17,1877, lo que en
trminos de proporcin respecto del error original la reduccin es: 17,1877/21,5833 = 0,7963, que es el
valor de R2 que aparece en la Tabla.
A partir de 8.12, se puede obtener la desviacin estndar de los errores (o residuos). Su expresin es:

S2 2
= 1 RXY
S2Y
S2 = SY2 (1 RXY
2
) (8.13)
2
S = SY 1 R XY

Un forma grfica de representar la varianza explicada o compartida es mediante los denominados


diagramas de Venn en estadstica matemtica, en el cual la varianza de cada variable es representada
por sendos crculos de rea igual a la unidad y la interseccin del solapamiento de ambos crculos
representara la proporcin de varianza compartida, que es el valor del coeficiente de determinacin R2.

15
En la Figura 8.6 se representa la varianza compartida de los datos del ejemplo, sin pretensin de
exactitud en cuanto al rea solapada de ambos crculos.

Figura 8.6 Diagrama de Venn con la representacin de la proporcin de varianza compartida

Otro indicador del ajuste, adems de R2, es lo que se conoce como Error Tpico, y es una estimacin
sobre la poblacin realizada a partir de la muestra. Su valor se deriva de la raz cuadrado del cociente
entre la Suma de Cuadrados de los residuos o errores entre los grados de libertad, que son el nmero de
observaciones muestrales menos el nmero de parmetros estimados por la regresin, que en el caso
bivariado son dos. La frmula es:

 5
P<  Q
 ) 1
(8.14)

Siendo p, el nmero de variables independientes que incorpora el modelo, que en el caso de la


regresin simple es 1.

8.3.3 Inferencias sobre la regresin


Una vez construido el modelo de estimacin, es preciso dotarle de significacin estadstica para que
las inferencias que se hagan a partir de los datos muestrales sean vlidas para el conjunto de la
poblacin. Los dos contrastes que vamos a tratar son los que tienen que ver con el coeficiente de
correlacin entre las variables dependiente e independiente, y por tanto tambin es un contraste sobre
la regresin, y el segundo es el contraste que se realiza sobre los coeficientes de regresin. Adems del
contraste, veremos cmo calcular los intervalos de confianza tanto para el coeficiente de correlacin
como para los coeficientes de la regresin.

8.3.3.1 Contraste sobre la correlacin/regresin


El primer contraste que hay que realizar es el relativo al ajuste de la correlacin entre la VD y la VI. En
este caso la hiptesis nula ser que no hay relacin entre la VD y la VI, siendo la hiptesis alternativa su
negacin, es decir que s hay relacin. Expresado simblicamente:

16
R& : T  0

RU: T V 0

donde representa la correlacin entre la VD y la VI en la poblacin. Para dilucidar la significacin se


puede utilizar dos procedimientos que conducen al mismo resultado. Por un lado, se puede establecer
una razn F (es decir, un cociente entre medias cuadrticas) entre el coeficiente de determinacin y el
coeficiente de alienacin, divididos por sus respectivos grados de libertad. Su frmula es:

H [
X. 4. (X(*1
W
1 H 
\X. 4. (*1,.2*
(8.15)

Frmula que se puede reescribir tambin del siguiente modo:

H /1
W
1 H 
\ ^
2
(8.16)

y aplicada a los datos que estn sirviendo como ejemplo, nos da un resultado de F

0,7963
W  54,743
1 0,7963
\ 16
2

valor que resulta significativo, pues la probabilidad de encontrar un valor F igual o mayor, con 1 y 14
grados de libertad es p = 3,358x10-6 (este valor no puede localizarse en las Tablas debido a la magnitud
tan elevada de la F obtenida; vase para comprobarlo las figuras 8.7a y 8.7b).
1.0
6. 10-7

0.8 5. 10-7

4. 10-7
0.6
3. 10-7

0.4
2. 10-7

0.2 1. 10-7

52 54 56 58 60
0 10 20 30 40 50 60
Figura 8.7a: Distribucin F con 1 y 14 grados de Figura 8.7b: Distribucin F con 1 y 14 grados de
libertad. Obsrvese como la grfica es libertad limitada al rango de valores del eje de
indistinguible del eje de abscisas a partir de F = abscisas [50, 60]. Se puede ver que la funcin F no

17
10. toca el eje de abscisas, pero que los valores de las
ordenadas son inferiores a la millonsima.

Comparando este procedimiento con la tabla del ANOVA, tenemos, a partir de las expresiones (8.11) y
(8.12), que la razn F se puede reescribir del siguiente modo:

8IJK_J.
[
1
`IJK_J.
W 
8IJKL7M. `IJKL7M.
(8.17)
[ ^ 2

Lo relevante de estas expresiones son los grados de libertad asociados a la suma de cuadrados de la
regresin (1 g.l.), y por lo tanto a R2, y los grados de libertad de la suma de cuadrados de los errores o
residuos (N-2 g.l.), (y por tanto a 1 R2). El trmino N refleja el nmero de observaciones
independientes (el total de sujetos) y el valor 2 representa el nmero de restricciones que han sido
necesarias para construir la ecuacin de estimacin, a saber, la pendiente (B) y el intercepto (B0). El
nico grado de libertad asociado a la suma de cuadrados de la regresin representa la desviacin de la
pendiente B con respecto a cero. Realizando el clculo para los datos del ejemplo (vase Tabla 8.4),
cuyas sumas de cuadrados se pueden ver en las sumas de las dos ltimas columnas de la Tabla 8.3, y
puesto en formato de tabla de ANOVA:

Tabla 8.4
Tabla ANOVA para el contraste de la Regresin
ANOVA de la Regresin
FV SC GL MC F Prob.
Regresin 257,816 1 257,8159 54,743 3,36E-06
Residuos 65,9341 14 4,7096
Total 323,75 15

La otra manera de contrastar la hiptesis nula de que la correlacin en la poblacin es igual a 0, es


mediante el estadstico t, cuya expresin es:

  2
/

1 

(8.17)

que se distribuye segn la t de Student con n-2 grados de libertad. Para los datos que sirven de soporte,
el valor del estadstico es:

18
0,892416 2
/  7,3988

1 0,8924

Cuya probabilidad es, lgicamente, la misma que del valor del estadstico F, calculado anteriormente, y
ello es debido a la igualdad entre la t y la F en determinadas condiciones de los grados de libertad de F.
Esta relacin es la siguiente:

/b  WU,b (8.18)

19
OPCIONAL

8.3.3.2 Intervalo de confianza (IC) para rXY


La distribucin muestral de rXY no es simtrica salvo en el caso que la XY (correlacin en la poblacin)
sea igual a 0, lo cual supone que los lmites del intervalo de confianza no son equidistantes del valor de
rXY. Sin entrar en consideraciones sobre el por qu de este comportamiento del intervalo de confianza,
para resolver este problema, Fisher desarroll el estadstico z como una transformacin de r:

1
#  4 1 %  4 1 
2
(8.20)

donde ln es el logaritmo naturali con base e 2,7183. La distribucin muestral de z depende


nicamente del tamao muestral y presenta una distribucin normal incluso con muestras
relativamente pequeas. Su error tpico es:

1
P# 
 3
(8.21)

Luego el IC se calcula como:


IC ( z ' ) = z ' z / 2 z '

Aplicado (8.20) y (8.21) al coeficiente de correlacin obtenido con los datos del ejemplo, y para un
intervalo de confianza del 95%, asumiendo la normalidad de la distribucin muestral de z, los lmites del
IC sern:
1
#  4 1 % 0,8924 4 1 0,8924  1,434
2
1
PA   0,2773
16 3

i  #  1,98j
cIde%  #   1,434 g 0,2773 1,96  h L #
i7    0,89
Convirtiendo estos dos valores de z, en valores de r, tomando la correspondencia de la Tabla XIII
(transformada Z de Fisher), los lmites aproximados del IC de r son, 0,71 y 0,96 (vanse las Figuras 8.8a y
8.8b para ejemplificar la utilizacin de la Tabla XIII), valores que no son simtricos respectos del
coeficiente de correlacin muestral (0,8924) ya que la distancia entre Li y rXY es distinta de la distancia
entre Ls y rXY. Es la primera vez que observamos un IC asimtrico como puede verse grficamente en la
Figura 8.9.

20
Figura 8.8a: Obtencin del valor de rinferior a partir Figura 8.8b: Obtencin del valor de rsuperior a partir
del Li de z en la Tabla XIII del Formulario. del Ls de z en la Tabla XIII del Formulario
(obsrvese que hemos tenido que aproximar ya
que el valor de 1.98 no se encuentra en la tabla).

Figura 8.9: Coeficiente de correlacin e intervalo de confianza para los datos del ejemplo. Puede verse
claramente que el IC no es simtrico con respecto a rXY muestral.

8.3.3.3 Contraste para los coeficientes de la regresin, B y B0


Con este contraste se quiere determinar si hay evidencia estadstica de que la pendiente es diferente
de cero, es decir si la pendiente es significativamente diferente a una lnea horizontal, perpendicular al
eje de ordenadas, e igualmente si el intercepto es diferente de cero, aunque en este caso ya se ha
sealado que en la mayor parte de los estudios suele ser ignorado. Por tanto, las hiptesis nula y
alternativa respecto de la pendiente y el intercepto en la poblacin, y 0, respectivamente son:

R&: k  0 ; k&  0

RU : k V 0 ; k& V 0

21
El estadstico de contraste para la pendiente es:

$ 0
/
Pl
(8.22)

siendo Pm el error tpico de la distribucin muestral de la pendiente cuya expresin es:

8 1 

Pl  Q
8  2
(8.23)

El estadstico t es un percentil de la distribucin t de Student con n-2 grados de libertad. Cuando el


tamao muestral es lo suficientemente amplio (n 100), la significacin del valor t se puede determinar
en la distribucin normal tipificada.
Aplicando este contraste a la pendiente de los datos que estn sirviendo de ejemplo, el valor del
estadstico es:

1,5055 0 1,5055
/   7,399
4,646 1 0,8924 0,2035
n
2,754 16 2

Siendo p = 3,36x10-6 (de nuevo, el valor de t = 7,399 es tan elevado que no aparece en las tablas y, por
tanto, tampoco pueden utilizarse estas para evaluar el valor de p; esto significa que este valor de
probabilidad ha sido obtenido mediante un software cientfico) la probabilidad de encontrar un valor
igual o mayor, lo cual lleva al rechazo de la H0. Observe el lector que la probabilidad de este estadstico
es la misma que la de la F en la Tabla 8.4 del ANOVA de la Regresin.
Para el intercepto, el estadstico de contraste es:

$& 0
/
Plo
(8.24)

siendo Pmo el error tpico de la distribucin muestral del intercepto, cuya expresin es:

1 9
Plo  P< Q %
  18
(8.25)

siendo P< el Error Tpico, ya comentado en el epgrafe de bondad de ajuste, y cuyo valor es la raz
cuadrada de la Media Cuadrtica (MC) de los Residuos de la tabla del ANOVA (Tabla 8.4) para el
contraste de la regresin, que representa la varianza residual en la poblacin para el caso de la regresin
bivariada. Como en el caso de la pendiente, el estadstico t tiene la misma distribucin con los mismos
grados de libertad.
Aplicando el contraste a los datos del ejemplo, y teniendo en cuenta que, en el caso de la regresin
bivariada la varianza residual en la poblacin tiene n-2 grados de libertad, y dado que estamos haciendo
la inferencia para la poblacin, el valor de la varianza residual es:

22
4,0275 0 4,0275
/   2,864
1 6,375 1,4061
4,7096n16 % 16 17,583

Cuya probabilidad es 0,006, por lo que se rechaza la hiptesis nula de que el intercepto es igual a 0
(tanto si utilizamos un = 0,05 como un = 0,01 ). Como puede verse en la Figura 8.10, las Tablas
solo nos permiten determinar que 2,864 se encuentra entre los valores 2,624 y 2,977. Por consiguiente,
la p debe encontrarse entre 1-0,990 = 0.01 y 1-0.995 = 0.005. La probabilidad calculada se realiz
mediante software cientfico.

Figura 8.10

8.3.3.4 Intervalo de Confianza para los coeficientes de regresin, B y B0


Al mismo resultado se llega si en vez de calcular el estadstico t se calcula el intervalo de confianza
sobre el coeficiente de regresin, B. Dado que ya se ha calculado el Error Tpico de la distribucin
muestral de B (Pl ) con la expresin (8.23), los lmites del IC de B, se obtendrn segn la siguiente
frmula:

cI $  $ g p/ bC ;UCq  s Pl  (8.26)

siendo t(n-2;1-/2), el valor de t de la distribucin t de Student con n-2 grados de libertad y un nivel de
significacin . Aplicando la frmula a los resultados del ejemplo se obtiene, para un nivel de confianza
del 95%, los siguientes lmites:

4,646 1 0,8924 1,942j


cIl  1,5055 g 2,145 t Q uv
2,754 16 2 1,069

Al no contener el ICB el valor 0 entre sus lmites, se llega, obviamente, a la misma conclusin que a
travs del estadstico t.

23
Para el intercepto, la frmula de clculo del IC es:

cI $&   $& g / bC ;UCq  Plo  (8.27)

Aplicando la expresin a los datos del ejemplo los lmites son

1 6,375 7,043j
cIlo  4,0275 g 2,145 t
4,7096Q % uv
16 16 17,583 1,012

Tambin aqu se llega a la misma conclusin que con el estadstico de contraste t, se rechaza la
hiptesis nula ya que el intervalo de confianza no incluye el valor 0.

24
OPCIONAL

3.3.5 Intervalo de Confianza de los valores estimados Y


Por ltimo, para cerrar los apartados de contrastes de hiptesis e intervalos de confianza, resta
nicamente calcular el IC para los valores estimados Y para cada valor de la VI. Para ello slo se necesita
conocer el Error Tpico de la distribucin muestral de los pronsticos, error que es una funcin, entre
otros estadsticos, de cada valor de la VI y de su media. Su expresin es:

1 7 9
P#  P< Q %
  18
(8.28)

Aplicado a los datos del ejemplo con un nivel de confianza del 95%, los lmites de las estimaciones, Y
para cada valor de la VI (es decir, para cada Xi), se pueden ver en la tabla 8.5.

25
Tabla 8.5
Lmites del IC para los valores estimados de los datos del ejemplo de la Tabla 8.1
(Ecuacin de regresin: Y = 1,5055X+ 4,0275)

X Y' ETY Li (Yi) Ls (Yi)


1 5,5330 1,2209 2,9145 8,1515
2 7,0385 1,0425 4,8025 9,2744
3 8,5440 0,8752 6,6669 10,4210
4 10,0495 0,7266 8,4911 11,6078
5 11,5549 0,6104 10,2457 12,8642
6 13,0604 0,5479 11,8854 14,2355
7 14,5659 0,5572 13,3708 15,7611
8 16,0714 0,6354 14,7087 17,4341
9 17,5769 0,7613 15,9440 19,2098
10 19,0824 0,9156 17,1186 21,0463

Ejemplo del clculo para X1 = 1.


Y1' = 1.5055 X 1 + 4.0275 = 5.5330
1 ( X i X )2 1 (1 6.375) 2
ETY ' = + = 4 .7096 + = 1.2209
1
n (n 1) S X2 16 (16 1) 7.583
Li (Y1' ) = Y1' t ETY ' = 5.5330 2.145 1.2209 = 2.9145
( n 2 , 1 ) 1
2

Ls (Y1' ) = Y1' + t ETY ' = 5.5330 + 2.145 1.2209 = 8.1515


( n 2 , 1 ) 1
2

Este proceso se repetira para cada Xi.

estructura de la frmula del error tpico, la parte ms estrecha del intervalo, se sita en el punto 9, 9,
Su representacin grfica se puede ver en la Figura 8.11. Observe el lector, que por la propia

y se va abriendo a medida que las estimaciones se alejan de este punto, debido al factor 7 9 en la
frmula del Error Tpico

26
Figura 8.11 Representacin grfica del IC para los valores estimados por la lnea de regresin.

27
OPCIONAL

8.3.4 Precisin de las estimaciones de los parmetros , , y 0 y su relacin con el


tamao muestral
Hasta el momento todos los contrastes prcticos se han basado en un nmero determinado de
observaciones (en nuestro ejemplo n=16), y el grado de precisin de los contrastes viene dado (repase el
lector las frmulas de los intervalos de confianza) por el tamao muestral. En todos los casos, la
amplitud del intervalo es funcin inversa del tamao muestral. Para ver por qu sucede esto, pensemos
en los mismos estadsticos obtenidos en el ejemplo y qu le sucede al Error Tpico de la distribucin
muestral de los parmetros, es decir, el denominador de las pruebas t de los contrastes, que es el factor
que multiplica el valor de t en la construccin del Intervalo de Confianza. En la Tabla 8.6 se muestra para
los mismos estadsticos del ejemplo, qu sucede con el Error Tpico de la distribucin muestral y con la
Precisin del Intervalo para distintos valores de n.

Tabla 8.6 Relacin entre el tamao muestral y la precisin del IC

28
R 0,8924
Errores Tpicos Precisin
Sx 2,7538
n B B0 Y'(x) B B0 Y'(x)
Sy 4,6458
>
w 6,3750
10 0,2692 1,8098 0,6933 0,5998 4,0325 1,5448
12 0,2408 1,6392 0,6328 0,5246 3,5715 1,3787
B 1,5055
14 0,2198 1,5093 0,5858 0,4714 3,2371 1,2563
B0 4,0275
Error 16 0,2035 1,4061 0,5479 0,4314 2,9807 1,1615
Tpico 2,1702
18 0,1903 1,3215 0,5165 0,3999 2,7763 1,0851
X 6 20 0,1794 1,2506 0,4900 0,3743 2,6086 1,0221
NC 0,95
25 0,1588 1,1136 0,4382 0,3270 2,2934 0,9025
30 0,1439 1,0136 0,4000 0,2938 2,0700 0,8169
35 0,1325 0,9364 0,3703 0,2691 1,9011 0,7518
40 0,1235 0,8746 0,3464 0,2496 1,7676 0,7001
45 0,1161 0,8236 0,3266 0,2338 1,6588 0,6577
50 0,1099 0,7806 0,3098 0,2207 1,5678 0,6222
55 0,1046 0,7437 0,2954 0,2096 1,4903 0,5919
60 0,1000 0,7115 0,2828 0,2000 1,4233 0,5657
65 0,0959 0,6832 0,2717 0,1916 1,3645 0,5426
70 0,0923 0,6581 0,2618 0,1841 1,3125 0,5222
75 0,0891 0,6355 0,2529 0,1775 1,2660 0,5039
80 0,0862 0,6151 0,2449 0,1716 1,2241 0,4874
85 0,0836 0,5966 0,2376 0,1662 1,1861 0,4724
90 0,0812 0,5796 0,2309 0,1612 1,1514 0,4587
95 0,0789 0,5640 0,2247 0,1567 1,1197 0,4461
100 0,0769 0,5496 0,2190 0,1526 1,0904 0,4346

Ejemplo de clculo para n = 20 (lnea con fondo oscuro en la tabla):


2
SY 1 rXY 4.646 1 0,8924 2
B = = = 0,179
SX (n 2) 2,754 (20 2)
1 X2 1 6,3752
B = + = 4,7096 + = 1,250
0
n (n 1) S X2 20 (20 1) 7,583
1 ( X i X )2 1 (6 6,375) 2
Y ' = 2
= 4,7096 + = 0,490
X =6
n (n 1) S X 20 (20 1) 7,583
Las precisiones son la amplitud del intervalo de confianza dividido por
dos.

vemos que estos estn aproximadamente en una proporciona inversa a . Cuando se cuadruplica el
Analizando las frmulas de los errores tpicos de las distribuciones muestrales de los coeficientes

tamao muestral el error tpico se divide aproximadamente por la mitad. Es fcil, pues, calcular a priori
el tamao muestral cuando sabemos el Error Tpico para un n y se desea reducir en una cierta cantidad,

29
x. el clculo del nuevo n* es n/x2. Por ejemplo, para un n = 20 tenemos un Pl = 0,1799. Si queremos

Si lo que se desea es una reduccin concreta del Error Tpico para un n dado, es decir pasar de Pl a la
reducir ese error 4 veces (es decir, o 0,25), el tamao muestral deber ser 20/0,252 = 320 sujetos.

P
expresin Plx es: x   y l[P x z . Por ejemplo, si se desea pasar de un Pl de 0,78 para un n = 50 a un
l
nuevo valor de Pl igual a 0,3, la muestra necesaria es n* = 50(0,78/0,3)2 = 338 sujetos.

8.4 Anlisis de Regresin Mltiple

Como se ha sealado en el epgrafe de Introduccin, en este tema slo tratamos modelos lineales de
explicacin del comportamiento de una VD en funcin de una o varias VI. Ya hemos desarrollado la
tcnica de Anlisis de Regresin Lineal Simple, y en este epgrafe ampliamos dicho modelo para ms de
una VI, empezando por dos VI o variables predictoras. Como en el caso de una sola variable predictora,
se va a desarrollar con el mnimo aparato matemtico posible. La tcnica de clculo con el modelo de
dos variables independientes es relativamente sencilla y se puede desarrollar con un calculadora
cientfica, aunque su modelo matemtico, el mismo que el del Modelo Lineal General (MGL), del cual
los modelos de regresin y los modelos de anlisis de la varianza son parte, requiere para su desarrollo
algebra de matrices, el cual queda fuera del alcance de este texto. Dado que, en la actualidad, todos
estos procedimientos de anlisis se realizan con programas informticos de anlisis estadstico, el
inters estriba en saber leer e interpretar correctamente los resultados del anlisis. Comenzaremos, con
el modelo ms simple de regresin lineal mltiple que es el de dos variables independientes.

8.4.1 Regresin con dos Variables Independientes


Para la explicacin vamos a servirnos de un ejemplo numrico que hace menos abstracto el modelo.
Supongamos que un psiclogo escolar quiere determinar qu factores pueden influir en el rendimiento
en matemticas en uno de los cursos de educacin secundaria. Supone que el tiempo que dedican al
estudio en general es importante, y quizs tambin su capacidad para el razonamiento abstracto. Para
llevar a cabo esta investigacin, selecciona al azar una muestra de 15 estudiantes del colegio y registra
el tiempo semanal de estudio (variable X1) y les administra, adems, un test de razonamiento abstracto
(variable X2). Las notas obtenidas por estos 15 escolares en el ltimo examen que han realizado de
matemticas le sirven como variable dependiente (Y). Los datos son los que se muestran en la Tabla 8.7

30
Tabla 8.7
Datos para el desarrollo del anlisis con dos VI
Horas Estudio Test Punt.
Sujeto
Razonamiento Matemticas
(X1) (X2) (Y)
1 8 19 54
2 9 18 52
3 6 14 34
4 9 24 63
5 9 19 46
6 9 16 44
7 12 17 50
8 9 14 52
9 6 23 57
10 11 21 53
11 10 17 56
12 13 19 67
13 9 24 57
14 9 19 54
15 11 17 51

El modelo de estimacin lineal de la VD con dos VIs, constar de dos coeficientes de regresin, uno
para cada VI, y una constante que ser el valor estimado para la VD cuando son nulas las dos VI. No
obstante, como ya hemos explicado anteriormente, la constante, si no est el valor cero dentro del
rango de valores de las variables predictoras no se toma en consideracin en el anlisis. Es decir, si X1= 0
y X2 = 0 no forman parte de los rangos admitidos empricamente por ambas variables, no tiene sentido
considerar el valor que adoptara la constante en esos casos. El modelo de estimacin es:

 #  $U U % $  % $& (8.29)

Por lo que la VD se puede expresar como:

   # % :  $U U % $  % $& % : (8.30)

Siendo B1 el coeficiente de regresin parcial para X1, B2 el coeficiente de regresin parcial para X2, y
B0 el intercepto con el eje de la Y cuando X1 y X2 valen 0, y los residuos una vez que se ha determinado
la funcin de estimacin de la VD. Al igual que en regresin simple, estos coeficientes son los que hacen
mnimo el error cuadrtico de prediccin, es decir, minimizan las diferencias cuadrticas entre Y e Y.

31
En primer lugar, antes de calcular los coeficientes de regresin parciales de la ecuacin, llamados as
para remarcar que es el peso o efecto de una VI cuando el resto de las VI que estn en la ecuacin
permanecen constantes, en la Tabla 8.8 se muestran los estadsticos descriptivos de cada una de las
variables, los coeficientes de correlacin entre las variables dos a dos (tambin llamados bivariados) y
las rectas de regresin simple entre cada predictor y la VD. Hemos simplificado la notacin de los
coeficientes de correlacin (ry1 representa la correlacin entre la variable Y y el predictor X1, y el resto
siguen la misma pauta) y tambin de la regresin ( Y1' representa las estimaciones Y realizadas a partir de
X1 )

Tabla 8.8
Estadsticos descriptivos de los datos de la Tabla 8.7
Horas Estudio Test Punt.
Razonamiento Matemticas
(X1) (X2) (Y)
Rectas de Regresin
Media 9,33 18,73 52,67
Desv. Tpic. 1,91 3,17 7,76
Y'1 = 1,786 X1 + 36
ry1 0,441 rY21 = 0,194
rY22 = 0,394 Y'2 = 1,537 X2 + 23,867
ry2 0,628
r12 -0,043 r122 = 0,002

Para facilitar el clculo de los coeficientes de regresin parcial de la ecuacin (8.29), comenzaremos, por
sencillez, obteniendo la ecuacin de regresin en puntuaciones tpicas o estandarizadas, cuya expresin
es:

5  kU U % k  (8.31)

siendo 1 y 2 los coeficientes de regresin parcial estandarizados, y se obtienen mediante las siguientes
frmulas:

32
U  U
kU 
1 U

 U U
k 
(8.32)

1 U

Con los resultados de la Tabla 8.

0,441 0,628 0,043


kU   0,469
1 0,043

0,628 0,441 0,043


k   0,649
1 0,043

Una vez determinados los coeficientes de regresin parcial estandarizados, se obtienen fcilmente los
coeficientes sin estandarizar mediante la relacin:

8
$U  kU
8U

8
(8.33)
$  k
8

siendo S1 y S2, las desviaciones tpicas de las variables X1 y X2, respectivamente. Sustituyendo por los
valores de la Tabla 8.8 los coeficientes no estandarizados son:

7,76
$U  0,469  1,899
1,91

7,76
$  0,649  1,587
3,17

Y la constante de la ecuacin es:

$&  9 $U 9U $ 9 (8.34)

Sustituyendo por los valores correspondientes su valor es:

$&  52,67 1,899 9,33 1,587 18,73  5,217

33
Obtenidos los coeficientes, las funciones de estimacin de la VD con coeficientes de regresin parcial
no estandarizados y estandarizados (es decir, expresada la funcin en puntuaciones directas y tpicas),
son las siguientes:

 #  1,899U % 1,587 % 5,217

#  0,469U % 0,649

Al ser dos las variables independientes, las estimaciones quedan situadas en un plano, que se conoce
como plano de regresin, del mismo modo que la lnea de estimacin en regresin simple se conoce
como lnea de regresin. Algunas de las puntuaciones de la VD estarn por encima del plano y otras por
debajo, y esas distancias de cada punto de la VD al plano forman los residuos del modelo de estimacin
(vase Figura 8.12).

Figura 8.12: tres vistas del conjunto de puntos y el plano de regresin. La zona azul representa el plano
visto desde arriba, la zona naranja representa el plano visto desde abajo . La tercera grfica intenta
visualizar todos los puntos, tanto los que estn situados por encima como los que estn situados por
debajo del plano. En este caso, el plano se ve en escorzo. Los datos estn representados por puntos
rojos.

El modelo ajustado, Y, ya arroja una primera interpretacin: cuando permanece constante X2, por
cada hora de estudio, la puntuacin en matemticas aumenta en promedio, 1,899 puntos, y cuando
permanece constante X1, por cada punto ms en razonamiento abstracto, aumenta 1,587 la puntuacin
e matemticas

8.4.2 Ajuste del modelo. Medidas de asociacin

En regresin simple, el ajuste del modelo viene dado por el coeficiente de determinacin que es el
cuadrado del coeficiente de correlacin de Pearson entre la VD y la VI, y ese coeficiente informaba de
qu porcin de la variabilidad de la VD es explicada por, o atribuida a, la variabilidad de la VI. En el caso
de la regresin mltiple, las preguntas bsicas que hay que responder son las siguientes:
Estiman bien la VD el conjunto de VIs?
Cunta variabilidad explica cada variable individualmente una vez que las otras variables han
aportado lo suyo?

34
Comencemos por responder a la primera pregunta, y para ello disponemos del denominado
coeficiente de correlacin mltiple, R, y su cuadrado, el coeficiente de determinacin, R2. Al igual que r
es el coeficiente de correlacin entre dos variables, R es el coeficiente que correlaciona la VD con una
combinacin ptima de dos o ms variables independientes. Su frmula de clculo es:

U

% 

2U  U
H.U  Q
1 U

(8.35)

Y de forma alternativa, una expresin si cabe ms simple es la basada en los coeficientes de regresin
parcial estandarizados de la recta de regresin:

H.U 
kU U % k  (8.36)

Aplicada la frmula (8.32) a los datos del ejemplo, el valor de RY.12 es:

H.U 
0,469 0,441 % 0,649 0,628  0,7836

El coeficiente de determinacin es el cuadrado del coeficiente de correlacin mltiple, y su


interpretacin y clculo es idntica a la de la regresin simple: razn entre la varianza de los pronsticos
y la varianza de la VD.

8.U

H.U

  H.U 
8
(8.37)

En la Tabla 8.9 se muestran los valores de Y, los pronsticos y los residuos para los datos del ejemplo,
cuya funcin de estimacin de Y, ya calculada, es:
 #  1,899U % 1,587 % 5,217

Tabla 8.9
Puntuacin en Matemticas actual, estimada y residual para cada sujeto
Punt.
Matemticas Estimaciones Residuos
(Y) (Y12) (Y Y12)
54 50,562 3,438
52 50,874 1,126
34 38,829 -4,829
63 60,396 2,604
46 52,461 -6,461
44 47,7 -3,7

35
50 54,984 -4,984
52 44,526 7,474
57 53,112 3,888
53 59,433 -6,433
56 51,186 4,814
67 60,057 6,943
57 60,396 -3,396
54 52,461 1,539
51 53,085 -2,085
Varianza 60,238 36,991 23,247
Ejemplo de clculo para el primer sujeto:
Y1 = 54 X 1 = 8 X 2 = 19
Y12' = 1.899 X 1 + 1.587 X 2 + 5.217 = 50.562
Y1 Y12' = 54 50.562 = 3.438
A partir de los datos de la Tabla 8.9 se obtiene el coeficiente de determinacin R2.

8U

36,991
H.U

  60,238  0,614
8

Es decir, la combinacin de las dos variables (tiempo de estudio y razonamiento abstracto) se


atribuyen el 61,4% de la variabilidad de las puntuaciones obtenidas en matemticas, y por tanto el
38,6% restante se debe a otros factores no relacionados linealmente con dichas puntuaciones. Vemos
que se cumple lo que denominamos Teorema de Pitgoras de la Regresin Lineal: la varianza de las
puntuaciones observadas es igual a la varianza de las puntuaciones estimadas ms la varianza de los
residuos. En este caso, tomando los valores de las varianzas calculadas: 60,238 = 36,991 + 23,247.
El coeficiente R2 obtenido en la muestra no es un estimador insesgado de 2 en la poblacin. Para
entender esto de forma intuitiva, podemos imaginar el caso en que una o ms VIs no contribuyen a la
explicacin de la varianza de la VD en la poblacin. Sin embargo, en la muestra, debido a las
fluctuaciones del proceso de muestreo, raramente se observa una situacin en la que no haya
contribucin de una VI a la varianza de la VD, aunque sea muy pequea. Cuanto menor sea la muestra
mayor ser la contribucin a la VD, lo que provoca un aumento artificial de la R2, valor que no se
correspondera con el 2 en la poblacin. Por esa razn, es preferible disponer de una estimacin ms
ajustada y realista de 2. Este ajuste, se conoce como R2 Ajustado que simbolizaremos mediante la R
mayscula a la que se le superpone el signo virgulilla:

 1
H|.U

 1 1 H.U


 ) 1
(8.38)

siendo n, el nmero de observaciones y p, el nmero de variables independientes o predictoras. Para el


caso de ejemplo, el valor de R2 Ajustado es:

36
15 1
H|.U

 1 1 0,614  0,5498
15 2 1

Otro valor que informa del ajuste es el Error Tpico (ya explicado para el caso bivariado) y que est
relacionado con R2 en el sentido de que cuando ste aumenta el Error Tpico disminuye. De acuerdo a la
ecuacin 8.14, y siendo las sumas de cuadrados las que se muestran en la Tabla 8.10, su valor para este
ejemplo es:

 5 325,451
P<  Q Q  5,2078
 ) 1 15 2 1

Tabla 8.10
Sumas de cuadrados total, residual y debidas a la regresin del ejemplo numrico

> ~
} = = } = =5~ > ~
} =5 =
SCTotal SCResiduos SCRegresin
843,333 325,451 517,968

8.4.3 Correlacin Semiparcial y Parcial


La segunda de las preguntas que hacamos al comienzo del epgrafe anterior, es cmo determinar la
contribucin de cada variable independiente a la explicacin de la dependiente. La respuesta a esta
pregunta la proporciona la llamada correlacin semiparcial, sr, y su cuadrado, sr2. Antes de explicar qu
son esas nuevas correlaciones que acaban de entrar en escena, piense el lector que cuando en un
modelo intervienen ms de dos variables, las correlaciones que se calculan entre las variables dos a dos,
no son correlaciones puras, en el sentido de que no miden relaciones entre esas dos variables al
margen del influjo que las otras variables del modelo puedan tener sobre cada una de ellas. Estas
correlaciones que se calculan entre dos variables (correlaciones bivariadas) se denominan correlaciones
de orden cero, y a travs del valor obtenido no se puede saber qu parte de la varianza de la VD es
capaz de explicar independientemente cada una de las VIs, puesto que entre stas tambin puede
haber relacin. Por lo tanto, para saber qu parte de la VD explica cada VI al margen de las otras VIs, es
necesario eliminar el influjo que sobre cada VI tienen el resto de las VIs, para as poder determinar el
influjo nico que esa VI tiene sobre la VD. Esta relacin entre cada VI y la VD habiendo eliminado el
influjo del resto de las VIs sobre cada VI es lo que se llama Coeficiente de Correlacin Semiparcial.
Cmo se calcula este coeficiente? Ya sabemos, por todo lo explicado hasta el momento, que en un
modelo de regresin hay una proporcin de varianza explicada y una proporcin de varianza no

37
explicada que es la varianza de los residuos. La varianza explicada lo es en funcin de una cierta
combinacin de las variables independientes; por consiguiente, si en un modelo, por ejemplo, con dos
predictoras X1 y X2, se ajusta una regresin de la 1 sobre la 2, se extraen los residuos y, por ltimo, los
correlaciono con la VD, habr calculado el coeficiente de correlacin semiparcial entre X1 y la VD
habiendo eliminado el influjo de X2 sobre la VD. Por otra parte, si se ajusta una regresin simple entre X2
y X1 (obsrvese el cambio de subndices en relacin a la frase anterior), se extraen los residuos y stos se
correlacionan con la VD, habr calculado la correlacin entre el predictor X2 y la VD, habiendo eliminado
el influjo de X1 sobre la VD.
Para llevar a cabo este clculo de los coeficientes de correlacin semiparcial no es necesario
proceder como hemos explicado en el prrafo anterior; hay frmulas muy sencillas para ello, a partir de
las correlaciones de orden cero.
U  U
*U 

1 U

 U U
(8.39)
* 

1 U

y elevando al cuadrado estos valores se tiene la contribucin que cada VI tiene sobre la VD habiendo
eliminado el influjo de las otras VIs. En la Figura 8.13 se observa grficamente, mediante un Diagrama
de Venn, ests contribuciones expresadas en forma de rea compartida

Figura 8.13 Diagrama de Venn para un modelo de regresin con dos variables independientes

Tomando como referencia el diagrama de la Figura 8.13, las equivalencias entre las zonas designadas
con letras y los cuadrados de los coeficientes de correlacin semiparcial, son las siguientes:

38
+  *U  H.U



(8.40)
  *  H.U

U

siendo:
~=.~  % %
~=  %
~=~  %

Para el ejemplo numrico que sirve de base a la explicacin, los clculos de los coeficientes de
correlacin semiparcial son los siguientes:

0,4406 0,6285 0,0431


*U   0,4681

1 0,0431

0,6285 0,4406 0,0431


*   0,6481

1 0,0431

Estos valores elevados al cuadrado dan la proporcin de varianza compartida por cada
predictora habiendo eliminado el influjo de la otra predictora sobre la misma.

+  *U  0,4681  0,2191

  *  0,6481  0,4200

El valor 0,46812 (0,2191) es a en el diagrama de la Figura 8.13, y 0,64812 (0,4200) es b. Estos dos
valores representan la contribucin exclusiva que cada variable hace a la explicacin de la dependiente.
La porcin c, es la proporcin de varianza de la VD estimada conjuntamente (es decir, de forma
redundante) por las dos variables. Sin embargo esta proporcin es de muy difcil interpretacin.
El otro coeficiente que se calcula en los modelos de regresin, y que adems sirve para determinar
cul es la primera variable que se incorpora al modelo cuando se realiza variable a variable3, es el
denominado coeficiente de correlacin parcial, pr. La diferencia con el semiparcial es que en el parcial

3
Hay varios mtodos para la introduccin de variables en el anlisis de regresin. Uno de estos mtodos es el
denominado Stepwise (Pasos Sucesivos) y en l se introduce en primer lugar la variable con mayor correlacin con
el criterio, y a partir de ah, sucesivamente la variable que mayor correlacin parcial tenga con el criterio. El
proceso de introduccin de variable se detiene cuando la siguiente variable independiente que va a entrar no
aporta un plus significativo a la explicacin de la VD.

39
se elimina el influjo de los predictores tanto de la VI objeto de correlacin como de la VD. Es decir, es
una correlacin entre residuos.
En el modelo de dos variables, si se ajusta una recta entre Y y X2, y nos quedamos con los residuos, y
si se ajusta una recta entre X1 y X2, y nos quedamos tambin con los residuos, podemos correlacionar
ambos residuos. De esta forma obtendremos la correlacin parcial entre Y y X1. A partir de aqu se ve
claro que esta es la correlacin pura entre dos variables, puesto que de ambas se ha extrado el influjo
de terceras variables. Al igual que en la correlacin semiparcial, no es necesario el clculo de los
residuos, pues se pueden obtener a partir de los correlaciones de orden cero entre pares de variables.
U  U
)U 

1 

1
U

 U U
(8.41)
) 

1 U


1 U

El cuadrado de estos coeficientes (p.e. pr1) se interpreta como la proporcin de la varianza de la VD


(Y) no asociada con X2 que s est asociada a X1.
Otra manera de calcular esta proporcin de varianza es por medio de las porciones representadas en
el diagrama de Venn de la Figura 8.13.

+ H.U



)U  
+%, 1 

 H.U

U

(8.42)
)  
%, 1 U

Aplicando las frmulas a los datos del ejemplo, los coeficientes son:

0,441 0,628 0,043


)U   0,6018 ; )U  0,6018  0,3622

1 0,628
1 0,043

0,628 0,441 0,043


)   0,7219 ; )  0,7219  0,5211

1 0,441
1 0,043

Si se hubiera realizado una regresin paso a paso, es decir, introduciendo las variables por su relacin
con la VD, la primera que habra entrado en el modelo hubiera sido la variable X2 (en el ejemplo,
Razonamiento abstracto) que es la que presenta mayor correlacin con la VD.
En resumen, por los resultados del coeficiente de correlacin parcial y semiparcial al cuadrado, en el
modelo obtenido est clara la contribucin de ambas variables a la explicacin de la puntuacin en
matemticas. El cuadrado de los coeficientes pr seala la proporcin de varianza de una VI asociada con
la parte de la VD que no est asociada con la otra VI. En nuestro caso es mayor la de razonamiento
abstracto que la de tiempo de estudio (52,11% y 36,22%, respectivamente). Adems, el modelo es
bueno (luego veremos su significacin estadstica, por medio de los contrastes) porque ambas variables
independientes tienen una buena relacin con la dependiente, y sin embargo, entre ellas no hay apenas

40
relacin (es, pues, un modelo casi ideal4). Cmo se manifiesta numricamente la ausencia de relacin
entre las variables independientes?, pues sencillamente en que el coeficiente de determinacin, R2
(0,6141), tiene un valor aproximado (siempre menor) que la suma de los cuadrados de los coeficientes
de correlacin semiparcial (0,2191+0,4200 = 0,6391 < 0.6141). La diferencia entre ambos valores es la
parte redundante del diagrama de Venn (zona c) que el modelo de regresin elimina cuando se ajusta
con el conjunto completo de variables independientes.

4
Los datos del ejemplo son ficticios y han sido simulados para lograr este efecto de correlacin media-alta de
las variables predictoras con la VD y ausencia de correlacin entre las predictoras. En anlisis de regresin, cuando
las VIs correlacionan se dice que hay colinealidad, y cuanto mayor es sta peor es el modelo de regresin.

41
EL RESTO DEL CAPTULO (HASTA LOS EJERCICIOS DE AUTOEVALUACIN) ES OPCIONAL

8.4.4 Inferencias sobre la Regresin Mltiple


Siguiendo el mismo proceso que en el caso de la regresin simple, el contraste se puede realizar bien
a travs de la confeccin de los intervalos de confianza o bien mediante estadsticos de contraste, como
la F de la tabla del ANOVA, resultado del cociente entre la media cuadrtica de la regresin y la media
cuadrtica de los residuos.
El IC para R2 (Olkin y Finn, 1995), se construye a partir del error tpico de R2, cuya expresin es la
siguiente:

4H 1 H   ) 1
PB  Q
 1  % 3
(8.43)

siendo n el nmero de observaciones en la muestra y p el nmero de variables independientes.


Aplicado a los datos del ejemplo,

4 0,6141 1 0,6141 15 2 1
PB  Q  0,1143
15 1 15 % 3

siendo el IC de R2 al 95%: 0,6141 (2,16)(0,1143) = (0,367 ; 0,861) siendo 2,16 es el valor crtico de la
distribucin t con 15-2 = 13 grados de libertad. A partir de estos lmites se rechazara la hiptesis nula de
que R2 en la poblacin es igual a 0 ya que los lmites no incluyen este valor.
Al mismo resultado llegaremos a travs del estadstico F de la tabla ANOVA, valor que, adems de
obtenerse como el cociente de las medias cuadrticas de la regresin y del residuo, se puede calcular
tambin con la siguiente frmula basada en R2:

HU
 ) 1
W
1 HU
)
(8.44)

Aplicando a los datos del ejemplo:


0,6141 15 2 1
W  9,548
1 0,6141 2
Igual al que se obtiene en la tabla del ANOVA (Tabla 8.11)

Tabla 8.11
Estadsticos de la regresin de los datos de la Tabla 8.7, y contraste de R2
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,7836
Coeficiente de determinacin R2 0,6141

42
R2 ajustado 0,5498
Error tpico residual (P< ) 5,2078*
Observaciones 15

ANOVA de la Regresin
FV SC GL MC F Prob.
Regresin 517,968 2 258,984 9,549 0,003
Residuos 325,451 12 27,121
Total 843,333 14

* El valor de P< es la raz cuadrada de la MC de los residuos.

Respecto de los coeficientes de regresin parcial, tanto estandarizados como no estandarizados


el contraste se realiza del mismo modo que en la regresin simple, y la diferencia estriba en que hay que
calcular un error tpico para cada coeficiente de cada variable independiente. La frmula es la siguiente:

8 1 1 H.U

Pl  Q Q
87 1 H7  ) 1

(8.45)

donde H.U

es el coeficiente de determinacin, H7 , es el coeficiente de determinacin de la regresin
de la variable predictora i respecto del resto de variables predictoras; es decir, la proporcin de varianza

ejemplo, al ser slo dos las predictoras, el valor de H7 es el mismo para calcular el error tpico de ambos
de la predictora i explicada por una combinacin ptima del resto de predictoras (en el caso del

coeficientes de regresin parcial). Por ltimo, SY es la desviacin tpica de la variable dependiente y Si es


la desviacin tpica del predictor i.
Para los datos del ejemplo los errores tpicos para contrastar los coeficientes de regresin parcial
son:
SY 1 1 RY212 7,76 1 1 0,6141
B = = = 0,7275
1
S X 1 1 r122 2
n p 1 1,91 1 (0,043) 15 2 1

SY 1 1 RY212 7,76 1 1 0,6141


B = = = 0,4391
1
SX 2 1 r122 2
n p 1 3,17 1 (0,043) 15 2 1
A partir de estos valores es sencillo calcular el IC para cada coeficiente de regresin, y comprobar si
dentro del intervalo se encuentra el valor 0. Si no es el caso, se rechazar la hiptesis nula de que los
coeficientes en la poblacin son igual a cero. En la Tabla 8.12 se presenta el resultado de estos
contrastes.

Tabla 8.12 Contrastes de los coeficientes de regresin parcial*


Error
Coeficientes tpico t Prob. Li (95%) Ls (95%)

43
Horas Estudio 1,8991 0,7275 2,6102 0,0228 0,3139 3,4842
Test
Razonamiento 1,5868 0,4391 3,6138 0,0036 0,6300 2,5435
* Los lmites, se obtienen restando y sumando al valor del coeficiente, el producto entre el error tpico y el valor de t para un
nivel de confianza del 95% y n-p-1 grados de libertad (en el caso del ejemplo, este valor es 2,179). No se ha incluido el contraste
de la constante

Por ltimo, quedara el contraste de las correlaciones parcial y semiparcial. Como se han visto en la
frmulas estos dos coeficientes difieren en su clculo solo en el denominador por lo que o los dos son
igual a cero o los dos son diferentes de cero. Por ello, el estadstico de contraste se calcula slo para uno
de los coeficientes, en este caso el semiparcial. La frmula es:

 ) 1
/7  *7 Q
1 H
(8.46)

donde sri es la correlacin semiparcial entre la variable i y la variable dependiente.


Para los datos del ejemplo, los valores de t para los dos coeficientes de correlacin semiparcial son:

15 2 1
/U  0,4681Q  2,6102
1 0,6141

15 2 1
/  0,6481Q  3,6138
1 0,6141

Que son los valores del estadstico t para los coeficientes de regresin parcial que se muestran en la
Tabla 8.12.

8.5 Ejercicio prctico

Una vez explicados los fundamentos bsicos del anlisis de regresin (hemos dejado al margen los
diferentes mtodos que hay para desarrollar el anlisis, el estudio de los casos de influencia o el anlisis
de los residuos, por exceder el alcance de este curso) es importante que el lector vea una salida de
resultados de una anlisis de regresin realizado con un programa informtico de anlisis estadstico, e
identificar los elementos que se han expuesto en el captulo.
Los datos de este ejercicio est adaptado del texto de Hair, Anderson, Tatham y Black (2001)
Anlisis Multivariado, y se refieren al estudio que una empresa ficticia (HATCO) realiza para
determinar el nivel de fidelidad de sus clientes, a partir de un conjunto de variables predictoras o
independientes, todas ellas cuantitativas, que se presentan en el Cuadro 8.2. El trmino Mtrica, a la
derecha del nombre de la variable, seala que es una variable de tipo cuantitativo.

Cuadro 8.2 Caractersticas de las variables del ejercicio

44
X1 Velocidad de entrega Mtrica
X2 Nivel de precios Mtrica
X3 Flexibilidad de precios Mtrica
X4 Imagen del fabricante Mtrica
X5 Servicio conjunto Mtrica
X6 Imagen de fuerza de ventas Mtrica
X7 Calidad de producto Mtrica
X8 Nivel de fidelidad Mtrica
X9 Nivel de satisfaccin Mtrica

Percepciones de HATCO

Cada una de estas variables, excepto el Nivel de fidelidad (X8), se midi con una escala de
puntuacin grfica donde se dibuj una lnea entre dos puntos separados por diez centmetros que se
denominaron Pobre y Excelente:

Pobre Excelente

Los encuestados sealan su percepcin haciendo una marca en la lnea. La marca se mide y se
registra la distancia desde el punto que se consider cero, en este caso, Pobre. La medicin se realiz
en centmetros. El resultado fue una escala que iba desde cero a diez, redondeado a un nico decimal.
Los siete atributos de HATCO puntuados por los encuestados y que sirven de VIs son los siguientes:
X1 Velocidad de entrega: tiempo que transcurre hasta que se entrega el producto, una vez que
se hubo confirmado el pedido.
X2 Nivel de precio: nivel de precios percibido por los clientes industriales.
X3 Flexibilidad de precios: la disposicin percibida en los representantes de HATCO para
negociar el precio de todas las compras.
X4 Imagen del fabricante: imagen conjunta del fabricante/distribuidor.
X5 Servicio: nivel conjunto de servicio necesario para mantener una relacin satisfactoria entre el
vendedor y el comprador.
X6 Imagen de la fuerza de ventas: imagen conjunta de la fuerza de ventas del fabricante.
X7 Calidad del producto: nivel de calidad percibido en un producto particular (por ejemplo, el
acabado o el rendimiento).
X9 Nivel de satisfaccin: satisfaccin del comprador con las compras anteriores realizadas a
HATCO, medidas en el mismo grfico de la escala de clasificacin de las entradas X1 a X7

La VD es:
X8 Nivel de fidelidad: cunto se compra a HATCO del total del producto de la empresa, medido
en una escala porcentual, que va desde 0 al 100 por cien.

45
46
Datos del ejercicio de Anlisis de Regresin Mltiple
id x1 x2 x3 x4 x5 x6 x7 x8 x9 id x1 x2 x3 x4 x5 x6 x7 x8 x9
1 4,10 0,60 6,90 4,70 2,40 2,30 5,20 32,00 4,20 36 3,10 1,90 10,00 4,50 2,60 3,20 3,80 55,00 4,90
2 1,80 3,00 6,30 6,60 2,50 4,00 8,40 43,00 4,30 37 3,40 3,90 5,60 5,60 3,60 2,30 9,10 43,00 4,70
3 3,40 5,20 5,70 6,00 4,30 2,70 8,20 48,00 5,20 38 5,40 2,10 8,00 3,00 3,80 1,40 5,20 53,00 3,80
4 2,70 1,00 7,10 5,90 1,80 2,30 7,80 32,00 3,90 39 3,70 0,70 8,20 6,00 2,10 2,50 5,20 41,00 5,00
5 6,00 0,90 9,60 7,80 3,40 4,60 4,50 58,00 6,80 40 4,50 4,10 6,30 5,90 4,30 3,40 8,80 50,00 5,50
6 1,90 3,30 7,90 4,80 2,60 1,90 9,70 45,00 4,40 41 2,80 2,40 6,70 4,90 2,50 2,60 9,20 32,00 3,70
7 4,60 2,40 9,50 6,60 3,50 4,50 7,60 46,00 5,80 42 3,80 0,80 8,70 2,90 1,60 2,10 5,60 39,00 3,70
8 1,30 4,20 6,20 5,10 2,80 2,20 6,90 44,00 4,30 43 2,90 2,60 7,70 7,00 2,80 3,60 7,70 47,00 4,20
9 5,50 1,60 9,40 4,70 3,50 3,00 7,60 63,00 5,40 44 4,90 4,40 7,40 6,90 4,60 4,00 9,60 62,00 6,20
10 4,00 3,50 6,50 6,00 3,70 3,20 8,70 54,00 5,40 45 4,30 1,80 7,60 5,40 3,10 2,50 4,40 46,00 5,60
11 2,40 1,60 8,80 4,80 2,00 2,80 5,80 32,00 4,30 46 2,30 4,50 8,00 4,70 3,30 2,20 8,70 50,00 5,00
12 3,90 2,20 9,10 4,60 3,00 2,50 8,30 47,00 5,00 47 3,10 1,90 9,90 4,50 2,60 3,10 3,80 54,00 4,80
13 2,80 1,40 8,10 3,80 2,10 1,40 6,60 39,00 4,40 48 5,10 1,90 9,20 5,80 3,60 2,30 4,50 60,00 6,10
14 3,70 1,50 8,60 5,70 2,70 3,70 6,70 38,00 5,00 49 4,10 1,10 9,30 5,50 2,50 2,70 7,40 47,00 5,30
15 3,20 4,10 5,70 5,10 3,60 2,90 6,20 38,00 4,40 50 1,10 2,00 7,20 4,70 1,60 3,20 10,00 40,00 3,40
16 4,90 1,80 7,70 4,30 3,40 1,50 5,90 40,00 5,60 51 3,70 1,40 9,00 4,50 2,60 2,30 6,80 45,00 4,90
17 4,70 1,30 9,90 6,70 3,00 2,60 6,80 55,00 6,00 52 4,20 2,50 9,20 6,20 3,30 3,90 7,30 59,00 6,00
18 3,30 0,90 8,60 4,00 2,10 1,80 6,30 41,00 4,50 53 1,60 4,50 6,40 5,30 3,00 2,50 7,10 46,00 4,50
19 3,00 4,00 9,10 7,10 3,50 3,40 8,40 55,00 5,20 54 5,30 1,70 8,50 3,70 3,50 1,90 4,80 58,00 4,30
20 2,40 1,50 6,70 4,80 1,90 2,50 7,20 36,00 3,70 55 2,30 3,70 8,30 5,20 3,00 2,30 9,10 49,00 4,80
21 2,40 1,50 6,60 4,80 1,90 2,50 7,20 36,00 3,70 56 5,60 2,20 8,20 3,10 4,00 1,60 5,30 55,00 3,90
22 5,20 1,30 9,70 6,10 3,20 3,90 6,70 54,00 5,80 57 5,20 1,30 9,10 4,50 3,30 2,70 7,30 60,00 5,10
23 3,50 2,80 9,90 3,50 3,10 1,70 5,40 49,00 5,40 58 1,00 1,90 7,10 4,50 1,50 3,10 9,90 39,00 3,30
24 3,00 3,20 6,00 5,30 3,10 3,00 8,00 43,00 3,30 59 4,50 1,60 8,70 4,60 3,10 2,10 6,80 56,00 5,10
25 2,80 3,80 8,90 6,90 3,30 3,20 8,20 53,00 5,00 60 2,30 3,70 7,60 5,00 3,00 2,50 7,40 37,00 4,40
26 5,20 2,00 9,30 5,90 3,70 2,40 4,60 60,00 6,10 61 2,60 3,00 8,50 6,00 2,80 2,80 6,80 53,00 5,60
27 3,40 3,70 6,40 5,70 3,50 3,40 8,40 47,00 3,80 62 2,50 3,10 7,00 4,20 2,80 2,20 9,00 43,00 3,70
28 2,40 1,00 7,70 3,40 1,70 1,10 6,20 35,00 4,10 63 2,10 3,50 7,40 4,80 2,80 2,30 7,20 36,00 4,30

47
29 1,80 3,30 7,50 4,50 2,50 2,40 7,60 39,00 3,60 64 2,90 1,20 7,30 6,10 2,00 2,50 8,00 34,00 4,00
30 4,00 0,90 9,10 5,40 2,40 2,60 7,30 46,00 5,10 65 4,30 2,50 9,30 6,30 3,40 4,00 7,40 60,00 6,10
31 0,00 2,10 6,90 5,40 1,10 2,60 8,90 29,00 3,90 66 3,10 4,20 5,10 7,80 3,60 4,00 5,90 43,00 5,20
32 1,90 3,40 7,60 4,60 2,60 2,50 7,70 40,00 3,70 67 1,90 2,70 5,00 4,90 2,20 2,50 8,20 36,00 3,60
33 4,90 2,30 9,30 4,50 3,60 1,30 6,20 53,00 5,90 68 4,00 0,50 6,70 4,50 2,20 2,10 5,00 31,00 4,00
34 5,00 1,30 8,60 4,70 3,10 2,50 3,70 48,00 4,80 69 6,10 0,50 9,20 4,80 3,30 2,80 7,10 60,00 5,20
35 2,00 2,60 6,50 3,70 2,40 1,70 8,50 38,00 3,20 70 2,00 2,80 5,20 5,00 2,40 2,70 8,40 38,00 3,70

48
8.5.1 Resultados
En primer lugar veremos los estadsticos descriptivos de las variables, as como la matriz de
correlaciones, con su significacin estadstica (como criterio, piense el lector que una probabilidad
mayor de 0,05 supone la aceptacin de que, en la poblacin las dos variables en cuestin no estn
relacionadas).
Estadsticos descriptivos
Desviacin
Media tpica N
Nivel de fidelidad 45,9000 8,97686 70
Velocidad de entrega 3,4114 1,33466 70
Nivel de precios 2,3686 1,17825 70
Flexibilidad de precios 7,8571 1,33694 70
Imagen de fabricante 5,1686 1,07158 70
Servicio conjunto 2,8771 ,72375 70
Imagen de fuerza de ventas 2,6643 ,75662 70
Calidad de producto 7,0743 1,57973 70
Nivel de satisfaccin 4,6971 ,85651 70

Imagen de
Nivel de Velocidad Nivel de Flexibilidad Imagen de Servicio fuerza de Calidad de Nivel de
fidelidad de entrega precios de precios fabricante conjunto ventas producto satisfaccin
Correlacin de Nivel de 1,000 ,656 ,100 ,564 ,236 ,709 ,277 -,182 ,696
Pearson fidelidad
Velocidad de ,656 1,000 -,363 ,512 ,065 ,625 ,087 -,493 ,637
entrega
Nivel de precios ,100 -,363 1,000 -,461 ,278 ,490 ,186 ,468 -,004

Flexibilidad de ,564 ,512 -,461 1,000 -,038 ,101 ,054 -,415 ,567
precios
Imagen de ,236 ,065 ,278 -,038 1,000 ,302 ,776 ,196 ,512
fabricante
Servicio ,709 ,625 ,490 ,101 ,302 1,000 ,236 -,079 ,599
conjunto
Imagen de ,277 ,087 ,186 ,054 ,776 ,236 1,000 ,185 ,365
fuerza de
ventas

Calidad de -,182 -,493 ,468 -,415 ,196 -,079 ,185 1,000 -,282
producto
Nivel de ,696 ,637 -,004 ,567 ,512 ,599 ,365 -,282 1,000
satisfaccin
Sig. Nivel de . ,000 ,204 ,000 ,025 ,000 ,010 ,065 ,000
(unilateral) fidelidad
Velocidad de ,000 . ,001 ,000 ,297 ,000 ,237 ,000 ,000
entrega

49
Nivel de precios ,204 ,001 . ,000 ,010 ,000 ,061 ,000 ,487

Flexibilidad de ,000 ,000 ,000 . ,378 ,202 ,327 ,000 ,000


precios
Imagen de ,025 ,297 ,010 ,378 . ,006 ,000 ,052 ,000
fabricante
Servicio ,000 ,000 ,000 ,202 ,006 . ,024 ,258 ,000
conjunto
Imagen de ,010 ,237 ,061 ,327 ,000 ,024 . ,062 ,001
fuerza de
ventas

Calidad de ,065 ,000 ,000 ,000 ,052 ,258 ,062 . ,009


producto
Nivel de ,000 ,000 ,487 ,000 ,000 ,000 ,001 ,009 .
satisfaccin

A continuacin, se presenta el modelo ajustado cuando se introducen todas las variables predictoras
simultneamente (Mtodo Introducir). Primero se muestra el ajuste del modelo y luego los coeficientes.
Ajuste del modelo
Error tpico de la
2 2
R R R corregida estimacin
a
,874 ,764 ,733 4,63769

Tabla ANOVA de la Regresin

Suma de Media
cuadrados g.l. cuadrtica F Sig.
Regresin 4248,304 8 531,038 24,690 ,000
Residual 1311,996 61 21,508
Total 5560,300 69

En la tabla del ANOVA de la Regresin, la probabilidad asociada al valor del estadstico F se denomina
Sig., que quiere decir Significacin Estadstica, es decir, la probabilidad de encontrar un valor de F igual o
mayor que el obtenido a partir de los datos muestrales.
Por ltimo, se presenta la tabla con los coeficientes de regresin parcial estandarizados y no
estandarizados y su significacin estadstica. En la misma tabla se muestran los valores de las
correlaciones de orden cero (coeficiente de correlacin de Pearson, ya visto en la matriz de
correlaciones) y los coeficientes de correlacin parcial y semiparcial.

Coeficientes no Coeficientes
estandarizados tipificados Correlaciones
B Error tp. Beta t Sig. Orden cero Parcial Semiparcial
(Constante) -8,374 6,165 -1,358 ,179
Velocidad de -1,537 2,875 -,229 -,535 ,595 ,656 -,068 -,033
entrega

50
Nivel de -1,870 2,955 -,245 -,633 ,529 ,100 -,081 -,039
precios
Flexibilidad 3,143 ,686 ,468 4,580 ,000 ,564 ,506 ,285
de precios
Imagen de -,744 1,098 -,089 -,677 ,501 ,236 -,086 -,042
fabricante
Servicio 10,983 5,678 ,886 1,934 ,058 ,709 ,240 ,120
conjunto
Imagen de 1,584 1,237 ,134 1,280 ,205 ,277 ,162 ,080
fuerza de
ventas
Calidad de ,545 ,454 ,096 1,203 ,234 -,182 ,152 ,075
producto
Nivel de ,728 1,453 ,069 ,501 ,618 ,696 ,064 ,031
satisfaccin

Dejando al margen la constante o intercepto, cuyo valor no es significativo (Sig. 0,179 > 0,05), hay
slo dos coeficientes que puede decirse que son significativos: la flexibilidad de los precios y el servicio
conjunto (aunque ste est en el lmite de significacin). El resto no son estadsticamente relevantes.
Qu significa esto? De acuerdo al valor de R2, la combinacin de todas las variables independientes
incorporadas al modelo explican el 76,4% del nivel de fidelidad del cliente, pero, a la vista de la
significacin de los coeficientes, casi toda esta variabilidad sera explicada por no ms de dos variables,
aquellas cuyos coeficientes de regresin parcial resultan significativos, que son las que presentan un
coeficiente de correlacin parcial ms alto con la VD (0,506 y 0,240).
Con este mtodo de incorporacin de todas las variables conjuntamente, en realidad no se puede
determinar cul es la contribucin de cada variable al modelo en trminos de varianza explicada, y si
esa contribucin resulta o no significativa. Por razn de parsimonia cientfica, es preferible el mtodo de
introduccin sucesiva de variables (denominado, como ya se ha dicho, Stepwise) y que da un ajuste
ptimo del modelo con el menor nmero de variables. En los siguientes cuadros de resultados veremos
cul es el modelo final cuando se calcula la regresin con este mtodo. Observe el lector, que hay un
estadstico nuevo en el cuadro de bondad de ajuste, que se denomina Cambio en R cuadrado, que
especifica el aumento en este estadstico cada vez que se introduce una variable. La introduccin de
variables se detiene cuando la siguiente que debera de entrar no aporta un incremento significativo en
el R cuadrado.

8.5.2 Mtodo Stepwise (Pasos Sucesivos)


Adems de los cuadros con los estadsticos descriptivos y la matriz de correlaciones, el primer cuadro
que se muestra en la salida de resultados es el de la lista de variables introducidas en el modelo en los
diferentes pasos.

51
Variables introducidas/eliminadas
Variables Variables
Modelo introducidas eliminadas Mtodo
1 Servicio conjunto . Por pasos
criterio:
Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100.

2 Flexibilidad de . Por pasos


precios criterio:
Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100.

La variable Servicio Conjunto es la que mayor correlacin tiene con la VD (0,709), es decir, la variable
que explica ms proporcin de varianza de sta. El programa ajusta un primer modelo en el que slo
incluye esta variable. Una vez introducida esta variable (Servicio conjunto) comprueba cul de las dems
variables correlaciona ms con la parte no explicada del primer modelo ajustado, o sea, con los residuos,
y esta resulta ser la Flexibilidad de precios5. Entonces el programa, antes de incorporar esta variable al
modelo, calcula si el cambio que se va a producir en R2 es o no significativo; si lo es, rehace el modelo
con las dos variables conjuntamente y si no el proceso se detiene y tendramos un modelo con el
nmero de variables que producen cambios significativos en R2. En este caso, el cambio s es
significativo y as se puede ver en la siguiente tabla.

R Estadsticos de cambio
R cuadrado Error tp. de Cambio en R Sig. Cambio
Modelo R cuadrado corregida la estimacin cuadrado Cambio en F gl1 gl2 en F
1 ,709a ,502 ,495 6,37899 ,502 68,645 1 68 ,000
2 ,864b ,747 ,740 4,58006 ,245 64,908 1 67 ,000

Tabla del ANOVA para los diferentes modelos ajustados


Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 2793,280 1 2793,280 68,645 ,000
Residual 2767,020 68 40,691
Total 5560,300 69
2 Regresin 4154,843 2 2077,422 99,033 ,000

5
En concreto lo que el programa hace es que, una vez que ha incorporado la primera, realiza un ajuste de
regresin entre cada VI y el resto, y entre estas y la VD, y luego correlaciona los residuos. Los residuos de la VI que
correlacione ms con los residuos de la VD es la siguiente en entrar en el modelo.

52
Residual 1405,457 67 20,977
Total 5560,300 69

Coeficientes no Coeficientes
estandarizados tipificados Correlaciones
Orden
Modelo B Error tp. Beta t Sig. cero Parcial Semiparcial
1 (Constante) 20,607 3,147 6,549 ,000
Servicio 8,791 1,061 ,709 8,285 ,000 ,709 ,709 ,709
conjunto
2 (Constante) -3,835 3,783 -1,014 ,314
Servicio 8,165 ,766 ,658 10,663 ,000 ,709 ,793 ,655
conjunto
Flexibilidad 3,340 ,415 ,497 8,057 ,000 ,564 ,701 ,495
de precios

El valor del cambio en R2 al incorporar la variable Flexibilidad de Precios es exactamente el cuadrado


de su coeficiente de correlacin semiparcial (0,4952 = 0,245) y ese es el significado de sr2: aumento en la
proporcin de varianza explicada cuando se incorpora esa variable al modelo.
Lgicamente, el criterio para incorporar una nueva variable al modelo es que el cambio en R2 sea
significativo, y se contrasta con el estadstico

H7O

^ ) 1 0,245 70 2 1
W   64,908
1 H 
1 1 0,747

donde q es el nmero de nuevas variables que entran en el modelo.


Otro mtodo de construccin del modelo ptimo es el introducir al principio todas las variables
predictoras en el modelo e ir sacando una a una hasta quedarse con las que realmente estiman
significativamente la VD. Este mtodo se denomina Eliminacin hacia Atrs, y en el cuadro siguiente
podemos ver el cambio que se produce en R2 a medida que se eliminan variables. Al principio estn las
ocho predictoras (por eso el valor 8 de grados de libertad en gl1), y luego se van eliminando segn que
tengan una menor correlacin parcial con el nivel de fidelidad. Al final se queda el modelo en slo dos
predictoras, igual que en el mtodo de pasos sucesivos. Lo interesante de esta tabla es que ningn
decremento de R2 es realmente significativo. No obstante, a partir del modelo 7 (con las dos variables
conocidas, servicio conjunto y flexibilidad de precios), si se extrajera una de las dos variables el cambio
s sera significativo, y esa es la razn por la que el proceso se para.

53
Resumen del modelo
Estadsticos de cambio
R Error tp. Cambio Sig.
R cuadrado de la en R Cambio Cambio
Modelo R cuadrado corregida estimacin cuadrado en F gl1 gl2 en F
a
1 ,874 ,764 ,733 4,63769 ,764 24,690 8 61 ,000
2 ,874b ,763 ,736 4,60960 -,001 ,251 1 61 ,618
c
3 ,873 ,762 ,740 4,58100 -,001 ,221 1 62 ,640
d
4 ,873 ,762 ,743 4,55177 -,001 ,186 1 63 ,668
5 ,872e ,760 ,746 4,52720 -,001 ,300 1 64 ,586
f
6 ,870 ,757 ,746 4,52808 -,004 1,026 1 65 ,315
g
7 ,864 ,747 ,740 4,58006 -,009 2,547 1 66 ,115

a. Variables predictoras: (Constante), Nivel de satisfaccin, Nivel de precios, Imagen de fuerza de ventas, Calidad
de producto, Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto
b. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto
c. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Velocidad de entrega, Servicio conjunto
d. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Servicio conjunto
e. Variables predictoras: (Constante), Imagen de fuerza de ventas, Calidad de producto, Flexibilidad de precios,
Servicio conjunto

f. Variables predictoras: (Constante), Imagen de fuerza de ventas, Flexibilidad de precios, Servicio conjunto

g. Variables predictoras: (Constante), Flexibilidad de precios, Servicio conjunto

Otro detalle de inters son los valores del Error Tpico de Estimacin, que es mayor cuando estn
todas las variables independientes en el modelo que cuando slo estn las dos realmente explicativas. El
error es pensar que cuantas ms variables tengamos mejor se explica la VD, pero se ve claramente que
no es el caso. Para estos datos, el error aumenta proporcionalmente el 1,26% (4,63769 - 4,58006)/
4,58006 = 0,0126) de tener las dos predictoras en el modelo a tener las ocho.
En resumen, aparte de las variables mencionadas, el resto de variables no aportan cambios
significativos a la explicacin de la VD y por tanto no son tenidos en cuenta en el modelo. Por tanto, la
fidelidad de los clientes de la empresa estudiada es funcin, sobre todo, del Servicio Conjunto que
ofrece la empresa, lo que explica un 50,2% de la fidelidad mientras que la percepcin de la flexibilidad
de precios aade un 24,5% ms a la explicacin, lo cual hace que entre ambas se explique el 74,7% de la
fidelidad. A partir de estos resultados, los analistas y directivos de la empresa tienen bastantes
elementos para disear una estrategia de fidelizacin actuando sobre las variables que segn los
clientes no aaden valor a sta.

54
8.6 Resumen

El anlisis de los diseos ex post facto trata de determinar cmo un conjunto de variables, que
llamamos independientes, predictoras o explicativas, pueden explicar el comportamiento de la variable
objeto de estudio, que llamamos dependiente o criterio. Ello se ha realizado en tres pasos:
Ajuste del modelo de regresin para estimar la VD. Slo se han tratado ajustes de modelo
lineales, es decir, modelos en que la VD es una funcin lineal de la o las VIs. Cuando slo hay
una VI, el modelo se conoce como de Regresin Lineal Simple y cuando hay varias VIs, como
de Regresin Lineal Mltiple.
Clculo de la bondad del modelo ajustado. El estadstico que cuantifica el ajuste se
denominado coeficiente de determinacin y su valor oscila entre 0 y 1, e informa de la
proporcin en que la o las VIs explican la VD. En el caso de la regresin simple, este valor es
el cuadrado del coeficiente de correlacin de Pearson, y en el caso de la regresin mltiple
este valor es el cuadrado del coeficiente de correlacin mltiple. La parte no explicada por el
modelo de regresin es aquella que no est relacionada linealmente con la VD.
Contraste de significacin de los estadsticos del modelo: Coeficiente de determinacin,
coeficientes de regresin parcial y, en el caso de la regresin mltiple, coeficientes de
correlacin semiparcial y parcial. Para el coeficiente de determinacin, R2, el contraste se
basa en la comparacin de las medias cuadrticas de la regresin y las medias cuadrticas del
error, expresado este contraste mediante la tabla del ANOVA. Adems, se ha visto cmo
realizar los contrastes de los coeficientes de regresin parcial y de correlacin semiparcial y
parcial.
Los diferentes coeficientes que han aparecido en el captulo son:
R, que expresa la correlacin entre la VD (Y) y la mejor funcin lineal de las VIs (Xis)
R2, que se interpreta como la proporcin de varianza de VD asociada a la combinacin lineal
de las VIs. Tambin se interpreta como la reduccin proporcional del error inicial de la VD
cuando se ajusta un modelo de estimacin con las VIs.
sri, coeficiente de correlacin semiparcial, expresa la correlacin entre Y y Xi, cuando de sta
se ha extrado la que mantiene con el resto de Xis.
sri2, proporcin de varianza de Y asociada nicamente la varianza de Xi, y expresa el
incremento en R2 cuando la variable Xi entra en el modelo
pri, expresa la correlacin pura entre Y y Xi. Es decir, expresa la correlacin entre la parte
de Y no asociada linealmente con el resto de predictoras y la porcin de Xi no asociada
linealmente con el resto de predictoras.
pri2, expresa la proporcin de varianza de Y no asociada al resto de X que s est asociada con
X i.
Por ltimo, se ha planteado un ejercicio con un conjunto de datos para ver cmo se interpreta una
salida de resultados del anlisis realizado con un programa informtico.

55
8.7 Ejercicio de Autoevaluacin

Todas las preguntas estn relacionadas con datos de una investigacin (ficticia, con datos simulados)
en la que se trata de determinar la influencia que sobre el resultado en las pruebas para acceder a un
puesto de trabajo especializado tienen una serie de variables, como son los das que asisten a tutora en
una escuela de formacin para ese tipo de profesionales (variable X1), y la expectativa de empleo que
manifiestan los sujetos (variable X2), variables todas ellas cuantitativas o mtricas. Como variable
dependiente se toma, como se ha sealado, el resultado en una prueba en trminos de puntuacin
obtenida (variable Y). Los datos de 25 personas son los siguientes:

X1 X2 Y
31 9 108
41 6 86
20 9 80
41 7 79
40 9 96
28 9 79
41 9 98
37 8 86
41 6 89
39 11 92
56 9 111
43 11 102
42 10 89
36 7 90
36 13 112
32 7 83
49 8 104
45 11 98
20 10 88
33 11 106
39 13 110
19 10 92
27 12 92
17 11 81
29 13 103

Para facilitar los clculo, en las siguientes dos tablas presentamos los estadsticos descriptivos de
cada variable, y la matriz de correlaciones

56
Estadsticos descriptivos
X1 X2 Y
Suma 882 239 2354
Media 35,2800 9,5600 94,1600
Desv. Tpica 9,7105 2,0833 10,5423
Varianza 94,2933 4,3400 111,1400

Matriz de correlaciones de
orden cero
X1 X2 Y
X1 -0,231 0,436
X2 0,504
Y

8.7.1 Preguntas
1. Cul es la ecuacin de regresin para la predecir el comportamiento de la variable Y a partir
de la variable X1?
a. Y = 77,465 + 0,473X1 (*)
b. Y = 35,465 + 0,573X1
c. Y = 77,465 + 0,743X1
2. Cul es la ecuacin de regresin para la predecir el comportamiento de la variable Y a partir
de la variable X2?
a. Y = 44,236 + 1,873X2
b. Y = 69,768 + 2,551X2 (*)
c. Y = 77,465 + 0,743X1
3. El coeficiente de correlacin mltiple del modelo Y = B0 + B1X1 + B2X2 para los datos
propuestos es:
a. 0,874
b. 0,759 (*)
c. 0,576
4. El coeficiente R2 ajustado para los datos es:
a. 0,594
b. 0,512
c. 0,538 (*)
5. Siguiendo el mtodo de Pasos Sucesivos (Stepwise) para lograr el mejor ajuste, qu cambio
se produce en R2 cuando se incorpora la segunda variable?
a. 0,322 (*)
b. 0,254

57
c. 0,222

a. 5  0,423U % 1,436


6. La ecuacin de regresin mltiple estandarizada para los datos es:

b. 5  1,014U % 0,872


c. 5  0,583U % 0,639 (*)
7. La varianza de los errores una vez ajustado el modelo de regresin mltiple es:
a. 47,109 (*)
b. 64,031
c. 111,140
8. El error tpico de estimacin del modelo ajustado es:
a. 7,891
b. 7,169 (*)
c. 8,235
9. La correlacin entre la variable dependiente Y y la predictora X1, una vez que se ha eliminado
el influjo de X2 sobre ambas variables, es:
a. 0,659 (*)
b. 0,567
c. 0,621
10. Cul es la proporcin de la varianza de Y asociada a X2, y no asociada a X1
a. 0,234
b. 0,342
c. 0,477 (*)

8.7.2 Solucin ejercicios de autoevaluacin


Debajo de las respuestas estn las operaciones necesarias, a partir de los estadsticos y la matriz de
correlaciones.

Pregunta 1 A
Pregunta 2 B
8 10,5423
$U  U  0,436  0,473
8 9,7105

$&  9 $U 9U  94,16 0,473 35,28  77,465

8 10,5423
$U    0,504  2,5514
8B 2,0833

$&  9 $U 9  94,16 2,5514 9,56  69,768

Pregunta 3. B

58
U

% 

2U  U 0,436 % 0,504 2 0,436 0,504 0,231
H.U  Q Q  0,759
1 U
1 0,231

Pregunta 4. C
 1 25 1
H|.U

 1 p1 H.U

s  1 1 0,759   0,538
 ) 1 25 2 1

Pregunta 5. A
H.U



 0,759 0,504  0,322

El mtodo Stepwise, la primera variable en entrar en el modelo sera la X2 pues es la que ms


correlaciona con Y
Pregunta 6. C
U  U 0,436 0,504 0,231
kU    0,583
1 U
1 0,231
 U U 0,504 0,436 0,231
k    0,639
1 U
1 0,231

Pregunta 7. A
8JJOJ

 1 H.U
8
  1 0,759  111,14  47,109

Pregunta 8. B

 ` 1130,6
P<  Q Q  7,169
 ) 1 25 2 1

El numerador del cociente dentro de la raz es la suma de cuadrados de los errores, y se obtienen
mediante
}  `  8JJOJ
 1  47,109 25 1  1130,6

Pregunta 9. A
Se trata del coeficiente de correlacin parcial entre las variable Y y X1.
U  U 0,436 0,504 0,231
)U    0,657

1 


1 U


1 0,504
1 0,231

Pregunta 10. C
 U U 0,504 0,436 0,231

)    0,477

1 U

1
U

1 0,436
1 0,231

i
Recurdese que la funcin logartmica es la inversa de la exponencial. Esto es, si la funcin exponencial (
y = a n ) es el valor de y en funcin de n (para un valor de la base, a, fijo), la funcin logaritmo de un nmero x con

59
base a es la potencia a la que debe elevarse la base para dar x ( x = log ay ). Cuando se adjetiva el logaritmo
como natural significa que la base es el nmero irracional e 2.71828182845...

60

También podría gustarte