Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Libro Diseños y Analsisid e Datos PDF
Libro Diseños y Analsisid e Datos PDF
UNED
2
8.1 Introduccin
1
Al igual que en los captulos de Diseos de ms de dos grupos, en este captulo designaremos la variable
dependiente por Y, mientras que las variables independientes las designaremos como Xi, siendo i = 1,.,n, segn el
nmero de variables independientes que se incorporen en el ARM.
2
Cohen, J, Cohen, P. , West, S. G.y Aiken, L. S. Applied Multiple Regression/Correlation. Analysis for the
Behavorial Sciences. 3 Ed. Lawrence Erlbaum Assoc. N, Jersey, 2003.
3
formacin acadmica de los padres, nivel de ingresos familiares, etc., porque pueden explicar el
rendimiento ms que el tipo de escuela.
La ejecucin de una tarea est relacionado con el nivel de activacin de las personas, y la
relacin tiene una forma de U invertida (esta relacin se conoce en el mbito de la psicologa
experimental como la Ley de Yerkes y Dodson)
Cada una de estas hiptesis plantea una relacin entre una o ms variables explicativas (VIs) y la
variable dependiente (VD) objeto de estudio y, por consiguiente, todas ellas pueden ser contrastadas
mediante Anlisis de Regresin.
En este captulo vamos a estudiar nicamente el Anlisis de Regresin Lineal Simple y Mltiple y
vamos a apoyar la explicacin mediante ejemplos numricos para facilitar la comprensin de la tcnica
de anlisis, utilizando el mnimo soporte matemtico que es posible.
8.2 Objetivos
Cuando una variable, que llamaremos independiente (VI), aporta informacin sobre otra variable,
que llamaremos dependiente (VD), decimos que ambas estn relacionadas y esa informacin puede
servir para saber ms sobre el comportamiento de la variable dependiente, sabiendo el
comportamiento de la independiente. Esta relacin, como se ha sealado en la introduccin, puede ser
de diversos tipos: lineal, potencial, exponencial, logartmica, polinmica, etc. El tipo de relacin entre las
variables se detecta a travs de la representacin grfica de todos los pares de valores en ambas
variables. Supongamos, por ejemplo, los datos de la Tabla 8.1 (que servirn como conjunto de datos
para la explicacin del ARS) con las puntuaciones de 16 escolares en dos variables: una prueba de
vocabulario (variable X o independiente) y el nmero de errores ortogrficos detectados dentro de un
texto (variable Y o dependiente).
4
Tabla 8.1
Datos de 16 escolares en una prueba de vocabulario (X) y nmero de errores ortogrficos
detectados en un texto (Y)
Sujeto X Y Sujeto X Y
1 3 9 9 10 22
2 1 7 10 2 6
3 7 12 11 5 10
4 9 18 12 7 18
5 10 18 13 9 16
6 8 13 14 6 13
7 4 8 15 7 15
8 6 17 16 8 16
5
Figura 8.1 Diagrama de dispersin de los datos de la tabla 8.1
(8.1)
(8.2)
(8.3)
El resultado del coeficiente con puntuaciones directas y diferenciales para nuestros datos es:
171,25
0,8924
113,75
323,75
6
En la Tabla 8.2 se muestran los clculos necesarios para obtener los diferentes elementos de las
frmulas.
Tabla 8.2
Desarrollo para el clculo del coeficiente de correlacin de Pearson
Puntuaciones directas Puntuaciones diferenciales
Sujetos X Y XY X2 Y2 x y xy x2 y2
1 3 9 27 9 81 -3,375 -4,625 15,609375 11,390625 21,390625
2 1 7 7 1 49 -5,375 -6,625 35,609375 28,890625 43,890625
3 7 12 84 49 144 0,625 -1,625 -1,015625 0,390625 2,640625
4 9 18 162 81 324 2,625 4,375 11,484375 6,890625 19,140625
5 10 18 180 100 324 3,625 4,375 15,859375 13,140625 19,140625
6 8 13 104 64 169 1,625 -0,625 -1,015625 2,640625 0,390625
7 4 8 32 16 64 -2,375 -5,625 13,359375 5,640625 31,640625
8 6 17 102 36 289 -0,375 3,375 -1,265625 0,140625 11,390625
9 10 22 220 100 484 3,625 8,375 30,359375 13,140625 70,140625
10 2 6 12 4 36 -4,375 -7,625 33,359375 19,140625 58,140625
11 5 10 50 25 100 -1,375 -3,625 4,984375 1,890625 13,140625
12 7 18 126 49 324 0,625 4,375 2,734375 0,390625 19,140625
13 9 16 144 81 256 2,625 2,375 6,234375 6,890625 5,640625
14 6 13 78 36 169 -0,375 -0,625 0,234375 0,140625 0,390625
15 7 15 105 49 225 0,625 1,375 0,859375 0,390625 1,890625
16 8 16 128 64 256 1,625 2,375 3,859375 2,640625 5,640625
Suma 102 218 1561 764 3294 171,25 113,75 323,75
Media 6,375 13,625
Desv. Tp. 2,7538 4,6458
A la vista de los datos representados en el diagrama de la Figura 8.1, es fcil intuir que la relacin
entre ambas variables puede ser modelada de tal forma que la VD se represente como una funcin de
la VI. En este caso, la funcin que, a priori y visto el diagrama, mejor puede modelar la relacin es la
lineal, es decir, una funcin que exprese la VD en trminos de los valores de la VI, sometidos a algn tipo
de transformacin lineal. Dicho de otra forma, una funcin lineal que permita hacer una estimacin de
la VD a partir de la VI, es una funcin del tipo:
7
# $ % $& ; ()(*+,+ ( )./.+012(* ,1(0/+* (8.4 a)
Al ser una estimacin, Y (puntuacin en Y predicha por el modelo lineal) se acercar ms o menos al
verdadero valor de la VD. Este ajuste ser mayor cuanto mayor sea la relacin entre las variables, es
decir, depender del valor del coeficiente de correlacin de Pearson, como tendremos ocasin de
demostrar ms adelante. An sabiendo que la mejor relacin puede ser representada por una funcin
lineal, queda an por determinar cul de las muchas funciones lineales (una para cada combinacin de
valores, parmetros o coeficientes de la regresin, B y B0 en la Ecuacin 8.4 lo cual significa que, en
esencia, son infinitas), es la que mejor ajusta los datos del diagrama.
8
Figura 8.2 Errores despus del ajuste de una recta
De acuerdo a la frmula (8.4), los valores en la recta los hemos denominado Y, y a los valores de la
VD los hemos denominado Y. Pensemos en estas distancias (Y Y), como la distancia que hay entre
cada valor (Y) y su media (representada por Y, ya que la prediccin realizada por la recta de regresin
representa la media que sera de esperar si el anlisis se repitiese con infinitas muestras). Ahora,
tomemos estas distancias, elevmoslas al cuadrado y sumemos todos esos cuadrados. El valor
resultante de esta suma ser el Error Cuadrtico de la Recta de Ajuste (existen otras terminologas como
Recta de Estimacin, Recta de Prediccin o Recta de Regresin, siendo cualquiera de estas
denominaciones es vlida), y slo hay una recta que hace mnimo este error. Por esta razn a este
mtodo de ajuste de una recta de regresin se le conoce como ajuste por mnimos cuadrados ya que el
objetivo es encontrar los valores B y B0 que hacen ms pequeo (mnimo) el error (Y-Y) al cuadrado.
Adems, hay otra caracterstica importante de la recta de ajuste, que se puede enunciar del siguiente
modo: la recta de regresin es una estimacin insesgada de la VD en el sentido de que la media de los
valores pronosticados es igual a la media de los valores observados. Es decir,
7 57
(8.5)
Por procedimientos matemticos que no vamos a desarrollar, el valor del parmetro B de la funcin
lineal en (8.4) que minimiza los errores cuadrticos, se obtiene de acuerdo a la expresin:
8
$
8
(8.6)
9
Conocido B, el valor de B0 se obtiene mediante la expresin:
Construida la recta de ajuste podemos expresar la variable dependiente, Y, como una funcin de la
variable independiente, X, mediante la siguiente expresin:
$& % $ % : (8.8)
Donde representa el error de prediccin y est compuesto por las distancias entre cada valor de Y e Y
para una valor dado de X que observaramos si repitisemos el procedimiento a varias muestras
diferentes.
Cul es el significado de los coeficientes de regresin? En el anlisis de regresin simple el
coeficiente protagonista es el factor B, conocido como pendiente de la recta, y cuantifica el
incremento que se produce en la estimacin de la variable dependiente (Y) cuando la independiente (X)
aumenta en una unidad.
En la Figura 8.3 se ve de manera grfica el significado de B en nuestros datos. La estimacin de Y para
un valor X = 4, proporciona el valor 10,049, y para una X = 5, el valor es 11,555. La diferencia entre estos
valores al aumentar X en una unidad (de 4 a 5) es lo que aumenta Y y ese es el valor de la pendiente. En
el caso del ejemplo que ilustra esta explicacin la pendiente nos dice que los escolares, con cada punto
ms que obtienen en la prueba de vocabulario detectan, en promedio, 1,5 errores ms en la prueba de
lectura.
10
Figura 8.3 Interpretacin grfica de la pendiente de la recta de regresin
La constante de la recta de regresin, B0, seala el punto en el que sta corta al eje de ordenadas, es
decir, el valor estimado de Y cuando X es igual a 0. No es un coeficiente interpretable en el sentido en el
que lo es la pendiente. De hecho, casi nunca es objeto de interpretacin salvo cuando el valor 0 se
encuentra dentro del rango de valores de la VI. Si no es el caso, la recta de regresin slo se puede
interpretar dentro del rango de valores de la VI, pues es con esos valores con los que se construye la
recta de estimacin. Fuera de ese rango, no se sabe qu sucede con la funcin que relaciona X con Y y
por tanto podra ser que por debajo del menor valor de la VI y/o por encima del mayor valor de la VI la
funcin de estimacin de la VD cambiara su forma.
Para que sean vlidas las inferencias que sobre la VD se hagan con la recta de regresin, se deben de
cumplir cuatro supuestos bsicos, tres de los cuales son, en esencia, los mismos que ya se han
mencionado en las tcnicas de anlisis para las pruebas T y los ANOVAS:
1. Independencia de las observaciones. Este supuesto slo se contrasta si el proceso de
seleccin de la muestra no ha sido aleatorio.
2. Homocedasticidad. Su cumplimiento supone que las varianzas de las distribuciones de los
errores, condicionadas a los diferentes valores de la VI, deben ser iguales.
3. Normalidad de las distribuciones condicionadas.
4. Independencia entre los valores estimados, Y, y los errores de estimacin, . Expresado en
trminos de coeficiente de correlacin de Pearson, ry = 0. Esto es as debido a que los
errores se distribuyen de manera aleatoria, mientras que las estimaciones o pronsticos son
una funcin de la VI.
En la Figura 8.4 se representan los supuestos 2 (las varianzas de las cuatro curvas normales dibujadas
son idnticas) y 3 (para cada valor de Xi existe una gama de valores posibles que se distribuyen
normalmente con media Y). El supuesto 4 se puede ver numricamente en los datos de la Tabla 8.3.
11
Figura 8.4 Representacin supuestos 2 y 3 en el ARS
12
Figura 8.5 Descomposicin de la suma de cuadrados de la VD
Imagine el lector que slo dispone de los estadsticos media y varianza de la prueba de deteccin de
errores del grupo de sujetos del ejemplo de la Tabla 8.1, y desea hacer una estimacin para un sujeto
concreto, y an no sabe que se ha determinado que dicha prueba est relacionada con la prueba de
vocabulario. A falta de otro tipo de informacin sobre la variable que se quiere estimar, lo correcto es
cada sujeto concreto el error que se cometer ser
7 9, y para el conjunto de datos, el error,
otorgar como mejor estimacin la media del grupo, por ser la que minimiza el error de prediccin. Para
pero an persiste un cierto error, el que va de Y a Y. Es decir, del error original,
9 , hemos
hemos denominado Y. Esta estimacin se aproxima ms al valor original (Y) de lo que lo haca la media
reducido una parte,
5 9, pero an queda otra parte,
5, sin explicar. Por tanto, la variable
original Y, expresada en puntuaciones diferenciales,
9 , es la suma de otras dos variables,
5
5 9 , que, adems, son independientes entre s; su correlacin, pues, es cero. Por tanto
podemos afirmar que a nivel de cada puntuacin individual se cumple:
13
9
# 9 %
5 (8.9)
y sumando para todos los puntos y elevando al cuadrado se obtiene lo que se conoce como Suma de
Cuadrados, dividiendo por el nmero de casos menos 1 se obtienen la varianza total de Y ( SY2 ), la
varianza de las Y predichas ( SY2' ) y la varianza de los errores ( S2 ). Como la relacin de la Ecuacin 8.9 se
sigue manteniendo, estas varianzas mantienen la relacin que puede verse en la Ecuacin 8.10:
En resumen, cuando hay una relacin lineal entre dos variables, la varianza de la VD se puede
descomponer en dos varianzas: la de los pronsticos, debido a la relacin que la VD guarda con la VI, y la
de los errores o residuos. Esta relacin se cumple tanto para la Regresin Lineal Simple como para la
Mltiple. Esta descomposicin de las varianza de la VD en dos varianzas es el Teorema de Pitgoras
del Anlisis de Regresin Lineal.
Tabla 8.3
Desarrollo numrico de la descomposicin de la varianza de la VD
X Y >
= Y'
9
# 9
#
9
5 9
5
3 9 13,6250 8,5440 -4,6250 -5,0810 0,4560 21,3906 25,8170 0,2080
1 7 13,6250 5,5330 -6,6250 -8,0920 1,4670 43,8906 65,4810 2,1522
7 12 13,6250 14,5659 -1,6250 0,9409 -2,5659 2,6406 0,8854 6,5840
9 18 13,6250 17,5769 4,3750 3,9519 0,4231 19,1406 15,6177 0,1790
10 18 13,6250 19,0824 4,3750 5,4574 -1,0824 19,1406 29,7834 1,1716
8 13 13,6250 16,0714 -0,6250 2,4464 -3,0714 0,3906 5,9850 9,4337
4 8 13,6250 10,0495 -5,6250 -3,5755 -2,0495 31,6406 12,7846 4,2002
6 17 13,6250 13,0604 3,3750 -0,5646 3,9396 11,3906 0,3187 15,5201
10 22 13,6250 19,0824 8,3750 5,4574 2,9176 70,1406 29,7834 8,5123
2 6 13,6250 7,0385 -7,6250 -6,5865 -1,0385 58,1406 43,3825 1,0784
5 10 13,6250 11,5549 -3,6250 -2,0701 -1,5549 13,1406 4,2851 2,4179
7 18 13,6250 14,5659 4,3750 0,9409 3,4341 19,1406 0,8854 11,7928
9 16 13,6250 17,5769 2,3750 3,9519 -1,5769 5,6406 15,6177 2,4867
6 13 13,6250 13,0604 -0,6250 -0,5646 -0,0604 0,3906 0,3187 0,0037
7 15 13,6250 14,5659 1,3750 0,9409 0,4341 1,8906 0,8854 0,1884
8 16 13,6250 16,0714 2,3750 2,4464 -0,0714 5,6406 5,9850 0,0051
Suma 323,7500 257,8159 65,9341
Varianzas SY2 = 21,5833 SY2' = 17,1877 S 2 = 4,3956
SY2 = 323,75 /(16 1) = 21,5833
SY2' = 257,8159 /(16 1) = 17,1877
S 2 = 65,9341 /(16 1) = 4,3956
rY 0
rXY 0,8924
R2 0,7963
14
A partir de la Ecuacin 8.10, se puede establecer una serie de relaciones. La primera es lo que
representa la proporcin de la varianza de los pronsticos respecto de la VD: la proporcin de la
varianza de la VD explicada por la varianza de la VI, ya que los pronsticos son un combinacin lineal
de la propia VI, combinacin que est representada por la recta de regresin (Y = BX + B0). La cuanta de
esta proporcin es el cuadrado del coeficiente de correlacin de Pearson entre la VD y la VI (esto solo
sirve para el caso de la Regresin Lineal Simple).
En resumen, H
(a partir de ahora lo designaremos como R2), denominado Coeficiente de
S2 2
= 1 RXY
S2Y
S2 = SY2 (1 RXY
2
) (8.13)
2
S = SY 1 R XY
15
En la Figura 8.6 se representa la varianza compartida de los datos del ejemplo, sin pretensin de
exactitud en cuanto al rea solapada de ambos crculos.
Otro indicador del ajuste, adems de R2, es lo que se conoce como Error Tpico, y es una estimacin
sobre la poblacin realizada a partir de la muestra. Su valor se deriva de la raz cuadrado del cociente
entre la Suma de Cuadrados de los residuos o errores entre los grados de libertad, que son el nmero de
observaciones muestrales menos el nmero de parmetros estimados por la regresin, que en el caso
bivariado son dos. La frmula es:
5
P< Q
) 1
(8.14)
16
R& : T 0
RU: T V 0
H [
X. 4. (X(*1
W
1 H
\X. 4. (*1,.2*
(8.15)
H /1
W
1 H
\
^
2
(8.16)
y aplicada a los datos que estn sirviendo como ejemplo, nos da un resultado de F
0,7963
W 54,743
1 0,7963
\
16
2
valor que resulta significativo, pues la probabilidad de encontrar un valor F igual o mayor, con 1 y 14
grados de libertad es p = 3,358x10-6 (este valor no puede localizarse en las Tablas debido a la magnitud
tan elevada de la F obtenida; vase para comprobarlo las figuras 8.7a y 8.7b).
1.0
6. 10-7
0.8 5. 10-7
4. 10-7
0.6
3. 10-7
0.4
2. 10-7
0.2 1. 10-7
52 54 56 58 60
0 10 20 30 40 50 60
Figura 8.7a: Distribucin F con 1 y 14 grados de Figura 8.7b: Distribucin F con 1 y 14 grados de
libertad. Obsrvese como la grfica es libertad limitada al rango de valores del eje de
indistinguible del eje de abscisas a partir de F = abscisas [50, 60]. Se puede ver que la funcin F no
17
10. toca el eje de abscisas, pero que los valores de las
ordenadas son inferiores a la millonsima.
Comparando este procedimiento con la tabla del ANOVA, tenemos, a partir de las expresiones (8.11) y
(8.12), que la razn F se puede reescribir del siguiente modo:
8IJK_J.
[
1
`IJK_J.
W
8IJKL7M. `IJKL7M.
(8.17)
[
^ 2
Lo relevante de estas expresiones son los grados de libertad asociados a la suma de cuadrados de la
regresin (1 g.l.), y por lo tanto a R2, y los grados de libertad de la suma de cuadrados de los errores o
residuos (N-2 g.l.), (y por tanto a 1 R2). El trmino N refleja el nmero de observaciones
independientes (el total de sujetos) y el valor 2 representa el nmero de restricciones que han sido
necesarias para construir la ecuacin de estimacin, a saber, la pendiente (B) y el intercepto (B0). El
nico grado de libertad asociado a la suma de cuadrados de la regresin representa la desviacin de la
pendiente B con respecto a cero. Realizando el clculo para los datos del ejemplo (vase Tabla 8.4),
cuyas sumas de cuadrados se pueden ver en las sumas de las dos ltimas columnas de la Tabla 8.3, y
puesto en formato de tabla de ANOVA:
Tabla 8.4
Tabla ANOVA para el contraste de la Regresin
ANOVA de la Regresin
FV SC GL MC F Prob.
Regresin 257,816 1 257,8159 54,743 3,36E-06
Residuos 65,9341 14 4,7096
Total 323,75 15
2
/
1
(8.17)
que se distribuye segn la t de Student con n-2 grados de libertad. Para los datos que sirven de soporte,
el valor del estadstico es:
18
0,892416 2
/ 7,3988
1 0,8924
Cuya probabilidad es, lgicamente, la misma que del valor del estadstico F, calculado anteriormente, y
ello es debido a la igualdad entre la t y la F en determinadas condiciones de los grados de libertad de F.
Esta relacin es la siguiente:
/b WU,b (8.18)
19
OPCIONAL
1
# 4
1 % 4
1
2
(8.20)
1
P#
3
(8.21)
Aplicado (8.20) y (8.21) al coeficiente de correlacin obtenido con los datos del ejemplo, y para un
intervalo de confianza del 95%, asumiendo la normalidad de la distribucin muestral de z, los lmites del
IC sern:
1
# 4
1 % 0,8924 4
1 0,8924 1,434
2
1
PA 0,2773
16 3
i
# 1,98j
cIde%
# 1,434 g
0,2773
1,96 h L #
i7
0,89
Convirtiendo estos dos valores de z, en valores de r, tomando la correspondencia de la Tabla XIII
(transformada Z de Fisher), los lmites aproximados del IC de r son, 0,71 y 0,96 (vanse las Figuras 8.8a y
8.8b para ejemplificar la utilizacin de la Tabla XIII), valores que no son simtricos respectos del
coeficiente de correlacin muestral (0,8924) ya que la distancia entre Li y rXY es distinta de la distancia
entre Ls y rXY. Es la primera vez que observamos un IC asimtrico como puede verse grficamente en la
Figura 8.9.
20
Figura 8.8a: Obtencin del valor de rinferior a partir Figura 8.8b: Obtencin del valor de rsuperior a partir
del Li de z en la Tabla XIII del Formulario. del Ls de z en la Tabla XIII del Formulario
(obsrvese que hemos tenido que aproximar ya
que el valor de 1.98 no se encuentra en la tabla).
Figura 8.9: Coeficiente de correlacin e intervalo de confianza para los datos del ejemplo. Puede verse
claramente que el IC no es simtrico con respecto a rXY muestral.
R&: k 0 ; k& 0
RU : k V 0 ; k& V 0
21
El estadstico de contraste para la pendiente es:
$ 0
/
Pl
(8.22)
8 1
Pl Q
8
2
(8.23)
1,5055 0 1,5055
/ 7,399
4,646 1 0,8924 0,2035
n
2,754
16 2
Siendo p = 3,36x10-6 (de nuevo, el valor de t = 7,399 es tan elevado que no aparece en las tablas y, por
tanto, tampoco pueden utilizarse estas para evaluar el valor de p; esto significa que este valor de
probabilidad ha sido obtenido mediante un software cientfico) la probabilidad de encontrar un valor
igual o mayor, lo cual lleva al rechazo de la H0. Observe el lector que la probabilidad de este estadstico
es la misma que la de la F en la Tabla 8.4 del ANOVA de la Regresin.
Para el intercepto, el estadstico de contraste es:
$& 0
/
Plo
(8.24)
siendo Pmo el error tpico de la distribucin muestral del intercepto, cuya expresin es:
1 9
Plo P< Q %
18
(8.25)
siendo P< el Error Tpico, ya comentado en el epgrafe de bondad de ajuste, y cuyo valor es la raz
cuadrada de la Media Cuadrtica (MC) de los Residuos de la tabla del ANOVA (Tabla 8.4) para el
contraste de la regresin, que representa la varianza residual en la poblacin para el caso de la regresin
bivariada. Como en el caso de la pendiente, el estadstico t tiene la misma distribucin con los mismos
grados de libertad.
Aplicando el contraste a los datos del ejemplo, y teniendo en cuenta que, en el caso de la regresin
bivariada la varianza residual en la poblacin tiene n-2 grados de libertad, y dado que estamos haciendo
la inferencia para la poblacin, el valor de la varianza residual es:
22
4,0275 0 4,0275
/ 2,864
1 6,375 1,4061
4,7096n16 %
16 17,583
Cuya probabilidad es 0,006, por lo que se rechaza la hiptesis nula de que el intercepto es igual a 0
(tanto si utilizamos un = 0,05 como un = 0,01 ). Como puede verse en la Figura 8.10, las Tablas
solo nos permiten determinar que 2,864 se encuentra entre los valores 2,624 y 2,977. Por consiguiente,
la p debe encontrarse entre 1-0,990 = 0.01 y 1-0.995 = 0.005. La probabilidad calculada se realiz
mediante software cientfico.
Figura 8.10
cI $ $ g p/ bC;UCq s Pl (8.26)
siendo t(n-2;1-/2), el valor de t de la distribucin t de Student con n-2 grados de libertad y un nivel de
significacin . Aplicando la frmula a los resultados del ejemplo se obtiene, para un nivel de confianza
del 95%, los siguientes lmites:
Al no contener el ICB el valor 0 entre sus lmites, se llega, obviamente, a la misma conclusin que a
travs del estadstico t.
23
Para el intercepto, la frmula de clculo del IC es:
1 6,375 7,043j
cIlo 4,0275 g
2,145 t
4,7096Q % uv
16
16 17,583 1,012
Tambin aqu se llega a la misma conclusin que con el estadstico de contraste t, se rechaza la
hiptesis nula ya que el intervalo de confianza no incluye el valor 0.
24
OPCIONAL
1
7 9
P# P< Q %
18
(8.28)
Aplicado a los datos del ejemplo con un nivel de confianza del 95%, los lmites de las estimaciones, Y
para cada valor de la VI (es decir, para cada Xi), se pueden ver en la tabla 8.5.
25
Tabla 8.5
Lmites del IC para los valores estimados de los datos del ejemplo de la Tabla 8.1
(Ecuacin de regresin: Y = 1,5055X+ 4,0275)
estructura de la frmula del error tpico, la parte ms estrecha del intervalo, se sita en el punto
9, 9,
Su representacin grfica se puede ver en la Figura 8.11. Observe el lector, que por la propia
y se va abriendo a medida que las estimaciones se alejan de este punto, debido al factor
7 9 en la
frmula del Error Tpico
26
Figura 8.11 Representacin grfica del IC para los valores estimados por la lnea de regresin.
27
OPCIONAL
28
R 0,8924
Errores Tpicos Precisin
Sx 2,7538
n B B0 Y'(x) B B0 Y'(x)
Sy 4,6458
>
w 6,3750
10 0,2692 1,8098 0,6933 0,5998 4,0325 1,5448
12 0,2408 1,6392 0,6328 0,5246 3,5715 1,3787
B 1,5055
14 0,2198 1,5093 0,5858 0,4714 3,2371 1,2563
B0 4,0275
Error 16 0,2035 1,4061 0,5479 0,4314 2,9807 1,1615
Tpico 2,1702
18 0,1903 1,3215 0,5165 0,3999 2,7763 1,0851
X 6 20 0,1794 1,2506 0,4900 0,3743 2,6086 1,0221
NC 0,95
25 0,1588 1,1136 0,4382 0,3270 2,2934 0,9025
30 0,1439 1,0136 0,4000 0,2938 2,0700 0,8169
35 0,1325 0,9364 0,3703 0,2691 1,9011 0,7518
40 0,1235 0,8746 0,3464 0,2496 1,7676 0,7001
45 0,1161 0,8236 0,3266 0,2338 1,6588 0,6577
50 0,1099 0,7806 0,3098 0,2207 1,5678 0,6222
55 0,1046 0,7437 0,2954 0,2096 1,4903 0,5919
60 0,1000 0,7115 0,2828 0,2000 1,4233 0,5657
65 0,0959 0,6832 0,2717 0,1916 1,3645 0,5426
70 0,0923 0,6581 0,2618 0,1841 1,3125 0,5222
75 0,0891 0,6355 0,2529 0,1775 1,2660 0,5039
80 0,0862 0,6151 0,2449 0,1716 1,2241 0,4874
85 0,0836 0,5966 0,2376 0,1662 1,1861 0,4724
90 0,0812 0,5796 0,2309 0,1612 1,1514 0,4587
95 0,0789 0,5640 0,2247 0,1567 1,1197 0,4461
100 0,0769 0,5496 0,2190 0,1526 1,0904 0,4346
vemos que estos estn aproximadamente en una proporciona inversa a . Cuando se cuadruplica el
Analizando las frmulas de los errores tpicos de las distribuciones muestrales de los coeficientes
tamao muestral el error tpico se divide aproximadamente por la mitad. Es fcil, pues, calcular a priori
el tamao muestral cuando sabemos el Error Tpico para un n y se desea reducir en una cierta cantidad,
29
x. el clculo del nuevo n* es n/x2. Por ejemplo, para un n = 20 tenemos un Pl = 0,1799. Si queremos
Si lo que se desea es una reduccin concreta del Error Tpico para un n dado, es decir pasar de Pl a la
reducir ese error 4 veces (es decir, o 0,25), el tamao muestral deber ser 20/0,252 = 320 sujetos.
P
expresin Plx es: x y l[P x z . Por ejemplo, si se desea pasar de un Pl de 0,78 para un n = 50 a un
l
nuevo valor de Pl igual a 0,3, la muestra necesaria es n* = 50(0,78/0,3)2 = 338 sujetos.
Como se ha sealado en el epgrafe de Introduccin, en este tema slo tratamos modelos lineales de
explicacin del comportamiento de una VD en funcin de una o varias VI. Ya hemos desarrollado la
tcnica de Anlisis de Regresin Lineal Simple, y en este epgrafe ampliamos dicho modelo para ms de
una VI, empezando por dos VI o variables predictoras. Como en el caso de una sola variable predictora,
se va a desarrollar con el mnimo aparato matemtico posible. La tcnica de clculo con el modelo de
dos variables independientes es relativamente sencilla y se puede desarrollar con un calculadora
cientfica, aunque su modelo matemtico, el mismo que el del Modelo Lineal General (MGL), del cual
los modelos de regresin y los modelos de anlisis de la varianza son parte, requiere para su desarrollo
algebra de matrices, el cual queda fuera del alcance de este texto. Dado que, en la actualidad, todos
estos procedimientos de anlisis se realizan con programas informticos de anlisis estadstico, el
inters estriba en saber leer e interpretar correctamente los resultados del anlisis. Comenzaremos, con
el modelo ms simple de regresin lineal mltiple que es el de dos variables independientes.
30
Tabla 8.7
Datos para el desarrollo del anlisis con dos VI
Horas Estudio Test Punt.
Sujeto
Razonamiento Matemticas
(X1) (X2) (Y)
1 8 19 54
2 9 18 52
3 6 14 34
4 9 24 63
5 9 19 46
6 9 16 44
7 12 17 50
8 9 14 52
9 6 23 57
10 11 21 53
11 10 17 56
12 13 19 67
13 9 24 57
14 9 19 54
15 11 17 51
El modelo de estimacin lineal de la VD con dos VIs, constar de dos coeficientes de regresin, uno
para cada VI, y una constante que ser el valor estimado para la VD cuando son nulas las dos VI. No
obstante, como ya hemos explicado anteriormente, la constante, si no est el valor cero dentro del
rango de valores de las variables predictoras no se toma en consideracin en el anlisis. Es decir, si X1= 0
y X2 = 0 no forman parte de los rangos admitidos empricamente por ambas variables, no tiene sentido
considerar el valor que adoptara la constante en esos casos. El modelo de estimacin es:
# $U U % $ % $& (8.29)
# % : $U U % $ % $& % : (8.30)
Siendo B1 el coeficiente de regresin parcial para X1, B2 el coeficiente de regresin parcial para X2, y
B0 el intercepto con el eje de la Y cuando X1 y X2 valen 0, y los residuos una vez que se ha determinado
la funcin de estimacin de la VD. Al igual que en regresin simple, estos coeficientes son los que hacen
mnimo el error cuadrtico de prediccin, es decir, minimizan las diferencias cuadrticas entre Y e Y.
31
En primer lugar, antes de calcular los coeficientes de regresin parciales de la ecuacin, llamados as
para remarcar que es el peso o efecto de una VI cuando el resto de las VI que estn en la ecuacin
permanecen constantes, en la Tabla 8.8 se muestran los estadsticos descriptivos de cada una de las
variables, los coeficientes de correlacin entre las variables dos a dos (tambin llamados bivariados) y
las rectas de regresin simple entre cada predictor y la VD. Hemos simplificado la notacin de los
coeficientes de correlacin (ry1 representa la correlacin entre la variable Y y el predictor X1, y el resto
siguen la misma pauta) y tambin de la regresin ( Y1' representa las estimaciones Y realizadas a partir de
X1 )
Tabla 8.8
Estadsticos descriptivos de los datos de la Tabla 8.7
Horas Estudio Test Punt.
Razonamiento Matemticas
(X1) (X2) (Y)
Rectas de Regresin
Media 9,33 18,73 52,67
Desv. Tpic. 1,91 3,17 7,76
Y'1 = 1,786 X1 + 36
ry1 0,441 rY21 = 0,194
rY22 = 0,394 Y'2 = 1,537 X2 + 23,867
ry2 0,628
r12 -0,043 r122 = 0,002
Para facilitar el clculo de los coeficientes de regresin parcial de la ecuacin (8.29), comenzaremos, por
sencillez, obteniendo la ecuacin de regresin en puntuaciones tpicas o estandarizadas, cuya expresin
es:
5 kU U % k (8.31)
siendo 1 y 2 los coeficientes de regresin parcial estandarizados, y se obtienen mediante las siguientes
frmulas:
32
U U
kU
1 U
U U
k
(8.32)
1 U
Una vez determinados los coeficientes de regresin parcial estandarizados, se obtienen fcilmente los
coeficientes sin estandarizar mediante la relacin:
8
$U kU
8U
8
(8.33)
$ k
8
siendo S1 y S2, las desviaciones tpicas de las variables X1 y X2, respectivamente. Sustituyendo por los
valores de la Tabla 8.8 los coeficientes no estandarizados son:
7,76
$U 0,469 1,899
1,91
7,76
$ 0,649 1,587
3,17
33
Obtenidos los coeficientes, las funciones de estimacin de la VD con coeficientes de regresin parcial
no estandarizados y estandarizados (es decir, expresada la funcin en puntuaciones directas y tpicas),
son las siguientes:
Al ser dos las variables independientes, las estimaciones quedan situadas en un plano, que se conoce
como plano de regresin, del mismo modo que la lnea de estimacin en regresin simple se conoce
como lnea de regresin. Algunas de las puntuaciones de la VD estarn por encima del plano y otras por
debajo, y esas distancias de cada punto de la VD al plano forman los residuos del modelo de estimacin
(vase Figura 8.12).
Figura 8.12: tres vistas del conjunto de puntos y el plano de regresin. La zona azul representa el plano
visto desde arriba, la zona naranja representa el plano visto desde abajo . La tercera grfica intenta
visualizar todos los puntos, tanto los que estn situados por encima como los que estn situados por
debajo del plano. En este caso, el plano se ve en escorzo. Los datos estn representados por puntos
rojos.
El modelo ajustado, Y, ya arroja una primera interpretacin: cuando permanece constante X2, por
cada hora de estudio, la puntuacin en matemticas aumenta en promedio, 1,899 puntos, y cuando
permanece constante X1, por cada punto ms en razonamiento abstracto, aumenta 1,587 la puntuacin
e matemticas
En regresin simple, el ajuste del modelo viene dado por el coeficiente de determinacin que es el
cuadrado del coeficiente de correlacin de Pearson entre la VD y la VI, y ese coeficiente informaba de
qu porcin de la variabilidad de la VD es explicada por, o atribuida a, la variabilidad de la VI. En el caso
de la regresin mltiple, las preguntas bsicas que hay que responder son las siguientes:
Estiman bien la VD el conjunto de VIs?
Cunta variabilidad explica cada variable individualmente una vez que las otras variables han
aportado lo suyo?
34
Comencemos por responder a la primera pregunta, y para ello disponemos del denominado
coeficiente de correlacin mltiple, R, y su cuadrado, el coeficiente de determinacin, R2. Al igual que r
es el coeficiente de correlacin entre dos variables, R es el coeficiente que correlaciona la VD con una
combinacin ptima de dos o ms variables independientes. Su frmula de clculo es:
U
%
2U U
H.U Q
1 U
(8.35)
Y de forma alternativa, una expresin si cabe ms simple es la basada en los coeficientes de regresin
parcial estandarizados de la recta de regresin:
H.U
kU U % k (8.36)
Aplicada la frmula (8.32) a los datos del ejemplo, el valor de RY.12 es:
H.U
0,469
0,441 % 0,649
0,628 0,7836
8.U
H.U
H.U
8
(8.37)
En la Tabla 8.9 se muestran los valores de Y, los pronsticos y los residuos para los datos del ejemplo,
cuya funcin de estimacin de Y, ya calculada, es:
# 1,899U % 1,587 % 5,217
Tabla 8.9
Puntuacin en Matemticas actual, estimada y residual para cada sujeto
Punt.
Matemticas Estimaciones Residuos
(Y) (Y12) (Y Y12)
54 50,562 3,438
52 50,874 1,126
34 38,829 -4,829
63 60,396 2,604
46 52,461 -6,461
44 47,7 -3,7
35
50 54,984 -4,984
52 44,526 7,474
57 53,112 3,888
53 59,433 -6,433
56 51,186 4,814
67 60,057 6,943
57 60,396 -3,396
54 52,461 1,539
51 53,085 -2,085
Varianza 60,238 36,991 23,247
Ejemplo de clculo para el primer sujeto:
Y1 = 54 X 1 = 8 X 2 = 19
Y12' = 1.899 X 1 + 1.587 X 2 + 5.217 = 50.562
Y1 Y12' = 54 50.562 = 3.438
A partir de los datos de la Tabla 8.9 se obtiene el coeficiente de determinacin R2.
8U
36,991
H.U
60,238 0,614
8
1
H|.U
1
1 H.U
) 1
(8.38)
36
15 1
H|.U
1
1 0,614 0,5498
15 2 1
Otro valor que informa del ajuste es el Error Tpico (ya explicado para el caso bivariado) y que est
relacionado con R2 en el sentido de que cuando ste aumenta el Error Tpico disminuye. De acuerdo a la
ecuacin 8.14, y siendo las sumas de cuadrados las que se muestran en la Tabla 8.10, su valor para este
ejemplo es:
5 325,451
P< Q Q 5,2078
) 1 15 2 1
Tabla 8.10
Sumas de cuadrados total, residual y debidas a la regresin del ejemplo numrico
> ~
}
= = }
= =5~ > ~
}
=5 =
SCTotal SCResiduos SCRegresin
843,333 325,451 517,968
37
explicada que es la varianza de los residuos. La varianza explicada lo es en funcin de una cierta
combinacin de las variables independientes; por consiguiente, si en un modelo, por ejemplo, con dos
predictoras X1 y X2, se ajusta una regresin de la 1 sobre la 2, se extraen los residuos y, por ltimo, los
correlaciono con la VD, habr calculado el coeficiente de correlacin semiparcial entre X1 y la VD
habiendo eliminado el influjo de X2 sobre la VD. Por otra parte, si se ajusta una regresin simple entre X2
y X1 (obsrvese el cambio de subndices en relacin a la frase anterior), se extraen los residuos y stos se
correlacionan con la VD, habr calculado la correlacin entre el predictor X2 y la VD, habiendo eliminado
el influjo de X1 sobre la VD.
Para llevar a cabo este clculo de los coeficientes de correlacin semiparcial no es necesario
proceder como hemos explicado en el prrafo anterior; hay frmulas muy sencillas para ello, a partir de
las correlaciones de orden cero.
U U
*U
1 U
U U
(8.39)
*
1 U
y elevando al cuadrado estos valores se tiene la contribucin que cada VI tiene sobre la VD habiendo
eliminado el influjo de las otras VIs. En la Figura 8.13 se observa grficamente, mediante un Diagrama
de Venn, ests contribuciones expresadas en forma de rea compartida
Figura 8.13 Diagrama de Venn para un modelo de regresin con dos variables independientes
Tomando como referencia el diagrama de la Figura 8.13, las equivalencias entre las zonas designadas
con letras y los cuadrados de los coeficientes de correlacin semiparcial, son las siguientes:
38
+ *U H.U
(8.40)
* H.U
U
siendo:
~=.~ % %
~= %
~=~ %
Para el ejemplo numrico que sirve de base a la explicacin, los clculos de los coeficientes de
correlacin semiparcial son los siguientes:
Estos valores elevados al cuadrado dan la proporcin de varianza compartida por cada
predictora habiendo eliminado el influjo de la otra predictora sobre la misma.
* 0,6481 0,4200
El valor 0,46812 (0,2191) es a en el diagrama de la Figura 8.13, y 0,64812 (0,4200) es b. Estos dos
valores representan la contribucin exclusiva que cada variable hace a la explicacin de la dependiente.
La porcin c, es la proporcin de varianza de la VD estimada conjuntamente (es decir, de forma
redundante) por las dos variables. Sin embargo esta proporcin es de muy difcil interpretacin.
El otro coeficiente que se calcula en los modelos de regresin, y que adems sirve para determinar
cul es la primera variable que se incorpora al modelo cuando se realiza variable a variable3, es el
denominado coeficiente de correlacin parcial, pr. La diferencia con el semiparcial es que en el parcial
3
Hay varios mtodos para la introduccin de variables en el anlisis de regresin. Uno de estos mtodos es el
denominado Stepwise (Pasos Sucesivos) y en l se introduce en primer lugar la variable con mayor correlacin con
el criterio, y a partir de ah, sucesivamente la variable que mayor correlacin parcial tenga con el criterio. El
proceso de introduccin de variable se detiene cuando la siguiente variable independiente que va a entrar no
aporta un plus significativo a la explicacin de la VD.
39
se elimina el influjo de los predictores tanto de la VI objeto de correlacin como de la VD. Es decir, es
una correlacin entre residuos.
En el modelo de dos variables, si se ajusta una recta entre Y y X2, y nos quedamos con los residuos, y
si se ajusta una recta entre X1 y X2, y nos quedamos tambin con los residuos, podemos correlacionar
ambos residuos. De esta forma obtendremos la correlacin parcial entre Y y X1. A partir de aqu se ve
claro que esta es la correlacin pura entre dos variables, puesto que de ambas se ha extrado el influjo
de terceras variables. Al igual que en la correlacin semiparcial, no es necesario el clculo de los
residuos, pues se pueden obtener a partir de los correlaciones de orden cero entre pares de variables.
U U
)U
1
1
U
U U
(8.41)
)
1 U
1 U
+ H.U
)U
+%, 1
H.U
U
(8.42)
)
%, 1 U
Aplicando las frmulas a los datos del ejemplo, los coeficientes son:
Si se hubiera realizado una regresin paso a paso, es decir, introduciendo las variables por su relacin
con la VD, la primera que habra entrado en el modelo hubiera sido la variable X2 (en el ejemplo,
Razonamiento abstracto) que es la que presenta mayor correlacin con la VD.
En resumen, por los resultados del coeficiente de correlacin parcial y semiparcial al cuadrado, en el
modelo obtenido est clara la contribucin de ambas variables a la explicacin de la puntuacin en
matemticas. El cuadrado de los coeficientes pr seala la proporcin de varianza de una VI asociada con
la parte de la VD que no est asociada con la otra VI. En nuestro caso es mayor la de razonamiento
abstracto que la de tiempo de estudio (52,11% y 36,22%, respectivamente). Adems, el modelo es
bueno (luego veremos su significacin estadstica, por medio de los contrastes) porque ambas variables
independientes tienen una buena relacin con la dependiente, y sin embargo, entre ellas no hay apenas
40
relacin (es, pues, un modelo casi ideal4). Cmo se manifiesta numricamente la ausencia de relacin
entre las variables independientes?, pues sencillamente en que el coeficiente de determinacin, R2
(0,6141), tiene un valor aproximado (siempre menor) que la suma de los cuadrados de los coeficientes
de correlacin semiparcial (0,2191+0,4200 = 0,6391 < 0.6141). La diferencia entre ambos valores es la
parte redundante del diagrama de Venn (zona c) que el modelo de regresin elimina cuando se ajusta
con el conjunto completo de variables independientes.
4
Los datos del ejemplo son ficticios y han sido simulados para lograr este efecto de correlacin media-alta de
las variables predictoras con la VD y ausencia de correlacin entre las predictoras. En anlisis de regresin, cuando
las VIs correlacionan se dice que hay colinealidad, y cuanto mayor es sta peor es el modelo de regresin.
41
EL RESTO DEL CAPTULO (HASTA LOS EJERCICIOS DE AUTOEVALUACIN) ES OPCIONAL
4H
1 H
) 1
PB Q
1
% 3
(8.43)
4
0,6141
1 0,6141
15 2 1
PB Q 0,1143
15 1
15 % 3
siendo el IC de R2 al 95%: 0,6141 (2,16)(0,1143) = (0,367 ; 0,861) siendo 2,16 es el valor crtico de la
distribucin t con 15-2 = 13 grados de libertad. A partir de estos lmites se rechazara la hiptesis nula de
que R2 en la poblacin es igual a 0 ya que los lmites no incluyen este valor.
Al mismo resultado llegaremos a travs del estadstico F de la tabla ANOVA, valor que, adems de
obtenerse como el cociente de las medias cuadrticas de la regresin y del residuo, se puede calcular
tambin con la siguiente frmula basada en R2:
HU
) 1
W
1 HU
)
(8.44)
Tabla 8.11
Estadsticos de la regresin de los datos de la Tabla 8.7, y contraste de R2
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,7836
Coeficiente de determinacin R2 0,6141
42
R2 ajustado 0,5498
Error tpico residual (P< ) 5,2078*
Observaciones 15
ANOVA de la Regresin
FV SC GL MC F Prob.
Regresin 517,968 2 258,984 9,549 0,003
Residuos 325,451 12 27,121
Total 843,333 14
8 1 1 H.U
Pl Q Q
87 1 H7 ) 1
(8.45)
donde H.U
es el coeficiente de determinacin, H7, es el coeficiente de determinacin de la regresin
de la variable predictora i respecto del resto de variables predictoras; es decir, la proporcin de varianza
ejemplo, al ser slo dos las predictoras, el valor de H7 es el mismo para calcular el error tpico de ambos
de la predictora i explicada por una combinacin ptima del resto de predictoras (en el caso del
43
Horas Estudio 1,8991 0,7275 2,6102 0,0228 0,3139 3,4842
Test
Razonamiento 1,5868 0,4391 3,6138 0,0036 0,6300 2,5435
* Los lmites, se obtienen restando y sumando al valor del coeficiente, el producto entre el error tpico y el valor de t para un
nivel de confianza del 95% y n-p-1 grados de libertad (en el caso del ejemplo, este valor es 2,179). No se ha incluido el contraste
de la constante
Por ltimo, quedara el contraste de las correlaciones parcial y semiparcial. Como se han visto en la
frmulas estos dos coeficientes difieren en su clculo solo en el denominador por lo que o los dos son
igual a cero o los dos son diferentes de cero. Por ello, el estadstico de contraste se calcula slo para uno
de los coeficientes, en este caso el semiparcial. La frmula es:
) 1
/7 *7 Q
1 H
(8.46)
15 2 1
/U 0,4681Q 2,6102
1 0,6141
15 2 1
/ 0,6481Q 3,6138
1 0,6141
Que son los valores del estadstico t para los coeficientes de regresin parcial que se muestran en la
Tabla 8.12.
Una vez explicados los fundamentos bsicos del anlisis de regresin (hemos dejado al margen los
diferentes mtodos que hay para desarrollar el anlisis, el estudio de los casos de influencia o el anlisis
de los residuos, por exceder el alcance de este curso) es importante que el lector vea una salida de
resultados de una anlisis de regresin realizado con un programa informtico de anlisis estadstico, e
identificar los elementos que se han expuesto en el captulo.
Los datos de este ejercicio est adaptado del texto de Hair, Anderson, Tatham y Black (2001)
Anlisis Multivariado, y se refieren al estudio que una empresa ficticia (HATCO) realiza para
determinar el nivel de fidelidad de sus clientes, a partir de un conjunto de variables predictoras o
independientes, todas ellas cuantitativas, que se presentan en el Cuadro 8.2. El trmino Mtrica, a la
derecha del nombre de la variable, seala que es una variable de tipo cuantitativo.
44
X1 Velocidad de entrega Mtrica
X2 Nivel de precios Mtrica
X3 Flexibilidad de precios Mtrica
X4 Imagen del fabricante Mtrica
X5 Servicio conjunto Mtrica
X6 Imagen de fuerza de ventas Mtrica
X7 Calidad de producto Mtrica
X8 Nivel de fidelidad Mtrica
X9 Nivel de satisfaccin Mtrica
Percepciones de HATCO
Cada una de estas variables, excepto el Nivel de fidelidad (X8), se midi con una escala de
puntuacin grfica donde se dibuj una lnea entre dos puntos separados por diez centmetros que se
denominaron Pobre y Excelente:
Pobre Excelente
Los encuestados sealan su percepcin haciendo una marca en la lnea. La marca se mide y se
registra la distancia desde el punto que se consider cero, en este caso, Pobre. La medicin se realiz
en centmetros. El resultado fue una escala que iba desde cero a diez, redondeado a un nico decimal.
Los siete atributos de HATCO puntuados por los encuestados y que sirven de VIs son los siguientes:
X1 Velocidad de entrega: tiempo que transcurre hasta que se entrega el producto, una vez que
se hubo confirmado el pedido.
X2 Nivel de precio: nivel de precios percibido por los clientes industriales.
X3 Flexibilidad de precios: la disposicin percibida en los representantes de HATCO para
negociar el precio de todas las compras.
X4 Imagen del fabricante: imagen conjunta del fabricante/distribuidor.
X5 Servicio: nivel conjunto de servicio necesario para mantener una relacin satisfactoria entre el
vendedor y el comprador.
X6 Imagen de la fuerza de ventas: imagen conjunta de la fuerza de ventas del fabricante.
X7 Calidad del producto: nivel de calidad percibido en un producto particular (por ejemplo, el
acabado o el rendimiento).
X9 Nivel de satisfaccin: satisfaccin del comprador con las compras anteriores realizadas a
HATCO, medidas en el mismo grfico de la escala de clasificacin de las entradas X1 a X7
La VD es:
X8 Nivel de fidelidad: cunto se compra a HATCO del total del producto de la empresa, medido
en una escala porcentual, que va desde 0 al 100 por cien.
45
46
Datos del ejercicio de Anlisis de Regresin Mltiple
id x1 x2 x3 x4 x5 x6 x7 x8 x9 id x1 x2 x3 x4 x5 x6 x7 x8 x9
1 4,10 0,60 6,90 4,70 2,40 2,30 5,20 32,00 4,20 36 3,10 1,90 10,00 4,50 2,60 3,20 3,80 55,00 4,90
2 1,80 3,00 6,30 6,60 2,50 4,00 8,40 43,00 4,30 37 3,40 3,90 5,60 5,60 3,60 2,30 9,10 43,00 4,70
3 3,40 5,20 5,70 6,00 4,30 2,70 8,20 48,00 5,20 38 5,40 2,10 8,00 3,00 3,80 1,40 5,20 53,00 3,80
4 2,70 1,00 7,10 5,90 1,80 2,30 7,80 32,00 3,90 39 3,70 0,70 8,20 6,00 2,10 2,50 5,20 41,00 5,00
5 6,00 0,90 9,60 7,80 3,40 4,60 4,50 58,00 6,80 40 4,50 4,10 6,30 5,90 4,30 3,40 8,80 50,00 5,50
6 1,90 3,30 7,90 4,80 2,60 1,90 9,70 45,00 4,40 41 2,80 2,40 6,70 4,90 2,50 2,60 9,20 32,00 3,70
7 4,60 2,40 9,50 6,60 3,50 4,50 7,60 46,00 5,80 42 3,80 0,80 8,70 2,90 1,60 2,10 5,60 39,00 3,70
8 1,30 4,20 6,20 5,10 2,80 2,20 6,90 44,00 4,30 43 2,90 2,60 7,70 7,00 2,80 3,60 7,70 47,00 4,20
9 5,50 1,60 9,40 4,70 3,50 3,00 7,60 63,00 5,40 44 4,90 4,40 7,40 6,90 4,60 4,00 9,60 62,00 6,20
10 4,00 3,50 6,50 6,00 3,70 3,20 8,70 54,00 5,40 45 4,30 1,80 7,60 5,40 3,10 2,50 4,40 46,00 5,60
11 2,40 1,60 8,80 4,80 2,00 2,80 5,80 32,00 4,30 46 2,30 4,50 8,00 4,70 3,30 2,20 8,70 50,00 5,00
12 3,90 2,20 9,10 4,60 3,00 2,50 8,30 47,00 5,00 47 3,10 1,90 9,90 4,50 2,60 3,10 3,80 54,00 4,80
13 2,80 1,40 8,10 3,80 2,10 1,40 6,60 39,00 4,40 48 5,10 1,90 9,20 5,80 3,60 2,30 4,50 60,00 6,10
14 3,70 1,50 8,60 5,70 2,70 3,70 6,70 38,00 5,00 49 4,10 1,10 9,30 5,50 2,50 2,70 7,40 47,00 5,30
15 3,20 4,10 5,70 5,10 3,60 2,90 6,20 38,00 4,40 50 1,10 2,00 7,20 4,70 1,60 3,20 10,00 40,00 3,40
16 4,90 1,80 7,70 4,30 3,40 1,50 5,90 40,00 5,60 51 3,70 1,40 9,00 4,50 2,60 2,30 6,80 45,00 4,90
17 4,70 1,30 9,90 6,70 3,00 2,60 6,80 55,00 6,00 52 4,20 2,50 9,20 6,20 3,30 3,90 7,30 59,00 6,00
18 3,30 0,90 8,60 4,00 2,10 1,80 6,30 41,00 4,50 53 1,60 4,50 6,40 5,30 3,00 2,50 7,10 46,00 4,50
19 3,00 4,00 9,10 7,10 3,50 3,40 8,40 55,00 5,20 54 5,30 1,70 8,50 3,70 3,50 1,90 4,80 58,00 4,30
20 2,40 1,50 6,70 4,80 1,90 2,50 7,20 36,00 3,70 55 2,30 3,70 8,30 5,20 3,00 2,30 9,10 49,00 4,80
21 2,40 1,50 6,60 4,80 1,90 2,50 7,20 36,00 3,70 56 5,60 2,20 8,20 3,10 4,00 1,60 5,30 55,00 3,90
22 5,20 1,30 9,70 6,10 3,20 3,90 6,70 54,00 5,80 57 5,20 1,30 9,10 4,50 3,30 2,70 7,30 60,00 5,10
23 3,50 2,80 9,90 3,50 3,10 1,70 5,40 49,00 5,40 58 1,00 1,90 7,10 4,50 1,50 3,10 9,90 39,00 3,30
24 3,00 3,20 6,00 5,30 3,10 3,00 8,00 43,00 3,30 59 4,50 1,60 8,70 4,60 3,10 2,10 6,80 56,00 5,10
25 2,80 3,80 8,90 6,90 3,30 3,20 8,20 53,00 5,00 60 2,30 3,70 7,60 5,00 3,00 2,50 7,40 37,00 4,40
26 5,20 2,00 9,30 5,90 3,70 2,40 4,60 60,00 6,10 61 2,60 3,00 8,50 6,00 2,80 2,80 6,80 53,00 5,60
27 3,40 3,70 6,40 5,70 3,50 3,40 8,40 47,00 3,80 62 2,50 3,10 7,00 4,20 2,80 2,20 9,00 43,00 3,70
28 2,40 1,00 7,70 3,40 1,70 1,10 6,20 35,00 4,10 63 2,10 3,50 7,40 4,80 2,80 2,30 7,20 36,00 4,30
47
29 1,80 3,30 7,50 4,50 2,50 2,40 7,60 39,00 3,60 64 2,90 1,20 7,30 6,10 2,00 2,50 8,00 34,00 4,00
30 4,00 0,90 9,10 5,40 2,40 2,60 7,30 46,00 5,10 65 4,30 2,50 9,30 6,30 3,40 4,00 7,40 60,00 6,10
31 0,00 2,10 6,90 5,40 1,10 2,60 8,90 29,00 3,90 66 3,10 4,20 5,10 7,80 3,60 4,00 5,90 43,00 5,20
32 1,90 3,40 7,60 4,60 2,60 2,50 7,70 40,00 3,70 67 1,90 2,70 5,00 4,90 2,20 2,50 8,20 36,00 3,60
33 4,90 2,30 9,30 4,50 3,60 1,30 6,20 53,00 5,90 68 4,00 0,50 6,70 4,50 2,20 2,10 5,00 31,00 4,00
34 5,00 1,30 8,60 4,70 3,10 2,50 3,70 48,00 4,80 69 6,10 0,50 9,20 4,80 3,30 2,80 7,10 60,00 5,20
35 2,00 2,60 6,50 3,70 2,40 1,70 8,50 38,00 3,20 70 2,00 2,80 5,20 5,00 2,40 2,70 8,40 38,00 3,70
48
8.5.1 Resultados
En primer lugar veremos los estadsticos descriptivos de las variables, as como la matriz de
correlaciones, con su significacin estadstica (como criterio, piense el lector que una probabilidad
mayor de 0,05 supone la aceptacin de que, en la poblacin las dos variables en cuestin no estn
relacionadas).
Estadsticos descriptivos
Desviacin
Media tpica N
Nivel de fidelidad 45,9000 8,97686 70
Velocidad de entrega 3,4114 1,33466 70
Nivel de precios 2,3686 1,17825 70
Flexibilidad de precios 7,8571 1,33694 70
Imagen de fabricante 5,1686 1,07158 70
Servicio conjunto 2,8771 ,72375 70
Imagen de fuerza de ventas 2,6643 ,75662 70
Calidad de producto 7,0743 1,57973 70
Nivel de satisfaccin 4,6971 ,85651 70
Imagen de
Nivel de Velocidad Nivel de Flexibilidad Imagen de Servicio fuerza de Calidad de Nivel de
fidelidad de entrega precios de precios fabricante conjunto ventas producto satisfaccin
Correlacin de Nivel de 1,000 ,656 ,100 ,564 ,236 ,709 ,277 -,182 ,696
Pearson fidelidad
Velocidad de ,656 1,000 -,363 ,512 ,065 ,625 ,087 -,493 ,637
entrega
Nivel de precios ,100 -,363 1,000 -,461 ,278 ,490 ,186 ,468 -,004
Flexibilidad de ,564 ,512 -,461 1,000 -,038 ,101 ,054 -,415 ,567
precios
Imagen de ,236 ,065 ,278 -,038 1,000 ,302 ,776 ,196 ,512
fabricante
Servicio ,709 ,625 ,490 ,101 ,302 1,000 ,236 -,079 ,599
conjunto
Imagen de ,277 ,087 ,186 ,054 ,776 ,236 1,000 ,185 ,365
fuerza de
ventas
Calidad de -,182 -,493 ,468 -,415 ,196 -,079 ,185 1,000 -,282
producto
Nivel de ,696 ,637 -,004 ,567 ,512 ,599 ,365 -,282 1,000
satisfaccin
Sig. Nivel de . ,000 ,204 ,000 ,025 ,000 ,010 ,065 ,000
(unilateral) fidelidad
Velocidad de ,000 . ,001 ,000 ,297 ,000 ,237 ,000 ,000
entrega
49
Nivel de precios ,204 ,001 . ,000 ,010 ,000 ,061 ,000 ,487
A continuacin, se presenta el modelo ajustado cuando se introducen todas las variables predictoras
simultneamente (Mtodo Introducir). Primero se muestra el ajuste del modelo y luego los coeficientes.
Ajuste del modelo
Error tpico de la
2 2
R R R corregida estimacin
a
,874 ,764 ,733 4,63769
Suma de Media
cuadrados g.l. cuadrtica F Sig.
Regresin 4248,304 8 531,038 24,690 ,000
Residual 1311,996 61 21,508
Total 5560,300 69
En la tabla del ANOVA de la Regresin, la probabilidad asociada al valor del estadstico F se denomina
Sig., que quiere decir Significacin Estadstica, es decir, la probabilidad de encontrar un valor de F igual o
mayor que el obtenido a partir de los datos muestrales.
Por ltimo, se presenta la tabla con los coeficientes de regresin parcial estandarizados y no
estandarizados y su significacin estadstica. En la misma tabla se muestran los valores de las
correlaciones de orden cero (coeficiente de correlacin de Pearson, ya visto en la matriz de
correlaciones) y los coeficientes de correlacin parcial y semiparcial.
Coeficientes no Coeficientes
estandarizados tipificados Correlaciones
B Error tp. Beta t Sig. Orden cero Parcial Semiparcial
(Constante) -8,374 6,165 -1,358 ,179
Velocidad de -1,537 2,875 -,229 -,535 ,595 ,656 -,068 -,033
entrega
50
Nivel de -1,870 2,955 -,245 -,633 ,529 ,100 -,081 -,039
precios
Flexibilidad 3,143 ,686 ,468 4,580 ,000 ,564 ,506 ,285
de precios
Imagen de -,744 1,098 -,089 -,677 ,501 ,236 -,086 -,042
fabricante
Servicio 10,983 5,678 ,886 1,934 ,058 ,709 ,240 ,120
conjunto
Imagen de 1,584 1,237 ,134 1,280 ,205 ,277 ,162 ,080
fuerza de
ventas
Calidad de ,545 ,454 ,096 1,203 ,234 -,182 ,152 ,075
producto
Nivel de ,728 1,453 ,069 ,501 ,618 ,696 ,064 ,031
satisfaccin
Dejando al margen la constante o intercepto, cuyo valor no es significativo (Sig. 0,179 > 0,05), hay
slo dos coeficientes que puede decirse que son significativos: la flexibilidad de los precios y el servicio
conjunto (aunque ste est en el lmite de significacin). El resto no son estadsticamente relevantes.
Qu significa esto? De acuerdo al valor de R2, la combinacin de todas las variables independientes
incorporadas al modelo explican el 76,4% del nivel de fidelidad del cliente, pero, a la vista de la
significacin de los coeficientes, casi toda esta variabilidad sera explicada por no ms de dos variables,
aquellas cuyos coeficientes de regresin parcial resultan significativos, que son las que presentan un
coeficiente de correlacin parcial ms alto con la VD (0,506 y 0,240).
Con este mtodo de incorporacin de todas las variables conjuntamente, en realidad no se puede
determinar cul es la contribucin de cada variable al modelo en trminos de varianza explicada, y si
esa contribucin resulta o no significativa. Por razn de parsimonia cientfica, es preferible el mtodo de
introduccin sucesiva de variables (denominado, como ya se ha dicho, Stepwise) y que da un ajuste
ptimo del modelo con el menor nmero de variables. En los siguientes cuadros de resultados veremos
cul es el modelo final cuando se calcula la regresin con este mtodo. Observe el lector, que hay un
estadstico nuevo en el cuadro de bondad de ajuste, que se denomina Cambio en R cuadrado, que
especifica el aumento en este estadstico cada vez que se introduce una variable. La introduccin de
variables se detiene cuando la siguiente que debera de entrar no aporta un incremento significativo en
el R cuadrado.
51
Variables introducidas/eliminadas
Variables Variables
Modelo introducidas eliminadas Mtodo
1 Servicio conjunto . Por pasos
criterio:
Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100.
La variable Servicio Conjunto es la que mayor correlacin tiene con la VD (0,709), es decir, la variable
que explica ms proporcin de varianza de sta. El programa ajusta un primer modelo en el que slo
incluye esta variable. Una vez introducida esta variable (Servicio conjunto) comprueba cul de las dems
variables correlaciona ms con la parte no explicada del primer modelo ajustado, o sea, con los residuos,
y esta resulta ser la Flexibilidad de precios5. Entonces el programa, antes de incorporar esta variable al
modelo, calcula si el cambio que se va a producir en R2 es o no significativo; si lo es, rehace el modelo
con las dos variables conjuntamente y si no el proceso se detiene y tendramos un modelo con el
nmero de variables que producen cambios significativos en R2. En este caso, el cambio s es
significativo y as se puede ver en la siguiente tabla.
R Estadsticos de cambio
R cuadrado Error tp. de Cambio en R Sig. Cambio
Modelo R cuadrado corregida la estimacin cuadrado Cambio en F gl1 gl2 en F
1 ,709a ,502 ,495 6,37899 ,502 68,645 1 68 ,000
2 ,864b ,747 ,740 4,58006 ,245 64,908 1 67 ,000
5
En concreto lo que el programa hace es que, una vez que ha incorporado la primera, realiza un ajuste de
regresin entre cada VI y el resto, y entre estas y la VD, y luego correlaciona los residuos. Los residuos de la VI que
correlacione ms con los residuos de la VD es la siguiente en entrar en el modelo.
52
Residual 1405,457 67 20,977
Total 5560,300 69
Coeficientes no Coeficientes
estandarizados tipificados Correlaciones
Orden
Modelo B Error tp. Beta t Sig. cero Parcial Semiparcial
1 (Constante) 20,607 3,147 6,549 ,000
Servicio 8,791 1,061 ,709 8,285 ,000 ,709 ,709 ,709
conjunto
2 (Constante) -3,835 3,783 -1,014 ,314
Servicio 8,165 ,766 ,658 10,663 ,000 ,709 ,793 ,655
conjunto
Flexibilidad 3,340 ,415 ,497 8,057 ,000 ,564 ,701 ,495
de precios
H7O
^ ) 1 0,245
70 2 1
W 64,908
1 H
1
1 0,747
53
Resumen del modelo
Estadsticos de cambio
R Error tp. Cambio Sig.
R cuadrado de la en R Cambio Cambio
Modelo R cuadrado corregida estimacin cuadrado en F gl1 gl2 en F
a
1 ,874 ,764 ,733 4,63769 ,764 24,690 8 61 ,000
2 ,874b ,763 ,736 4,60960 -,001 ,251 1 61 ,618
c
3 ,873 ,762 ,740 4,58100 -,001 ,221 1 62 ,640
d
4 ,873 ,762 ,743 4,55177 -,001 ,186 1 63 ,668
5 ,872e ,760 ,746 4,52720 -,001 ,300 1 64 ,586
f
6 ,870 ,757 ,746 4,52808 -,004 1,026 1 65 ,315
g
7 ,864 ,747 ,740 4,58006 -,009 2,547 1 66 ,115
a. Variables predictoras: (Constante), Nivel de satisfaccin, Nivel de precios, Imagen de fuerza de ventas, Calidad
de producto, Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto
b. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto
c. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Velocidad de entrega, Servicio conjunto
d. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Servicio conjunto
e. Variables predictoras: (Constante), Imagen de fuerza de ventas, Calidad de producto, Flexibilidad de precios,
Servicio conjunto
f. Variables predictoras: (Constante), Imagen de fuerza de ventas, Flexibilidad de precios, Servicio conjunto
Otro detalle de inters son los valores del Error Tpico de Estimacin, que es mayor cuando estn
todas las variables independientes en el modelo que cuando slo estn las dos realmente explicativas. El
error es pensar que cuantas ms variables tengamos mejor se explica la VD, pero se ve claramente que
no es el caso. Para estos datos, el error aumenta proporcionalmente el 1,26% (4,63769 - 4,58006)/
4,58006 = 0,0126) de tener las dos predictoras en el modelo a tener las ocho.
En resumen, aparte de las variables mencionadas, el resto de variables no aportan cambios
significativos a la explicacin de la VD y por tanto no son tenidos en cuenta en el modelo. Por tanto, la
fidelidad de los clientes de la empresa estudiada es funcin, sobre todo, del Servicio Conjunto que
ofrece la empresa, lo que explica un 50,2% de la fidelidad mientras que la percepcin de la flexibilidad
de precios aade un 24,5% ms a la explicacin, lo cual hace que entre ambas se explique el 74,7% de la
fidelidad. A partir de estos resultados, los analistas y directivos de la empresa tienen bastantes
elementos para disear una estrategia de fidelizacin actuando sobre las variables que segn los
clientes no aaden valor a sta.
54
8.6 Resumen
El anlisis de los diseos ex post facto trata de determinar cmo un conjunto de variables, que
llamamos independientes, predictoras o explicativas, pueden explicar el comportamiento de la variable
objeto de estudio, que llamamos dependiente o criterio. Ello se ha realizado en tres pasos:
Ajuste del modelo de regresin para estimar la VD. Slo se han tratado ajustes de modelo
lineales, es decir, modelos en que la VD es una funcin lineal de la o las VIs. Cuando slo hay
una VI, el modelo se conoce como de Regresin Lineal Simple y cuando hay varias VIs, como
de Regresin Lineal Mltiple.
Clculo de la bondad del modelo ajustado. El estadstico que cuantifica el ajuste se
denominado coeficiente de determinacin y su valor oscila entre 0 y 1, e informa de la
proporcin en que la o las VIs explican la VD. En el caso de la regresin simple, este valor es
el cuadrado del coeficiente de correlacin de Pearson, y en el caso de la regresin mltiple
este valor es el cuadrado del coeficiente de correlacin mltiple. La parte no explicada por el
modelo de regresin es aquella que no est relacionada linealmente con la VD.
Contraste de significacin de los estadsticos del modelo: Coeficiente de determinacin,
coeficientes de regresin parcial y, en el caso de la regresin mltiple, coeficientes de
correlacin semiparcial y parcial. Para el coeficiente de determinacin, R2, el contraste se
basa en la comparacin de las medias cuadrticas de la regresin y las medias cuadrticas del
error, expresado este contraste mediante la tabla del ANOVA. Adems, se ha visto cmo
realizar los contrastes de los coeficientes de regresin parcial y de correlacin semiparcial y
parcial.
Los diferentes coeficientes que han aparecido en el captulo son:
R, que expresa la correlacin entre la VD (Y) y la mejor funcin lineal de las VIs (Xis)
R2, que se interpreta como la proporcin de varianza de VD asociada a la combinacin lineal
de las VIs. Tambin se interpreta como la reduccin proporcional del error inicial de la VD
cuando se ajusta un modelo de estimacin con las VIs.
sri, coeficiente de correlacin semiparcial, expresa la correlacin entre Y y Xi, cuando de sta
se ha extrado la que mantiene con el resto de Xis.
sri2, proporcin de varianza de Y asociada nicamente la varianza de Xi, y expresa el
incremento en R2 cuando la variable Xi entra en el modelo
pri, expresa la correlacin pura entre Y y Xi. Es decir, expresa la correlacin entre la parte
de Y no asociada linealmente con el resto de predictoras y la porcin de Xi no asociada
linealmente con el resto de predictoras.
pri2, expresa la proporcin de varianza de Y no asociada al resto de X que s est asociada con
X i.
Por ltimo, se ha planteado un ejercicio con un conjunto de datos para ver cmo se interpreta una
salida de resultados del anlisis realizado con un programa informtico.
55
8.7 Ejercicio de Autoevaluacin
Todas las preguntas estn relacionadas con datos de una investigacin (ficticia, con datos simulados)
en la que se trata de determinar la influencia que sobre el resultado en las pruebas para acceder a un
puesto de trabajo especializado tienen una serie de variables, como son los das que asisten a tutora en
una escuela de formacin para ese tipo de profesionales (variable X1), y la expectativa de empleo que
manifiestan los sujetos (variable X2), variables todas ellas cuantitativas o mtricas. Como variable
dependiente se toma, como se ha sealado, el resultado en una prueba en trminos de puntuacin
obtenida (variable Y). Los datos de 25 personas son los siguientes:
X1 X2 Y
31 9 108
41 6 86
20 9 80
41 7 79
40 9 96
28 9 79
41 9 98
37 8 86
41 6 89
39 11 92
56 9 111
43 11 102
42 10 89
36 7 90
36 13 112
32 7 83
49 8 104
45 11 98
20 10 88
33 11 106
39 13 110
19 10 92
27 12 92
17 11 81
29 13 103
Para facilitar los clculo, en las siguientes dos tablas presentamos los estadsticos descriptivos de
cada variable, y la matriz de correlaciones
56
Estadsticos descriptivos
X1 X2 Y
Suma 882 239 2354
Media 35,2800 9,5600 94,1600
Desv. Tpica 9,7105 2,0833 10,5423
Varianza 94,2933 4,3400 111,1400
Matriz de correlaciones de
orden cero
X1 X2 Y
X1 -0,231 0,436
X2 0,504
Y
8.7.1 Preguntas
1. Cul es la ecuacin de regresin para la predecir el comportamiento de la variable Y a partir
de la variable X1?
a. Y = 77,465 + 0,473X1 (*)
b. Y = 35,465 + 0,573X1
c. Y = 77,465 + 0,743X1
2. Cul es la ecuacin de regresin para la predecir el comportamiento de la variable Y a partir
de la variable X2?
a. Y = 44,236 + 1,873X2
b. Y = 69,768 + 2,551X2 (*)
c. Y = 77,465 + 0,743X1
3. El coeficiente de correlacin mltiple del modelo Y = B0 + B1X1 + B2X2 para los datos
propuestos es:
a. 0,874
b. 0,759 (*)
c. 0,576
4. El coeficiente R2 ajustado para los datos es:
a. 0,594
b. 0,512
c. 0,538 (*)
5. Siguiendo el mtodo de Pasos Sucesivos (Stepwise) para lograr el mejor ajuste, qu cambio
se produce en R2 cuando se incorpora la segunda variable?
a. 0,322 (*)
b. 0,254
57
c. 0,222
Pregunta 1 A
Pregunta 2 B
8 10,5423
$U U 0,436 0,473
8 9,7105
8 10,5423
$U 0,504 2,5514
8B 2,0833
Pregunta 3. B
58
U
%
2U U 0,436 % 0,504 2
0,436
0,504
0,231
H.U Q Q 0,759
1 U
1
0,231
Pregunta 4. C
1 25 1
H|.U
1 p1 H.U
s 1
1 0,759 0,538
) 1 25 2 1
Pregunta 5. A
H.U
0,759 0,504 0,322
Pregunta 7. A
8JJOJ
1 H.U
8
1 0,759
111,14 47,109
Pregunta 8. B
` 1130,6
P< Q Q 7,169
) 1 25 2 1
El numerador del cociente dentro de la raz es la suma de cuadrados de los errores, y se obtienen
mediante
}
` 8JJOJ
1
47,109
25 1 1130,6
Pregunta 9. A
Se trata del coeficiente de correlacin parcial entre las variable Y y X1.
U U 0,436
0,504
0,231
)U 0,657
1
1 U
1
0,504
1
0,231
Pregunta 10. C
U U 0,504
0,436
0,231
) 0,477
1 U
1
U
1
0,436
1
0,231
i
Recurdese que la funcin logartmica es la inversa de la exponencial. Esto es, si la funcin exponencial (
y = a n ) es el valor de y en funcin de n (para un valor de la base, a, fijo), la funcin logaritmo de un nmero x con
59
base a es la potencia a la que debe elevarse la base para dar x ( x = log ay ). Cuando se adjetiva el logaritmo
como natural significa que la base es el nmero irracional e 2.71828182845...
60