Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRESIÓN MÚLTIPLE
1. Predecir los valores que adoptará la variable dependiente a partir de los valores
conocidos de la serie más pequeña posible de variables independientes. Ello con-
lleva la búsqueda de la ecuación que mejor represente la asociación lineal
14 Análisis multivariable. Teoría y práctica en la investigación social
Su uso ayuda a determinar el nivel de confianza con que puede afirmarse que los
estadísticos estimados, en la muestra analizada, predicen adecuadamente las
características correspondientes de la población objeto de estudio.
La exposición del análisis de regresión múltiple comienza, a diferencia del resto de téc-
nicas analíticas multivariables reseñadas en este texto, con la enumeración y desarrollo de
cada uno de los supuestos básicos. Éstos son de imprescindible cumplimiento para ga-
rantizar la correcta realización del análisis de regresión lineal. Después, se procede al de-
talle de cada uno de los componentes del análisis, así como de los diversos procedimien-
tos alternativos para su realización. Como ya se dijo en ia introducción, para facilitar la
comprensión de la técnica analítica, la exposición teórica se acompaña de ejemplos prác-
ticos. Principalmente, del análisis propio efectuado de una selección de ítems de la encuesta
“Actitudes ante la inmigración”, de junio de 1996, del Centro de Investigaciones Socio-
lógicas (C.I.S.); amén de otros ejemplos también con datos reales.
La encuesta analizada ex profeso para este texto (“Actitudes ante la inmigración”) fue
realizada por el C.!.S. del 6 al 10 de junio de 1996 (estudio 2.214). El ámbito de la encues-
ta fue nacional. Se incluyeron las provincias insulares, aunque se excluyeron Ceuta y Meli-
lla. El universo fue la población española de ambos sexos de 18 y más años.
El tamaño de la muestra diseñado, para un nivel de confianza del 95,5%, heterogenei-
dad máxima (P = Q = 50) y un error máximo elegido para el conjunto de la muestra de +2%,
es 2.500 unidades muestrales. Pero, finalmente se realizaron 2.493 entrevistas.
El procedimiento seguido para la selección de la muestra fue polietápico, estratificado por
conglomerados, con selección de las unidades primarias de muestreo (municipios) y de las
unidades secundarias (secciones) de forma aleatoria proporcional de las unidades últimas (in-
dividuos) por rutas aleatorias y cuotas de sexo y edad. Al ser la afijación proporcional, no pro-
cede su ponderación.
Los puntos de muestreo fueron 161 municipios elegidos aleatoriamente, tocando a 44 de
las 50 provincias. Los estratos se formaron por el cruce de las 17 regiones autonómicas con
el tamaño de hábitat, dividido en 7 categorías: menos o igual a 2.000 habitantes; de 2.001 a
10.000; de 10.001 a 50.000; de 50.001 a 100.000; de 100.001 a 400.000; de 400.001 a
1.000.000; más de 1.000.000 de habitantes.
Los cuestionarios se aplicaron mediante entrevista personal en los domicilios. Esta in-
formación se detalla en la ficha técnica del citado estudio.
18 Análisis multivariable. Teoría y práctica en la investigación social
socioeconómicas, etc.” (Hardy, 1993: 1-2). De lo que se trata es de comprobar si las va-
riables independientes analizadas tienen efectos varios en los grupos diferenciados.
Si no se quiere perder la información proporcionada por estas variables, habría que
traducirlas a una serie de variables ficticias para su utilización posterior en un análi-
sis de regresión lineal.
En suma, un modelo de regresión lineal puede combinar variables cuantitativas con
cualitativas. Pero, como su correcta aplicación exige que las variables estén medidas en
una escala continua, toda aquella variable predictora que sea cualitativa (o categórica)
habrá de ser transformada en una serie de variables ficticias, que facilite su tratamiento
como continua.
Por variable ficticia se entiende una variable dicotómica que se crea a partir de una
variable cualitativa (nominal u ordinal). Ésta puede ser dicotómica (tiene sólo dos ca-
tegorías, como la variable “sexo”, por ejemplo) o politómica (con más de dos categorías,
como la variable “estado civil”). Para captar toda la información que contiene las “g”
categorías de la variable, habrá que crear “g — 1” variables ficticias. Siempre habrá una
variable ficticia menos que el número de categorías iniciales de la variable categórica
(o cualitativa) original.
Aquella categoría que no se transforma en variable ficticia actúa en los análisis co-
mo grupo de referencia. En general, se aconseja que la categoría elegida de referencia
se halle bien definida y que contenga un número suficiente de casos. Quiere esto de-
cir, que se desaconseja la consideración como grupo de referencia de categorías ge-
néricas como “otros” o que se hallen escasamente representadas en la muestra.
La codificación binaria más aplicada en la creación de variables ficticias consiste
en la atribución de los códigos numéricos O y 1 en cada categoría de la variable. El có-
digo 1 se asigna a los casos que pertenecen a una categoría concreta; el código O a
aquellos que no pertenecen. De este modo la variable nominal “sexo”, medida ori-
ginariamente con dos categorías, 1 varón y 2 mujer, se transforma en una única va-
riable ficticia: 1 varón y O mujer, o a la inversa, O varón y 1 mujer. Depende de qué gru-
po se tome de referencia. En el primer supuesto serían las mujeres, mientras que en
el segundo los varones.
Alternativamente se puede aplicar otra codificación binaria: -1 y +1, donde el có-
digo —1 denota al grupo de referencia. Si bien esta última codificación es menos popular
que la anterior. Por el contrario, el empleo de otros códigos numéricos, como 1 y 2, por
ejemplo, no se considera apropiado (Hutcheson y Sofroniou, 1999). La razón está en
que el procedimiento de regresión atribuye un significado específico a estos números:
el grupo codificado 2 se interpretaría como 2 veces el valor del grupo codificado 1,
cuando en realidad se trata de categorías distintas y no ordenadas (nominales). En cam-
bio, la aplicación de los códigos O y 1 únicamente describe la presencia (1) o ausencia
(0) de un atributo concreto de la variable en cuestión. En ningún caso reflejan un or-
den cuantitativo de las categorías de las variables.
Cuando la variable incluye más de dos categorías (politómica), habría que crear
tantas variables ficticias como número de categorías de la variable (““g”) menos 1. Un
procedimiento a seguir se ilustra en el siguiente ejemplo:
20 Análisis multivariable. Teoría y práctica en la investigación social
(Original) D1 D2 D3 D4
Soltero 0 0 0 0
Casado 1 0 0 0
Separado/divorciado 0 1 0 0
Viudo 0 0 1 0
En pareja 0 0 0 1
Del total de ítems que componen la encuesta de “Actitudes ante la inmigración” de 1996
del C.I.S., se han escogido las siguientes variables (enunciadas con el número de la pregunta
con el que figura en el cuestionario):
A. Variable dependiente:
+ P201: “Dígame, por favor, en una escala de O a 10, la simpatía que Vd. siente por los
norteafricanos (marroquíes, etc.), teniendo en cuenta que 0 significa ninguna simpa-
tía y 10 mucha simpatía”.
Se ha elegido esta variable por su carácter de “continua”. Se quiere conocer qué varia-
bles ayudan a predecir el mayor o menor grado de simpatía hacia los norteafricanos.
B. Variables independientes:
+ P210: “Dígame, por favor, en una escala de O a 10, la simpatía que Vd. siente por
los latinoamericanos, teniendo en cuenta que 0 significa ninguna simpatía y
10 mucha simpatía”.
» P306: “A Vd. le preocuparía mucho, bastante, poco o nada que un hijo o una hija su-
ya se casara con un ciudadano de Marruecos u otro país norteafricano”. Mu-
cho (1) Bastante (2) Poco (3) Nada (4) No sabe (8) No contesta (9).
e P506: “¿Hasta qué punto: mucho, bastante, poco o nada le importaría a Vd. tener
como vecinos a una familia de ciudadanos de Marruecos u otro país norte-
africano?”. Mucho (1) Bastante (2) Poco (3) Nada (4) N.s. (8) N.c. (9).
Capítulo 1: Regresión múltiple. 23
+ P52: “Actualmente, entre todos los miembros del hogar y por todos los conceptos,
¿de cuántos ingresos netos disponen por término medio en su hogar al
mes?” Menos de 50.000 pts. (01) 50.001-100.000 (02) 100.001-150.000
(03) 150.001-200.000 (04) 200.001-300.000 (05) 300.001-400.000 (06)
400.001-500.000 (07) 500.001-750.000 (08) 750.000-1 millón de pts. (09) Más
de 1 millón de pts. (10) N.c. (99).
e Tamuni: “Tamaño del hábitat “ Hasta 2.000 hab. (1) 2.001-10.000 (2) 10.001-50.000 (3)
50.001-100.000 (4) 100.001-400.000 (5) 400.001-1.000.000 (6) Más de
1.000.000 (7).
1.1.4. Linealidad
Estos gráficos son de gran utilidad para conocer qué variables concretas incumplen
el supuesto de linealidad. Muestran, para cada variable independiente, su relación con
la dependiente. Para que el supuesto de linealidad se cumpla, la nube de puntos que
corresponde a los valores de X, e Y en cada caso concreto, ha de ubicarse en torno a una
recta. Ésta puede ser creciente o decreciente. Es creciente, cuando ambas variables, X,
e Y, se hallan positivamente relacionadas; es decir, que el aumento del valor de la va-
riable independiente supone igualmente un aumento en el valor de la variable de-
pendiente. En cambio, la recta será decreciente si la relación entre las variables es ne-
gativa: al aumento de valor de la variable independiente le sigue una disminución en el
valor correspondiente a la variable dependiente. Véanse gráficos a y b en la figura 1.1.
Por el contrario, si se observa que la nube de puntos no sigue una misma pauta li-
neal, creciente o decreciente, sino en forma de curva (habiendo un punto de inflexión
en los datos, pasándose de una tendencia creciente a decreciente, o a la inversa) se es-
tá ante una relación no lineal (gráfico c). Cuando esto acontece, es preciso realizar una
transformación logarítmica en dicha variable independiente (log X,) para alcanzar la
linealidad que exige el análisis de regresión lineal.
En cambio, si en el gráfico se observa que la nube de puntos no sigue ninguna pau-
ta (ya sea lineal o curvilínea), significa que no existe ninguna relación entre las varia-
bles dependiente e independiente. El cociente de correlación de ambas variables, co-
mo en el supuesto anterior de relación curvilínea, se aproxima a cero (r = 0) —véanse
subapartados 1.3.2. y 1.5.1-. Lo que lleva a reconsiderar la inclusión de dicha variable
independiente en el análisis de regresión lineal (al mostrar no ser de utilidad en la pre-
dicción de la variable dependiente).
26 Análisis multivariable. Teoría y práctica en la investigación social
Los ejes de los gráficos de regresión parcial pueden venir expresados en las uni-
dades originales en que fueron medidas ambas variables o en sus correspondientes pun-
tuaciones estandarizadas (unidades Z). Éstas resultan de tipificar la variable para neu-
tralizar la incidencia de la unidad de medida. En este caso, los valores de las variables
se localizan en el intervalo de “ -3” a “43”.
A su utilidad en el análisis de la relación bivariable entre cada X, e Y, hay que aña-
dir que los gráficos de regresión parcial también muestran ser de utilidad en la de-
tección de atípicos. Por atípico comúnmente se entiende todo caso que se distancie de
la tendencia observada en la generalidad de los datos (véase subapartado 1.5.4.).
En el gráfico de regresión parcial cualquier punto que se aleje de la nube de puntos
identifica a un posible atípico, cuya confirmación precisa de otros procedimientos ana-
líticos resumidos en el susodicho subapartado.
Para ilustrar el uso del gráfico de regresión parcial en la comprobación del supuesto de
linealidad, se han seleccionado dos gráficos del total de realizados mediante el programa
SPSS (versión 10.0).
Capítulo 1: Regresión múltiple 27
a) b)
Gráfico de regresión parcial Gráfico de regresión parcial
Variable dependiente: simpatía marroquí Variable dependiente: simpatía marroquí
a
o
0
L £
Na
L
o
z
E *7 É
z3 4 7 23 o a
$ -9 T £ -10 T T T T T T
-10 3 4 4 2 0 2 4 6 -.6 -,4 -=2 -,0 e A 6 .8
El primer gráfico a) refleja la relación bivariable existente entre la variable dependiente “sim-
patía por los norteafricanos: marroquíes, etc.” (P201) y la independiente “simpatía por los lati-
noamericanos” (P210). Ambas variables se encuentran en la misma escala de medida. Sus va-
lores van de O a 10. Del gráfico puede deducirse la existencia de una relación lineal positiva entre
ambas variables, aunque no es perfecta. La simpatía mostrada hacia los latinoamericanos ayu-
da a predecir la sentida hacia los norteafricanos (marroquíes, etc.). La valoración dada a este úl-
timo colectivo de inmigrantes está positivamente relacionada con la dada a otro colectivo de in-
migrantes: los latinoamericanos. Las personas que más simpatía sienten hacia los norteafricanos
son, asimismo, los que más simpatía muestran hacia los latinoamericanos. Al aumento en la va-
loración hacia los latinoamericanos le sigue normalmente una mayor valoración hacia los nor-
teafricanos. Pero, la relación lineal positiva observada entre ambas variables no es perfecta. Si
fuese perfecta, la nube de puntos se ajustaría a una recta ascendente. Este tipo de gráfico coin-
cide con un coeficiente de correlación r = 1,0, que indica la existencia de una relación lineal po-
sitiva perfecta entre ambas variables: conforme aumenta el valor de la variable independiente,
se incrementa, asimismo, el de la dependiente; los valores altos y bajos en ambas variables coin-
ciden. En cambio, la correlación existente entre las dos variables referidas (simpatía por los la-
tinoamericanos y simpatía por los norteafricanos) no es perfecta, aunque sí importante: “r = ,593”,
como se verá posteriormente, en la matriz de correlaciones. Lo que explica que la nube de pun-
tos no sea totalmente lineal. La nube de puntos pierde la linealidad, a medida que disminuye la
correlación entre las variables. Recuérdese que, cuando la correlación es nula, el gráfico de re-
gresión parcial coincide con el mostrado en la figura 1.1 (gráfico d).
La existencia de puntos alejados de la nube de puntos principal informa de la existencia
de atípicos a confirmar mediante otros procedimientos analíticos.
El gráfico b) es totalmente distinto al anterior. llustra la relación existente entre una variable
independiente ficticia (“sexo”) y la dependiente continua (“simpatía por los norteafricanos”). La
variable “sexo” es una medida discreta convertida a ficticia mediante la codificación binaria “1” va-
rón y “0” mujer. Ello afecta a que cuando se modela su relación con una variable dependiente con-
tinua no resulta una recta de regresión, aunque las variables se hallen muy relacionadas. Por el
contrario, el gráfico de regresión parcial ofrece dos nubes de puntos principales, que corresponden
a los valores de la variable dependiente para cada uno de los dos valores posibles de la inde-
pendiente 1 y O. En general, el análisis de regresión con variables independientes ficticias posibilita
28 Análisis multivariable. Teoría y práctica en la investigación social
el conocimiento de los valores predichos (o esperados) en la variable dependiente para cada uno
de los subgrupos en la variable independiente. Lo que imposibilita su representación mediante
una recta realizada desde una serie continua de valores.
B) Gráficos de residuos
10 20 30 40 50 y, 10 20 30 40 50 y, 10 20 30 40 50 y,
Figura 1.2. Gráficos de residuos.
Berry y Feldman (1985: 54) proponen otra forma alternativa de comprobar el su-
puesto de linealidad, que consideran más “rigurosa”. Consiste en dividir la muestra en
Capítulo 1: Regresión múltiple 29
1.1.5. Aditividad
La predicción de la variable dependiente exige que los efectos de las distintas va-
riables independientes puedan sumarse entre sí. Esto significa que, para cada variable
independiente incluida en el modelo de regresión, la cantidad de cambio que provo-
ca en la variable dependiente será el mismo, indistintamente de los valores de las otras
variables independientes incluidas en la ecuación de regresión. Si, por el contrario, se
observa que su influencia se ve afectada por los valores que presenten otras variables
independientes, se está ante un modelo de regresión no aditivo (o interactivo). Ello
acontece cuando las variables independientes interactúan unas con otras, al influir en
la variable dependiente.
Berry y Feldman (1985) diferencian tres variedades de modelos de regresión no adi-
tivos: .
1.1.6. Normalidad
A) Histograma de residuos
Histograma
Variable dependiente: simpatía marroquí
160
Frecuencia
dia aritmética ha de ser igual a “0,0” y su desviación típica igual a “1,0”. Si se comparan los
valores obtenidos con los de referencia, puede concluirse que la asimetría de la distribución
observada es ligera. Como era de esperar por el tamaño muestral analizado, en relación con
el número de variables predictoras incluidas en el análisis, la distribución de los datos casi se
corresponde con la curva normal. Para un análisis más detallado del ligero apuntamiento y
desviación hacia la derecha de la distribución observada ha de acudirse a los gráficos de pro-
babilidad normal para variables predictoras concretas, y no para el conjunto de la distribución,
además de estadísticos específicos de asimetría y curtosis. Estos ayudan a comprobar la ex-
tensión a la que la serie de puntuaciones observadas se desvían de la distribución normal.
15
co
"o
S
2. ,S0-
3
=
3o 257
5
y
£ 0,00 T T “T
0,00 25 0) 75 1,00
Prob. acum. observada
34 Análisis multivariable. Teoría y práctica en la investigación social
conclusión no concuerda con la inspección anterior de los datos, aunque era de prever por
el tamaño de la muestra de análisis.
Es sabido que en muestras grandes (superiores a 1.000 unidades) lo más habitual es que
las pruebas de significatividad lleven al rechazo de la hipótesis nula. Y, dado que el tamaño
muestral se halla presente en su cálculo (los grados de libertad), era de esperar esta no
coincidencia en los resultados. Incluso entre los valores D y su significatividad correspondiente.
Como Hair et al. (1999: 65) afirman: “El investigador debería siempre recordar que los tests de
significación son menos útiles en muestras pequeñas (menores de 30) y muy sensibles para
grandes muestras (superiores a 1.000 observaciones)”. Asimismo, Tabachnick y Fidell (1989)
desaconsejan el uso de las pruebas de significatividad en la comprobación del supuesto de nor-
malidad cuando la muestra sea grande. Los estadísticos de normalidad muestran adecuación
en muestras pequeñas o moderadas, pero no en tamaños muestrales elevados como el aquí
analizado. Además, observan que “porque los errores típicos de tanto asimetría como curtosis
contienen N, con muestras grandes la hipótesis nula es probable que se rechace cuando exis-
ten sólo desviaciones pequeñas de la normalidad” —como sucede en los datos aquí analizados—.
A lo que añaden: “En una muestra grande, una variable con asimetría significativa (o curtosis)
con frecuencia no se desvía lo suficiente de la normalidad para hacer una diferencia realista en
el análisis. En otras palabras, con muestras grandes los niveles de significatividad de asimetría
y curtosis no son tan importantes como sus tamaños reales (peor cuanto más se distancien de
0) y apariencia real de la distribución” (Tabachnick y Fidell, 1989: 73-74).
Estas observaciones han ayudado a la interpretación de los resultados, a la no consideración
de la significatividad, al contar con un número de casos válidos mínimo, en la peor de las situa-
ciones (en la variable “leyes de inmigración”), de 1.713 unidades. La prueba de normalidad de Ko/-
mogorov-Smimov se ha contrastado con los estadísticos descriptivos de asimetría y curtosis y me-
diante los gráficos Q — Q normal para cada una de las variables consideradas.
Pruebas de normalidad?
Kolmogorov-Smirnov?
Estadístico gl Sig.
a) b)
Gráfico Q-Q normal de leyes inmigración Gráfico Q-Q normal de ideología política
3 3
E D
2 D 2-
D
14 14
o
3 Sy 7
hu
e
o (0
Uv
o
o
o
0,
El - 14
E E
he
O O
Z2 T T T T T Z.-2 T T T
0 1 2 3 4 5 6 0 2 4 6 10 12
Valor observado Valor observado
c) d)
Gráfico Q-Q normal de vecino marroquí Gráfico Q-Q normal de ingreso
25 3
o
o o
2,04 2-2
15- A
14
310- 3
E y
o v 04
OUv 5- o
13)
a 00 = E
-1 y
o O o
Z-5 1 T T T T T 2 n—— T T T
5 10 15 20 25 30 35 40 45 200000 0 200000 400000 600000 800000 10000(X
Valor observado Valor observado
e) f)
Normal gráfico Q-Q de vecino marroquí Normal gráfico Q-Q de ingresos
1,0 13,5
o
13,04 o
8 y
D 12,5 -
3 6- o 212.07
z E
7
aMn 4-7 011,5
oYN +
a 1104
3 2. 3
É D
E1054 0
Z.0,0 T T T T T T T Z.10,0 T T T
2 00 2 4 6 8 10 12 14 10 11 12 13 14
Valor observado Valor observado
Transformaciones: log natural
Capítulo 1: Regresión múltiple 37
Como son muchas las variables analizadas, se han seleccionado gráficos Q — Q que
muestran ajuste de la variable a la distribución normal y otros que muestran desajuste. Los
gráficos Q — Q normal (o gráficos de cuantil-cuanti son similares a los gráficos P — P, pero
aplicados a variables individuales. Ayudan a identificar salidas de la normalidad no para el con-
junto de las variables, sino en cada una de las variables de interés. Las puntuaciones figuran
igualmente ordenadas y se comparan los valores observados para cada caso con el esperado
bajo el supuesto de normalidad. Los gráficos a) y b) ejemplifican una buena corresponden-
cia de las variables con la distribución normal. La mayoría de los puntos coinciden con la dia-
gonal, siendo mínimas las desviaciones (debidas a procesos aleatorios). En cambio, los grá-
ficos Cc) y d) muestran discordancia con la distribución normal. Corresponden a las variables
“vecino marroquí” e “ingresos”. Éstas son, precisamente, las dos variables con mayores ni-
veles de asimetría (“2,677” y “2,824” con un error típico de “,049” y “,058”, respectivamente.
Recuérdese que el error típico de asimetría es una medida de la extensión a la que la asi-
metría puede variar como una función del tamaño de la muestra) y de curtosis (“6,528” y
“12,622”, con errores típicos de “,099” y “,116”). Se trata, en ambos casos, de distribuciones
asimétricas a la derecha (la mayoría de los valores se sitúan a la izquierda de la media) y lep-
tocúrticas (demasiados casos en el centro de la distribución), especialmente la variable “in-
gresos”. Las demás variables se distancian menos de la distribución normal, con valores de
asimetría y curtosis por debajo del valor de referencia “+,80” que expresa una asimetría (po-
sitiva o negativa) y curtosis importante.
Para comprobar si la introducción de una transformación en dichas variables pudiese co-
rregir su desviación de la normalidad, se procede a su transformación logarítmica al estimarse
importante su desviación de la normalidad (curtosis y asimetría positiva severa). Los gráficos
e) y f) corresponden a los gráficos Q — Q normal con las variables transformadas a sus lo-
garitmos naturales. Si se comparan ambos gráficos con los habidos previo a la transforma-
ción logarítmica de las variables (gráficos c) y d)), puede observarse que dicha transfor-
mación no resuelve la no-normalidad en la variable “vecino marroquí”, aunque sí en la variable
“ingresos”, al quedar la nube de puntos prácticamente ajustada a la diagonal. Lo que lleva a
considerar esta última transformación en la solución de regresión. Una explicación posible an-
te este dispar efecto de la transformación de las variables es lo ya observado por Afifi y Clark
(1990), que la efectividad de la transformación, al inducir normalidad, aumenta en variables
cuya desviación típica es grande en relación con su media. La media de la variable “ingresos”
es 143.991 pesetas al mes, siendo la desviación típica de 105.233 pesetas. En cambio, la me-
dia de la variable “vecino marroquí” es 1,27 con una desviación de ,672.
1.1.7. Homocedasticidad
Para que la relación de las variables independientes con la dependiente pueda medirse
con rigor, se precisa que la varianza de los valores de la variable dependiente sea igual en
cada valor de las variables independientes (o predictoras). Esto se conoce como homo-
cedasticidad o igualdad de las varianzas de los términos de error residual en la serie de va-
riables independientes. La variable dependiente ha de mostrar niveles iguales de varianza
en los distintos valores de las variables independientes. En cambio, si la variabilidad en los
términos de error de las distintas variables independientes no es constante, se dice que los
residuos son heterocedásticos. Ello significa que su magnitud (de los residuos) aumenta o
disminuye en función de los valores que adopten las variables independientes, o según cuá-
les sean los valores predichos. La varianza de la variable dependiente se concentra en unos
valores concretos de las variables independientes, lo que provoca que la predicción del va-
lor de la variable dependiente sea mejor (de existir heterocedasticidad), no en todos, si-
no sólo en determinados valores de las variables independientes.
Aunque el supuesto de homocedasticidad es uno de los que más se incumplen ha-
bitualmente (Hair et al. 1992; 1999), en el análisis de regresión lineal debe valorarse.
Para que el análisis de la relación de dependencia sea correcto, la varianza de la va-
riable dependiente no ha de concentrarse en unos valores determinados de las varia-
bles independientes. Ello no sólo ocasiona diferencias en la predicción del valor de la
variable dependiente, sino que en general se relaciona con la obtención de pruebas de
significatividad (mediante los estadísticos “t” y “E”) cuyos resultados sean incorrectos.
La posibilidad de que esto acontezca es mayor cuando se analizan datos seccionales (o
transversales) que longitudinales; por ejemplo, en una encuesta convencional. Como
Gujarati (1988: 319) observa: “En datos seccionales, se suele tratar con miembros de
una población en un punto determinado en el tiempo, tales como consumidores in-
dividuales o sus familias, empresas, industrias, o subdivisiones geográficas, tales como
estados, países o ciudades, etc. Lo que es más, estos miembros pueden ser de diferentes
Capítulo 1: Regresión múltiple 39
tamaños, tales como empresas pequeñas, medias o grandes o renta alta, media o baja.
En los datos de series temporales, por otro lado, las variables tienden a ser de ordenes
similares de magnitud porque generalmente se recogen los datos para la misma enti-
dad a lo largo de un período de tiempo”.
La figura 1.3 incluye situaciones de homocedasticidad a) y heterocedasticidad b) pa-
ra un modelo de regresión simple. Incluye la probabilidad condicional de la variable
dependiente (Y) para valores seleccionados de la variable independiente (X). Como
puede observarse, la homocedasticidad se da cuando la varianza condicional de Y per-
manece constante, indistintamente de los valores que tome la variable independiente.
Si, por el contrario, la varianza no permanece constante, sino que aumenta conforme
se incrementa el valor de la variable independiente se habla de heterocedasticidad. La
figura 1.3b ilustra esta situación. En ella puede observarse como la varianza de los tér-
minos de error se halla positivamente correlacionada con la variable independiente. La
distribución pasa de ser leptocúrtica a cada vez más platicúrtica.
La homocedasticidad suele relacionarse con el supuesto de normalidad. De hecho
se observa que “cuando el supuesto de normalidad muitivariable se satisface, las re-
laciones entre las variables son homocedásticas” (Tabachnick y Fidell, 1989: 82). En ge-
neral, la heterocedasticidad es más probable que acontezca cuando se da alguna o va-
rias de las situaciones siguientes:
Proba- Proba-
bilidad bilidad
condi- condi-
cional cional
de Y A de Y Y
dado dado
Xx Xx
Xx Xx
Berry y Feldman (1985: 73) destacan tres situaciones en las cuales la heteroce-
dasticidad se convierte en problema:
Si el tamaño muestral es elevado, los residuos deberían repartirse por igual a lo lar-
go de los valores de la variable independiente, como muestra la figura 1.4a, en dos
líneas horizontales paralelas alrededor de 0, que es la media residual. En muestras pe-
queñas, por el contrario, la varianza de los residuos de regresión no es idéntica en to-
dos los valores de la variable independiente, aun habiendo homocedasticidad perfec-
ta. La varianza será mayor en los valores próximos al centro de la distribución que en
los extremos, como puede observarse en la figura 1.4b. Cualquier gráfico que se aleje
de las dos variedades mencionadas muestra la violación del supuesto de homocedas-
ticidad, como indica la figura 1.4c. En ella puede verse cómo la varianza de los residuos
decrece con el aumento del valor de la variable independiente.
Cuando se analiza la incidencia conjunta de varias variables independientes se ob-
tienen gráficos a modo de los expuestos en la figura 1.5. Se trata de gráficos de residuos
(preferiblemente estudentizados o estandarizados) contra los valores predichos de la va-
riable dependiente (L); es decir, la combinación de las variables independientes que for-
man la ecuación de regresión. En esta modalidad gráfica, los aumentos o disminuciones
de los residuos de acuerdo con el valor predicho de la variable dependiente (Y) expresan
incumplimiento del supuesto de homocedasticidad (figuras 1.5b y 1.5c). De los tres tipos
de gráficos quizás sea la figura 1.5c la que refleje la situación de heterocedasticidad más ha-
bitual. Este gráfico presenta una forma triangular. La figura 1.5b en forma de diamante,
que también expresa heterocedasticidad, se da en situaciones de mayor variación de re-
siduos hacia el centro de la distribución de Y que en los extremos.
u +3
+2
+1 LS
o hxGá pe
-1
—2
3
a) Homocedasticidad b) Heterocedasticidad c) Heterocedasticidad
Figura 1.5. Gráficos de residuos estudentizados para homocedasticidad.
42 Análisis multivariable. Teoría y práctica en la investigación social
a) Gráfico de dispersión
Variable dependiente: simpatía marroquí
Regresión residuo estudentizado
b) c)
, 6
4- » q .
Ñ
2 =] al A
3 04 5
Ax %
3a | ti
=2 A
o
a A, A o
o a 434 a o
5 DU
5
uN $“-
> o an ón sh 100. >? T T T T T T
2 00 2 4 6 8 10 12
edad
sexo
Por último, los gráficos d) y e) para las variables “simpatía hacia latinoamericanos” y “es-
tudios”, respectivemente, no muestran la satisfacción del supuesto de homocedasticidad. Si se
atiende, además, a lo dicho por el estadístico de Levene, que figura a continuación, el incum-
plimiento del supuesto de homocedasticidad es evidente en ambas variables. Recuérdese que
en la prueba de Levene (aplicada para la comprobación de la homocedasticidad en un único par
de varianzas) el rechazo de la hipótesis nula de igualdad de varianzas se produce cuando el va-
lor de este estadístico es significativo (p < ,05), a decir por la prueba de significatividad de F. En
Capítulo 1: Regresión múltiple 45
ambas variables la significatividad del estadístico es inferior a dicho referente, lo que supone el
rechazo de la hipótesis nula. Se está ante variables que incumplen el supuesto de homoce-
dasticidad. La varianza de la variable dependiente difiere en los distintos valores de las dos va-
riables predictoras. Para la interpretación de los gráficos téngase además presente las unida-
des de medición de ambas variables (expuestas en el subapartado 1.1.3).
d) e)
6 6
4 4 a 4 - a
a o
: o o o B o o . a ú
2 7 8 a ¡ _ e 2: 2 o a
3 o > > B ; 3 9
304 1 Pf 3 07
3 pH * | 8o 3
227 .
pr
h Ea y $
o
-a : . .
Q
a a
:
ao Eo >
3 A + 3 a 4 3
E o
3 =
40 T T T T n- VAT T T T
—2 0 2 4 6 8 10 12 0 1 2 3 4 5 6
simpatía latinoamericano estudios
Tabla A
Leyes inmigración
Media 1,815 ,053 | 3,099 ,001 8,114 ,000 1,407 ,171
Mediana 1,978 ,032 | 1,629 ,094 3,500 ,000 1,144 ,325
Ideología política
Media 2,076 ,024 | 2,270 ,013 2,4992 ,006 2,093 —,023
Mediana 1,756 ,065 | 1,501 ,135 1,448 ,155 1,588 ,106
Sexo
Media 3,602 ,000 3,602 ,000
Mediana ,678 ,746 ,678 ,746
(a...)
46 Análisis multivariable. Teoría y práctica en la investigación social
Edad
Media 1,136 ,331 ,868 ,563 1,373 ,189 ,975 ,464
Mediana 1,073 ,379 1626 ,792 1977 ,462 ,726 ,700
Simpatía latinoamericano
Media 25,036 ,000 29,578 ,000
Mediana 19,095 ,000 19,536 ,000
Regularizar inmigrantes
Media 22,144 ,000 22,144 ,000
Mediana 5,729 ,000 5,729 ,000
Entrada inmigrantes
Media 3,392 ,000 | 8,114 ,000 14,518 ,000 5,232 ,000
Mediana 1,689 ,080 | 3,129 ,001 4,293 ,000 2,381 ,009
Partido racista
Media 4,128 ,000 | 6,243 ,000 8,304 ,000 5,127 ,000
Mediana 2,402 ,008 | 2,543 ,005 2,707 ,003 2,461 ,007
N.* inmigrantes
Media 3,629 ,000| 2,214 ,015 6,365 ,000 2,502 ,006
Mediana 1,941 ,037 | 1,888 ,043 2,430 ,008 1,794 ,058
Estudios
Media 3,099 ,001 | 1,056 ,394 2,576 ,005 1,741 ,068
Mediana 2,331 ,011 | 1,155 ,319 ,954 ,483 1,684 ,081
Ingresos
Media 4412 ,941 ,615 ,801 1,862 ,047 ¿3314 ,978
Mediana ,372 ,959 ,533 ,867 1,375 ,188 ,320 ,976
Vecino marroquí
Media 37,660 ,000 | 38,059 ,000 37,538 ,000 37,735 ,000
Mediana 18,686 ,000 | 15,921 ,000 13,112 ,000 17,437 ,000
Inmigrante delincuente
Media 4,096 ,000 4,096 ,000
Mediana ,837 ,593 ,837 ,593
Cavítulo 1: Regresión múltiple 47
SPSS (versión 10.0) facilita distintos valores del estadístico de Levene (basándose en la me-
dia, en la mediana, en la mediana y con los grados de libertad corregidos, y en la media re-
cortada), se ha decidido escoger, para simplificar la tabla, los valores de Levene corres-
pondientes a la media y a la mediana con los grados de libertad corregidos. De esta forma
puede comprobarse si realmente mejora su robustez, cuando se sustituyen las desviaciones
alrededor de la mediana por las desviaciones alrededor de la media.
De la lectura de la tabla puede concluirse que las desviaciones respecto a la mediana se
adecuan más, especialmente, en las variables ficticias, por las propias características de di-
chas variables (variables dicotómicas). Hecho este inciso, hay que decir que la significativi-
dad del estadístico de Levene es, en general, superior cuando su cálculo se realiza a partir
de la media, que cuando se basa en la mediana, aun ajustando por grados de libertad.
En siete de las catorce variables predictoras analizadas se incumple el supuesto de ho-
mocedasticidad, a decir por los resultados de la aplicación de esta prueba estadística. El valor
del estadístico de Levene es bastante significativo (p < ,05), lo que supone el rechazo de la hi-
pótesis nula de igualdad de varianzas. La varianza de la variable dependiente difiere en los dis-
tintos valores de las siguientes variables independientes: “simpatía hacia latinoamericanos”, “re-
gularización de inmigrantes”, “valoración de partidos de ideología racista”, “consideración del
número de inmigrantes”, “casarse con marroquí”, “estudios” y “tener por vecino a un marroquí”.
En la otra mitad de las variables la significatividad de este estadístico de comprobación
es inferior (p >,05), ya sea respecto de la media o de la mediana. Esto significa la aceptación
de la hipótesis nula. La varianza de la variable dependiente muestra constancia en dichas va-
riables: “leyes inmigración”, “ideología política”, “sexo”, “edad”, “entrada de inmigrantes”, “in-
gresos” e “identificación del inmigrante con delincuente”.
De las opciones barajadas para alcanzar la homocedasticidad en aquellas variables en
las cuales la varianza de la variable dependiente difiere, sólo parece lograrse en dos varia-
bles: “número de inmigrantes” y “estudios”. En la primera, la homocedasticidad puede lograrse
mediante la aplicación de una transformación de raíz cuadrada. En cambio, respecto a la va-
riable “estudios”, puede realizarse cualquiera de las tres transformaciones comprobadas. Si
bien, normalmente se prefiere la transformación logarítmica como se detalla a continuación.
Si con la ayuda de estos estadísticos y/o de los gráficos de residuos referidos se de-
tecta la existencia de heterocedasticidad, habrá que aplicar algún remedio que posibilite
la aplicación de la regresión lineal a los datos de interés. Las opciones posibles son va-
rias y dispersas: desde la aplicación de procedimientos de regresión distintos al estándar
de mínimos cuadrados ordinarios (OLS), hasta transformaciones de la variable de-
pendiente en busca de la estabilidad de la varianza.
Por último, hay que destacar la recomendación dada al efecto por McCullagh y Nel-
der (1989). Estos autores advierten de que la heterocedasticidad puede ser el resulta-
do del incumplimiento de los supuestos de normalidad y de linealidad. Por lo que, pue-
Capítulo 1: Regresión múltiple 49
Para que se puedan medir los efectos concretos de cada variable independiente en
la dependiente es imprescindible la ausencia de colinealidad, es decir, de correlación en-
tre las variables independientes incluidas en el modelo de regresión. La existencia de co-
rrelación elevada entre dos o más variables independientes (multicolinealidad) repercute,
de manera directa, en los errores típicos de los coeficientes de regresión de dichas variable.
Éstos se ven indebidamente incrementados, lo que provoca que la estimación de los coe-
ficientes sea menos precisa (coeficientes infiables), con el consiguiente aumento de los
intervalos de confianza (a este respecto véase subapartado 1.4.2). El modelo de regresión
puede ser significativo en su conjunto (en virtud de la razón “F”, que mide la significa-
tividad del coeficiente de correlación cuadrada múltiple o coeficiente de determinación
R? —véanse subapartados 1.5.1 y 1.5.3-) y, en cambio, no ser significativos los coeficientes
de regresión individuales de las variables muy colineales que lo componen.
La colinealidad elevada provoca, en suma, un aumento en la variabilidad de los
coeficientes de regresión estimados (que informan de la cantidad de variación de Y por ca-
da unidad de variación de X,, manteniendo constante las demás variables independientes
en el modelo). Este aumento del error típico de coeficiente suele suponer un incremento
en la varianza explicada de Y (R?). Pero, al mismo tiempo, aumenta el error de estimación,
con la pérdida consiguiente de significatividad estadística de los coeficientes de regresión
de las variables muy colineales. Esta significatividad se mide con el estadístico “t” de
Student, que se obtiene del cociente entre el coeficiente estimado y el error de estimación.
De manera que, cuanto mayor sea el error de estimación, menor es el valor empírico de “t”,
lo que determina la no significatividad estadística del coeficiente de regresión estimado.
A diferencia de otros supuestos de regresión, la multicolinealidad afecta no tanto
a la obtención del modelo (en la vertiente descriptiva), como a sus posibilidades de in-
ferencia: la generalización de los estadísticos muestrales a los correspondientes pa-
rámetros poblacionales.
Pero la multicolinealidad no debería concebirse como algo que o “existe” o “no exis-
te”. “La multicolinealidad existe en grados” (Berry y Feldman, 1985: 40). “Está presen-
te en todos los análisis de regresión, ya que es improbable que las variables independientes
estén totalmente no correlacionadas” (Schroeder et al. 1986: 76). Sirvan como ejemplo,
variables muy habituales en la investigación social, como son las variables “nivel educa-
tivo” y “ocupación”. Ambas variables actúan como indicadores habituales de la posición
social de un individuo. Sus valores se encuentran muy interrelacionados entre sí. Lo que
S0 Análisis multivariable. Teoría y práctica en la investigación social
TOL, =1-R?
Donde “R?,” es la correlación múltiple cuadrada de la variable inde-
pendiente X, (considerada como dependiente) y las otras variables in-
dependientes.
52 Análisis multivariable. Teoría y práctica en la investigación social
TOL, tiene un rango de valores de 0,0 a 1 ,0. Un valor próximo a 1,0 de-
nota la ausencia completa de multicolinealidad: la variable X, no presenta nin-
guna correlación con el resto de variables predictoras. Un valor de toleran-
cia inferior a 0,20 es, en cambio, indicativo de un grado elevado de
multicolinealidad. Si el valor desciende a 0,10, la multicolinealidad es muy
alarmante y exige la adopción de alguna medida para reducirla. El valor 0,0
expresa multicolinealidad perfecta: la varianza de la variable X, está total-
mente determinada por los otros predictores.
En consecuencia, interesan valores de tolerancia elevados porque son in-
dicativos de una baja multicolinealidad. Cuando la colinealidad aumenta, el
valor de tolerancia disminuye. Lo que repercute en la peor estimación del
coeficiente de regresión, debido al incremento de su error típico.
b) El factor de inflación de la varianza (FIV, en inglés VIF) es el reverso de la
“tolerancia”. Su definición es la siguiente:
FIV, =TOL; =
de una forma alternativa, aunque menos rigurosa que la anterior. Consiste en ob-
servar si la incorporación de una nueva variable a la ecuación de regresión su-
pone una variación importante en el coeficiente de regresión de alguna (o al-
gunas) variables independientes previamente introducidas en la ecuación. La
entrada de una nueva variable suele provocar una variación en el valor de los
coeficientes de las variables incorporadas en pasos previos. Esta variación será
tanto mayor cuanto más correlacionada esté la variable con la recién incorpo-
rada al modelo. Si la correlación es baja, apenas hay variación en el valor del coe-
ficiente. Pero, cuando la colinealidad adquiere cierta magnitud, la variación es
muy apreciable. No obstante, la mayoría de los paquetes estadísticos aplican, por
defecto, valores de tolerancia que impiden la entrada de variables muy colinea-
les (como se mencionó en el punto anterior).
e La multicolinealidad también puede comprobarse observando oscilaciones en los
coeficientes de regresión (o coeficientes de pendiente “b”), siguiendo un pro-
cedimiento que puede aplicarse en los análisis de regresión “no secuenciales”.
Se divide la muestra del estudio en dos mitades. A continuación, se realiza un
análisis de regresión en cada submuestra, por separado. Las variaciones en
los coeficientes de ambas mitades se toman como indicios de multicolinealidad.
Ésta es más grave, cuanto mayor es la diferencia entre los respectivos coefi-
cientes.
e Un último procedimiento de detección de multicolinealidad atiende a los au-
tovalores. Éstos expresan cuántas dimensiones distintas existen entre las variables
independientes. Sus valores se obtienen de la matriz de productos cruzados de
las variables independientes. Para que exista elevada multicolinealidad debe ha-
ber varios autovalores próximos a 0. Esto acontece cuando la multicolinealidad
es tan alta que pequeños cambios en los datos pueden provocar grandes cambios
en las estimaciones de los coeficientes de regresión. Situación que suele coincidir
con modelos de regresión con errores típicos elevados.
De los autovalores se obtiene el índice de condición (1C). Este índice se de-
fine, en cada dimensión, como la raíz cuadrada del cociente entre el autovalor
mayor y el menor. Cuando IC es superior a 30, la colinealidad es elevada. Si es
mayor de 10, pero menor de 30, la colinealidad es moderada. Un valor inferior
a 10 supone que se está ante variables de escasa colinealidad.
alguna actuación al respecto): >,80. Ambas variables se hallan relacionadas y de forma po-
sitiva, si bien sólo comparten el 33% de su variabilidad (,5733). Las personas que manifies-
tan que no les importaría tener como vecinos a una familia de ciudadanos de Marruecos u otro
país norteafricano suelen coincidir, aunque no plenamente (al ser la correlación de ,573), con
aquellos que afirman que no les preocuparía que su hijo o hija se casase con un marroquí;
y, a la inversa.
Además, téngase presente que al ser el tamaño de la muestra analizada bastante elevado
(n = 2.492 individuos), los valores de referencia comúnmente adoptados para denotar una co-
linealidad apreciable (,60) y severa o muy importante (,80, que supone que casi dos de las
tres partes de la variabilidad de una de las variables puede predecirse por el conocimiento del
valor de la otra variable con la que se halla relacionada) pueden incluso aumentarse, de acuer-
do con Berry y Feldman (1985). El efecto de la multicolinealidad en la obtención de la
ecuación de regresión es menor cuando se analiza una muestra grande que cuando la mues-
tra es pequeña.
Las segundas variables más correlacionadas entre sí son X,, (“estudios”: P43a) y X,, ('in-
gresos”: P52), con una correlación también positiva de ,471. Le sigue en importancia la co-
rrelación negativa habida entre las variables X, (“edad”: P42) y X,, (“estudios”: P43a):
-,442. Los “estudios” y los “ingresos” covarían de forma ascendente (conforme aumenta el
nivel de estudios lo normal es que se incremente el nivel de ingresos, y a la inversa), mien-
tras que la “edad” y los “estudios” se encuentran negativamente relacionados (los niveles de
estudios más bajos se dan, con mayor frecuencia, entre las personas de más edad; a medida
que la edad del encuestado desciende, es más probable que su nivel de estudios sea superior,
pero no en todos los casos. La correlación entre ambas variables no es muy elevada:
442).
En suma, de la lectura de la matriz de correlaciones se concluye que ninguna de las 14
variables independientes analizadas se halla, positiva o negativamente, correlacionada con
otra variable independiente en una magnitud que aconseje la adopción de alguna medida pa-
ra evitar los efectos negativos de su inclusión en el análisis de regresión.
En el subapartado 1.4.2 se comprueba, asimismo, que ninguno de los coeficientes de re-
gresión de las cinco variables predictoras que conforman el modelo de regresión final tiene
un error típico elevado. Además, como se observa en el subapartado 1.6.1, donde se expone
la obtención del modelo de regresión mediante procedimientos secuenciales, los coeficien-
tes de regresión de las variables y sus errores típicos prácticamente coinciden en los distintos
pasos. La incorporación de una nueva variable predictora apenas altera los coeficientes de
variables previamente introducidas en la ecuación de regresión. Esta inalteración apreciable
en los coeficientes y errores típicos correspondientes responde a la escasa correlación
existente entre las seis variables que finalmente forman el modelo de regresión: X¿, X,q, X4,
Xy» X13 Y X¿. Las correlaciones bivariadas existentes entre cada par de estas seis variables
pueden comprobarse en la matriz de correlaciones referida (subapartado 1.3.2).
La comprobación de la presencia de multicolinealidad sigue con el cálculo de los valores
de tolerancia y el factor de inflación de la varianza (FIV), tanto para las variables incluidas co-
mo en las excluidas del modelo de regresión. Con ambos estadísticos puede comprobarse
la correlación simultánea de cada variable independiente con el resto de variables inde-
pendientes.
Primero, se calculan los valores de tolerancia y FIV para las variables que forman el mo-
delo de regresión. Los valores de ambos estadísticos se recogen en la tabla siguiente. En ella
puede observarse que en ninguna variable los valores de tolerancia o de FIV alertan de la exis-
Capítulo 1: Regresión múltiple 55
tencia de multicolinealidad importante. Todos los valores de tolerancia superan, y a gran dis-
tancia, el valor ,20, que denota un grado elevado de multicolinealidad. La tolerancia más al-
ta (,994) corresponde a la variable X, (“sexo”). La correlación de esta variable con las cinco
restantes es apenas perceptible. En la matriz de correlaciones se recogen dichas correla-
ciones: —,058 (Xz y X5), -,024 (X3 y X,0), -,035 (X¿ y X,), -,027 (Xy y Xg), ,026 (X, y Xy2).
Como era de prever, los valores de tolerancia más bajos se dan en las dos variables in-
dependientes que mayor correlación presentaban entre ellas: X,¿ (,639)y X,¿ (,652). Que el
valor de tolerancia de la variable X,¿ sea ligeramente inferior al obtenido en la variable X,, se
debe a que la primera variable presenta una correlación, en general, ligeramente superior a
X,¿ con cada una de las cuatro variables predictoras restantes. Exactamente, éstas son las
correlaciones entre cada par de variables: —,246 (Xy y X,) y -,227 (X,9 Y X,); —,024 (X¡0 y X5)
y 1026 (Xy2 Y X3); -,274 (X ¡o y X5) y ,267 (X ¡9 Y X5); 233 (X¡0 Y Xg) Y 194 (X,2 y X¿). Com-
pruébense dichas correlaciones en la matriz de correlaciones (subapartado 1.3.2).
Al definirse F/V como el recíproco de tolerancia, las conclusiones que pueden extraerse
de los valores de dicho estadístico coinciden con las expuestas para la tolerancia. Todos los
valores de F/V se sitúan muy por debajo del valor de referencia 5,0, que denota la existen-
cia de multicolinealidad importante. El valor de FIV más elevado se obtiene, como era de es-
perar, en la variable X,, (1,566). El más bajo corresponde a la variable X, (1,006), que deno-
ta la práctica inexistencia de multicolinealidad en relación con dicha variable, al posicionarse
próximo a 1,00.
Tabla A
Los valores de tolerancia en las variables independientes excluidas del modelo de re-
gresión son igualmente elevados. El más bajo se da en la variable X¿ (,786) y el más alto en
X4 (953). Los de FIV claramente bajos: el más alto en X¿ (1,272) y el más bajo en X, (1,049).
De las variables excluidas del modelo interesa, sobre todo, conocer sus valores de toleran-
cia mínimos. Éstos son los valores “mínimos” de tolerancia que la variable tendría si se in-
corporase al modelo de regresión. Denota su correlación con las variables ya incluidas al mo-
delo. Lo normal es que los valores de tolerancia mínimos sean inferiores a los de tolerancia,
como se observa en la tabla B a continuación. Pero, en todo caso, se sitúan muy por encima
del valor de referencia de ,20. El valor de tolerancia mínima más bajo (,628) corresponde a
la variable X,,. La correlación de esta variable con las seis incluidas en el modelo de regresión
es ligeramente superior a la habida en cualquiera de las siete variables restantes excluidas
del modelo, como puede observarse en la matriz de correlaciones.
S6 Análisis multivariable. Teoría y práctica en la investigación social
Tabla B
Tabla C
que son estimables y las dependencias estructurales que existen entre las va-
riables explicativas”.
Este uso del análisis factorial con anterioridad al análisis de regresión lineal
puede tener una doble finalidad: una, la identificación de variables indepen-
dientes, que sean bastante colineales, para su exclusión del análisis de regresión;
dos, la combinación de variables colineales en un único índice o factor. Estas apli-
caciones del análisis factorial (relacionadas con la redistribución de la varianza
compartida por las variables independientes) se desarrollan en el capítulo 5, de-
dicado al análisis factorial.
Sánchez Carrión (1995: 417), por ejemplo, ilustra la autocorrelación con la si-
guiente aseveración: “La inflación que pueda haber en un país en t,, , no es inde-
pendiente de la inflación en t,”. Nourisis (1986: B-188), por su parte, expone el ejem-
Capítulo 1: Regresión múltiple S9
plo siguiente: “Supón que estudias el tiempo de sobrevivencia después de una ope-
ración como una función de la complejidad de la operación, la cantidad de sangre trans-
ferida, la dosis de medicamentos y así. Además de estas variables, también es posible
que la habilidad del cirujano aumente con cada operación y que el tiempo de sobre-
vivencia de un paciente esté influido por el número de pacientes tratados. En caso de
que esto sea cierto, habrá autocorrelación”.
Asimismo, en un estudio sobre el éxito académico existirá autocorrelación, si se ob-
serva que la calificación obtenida en un examen no sólo depende de las variables in-
dependientes horas de estudio, asistencia a clase, cociente de inteligencia o motivación
por la asignatura. También se ve afectado por el momento de corrección del examen:
si es el primer examen que se corrige, o el último. Las calificaciones dadas a exámenes
precedentes puede afectar a la obtenida en exámenes posteriores. La presencia de un
buen examen (o trabajo) subconscientemente afecta a la calificación de los exámenes
inmediatamente posteriores, al elevarse el nivel de exigencia del profesor. Igual-
mente, el haber corregido, previamente, exámenes deficientes beneficia a exámenes me-
diocres posteriores, al disminuir el grado de exigencia del profesor. El estado aními-
co de éste también puede afectar a la calificación final del examen. Sobre todo,
cuando éstos se corrigen en distintos períodos de tiempo. Si ello se demuestra, habrá
autocorrelación. En su evaluación habrá que tener información adicional sobre el or-
den en que se recogieron los datos en la muestra. Esta información no siempre está dis-
ponible en los datos de encuesta. En este caso, habrá que acudir a gráficos de residuos
y/o estadísticos al efecto.
Entre las consecuencias negativas de la autocorrelación destaca, en primer lugar,
su efecto pernicioso en la significatividad de los coeficientes de regresión. La autoco-
rrelación provoca una subestimación del error típico. Éste será inferior al habido
realmente, si no existiese autocorrelación. La consecuencia inmediata es la obtención
de un valor “t” inflado, superior al real. Éste indicará que el valor correspondiente del
coeficiente de regresión es significativo estadísticamente, cuando en realidad no lo es.
Lo que invalidará el modelo de regresión.
Para evitar la incidencia negativa de la autocorrelación, primero hay que proceder
a su identificación. De nuevo, los gráficos de residuos son de gran ayuda para este pro-
pósito. Los residuos ahora se disponen en orden secuencial. Especialmente, cuando los
datos se recogen y graban secuencialmente. En este caso, los residuos se representan
siguiendo la variable de secuencia en gráficos como los incluidos en la figura 1.6. En
los ejemplos expuestos anteriormente, la variable de secuencia es el “orden” en que los
pacientes son intervenidos quirúrgicamente y, en el otro ejemplo, el “orden” en que se
corrigen los exámenes.
El supuesto de independencia de los términos de error se cumple, cuando los re-
siduos se distribuyen de una forma aleatoria. Es decir, no muestran ninguna pauta con-
sistente, como sucede en la figura 1.6a. En este gráfico se alternan los casos con resi-
duos positivos con los negativos. Por el contrario, hay autocorrelación, cuando los
residuos siguen una pauta discernible, a modo de la reflejada en la figura 1.6b. En él
puede apreciarse como se pasa, secuencialmente, de residuos negativos elevados
60 Análisis multivariable. Teoría y práctica en la investigación social
(3,0) a positivos (3,0). El orden puede ser también el inverso: pasar de residuos ele-
vados positivos (3,0) a negativos (-3,0). Estos últimos gráficos son característicos de si-
tuaciones en que el orden de disposición del caso en la muestra analizada afecta a la
información que de él se obtenga, como sucede en los ejemplos antes expuestos.
3,0
Figura 1.6. Gráfico de residuos para detectar autocorrelación de los términos de error.
Y (E, _ Es)
d = 122 5
2E
t=1
Como el lector habrá podido constatar, el análisis de los residuos es de gran utili-
dad en la comprobación de la mayoría de los supuestos de regresión. Especialmente,
en regresión múltiple, cuando se analizan dos o más variables independientes. Ello se
debe a la dificultad que supone reflejar en un gráfico bidimensional los valores de la
variable dependiente para cada una de las variables independientes, de manera si-
multánea.
En regresión lineal se entiende por residuo la diferencia entre los valores obser-
vados en la variable dependiente (Y,) y sus correspondientes valores predichos, a par-
tir de la ecuación de regresión (Y), para cada uno de los casos analizados (siendo
¡ =1,2, 3...n). Residuo es, parafraseando a Hutcheson y Sofroniou (1999: 24), “lo que
queda una vez que un modelo se ha ajustado a los datos”: E, = Y - Y.
No debe confundirse el residuo (denotado E, o r, en algunos textos) con el error de
predicción (£,). El error de predicción —como se detalla en el subapartado 1.5.2- repre-
senta la diferencia entre el valor verdadero de Y, en la población (no en la muestra ana-
lizada) y su correspondiente valor estimado mediante la ecuación de regresión. El valor
real de la variable dependiente en la población puede diferir del observado en la mues-
tra, lo que denota la existencia de error de medición en la investigación realizada.
Existe una amplia variedad de residuos, aunque todos ellos hacen referencia a la
diferencia entre la respuesta observada y la predicha. Entre los más empleados se en-
cuentran los siguientes:
E,= Y,- Y,
E,
o Sin 1 = d,,
Los valores de cualquiera de estos cuatro residuos se añaden a gráficos que facilitan
la comprobación inmediata de los supuestos de regresión. Los gráficos de residuos más
comunes son los que representan los residuos (ya sean brutos, estandarizados o estu-
dentizados) contra:
Como muestra la figura 1.7, los preámbulos del análisis de regresión lineal inclu-
yen diversas tareas a realizar previas a la ejecución, propiamente dicha, del análisis de
regresión. Comprende la elaboración de un modelo de regresión teórico, la selección
de los casos a analizar, la comprobación de los supuestos básicos de regresión, la de-
puración de los datos e indagación exploratoria. Los supuestos básicos de regresión li-
neal ya se expusieron en el apartado 1.1. En él también se hizo referencia a aspectos
relacionados con la muestra de análisis (subapartado 1.1.1), aunque no a otras tareas
que componen, igualmente, los preámbulos al análisis de regresión.
Lo primero es elaborar un modelo teórico. El tener un modelo teórico de partida.
diseñado a partir del marco teórico de la investigación, es básico en regresión, como en
cualquier procedimiento analítico. Ayuda a decidir qué variables independientes ele-
Capítulo 1: Regresión múltiple 65
T
y |
Negativa Positiva
gir para la predicción de la variable dependiente, además de los casos a analizar. La ex-
periencia de otros investigadores que hayan analizado el mismo problema de inves-
tigación contribuye a evitar errores cometidos en estudios anteriores. Esta experien-
66 Análisis multivariable. Teoría y práctica en la investigación social
se incluyen 15 variables y cada una de ellas tiene, al menos, un 5% de sus valores sin
respuesta.
La eliminación de los casos sin respuesta tampoco es una solución recomendable,
cuando estos casos no son azarosos. Al contrario, se ajustan a un perfil determinado,
que les diferencia de aquellos que sí aportan información. Tómese, por ejemplo, dos
variables: “ingresos” y “categoría profesional”. Si se observa que personas de distintas
categorías profesionales no declaran igualmente sus ingresos —las personas de cate-
gorías profesionales superiores son, por ejemplo, los más reacios a informar de sus in-
gresos—, no se está ante datos incompletos al azar. La eliminación de estos casos del
análisis supondrá, salvo que representen una baja proporción en el conjunto de la
muestra, la obtención de resultados sesgados, además de estimaciones de parámetros
inconsistentes. Por esta razón se aconseja que, antes de proceder a eliminar del aná-
lisis a los casos sin respuesta, se compruebe si aquellos casos que no aportan infor-
mación en variables de interés se ajustan a un mismo perfil. De ser así, habrá que de-
sestimar su eliminación de la muestra de análisis y optar por otro remedio a la “no
respuesta”.
Cuando no se cumplen las circunstancias referidas de tamaño muestral elevado y/o
baja proporción de casos sin respuesta, y éstos no se distribuyen al azar, sino que
reúnen unas mismas características, es habitual elegir alguno de los remedios si-
guientes:
1. Reemplazar los valores sin respuesta (“missing values”) en una variable por la
media de los valores observados en dicha variable, antes de proceder al
análisis. Esta solución es especialmente útil, cuando se quiere hacer uso de los
datos incompletos y las intercorrelaciones existentes entre las variables son
pequeñas. La ventaja principal es que todos los casos de la muestra original
intervienen en la obtención del modelo de regresión. El inconveniente sería
los sesgos que su aplicación puede introducir en las estimaciones de los pa-
rámetros de regresión.
2. Tomar los valores de respuesta dados por otros casos que han proporcio-
nado respuestas similares en otras variables. Se trata de atribuir a los casos
sin respuesta la dada por otros individuos de similares características, que
han proporcionado las mismas respuestas que ellos en las demás variables.
Esta atribución de respuesta es más arriesgada que la solución anterior. In-
dividuos con similares características no tienen por qué ser plenamente
coincidentes.
68 Análisis multivariable. Teoría y práctica en la investigación social
e Incluir los casos sin respuesta, en una o en varias variables, con el código “mis-
sing value”. Si los datos son continuos, estos valores sin respuesta suelen codi-
ficarse como valores extremos (por ejemplo, 99 o 0). En estas circunstancias, es-
ta opción no parece ser muy útil. Pero sí, en cambio, cuando se analizar
variables ficticias. La consideración de los datos incompletos “como una res-
puesta separada a una cuestión junto con otras respuestas puede ser una opciór
interesante. Algunas veces, en los datos de encuesta, el hecho de que un sujeto
no responda una cuestión particular puede ser una parte de información útil a
analizar” (Afifi y Clark, 1990: 224).
e El investigador también puede considerar la eliminación del análisis de cualquier
variable que presente una proporción elevada de casos sin respuesta. Á menos
que ésta se estime crucial en la predicción de la variable dependiente.
e Un último remedio que puede evitar la incidencia negativa en la merma de lz
muestra original que puede suponer la eliminación de los casos sin respuesta, sie
acudir a la imputación, es la eliminación del análisis sólo de los casos que no apor-
ten información en la variable que se analiza; es decir, sólo cuando se estimen los
parámetros de la variable afectada por la no respuesta. Que el caso se elimine de
dicho análisis no supone su eliminación de otros análisis que afecten a otras va-
riables de las que sí proporciona información. Este proceder ofrece la gran ven-
taja de suponer una reducción sensiblemente menor del tamaño muestral que
la eliminación total del caso, indistintamente de la variable que se analice, sin ne-
cesidad de recurrir a la imputación. De ahí que haya sido ésta la actuación se-
guida en el análisis de los datos aquí expuestos.
El tratamiento dado a los casos “sin respuesta” en la encuesta aquí analizada ha sido e
último mencionado: realizar el análisis de regresión sólo con aquellos casos que sí propor
cionan información en las variables de interés. Al ser el tamaño de la muestra original bas
tante elevado (n = 2.492 casos), no era imperioso recurrir a la imputación. Se quería con elk
Capítulo 1: Regresión múltiple 69
evitar los sesgos que toda suposición de cuál habría sido la respuesta dada puede introdu-
cir en la estimación de los parámetros. Pero, proceder a la eliminación de todo caso que no
aportase información en alguna de las variables incluidas en el estudio suponía una reduc-
ción drástica en el tamaño de la muestra original, bastante superior a la mitad (n = 692). Es-
ta drástica merma en el tamaño muestral, por encima de las predicciones de Jaccard y Wan
(1996), se debe no sólo al número de variables elegidas para el análisis (15), sino también
a que los casos “sin respuesta” no coinciden en todas las variables. La desestimación de los
casos “sin respuesta”, aunque sólo sea en una de las variables seleccionadas para el aná-
lisis, provoca esta reducción tan llamativa en el tamaño muestral, cuando se analizan con-
juntamente las variables. Sin duda la reducción habría sido menor, si los casos “sin respuesta”
no se hubiesen distribuido al azar en la muestra, adecuándose a un mismo perfil en la ma-
yoría de las variables.
En cambio, la eliminación parcial del caso sin respuesta del análisis, sólo cuando afec-
ta a la variable que se analiza, supuso una reducción sensiblemente menor en el tamaño de
la muestra original a 1.280 casos. Esta reducción se debió al cruce de las dos variables con
más casos sin respuesta: “leyes inmigración” (P16), con un total de 1.713 casos válidos; y la
variable “ingresos” (P52), declarados sólo por 1.793 de los 2.492 encuestados. Pese a
ello, el tamaño muestral continúa siendo elevado y posibilita, para la comprobación de la va-
lidez de los resultados, el seccionamiento aleatorio de la muestra a la mitad (aproximadamente
640 casos en cada submuestra: de análisis y de validación).
Estadísticos descriptivos
Desviación
Media típica N
él se describe cada una de las variables; si son continuas o ficticias, además de los códigos
numéricos dados a cada uno de sus valores. Esta información es de gran interés en la in-
terpretación de estos estadísticos descriptivos.
Además, observése como el tamaño muestral (N) varía en cada variable, al excluirse del
análisis los casos sin respuesta sólo en la variable a la que afecta. En las variables “sexo” y
“edad” se dispone de información de todos los casos de la muestra original. Pero, en otras va-
riables, como “leyes inmigración” (P16) e “ingresos” (P52), los casos analizados se reducer
considerablemente. En la variable “ingresos” la reducción no sorprende, debido a la reticenciz
normalmente mostrada a la declaración específica de los ingresos, aun pidiéndose que se der
de forma aproximada. En la variable “leyes inmigración” tampoco, al haberse incluido comc
opción de respuesta (en la valoración de las leyes que regulan la entrada y permanencia de
extranjeros en España) “no conoce la legislación en materia de inmigración”.
Por último, señalar que la mayor desviación típica de la variable “ingresos”, seguida a dis-
tancia de la variable “edad”, se debe a la unidad de medición de ambas variables: pesetas y
años. En las otras variables el rango de valores posibles se restringe a 11 como máximo (en
las variables “simpatía marroquí” y “simpatía latinoamericano”: la escala de valores va de €
[ninguna simpatía] a 10 [mucha simpatía)); y en las variables ficticias (“sexo” [P41], “regularizar
inmigrante” [P19] e “inmigrante delincuente” [P2904)) se reduce a los valores 1 y O (el grupa
de referencia).
59 vz (3 ] 2,
N
2 XY,
donde Sxy = A — X Y= Covarianza de X en Y
X, X, X, Xx, Y
X, lu prisas Ti Ty
> O AP Tap T2y
Xd Tn Ta 1. x.<. 3 M3,
XA Ta Ta Ta..... 1 o
Y la La are me E 1
ya correlación sea de igual o superior magnitud que el valor tomado de corte. Esto ayu-
da a tener una primera impresión de las interrelaciones existentes entre las variables.
Se insiste en que la relación es exclusivamente entre dos variables y no se tiene en con-
sideración la influencia, a su vez, con otras variables.
Si la relación es entre dos variables independientes, recuérdese que todo valor igual
o superior a +0,80 se considera indicativo de una elevada correlación entre las varia-
bles (se está ante variables muy colineales). Son funciones casi perfectas una de otra,
lo que demanda la adopción de alguna de las medidas contra la multicolinealidad re-
feridas en el subapartado 1.1.8. También puede tomarse como referente de colineali-
dad importante toda correlación igual o superior a +0,60.
Asimismo, puede darse la situación de correlaciones inferiores a las esperadas. Ello
puede deberse a la existencia de una relación no lineal entre las variables o, simple-
mente, a la presencia de outliers (casos “atípicos”). Para descartar ambas explicacio-
nes a la baja correlación entre las variables hay que proceder a la comprobación de los
supuestos de regresión (apartado 1.1) y, en su caso, a la detección de “atípicos” (véa-
se subapartado 1.5.4).
Por último, advertir de que las correlaciones demasiado bajas pueden deberse,
igualmente, a valores extremos de la media y desviación típica de la variable. “Si las me-
dias de las variables para una muestra dada son números muy grandes y las desvia-
ciones típicas muy pequeñas, entonces los programas de ordenador pueden producir
matrices de correlación cuyos valores son demasiado pequeños” (Hutcheson y So-
froniou, 1999: 18). Esta tercera explicación tendrá, asimismo, que comprobarse, lo que
exige un análisis univariable de las variables afectadas.
Matriz de correlaciones
Y |1.000| 302 |-,115|-,050 |-,113| 593 |-,297 | ,281 |-,294 |-,216 | -,476 | ,140 | ,057 | -,396|-,268
(,000) | (,000) | (,010) |(.000) |(,000) | (,000) | (,000) | (,000) [(,000) | (,000) | (,000) [(,012)| (,000)|(,000,
Xx 1,000 | -,181 | -,035 |-,129 | ,196 |-,337 | ,286 | -,368 |-,141 | -,246 | ,184 | ,156 | -,227|-.285
(,000) | (,075) |(,000) (,000) | (,000) | (,000) | (,000) (,000) | (,000) | (,000) | (,000)| (,000)|(,000;
Xx 1.000 |-,031| 118 |-,048| ,140 |-,111| ,136 | ,170 | ,147 |-,052 | ,037 | ,117 | ,149
(098) |(,000) |(,024) | (,000) | (,000) | (,000) |(,000) | (,000) | (,017) |(,088)| (,000)|(,00c%
Xx, 1,000 |-,058 |-,009 | -,027 | -,039| ,046 | ,021 |-,024 ,080 | ,107 | ,026 | 055
(,002) |(,330) | (,106) | (035) | (,015) |(,160) | (,116) | (,000) | (,000) | (,102)|(,005;
X, 1,000 |-,102 | ,141 |-,089| ,117 | ,097 | ,163 | -,442 |-,291| ,124 | ,201
(,000) | (,000) | (,000) | (,000) |(,000) | (,000) (,000) | (,000)| (,000)|(,00%,
X, 1,000 |-,230| ,228 |-,246 |-,219|-,274 | ,120 | ,085 | -,267|-,193
(,000) | (,000) | (,000) |(,000) | (,000) | (,000) | (,000)| (,000)|(,00€:
Xx 1,000 |-,283| ,275 | ,183 | ,233 | -,254 |-,223| ,194 | 316
(,000) | (,000) | (,000) | (,000) | (,000) | (,000) | (,000)|(,00€C;
X, 1,000 |-,388 |-,199|-,265 | ,175 | ,118 | -,249|-,26%
(,000) [(,000) | (,000) | (,000) | (,000)| (,000)|(,O00*
Xs 1,000 | 257 | ,290 | -,154 |-,139| ,266 | ,309
(,000) | (,000) | (,000) | (,000)| (,000)|(,000;
Xx 1,000 | ,239 | -,128 |-,070| ,261 | ,178
(,000) | (,000) | (,002)| (,000)|(,000;
e 1,000 | -,114 |-,023| ,573 | ,271
(,000) | (,169)| (,000)|(,00C*
Lu 1,000 | ,471 | -,095|-,204
(,000)| (,000)|(,00G
X12 1,000| -,041|-,117
(,041)|(,002,
X13 1,000| ,207
(,000:
Xi 1,000
* Las cifras entre paréntesis corresponden a la significatividad de las correlaciones bivariables respectivas.
» Y: "simpatía hacia norteafricano (marroquí...)" (P201); X,: “leyes inmigración” (P16); X: “ideología política” (P33:
X,: “sexo” (P41); X,: “edad” (P42); X,: “simpatía hacia latinoamericanos” (P210); X¿: “número de inmigrantes
(P11); X,: “regularizar a inmigrantes” (P19); X¿: “entrada inmigrantes” (P21); X,: “partido racista” (P37); X,¿: “cz
sar con marroquí" (P306); X,: “estudios” (P43a); Xy2: “ingresos” (P52); X,,: “vecino marroquí” (P506); Xi: Er
migrante delincuente” (P2904).
Recuérdese que la variable “sexo”es una variable ficticia que, al tener codificación binaria
(1 varón, O mujer), su relación con las otras variables no se ajusta a una recta de regresión,
aunque realmente las variables estén muy relacionadas. En las variables ficticias, el coeficiente
de correlación producto-momento de Pearson (“r”) no expresa el grado de relación existen-
te entre dos variables, sino la proporción de casos que en ese grupo (el codificado 1) es ma-
yor (signo positivo) o menor (signo negativo) que la proporción de casos en el grupo de re-
ferencia (codificado 0). Por ejemplo, la correlación de X, con Y de —,050 significa que la
proporción de varones (codificados 1) que muestran “simpatía hacia los norteafricanos
(marroquíes...)” es muy ligeramente inferior a la de mujeres (el grupo de referencia, al co-
dificarse 0). En cambio, la correlación positiva de la variable X, con X,, de ,107 indica la pro-
porción en que los “ingresos” de los varones superan a los declarados por las mujeres. A la
vista de ambas correlaciones, que son bastante significativas y de escasa cuantía, puede con-
cluirse que existen más diferencias entre los varones y las mujeres en los “ingresos” decla-
rados (a favor de los varones) que en la “simpatía” manifestada hacia los norteafricanos (li-
geramente superior en las mujeres). Es en la variable “ingresos” donde las diferencias por
género son superiores (aunque con escasa magnitud: ,107). Respecto a las otras variables,
las diferencias por género son apenas perceptibles. La correlación más baja se da entre la
variable X, y X; (-,009). En la manifestación del grado de “simpatía hacia los latinoamericanos”
las diferencias entre los varones y las mujeres son nulas (inclusive inferiores a las registra-
das en la variable Y: “simpatía norteafricano”) e, igualmente, en dirección negativa (míni-
mamente superior en las mujeres).
Las otras dos variables ficticias (X, y X,¿) muestran una mayor correlación con Y que X,.
En la variable X, (“regularizar a inmigrantes”) la correlación es positiva y ligeramente supe-
rior (,281). Entre las personas que creen que sí “se debería tratar de regularizar la situación
de los inmigrantes ilegales” (grupo codificado 1) la proporción de casos que muestran más
simpatía hacia los norteafricanos es ,281 superior a la habida entre los contrarios a la re-
gularización (el grupo de referencia). Asimismo, la correlación de X,, e Y de —,268, significa
que entre aquellos que están de acuerdo en que “el aumento de los inmigrantes favorece el
aumento de la delincuencia en nuestro país” aquellos que muestran simpatía hacia los
norteafricanos son en una proporción de ,268 inferiores a los que están en desacuerdo con
dicha aseveración. En este último grupo (el grupo de referencia) es superior el grado de sim-
patía manifestado hacia los norteafricanos, aun no siendo excesiva en magnitud.
De las catorce posibles variables predictoras consideradas X, (“simpatía hacia latinoa-
mericanos”) es la variable más correlacionada con Y (“,593). La correlación habida entre am-
bas variables es positiva e importante, aunque no perfecta. Las simpatías mostradas hacia
los latinoamericanos y norteafricanos covarían en la misma dirección. Ambas variables es-
tán positivamente relacionadas, lo que significa que los aumentos (o disminuciones) en sim-
patía hacia los latinoamericanos suelen coincidir, aunque no siempre, con aumentos (o dis-
minuciones) igualmente en la simpatía manifestada hacia los norteafricanos. Para que la
correlación entre ambas variables fuese perfecta (y la coincidencia de sus valores total en to-
dos los casos) su valor debería aproximarse a 1,0. No obstante, la correlación entre ambas
variables es importante y puede afirmarse que ésta será la primera variable que formará la
ecuación de regresión, la que más ayuda a predecir el valor de Y.
X¿p (casar con marroquí”) es la segunda variable en importancia que muestra una
mayor correlación con Y, aunque en dirección negativa (-,476). El signo del coeficiente res-
ponde a cómo está definida esta variable. El valor más alto (4) corresponde a aquellos que
afirman que “le preocuparía mucho que un hijo o una hija suya se casara con un ciudadano
76 Análisis multivariable. Teoría y práctica en la investigación social
de Marruecos u otro país norteafricano”; el valor más bajo (1), a aquellos que declaran que
no les preocuparía “nada” dicho matrimonio. Hecha esta especificación, el signo del coeficiente
no sorprende. La simpatía mostrada hacia los norteafricanos varía inversamente con la pre-
ocupación de que un hijo o hija se casase con un marroquí. A medida que aumenta le
preocupación hacia un posible matrimonio con un marroquí u otro ciudadano de un país norf-
teafricano, desciende la simpatía hacia este grupo de personas. Esta es menor entre los que
dicho matrimonio les preocuparía “mucho” o “bastante” que entre aquellos a los que les pre-
ocuparía “poco” o “nada”. La relación entre ambas variables es lineal, aunque no perfecta. 4
partir de la matriz de correlaciones puede predecirse que ésta será la segunda variable en for-
mar la ecuación de regresión, al ser la segunda más correlacionada con Y, cumpliendo a s=
vez la condición de estar apenas correlacionada con X,. La correlación (muy significativa) hz
bida entre las variables X,, y X¿ es leve (-,274). Se trata de dos variables poco colineales. Lz
inclusión de una de ellas en la ecuación de regresión no restringe la incorporación de la otra
Como se verá posteriormente, la incorporación de variables predictoras a la ecuación de
regresión está determinada no sólo por la correlación que dicha variable tenga con la de-
pendiente, sino también de la tenida con variables independientes previamente introducidas
en la ecuación (por mostrar una mayor correlación con Y). En suma, para poder predecir que
la variable X,, (la tercera más correlacionada con Y: —,396) y X, (la cuarta, ,302), por
ejemplo, van a formar parte de la ecuación de regresión, habrá antes que observar cuáles sor
las correlaciones de estas dos variables entre sí y con las variables previamente indicadas
como posibles integrantes de la ecuación. Un grado elevado de colinealidad con variables yz
en la ecuación dificulta la incorporación de nuevas variables, aun estando muy correlacionad==
con Y. Como se señaló en el subapartado 1.1.8, en el análisis de regresión se trata de ev
tar la multicolinealidady con ello la redundacia en la predicción de Y. Para más informació
reléase dicho subapartado. En los siguientes se volverá a hacer referencia a esta matriz de
correlaciones para la interpretación del modelo de regresión.
“X;, Xy, Xz... X,” las distintas variables predictoras de las que se ha obtenido infor-
mación en fa muestra analizada.
“a”: también denominado “b,”. Identifica la constante o el intercepto de la recta de re-
gresión. Es el punto donde la recta (o el plano) de regresión “intercepta”, o
sea, corta el eje Y. De ahí su referencia de “intercepto”. También se le conoce co-
mo “constante” porque su valor denota el valor promedio de Y cuando las va-
riables independientes son nulas; es decir, iguales a cero. Pero, téngase presente
que no siempre el valor cuantitativo del intercepto tiene una interpretación directa.
Esto sucede, habitualmente, cuando presenta un valor negativo. Rara vez, en el
mundo real, un valor de Y puede ser inferior a 0 (salarios, calificación académica,
horas de estudio, por ejemplo). En estas circunstancias de valores de “a” (o
“by”) negativos, su cuantía no es directamente interpretable, aunque continúa sien-
do imprescindible para la predicción de Y.
En caso de variables independientes ficticias (véase subapartado 1.1.2), el in-
tercepto (o constante) refleja el valor predicho de la variable dependiente para el
grupo de referencia. Ello se debe a que todas las variables ficticias son iguales a ce-
ro para el grupo de referencia (0 varón, 1 mujer; O suspenso, 1 aprobado, por ejem-
plo). Su valor se interpreta como la frecuencia media de la variable dependiente
para el grupo que se ha codificado 0.
“b,, Da... b,” son los coeficientes de pendiente parcial o de regresión parcial. En regre-
sión simple, cuando sólo hay una variable independiente, su valor representa la
pendiente de la recta de regresión. En regresión múltiple, con dos o más variables
independientes, su valor identifica la pendiente del hiperplano de regresión con
respecto a su respectiva variable independiente (X_). Separan el efecto de cada va-
riable independiente en la dependiente del resto. Ésto se debe a que su cuantía ex-
presa el cambio promedio en la variable dependiente asociado a una unidad de
cambio en X_, cuando el resto de las variables independientes se mantienen
constantes (esto se conoce como control estadístico).
En variables independientes ficticias (con codificación binaria 0 — 1) el coe-
ficiente de pendiente en cada una de las variables ficticias estima la diferencia en
el valor de Y entre el grupo en cuestión y el grupo de referencia. En variables con
sólo dos categorías, como sexo, el valor de dicho coeficiente se convierte en la di-
ferencia en las medias entre el primer grupo (el codificado 1) y el segundo grupo
(el codificado 0). Si los “varones” actúan, por ejemplo, como grupo de referencia
(codificado 0), el coeficiente “b” asociado a “mujer” (con el código 1) denota la
diferencia en Y entre “mujeres” y “varones”. En general, los casos que puntúen
0 en cada una de las “g — 1” variables ficticias creadas se toman como grupo de re-
ferencia, respecto al cual se comparan los coeficientes de regresión de cada una de
las variables ficticias formadas a partir de una variable cualitativa. Por esta razón
se recomienda seleccionar como grupo de referencia aquel que haga más signifi-
cativa la interrelación de los respectivos coeficientes de pendiente.
Como los coeficientes de pendiente suelen estimarse de datos muestrales,
siempre habrá una variación en su valor, dependiendo de la muestra que se ana-
78 Análisis multivariable. Teoría y práctica en la investigación social
ecuación de regresión (P,, para cada caso concreto (i = 1, 2, 3... n). Dichas diferencias
constituyen los errores de predicción (“e;”). Existe uno para cada punto. Su valor informa
de la distancia habida entre el punto y la recta O plano. Rara vez se logra un ajuste per-
fecto de los puntos a la recta o plano, por lo que siempre existe error. Lo que se quiere
es que sea lo menor posible, que la distancia habida entre ambos valores sea mínima.
S (X, - XNY, - Y)
b=w=____ ___=Covarianza de XY / Varianza de X
$ (x, - X)
a=Y -bX
Y -Y
Z,y = LE . Después se procede a un nuevo cálculo de la ecuación de re-
Y
gresión, pero sin el intercepto (o constante). Las puntuaciones Z suponen des-
viaciones respecto de la media, lo que implica su traducción al origen.
Los coeficientes beta se obtienen del producto de cada coeficiente “b” por el co-
ciente entre la desviación típica de la variable independiente y la desviación típica
diante el error típico (“standard error”), que constituye una medida de la variabilidad de
las estimaciones de los coeficientes, a partir de la información extraída de una muestra.
El error típico del coeficiente de regresión “b” (SEB) se define como la variación en
la estimación del valor del coeficiente de una a otra muestra (de iguales características)
que pertenezcan a la misma población. Permite conocer la divergencia en las estimaciones
de los coeficientes y equivale a la distribución de las estimaciones del coeficiente de re-
gresión que resultaría, si se extrajesen repetidamente muestras, de un determinado ta-
maño, de una misma población y, para cada una de ellas, se calculase el coeficiente de re-
gresión. Como estos coeficientes estimados de muestras aleatorias varían de sus
correspondientes valores poblacionales, el error mide, precisamente, cuál es esa variación.
Esta información es imprescindible a efectos inferenciales (de los coeficientes estimados
en una muestra a sus correspondientes parámetros poblacionales).
El cálculo del error típico de un coeficiente concreto (S,,) se realiza mediante la si-
guiente fórmula:
Y, - YN —p-1)
S, =
Y (X, - X) (1-7?)
i=1
Cuanto más bajo sea su valor, mejor es la estimación del coeficiente ““b”: menos va-
riación habrá en muestras distintas de una misma población. Lo que repercute, ob-
viamente, en su significatividad estadística. La obtención de errores típicos elevados sue-
le ser, a decir de su fórmula, consecuencia de uno o varios de los aspectos siguientes:
A partir de error típico pueden calcularse los intervalos de confianza para cada
coeficiente de regresión que haya mostrado ser significativo (subapartado 1.4.3). Pa-
ra ello se multiplica el error por el valor teórico de “+” de Student, con “N — p-— 1” gra-
dos de libertad (siendo “p” el número de variables predictoras en la ecuación de re-
86 Análisis multivariable. Teoría y práctica en la investigación social
Donde “t” es el percentil 100 (1-0/2) de la distribución “t”, con “N —p-1” grados
de libertad. El límite inferior del intervalo viene dado por la diferencia del coeficiente
estimado respecto al producto del valor “t” crítico y el error de estimación del coefi-
ciente. El límite superior, en cambio, queda definido por la suma de dicho producto y
el coeficiente de regresión. Para la constante, el intervalo de confianza se calcula dei
mismo modo y con los mismos grados de libertad:
E
Capítulo 1: Regresión múltiple 87
[marroquíes, etc.]”), sólo 6 muestran poder predictivo significativo. Especialmente, las va-
riables X¿ (“simpatía hacia latinoamericanos”) y X,, (“casar con marroquí”), que son las dos
variables que más varianza de Y logran explicar. La tabla A incluye los coeficientes estan-
darizados y no estandarizados de las variables que conforman el modelo de regresión, jun-
to a su significatividad.
Tabla A
- Manifieste una simpatía hacia los latinoamericanos (X¿) de 7 en una escala de O (“nin-
guna simpatía”) a 10 (“mucha simpatía”).
Le preocupa “bastante” (3) que un hijo o hija suya se case con un ciudadano de Ma-
rruecos u otro país norteafricano (X;¿).
Considera que las leyes que regulan la entrada y permanencia de extranjeros en Es-
paña (X,) son “correctas” (3).
Piensa que son “bastante, pero no demasiados” (2) las personas de otros países que
viven en España (X¿).
Le preocupa “bastante” (3) tener como vecino a una familia de ciudadanos de Ma-
rruecos u otro país norteafricano (X;y).
— Es varón (1) (X,).
Para una persona con estas características puede predecirse que su “simpatía hacia los
norteafricanos” es:
es PP
Capítulo 1: Regresión múltiple 91
0,519
4,36 2(1,96)(1,9595):
—— 8,201
+ Del producto de los coeficientes beta y los coeficientes de correlación se extrae el por-
centaje de varianza de Y que cada variable independiente logra explicar. En concreto, la con-
tribución de cada variable independiente en la predicción del valor medio de Y. Ésta se mues-
tra en la tabla B.
Tabla B
Variables r B rxB
Simpatía hacia
latinoamericanos
,460
| Sexo
94 Análisis multivariable. Teoría y práctica en la investigación social
+ Las otras ocho variables independientes analizadas han quedado excluidas del modeio
de regresión. Ninguna de ellas presenta un coeficiente de regresión significativo, como
puede verse en la tabla C. La significatividad de los coeficientes supera el valor de referen-
cia habitual de ,05, al ser los valores t empíricos inferiores a 1,96.
Además de la significatividad y el valor t, en la tabla se incluyen los coeficientes beta den-
tro y de correlación parcial. Beta dentro es el coeficiente de regresión estandarizado que
tendría la variable si se incorporase al modelo de regresión. Todos ellos son valores muy ba-
jos. En cambio, el coeficiente de correlación parcial expresa la correlación de cada variable in-
dependiente con la dependiente, cuando los efectos de las otras variables independientes se
mantienen constantes. Elevando su valor al cuadrado, se obtiene la proporción de varianza de
la “no explicada” de Y por el modelo de regresión (51,36%) que quedaría explicada si dicha va-
riable independiente se incluyese en el modelo. Por ejemplo, X, es la variable que mayor coe-
ficiente de correlación parcial tiene (,051). Este coeficiente no significa que dicha variable ('re-
gularizar a inmigrantes”) explique el 5,1% de la varianza “sin explicar” de Y. Para conocer
realmente qué proporción de varianza explica, hay que elevar dicho coeficiente al cuadrado:
,051? = ,0026. El 0,26% del 51,36% de la varianza “no explicada” de Y sería explicada incor-
porando la variable X, al modelo de regresión. Exactamente, “,5136 x ,0026 = ,0013”, una pro-
porción de varianza totalmente insignificante. X,, al igual que las otras siete variables, no apor-
ta nada a la predicción de Y. Su conocimiento no ayuda a reducir el error de predicción de Y.
Tabla C
mero, con la ayuda de gráficos, en los cuales se trata de comprobar lo bien que la nu-
be de puntos se “ajusta” a la recta o plano de regresión. A estos gráficos se ha hecho
referencia en páginas anteriores.
Pero, aunque los gráficos ayudan a visualizar el “ajuste”, la distancia que separa los
puntos de la recta (o plano) se mide, de forma más precisa, mediante el coeficiente de
correlación múltiple cuadrado (R?). Éste constituye una medida de proximidad rela-
tiva, empleada en el análisis de regresión para evaluar la bondad de ajuste del modelo.
La proximidad se mide como la proporción de varianza de la variable dependiente que
queda explicada por la recta (o plano) de regresión.
“R2” también se refiere como coeficiente de determinación. Su valor expresa la pro-
porción de variación total de la variable dependiente que es “determinada” o explicada
por las variables independientes que conforman la ecuación de regresión. El rango de
valores posibles va de 0,0 a 1,0. Un valor de R? = 1,0 indica que el modelo de regresión
logra explicar completamente la varianza de la variable dependiente. Esta situación se
produce cuando todos los puntos caen en la recta (o plano) de regresión. En cambio,
un R? = 0,0 denota que el modelo de regresión carece de poder predictivo. Ningún pun-
to coincide con la recta de regresión. Ambas situaciones son, no obstante, difíciles de
encontrar en la práctica investigadora. Tan improbable es obtener una ecuación de re-
gresión que logre explicar toda la variabilidad de la variable dependiente, como con-
seguir una que no explique nada. Lo habitual son valores intermedios.
El coeficiente de determinación es el cuadrado del coeficiente de correlación R. Es-
te último expresa el grado en que la variación de la variable dependiente se halla re-
lacionada con las variaciones, simultáneas, de las variables independientes en la ecua-
ción. Cuando se considera sólo una variable independiente, el valor de “R” figura
acompañado de un signo (*+”, “—”). Éste informa si ambas variables se mueven en la
misma dirección (signo positivo) o en direcciones contrarias (signo negativo) omo
se expuso en los subapartados 1.3.2 y 1.4.1-.
Cuando se analiza la relación de dependencia con dos o más variables indepen-
dientes, el valor del coeficiente de correlación R múltiple aparece sin signo (ni positi-
vo ni negativo). Ello se debe a que se analiza, conjuntamente, la influencia de la serie
de variables independientes en la dependiente. Lo normal es que no coincida la di-
rección de la relación de cada variable independiente con la dependiente. Por eso, al
analizarse su influencia conjunta, el signo se anula. El coeficiente R múltiple sólo indica
el grado de correlación entre las variables afectadas, pero no la dirección de la relación
entre ellas. Esta última información la proporciona los coeficientes de pendiente y los
coeficientes de correlación bivariable (en la matriz de correlaciones).
La variación total de la variable dependiente (o suma total de cuadrados, TSS) con-
sidera las desviaciones de la variable dependiente observada en cada uno de los casos
N —
a la suma de dos partes: una, la variación que queda explicada por la ecuación de re-
gresión (o suma de cuadrados de regresión, RSS), que mide la desviación de cada va-
96 Análisis multivariable. Teoría y práctica en la investigación social
N A —
la que queda sin explicar por la ecuación (o suma de cuadrados residual, ESS), que con-
sidera la desviación de cada: valor observado de Y respecto al predicho por el mode-
lo de regresión obtenido: y (Y, - YY.
¡=1
Za Ñ RSS
y 7 T5S=RSS+ ESS
=1
-.
Para obviar esta última limitación, se introduce un ajuste en R? que corrige la so-
breestimación de R?, cuando no se mantienen las debidas proporciones de número de
casos por variables predictoras. El R? ajustado (R?, también referido R?) queda defi-
nido de la siguiente forma:
R? 2 POR)
: N-p-1
tir de la suma de errores cuadrados de regresión »> (Y, - Y,Y ) la suma de las des-
i=1 fu
Los grados de libertad (g.1.) de regresión son iguales a “p” (número de variables in-
dependientes en el modelo); y g.1. residual a “N — p — 1”. Todos estos valores se incluyen
en la tabla ANOVA (análisis de varianza) en el análisis de regresión múltiple: |
¡
Residual 2
Y, —
:
pa )
=p- less A e |a
ESS/N — p=1|
1
de libertad a un
N nivel de significa-
Total y, (Y, - Y y N=1 TSS/N-1 ción determinado
i=1
Tabla A
El coeficiente de correlación múltiple es igual a ,697, lo que significa que el grado de re-
lación conjunta entre las seis variables independientes con la dependiente es muy importante.
Recuérdese que un valor próximo a 1,0 indica correlación perfecta entre las variables. Este
coeficiente no va acompañado de signo porque la dirección de la relación de cada variable
independiente con la dependiente (positiva o negativa) no coincide. En las variables X; y X,
es positiva, mientras en X109 X6> X13 Y X, es negativa. Elevando este coeficiente al cuadrado
se obtiene el coeficiente de correlación múltiple cuadrado o coeficiente de determinación (R?):
,697? = ,486. De acuerdo con este coeficiente, traducido a términos porcentuales, el 48,6%
de la variación (sobre la media) en la variable dependiente es explicada por la variación en
las variables independientes que integran el modelo de regresión, sobre sus medias. Esto sig-
nífica que el conocimiento del valor de las variables independientes logra reducir en un 48,6%
el error de predicción de Y, cantidad nada desdeñable. Casi la mitad de la varianza de Y es
explicada por la conjunción de seis variables predictoras. El ajuste de la nube de puntos al hi
perplano es bueno, aunque no perfecto. Queda un 51,4% de su variabilidad sin explicar, al
estar afectada por otras variables no consideradas.
R? se obtiene del cociente entre la suma de cuadrados de regresión (la variación expli-
cada) y la suma de cuadrados total (varianza total de Y): 4627,827 / 9515,710 = 486.
El coeficiente R? ajustado, que corrige la sobreestimación de FA? cuando el tamaño
muestral es pequeño en relación con el número de variables independientes analizadas, ape-
nas difiere del anterior, debido a que la proporción de casos por cada variable independiente
es muy elevada: FÉ = 484 . Este valor se obtiene aplicando la fórmula siguiente:
_ 2 ==
r? = R? _ p(t R ) _ 6- 6(1 ,486)
a N-p-1 ” = ,484
1280-6-1
Capítulo 1: Regresión múltiple 101
E Y 4887,883
= = 1,9595
N-p-1 1280 -6-1 9
Como ya se vio en el subapartado 1.4.3, el valor del error determina la amplitud de los in-
tervalos de confianza en la predicción de Y, a un nivel de probabilidad determinado.
Por último, el modelo de regresión estimado en la muestra es inferible al universo, al ser
significativo estadísticamente. La F empírica (200,879) supera bastante su correspondiente
valor teórico (2,10), para un nivel de significatividad de ,05 y 6 y 1.273 grados de libertad. El
rechazo de la hipótesis nula (la media de Y es tan adecuada en la predicción de Y como el
modelo de regresión) era predecible por el elevado tamaño de la muestra. La F empírica es
el resultado de la razón siguiente:
Tabla B
ANÁLISIS + ANÁLISIS
Regresión 2.421,903 5 484,381 R ,721
Residual 2.241,519 629 3,564 [135,924 | ,000 r?2 ,519
Total 4.663,422 634 7,356 R?, 1516
Error típico est. 1,8878
VALIDACIÓN * VALIDACIÓN
Regresión 2.337,153 5 467,431 R ,717
Residual 2.207,797 619 3,567 [131,053 | ,000 r? 1514
Total 4.544,951 624 7,284 AA, ,510
Error típico est. 1,8886
Tabla C
Coeficientes no Coeficientes
estandarizados estandarizados
Modelo de regresión t Sig.7
B Error Beta
típico
. MUESTRA DE ANÁLISIS
(Constante) 3,595 536 6,705 ,000
X, simpatía latinoamericano ,589 ,035 ,494 16,598 | ,000
Xy Casar con marroquí -,515 ,096 -,192 -5,387 | ,000
X, leyes inmigración 1211 ,079 ,080 2,651 | ,008
X,¿vecino marroquí -,417 ,135 -,106 -3,098 | ,002
X¿número de inmigrantes -,358 ,130 084 -2,752 | ,006
. MUESTRA DE VALIDACIÓN
(Constante) .3,238 | ,583 5,554 | ,000
X, simpatía latinoamericano ,586 ,036 ,487 16,193 | ,000
Xp Casar con marroquí -,540 ,096 -,202 -5,628 | ,000
X, leyes inmigración ,302 ,083 114 3,651 | ,000
X,¿vecino marroquí -,488 ,139 -,122 -3,499 | ,001
X¿número de inmigrantes -,284 | ,136 -,066 -2,097 | ,036
Capítulo 1: Regresión múltiple 103
“mu
Oo
TD
a
3
a
o
yo]
2“M
o
mn
Oo
23
3“
Y
6 ' TT 1 1 vo TT I I 1 I I T T I T T
251 501 751 1.001 1.251 1.501 1.751 2.001 2.251
126 376 626 876 1.1126 1376 1.626 1.876 2.126 2.376
Número de caso
10
Residuos brutos
T
-10 4 10
Residuos eliminados
A estos gráficos hay que añadir los gráficos de regresión parcial, que permiten la iden
tificación de “atípicos”, pero para cada relación de la variable dependiente con cada in
Capítulo 1: Regresión múltiple 105
]
4 O 698
1.195
1.017
1.556
4 — 1.497
246
8
N= 1.389
Residuos estudentizados
D. = Exei hi
p+i 1h,
Esta distancia se calcula para cada una de las N observaciones que componen
la muestra. Mediante ella se comprueba la cantidad en que varían las estimacio-
nes de los coeficientes de regresión, si la observación “i” se elimina del análisis.
Concretamente, proporciona una medida de la distancia entre el valor del coefi-
ciente de pendiente cuando se utilizan todas las observaciones en el cálculo de la
106 Análisis multivariable. Teoría y práctica en la investigación social
Como puede apreciarse en la tabla, los casos atípicos coinciden con aquéllos cuyo valor
pronosticado se distancia bastante de su valor observado en la variable dependiente. Lo que
explica que sus residuos (brutos o estandarizados) sean muy elevados. En total son 15 los
casos claramente no explicados por el modelo de regresión. En los gráficos coinciden con pun-
tos alejados del conjunto de datos. (Si el punto de corte se hubiese fijado en 2, 48 serían los
casos identificados como posibles “atípicos”.) A la identificación de los “atípicos” le sigue la
adopción de alguna medida, en busca de alcanzar alguna mejora en el modelo. A este res-
pecto, téngase presente que la proporción de “atípicos” es muy pequeña en el conjunto de la
muestra. Además, la distancia de Cook (con un valor medio de ,001) indica que, al ser un va-
lor muy pequeño, la exclusión de dichos “atípicos” del cálculo de los estadísticos de regresión
no afectaría a un cambio sustancial de sus coeficientes de regresión.
a) Excluir del análisis los casos que muestren ser “atípicos”. Éstos pasarían a en-
grosar la lista de “missing values” (o casos sin respuesta). El principal incon-
veniente de esta solución radical es la reducción que puede producir en el ta-
maño de la muestra (y la consiguiente pérdida de información). Salvo que el
número de “atípicos” sea escaso, siendo su presencia en la muestra mínima.
108 Análisis multivariable. Teoría y práctica en la investigación social
b) Efectuar dos ecuaciones de regresión: una con “atípicos” incluidos y otra sis
ellos. Siguiendo este proceder no habría pérdida de información. Pero presenta
el inconveniente principal de duplicar los análisis con unas mismas variables.
c) Transformar la variable afectada por “atípicos”. Esta se considera una op-
ción óptima. Supone el cálculo de una única ecuación de regresión, no varian-
do el tamaño de la muestra.
d) Aumentar el tamaño de la muestra para comprobar si los “atípicos” son real-
mente “atípicos” o si, por el contrario, se ajustan a la realidad de un mode-
lo más general (quizás no lineal). Los inconvenientes principales de esta ac-
tuación son el coste económico y la dificultad que supone abarcar más
unidades muestrales.
Antes de tomar alguna (o varias) de estas medidas, tal vez debiera seguirse la re-
comendación de Gunst y Mason (1980) de comprobar si los “atípicos” se deben a erro-
res de grabación. Hutcheson y Sofroniou (1999) señalan a datos incorrectamente
grabados y a indicadores de “missing values” incorrectamente especificados en el pro-
grama utilizado, como dos posibles razones de “atípicos”. En caso afirmativo, estos
errores pueden corregirse de forma inmediata. Habría que remitirse a la fuente de in-
formación general para, a continuación, corregir el valor mal grabado por el correcto
en la base de datos. En caso negativo, habría que decidir qué hacer con los “atípicos”.
Sin duda, la decisión se verá bastante afectada por la proporción que representen los
“atípicos” en la muestra analizada.
Las dos primeras opciones pueden considerarse casos especiales del tercer pro-
cedimiento, que es más utilizado. A favor de la primera opción está el menor número
de cálculos que supone su realización. Pero, la segunda opción (la eliminación pro-
gresiva de variables) suele tratar mejor el problema de la multicolinealidad que la pri-
mera opción. Por esta razón algunos autores, como Chatterjee y Price (1977), por ejem-
plo, recomiendan su utilización con preferencia al procedimiento de inclusión
secuencial de variables “hacia delante”. Pero, veamos en qué consiste cada uno de es-
tos procedimientos secuenciales.
El análisis comienza con el modelo más sencillo: aquel que sólo incluye la constante
(o intercepto). A continuación, el programa procede a la selección “secuencial” de va-
riables, en función del grado de relación que éstas manifiesten con la variable de-
pendiente y su significatividad. También afecta el grado de colinealidad de las varia-
bles independientes candidatas a ser incluidas en la ecuación de regresión con aquellas
variables que previamente han sido incorporadas.
La selección de variables predictoras es “secuencial”. En cada paso se incorpora
una nueva variable a la ecuación de regresión, lo que suele ocasionar una alteración en
los coeficientes de regresión respecto al paso anterior. Dicha variación en los coefi-
cientes es mayor cuando la variable recién incorporada a la ecuación presenta un gra-
do de colinealidad elevado con una o varias de las variables predictoras que previa-
mente fueron introducidas en la ecuación de regresión. Si la colinealidad es elevada,
puede incluso suponer la pérdida de significatividad de variables que, en pasos ante-
riores, mostraron poder predictivo en la explicación de la variable dependiente. Pero,
a diferencia del tercer procedimiento secuencial, de inclusión y eliminación de varia-
bles, en éste no se contempla la eliminación de variables previamente incluidas en la
ecuación de regresión, de un paso a otro.
110 Análisis multivariable. Teoría y práctica en la investigación social
La primera variable que se incluye es aquella que muestra una correlación simple más
alta con la variable dependiente, indistintamente de si la correlación es positiva o ne-
gativa. Esta información la proporciona la matriz de correlaciones (subapartado 1.3.2).
En el primer paso, se está ante un modelo de regresión simple, compuesto por una so-
la variable independiente. Si el modelo muestra ser significativo, de acuerdo con la ra-
zón “F” (subapartado 1.5.3), se comprueba si puede incorporarse otra variable inde-
pendiente a la ecuación. A tal fin, se examinan las correlaciones parciales de las variables
independientes no incluidas en la ecuación con la dependiente y su significatividad. En-
tre aquellas variables cuya correlación parcial sea significativa, de acuerdo con la razón
“t” (subapartado 1.4.3), se escoge la variable que presente la correlación parcial más ele-
vada con la variable dependiente. Si se desea saber qué ocurrirá si dicha variable se in-
cluyese en la ecuación, la mayoría de los programas estadísticos, como el SPSS, ofrecen
el coeficiente de regresión estandarizado (a veces llamado “beta in” o “beta dentro”).
Tras cada incorporación de una variable a la ecuación de regresión, se comprueba
la significatividad del modelo. El análisis prosigue hasta que el modelo deja de ser sig-
nificativo estadísticamente, o hasta que no queden variables independientes que
muestren tener un efecto significativo en la predicción de la variable dependiente.
En el programa estadístico se fija un valor mínimo de F para que la variable in-
dependiente pueda incluirse en la ecuación y su correspondiente valor “p”. Este último
expresa la significatividad del estadístico “F”. Por ejemplo, en el programa SPSS el va-
lor mínimos de F para entrar (“F-to-enter” o “F-in”) y el criterio de probabilidad aso-
ciado a este estadístico por defecto son, respectivamente, F > 3,84 y p < 0,05. Éstos son
los valores que se aplican, mientras el investigador no especifique lo contrario.
Bendel y Afifi (1977) compararon varios valores “F-to-enter” mínimos, aplicados ha-
bitualmente en este procedimiento de selección de variables (“forward” o “hacia de-
lante”). Un valor que recomiendan es el percentil “F” que corresponde a un valor
p =0,15. Utilizar el criterio usual de p = 0,05 es demasiado bajo y con frecuencia excluye
del modelo a variables relevantes en la predicción de Y. Es mejor opción aplicar niveles
de significatividad de 0,15 e incluso 0,20. Esto repercute negativamente en un riesgo ma-
yor de rechazar la hipótesis nula, cuando es cierta; es decir, afirmar que una relación es
cierta, cuando en realidad no lo es. La probabilidad de equivocación se eleva al 20%. Pe-
ro, por el contrario, disminuye el riesgo de desacierto al rechazar la hipótesis nula,
cuando en realidad es falsa (es decir, de no encontrar una relación que realmente es cier-
ta). Si el tamaño muestral es elevado, el valor de F mínimo para entrar que recomiendan
es el percentil 85 de la distribución F, con 1 e infinitos grados de libertad. O, lo que es igual,
un valor F mínimo de 2,07 y no el habitual de 3,84, que es más restrictivo.
Tomar un valor mínimo de F elevado (F > 4,0, por ejemplo) supone dar una menor
oportunidad a la variable para incorporarse a la ecuación de regresión. Se consegui-
ría un modelo de regresión más restrictivo, aunque con mayor nivel de significatividad.
En la valoración de los valores de F de entrada mínimos, téngase además presente que
la significatividad del modelo no se ve sólo afectada por el nivel de riesgo que el investi-
gador asume de equivocarse. También influye los grados de libertad asociados a la suma
de cuadrados de regresión y la suma de cuadrados residual (véase subapartado 1.5.3).
Capítulo 1: Regresión múltiple 111
Por último, añadir que tras la incorporación de una nueva variable, se produce un
aumento en el valor de R?. El incremento varía en relación con la correlación existente
entre dicha variable con la dependiente, una vez considerada su correlación con las de-
más predictoras en la ecuación. Cuanto mayor sea la correlación de la nueva variable
predictora con el resto de predictoras y menor su correlación con la dependiente, me-
nor será el incremento en R? de un paso a otro. Lo que también puede afectar a que
el error típico de la estimación no disminuya, como es de esperar, sino que aumente. To-
do lo cual afecta en la disminución del valor “F” empírico de un paso a otro. De ahí la
reiterada recomendación de no incorporar variables independientes que sean irrele-
vantes en la predicción de Y, ya que provocan un aumento en el error de predicción sin
haber logrado incrementar la proporción de varianza explicada de la variable de-
pendiente.
que incorpora los criterios de eliminación “hacia atrás”. Añade al primer procedimiento
la posibilidad de eliminar, en un paso posterior, una variable predictora introducida en
un paso anterior. La incorporación y eliminación de variables se ve sobre todo afectada
por el grado de colinealidad existente entre las variables independientes. Por esta ra-
zÓn se incluye, como criterio adicional para la incorporación de variables a la ecuación.
su nivel de tolerancia (por ejemplo, TOL,; > 0,01).
Como en el procedimiento de inclusión de variables “hacia delante”, el proce-
dimiento “paso a paso” comienza con sólo el intercepto (O constante). En cada paso
se van incorporando variables independientes a la ecuación de regresión (una a una).
La variable escogida será aquella que cumpla los mismos criterios que en la selección
“hacia delante”. Pero, a diferencia de la selección “hacia delante”, en el procedi-
miento “paso a paso” de inclusión y eliminación de variables no se considera defi-
nitiva la incorporación de una nueva variable al modelo. Su aportación a la predic-
ción de Y es constantemente revaluada, tras la incorporación de una nueva variable
predictora al modelo de regresión. Para la exclusión de una variable predictora se si-
guen los mismos criterios que en la eliminación “hacia atrás”. No obstante, hay que
advertir que si quiere evitarse que una misma variable sea continuamente introdu-
cida y eliminada del modelo de regresión, hay que fijar un valor “F para entrar” mí-
nimo superior al correspondiente valor máximo de “F para salir”. O, lo que es
igual, “P-in” ha de ser inferior a “P-out”. Recuérdense los valores mínimos reco-
mendados por Afifi y Clark (1990), por ser muy útiles en la práctica, de 2,07 en “F
para entrar” y 1,07 en “F para salir”; o los aplicados convencionalmente de 3,84 y
2,71, respectivamente.
Si quiere examinarse la secuencia completa hasta que se introducen todas las va-
riables, será conveniente establecer un valor “F para entrar” mínimo pequeño
(por ejemplo, 0,1, que corresponde a un valor “P-in” de 0,99). Lo que lleva inevi-
tablemente a fijar un valor “F para salir” máximo inferior a 0,1. Después de exa-
minar esta secuencia, puede hacerse una segunda corrida utilizando otros valores
F. Para más información, véase Nourisis, 1986, Afifi y Clark, 1990; o Graybill e lyer,
1994,
Como en todo procedimiento secuencial, el modelo de regresión se vuelve a €s-
timar tras la incorporación y/o eliminación de una variable predictora. Esta reconsi-
deración de la contribución de las variables independientes a la predicción de Y lleva
a la recomendación de este procedimiento para propósitos eminentemente explora-
torios (Graybill e Iyer, 1994). Cuando el investigador desea la inclusión de variables
independientes concretas, con el propósito de comprobar una teoría, o a efectos pu-
ramente comparativos con otros estudios, puede forzar la incorporación de las varia-
bles de interés al modelo de regresión. En la mayoría de los programas estadísticos se
ofrece la posibilidad de “forzar” la inclusión de variables, al comienzo o después del
proceso de selección secuencial. Además, cualquiera de los tres procedimientos de se-
lección de variables secuencial permite experimentar con diferentes combinaciones de
variables independientes en la búsqueda de aquella combinación de variables que me-
jor logre predecir el valor de la variable dependiente.
Capítulo 1: Regresión múltiple 113
Tabla A
a Variables predictoras: (constante), simpatía latinoamericano; P Variables predictoras: (constante), simpatía latino-
americano, casar con marroquí; * Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí,
leyes inmigración; Y Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración,
n.* de inmigrantes; * Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración,
n.* de inmigrantes, vecino marroquí; ' Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí,
leyes inmigración, n.* de inmigrantes, vecino marroquí, sexo.
El análisis comienza con una única variable predictora (“simpatía hacia latinoamericanos”)
que es, de las 14 consideradas, la más correlacionada con la variable dependiente (“simpatía
hacia norteafricanos”), como se vio en la matriz de correlaciones (subapartado 1.3.2). La se-
gunda en entrar es “casar con marroquí”, que cumple la doble condición de ser la segunda
variable independiente más correlacionada con Y, estando, a su vez, poco correlacionada con
la variable antes introducida (r =—,274). En total son seis las variables independientes incluidas
en el modelo de regresión. Ninguna de ellas es expulsada tras la incorporación de una nue-
va variable porque, como ya se señaló en la matriz de correlaciones y cuando se describió
la colinealidad entre las variables independientes, son pequeñas las correlaciones existen-
tes entre las variables independientes.
La primera variable en formar el modelo de regresión se distingue además por ser la va-
riable que explica el mayor porcentaje de varianza de Y (35,1%, de acuerdo con el coeficiente
114 Análisis multivariable. Teoría y práctica en la investigación social
R cuadrado corregido). Como es usual, tras cada incorporación de una nueva variable, au-
menta la proporción de variabilidad explicada y desciende el error típico de la estimación, aun-
que en menor proporción de lo deseable. Ello se debe al poco poder predictivo de las cuatro
últimas variables que se incorporan al modelo. Si la segunda variable (“casar con marroquí”)
provoca un aumento en R del 10,6%, la tercera (“leyes inmigración”) sólo del 1,6%. Las otras
tres, inclusive menos: el 0,6%, 0,5% y 0,2%, respectivamente. Estas últimas cuatro variables
predictoras (“leyes inmigración”, “n.* inmigrantes”, “vecino marroquí” y “sexo”) apenas reducen
el error de predicción de la variable dependiente (“simpatía hacia norteafricano”), aunque son
incorporadas al modelo de regresión porque su contribución a la predicción de Y, aunque mí-
nima, es significativa (p < 0,05).
En la tabla B se resume el análisis de varianza (ANOVA) para comprobar la signifi-
catividad del modelo de regresión en su globalidad. Al haber un total de 1.280 casos válidos,
la razón Fes significativa en los seis modelos obtenidos en cada paso, aunque su valor des-
ciende de 691,815 en el primer modelo a 200,879 en el modelo 6 (integrado por las seis va-
riables predictoras). El descenso es más acusado a partir del tercer paso y responde, fun-
damentalmente, al escaso poder predictivo de las nuevas variables que se incorporan al
modelo de regresión. Tras una nueva incorporación disminuye ligeramente la propor-
ción de casos por variables predictoras en el modelo, pero apenas aumenta la proporción
de varianza explicada en la variable dependiente. Esta mínima mejora en el ajuste del mo-
delo es la causa principal del descenso en la razón F. Pese a ello, el modelo de regresión
múltiple final, con seis variables predictoras, sigue siendo estadísticamente significativo, al
ser el valor de F empírico bastante superior al valor F teórico (2,10) correspondiente, pa-
ra 6 (número de variables independientes) y 1.273 (tamaño muestral menos número de coe-
ficientes calculados incluida la constante) grados de libertad y un nivel de significación de
0,05. La significatividad estadística del modelo era predecible por el elevado tamaño de la
muestra analizada.
En la tabla B obsérvese, además, los cambios habidos, en cada paso, en las sumas de
cuadrados de regresión y residual, como medidas de ajuste del modelo de regresión (o de
adecuación entre la nube de puntos y el hiperplano de regresión).
La tabla C describe la composición del modelo de regresión obtenido en cada paso. El
primer modelo es de regresión simple, al estar integrado por una sola variable independiente
(X;). Esta es la variable más correlacionada con la variable dependiente (r = ,593). Si se ele-
va su correlación parcial al cuadrado (.593? =,351), se obtiene que dicha variable explica el
35,1% de la varianza de Y. Esta información coincide con la dada en la tabla A (,351 es el va-
lor R? corregido en el primer modelo).
Además, obsérvese que su coeficiente beta (f¿=.593) coincide con su coeficiente de co-
rrelación con Y (como consta en la matriz de correlaciones). Esta coincidencia entre los
coeficientes beta y de correlación sólo se produce en regresión simple, cuando la ecuación
de regresión incluye una única variable independiente. Si son dos o más las variables pre-
dictoras, ambos coeficientes difieren. Ello se debe a que, mientras el coeficiente de correlación
mide la correlación de la variable independiente con la dependiente, sin considerar las demás
variables predictoras, los coeficientes de regresión (estandarizados o no) se ven afectados
por la correlación de la variable independiente con las demás incluidas en el modelo de re-
gresión. Cuanto mayor sea su correlación, más diferirán ambos coeficientes.
La colinealidad (o correlación entre las variables independientes) es, asimismo, la ra-
zón principal de las variaciones en los coeficientes de pendiente (estandarizados o no) de
un modelo a otro. El cambio en la magnitud del coeficiente es mayor cuanto más correla-
A AAA
Capítulo 1: Regresión múltiple 115
cionada esté la variable con la recién incorporada al modelo. Como las variables aquí ana-
lizadas no presentan un grado elevado de colinealidad (como se comprobó en el suba-
partado 1.1.8), los coeficientes de pendiente apenas varían con la incorporación de una nue-
va variable predictora al modelo de regresión. Las mayores variaciones se producen en la
constante (o intercepto), especialmente, cuando se pasa del modelo 1 (con una sola variable
independiente) al modelo 2 (que incluye dos variables predictoras): de 807 cambia a 3,147.
Este cambio es lógico ya que se pasa de una recta a un plano (de dos dimensiones) de re-
gresión. Recuérdese que la constante es el punto de la recta (o plano) que “intercepta” el
eje Y. La variación en la constante es menor entre el modelo 5 (3,616) y el modelo 6
(3,786).
Tabla B
Anova?2
TablaC
Y: "simpatía hacia norteafricano (marroquí...)” (P201); X,: “leyes inmigración” (P16); X,: “sexo” (P41); X;: “simpatía ha-
cia latinoamericanos” (P210); X¿: “número de inmigrantes” (P11); X ¡0 : “casar con marroquí” (P306); X,,: “vecino ma-
rroquí” (P506).
r=,573. Ésta es la mayor correlación habida entre las variables predictoras (véase matriz de
correlaciones), aunque se sitúa aún lejos del valor ,80, que incita a la adopción de alguna me-
dida que evite su incidencia negativa en el análisis de regresión. Los valores de tolerancia y
FIV confirman lo dicho sobre colinealidad. Los valores de tolerancia más bajos y de FIV más
altos se dan en estas dos variables, aunque distan bastante de los valores que alertan de una
colinealidad severa: ,20 en tolerancia y 5,0 en FIV.
Los errores típicos de los coeficientes son relativamente bajos, salvo los correspon-
dientes a la constante, lo que concuerda con la variación de los coeficientes. Los errores
típicos más elevados en la estimación de los coeficientes se dan en las variables X,, X,y
y X¿, siendo en estas variables donde la amplitud de los intervalos de confianza es mayor.
Pese a ello, la contribución de todas las variables predictoras en el modelo es significati-
va estadísticamente y, en consecuencia, inferible al universo o población de la que se ha
extraído la muestra. Los coeficientes no se han obtenido por mera casualidad, al ser sus
valores t empíricos superiores al correspondiente valor teórico (1,96), con una probabilidad
de error del 5%. Además, la incorporación de una nueva variable no ha supuesto, en nin-
gún modelo, la expulsión de ninguna variable ya integrada en la ecuación de regresión.
Compruébese lo dicho en la tabla C.
Las razones que llevan a incluir o a excluir a una variable del modelo de regresión se
encuentran en la tabla D. En ella figuran las variables independientes que quedaron ex-
cluidas del modelo de regresión en cada paso, junto a sus coeficientes beta dentro y su sig-
nificatividad, los coeficientes de correlación parcial y las medidas de colinealidad (tolerancia
y FIV).
Del primer modelo de regresión quedaron excluidas todas las variables excepto X¿. Una
vez comprobado que el modelo de regresión símple con la variable X¿ es significativo es-
tadísticamente, se pasa a analizar si de las 13 variables excluidas del modelo, alguna pue-
de ser incorporada. Salvo la variable X,,, cuyo valor t empírico (,308) es inferior al co-
rrespondiente teórico (1,96), cualquiera de las doce variables restantes es una posible
candidata a ser incluida en el modelo de regresión. Pero, en cada paso, sólo puede ser ele-
gida una. La variable finalmente seleccionada es X,¿ por ser la que mayor contribución
muestra en la predicción de Y. El coeficiente de regresión estandarizado que esta variable
tendría si se incorporase a la ecuación de regresión (beta dentro) es el más elevado (-,339).
Compruébese en la tabla C que este valor coincide con el coeficiente beta que la variable
X ¡y Presenta cuando se añade a la ecuación de regresión (modelo 2). Asimismo, su co-
rrelación parcial (-,405) es la más alta. Elevándola al cuadrado (-,405* = ,164), se obtie-
ne que el 16,4% del 64,9% de varianza de Y no explicada por el primer modelo (tabla A)
quedaría explicada con la inclusión de la variable X,¿. La proporción de varianza que que-
daría explicada es exactamente: ,649 x ,164 = ,1064. X,¿ explica el 10,64% de la varian-
za Y. Sumando esta proporción a la explicada por X; (,351 + ,106 = ,457), se obtiene que
ambas variables explican conjuntamente el 45,7% de la varianza de Y. Este es precisa-
mente el valor de R? corregido que corresponde al modelo 2 (,457), que incluye como va-
riables predictoras a X; y X;¿-
En el siguiente paso se elige a la variable X, por las mismas razones anteriores. Ob-
sérvese que en este segundo paso la contribución de la variable X, en la predicción de Y de-
ja de ser significativa.
El análisis de regresión concluye en el paso 6, al no haber ninguna variable cuya con-
tribución a la predicción de Y sea significativa. Los valores t empíricos de las ocho variables
excluidas del modelo de regresión son todos inferiores a 1,96.
118 Análisis multivariable. Teoría y práctica en la investigación social
TablaD
(../...)
Capítulo 1: Regresión múltiple 119
LECTURAS COMPLEMENTARIAS
EJERCICIOS PROPUESTOS
Correlaciones
ANOVA
Coeficientes”
Variables excluidas?
Estadísticos de colinealidad
Modelo Beta t Sig. Correlación —
dentro parcial Tolerancia
Tolerancia| FIV mínima
Desv. típ.=1,04
Media = ,07
JN = 1612,00
go ers
Regresión residuo tipificado
Factores de contexto
Persona mayor:
Edad 13% -,13**
Género —-,12*
Corresidencia
Cuidador:
Edad ¿19% ,18** ¿177% 230.
Género ,12* ,13* ,11*
Trabaja
Clase social subjetiva -24++* 25 .. 20. 170
Salud subjetiva ii 34498 an. 2
Tiempo como cuidador ¿11 129 11% —,12**
Dedicación horas semanales
Relación familiar: Esposo/a
3. En el estudio de Joan Font (1992) “La abstención en las grandes ciudades, Ma-
drid y Barcelona” (REIS, n.* 58: 123-139), se obtienen los resultados siguientes.
Coméntese.
Participación Madrid = 75,4 — 0,5 Paro + 0,13 Asociación + 0,12 Estudios + 0,02 tamaño población
Error St. 0,19 0,06 1,08 0,05
Coef. T 2,7 2,2 1,6 0,4
Error Y = 3,7 R? =0,51 Grados de libertad = 22
Participación Barcelona = 76,4 — 0,39 Inmigración + 0,15 Trabajo - 0,17 Estudios — 0,39 Paro
Error St. 0,15 0,06 0,13 0,18
Coef. T 2,2 2,5 1,3 2,5
Error Y = 2,5 R? = 0,56 Grados de libertad = 22
126 Análisis multivariable. Teoría y práctica en la investigación social
Jornaleros (11) 402 595 | ,320 207 | -,153 361 ,242 -,150 -,167 | 013
(402*) | (,651*) | (,681*) | (445%) | (321) |(,565*) | (,608*) | (-,085) | (,048) | (-.396*s
Pob. no agr. rural (10) ,140 | ,267 | -,087 | -,158 | -,493 | -,013 -,661 057 | -210
(377*) (,532*) | (101) | (1131) | (-,106) | (282) | (- 422) (-,324) | (-,110;
Migración (9) 396 1596 ,244 ,340 -,057 ,047 216
(703%) | (,576*) | (,481*) | (483%) | (,526*) (,279) |(-.424*,
Urbanización prov. (8) -0065 | ,586 | ,058 ,376 ,538 -.056 | 215
(,420*) | (,561*) | (,352*) | (,611*) | (058) | (,186) | (-316)
Razón act. masculina (7) ,049 -,118 ,166 - -,161 | -,679
(,458*) | (230) | (,459*) (,300) | (- 5079)
Mercado matr. (6) S = ml 335 :
¿115 (,614*) i
Analfabetismo (5) (,416*) | -,059 ,175 | -389
(120) | (204) |(-,527*)
Secularización prov. (4) - ,099 | -.051
(354*) |(.442+),
E) ,760 ,825
(751%) | (- 10).
Npcialidad (1,,) (2) 176|
(- A12*);
Fecun. Matr. 1) (1) |
Múltiple R 402 | 663 | 802 | 671 | ,635 | ,727 | ,684 | ,558 | ,917 | 859 '
* “Jomaleros” y “población agraria” se expresan en tanto por ciento, “Migración”: el valor 1,000 expresa un saldo migratono
nulo; un valor por debajo de 1,000 indica emigración, “Urbanización”: porcentaje de población que vive en cascos urbanos
de más de 5,000 habitantes, “Razón de actividad”: población masculina en edades activas / población masculina en eds
des no activas, “Mercado matrimonial”: razón de masculinidad en torno a la edad media al casarse, “Analfabetismo”: por-
centaje de población > 10 años que no sabe leer ni escribir, “Secularización”: porcentaje de voto a la izquierda, “sq; =
fallecidos entre 0 y 5 años por mil nacidos, “Nupcialidad” = 1, “Fecundidad matrimonial” = 1,
» Entre paréntesis: correlaciones simples. Sin paréntesis: coeficientes beta.
» El asterisco (*) indica que la correlación es significativa para p = 01.
,340 596
> Migración =S
4438 (,576)
Pe) S95 Á (651) 1396 (,703)
561 _
Urbanización [3] Mercadoe mrimonia!]
(,0,58) (,614) 67
Mortalidad ia
(So
825 y (103)
Ei
-,176 (-,412)
-,389
Analfabetismo *K_——_——
Fecundidad matrimonial
(-,527)
» Sólo se incluyen las relaciones (beta) que directa o indirectamente explican la variable dependiente en más de 0,300
o (0,300). Entre paréntesis, correlaciones simples; sin paréntesis, los coeficientes beta.