Capítulo 1

1
REGRESIÓN MÚLTIPLE
La regresión múltiple es una de las técnicas analíticas multivariables principales. Pri-

mero, por su pionera y amplia aplicación en la investigación empírica. Segundo, por
proporcionar la base de técnicas analíticas posteriores, como el análisis discriminante
o el modelado de ecuaciones estructurales. Ésta es la razón de que se haya optado por
su disposición, en el texto, en primer lugar.
Antes de proseguir con su exposición, hay que señalar que lo dicho en este capí-
tulo concierne exclusivamente al procedimiento de regresión más popular: la regresión
lineal de mínimos cuadrados ordinarios. También conocido como procedimiento OLS
(del inglés “Ordinal Least Squares”). En el capítulo 2 se desarrolla la regresión logística,
de aplicación más reciente y adecuada a variables muy usuales en la investigación so-
cial: las variables cualitativas (o no métricas), al ser su nivel de medición nominal u or-
dinal. En este primer capítulo también se describen otros procedimientos de regresión
de uso más restringido (subapartado 1.6.2).
Todos los análisis de regresión, como técnicas analíticas multivariables de dependencia
que son, se adecuan a un mismo propósito: el análisis de relaciones de dependen-
cia (causa-efecto) entre los valores de una única variable dependiente (aquella cuya va-
riabilidad el investigador desea analizar) y los correspondientes a dos o más variables
independientes (también denominadas variables predictoras o explicativas). Difieren,
no obstante, en las características de las variables que se analizan, que determinan la
ejecución de los análisis y los supuestos necesarios para su correcta realización. Con-
cretamente, el análisis de regresión múltiple de mínimos cuadrados ordinarios tiene los
siguientes objetivos principales:
1. Predecir los valores que adoptará la variable dependiente a partir de los valores
conocidos de la serie más pequeña posible de variables independientes. Ello con-
lleva la búsqueda de la ecuación que mejor represente la asociación lineal
14 Análisis multivariable. Teoría y práctica en la investigación social
existente entre las variables incluidas en el análisis. A partir de dicha ecuación,

y gracias a los coeficientes beta, puede también graduarse la aportación de ca-
da variable independiente (X) en la predicción de la variable dependiente (Y).
Si bien, hay que hacer dos matizaciones. Primero, “el análisis de regresión es so-
bre todo útil para la estimación de la magnitud de los efectos, no para la determi-
nación de qué variables predictoras son relevantes” (Wittink, 1988: 93). Segundo,
“los análisis de regresión no pueden probar causalidad, sólo pueden justificar o con-
tradecir supuestos causales” (Gunst y Mason, 1980: 17). Depende de cómo se ha-
ya especificado el modelo, de qué variables predictoras se han incluido, siempre
acorde con consideraciones teóricas. Se precisa que las variables predictoras sean
“relevantes” en la explicación y predicción de la variable dependiente.
Cuantificar la relación de dependencia mediante el coeficiente de correlación R
de Pearson y su cuadrado (el coeficiente de determinación). Este último coefi-
ciente informa de la proporción de varianza de la variable dependiente (Y) que
queda explicada por la conjunción de variables independientes (X) que con-
forman la ecuación de regresión. La relevancia de dichas variables explicativas
en la predicción de Y se mide, básicamente, con la ayuda de este coeficiente (el
coeficiente de determinación).
. Determinar el grado de confianza con que el investigador puede afirmar que la
relación observada en los datos muestrales es realmente cierta. Rara vez se ana-
lizan datos poblacionales. La práctica común en la investigación empírica es ex-
traer una muestra de la población de interés, mediante procedimientos que ga-
ranticen su representatividad. De ello depende las posibilidades de inferencia
de los datos analizados, a un nivel de probabilidad determinado (Cea, 1996).
En regresión múltiple, la significatividad del modelo en su conjunto se com-
prueba mediante el estadístico de comprobación “F” de Snedecor. La significa-
tividad de cada uno de los coeficientes concretos que conforman la ecuación de re-
gresión se mide, en cambio, con la ayuda de la razón “t” de Student. Ambas
pruebas de significatividad permiten conocer las probabilidades de inferencia de
los estadísticos muestrales correspondientes a parámetros poblacionales —como se
detalla en los subapartados 1.5.3 y 1.4.3, respectivamente-—.
La consecución de estos tres objetivos fundamentales descansa en dos pilares bá-

sicos, tradicionalmente referidos (véase Guillén, 1992):
1. El cálculo diferencial, analizado primeramente por Fermat, Leibniz y Newton,

en el s. XVII; y, posteriormente, por D'Alembert y Bernouilli, en el s. xvII1. Su
aplicación permite cuantificar la relación existente entre variables. En el aná-
lisis de regresión se hace uso, en especial, del principio de “mínimos cuadrados”,
enunciado en 1794 por Gauss. Este sirve de fundamento al análisis de regresión
lineal, en general.
. La teoría de la probabilidad, cuyo principal desarrollo se produce, a partir del
s. XvIn, con las aportaciones fundamentales de Moivre, Bayes, Laplace y Pearson.
Capítulo 1: Regresión múltiple 15
Su uso ayuda a determinar el nivel de confianza con que puede afirmarse que los
estadísticos estimados, en la muestra analizada, predicen adecuadamente las
características correspondientes de la población objeto de estudio.
La exposición del análisis de regresión múltiple comienza, a diferencia del resto de téc-
nicas analíticas multivariables reseñadas en este texto, con la enumeración y desarrollo de
cada uno de los supuestos básicos. Éstos son de imprescindible cumplimiento para ga-
rantizar la correcta realización del análisis de regresión lineal. Después, se procede al de-
talle de cada uno de los componentes del análisis, así como de los diversos procedimien-
tos alternativos para su realización. Como ya se dijo en ia introducción, para facilitar la
comprensión de la técnica analítica, la exposición teórica se acompaña de ejemplos prác-
ticos. Principalmente, del análisis propio efectuado de una selección de ítems de la encuesta
“Actitudes ante la inmigración”, de junio de 1996, del Centro de Investigaciones Socio-
lógicas (C.I.S.); amén de otros ejemplos también con datos reales.
1.1. Supuestos básicos del análisis de regresión múltiple
La correcta aplicación del análisis de regresión múltiple de mínimos cuadrados or-

dinarios (OLS) exige el cumplimiento de una serie de supuestos básicos. Su grado de
cumplimiento garantiza la esencia del análisis: poder inferir los estadísticos obtenidos
en la muestra analizada a sus correspondientes parámetros poblacionales. Estos su-
puestos se resumen en los siguientes:
Tamaño de la muestra elevado.

ge 90 ES
La variable dependiente ha de ser continua.

Inclusión de variables independientes relevantes.
Linealidad: la relación entre la variable dependiente y cada variable inde-
pendiente ha de ser lineal.
5. Aditividad: los efectos de las variables independientes en la dependiente han de
poderse sumar entre sí.
6. Normalidad: La distribución de los datos (tanto para la variable dependiente co-
mo las independientes) ha de corresponderse con la distribución normal.
7. Homocedasticidad o igualdad de las varianzas de los términos de error en la se-
rie de variables independientes.
Ausencia de colinealidad (o de correlación) entre las variables independientes.
No po
Independencia de los términos de error.
1.1.1. Tamaño muestral elevado
La finalidad de cualquier análisis estadístico no se limita a la descripción de los ca-

sos de los que se ha recogido información. Éstos constituyen la muestra de la investi-
gación. Ante todo, se quiere describir, a partir de las características observadas en la
muestra, al conjunto de la población a la que ésta pertenece. La capacidad de inferencia

de los resultados de la investigación se halla muy determinada por el tamaño de la
muestra, además del procedimiento seguido en su selección: si el procedimiento de se-
lección de las unidades de la muestra ha sido aleatorio o no. La aleatoriedad garanti-
za la equiprobabilidad, o igualdad en la probabilidad de ser elegido para participar en
la muestra, de todas las unidades de la población de interés. También se exige que el
procedimiento de selección de la muestra haya sido riguroso en todas sus fases.
Respecto al tamaño de la muestra, su cuantía incide directamente en la reducción
del error de estimación y en la consiguiente significatividad de los resultados del aná-
lisis. Por esta razón, se precisa que el tamaño de la muestra sea lo más elevado posible,
para favorecer la significatividad de los estadísticos muestrales.
La adecuación del tamaño de la muestra a las exigencias del análisis se comprueba
en relación con el número de variables independientes (o predictoras) que se incluyen
para la predicción de Y. En regresión lineal múltiple se barajan distintos ratios mínimos
de observaciones precisas por cada variable independiente introducida en el análisis. El
ratio más bajo, propuesto por autores como Afifi y Clark (1990: 179), es al menos de 5
a 10 veces más casos que variables independientes o predictoras. Otros autores, como Ta-
bachnick y Fidell (1989: 128-129), elevan el ratio preciso a 20 veces más casos que va-
riables independientes. De modo que, si el análisis incluye 6 variables predictoras, el ta-
maño muestral mínimo para un correcto análisis ha de ser de 120 unidades muestrales
o casos. Cuando se opta por un procedimiento de regresión secuencial (o “por pasos”),
el ratio de número de casos por variables aumenta a 40 casos por cada variable. En el su-
puesto anterior se precisaría, por tanto, un tamaño muestral mínimo de 240 unidades.
El no cumplimiento de los ratios mínimos referidos suele corresponder a la ob-
tención de errores de estimación elevados. Lo que revierte, negativamente, en la pér-
dida de significatividad estadística y la consiguiente posibilidad de inferencia del
modelo de regresión estimado a partir de la muestra analizada.
Además, si se quiere comprobar la validez del modelo obtenido siguiendo el pro-
cedimiento llamado “validación cruzada”, es conveniente que el tamaño muestral sea in-
cluso superior. Este procedimiento de validación se caracteriza por dividir la muestra to-
tal en dos submuestras: la muestra de análisis y la muestra de validación. La muestra de
análisis es la que se utiliza para la consecución del modelo de regresión. Una vez obte-
nido éste, los resultados se validan con la muestra de validación. Lo habitual es destinar
el 60% de la muestra total a la muestra de análisis, dejando el 40% restante para la va-
lidación del modelo. También, puede optarse por afijar la misma proporción de casos en
ambas submuestras. Este seccionamiento del tamaño muestral exige, obviamente, que
el número de unidades muestrales sea cuantioso. La muestra de análisis ha de cumplir los
ratios mínimos de casos por variables referidos para facilitar la significatividad estadís-
tica y consiguiente inferencia del modelo de regresión resultante.
Por las razones expuestas, se recomienda que, antes de proceder a realizar los aná-
lisis, se compruebe el tamaño muestral real disponible. Esta comprobación adquiere
mayor relieve cuando se incluyen variables con una proporción considerable de
“missing values” (o casos sin respuesta). Cuando esto acontece, la generalidad de los
paquetes estadísticos al uso eliminan para el análisis, de forma automática, todos

los casos sin respuesta (“missing values”) en alguna de las variables consideradas, sal-
vo que el investigador especifique lo contrario. En consecuencia, si el número de va-
riables independientes es elevado, y cada una de ellas tiene una cierta cantidad de ca-
sos sin respuesta (que necesariamente no corresponde a los mismos casos en todas las
variables), la eliminación deliberada de dichos casos supone una merma cuantiosa en
el tamaño de la muestra. Esta reducción adquiere mayor gravedad cuando el tamaño
de la muestra no es elevado. La muestra final puede no cumplir los ratios mínimos re-
queridos para el análisis. En cambio, en muestras elevadas, la eliminación de casos sin
respuesta apenas tiene efecto en el análisis.
El no cumplimiento de los ratios casos por variables predictoras referidos puede,
sin embargo, solventarse con alguna de las medidas siguientes:
a) Eliminar una o varias variables independientes. Este remedio drástico nor-

malmente supone la eliminación de aquellas variables con menor capacidad pre-
dictiva. Aquellas que presenten una menor correlación con la variable de-
pendiente y, a su vez, tengan un número importante de casos sin respuesta.
b) Combinar variables independientes (con casos sin respuesta) relacionadas en
una única variable (o inclusive más). Esta solución es menos drástica que la an-
terior y suele suponer una pérdida menor de información.
EjemPLo DE DISEÑO MUESTRAL
La encuesta analizada ex profeso para este texto (“Actitudes ante la inmigración”) fue
realizada por el C.!.S. del 6 al 10 de junio de 1996 (estudio 2.214). El ámbito de la encues-
ta fue nacional. Se incluyeron las provincias insulares, aunque se excluyeron Ceuta y Meli-
lla. El universo fue la población española de ambos sexos de 18 y más años.
El tamaño de la muestra diseñado, para un nivel de confianza del 95,5%, heterogenei-
dad máxima (P = Q = 50) y un error máximo elegido para el conjunto de la muestra de +2%,
es 2.500 unidades muestrales. Pero, finalmente se realizaron 2.493 entrevistas.
El procedimiento seguido para la selección de la muestra fue polietápico, estratificado por
conglomerados, con selección de las unidades primarias de muestreo (municipios) y de las
unidades secundarias (secciones) de forma aleatoria proporcional de las unidades últimas (in-
dividuos) por rutas aleatorias y cuotas de sexo y edad. Al ser la afijación proporcional, no pro-
cede su ponderación.
Los puntos de muestreo fueron 161 municipios elegidos aleatoriamente, tocando a 44 de
las 50 provincias. Los estratos se formaron por el cruce de las 17 regiones autonómicas con
el tamaño de hábitat, dividido en 7 categorías: menos o igual a 2.000 habitantes; de 2.001 a
10.000; de 10.001 a 50.000; de 50.001 a 100.000; de 100.001 a 400.000; de 400.001 a
1.000.000; más de 1.000.000 de habitantes.
Los cuestionarios se aplicaron mediante entrevista personal en los domicilios. Esta in-
formación se detalla en la ficha técnica del citado estudio.
Al ser el procedimiento de selección muestral aleatorio, se garantiza la igual probabili-

dad que tienen los individuos que componen la población de interés de participar en la mues-
tra. Por lo que se cumple un requisito básico para la aplicación de un análisis de regresión
lineal múltiple: la selección aleatoria de la muestra. También se cumple otro de los requisitos
básicos, cual es el tamaño muestral elevado. La muestra final consta de 2.493 unidades
muestrales. Tamaño muestral considerable, superior a los mínimos exigidos, y que permi-
te el seccionamiento de la muestra total en dos submuestras para propósitos de validación.
Como después se verá, para la “validación cruzada” se decide dividir la muestra total en dos
submuestras de igual tamaño: la muestra de análisis y la muestra de validación. No hubo ne-
cesidad de destinar el 60% de la muestra total a la muestra de análisis y el 40% a la mues-
tra de validación, como es habitual. Incluso optando por eliminar del análisis los casos sin
respuesta en alguna de las variables de interés, se está ante un tamaño muestral de
1.713 unidades.
1.1.2. Variables continuas: la creación de variables ficticias
Como técnica estadística multivariable de dependencia, el análisis de regre-

sión (de mínimos cuadrados ordinarios o OLS) exige la existencia de una única va-
riable dependiente y dos o más variables independientes. La variable dependiente ha
de ser métrica (medida a nivel de intervalo o de razón) y continua. Una variable de-
pendiente discreta viola el supuesto de que el error en el modelo de regresión está
normalmente distribuido, con varianza constante. Si bien, Fox (1991: 63) advierte que
“este problema sólo es serio en casos extremos —por ejemplo, cuando hay muy po-
cas categorías de respuesta—, o donde una gran proporción de observaciones está en
un número pequeño de categorías condicionales en los valores de las variables in-
dependientes”.
Las variables independientes pueden, en cambio, ser continuas O dicotómicas. Aun-
que se prefiere que sean métricas y continuas. Es decir, que se hallen medidas con pre-
cisión numérica.
En consecuencia, cuando la variable dependiente es no métrica, hay que optar por
otra técnica multivariable de dependencia, como la regresión logística, por ejemplo (ca-
pítulo 2). El procedimiento de regresión de mínimos cuadrados ordinarios no es
apropiado cuando la variable dependiente es dicotómica (con codificación binaria:
0 - 1, u otra) y, en general, cualitativa.
Por el contrario, la existencia de variables independientes no métricas no invalida
la aplicación del método de regresión de mínimos cuadrados ordinarios. Aunque, con
la condición de que se hayan previamente traducido a variables ficticias (también co-
nocidas como “dummy variables”). De otra forma, “la utilidad del modelo de re-
gresión sería severamente limitada si todas las variables independientes utilizadas co-
mo predictores tuviesen que estar medidas en una escala de intervalo. Los problemas
de investigación que implican diferencias grupales son bastante corrientes. Por ejem-
plo, diferencias étnicas, sexuales, regionales, en la conducta, actitudes, características
socioeconómicas, etc.” (Hardy, 1993: 1-2). De lo que se trata es de comprobar si las va-
riables independientes analizadas tienen efectos varios en los grupos diferenciados.
Si no se quiere perder la información proporcionada por estas variables, habría que
traducirlas a una serie de variables ficticias para su utilización posterior en un análi-
sis de regresión lineal.
En suma, un modelo de regresión lineal puede combinar variables cuantitativas con
cualitativas. Pero, como su correcta aplicación exige que las variables estén medidas en
una escala continua, toda aquella variable predictora que sea cualitativa (o categórica)
habrá de ser transformada en una serie de variables ficticias, que facilite su tratamiento
como continua.
Por variable ficticia se entiende una variable dicotómica que se crea a partir de una
variable cualitativa (nominal u ordinal). Ésta puede ser dicotómica (tiene sólo dos ca-
tegorías, como la variable “sexo”, por ejemplo) o politómica (con más de dos categorías,
como la variable “estado civil”). Para captar toda la información que contiene las “g”
categorías de la variable, habrá que crear “g — 1” variables ficticias. Siempre habrá una
variable ficticia menos que el número de categorías iniciales de la variable categórica
(o cualitativa) original.
Aquella categoría que no se transforma en variable ficticia actúa en los análisis co-
mo grupo de referencia. En general, se aconseja que la categoría elegida de referencia
se halle bien definida y que contenga un número suficiente de casos. Quiere esto de-
cir, que se desaconseja la consideración como grupo de referencia de categorías ge-
néricas como “otros” o que se hallen escasamente representadas en la muestra.
La codificación binaria más aplicada en la creación de variables ficticias consiste
en la atribución de los códigos numéricos O y 1 en cada categoría de la variable. El có-
digo 1 se asigna a los casos que pertenecen a una categoría concreta; el código O a
aquellos que no pertenecen. De este modo la variable nominal “sexo”, medida ori-
ginariamente con dos categorías, 1 varón y 2 mujer, se transforma en una única va-
riable ficticia: 1 varón y O mujer, o a la inversa, O varón y 1 mujer. Depende de qué gru-
po se tome de referencia. En el primer supuesto serían las mujeres, mientras que en
el segundo los varones.
Alternativamente se puede aplicar otra codificación binaria: -1 y +1, donde el có-
digo —1 denota al grupo de referencia. Si bien esta última codificación es menos popular
que la anterior. Por el contrario, el empleo de otros códigos numéricos, como 1 y 2, por
ejemplo, no se considera apropiado (Hutcheson y Sofroniou, 1999). La razón está en
que el procedimiento de regresión atribuye un significado específico a estos números:
el grupo codificado 2 se interpretaría como 2 veces el valor del grupo codificado 1,
cuando en realidad se trata de categorías distintas y no ordenadas (nominales). En cam-
bio, la aplicación de los códigos O y 1 únicamente describe la presencia (1) o ausencia
(0) de un atributo concreto de la variable en cuestión. En ningún caso reflejan un or-
den cuantitativo de las categorías de las variables.
Cuando la variable incluye más de dos categorías (politómica), habría que crear
tantas variables ficticias como número de categorías de la variable (““g”) menos 1. Un
procedimiento a seguir se ilustra en el siguiente ejemplo:
e EsemeLo DE CODIFICACIÓN DE VARIABLES FICTICIAS -Y-————————
La variable categórica “estado civil”, originariamente medida en 5 categorías: 1 soltero,

2 casado, 3 separado/divorciado, 4 viudo y 5 en pareja. Como variable nominal, necesaria-
mente exige su previa transformación en variable ficticia para su incorporación al análisis de
regresión lineal. Como esta variable incluye 5 categorías, son 4 las variables ficticias a
crear. Arbitrariamente, se escoge una de las categorías de la variable para actuar de grupo
de referencia. La única condición que se impone es que su presencia en la muestra no sea
escasa. En este ejemplo se elige la categoría de “soltero” como grupo de referencia. La co-
dificación resultante sería la siguiente:
ESTADO CIVIL VARIABLES FICTICIAS
(Original) D1 D2 D3 D4
Soltero 0 0 0 0
Casado 1 0 0 0
Separado/divorciado 0 1 0 0
Viudo 0 0 1 0
En pareja 0 0 0 1
De este modo, la variable ficticia D1 = 1, si la persona está casada; D1 = O, si su estado

civil es otro. D2 = 1, si está separado o divorciado; D2 = O si su estado civil es otro. D3 = 1,
si es viudo/a, D3 = 0, si su estado civil es otro. D4 = 1, si vive en pareja; D4 = O, si su esta-
do civil es otro. Los sujetos que puntúen O en todas las cuatro variables ficticias, constituyen
el grupo de referencia (los “solteros”).
Si se desea comparar cada variable ficticia con el promedio grupal, se está ante un proce-
dimiento de codificación llamado “desviación” (Hutcheson y Sofroniou, 1999). Este segundo
procedimiento no difiere del anterior, salvo en la codificación del grupo (o categoría) de referen-
cia. Éste pasa a codificarse -1, en vez de O (para cada una de las cuatro variables ficticias crea-
das). Lo que posibilita la comparación de cada grupo codificado 1 (variable ficticia) y el promedio
de todos los grupos. Hecho que incide en que los coeficientes de regresión para las variables fic-
ticias permanezcan constantes, indistintamente del grupo que se tome de referencia.
Hay que advertir, no obstante, que cuando se aplica este segundo procedimiento de co-
dificación no puede omitirse ninguna de las g — 1 variables ficticias creadas a partir de la va-
riable categórica original. De otra forma se dificulta la comparación con el promedio grupal.
Para cada una de estas cuatro variables ficticias (indistintamente del procedimiento segui-
do en su elaboración) se calcula un coeficiente de regresión, por separado. Cada una de estas
variables actúa en el modelo como variable independiente. Lo que puede provocar un efecto no
deseado: elevar la colinealidad, al poderse predecir el valor de cualquiera de dichas variables a
partir del conocimiento de las otras tres variables. La colinealidad se trata en el subapartado 1.1.8.
Las variables ordinales (como la variable “clase social” o “satisfacción”) no precisan

de su transformación en variables ficticias para su incorporación a un análisis de
regresión lineal. De acuerdo con Afifi y Clark (1990: 226), las variables ordinales “re-
presentan variables con una escala latente”. Esto posibilita su tratamiento como varia-
ble continua. Pero ello exige que los códigos numéricos asignados a cada categoría de la
variable se correspondan con la cualidad que expresan. Así, por ejemplo, en la variable
“clase social”, medida en cinco categorías: alta, media-alta, media, media-baja y baja; de-
bería aplicarse una escala numérica en consonancia con el nivel de estatus correspon-
diente. El código numérico más bajo, el 1, se aplicaría a la “clase social baja”. En cam-
bio, el código numérico más elevado, el 5, a la categoría de “clase alta”. Y no a la
inversa. Lo que facilita la interpretación de la variable en la ecuación de regresión.
Pero el investigador también puede optar por ignorar el orden latente de las varia-
bles ordinales, tratándola a modo de variable nominal. Ello exige su transformación a tan-
tas variables ficticias como número de categorías menos uno. En el ejemplo anterior, ten-
dría que crearse 4 variables ficticias. Arbitrariamente se tomaría una de las categorías de
la variable “clase social” como grupo de referencia. La categoría elegida puede ser la “cla-
se social alta”. Las cuatro variables ficticias serían: clase media-alta (D1), media (D2), me-
dia-baja (D3) y baja (D4). Si D1 = 1, el individuo es de clase media-alta; D1 = 0, no es de
clase media-alta. Y así con las otras variables ficticias.
El proceder de esta segunda manera, transformando las variables ordinales en fic-
ticias, tiene, no obstante, un inconveniente importante. La codificación ficticia no re-
tiene información sobre el orden expreso en la variable. Las categorías de la variable
cambian a variables no relacionadas. “El análisis consecuentemente pierde algún
poder” (Hutcheson y Sofroniou, 1999: 92), al perderse el orden de las categorías de la
variable ordinal. Por esta razón, se aconseja elegir la primera opción: dar a la variable
ordinal el tratamiento de variable continua.
Por último, señalar una utilidad importante de transformar variables ordinales, e in-
cluso de intervalo, en ficticias. Cuando se sospeche la existencia de una relación curvilínea
entre dicha variable independiente con la dependiente. En este caso la transformación
a variables ficticias tendría la utilidad de representar segmentos de la distribución de di-
chas variables independientes. Lo que proporciona —de acuerdo con Hardy (1993)- una
alternativa útil a la regresión polinomial o al uso de transformaciones.
1.1.3. Variables independientes relevantes
La solución de regresión depende bastante de qué variables independientes par-

ticipen en el análisis. Tan importante es comprobar que no se ha excluido (de la base
de datos) ninguna variable independiente que se estime “relevante” (en la predicción de
la variable dependiente) como la no inclusión de variables “irrelevantes”.
En regresión, como en la generalidad de los análisis estadísticos, se busca la ob-
tención de un modelo parsimonioso. Es decir, un modelo explicativo que incluya el me-
nor número posible de variables predictoras (o independientes). Pero, asimismo, és-
tas han de mostrar “relevancia” en la predicción de la variabilidad de la variable de-

pendiente. “El añadir variables innecesarias causa una pérdida en precisión de los coe-
ficientes estimados en las variables relevantes” (Schroeder et al., 1986: 17). Ello se de-
be al aumento del error típico de la estimación (subapartados 1.4.2. y 1.5.2.), que
ocasiona la incorporación de variables “irrelevantes”, sin que ello se traduzca en
una mejora en proporción de varianza de la variable dependiente explicada por las in-
dependientes, medida mediante el coeficiente de determinación R? (subapartado
1.5.1.). Por esta razón fundamental se desaconseja la inclusión de muchas variables in-
dependientes en el análisis de regresión, a menos que muestren que son “relevantes”
para la predicción de la variable dependiente.
La comprobación de si se han incluido variables predictoras “irrelevantes” puede
hacerse siguiendo alguna de las opciones ya resumidas por Sánchez Carrión (1995: 412):
a) Comprobar cuánto mejora la explicación de la variable dependiente el hecho de
que se incluya una nueva variable independiente (véase incremento en R?).
b) Mediante la realización de un contraste que permita conocer si el efecto de ca-
da variable independiente es estadísticamente significativo.
7 EsemeLo DE SELECCIÓN DE VARIABLES INDEPENDIENTES RELEVANTES
Del total de ítems que componen la encuesta de “Actitudes ante la inmigración” de 1996
del C.I.S., se han escogido las siguientes variables (enunciadas con el número de la pregunta
con el que figura en el cuestionario):
A. Variable dependiente:
+ P201: “Dígame, por favor, en una escala de O a 10, la simpatía que Vd. siente por los
norteafricanos (marroquíes, etc.), teniendo en cuenta que 0 significa ninguna simpa-
tía y 10 mucha simpatía”.
Se ha elegido esta variable por su carácter de “continua”. Se quiere conocer qué varia-
bles ayudan a predecir el mayor o menor grado de simpatía hacia los norteafricanos.
B. Variables independientes:
+ P210: “Dígame, por favor, en una escala de O a 10, la simpatía que Vd. siente por
los latinoamericanos, teniendo en cuenta que 0 significa ninguna simpatía y
10 mucha simpatía”.
» P306: “A Vd. le preocuparía mucho, bastante, poco o nada que un hijo o una hija su-
ya se casara con un ciudadano de Marruecos u otro país norteafricano”. Mu-
cho (1) Bastante (2) Poco (3) Nada (4) No sabe (8) No contesta (9).
e P506: “¿Hasta qué punto: mucho, bastante, poco o nada le importaría a Vd. tener
como vecinos a una familia de ciudadanos de Marruecos u otro país norte-
africano?”. Mucho (1) Bastante (2) Poco (3) Nada (4) N.s. (8) N.c. (9).
Capítulo 1: Regresión múltiple. 23
P11: “¿Qué le parece a Vd. el número de personas procedentes de otros países

que viven en España?”. Son demasiados (1) Son bastantes, pero no dema-
siados (2) Son pocos (3) N.s. (8) N.c. (9).
PIO: “En su opinión ¿cree que las leyes que regulan la entrada y permanencia de
extranjeros en España son demasiado tolerantes, más bien tolerantes, co-
rrectas, más bien duras o demasiado duras?”. Demasiado tolerantes (1) Más
bien tolerantes (2) Correctas (3) Más bien duras (4) Demasiado duras (5) No
conoce la legislación en materia de inmigración (6) N.s. (8) N.c. (9).
P19: “Y, en general, ¿cree Vd. que se debería de tratar de regularizar la situación
de los inmigrantes ilegales o por el contrario se les debería devolver a su país
de origen?”. Se debería regularizar su situación (1) Se les debería devolver
a su país (2) N.s. (8) N.c. (9).
P21: “¿Qué política cree Vd. que sería la más adecuada con respecto a los tra-
bajadores inmigrantes?”. Facilitar la entrada de trabajadores inmigrantes
(1) Facilitar la entrada sólo a aquellos que tengan un contrato de trabajo (2)
Hacer muy difícil la entrada de trabajadores inmigrantes (3) Prohibir por
completo la entrada de trabajadores inmigrantes (4) N.s. (8) N.c. (9).
P2904: “El aumento de los inmigrantes favorece el incremento de la delincuencia en
nuestro país”. De acuerdo (1) En desacuerdo (2) N.s. (8) N.c. (9).
P33: “¿Ha tenido Vd. alguna vez relación o trato con inmigrantes en España?” Sí
(1) No (2) N.c. (9).
P37: “En estos últimos años se está produciendo en algunos países europeos un
cierto auge de partidos políticos de ideología racista que, como Le Pen en
Francia, propugnan expulsar del país a ciertos colectivos por su raza o reli-
gión (negros, mahometanos, judíos, etc.). ¿A Vd. este auge le parece muy po-
sitivo, positivo, negativo o muy negativo?”. Muy positivo (1) Positivo (2) Ne-
gativo (3) Muy negativo (4) N.s. (8) N.c. (9).
P39: “Cuando se habla de política se utiliza normalmente las expresiones iz-
quierda y derecha. En esta tarjeta hay una serie de casillas que van de
izquierda a derecha. ¿En qué casilla se colocaría Vd.?
Izda 01 10 Dcha N.s (98) N.c. (99)
P41: “Sexo” Hombre (1) Mujer (2).
P42: “Cuántos años cumplió Vd. en su último cumpleaños?” N.c. (99).
P43a: “¿Cuáles son los estudios de más alto nivel que Vd. ha cursado (con inde-
pendencia de los que ha terminado o no?”. Algunos años de primaria (01) Es-
tudios primarios (02) Bachillerato elemental (03) FP1 (04) Bachillerato su-
perior (05) FP2 (06) Arquitecto e ingeniero técnico (07) Diplomado escuela
universitaria (08) Estudios superiores de 2 o 3 años (09) Arquitecto e inge-
niero superior (10) Licenciado universitario (11) Doctorado (12) Estudios de
postgrado, master (13) Estudios no reglados (corte y confección, mecano-
grafía...) N.s. (98) N.c. (99).
P49a: “¿Con qué frecuencia asiste Vd. a misa u otros oficios religiosos sin contar las
ocasiones relacionadas con ceremonias de tipo social, por ejemplo, bodas, co-
muniones o funerales?” Casi nunca (1) Varias veces al año (2) Alguna vez al mes
(3) Casi todos los domingos o festivos (4) Varias veces a la semana (5) N.c. (9).
P51: “¿A qué clase social diría Vd. que pertenece?” Alta (1) Media-alta (2) Media-
baja (3) Media-media (4) Baja-trabajadora (5) N.s. (8) N.c. (9).
+ P52: “Actualmente, entre todos los miembros del hogar y por todos los conceptos,
¿de cuántos ingresos netos disponen por término medio en su hogar al
mes?” Menos de 50.000 pts. (01) 50.001-100.000 (02) 100.001-150.000
(03) 150.001-200.000 (04) 200.001-300.000 (05) 300.001-400.000 (06)
400.001-500.000 (07) 500.001-750.000 (08) 750.000-1 millón de pts. (09) Más
de 1 millón de pts. (10) N.c. (99).
e Tamuni: “Tamaño del hábitat “ Hasta 2.000 hab. (1) 2.001-10.000 (2) 10.001-50.000 (3)
50.001-100.000 (4) 100.001-400.000 (5) 400.001-1.000.000 (6) Más de
1.000.000 (7).
Del total de 18 variables inicialmente elegidas para la predicción de la variable depen-

diente, 14 son finalmente las variables que participan en el análisis. Las 4 variables des-
cartadas por mostrar muy escasa correlación (bivariable) con la variable dependiente son las
siguientes: P33 (r = ,095), P49a (r =-,010), P51 (r =,028) y Tamuni (r = ,015).
La mayoría de las variables elegidas son ordinales, exceptuando las variables métricas
P210, P39, P42 y P52 (en intervalos); y las nominales P19, P2904 y P41.
Como ya se expuso, las variables ordinales no precisan de su transformación en va-
riables ficticias para su incorporación como variables independientes en el análisis de re-
gresión lineal. Estas variables representan variables en una escala latente que posibilita
su tratamiento como variable continua. Para ello se precisa que los códigos numéricos
asignados a cada categoría de la variable se correspondan con la cualidad que expresan.
Esta correspondencia facilita la interpretación de la variable en la ecuación de regresión.
Por esta razón, variables como P306, P506, P11 o P37, por ejemplo, se han recodifica-
do para mantener la correspondencia necesaria entre el código numérico y la cualidad que
expresa: Mucho (4) Bastante (3) Poco (2) Nada (1); Son demasiados (3) Son bastantes,
pero no demasidos (2) Son pocos (1); Muy positivo (4) Positivo (3) Negativo (2) Muy ne-
gativo (1).
La variable P43a (estudios) se ha agrupado en cinco categorías: Primarios o menos (1),
EGB, FP1 (2) Bachillerato, FP2 (3) Medios (diplomado, técnico, superiores de 2 o 3 años) (4)
Superiores (5).
Al estar agrupada la variable P52 (ingresos) en intervalos, se ha procedido previamen-
te a calcular los puntos medios de los intervalos (la suma de sus límites, superior e inferior,
dividida entre dos), como valores representativos de los mismos, para el cálculo de la media
y demás estadísticos.
Las variables nominales P19, P2904 y P41 se han transformado en ficticias. Al tener ca-
da una de ellas sólo dos categorías son tres las variables ficticias creadas: P41 (sexo) Varón
(1) Mujer (0); P2904 (inmigrante delincuente) De acuerdo (1) En desacuerdo (0); P19 (re-
gularizar inmigrantes) Sí (1) No (0). Recuérdese que el código numérico “0” designa al gru-
po de referencia.
No se ha querido incluir más variables en el análisis porque la finalidad es obtener un mo-
delo “parsimonioso”. La incorporación de variables innecesarias o que muestren ser “irrele-
vantes” para la predicción de la variable dependiente suele ir acompañada de una pérdida de
precisión de los coeficientes estimados en las variables “relevantes” (Schroeder et al.,
1986), debido al aumento, que suele provocar, en el error típico de las estimaciones de las
variables “relevantes”.
1.1.4. Linealidad
La relación entre la variable dependiente y cada variable independiente ha de ser

lineal. Esto significa que el efecto de cada variable independiente (X;) en la depen-
diente (Y) es el mismo, cualquiera que sea el valor de la variable independiente. O, di-
cho con otros términos, para “cada variable independiente X;, la cantidad de cambio
en el valor medio de Y asociado con un aumento de una unidad en X,, manteniendo
todas las otras variables independientes constantes, es el mismo sin considerar el nivel
de X,” (Berry y Feldman, 1985: 51).
Por el contrario, si se observa que el cambio en el valor medio de la variable de-
pendiente asociado con el incremento de una unidad en la variable independiente va-
ría con el valor de la variable X, se dice que la relación entre la variable dependiente
y la independiente es no lineal (no se ajusta a una recta). Cuando esto sucede, el mo-
delo de regresión no logra captar “el modelo sistemático de relación entre las variables
dependiente e independientes” (Fox, 1991: 49).
En regresión múltiple, el cumplimiento de este cuarto supuesto puede fácilmente com-
probarse de forma visual, con la ayuda de los gráficos de regresión parcial y los de residuos.
A) Gráficos de regresión parcial
Estos gráficos son de gran utilidad para conocer qué variables concretas incumplen
el supuesto de linealidad. Muestran, para cada variable independiente, su relación con
la dependiente. Para que el supuesto de linealidad se cumpla, la nube de puntos que
corresponde a los valores de X, e Y en cada caso concreto, ha de ubicarse en torno a una
recta. Ésta puede ser creciente o decreciente. Es creciente, cuando ambas variables, X,
e Y, se hallan positivamente relacionadas; es decir, que el aumento del valor de la va-
riable independiente supone igualmente un aumento en el valor de la variable de-
pendiente. En cambio, la recta será decreciente si la relación entre las variables es ne-
gativa: al aumento de valor de la variable independiente le sigue una disminución en el
valor correspondiente a la variable dependiente. Véanse gráficos a y b en la figura 1.1.
Por el contrario, si se observa que la nube de puntos no sigue una misma pauta li-
neal, creciente o decreciente, sino en forma de curva (habiendo un punto de inflexión
en los datos, pasándose de una tendencia creciente a decreciente, o a la inversa) se es-
tá ante una relación no lineal (gráfico c). Cuando esto acontece, es preciso realizar una
transformación logarítmica en dicha variable independiente (log X,) para alcanzar la
linealidad que exige el análisis de regresión lineal.
En cambio, si en el gráfico se observa que la nube de puntos no sigue ninguna pau-
ta (ya sea lineal o curvilínea), significa que no existe ninguna relación entre las varia-
bles dependiente e independiente. El cociente de correlación de ambas variables, co-
mo en el supuesto anterior de relación curvilínea, se aproxima a cero (r = 0) —véanse
subapartados 1.3.2. y 1.5.1-. Lo que lleva a reconsiderar la inclusión de dicha variable
independiente en el análisis de regresión lineal (al mostrar no ser de utilidad en la pre-
dicción de la variable dependiente).
a) Relación lineal positiva b) Relación lineal negativa

Y
c) No-lineal d) Inexistencia de relación

(relación curvilínea) entre las variables
Figura 1.1. Gráficos de regresión parcial.
Los ejes de los gráficos de regresión parcial pueden venir expresados en las uni-
dades originales en que fueron medidas ambas variables o en sus correspondientes pun-
tuaciones estandarizadas (unidades Z). Éstas resultan de tipificar la variable para neu-
tralizar la incidencia de la unidad de medida. En este caso, los valores de las variables
se localizan en el intervalo de “ -3” a “43”.
A su utilidad en el análisis de la relación bivariable entre cada X, e Y, hay que aña-
dir que los gráficos de regresión parcial también muestran ser de utilidad en la de-
tección de atípicos. Por atípico comúnmente se entiende todo caso que se distancie de
la tendencia observada en la generalidad de los datos (véase subapartado 1.5.4.).
En el gráfico de regresión parcial cualquier punto que se aleje de la nube de puntos
identifica a un posible atípico, cuya confirmación precisa de otros procedimientos ana-
líticos resumidos en el susodicho subapartado.
EsjempLo DE COMPROBACIÓN DEL SUPUESTO DE LINEALIDAD

MEDIANTE EL GRÁFICO DE REGRESIÓN PARCIAL
Para ilustrar el uso del gráfico de regresión parcial en la comprobación del supuesto de
linealidad, se han seleccionado dos gráficos del total de realizados mediante el programa
SPSS (versión 10.0).
a) b)
Gráfico de regresión parcial Gráfico de regresión parcial
Variable dependiente: simpatía marroquí Variable dependiente: simpatía marroquí
a
o
0
L £
Na
L
o
z
E *7 É
z3 4 7 23 o a
$ -9 T £ -10 T T T T T T
-10 3 4 4 2 0 2 4 6 -.6 -,4 -=2 -,0 e A 6 .8
simpatía latinoamericana sexo
El primer gráfico a) refleja la relación bivariable existente entre la variable dependiente “sim-
patía por los norteafricanos: marroquíes, etc.” (P201) y la independiente “simpatía por los lati-
noamericanos” (P210). Ambas variables se encuentran en la misma escala de medida. Sus va-
lores van de O a 10. Del gráfico puede deducirse la existencia de una relación lineal positiva entre
ambas variables, aunque no es perfecta. La simpatía mostrada hacia los latinoamericanos ayu-
da a predecir la sentida hacia los norteafricanos (marroquíes, etc.). La valoración dada a este úl-
timo colectivo de inmigrantes está positivamente relacionada con la dada a otro colectivo de in-
migrantes: los latinoamericanos. Las personas que más simpatía sienten hacia los norteafricanos
son, asimismo, los que más simpatía muestran hacia los latinoamericanos. Al aumento en la va-
loración hacia los latinoamericanos le sigue normalmente una mayor valoración hacia los nor-
teafricanos. Pero, la relación lineal positiva observada entre ambas variables no es perfecta. Si
fuese perfecta, la nube de puntos se ajustaría a una recta ascendente. Este tipo de gráfico coin-
cide con un coeficiente de correlación r = 1,0, que indica la existencia de una relación lineal po-
sitiva perfecta entre ambas variables: conforme aumenta el valor de la variable independiente,
se incrementa, asimismo, el de la dependiente; los valores altos y bajos en ambas variables coin-
ciden. En cambio, la correlación existente entre las dos variables referidas (simpatía por los la-
tinoamericanos y simpatía por los norteafricanos) no es perfecta, aunque sí importante: “r = ,593”,
como se verá posteriormente, en la matriz de correlaciones. Lo que explica que la nube de pun-
tos no sea totalmente lineal. La nube de puntos pierde la linealidad, a medida que disminuye la
correlación entre las variables. Recuérdese que, cuando la correlación es nula, el gráfico de re-
gresión parcial coincide con el mostrado en la figura 1.1 (gráfico d).
La existencia de puntos alejados de la nube de puntos principal informa de la existencia
de atípicos a confirmar mediante otros procedimientos analíticos.
El gráfico b) es totalmente distinto al anterior. llustra la relación existente entre una variable
independiente ficticia (“sexo”) y la dependiente continua (“simpatía por los norteafricanos”). La
variable “sexo” es una medida discreta convertida a ficticia mediante la codificación binaria “1” va-
rón y “0” mujer. Ello afecta a que cuando se modela su relación con una variable dependiente con-
tinua no resulta una recta de regresión, aunque las variables se hallen muy relacionadas. Por el
contrario, el gráfico de regresión parcial ofrece dos nubes de puntos principales, que corresponden
a los valores de la variable dependiente para cada uno de los dos valores posibles de la inde-
pendiente 1 y O. En general, el análisis de regresión con variables independientes ficticias posibilita
el conocimiento de los valores predichos (o esperados) en la variable dependiente para cada uno
de los subgrupos en la variable independiente. Lo que imposibilita su representación mediante
una recta realizada desde una serie continua de valores.
B) Gráficos de residuos
A diferencia del gráfico de regresión parcial, el gráfico residuos no se limita a re-

laciones bivariables. Por el contrario, muestra los efectos combinados de todas las va-
riables predictoras incluidas en la ecuación de regresión con la dependiente. Para lo
cual se representan los residuos estandarizados o los estudentizados —explicados en el
subapartado 1.1.10- contra los valores predichos de la variable dependiente a partir de
la ecuación de regresión ($. Estos valores se obtienen de sustituir (en la ecuación de
regresión resultante de los análisis) los valores correspondientes de la variable inde-
pendiente, en cada caso concreto. La diferencia entre el valor de la variable depen-
diente observado en la muestra (Y) y el predicho a partir de la ecuación de regresión
(Y) es lo que se entiende por residuo (E). Si éste se halla dividido por la desviación tí-
pica, el residuo será estandarizado (E, ): Los estudentizados (E,) se caracterizan por se-
guir la distribución “t” de Student con N — p-— 1 grados de libertad (siendo “N” el ta-
maño de la muestra y “p” el número de variables independientes).
La figura 1.2 incluye distintas posibilidades de gráficos de residuos. Éstos difieren
de los gráficos de regresión parcial en dos aspectos importantes: uno, ahora se rela-
cionan los residuos con Y (los valores predichos de la variable dependiente), y no los
valores de Y con X, como sucede en los gráficos de regresión parcial; dos, la nube de
puntos ha de ser horizontal, y no ascendente ni descendente (según sea positivo o ne-
gativo el coeficiente de regresión para la variable independiente). El supuesto de li-
nealidad se cumple cuando los residuos se distribuyen aleatoriamente, próximos a la
línea horizontal que parte de 0. Téngase presente que este gráfico se realiza con resi-
duos estandarizados (E, ) y estudentizados (E, ). En cambio, cuando la nube de puntos
presenta una forma en curva, en vez de rectangular, el supuesto de linealidad no se
cumple. Como sucede en los gráficos b) y c) incluidos en la figura 1.2.
a) Relación lineal b) Relación no lineal c) Relación no lineal
10 20 30 40 50 y, 10 20 30 40 50 y, 10 20 30 40 50 y,
Figura 1.2. Gráficos de residuos.
Berry y Feldman (1985: 54) proponen otra forma alternativa de comprobar el su-
puesto de linealidad, que consideran más “rigurosa”. Consiste en dividir la muestra en
varias submuestras que incluyan un rango de valores para la variable independiente.

Si la regresión en cada submuestra, por separado, genera estimaciones de intercepto y
de coeficientes de pendiente que difieran sustancialmente a través de las submuestras,
se considera la relación entre las dos variables no lineal.
El incumplimiento del supuesto de linealidad no supone la invalidación del análisis
de regresión, aunque sí lo debilita. Cuando acontece, la relación entre la variable de-
pendiente con la independiente no queda suficientemente captada por el coeficiente
de regresión lineal. Para que esto no suceda, conviene aplicar alguno de los siguientes
remedios contra la no linealidad:
a) La aplicación de métodos de regresión no lineal, como la regresión polinomial.

b) La transformación logarítmica de la variable independiente (log X;). La ecua-
ción de regresión que resulta de utilizar log X, en lugar de X, no presentaría nin-
gún problema en la interpretación de los valores predichos de la variable de-
pendiente ($). Por esta razón, “la mayoría de los investigadores aceptan la
transformación de log,, como razonable en estas situaciones” (Afifi y Clark,
1990: 119).
1.1.5. Aditividad
La predicción de la variable dependiente exige que los efectos de las distintas va-
riables independientes puedan sumarse entre sí. Esto significa que, para cada variable
independiente incluida en el modelo de regresión, la cantidad de cambio que provo-
ca en la variable dependiente será el mismo, indistintamente de los valores de las otras
variables independientes incluidas en la ecuación de regresión. Si, por el contrario, se
observa que su influencia se ve afectada por los valores que presenten otras variables
independientes, se está ante un modelo de regresión no aditivo (o interactivo). Ello
acontece cuando las variables independientes interactúan unas con otras, al influir en
la variable dependiente.
Berry y Feldman (1985) diferencian tres variedades de modelos de regresión no adi-
tivos: .
a) Modelo interactivo de variable ficticia. Cuando una de las variables indepen-

dientes es dicotómica (es decir, dispone de dos opciones de respuesta diferen-
tes: sí-no, varón-mujer, aprobado-suspenso), el modelo es interactivo si la va-
riable independiente está linealmente relacionada con la variable dependiente
para ambos valores de la variable ficticia dicotómica. No obstante, la pen-
diente de la recta de regresión y el intercepto que caracterizan la relación lineal en-
tre la variable dependiente y las independientes diferirán según sea el valor de
la variable ficticia dicotómica (D.).
b) Modelo multiplicativo. Si dos variables independientes, medidas a nivel de
intervalo, interactúan en la variable dependiente, de modo que la pendiente
de la relación entre cada variable independiente y la dependiente esté rela-

cionada linealmente con el valor de la otra variable independiente.
c) Modelo interactivo no lineal. La resolución de este tipo de modelo exige tomar
logaritmos en ambos lados de la ecuación de regresión. Es decir, tanto para la
variable dependiente como para cada una de las variables independientes, in-
cluyendo la constante y el término de error.
En consecuencia, si se observa que el cambio en el valor de Y, relacionado con un pe-

queño aumento en X, depende del valor de X,, significa que se está ante un modelo no li-
neal. Por el contrario, cuando el cambio en Y, relacionado con un pequeño aumento en X,,
está relacionado con el valor de otra variable independiente, el modelo es interactivo.
Tacq (1997) propone una sencilla comprobación del supuesto de aditividad. La con-
fección de una ecuación de regresión que incluya todos los efectos multiplicativos entre
dos variables independientes. Por ejemplo, Y =b, + b, x, + b, x, + by x, x, + e. Esta ecua-
ción se añade al modelo aditivo simple, que no contiene términos de interacción: Y = b,
+ b, x, +D, x, + e. Si el valor del estadístico F empírico (obtenido del modelo) es mayor
que el correspondiente F teórico (que figura en la tabla de F, a unos grados de libertad y
nivel de significación concretos) -véase subapartado 1.5.3- significa que la totalidad de los
efectos de interacción ofrece una contribución significativa a la explicación de la variable
dependiente. En este caso, el modelo aditivo no sería adecuado.
En resumen, con más de dos variables independientes en el modelo pueden in-
cluirse varios términos producto para cada dos, tres o más variables. De esta forma ha-
bría un refuerzo mutuo entre las variables independientes en la explicación de la va-
riable dependiente. El modelo no sería aditivo, sino multiplicativo. La suma ponderada
de los efectos de las variables independientes no explicaría el valor de la variable de-
pendiente, sino los productos de las variables independientes con efectos interactivos.
1.1.6. Normalidad
El supuesto de normalidad es común a otras técnicas de análisis multivariable. Con-

siste en la correspondencia de los datos (tanto relativo a la variable dependiente, co-
mo a las independientes) con la distribución normal. Ello es importante porque per-
mite el uso de los estadísticos “F” de Snedecor y “t” de Student, en la comprobación
de la significatividad del modelo de regresión en su conjunto (“F”) y de sus coeficientes
por separado (**t”).
El incumplimiento de este supuesto es más probable cuando el análisis de regre-
sión se realiza en una muestra de tamaño pequeño (inferior a los ratios mencionados
en el subapartado 1.1.1). Conforme aumenta el tamaño de la muestra, y merced a la
teoría del límite central, es más cierta la correspondencia de la distribución de datos con
la curva normal. De hecho, algunos autores, como Afifi y Clark (1990: 116), afirman
que “las salidas ligeras de este supuesto apreciablemente no alteran nuestras infe-
rencias, si el tamaño muestral es suficientemente grande”.
Como en otros supuestos de regresión, la forma más sencilla de comprobar éste es

visual, con la ayuda de alguno de los gráficos siguientes:
A) Histograma de residuos
Incluye los residuos, preferiblemente estandarizados, junto con las frecuencias de

la variable. Para que el supuesto de normalidad se satisfaga, los residuos (aquellos da-
tos que no logran ser explicados por el análisis de regresión, al no coincidir los valores
observados con los predichos a partir de la ecuación de regresión) han de estar nor-
malmente distribuidos. El histograma, en suma, ha de tener una forma acampanada (de
campana de Gauss). Su distribución ha de ser perfectamente simétrica, con media 0 y
desviación típica 1. Si, por el contrario, se observa una agrupación exagerada de re-
siduos, no en el centro, sino en un extremo de la distribución, ya sea en los valores po-
sitivos o en los negativos, el supuesto de normalidad no se cumple.
— EljemPLO DE HISTOGRAMA DE RESIDUOS

Para ilustrar la aplicación del histograma en la comprobación del supuesto de normalidad,
a continuación se incluye el histograma correspondiente a los datos aquí analizados de la en-
cuesta de “Actitudes ante la inmigración”. El gráfico contiene las frecuencias de la variable de-
pendiente junto a los residuos estandarizados, para un total de 1.267 casos válidos. En él pue-
de observarse que el supuesto de normalidad prácticamente se cumple. La media de la
distribución es “,05” y la desviación típica “1,00”. Recuérdese que el supuesto de normalidad
exige que la distribución de datos sea perfectamente simétrica. Lo que significa que su me-
Histograma
Variable dependiente: simpatía marroquí
160
Frecuencia
Desv. tip. = 1,00

Media = ,05
N = 1.267,00
Y "Lo VU
Jo o 7 LoVIV
"Jo Lo O "Sy "Ly 7 ?"% "Jo 2"Lo 7 Ly > 7
Regresión residuo tipificado

dia aritmética ha de ser igual a “0,0” y su desviación típica igual a “1,0”. Si se comparan los
valores obtenidos con los de referencia, puede concluirse que la asimetría de la distribución
observada es ligera. Como era de esperar por el tamaño muestral analizado, en relación con
el número de variables predictoras incluidas en el análisis, la distribución de los datos casi se
corresponde con la curva normal. Para un análisis más detallado del ligero apuntamiento y
desviación hacia la derecha de la distribución observada ha de acudirse a los gráficos de pro-
babilidad normal para variables predictoras concretas, y no para el conjunto de la distribución,
además de estadísticos específicos de asimetría y curtosis. Estos ayudan a comprobar la ex-
tensión a la que la serie de puntuaciones observadas se desvían de la distribución normal.
B) Gráfico de probabilidad normal
Algunas veces referidos como gráfico P— P. Difiere del histograma de residuos en

que también puede aplicarse cuando el tamaño de la muestra analizada es pequeño. En
él se compara la distribución observada de los residuos estandarizados (o tipificados)
con la esperada bajo el supuesto de normalidad. Para ello se representan ambas dis-
tribuciones de probabilidad acumuladas: la esperada y la observada. Si ambas distri-
buciones coinciden, se obtiene una recta que forma un ángulo de 45”. Lo que signifi-
ca que se está ante una distribución normal. Las salidas de la normalidad se producen
cuando la distribución de datos se distancia de la diagonal definida por dicha recta.
Cuando la línea de puntos cae por debajo de la diagonal, la distribución es plati-
cúrtica. Tanto más, cuanto más se distancie la línea de puntos de la diagonal. Este ti-
po de distribución se caracteriza por una elevada dispersión de sus valores con respecto
a la media de la distribución, lo cual dificulta su representatividad. La distribución de
los datos presenta una forma achatada o plana, con escasos valores en su centro. El va-
lor de curtosis correspondiente es negativo (inferior a 0). Por el contrario, si la línea
de puntos se sitúa por encima de la diagonal, la distribución es leptocúrtica. Sus valores
se hallan muy concentrados en torno a la media de la distribución, al haber muchos
casos en su centro; su dispersión respecto de la media aritmética es muy pequeña, fa-
voreciendo su representatividad. El valor de curtosis es en este caso positivo (supe-
rior a 0).
Un arco sencillo por encima o por debajo de la diagonal indica, asimismo, asime-
tría (positiva o negativa). La asimetría constituye un indicador de la agrupación de las
frecuencias en la curva de una distribución, del grado en que coinciden las medidas de
tendencia central (media, mediana y moda). La distribución es simétrica (o normal)
cuando los valores de dichos estadísticos no difieren. Gráficamente, la nube de puntos
se ajusta a la diagonal. Si se sitúa por encima de la diagonal, la distribución es asimé-
trica a la derecha (o con sesgo positivo). Los casos se agrupan a la izquierda de la cur-
va, al haber en la distribución mayor representación de los valores inferiores a la me-
dia. El valor de asimetría correspondiente es positivo (superior a 0).
Un arco por debajo de la diagonal informa, en cambio, que la distribución es asi-
métrica negativa (o con sesgo negativo); tanto más, cuanto más se distancie la línea de
puntos de la diagonal definida por ambas probabilidades. En las distribuciones asi-

métricas negativas la agrupación de valores se produce a la derecha de la curva, al ha-
ber una mayor presencia de valores superiores a la media en la muestra analizada. La
asimetría en este caso toma un valor negativo. De detectarse algún tipo asimetría, es
preciso examinar por separado cada variable para comprobar en cuáles se incumple el
supuesto de normalidad.
A EjemeLo DE GRÁFICO P - P DE PROBABILIDAD NORMAL
El gráfico P - P de probabilidad normal de residuos estandarizados (o tipificados) de la

misma distribución de datos analizada corrobora las conclusiones del histograma de residuos.
Como puede observarse en el gráfico P - P adjunto, la nube de puntos se sitúa a lo largo de
la diagonal (que resulta de comparar las distribuciones de probabilidad acumuladas obser-
vadas y esperadas —para una distribución normak para los residuos estandarizados), sin dis-
tanciamientos notorios. Lo que lleva a afirmar el cumplimiento del supuesto de normalidad.
La asimetría a la derecha detectada es muy leve. Apenas se vislumbra un pequeño arco por
encima de la diagonal en el rango semiintercuartílico de las probabilidades acumuladas.
Como ambos gráficos de residuos (P - P de probabilidad normal y el histograma de re-
siduos) muestran el práctico cumplimiento del supuesto de normalidad multivariable, puede
seguirse la recomendación de Tabachnick y Fidell (1989: 79), según la cual, “en regresión múl-
tiple, si los gráficos de residuos parecen normales, no existe razón para visualizar variables
individuales para comprobar la normalidad”. No obstante, esta comprobación univariable pue-
de ser deseable en busca de mejora del modelo obtenido. Para lo cual habrá de seguirse otros
procedimientos estadísticos y gráficos que se verán más tarde.
Gráfico P-P normal de regresión residuo tipificado

1,00
15
co
"o
S
2. ,S0-
3
=
3o 257
5
y
£ 0,00 T T “T
0,00 25 0) 75 1,00
Prob. acum. observada
e La normalidad también puede comprobarse con la ayuda de estadísticos. El de ma-

yor aplicación es el estadístico W de Shapiro-Wilks (propuesto por ambos autores en 1965,
en “An analysis of variance test for normality”, Biometrika 52: 591-611). Este estadístico
ha alcanzado una amplia aplicación en la comprobación del supuesto de normalidad, aun-
que limitada a tamaños muestrales pequeños (inferiores a 50 unidades). Su popularidad
en gran parte se debe a su presencia en la mayoría de los paquetes estadísticos.
Su valor se obtiene a partir de los valores esperados de los residuos (E,= Y;— Y)
de una distribución normal estándar. El rango de valores posibles va de O, 0 al /0. Un
W = 1.0 significa el cumplimiento del supuesto de normalidad, mientras que un W =00,
su incumplimiento.
La generalidad de los paquetes estadísticos suelen ofrecer los valores de W acom-
pañados de la probabilidad asociada (valor p), para comprobar la hipótesis nula que
los datos se ajustan a una distribución normal. Cuando el valor de W es pequeño, pró-
ximo a 0,0, así como el valor de p, se rechaza la hipótesis nula de que los datos se ha-
llen normalmente distribuidos.
La comprobación del supuesto de normalidad también puede hacerse con el es-
tadístico D de Kolmogorov-Smirnov. Pero, únicamente cuando se analice un tamaño
muestral elevado. Con este segundo estadístico de comprobación, la hipótesis nula de
normalidad se rechaza a la inversa que con el anterior: para valores elevados de D (y
no bajos), o un valor pequeño de p.
el Ejemplo DE COMPROBACIÓN DEL SUPUESTO DE NORMALIDAD

MEDIANTE ESTADÍSTICOS
La comprobación del supuesto de normalidad no se ha limitado al análisis de los gráficos

de residuos. También se ha acudido a estadísticos que describan la forma de la distribución,
en qué medida coincide o se distancia de la curva normal. Como la muestra analizada supera
las 50 unidades, el programa SPSS no calcula los valores correspondientes al estadístico de
Shapiro-Wilks. Los valores de normalidad que ofrece son los valores D de Kolmogorov-Smir-
nov, con una corrección de la significatividad de la normalidad de Lilliefors. Esta corrección
es de utilidad cuando se aplican estimaciones muestrales y se desconocen la media y la va-
rianza poblacionales. Los valores D figuran con sus grados de libertad respectivos. Éstos son
iguales al número de casos válidos (o con respuesta) en la variable concreta analizada.
Atendiéndonos a los datos que figuran en la tabla anexa puede observarse que, a ex-
cepción de dos variables principales (“vecino marroquí” y “regularizar a inmigrantes”), que pre-
sentan valores D próximos a *,5”, la generalidad de las variables se sitúan por debajo de es-
te valor. Especialmente, las variables “edad” (,097), “ideología política” (,139) y “simpatía hacia
el marroquí” (,147), con valores D próximos a O. Lo que significa su proximidad con la curva
normal. Pero, la prueba de significatividad efectuada informa de lo contrario. Los niveles de
significación de Lilliefors son, en todas las variables, “,000”. Lo que supone el rechazo de la
hipótesis nula de normalidad en todas las variables consideradas para el análisis. Esta
conclusión no concuerda con la inspección anterior de los datos, aunque era de prever por
el tamaño de la muestra de análisis.
Es sabido que en muestras grandes (superiores a 1.000 unidades) lo más habitual es que
las pruebas de significatividad lleven al rechazo de la hipótesis nula. Y, dado que el tamaño
muestral se halla presente en su cálculo (los grados de libertad), era de esperar esta no
coincidencia en los resultados. Incluso entre los valores D y su significatividad correspondiente.
Como Hair et al. (1999: 65) afirman: “El investigador debería siempre recordar que los tests de
significación son menos útiles en muestras pequeñas (menores de 30) y muy sensibles para
grandes muestras (superiores a 1.000 observaciones)”. Asimismo, Tabachnick y Fidell (1989)
desaconsejan el uso de las pruebas de significatividad en la comprobación del supuesto de nor-
malidad cuando la muestra sea grande. Los estadísticos de normalidad muestran adecuación
en muestras pequeñas o moderadas, pero no en tamaños muestrales elevados como el aquí
analizado. Además, observan que “porque los errores típicos de tanto asimetría como curtosis
contienen N, con muestras grandes la hipótesis nula es probable que se rechace cuando exis-
ten sólo desviaciones pequeñas de la normalidad” —como sucede en los datos aquí analizados—.
A lo que añaden: “En una muestra grande, una variable con asimetría significativa (o curtosis)
con frecuencia no se desvía lo suficiente de la normalidad para hacer una diferencia realista en
el análisis. En otras palabras, con muestras grandes los niveles de significatividad de asimetría
y curtosis no son tan importantes como sus tamaños reales (peor cuanto más se distancien de
0) y apariencia real de la distribución” (Tabachnick y Fidell, 1989: 73-74).
Estas observaciones han ayudado a la interpretación de los resultados, a la no consideración
de la significatividad, al contar con un número de casos válidos mínimo, en la peor de las situa-
ciones (en la variable “leyes de inmigración”), de 1.713 unidades. La prueba de normalidad de Ko/-
mogorov-Smimov se ha contrastado con los estadísticos descriptivos de asimetría y curtosis y me-
diante los gráficos Q — Q normal para cada una de las variables consideradas.
Pruebas de normalidad?
Kolmogorov-Smirnov?
Estadístico gl Sig.
Simpatía marroquí ,147 2.183 ,000

Leyes inmigración ,208 1.713 ,000
Ideología política ,139 1.804 ,000
Sexo ,351 2.492 ,000
Edad ,097 2.492 ,000
Simpatía latinoamericano ,127 2.174 ,000
Número inmigrantes ,305 2.111 ,000
Regularizar inmigrante ,471 2.171 ,000
Entrada inmigrante ,346 2.288 ¿000
Partido racista ,385 2.237 ¿000
Casar con marroquí ,383 2.415 ¿000
Estudios ¿221 2.281 ,000
Ingresos ,240 1.793 ,000
Vecino marroquí ,489 2.468 ,000
Inmigrante delincuente ,378 2.138 ,000
a Corrección de la significación de Lilliefors.

a) b)
Gráfico Q-Q normal de leyes inmigración Gráfico Q-Q normal de ideología política
3 3
E D
2 D 2-
D
14 14
o
3 Sy 7
hu
e
o (0
Uv
o
o
o
0,
El - 14
E E
he
O O
Z2 T T T T T Z.-2 T T T
0 1 2 3 4 5 6 0 2 4 6 10 12
Valor observado Valor observado
c) d)
Gráfico Q-Q normal de vecino marroquí Gráfico Q-Q normal de ingreso
25 3
o
o o
2,04 2-2
15- A
14
310- 3
E y
o v 04
OUv 5- o
13)
a 00 = E
-1 y
o O o
Z-5 1 T T T T T 2 n—— T T T
5 10 15 20 25 30 35 40 45 200000 0 200000 400000 600000 800000 10000(X
e) f)
Normal gráfico Q-Q de vecino marroquí Normal gráfico Q-Q de ingresos
1,0 13,5
o
13,04 o
8 y
D 12,5 -
3 6- o 212.07
z E
7
aMn 4-7 011,5
oYN +
a 1104
3 2. 3
É D
E1054 0
Z.0,0 T T T T T T T Z.10,0 T T T
2 00 2 4 6 8 10 12 14 10 11 12 13 14
Transformaciones: log natural
Como son muchas las variables analizadas, se han seleccionado gráficos Q — Q que
muestran ajuste de la variable a la distribución normal y otros que muestran desajuste. Los
gráficos Q — Q normal (o gráficos de cuantil-cuanti son similares a los gráficos P — P, pero
aplicados a variables individuales. Ayudan a identificar salidas de la normalidad no para el con-
junto de las variables, sino en cada una de las variables de interés. Las puntuaciones figuran
igualmente ordenadas y se comparan los valores observados para cada caso con el esperado
bajo el supuesto de normalidad. Los gráficos a) y b) ejemplifican una buena corresponden-
cia de las variables con la distribución normal. La mayoría de los puntos coinciden con la dia-
gonal, siendo mínimas las desviaciones (debidas a procesos aleatorios). En cambio, los grá-
ficos Cc) y d) muestran discordancia con la distribución normal. Corresponden a las variables
“vecino marroquí” e “ingresos”. Éstas son, precisamente, las dos variables con mayores ni-
veles de asimetría (“2,677” y “2,824” con un error típico de “,049” y “,058”, respectivamente.
Recuérdese que el error típico de asimetría es una medida de la extensión a la que la asi-
metría puede variar como una función del tamaño de la muestra) y de curtosis (“6,528” y
“12,622”, con errores típicos de “,099” y “,116”). Se trata, en ambos casos, de distribuciones
asimétricas a la derecha (la mayoría de los valores se sitúan a la izquierda de la media) y lep-
tocúrticas (demasiados casos en el centro de la distribución), especialmente la variable “in-
gresos”. Las demás variables se distancian menos de la distribución normal, con valores de
asimetría y curtosis por debajo del valor de referencia “+,80” que expresa una asimetría (po-
sitiva o negativa) y curtosis importante.
Para comprobar si la introducción de una transformación en dichas variables pudiese co-
rregir su desviación de la normalidad, se procede a su transformación logarítmica al estimarse
importante su desviación de la normalidad (curtosis y asimetría positiva severa). Los gráficos
e) y f) corresponden a los gráficos Q — Q normal con las variables transformadas a sus lo-
garitmos naturales. Si se comparan ambos gráficos con los habidos previo a la transforma-
ción logarítmica de las variables (gráficos c) y d)), puede observarse que dicha transfor-
mación no resuelve la no-normalidad en la variable “vecino marroquí”, aunque sí en la variable
“ingresos”, al quedar la nube de puntos prácticamente ajustada a la diagonal. Lo que lleva a
considerar esta última transformación en la solución de regresión. Una explicación posible an-
te este dispar efecto de la transformación de las variables es lo ya observado por Afifi y Clark
(1990), que la efectividad de la transformación, al inducir normalidad, aumenta en variables
cuya desviación típica es grande en relación con su media. La media de la variable “ingresos”
es 143.991 pesetas al mes, siendo la desviación típica de 105.233 pesetas. En cambio, la me-
dia de la variable “vecino marroquí” es 1,27 con una desviación de ,672.
e Los remedios más aplicados ante el incumplimiento del supuesto de normalidad

multivariable son los siguientes:
a) La transformación logarítmica de la variable dependiente (log Y), sobre todo,

cuando la distribución de los residuos muestra asimetría positiva severa. Si di-
cha asimetría es mediana, puede aplicarse la raíz cuadrada (vY).
b) La transformación cuadrada, si la asimetría es negativa.
c) También puede optarse por la transformación inversa, cuando la distribución de
los residuos muestra un incumplimiento grave del supuesto de normalidad.
No obstante, Nourisis (1986) advierte que el estadístico “E”, empleado en la com-

probación de hipótesis de significatividad del modelo de regresión en su conjunto,
suele ser bastante insensible a las salidas “moderadas” de la normalidad. Por ello re-
comienda adoptar alguno de los remedios referidos sólo cuando el incumplimiento
del supuesto de normalidad sea importante. Afifi y Clark (1990: 67) proponen que las
transformaciones para alcanzar normalidad no se lleven a cabo “si la desviación típica
dividida por la media es inferior a '/,”. “Las transformaciones son más efectivas al inducir
normalidad cuando la desviación típica de la variable no transformada es grande rela-
cionada con la media” (como sucede con la variable “ingresos” aquí analizada).
En caso de optar por la transformación, el análisis de regresión ha de realizarse con
los datos transformados. Los resultados pueden compararse con aquéllos obtenidos
con los datos no alterados. De esta forma puede observarse la ganancia adquirida con
la transformación.
1.1.7. Homocedasticidad
Para que la relación de las variables independientes con la dependiente pueda medirse
con rigor, se precisa que la varianza de los valores de la variable dependiente sea igual en
cada valor de las variables independientes (o predictoras). Esto se conoce como homo-
cedasticidad o igualdad de las varianzas de los términos de error residual en la serie de va-
riables independientes. La variable dependiente ha de mostrar niveles iguales de varianza
en los distintos valores de las variables independientes. En cambio, si la variabilidad en los
términos de error de las distintas variables independientes no es constante, se dice que los
residuos son heterocedásticos. Ello significa que su magnitud (de los residuos) aumenta o
disminuye en función de los valores que adopten las variables independientes, o según cuá-
les sean los valores predichos. La varianza de la variable dependiente se concentra en unos
valores concretos de las variables independientes, lo que provoca que la predicción del va-
lor de la variable dependiente sea mejor (de existir heterocedasticidad), no en todos, si-
no sólo en determinados valores de las variables independientes.
Aunque el supuesto de homocedasticidad es uno de los que más se incumplen ha-
bitualmente (Hair et al. 1992; 1999), en el análisis de regresión lineal debe valorarse.
Para que el análisis de la relación de dependencia sea correcto, la varianza de la va-
riable dependiente no ha de concentrarse en unos valores determinados de las varia-
bles independientes. Ello no sólo ocasiona diferencias en la predicción del valor de la
variable dependiente, sino que en general se relaciona con la obtención de pruebas de
significatividad (mediante los estadísticos “t” y “E”) cuyos resultados sean incorrectos.
La posibilidad de que esto acontezca es mayor cuando se analizan datos seccionales (o
transversales) que longitudinales; por ejemplo, en una encuesta convencional. Como
Gujarati (1988: 319) observa: “En datos seccionales, se suele tratar con miembros de
una población en un punto determinado en el tiempo, tales como consumidores in-
dividuales o sus familias, empresas, industrias, o subdivisiones geográficas, tales como
estados, países o ciudades, etc. Lo que es más, estos miembros pueden ser de diferentes
tamaños, tales como empresas pequeñas, medias o grandes o renta alta, media o baja.
En los datos de series temporales, por otro lado, las variables tienden a ser de ordenes
similares de magnitud porque generalmente se recogen los datos para la misma enti-
dad a lo largo de un período de tiempo”.
La figura 1.3 incluye situaciones de homocedasticidad a) y heterocedasticidad b) pa-
ra un modelo de regresión simple. Incluye la probabilidad condicional de la variable
dependiente (Y) para valores seleccionados de la variable independiente (X). Como
puede observarse, la homocedasticidad se da cuando la varianza condicional de Y per-
manece constante, indistintamente de los valores que tome la variable independiente.
Si, por el contrario, la varianza no permanece constante, sino que aumenta conforme
se incrementa el valor de la variable independiente se habla de heterocedasticidad. La
figura 1.3b ilustra esta situación. En ella puede observarse como la varianza de los tér-
minos de error se halla positivamente correlacionada con la variable independiente. La
distribución pasa de ser leptocúrtica a cada vez más platicúrtica.
La homocedasticidad suele relacionarse con el supuesto de normalidad. De hecho
se observa que “cuando el supuesto de normalidad muitivariable se satisface, las re-
laciones entre las variables son homocedásticas” (Tabachnick y Fidell, 1989: 82). En ge-
neral, la heterocedasticidad es más probable que acontezca cuando se da alguna o va-
rias de las situaciones siguientes:
a) Se incumple el supuesto de normalidad.

b) Las variables no se encuentran directamente relacionadas.
c) Algunas de las variables son asimétricas mientras que otras no lo son.
d) En determinadas variables independientes, las respuestas se concentran en un
número limitado de valores.
Proba- Proba-
bilidad bilidad
condi- condi-
cional cional
de Y A de Y Y
dado dado
Xx Xx
Xx Xx
a) Términos de error homocedácticos b) Términos de error heterocedácticos
Figura 1.3. Homocedasticidad y heterocedasticidad.
Berry y Feldman (1985: 73) destacan tres situaciones en las cuales la heteroce-
dasticidad se convierte en problema:
a) Cuando la variable dependiente está medida con error, y la cantidad de error

varía con el valor de la variable independiente. Por ejemplo, la encuesta. En ella,
la unidad de análisis más habitual es el individuo y algunos de ellos pueden

aportar una información más adecuada que otros.
b) Cuando la unidad de análisis es un “agregado” y la variable dependiente la for-
ma un promedio de valores para los objetos individuales que componen las uni-
dades agregadas. Por ejemplo, el nivel de renta media en alguna unidad agre-
gada. Si el número de individuos seleccionados, en cada unidad agregada,
para determinar el nivel de renta media, difiere a través de las unidades, la ade-
cuación con la que está medida la variable dependiente también variará.
Los niveles de renta medios estimados a partir de una muestra grande de in-
dividuos suelen caracterizarse por un menor error de medición que las medias ob-
tenidas de una muestra pequeña. Esta aseveración se deduce del conocimiento de
que la varianza de la distribución de una media muestral decrece cuando el tamaño
de la muestra aumenta (Wonnacott y Wonnacott, 1972: 120-122).
c) La heterocedasticidad también puede preverse en las situaciones donde existe
variación significativa en la variable dependiente. Berry y Feldman (1985) citan,
como ejemplo ilustrativo, un modelo en el que la renta anual de la familia sea
la variable independiente y sus gastos anuales en vacaciones la dependiente. Lo
más razonable es esperar que en las familias con rentas bajas el gasto medio en
vacaciones sea igualmente bajo. La variación en los gastos en todas las familias
es, en consecuencia, bastante pequeña. Debido a que las familias de rentas ba-
jas han de gastar el grueso de su renta en cubrir las necesidades básicas, dejando
muy pocos fondos para gastar en vacaciones. Pero, cuando la renta familiar au-
menta, el gasto medio destinado a vacaciones no aumenta necesariamente. Lo
que resulta en variación importante en los valores de la variable dependiente.
Esta situación se conoce como heterocedasticidad.
La heterocedasticidad a veces se debe a errores de medición. En otras ocasiones es con-

secuencia de la existencia de una interacción importante entre una variable independiente
incluida en el modelo con otra ausente del mismo. Siguiendo el ejemplo de Berry y Feld-
man (1985: 75), “podría argumentarse que la cantidad de gasto de una familia para va-
caciones está determinada no sólo por la renta de la familia, sino también por la satis-
facción que sus miembros obtienen de las vacaciones, y el nivel de satisfacción y de renta
puede esperarse que interactúen al determinar los gastos en vacaciones: entre las familias
que obtienen poca satisfacción de las vacaciones podemos esperar que la renta tenga un
débil efecto en los gastos en vacaciones, pero cuando la satisfacción obtenida aumenta, se
puede esperar que la renta tenga un efecto más fuerte en el nivel de gastos”.
Al igual que la normalidad y otros supuestos de regresión, la heterocedasticidad
puede detectarse mediante un gráfico de residuos. La figura 1.4 incluye gráficos de re-
siduos estandarizados en distintas situaciones de homocedasticidad. En el eje vertical
se sitúan los residuos y en el horizontal los valores de la variable independiente. Ha-
brá heterocedasticidad, cuando se observe aumento o disminución en los residuos con
los valores de la variable independiente. Berry y Feldman (1985: 80) diferencian las tres
situaciones expuestas en la figura 1.4.
a
DI
a) Homocedasticidad con b) Homocedasticidad con c) Heterocedasticidad

una muestra grande una muestra pequeña (varianzas de error
crecientes)
Figura 1.4. Gráficos de residuos estandarizados para homocedasticidad.
Si el tamaño muestral es elevado, los residuos deberían repartirse por igual a lo lar-
go de los valores de la variable independiente, como muestra la figura 1.4a, en dos
líneas horizontales paralelas alrededor de 0, que es la media residual. En muestras pe-
queñas, por el contrario, la varianza de los residuos de regresión no es idéntica en to-
dos los valores de la variable independiente, aun habiendo homocedasticidad perfec-
ta. La varianza será mayor en los valores próximos al centro de la distribución que en
los extremos, como puede observarse en la figura 1.4b. Cualquier gráfico que se aleje
de las dos variedades mencionadas muestra la violación del supuesto de homocedas-
ticidad, como indica la figura 1.4c. En ella puede verse cómo la varianza de los residuos
decrece con el aumento del valor de la variable independiente.
Cuando se analiza la incidencia conjunta de varias variables independientes se ob-
tienen gráficos a modo de los expuestos en la figura 1.5. Se trata de gráficos de residuos
(preferiblemente estudentizados o estandarizados) contra los valores predichos de la va-
riable dependiente (L); es decir, la combinación de las variables independientes que for-
man la ecuación de regresión. En esta modalidad gráfica, los aumentos o disminuciones
de los residuos de acuerdo con el valor predicho de la variable dependiente (Y) expresan
incumplimiento del supuesto de homocedasticidad (figuras 1.5b y 1.5c). De los tres tipos
de gráficos quizás sea la figura 1.5c la que refleje la situación de heterocedasticidad más ha-
bitual. Este gráfico presenta una forma triangular. La figura 1.5b en forma de diamante,
que también expresa heterocedasticidad, se da en situaciones de mayor variación de re-
siduos hacia el centro de la distribución de Y que en los extremos.
u +3
+2
+1 LS
o hxGá pe
-1
—2
3
a) Homocedasticidad b) Heterocedasticidad c) Heterocedasticidad
Figura 1.5. Gráficos de residuos estudentizados para homocedasticidad.
El supuesto de homocedasticidad también puede comprobarse con la ayuda de es-

tadísticos. Entre los más aplicados se encuentran los tres siguientes:
a) El test de Levane. Propuesto en 1960 por Levane en un artículo titulado “Ro-

bust tests for equality of variances”. De su título puede deducirse la finalidad
de la prueba: aplicar un análisis de varianza sobre el valor absoluto de las pun-
tuaciones de desviación. Se trata de medir la igualdad de varianzas para un úni-
co par de variables (simples o compuestas). Y se comprueba que su robustez
mejora cuando se sustituyen las desviaciones alrededor de la mediana (1Y,,-=Y D
por las desviaciones alrededor de la media (1Y; - Y )). La significatividad se
comprueba mediante el estadístico “F”. Éste se aplica para determinar si la hi-
pótesis nula (H,) de homogeneidad de la varianza debe rechazarse. Esta hipótesis
se rechaza cuando el estadístico de Levene es significativo (habitualmente, p < ,05).
Lo que supone el incumplimiento del supuesto de homocedasticidad.
De acuerdo con Hair et al. (1999: 168), el uso de esta prueba (de Levene)
“es particularmente recomendable porque es el que menos queda afectado por
desviaciones de la normalidad, otro de los problemas que ocurren con fre-
cuencia en la regresión”.
b) El test de Goldfield y Quant. Propuesto en 1965 por los autores susodichos, con-
siste en la reordenación de las “n” observaciones de la muestra de forma cre-
ciente, de acuerdo con la variable independiente que se sospeche que covariará
con la varianza del término de error. Después se elimina un 25% de los casos del
centro de la distribución. Igual número se elimina también de los casos que se
hallan por debajo y por encima del medio de la distribución. Requiere, en con-
secuencia, la división de las observaciones en dos grupos. Para cada uno de ellos
se realiza un análisis de regresión OLS. Después se comparan sus respectivas su-
mas de residuos cuadrados (RSS) en relación con sus grados de libertad (véa-
se subapartado 1.5.3). Si el cociente entre ambos muestra ser significativo, de
acuerdo con el estadístico de comprobación F, puede afirmarse, al nivel de sig-
nificatividad elegido, el incumplimiento del supuesto de homocedasticidad.
Esta prueba estadística muestra adecuación a tamaños muestrales pequeños.
También, cuando se asume que la varianza heterocedástica se encuentra positiva-
mente relacionada con una de las variables predictoras en el modelo de regresión.
c) La d de Durbin-Watson. Este estadístico puede utilizarse igualmente en la
comprobación del supuesto de homocedasticidad, además de en la compro-
bación del supuesto de independencia de los términos de error. Esta prueba se
aplica a residuos correlacionados serialmente, como se muestra en el suba-
partado 1.1.9. En la comprobación del supuesto de homocedasticidad su valor
ha de estar comprendido entre 1,5 y 2,5 para poderse afirmar que existe ho-
mocedasticidad (Frei y Ruloff, 1989).
A estos tres procedimientos de comprobación principales cabe añadir otros, aun-

que de uso menos extendido. Destacan, por ejemplo, la prueba de Park, la de Glejser
y la prueba de correlación de rango de Spearman. Una información detallada de las

mismas se encuentra en Gujarati (1988).
—| EJEMPLO DE COMPROBACIÓN DEL SUPUESTO DE HOMOCEDASTICIDAD. |—

El supuesto de homocedasticidad se ha comprobado, primero, para el modelo de re-
gresión en su conjunto; y, segundo, en cada variable predictora por separado. Para su com-
probación se ha acudido no sólo a estadísticos, sino también a gráficos de residuos. No se
olvide que la recomendación más extendida es el uso preferente de gráficos (Hair et al. 1992;
1999). Particularmente, aquellos que incluyen residuos (diferencias entre los valores de Y ob-
servados y los predichos a partir del modelo de regresión —véase subapartado 1.1.10—), en
especial, en el análisis de regresión lineal, caracterizado por incluir variables métricas.
En la comprobación conjunta del supuesto de homocedasticidad se observa, nuevamente,
discordancia entre lo dicho por estadísticos de comprobación y lo reflejado en los gráficos de
residuos. Atendiendo a lo indicado en el estadístico d de Durbin-Watson. cuyo valor es 1,819,
puede afirmarse, de acuerdo con lo dicho por Frei y Ruloff (1989), que el supuesto de ho-
mocedasticidad se satisface. El valor del estadístico d se halla comprendido en el rango de
valores que define el cumplimiento del supuesto de hornocedasticidad. de 1,5 a 2,5. Este re-
sultado ya se preveía al haberse constatado, con anterioridad, la práctica correspondencia
de la distribución de los datos con la curva normal.
La misma conclusión no puede extraerse, sin embargo, de la observación del gráfico de re-
siduos conjunto, que incluye los residuos estudentizados respecto a los valores tipificados de
la variable dependiente predicha a partir del modelo de regresión expuesto en el gráfico a). Pa-
ra que el supuesto de homocedasticidad se satisfaga plenamente, la nube de puntos no debe
mostrar ninguna pauta creciente o decreciente. La banda que agrupa a los residuos ha de ser
igual en amplitud en todos los valores de la variable dependiente predicha y en torno a la me-
dia residual (0), como se muestra en la figura 1.5.a. Al haberse elegido los residuos estuden-
tizados, el 95% de los mismos debería caer en el intervalo que va de —2 a +2 para que la for-
ma del modelo fuese correcta. La mayoría de los puntos en el gráfico de dispersión a) se
a) Gráfico de dispersión
Regresión residuo estudentizado
Regresión valor pronosticado tipificado

concentran en dicho intervalo, aunque en menor proporción de la recomendable. Además, se

observa que la nube de puntos tiene igual amplitud, aunque muestra una continua tendencia li-
neal decreciente. Si bien ésta no se ajusta plenamente a situaciones claras de heterocedasti-
cidad, como las expuestas en las figuras 1.5b y 1.5c. En suma, de la observación de dicho grá-
fico no puede concluirse el cumplimiento satisfactorio del supuesto de homocedasticidad.
Para mejorar el ajuste del modelo, podría probarse algún procedimiento de regresión altema-
tivo, como el análisis de regresión de mínimos cuadrados ponderados. A tal fin, se escogerían
pesos que fuesen proporcionales a la inversa de la varianza (subapartado 1.6.2).
Aunque distintos autores (Tabachnick y Fidell, 1989; Afifi y Clark, 1990) advierten que la
existencia de heterocedasticidad no invalida el análisis de regresión lineal, aunque lo debi-
lite, es bueno buscar algún remedio a la misma. Afifi y Clark (1990: 116), por ejemplo, ob-
servan que “el supuesto de homogeneidad de la varianza no es crucial para la recta de mí-
nimos cuadrados. De hecho, las estimaciones de mínimos cuadrados de a y b son insesgadas
si o no el supuesto es válido”.
El análisis por separado de las variables predictoras muestra el pleno cumplimiento del su-
puesto de homocedasticidad en variables continuas como “edad” o “ingresos” y en variables fic-
ticias como “sexo” o “identificación del inmigrante con delincuente”, por ejemplo. Esta conclusión
se extrae tanto de la aplicación del estadístico de Levene como de la observación de los gráfi-
cos de dispersión correspondientes. Véase el gráfico b), de la variable “edad”. Este gráfico ejem-
plifica como ha de ser el gráfico de dispersión para mostrar homocedasticidad en una variable
continua. La varianza de la variable dependiente ha de ser constante en los distintos valores de
la variable independiente. El gráfico c) (la variable “sexo”, dicotomizada en 1 varón y O mujer) se
adecua, en cambio, a la situación de análisis de una variable ficticia.
b) c)
, 6
4- » q .
Ñ
2 =] al A
3 04 5
Ax %
3a | ti
=2 A
o
a A, A o
o a 434 a o
5 DU
5
uN $“-
> o an ón sh 100. >? T T T T T T
2 00 2 4 6 8 10 12
edad
sexo
Por último, los gráficos d) y e) para las variables “simpatía hacia latinoamericanos” y “es-
tudios”, respectivemente, no muestran la satisfacción del supuesto de homocedasticidad. Si se
atiende, además, a lo dicho por el estadístico de Levene, que figura a continuación, el incum-
plimiento del supuesto de homocedasticidad es evidente en ambas variables. Recuérdese que
en la prueba de Levene (aplicada para la comprobación de la homocedasticidad en un único par
de varianzas) el rechazo de la hipótesis nula de igualdad de varianzas se produce cuando el va-
lor de este estadístico es significativo (p < ,05), a decir por la prueba de significatividad de F. En
ambas variables la significatividad del estadístico es inferior a dicho referente, lo que supone el
rechazo de la hipótesis nula. Se está ante variables que incumplen el supuesto de homoce-
dasticidad. La varianza de la variable dependiente difiere en los distintos valores de las dos va-
riables predictoras. Para la interpretación de los gráficos téngase además presente las unida-
des de medición de ambas variables (expuestas en el subapartado 1.1.3).
d) e)
6 6
4 4 a 4 - a
a o
: o o o B o o . a ú
2 7 8 a ¡ _ e 2: 2 o a
3 o > > B ; 3 9
304 1 Pf 3 07
3 pH * | 8o 3
227 .
pr
h Ea y $
o
-a : . .
Q
a a
:
ao Eo >
3 A + 3 a 4 3
E o
3 =
40 T T T T n- VAT T T T
—2 0 2 4 6 8 10 12 0 1 2 3 4 5 6
simpatía latinoamericano estudios
En la tabla A figuran los valores del estadístico de Levene, junto a su significatividad, en

distintos supuestos: datos sin transformar o transformados (cuando las características y el nú-
mero de casos en los distintos valores de ambas variables lo permite), en busca de alcanzar
igualdad en las varianzas. Las transformaciones realizadas han sido tres: la logarítmica, la re-
cíproca y la transformación de raíz cuadrada. Mediante el estadístico de Levene se compara,
por separado, la variabilidad de la variable dependiente (“simpatía hacia los norteafricanos:
marroquíes...”) en los distintos valores de cada variable independiente. Aunque el programa
Tabla A
Datos sin Transformación | Transformación | Transformación

transformar logarítmica recíproca raíz cuadrada
Levene Sig. | Levene Sig. Levene Sig. Levene Sig.
Leyes inmigración
Media 1,815 ,053 | 3,099 ,001 8,114 ,000 1,407 ,171
Mediana 1,978 ,032 | 1,629 ,094 3,500 ,000 1,144 ,325
Ideología política
Media 2,076 ,024 | 2,270 ,013 2,4992 ,006 2,093 —,023
Mediana 1,756 ,065 | 1,501 ,135 1,448 ,155 1,588 ,106
Sexo
Media 3,602 ,000 3,602 ,000
Mediana ,678 ,746 ,678 ,746
(a...)
Datos sin | Transformación | Transformación | Transformación

transformar logarítmica recíproca raíz cuadrada
Levene Sig. | Levene Sig. | Levene Sig. Levene Sig.
Edad
Media 1,136 ,331 ,868 ,563 1,373 ,189 ,975 ,464
Mediana 1,073 ,379 1626 ,792 1977 ,462 ,726 ,700
Simpatía latinoamericano
Media 25,036 ,000 29,578 ,000
Mediana 19,095 ,000 19,536 ,000
Regularizar inmigrantes
Media 22,144 ,000 22,144 ,000
Mediana 5,729 ,000 5,729 ,000
Entrada inmigrantes
Media 3,392 ,000 | 8,114 ,000 14,518 ,000 5,232 ,000
Mediana 1,689 ,080 | 3,129 ,001 4,293 ,000 2,381 ,009
Partido racista
Media 4,128 ,000 | 6,243 ,000 8,304 ,000 5,127 ,000
Mediana 2,402 ,008 | 2,543 ,005 2,707 ,003 2,461 ,007
N.* inmigrantes
Media 3,629 ,000| 2,214 ,015 6,365 ,000 2,502 ,006
Mediana 1,941 ,037 | 1,888 ,043 2,430 ,008 1,794 ,058
Casar con marroquí

Media 25,890 ,000 | 32,494 ,000 39,976 ,000 28,622 ,000
Mediana 9,704 ,000 | 8,940 ,000 8,292 ,000 9,318 ,000
Estudios
Media 3,099 ,001 | 1,056 ,394 2,576 ,005 1,741 ,068
Mediana 2,331 ,011 | 1,155 ,319 ,954 ,483 1,684 ,081
Ingresos
Media 4412 ,941 ,615 ,801 1,862 ,047 ¿3314 ,978
Mediana ,372 ,959 ,533 ,867 1,375 ,188 ,320 ,976
Vecino marroquí
Media 37,660 ,000 | 38,059 ,000 37,538 ,000 37,735 ,000
Mediana 18,686 ,000 | 15,921 ,000 13,112 ,000 17,437 ,000
Inmigrante delincuente
Media 4,096 ,000 4,096 ,000
Mediana ,837 ,593 ,837 ,593
Cavítulo 1: Regresión múltiple 47
SPSS (versión 10.0) facilita distintos valores del estadístico de Levene (basándose en la me-
dia, en la mediana, en la mediana y con los grados de libertad corregidos, y en la media re-
cortada), se ha decidido escoger, para simplificar la tabla, los valores de Levene corres-
pondientes a la media y a la mediana con los grados de libertad corregidos. De esta forma
puede comprobarse si realmente mejora su robustez, cuando se sustituyen las desviaciones
alrededor de la mediana por las desviaciones alrededor de la media.
De la lectura de la tabla puede concluirse que las desviaciones respecto a la mediana se
adecuan más, especialmente, en las variables ficticias, por las propias características de di-
chas variables (variables dicotómicas). Hecho este inciso, hay que decir que la significativi-
dad del estadístico de Levene es, en general, superior cuando su cálculo se realiza a partir
de la media, que cuando se basa en la mediana, aun ajustando por grados de libertad.
En siete de las catorce variables predictoras analizadas se incumple el supuesto de ho-
mocedasticidad, a decir por los resultados de la aplicación de esta prueba estadística. El valor
del estadístico de Levene es bastante significativo (p < ,05), lo que supone el rechazo de la hi-
pótesis nula de igualdad de varianzas. La varianza de la variable dependiente difiere en los dis-
tintos valores de las siguientes variables independientes: “simpatía hacia latinoamericanos”, “re-
gularización de inmigrantes”, “valoración de partidos de ideología racista”, “consideración del
número de inmigrantes”, “casarse con marroquí”, “estudios” y “tener por vecino a un marroquí”.
En la otra mitad de las variables la significatividad de este estadístico de comprobación
es inferior (p >,05), ya sea respecto de la media o de la mediana. Esto significa la aceptación
de la hipótesis nula. La varianza de la variable dependiente muestra constancia en dichas va-
riables: “leyes inmigración”, “ideología política”, “sexo”, “edad”, “entrada de inmigrantes”, “in-
gresos” e “identificación del inmigrante con delincuente”.
De las opciones barajadas para alcanzar la homocedasticidad en aquellas variables en
las cuales la varianza de la variable dependiente difiere, sólo parece lograrse en dos varia-
bles: “número de inmigrantes” y “estudios”. En la primera, la homocedasticidad puede lograrse
mediante la aplicación de una transformación de raíz cuadrada. En cambio, respecto a la va-
riable “estudios”, puede realizarse cualquiera de las tres transformaciones comprobadas. Si
bien, normalmente se prefiere la transformación logarítmica como se detalla a continuación.
Si con la ayuda de estos estadísticos y/o de los gráficos de residuos referidos se de-
tecta la existencia de heterocedasticidad, habrá que aplicar algún remedio que posibilite
la aplicación de la regresión lineal a los datos de interés. Las opciones posibles son va-
rias y dispersas: desde la aplicación de procedimientos de regresión distintos al estándar
de mínimos cuadrados ordinarios (OLS), hasta transformaciones de la variable de-
pendiente en busca de la estabilidad de la varianza.
a) Schroeder et al. (1986: 77) aconsejan el empleo del procedimiento de regresión

de mínimos cuadrados generalizados, para proporcionar pesos diferenciales a
las observaciones y, de esta forma, burlar sus efectos en las pruebas de hipótesis.
No obstante, son más los autores que se inclinan por el procedimiento de re-
gresión de mínimos cuadrados ponderados (WLS): Chatterjee y Price (1977: 49),
Afifi y Clark (1990: 116) o, más recientemente, Tacq (1997: 131), por citar al-
gunos. Mediante este último procedimiento de regresión (expuesto en el su-

bapartado 1.6.2) las estimaciones de los parámetros de regresión se realizan, co-
mo su nombre indica, minimizando una suma ponderada de los cuadrados
de los residuos. Esta suma se caracteriza porque los pesos son inversamente pro-
porcionales a la varianza de los errores. Por ejemplo, si la varianza es una
función lineal de X, el peso idóneo sería entonces 1/X.
b) Transformaciones de la variable dependiente en log Y, YY o en 1/Y, para lograr
la estabilidad de su varianza. Con los valores transformados se procede a
efectuar el análisis de regresión lineal.
Aunque estas transformaciones son defendidas por varios autores (como
Gunst y Mason, 1980: 239; o Tacq, 1997: 131), Afifi y Clark (1990: 158) opinan
que “las transformaciones de Y deberían evitarse cuando sea posible, porque
tienden a oscurecer la interpretación de la ecuación de regresión”. A este
respecto, Hair et al. (1992: 52) hacen las siguientes matizaciones:
1. Las frecuencias sugieren una transformación de raíz cuadrada.

2. Las proporciones son mejor transformadas mediante la transformación ar-
coseno. Una nueva variable que sea igual a dos veces el arcoseno de la raíz
cuadrada de la variable original.
3. El cambio proporcional se maneja mejor tomando el logaritmo de la va-
riable.
4. La heterocedasticidad no sólo se debe a un tipo de variable. También puede
resultar de la distribución de bien la variable independiente, bien la de-
pendiente. Con frecuencia esto se ve mediante una distribución de los re-
siduos en forma de cono. Si el cono se abre a la izquierda, toma la raíz cua-
drada. Si, por el contrario, se abre a la derecha, es preferible el inverso.
Respecto a las transformaciones de Y, Nourisis (1986) pone el énfasis,

principalmente, en cómo se presente la varianza o desviación de Y:
1. Cuando la varianza sea proporcional a la media de Y, para un valor X dado,

es mejor utilizar la raíz cuadrada de Y, siempre y cuando todos los valores
de Y; sean positivos.
2. Cuando la desviación típica sea proporcional a la media, prueba la trans-
formación logarítmica.
3, Cuando la desviación típica sea proporcional al cuadrado de la media, em-
plea el recíproco de Y.
4. Cuando Y sea una proporción o razón, nuevamente la transformación ar-
coseno se presenta como la mejor opción para estabilizar la varianza de Y.
Por último, hay que destacar la recomendación dada al efecto por McCullagh y Nel-
der (1989). Estos autores advierten de que la heterocedasticidad puede ser el resulta-
do del incumplimiento de los supuestos de normalidad y de linealidad. Por lo que, pue-
de reducirse, e incluso eliminarse, si antes se ha aplicado alguna corrección a ambos in-

cumplimientos. Pero esto no significa que la heterocedasticidad se resuelva con la apli-
cación de las mismas correcciones de la normalidad y/o linealidad. Así se observa que
para datos de frecuencia, que típicamente tienen errores de Poisson, una transfor-
mación de Y!? aproxima heterocedasticidad (o varianza constante); Y23 aproxima
normalidad, y utilizar log Y provoca aditividad en los efectos sistemáticos.
1.1.8. Ausencia de colinealidad entre las variables independientes
Para que se puedan medir los efectos concretos de cada variable independiente en
la dependiente es imprescindible la ausencia de colinealidad, es decir, de correlación en-
tre las variables independientes incluidas en el modelo de regresión. La existencia de co-
rrelación elevada entre dos o más variables independientes (multicolinealidad) repercute,
de manera directa, en los errores típicos de los coeficientes de regresión de dichas variable.
Éstos se ven indebidamente incrementados, lo que provoca que la estimación de los coe-
ficientes sea menos precisa (coeficientes infiables), con el consiguiente aumento de los
intervalos de confianza (a este respecto véase subapartado 1.4.2). El modelo de regresión
puede ser significativo en su conjunto (en virtud de la razón “F”, que mide la significa-
tividad del coeficiente de correlación cuadrada múltiple o coeficiente de determinación
R? —véanse subapartados 1.5.1 y 1.5.3-) y, en cambio, no ser significativos los coeficientes
de regresión individuales de las variables muy colineales que lo componen.
La colinealidad elevada provoca, en suma, un aumento en la variabilidad de los
coeficientes de regresión estimados (que informan de la cantidad de variación de Y por ca-
da unidad de variación de X,, manteniendo constante las demás variables independientes
en el modelo). Este aumento del error típico de coeficiente suele suponer un incremento
en la varianza explicada de Y (R?). Pero, al mismo tiempo, aumenta el error de estimación,
con la pérdida consiguiente de significatividad estadística de los coeficientes de regresión
de las variables muy colineales. Esta significatividad se mide con el estadístico “t” de
Student, que se obtiene del cociente entre el coeficiente estimado y el error de estimación.
De manera que, cuanto mayor sea el error de estimación, menor es el valor empírico de “t”,
lo que determina la no significatividad estadística del coeficiente de regresión estimado.
A diferencia de otros supuestos de regresión, la multicolinealidad afecta no tanto
a la obtención del modelo (en la vertiente descriptiva), como a sus posibilidades de in-
ferencia: la generalización de los estadísticos muestrales a los correspondientes pa-
rámetros poblacionales.
Pero la multicolinealidad no debería concebirse como algo que o “existe” o “no exis-
te”. “La multicolinealidad existe en grados” (Berry y Feldman, 1985: 40). “Está presen-
te en todos los análisis de regresión, ya que es improbable que las variables independientes
estén totalmente no correlacionadas” (Schroeder et al. 1986: 76). Sirvan como ejemplo,
variables muy habituales en la investigación social, como son las variables “nivel educa-
tivo” y “ocupación”. Ambas variables actúan como indicadores habituales de la posición
social de un individuo. Sus valores se encuentran muy interrelacionados entre sí. Lo que
S0 Análisis multivariable. Teoría y práctica en la investigación social
eleva la correlación (colinealidad) entre ambas variables. Dicha correlación se convierte

en problema sólo cuando es elevada; es decir, cuando una de las variables independien-
tes comparte con otra (u otras) más de la mitad de su variabilidad. La multicolinealidad
es perfecta si la variabilidad de dicha variable puede ser perfectamente predecida a
partir del conocimiento de otras variables predictoras. Al no aportar ninguna información
única al modelo de regresión, debería considerarse su no incorporación al modelo de re-
gresión porque afectaría negativamente al cálculo de la ecuación de regresión.
La multicolinealidad puede detectarse en distintas fases del análisis de regresión:
en los preámbulos, en la matriz de correlaciones, durante su ejecución, en los coeficientes
de regresión y en sus errores típicos correspondientes. También mediante los estadís-
ticos de tolerancia y el llamado factor de inflación de la varianza (FIV) y otros que a
continuación se detallan.
e La matriz de correlación muestra la correlación entre cada variable indepen-

diente, por separado, con la dependiente y, también, de las independientes en-
tre sí. Un coeficiente de correlación entre dos variables independientes igual a
0,0 indica ausencia completa de colinealidad. Mientras que una correlación
de 1,0, colinealidad perfecta. A partir de 0,60 suele considerarse la colinealidad
problemática. Y más, cuando la correlación supera el valor 0,80, que denota que
ambas variables se hallan muy correlacionadas.
Pese a estos referentes comúnmente aceptados, Berry y Feldman (1985: 42)
reconocen que “es muy difícil definir un valor de corte que siempre sea apro-
piado”. En muestras pequeñas, una correlación entre dos variables indepen-
dientes de 0,70 puede repercutir negativamente en la estimación de los coefi-
cientes. En muestras una correlación de 0,85 puede incluso afectar menos al
cálculo de la ecuación de regresión.
Por su parte, Wittink (1988: 89) matiza que “una correlación de 0,50 entre
dos variables predictoras tiene poco impacto en el error típico. Pero una co-
rrelación de 0,95 requiere casi tres veces tanta variación en X, (o tres veces el ta-
maño de la muestra) comparado con tener correlación cero. Con una correlación
de 0,99 requerimos casi siete veces tanta variación, o siete veces el tamaño de la
muestra”. Á partir de una correlación de 0,95 entre dos variables predictoras se
está, en consecuencia, ante un problema grave de colinealidad. Este valor de cor-
te es, no obstante, bastante elevado y se aleja del habitualmente propuesto co-
mo indicativo de colinealidad problemática: 0,60 (Tacq, 1997); o, al menos, del
valor 0,80 (Berry y Feldman, 1985; Hutcheson y Sofroniou, 1999).
En esta discusión de qué valor de correlación tomar como referente de co-
linealidad problemática, téngase también presente una limitación inherente a la
matriz de correlaciones. Esta sólo muestra las relaciones individuales entre ca-
da par de variables: independiente con independiente y de independiente con de-
pendiente. Si se quiere en cambio comprobar el grado de relación entre cada va-
riable independiente con las otras variables independientes, al mismo tiempo,
habrá que acudir a otros procedimientos.
e La existencia de multicolinealidad también puede detectarse durante el análisis,

cuando se observen errores típicos elevados en coeficientes de regresión de va-
riables que se espera sean importantes predictores de la variable dependiente.
La obtención de errores típicos inflados redunda en la pérdida de significativi-
dad estadística de los coeficientes de regresión, como ya se ha mencionado.
No obstante, hay que precisar que la existencia de errores típicos elevados no
siempre es indicativa de colinealidad elevada. Puede ser consecuencia de haber
estimado dicho coeficiente en un tamaño muestral pequeño y/o que la variable,
en la muestra analizada, tenga una elevada varianza. Ambos aspectos, relacio-
nados con los casos analizados, han de valorarse antes de atribuir, de forma au-
tomática, errores típicos elevados a la existencia de multicolinealidad.
e Un procedimiento alternativo de comprobar la existencia de multicolineali-
dad consiste en efectuar un análisis de regresión para cada variable indepen-
diente por separado. En cada ocasión, una de las variables independientes actúa
como variable dependiente. El resto continúa siendo independiente. Para cada
una se calcula una ecuación de regresión. Después se comparan los distintos co-
eficientes de determinación R?. Si el valor de éste se aproxima a 1,0, puede afir-
marse que la variable en cuestión presenta un grado muy elevado de multico-
linealidad con otras variables independientes. Un valor de R? igual a 0,0 expresa,
por el contrario, la total ausencia de multicolinealidad.
La detección del grado de multicolinealidad se considera más precisa si-
guiendo este tercer procedimiento que con la comparación de correlaciones bi-
variables, de dos variables por separado, mediante la matriz de correlación (Coo-
per y Weekes, 1983; Berry y Feldman, 1985; Menard, 1995). Ello se debe,
precisamente, a que se analiza de manera simultánea la correlación de cada va-
riable independiente con las demás independientes (mediante el valor de R?).
A favor de este procedimiento de detección de multicolinealidad también es-
tá la facilidad de su ejecución. La mayoría de los paquetes estadísticos propor-
cionan, entre sus varias opciones, la posibilidad de obtener el valor del coefi-
ciente R? múltiple para cada variable independiente, por separado. Ya sea
gracias al estadístico llamado Tolerancia, ya mediante su recíproco, el Factor de
Inflación de la Varianza (FIV).
a) La tolerancia se define como la cantidad de variabilidad de la variable inde-

pendiente que “no es” explicada por otras variables independientes. Su valor se
obtiene restando a 1 la proporción de la varianza de dicha variable independiente
que es explicada por las demás variables independientes o predictoras (R?,).
TOL, =1-R?
Donde “R?,” es la correlación múltiple cuadrada de la variable inde-
pendiente X, (considerada como dependiente) y las otras variables in-
dependientes.
TOL, tiene un rango de valores de 0,0 a 1 ,0. Un valor próximo a 1,0 de-
nota la ausencia completa de multicolinealidad: la variable X, no presenta nin-
guna correlación con el resto de variables predictoras. Un valor de toleran-
cia inferior a 0,20 es, en cambio, indicativo de un grado elevado de
multicolinealidad. Si el valor desciende a 0,10, la multicolinealidad es muy
alarmante y exige la adopción de alguna medida para reducirla. El valor 0,0
expresa multicolinealidad perfecta: la varianza de la variable X, está total-
mente determinada por los otros predictores.
En consecuencia, interesan valores de tolerancia elevados porque son in-
dicativos de una baja multicolinealidad. Cuando la colinealidad aumenta, el
valor de tolerancia disminuye. Lo que repercute en la peor estimación del
coeficiente de regresión, debido al incremento de su error típico.
b) El factor de inflación de la varianza (FIV, en inglés VIF) es el reverso de la
“tolerancia”. Su definición es la siguiente:
FIV, =TOL; =
Al ser inverso de tolerancia interesan valores de FIV, bajos. Cuanto más se

aproxime a 1,0 mejor. Un valor de FIV (o VIE) de 1,0 indica la inexistencia de
relación entre las variables predictoras. Valores superiores a 10,0 expresan mul-
ticolinealidad severa. En tolerancia el valor equivalente es 0,10, que exige una
actuación al respecto. No obstante, se recomienda adoptar alguna medida con
valores inferiores: un valor de FIV de 5 o más o de tolerancia de 0,2 o menos.
En general, los valores de ambos estadísticos de colinealidad coinciden,
cuando sólo hay dos variables independientes.
Antes de proceder al análisis de regresión, conviene especificar, en el pro-

grama informático que se utilice, el grado de multicolinealidad que se admite. Los
puntos de corte más usuales son 0,10 para tolerancia y su equivalente para
FIV: 10,0 (Afifi y Clark, 1990; Hair et al., 1992, 1996; Graybill e Iyer, 1994; Me-
nard, 1995). Ambos valores corresponden a una correlación múltiple cuadrada
superior a 0,90. Un nivel ya en sí bastante elevado, aunque inferior al aplicado,
por defecto, en la mayoría de los programas, salvo que se especifique lo con-
trario. En el programa SPSS, por ejemplo, el valor de tolerancia aplicado por de-
fecto para excluir una variable del análisis es 0,01. Este valor es demasiado ba-
jo ya que permite la incorporación, a la ecuación de regresión, de variables que
tienen hasta el 99% de su varianza determinada por otras variables previamente
incorporadas al modelo de regresión.
La aplicación de un procedimiento de incorporación de variables indepen-
dientes secuencial (o “por pasos”) como se verá en el subapartado 1.6.1-
permite comprobar la presencia de variables con elevado grado de colinealidad
de una forma alternativa, aunque menos rigurosa que la anterior. Consiste en ob-
servar si la incorporación de una nueva variable a la ecuación de regresión su-
pone una variación importante en el coeficiente de regresión de alguna (o al-
gunas) variables independientes previamente introducidas en la ecuación. La
entrada de una nueva variable suele provocar una variación en el valor de los
coeficientes de las variables incorporadas en pasos previos. Esta variación será
tanto mayor cuanto más correlacionada esté la variable con la recién incorpo-
rada al modelo. Si la correlación es baja, apenas hay variación en el valor del coe-
ficiente. Pero, cuando la colinealidad adquiere cierta magnitud, la variación es
muy apreciable. No obstante, la mayoría de los paquetes estadísticos aplican, por
defecto, valores de tolerancia que impiden la entrada de variables muy colinea-
les (como se mencionó en el punto anterior).
e La multicolinealidad también puede comprobarse observando oscilaciones en los
coeficientes de regresión (o coeficientes de pendiente “b”), siguiendo un pro-
cedimiento que puede aplicarse en los análisis de regresión “no secuenciales”.
Se divide la muestra del estudio en dos mitades. A continuación, se realiza un
análisis de regresión en cada submuestra, por separado. Las variaciones en
los coeficientes de ambas mitades se toman como indicios de multicolinealidad.
Ésta es más grave, cuanto mayor es la diferencia entre los respectivos coefi-
cientes.
e Un último procedimiento de detección de multicolinealidad atiende a los au-
tovalores. Éstos expresan cuántas dimensiones distintas existen entre las variables
independientes. Sus valores se obtienen de la matriz de productos cruzados de
las variables independientes. Para que exista elevada multicolinealidad debe ha-
ber varios autovalores próximos a 0. Esto acontece cuando la multicolinealidad
es tan alta que pequeños cambios en los datos pueden provocar grandes cambios
en las estimaciones de los coeficientes de regresión. Situación que suele coincidir
con modelos de regresión con errores típicos elevados.
De los autovalores se obtiene el índice de condición (1C). Este índice se de-
fine, en cada dimensión, como la raíz cuadrada del cociente entre el autovalor
mayor y el menor. Cuando IC es superior a 30, la colinealidad es elevada. Si es
mayor de 10, pero menor de 30, la colinealidad es moderada. Un valor inferior
a 10 supone que se está ante variables de escasa colinealidad.
== EsemeLo DE COMPROBACIÓN DE LA EXISTENCIA DE MULTICOLINEALIDAD

Y
Para comprobar la existencia de multicolinealidad se procede, primero, al análisis de la

matriz de correlaciones que figura en el subapartado 1.3.2. En esta matriz puede observar-
se que la correlación más elevada (,573) se da entre las variables X,, (“casar con marroquí”:
P306) y X,¿ (“vecino marroquí”: P506). La correlación es importante, aunque no alcanza el va-
lor de referencia habitualmente aplicado para denotar una colinealidad elevada (que exigiría
alguna actuación al respecto): >,80. Ambas variables se hallan relacionadas y de forma po-
sitiva, si bien sólo comparten el 33% de su variabilidad (,5733). Las personas que manifies-
tan que no les importaría tener como vecinos a una familia de ciudadanos de Marruecos u otro
país norteafricano suelen coincidir, aunque no plenamente (al ser la correlación de ,573), con
aquellos que afirman que no les preocuparía que su hijo o hija se casase con un marroquí;
y, a la inversa.
Además, téngase presente que al ser el tamaño de la muestra analizada bastante elevado
(n = 2.492 individuos), los valores de referencia comúnmente adoptados para denotar una co-
linealidad apreciable (,60) y severa o muy importante (,80, que supone que casi dos de las
tres partes de la variabilidad de una de las variables puede predecirse por el conocimiento del
valor de la otra variable con la que se halla relacionada) pueden incluso aumentarse, de acuer-
do con Berry y Feldman (1985). El efecto de la multicolinealidad en la obtención de la
ecuación de regresión es menor cuando se analiza una muestra grande que cuando la mues-
tra es pequeña.
Las segundas variables más correlacionadas entre sí son X,, (“estudios”: P43a) y X,, ('in-
gresos”: P52), con una correlación también positiva de ,471. Le sigue en importancia la co-
rrelación negativa habida entre las variables X, (“edad”: P42) y X,, (“estudios”: P43a):
-,442. Los “estudios” y los “ingresos” covarían de forma ascendente (conforme aumenta el
nivel de estudios lo normal es que se incremente el nivel de ingresos, y a la inversa), mien-
tras que la “edad” y los “estudios” se encuentran negativamente relacionados (los niveles de
estudios más bajos se dan, con mayor frecuencia, entre las personas de más edad; a medida
que la edad del encuestado desciende, es más probable que su nivel de estudios sea superior,
pero no en todos los casos. La correlación entre ambas variables no es muy elevada:
442).
En suma, de la lectura de la matriz de correlaciones se concluye que ninguna de las 14
variables independientes analizadas se halla, positiva o negativamente, correlacionada con
otra variable independiente en una magnitud que aconseje la adopción de alguna medida pa-
ra evitar los efectos negativos de su inclusión en el análisis de regresión.
En el subapartado 1.4.2 se comprueba, asimismo, que ninguno de los coeficientes de re-
gresión de las cinco variables predictoras que conforman el modelo de regresión final tiene
un error típico elevado. Además, como se observa en el subapartado 1.6.1, donde se expone
la obtención del modelo de regresión mediante procedimientos secuenciales, los coeficien-
tes de regresión de las variables y sus errores típicos prácticamente coinciden en los distintos
pasos. La incorporación de una nueva variable predictora apenas altera los coeficientes de
variables previamente introducidas en la ecuación de regresión. Esta inalteración apreciable
en los coeficientes y errores típicos correspondientes responde a la escasa correlación
existente entre las seis variables que finalmente forman el modelo de regresión: X¿, X,q, X4,
Xy» X13 Y X¿. Las correlaciones bivariadas existentes entre cada par de estas seis variables
pueden comprobarse en la matriz de correlaciones referida (subapartado 1.3.2).
La comprobación de la presencia de multicolinealidad sigue con el cálculo de los valores
de tolerancia y el factor de inflación de la varianza (FIV), tanto para las variables incluidas co-
mo en las excluidas del modelo de regresión. Con ambos estadísticos puede comprobarse
la correlación simultánea de cada variable independiente con el resto de variables inde-
pendientes.
Primero, se calculan los valores de tolerancia y FIV para las variables que forman el mo-
delo de regresión. Los valores de ambos estadísticos se recogen en la tabla siguiente. En ella
puede observarse que en ninguna variable los valores de tolerancia o de FIV alertan de la exis-
tencia de multicolinealidad importante. Todos los valores de tolerancia superan, y a gran dis-
tancia, el valor ,20, que denota un grado elevado de multicolinealidad. La tolerancia más al-
ta (,994) corresponde a la variable X, (“sexo”). La correlación de esta variable con las cinco
restantes es apenas perceptible. En la matriz de correlaciones se recogen dichas correla-
ciones: —,058 (Xz y X5), -,024 (X3 y X,0), -,035 (X¿ y X,), -,027 (Xy y Xg), ,026 (X, y Xy2).
Como era de prever, los valores de tolerancia más bajos se dan en las dos variables in-
dependientes que mayor correlación presentaban entre ellas: X,¿ (,639)y X,¿ (,652). Que el
valor de tolerancia de la variable X,¿ sea ligeramente inferior al obtenido en la variable X,, se
debe a que la primera variable presenta una correlación, en general, ligeramente superior a
X,¿ con cada una de las cuatro variables predictoras restantes. Exactamente, éstas son las
correlaciones entre cada par de variables: —,246 (Xy y X,) y -,227 (X,9 Y X,); —,024 (X¡0 y X5)
y 1026 (Xy2 Y X3); -,274 (X ¡o y X5) y ,267 (X ¡9 Y X5); 233 (X¡0 Y Xg) Y 194 (X,2 y X¿). Com-
pruébense dichas correlaciones en la matriz de correlaciones (subapartado 1.3.2).
Al definirse F/V como el recíproco de tolerancia, las conclusiones que pueden extraerse
de los valores de dicho estadístico coinciden con las expuestas para la tolerancia. Todos los
valores de F/V se sitúan muy por debajo del valor de referencia 5,0, que denota la existen-
cia de multicolinealidad importante. El valor de FIV más elevado se obtiene, como era de es-
perar, en la variable X,, (1,566). El más bajo corresponde a la variable X, (1,006), que deno-
ta la práctica inexistencia de multicolinealidad en relación con dicha variable, al posicionarse
próximo a 1,00.
Tabla A
Variables independientes en el Tolerancia Factos de inflación de

modelo de regresión la varianza
X5: simpatía hacia latinoamericanos ,875 1,143

X,¿: casarse con marroquí ,639 1,566
X,: leyes de inmigración ,842 1,187
X¿: n.* inmigrantes ,842 1,187
Xy: vecino marroquí ,652 1,534
X¿: Sexo ,994 1,006
Los valores de tolerancia en las variables independientes excluidas del modelo de re-
gresión son igualmente elevados. El más bajo se da en la variable X¿ (,786) y el más alto en
X4 (953). Los de FIV claramente bajos: el más alto en X¿ (1,272) y el más bajo en X, (1,049).
De las variables excluidas del modelo interesa, sobre todo, conocer sus valores de toleran-
cia mínimos. Éstos son los valores “mínimos” de tolerancia que la variable tendría si se in-
corporase al modelo de regresión. Denota su correlación con las variables ya incluidas al mo-
delo. Lo normal es que los valores de tolerancia mínimos sean inferiores a los de tolerancia,
como se observa en la tabla B a continuación. Pero, en todo caso, se sitúan muy por encima
del valor de referencia de ,20. El valor de tolerancia mínima más bajo (,628) corresponde a
la variable X,,. La correlación de esta variable con las seis incluidas en el modelo de regresión
es ligeramente superior a la habida en cualquiera de las siete variables restantes excluidas
del modelo, como puede observarse en la matriz de correlaciones.
S6 Análisis multivariable. Teoría y práctica en la investigación social
Tabla B
Variables excluidas del Tolerancia FIV Tolerancia

modelo de regresión mínima
X>: ideología política ,949 1,053 ,636

Xy: edad 1953 1,049 ,634
X,: regularizar inmigrante ,831 1,203 ,633
X¿; entrada inmigrantes ,786 1,272 ,631
Xy; partido racista ,890 1,124 ,635
X,,: estudios 1915 1,093 ,638
X 2: Ingresos ,928 1,077 ,637
Xy: inmigrante delincuente ,825 1,212 ,628
Un último diagnóstico de multicolinealidad realizado afecta a los autovalores y al índice

de condición (IC). Recuérdese que los autovalores indican cuántas dimensiones distintas exis-
ten entre las variables independientes. Sólo en las dimensiones 6 y 7 los autovalores se si-
túan próximos a 0. Pero, a decir por IC, sólo en la dimensión 7 se obtiene un valor IC (20,139)
situado en el intervalo de 10 (colinealidad moderada) a 30 (colinealidad severa). En las de-
más dimensiones los valores IC son inferiores a 10. El valor de IC decrece, obviamente, con-
forme disminuye la dimensión.
Atendiendo a las proporciones de la varianza de la estimada explicada por cada com-
ponente principal asociado con cada autovalor sólo puede calificarse la colinealidad de
problemática, cuando un componente asociado a un IC elevado contribuye sustancialmen-
te a la varianza de dos o más variables. Esta situación no se da plenamente en los datos aquí
analizados. De la lectura de la tabla C se concluye que no es necesario reducir el modelo de
regresión a 5 e incluso 4 variables independientes para conseguir un modelo más estable,
aunque puede probarse. La dimensión 7 explica el 52% de la varianza de la variable X, y el
34% de la varianza de la variable X,. Éstas son las mayores proporciones de varianza ex-
plicada. En las otras variables (X,y, X, 13 Y X¿) es mínimo. Lo que no hace imperioso la eli-
minación de la dimensión 7 del análisis de regresión lineal. La colinealidad detectada por cual-
quiera de los procedimientos referidos es de escasa cuantía y no precisa de ninguna
actuación al respecto para mejorar los resultados del análisis de regresión.
Tabla C
Dimensión Autovalor Índice de Praporciones de la varianza |

condición
Constante | X¿ | Xy | X, | X¿ | Xig | % 0
1 5,855 1,000 ,00 ,00 | ,00 | ,00 | ,00 | ,00 | ,00 |
2 ,497 3,432 ,00 ,00 | ,03 | ,00 | ,00 | ,01 | 88 |
3 ¿349 4,097 ,00 ,04 | ,15 | ,08 | ,00 | ,08 | ,08 |
4 ,108 7,371 ,00 ,03 | ,04 | 143 | ,25 | ,07 | ,00¡
5 ,102 7,565 ,00 00 | 74 | 01 | 00 | ,76 |.,01'
6 7,464E-02 8,857 ,00 559 | ,03 | ,19 | ,23 | ,03 | ,00 |
7 1,444E-02 20,139 ,00 ,34 | ,02 | 29 | ,52 | ,05 | ,02 ¡
Capítulo 1: Regresión múltiple S7
e Cuando se detecte la existencia de elevada colinealidad, ha de adoptarse algún

remedio para evitar su negativa incidencia en los resultados del análisis de regresión.
Entre los remedios más utilizados destacan dos: uno más radical, que supone la eli-
minación de las variables muy colineales;, y un segundo, más conservador, que defiende
la combinación de variables colineales en una única variable latente (llámese índice, fac-
tor o componente principal). También puede elegirse aumentar el tamaño de la
muestra. Con ello se reduciría el error típico y, de esta forma, el efecto negativo de
la multicolinealidad. Pero, como ello no siempre es posible, habrá que elegir alguna de
las medidas siguientes:
e Eliminar las variables independientes que presenten un grado elevado de coli-

nealidad. Este es el remedio más drástico contra la multicolinealidad, por lo que
provoca una amplia disparidad de opiniones.
Algunos autores, como Wittink (1988: 91, 93) advierten que “omitir una va-
riable predictora relevante puede causar severos problemas. Tal omisión es un
ejemplo de lo que se llama error de especificación”. “La validez (falta de sesgos)
requiere la inclusión de las variables predictoras relevantes, mientras que la fia-
bilidad (error típico pequeño) de las estimaciones de los parámetros puede em-
peorar si las variables predictoras están bastante correlacionadas.” Esto le lleva a
defender la combinación de variables predictoras frente a su eliminación.
Otros autores afirman, en cambio, que esta solución no lleva a una gran pér-
dida de información. Ello se debe a que “las variables independientes que estén
bastante correlacionadas presumiblemente representan el mismo fenómeno”
(Frei y Ruloff, 1989: 339).
En la decisión de adoptar o no esta medida radical ha de considerarse di-
versos aspectos. Principalmente, el número de variables predictoras cuyo grado
de colinealidad exige una actuación, qué proporción representan estas variables
en el conjunto de las variables independientes y su relevancia en la investigación
(para que su eliminación no redunde, negativamente, en un incremento del error
de especificación).
e Efectuar un análisis factorial exploratorio ( de componentes principales o de fac-
tor común) con las variables independientes de interés. Esta solución supone em-
plear, en el análisis de regresión, índices o variables latentes (los factores ob-
tenidos del análisis factorial, ya sean componentes principales o factores comunes
—véase capítulo 5—) integrados por indicadores bastante correlacionados (las va-
riables predictoras colineales). Estos índices (o factores) actúan en el análisis de
regresión como las variables independientes. Y, debido a que estos índices han
de estar, por definición, incorrelacionados entre sí (unos índices o factores
respecto de otros) y, en cambio, los indicadores (o variables empíricas) que lo
componen, bastante correlacionadas, el problema de la multicolinealidad se re-
suelve (Tacq, 1997).
Chatterjee y Price (1977: 172) matizan que “este método de análisis no
resolverá la multicolinealidad si está presente, pero indicará aquellas funciones
que son estimables y las dependencias estructurales que existen entre las va-
riables explicativas”.
Este uso del análisis factorial con anterioridad al análisis de regresión lineal
puede tener una doble finalidad: una, la identificación de variables indepen-
dientes, que sean bastante colineales, para su exclusión del análisis de regresión;
dos, la combinación de variables colineales en un único índice o factor. Estas apli-
caciones del análisis factorial (relacionadas con la redistribución de la varianza
compartida por las variables independientes) se desarrollan en el capítulo 5, de-
dicado al análisis factorial.
1.1.9. Independencia de los términos de error
Un último supuesto básico del análisis de regresión lineal concierne a la necesidad

de que los términos de error no estén correlacionados. El valor de la variable depen-
diente en cada caso concreto ha de ser independiente del resto. Si las observaciones son
independientes unas de otras, los residuos sucesivos tampoco han de estar correlacio-
nados. En caso contrario, se tiene que hablar de correlación serial de los residuos, o de
autocorrelación.
A diferencia de la heterocedasticidad (que es más habitual en diseños de investi-
gación transversales o seccionales), la autocorrelación se produce, con mayor fre-
cuencia, en los estudios longitudinales. Éstos se caracterizan porque la recogida de in-
formación se produce de forma secuencial, en períodos de tiempo sucesivos,
planificados en el proyecto de investigación. La finalidad es analizar la evolución del
fenómeno que se investiga a lo largo del “tiempo”. Como la información referida a
unas mismas variables se recoge en dos o más momentos temporales, el valor que pue-
de tener una variable en un momento probablemente no es independiente del valor
que dicha variable adquirió en un tiempo anterior. Esto se evidencia más, cuando los
dos procesos de recogida de información acontecen en un período corto de tiempo, y,
sobre todo, si el diseño de investigación es longitudinal de panel. El recoger un mismo
tipo de información, de unas mismas personas, en tiempos sucesivos, puede producir
el efecto no deseado del aprendizaje (Cea, 1996).
Schroeder et al. (1986) sintetizan en tres las causas principales de la autocorrelación:
1. La omisión de una variable explicativa importante.

2. El empleo de una forma funcional incorrecta.
3. La tendencia de los efectos a persistir a lo largo del tiempo o, para las variables
dependientes, a comportarse cíclicamente. Tal vez por ello la autocorrelación es
más común en datos de series temporales.
Sánchez Carrión (1995: 417), por ejemplo, ilustra la autocorrelación con la si-
guiente aseveración: “La inflación que pueda haber en un país en t,, , no es inde-
pendiente de la inflación en t,”. Nourisis (1986: B-188), por su parte, expone el ejem-
Capítulo 1: Regresión múltiple S9
plo siguiente: “Supón que estudias el tiempo de sobrevivencia después de una ope-
ración como una función de la complejidad de la operación, la cantidad de sangre trans-
ferida, la dosis de medicamentos y así. Además de estas variables, también es posible
que la habilidad del cirujano aumente con cada operación y que el tiempo de sobre-
vivencia de un paciente esté influido por el número de pacientes tratados. En caso de
que esto sea cierto, habrá autocorrelación”.
Asimismo, en un estudio sobre el éxito académico existirá autocorrelación, si se ob-
serva que la calificación obtenida en un examen no sólo depende de las variables in-
dependientes horas de estudio, asistencia a clase, cociente de inteligencia o motivación
por la asignatura. También se ve afectado por el momento de corrección del examen:
si es el primer examen que se corrige, o el último. Las calificaciones dadas a exámenes
precedentes puede afectar a la obtenida en exámenes posteriores. La presencia de un
buen examen (o trabajo) subconscientemente afecta a la calificación de los exámenes
inmediatamente posteriores, al elevarse el nivel de exigencia del profesor. Igual-
mente, el haber corregido, previamente, exámenes deficientes beneficia a exámenes me-
diocres posteriores, al disminuir el grado de exigencia del profesor. El estado aními-
co de éste también puede afectar a la calificación final del examen. Sobre todo,
cuando éstos se corrigen en distintos períodos de tiempo. Si ello se demuestra, habrá
autocorrelación. En su evaluación habrá que tener información adicional sobre el or-
den en que se recogieron los datos en la muestra. Esta información no siempre está dis-
ponible en los datos de encuesta. En este caso, habrá que acudir a gráficos de residuos
y/o estadísticos al efecto.
Entre las consecuencias negativas de la autocorrelación destaca, en primer lugar,
su efecto pernicioso en la significatividad de los coeficientes de regresión. La autoco-
rrelación provoca una subestimación del error típico. Éste será inferior al habido
realmente, si no existiese autocorrelación. La consecuencia inmediata es la obtención
de un valor “t” inflado, superior al real. Éste indicará que el valor correspondiente del
coeficiente de regresión es significativo estadísticamente, cuando en realidad no lo es.
Lo que invalidará el modelo de regresión.
Para evitar la incidencia negativa de la autocorrelación, primero hay que proceder
a su identificación. De nuevo, los gráficos de residuos son de gran ayuda para este pro-
pósito. Los residuos ahora se disponen en orden secuencial. Especialmente, cuando los
datos se recogen y graban secuencialmente. En este caso, los residuos se representan
siguiendo la variable de secuencia en gráficos como los incluidos en la figura 1.6. En
los ejemplos expuestos anteriormente, la variable de secuencia es el “orden” en que los
pacientes son intervenidos quirúrgicamente y, en el otro ejemplo, el “orden” en que se
corrigen los exámenes.
El supuesto de independencia de los términos de error se cumple, cuando los re-
siduos se distribuyen de una forma aleatoria. Es decir, no muestran ninguna pauta con-
sistente, como sucede en la figura 1.6a. En este gráfico se alternan los casos con resi-
duos positivos con los negativos. Por el contrario, hay autocorrelación, cuando los
residuos siguen una pauta discernible, a modo de la reflejada en la figura 1.6b. En él
puede apreciarse como se pasa, secuencialmente, de residuos negativos elevados
(3,0) a positivos (3,0). El orden puede ser también el inverso: pasar de residuos ele-
vados positivos (3,0) a negativos (-3,0). Estos últimos gráficos son característicos de si-
tuaciones en que el orden de disposición del caso en la muestra analizada afecta a la
información que de él se obtenga, como sucede en los ejemplos antes expuestos.
3,0
a) Ausencia de autocorrelación b) Autocorrelación (o dependencia

de las observaciones)
Figura 1.6. Gráfico de residuos para detectar autocorrelación de los términos de error.
La autocorrelación puede igualmente identificarse con la ayuda de estadísticos. El

más aplicado, cuando se analizan datos secuenciales, es el coeficiente de Durbin-Wat-
son. Este coeficiente se calcula a partir de los residuos estudentizados (E), en cada ca-
so, mediante la siguiente fórmula:
Y (E, _ Es)
d = 122 5
2E
t=1
Con el coeficiente de Durbin-Watson, así definido, se comprueba si la correlación

serial (a cada residuo E, se le resta el inmediatamente precedente, E,_ ,) es nula. La au-
tocorrelación es positiva (los términos de error se hallan positivamente correlaciona-
dos) cuando la diferencia entre los residuos sucesivos es pequeña. El valor “d” co-
rrespondiente es pequeño. En caso contrario, la autocorrelación es negativa. La
diferencia entre los residuos sucesivos es grande. Lo que se materializa en un valor “d”
elevado.
Como en todo contraste de hipótesis, el valor de “d” empírico, obtenido de la mues-
tra, se compara con el correspondiente valor “d” teórico, a un nivel de probabilidad
concreto. La hipótesis nula de no autocorrelación entre los términos de error sucesi-
vos se rechaza, cuando la diferencia entre ambos valores “d” es significativa a dicho ni-
vel de probabilidad (p < ,05, usualmente). En general, cuando el valor “d” empírico es-
tá comprendido en el rango de 1,5 a 2,5 no existe motivo de preocupación.
Si se detecta autocorrelación en la distribución de datos, el remedio más habitual

es la aplicación del método de regresión de mínimos cuadrados generalizados. Éste par-
te del método de regresión de mínimos cuadrados ordinarios, pero difiere como se ve-
rá en el subapartado 1.6.2- en utilizar variables que han sido transformadas.
1.1.10. El análisis de los residuos en la comprobación de los supuestos de regresión
Como el lector habrá podido constatar, el análisis de los residuos es de gran utili-
dad en la comprobación de la mayoría de los supuestos de regresión. Especialmente,
en regresión múltiple, cuando se analizan dos o más variables independientes. Ello se
debe a la dificultad que supone reflejar en un gráfico bidimensional los valores de la
variable dependiente para cada una de las variables independientes, de manera si-
multánea.
En regresión lineal se entiende por residuo la diferencia entre los valores obser-
vados en la variable dependiente (Y,) y sus correspondientes valores predichos, a par-
tir de la ecuación de regresión (Y), para cada uno de los casos analizados (siendo
¡ =1,2, 3...n). Residuo es, parafraseando a Hutcheson y Sofroniou (1999: 24), “lo que
queda una vez que un modelo se ha ajustado a los datos”: E, = Y - Y.
No debe confundirse el residuo (denotado E, o r, en algunos textos) con el error de
predicción (£,). El error de predicción —como se detalla en el subapartado 1.5.2- repre-
senta la diferencia entre el valor verdadero de Y, en la población (no en la muestra ana-
lizada) y su correspondiente valor estimado mediante la ecuación de regresión. El valor
real de la variable dependiente en la población puede diferir del observado en la mues-
tra, lo que denota la existencia de error de medición en la investigación realizada.
Existe una amplia variedad de residuos, aunque todos ellos hacen referencia a la
diferencia entre la respuesta observada y la predicha. Entre los más empleados se en-
cuentran los siguientes:
a) Residuos brutos (o “raw residuals”). Éstos se ajustan a lo que normalmente se

entiende por residuo: la diferencia entre los valores de la variable dependien-
te observados (Y) y los predichos (P), en cada caso concreto. Cuanto más gran-
de sea dicha diferencia, peor es el ajuste a la ecuación de regresión.
E,= Y,- Y,
Si bien, téngase presente que los residuos brutos se hallan expresados en la

unidad de medición de la variable dependiente. Lo que hace que su cuantía sea
muy dispar. Superior en variables como ingresos, por ejemplo; e inferior en va-
riables como antigiiedad en el cargo. Depende de la unidad de medición de la
variable dependiente.
b) Residuos estandarizados (o “standardized residuals”, o FZRESID, en progra-
mas como el SPSS). Tratan de paliar la deficiencia observada en los residuos
brutos, cuya cuantía se halla relacionada con la unidad de medición de la va-

riable dependiente. Para ello se divide al residuo bruto (E;) por la estimación de
su desviación típica (5). De esta forma la magnitud del residuo queda expresada
en unidades de desviación típica por encima (si el signo es positivo) o por de-
bajo de la media (si es negativo).
Donde “N” representa el tamaño de la muestra (que también puede re-

presentarse por “n”, para diferenciarlo del tamaño de la población); y “p”, el nú-
mero de variables independientes incluidas en la ecuación de regresión.
Esta tipificación de los residuos (que quedan convertidos a la misma unidad
de medición: unidades de desviación típica) facilita su comprensión, además de
la comparación de residuos y de modelos de regresión distintos.
Saber, por ejemplo, que un residuo bruto es igual a -849,25 apenas pro-
porciona información. Sólo que el valor observado en la variable dependiente
(Y¡) es inferior a su correspondiente valor predicho (Y). Y ello porque el
signo de dicho residuo es negativo. Si su valor fuese positivo, indicaría lo
opuesto: la Y, observada es superior a la predicha (Y ;).
Si se transforma el residuo bruto en estandarizado (al dividirse por la esti-
mación de su desviación típica), su valor pasa de ser -849,25 a 3,0. Ello permite
conocer no sólo que el valor de Y, es inferior al correspondiente Y, sino tam-
bién que es bastante superior a otros en valor absoluto. Alcanza su valor máxima
El rango de los residuos estandarizados va de 3,0 a +3,0, aproximadamente. Al
estar estandarizados, estos residuos se caracterizan por ser su media 0 y su des-
viación típica 1.
c) Residuos estudentizados (“Studentized residuals” o SDRESID, en notación
SPSS). Se definen de forma similar a los estandarizados: el cociente del residuo
bruto y su desviación típica estimada. A esta definición común (con el residuo es-
tandarizado) se añade, no obstante, la consideración de la distancia de cada va-
lor de la variable independiente respecto de su media: “d, ;”, que expresa la
distancia habida entre el punto i y el punto medio.
La variabilidad de los valores predichos no es igual en todos los puntos, si-
no que varía con los valores de la variable independiente y de la proximidad de
ésta respecto de la media. La variabilidad en los valores predichos es menor,
cuando la variable independiente se aproxima a la media. Por el contrario, au-
menta para los valores más extremos de la variable independiente. Estas con-
sideraciones sobre la variabilidad cambiante se materializan en la formulación
de los residuos estudentizados, al dividir el residuo bruto por la desviación típica

estimada del residuo en ese punto.
Los residuos estudentizados se ajustan a la distribución “t” de Student, con

N -— p -1 grados de libertad. Los valores “d, ;” también suelen denotarse “h, ,”
(Graybill e Iyer, 1994; Gunst y Mason, 1980). Esta cantidad —que suele igual-
mente referirse “leverage”- indica el elemento “i” de la diagonal de la matriz
H (también llamada “hat matriz” y las iia “h;¡”, “hat values”). Las ob-
servaciones con un valor “h, ,>2,,,” deberían examinarse como observaciones
potencialmente muy influyentes en la ecuación de regresión. Lo mismo acon-
tece con valores de “E, > 2”.
d) Residuo eliminado estudentizado (“Studentized deleted residuals”). Difiere
del anterior en que, al calcular el error típico residual, no se incluye el iésimo re-
siduo (- 1). De esta forma se obtiene una distribución del estadístico “t” de Stu-
dent con “N — p- 2” grados de libertad.
E,
o Sin 1 = d,,
Los valores de cualquiera de estos cuatro residuos se añaden a gráficos que facilitan
la comprobación inmediata de los supuestos de regresión. Los gráficos de residuos más
comunes son los que representan los residuos (ya sean brutos, estandarizados o estu-
dentizados) contra:
+ Una de las variables independientes (X').

e Los valores predichos de la variable dependiente (P.,.
+ La suma ponderada Y, de las variables independientes (X;).
De estos gráficos, el más empleado es el segundo: el gráfico de residuos contra los

valores de Y. En él, tanto los residuos como los valores predichos de la variable de-
pendiente se hallan estandarizados. Para que refleje el cumplimiento de los su-
puestos de regresión, este gráfico no ha de mostrar ningún modelo sistemático en
consideración al valor de Y, (como ha podido constatarse en los subapartados an-
teriores).
La adecuación del modelo de regresión puede, asimismo, comprobarse mediante
el llamado “casewise plot”. Éste constituye igualmente un gráfico de residuos, aunque
para cada caso concreto y de una forma estandarizada. Como proporciona información
de cada uno de los casos analizados (su valor predicho, Y ,, con sus residuos corres-
pondientes), su uso se complica cuando el tamaño muestral es elevado. El número de

páginas del gráfico aumenta con el número de casos analizados. Lo que dificulta su lec-
tura e interpretación.
1.2. La obtención del modelo de regresión múltiple: fases principales
Como en cualquier procedimiento analítico, la consecución de un modelo de re-

gresión lineal incluye varias fases. Desde los “preámbulos”, que abarca todas las tareas
referidas a la preparación de los datos, hasta la fase final de interpretación del modelo
de regresión obtenido. La interpretación de los resultados acontece una vez que ha con-
cluido la evaluación de la adecuación predictiva del modelo, tanto desde la vertiente
estadística como la lógico-sustantiva. El modelo de regresión ha de ser teóricamente
plausible, además de significativo desde el punto de vista estadístico. De no ser así, ha-
brá que remitirse a las fases iniciales del análisis, en busca de causas posibles de la no
significatividad detectada en el modelo. Para este propósito es imprescindible com-
probar si se han cumplido cada uno de los supuestos básicos de regresión. En caso afir-
mativo, habrá que remitirse al modelo teórico y a su operacionalización. En caso ne-
gativo, habrá que buscar algún remedio que posibilite la obtención de un modelo de
regresión adecuado.
La figura 1.7 esquematiza, a modo de gráfico, las fases principales de un análisis de
regresión lineal múltiple. Es un esquema genérico. Como se verá en el apartado 1.6, la
consecución de un modelo de regresión lineal difiere según el procedimiento que se ha-
ya seguido en la incorporación de variables independientes a la ecuación de regresión.
Si se ha optado por un procedimiento instantáneo o, por el contrario, se ha seguido uno
secuencial (o “por pasos”). y, dentro de ellos, qué variedad ha sido la finalmente ele-
gida (“hacia delante”, “hacia atrás” o “paso a paso de inclusión y eliminación de va-
riables”).
1,3. La preparación de los datos para el análisis
Como muestra la figura 1.7, los preámbulos del análisis de regresión lineal inclu-
yen diversas tareas a realizar previas a la ejecución, propiamente dicha, del análisis de
regresión. Comprende la elaboración de un modelo de regresión teórico, la selección
de los casos a analizar, la comprobación de los supuestos básicos de regresión, la de-
puración de los datos e indagación exploratoria. Los supuestos básicos de regresión li-
neal ya se expusieron en el apartado 1.1. En él también se hizo referencia a aspectos
relacionados con la muestra de análisis (subapartado 1.1.1), aunque no a otras tareas
que componen, igualmente, los preámbulos al análisis de regresión.
Lo primero es elaborar un modelo teórico. El tener un modelo teórico de partida.
diseñado a partir del marco teórico de la investigación, es básico en regresión, como en
cualquier procedimiento analítico. Ayuda a decidir qué variables independientes ele-
PREÁMBULOS DEL ANÁLISIS DE REGRESIÓN MÚLTIPLE

qe
e Elaboración de un modelo de regresión teórico en consonancia
con el marco teórico de la investigación
e Selección de los casos a analizar
>| e Comprobación de los supuestos básicos para un análisis de regresión
lineal
* Depuración de los datos: tratamiento de los “casos sin respuesta” (o
datos incompletos)
e Indagación exploratoria. Incluye el análisis de correlaciones biva-
riables a partir de ia matriz de correlaciones
R ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN

E 22 : 2
e Obtención de los coeficientes de regresión
P e El error típico de los coeficientes
L e La significatividad de los coeficientes
A
T
y |
E LA EVALUACIÓN DEL MODELO DE REGRESIÓN OBTENIDO

A
rR 3. | + El ajuste del modelo de regresión
e El error de predicción
e La significatividad del modelo de regresión, desde la vertiente es-
tadística y lógico-sustantiva
e La detección de casos “atípicos”
Negativa Positiva
40 | INTRODUCCIÓN DE CONCLUSIÓN DEL ANÁLISIS:

: MODIFICACIONES presentación de resultados
Figura 1.7. Fases principales de un análisis de regresión múltiple.
gir para la predicción de la variable dependiente, además de los casos a analizar. La ex-
periencia de otros investigadores que hayan analizado el mismo problema de inves-
tigación contribuye a evitar errores cometidos en estudios anteriores. Esta experien-
cia se convierte en un referente crucial en todo diseño de investigación (Cea, 1996). Em

las fases finales de la investigación, también es crucial la mediación de un marce
teórico. Éste sirve de marco de referencia al que acudir en la interpretación de los re-
sultados del análisis.
A continuación se desarrollan otros dos aspectos no tratados: el tratamiento de los
casos “sin respuesta” y la matriz de correlaciones.
1.3.1. Depuración de los datos: el tratamiento de los casos “sin respuesta”
Una vez concluida la recogida de información de la muestra elegida, procede

realizar tareas preliminares de depuración de los datos que se han recogido. Incluye la
eliminación de errores de grabación, además de algunas decisiones clave, como la re-
ferida al tratamiento de los casos sin respuesta en una o en varias variables de la in-
vestigación.
El análisis de regresión precisa, como la generalidad de las técnicas analíticas, de
datos “completos” en todas las variables incluidas en el análisis. Pero, en la práctica in-
vestigadora, esto no sucede siempre. Es frecuente encontrar variables de las que se ca-
rece de información en algunos casos de la muestra. Cuando esto acontece, ha de adop-
tarse alguna medida que evite los efectos negativos que la inclusión de datos
incompletos tiene en el análisis. Fundamentalmente, la sobreestimación de los errores
típicos de los coeficientes de las variables afectadas. Esta sobreestimación redunda, de
manera negativa, en la significatividad de los coeficientes de regresión y, más am-
pliamente, en el ajuste global del modelo de regresión.
Las actuaciones posibles ante datos incompletos dependen de varios aspectos: el ta-
maño de la muestra, la proporción que en ella representen los datos incompletos, si és-
tos afectan a una o a varias variables y, por último, si se hayan distribuidos de forma alea-
toria. “La negativa sistemática de los sujetos a responder un tipo de pregunta particular
en una encuesta puede distorsionar seriamente los resultados” (Hutcheson y Sofroniou.
1999: 18).
Si la proporción de datos incompletos es pequeña en una muestra elevada y éstos
se distribuyen de forma aleatoria, la mejor opción puede ser eliminarlos del análisis
Pero, cuando estas condiciones no se cumplen, la aplicación de este remedio radical
a los datos incompletos no es recomendable. Primero, porque puede suponer una re-
ducción drástica del tamaño muestral, que haga peligrar la validez estadística de
los resultados del análisis. Y, segundo, porque puede provocar la obtención de re-
sultados sesgados.
Además, téngase presente que, para efectuar el análisis de regresión, se eliminan
de la matriz de datos inicial todos aquellos casos que no aporten información en al me-
nos una de las variables consideradas. La merma del tamaño muestral original es más
drástica cuantas más variables se incluyan en el estudio y no coincidan los casos sin res-
puesta en todas las variables. Según estimaciones de Jaccard y Wan (1996) la reducción
en el tamaño muestral puede llegar incluso a suponer su reducción a la mitad, cuando
se incluyen 15 variables y cada una de ellas tiene, al menos, un 5% de sus valores sin
respuesta.
La eliminación de los casos sin respuesta tampoco es una solución recomendable,
cuando estos casos no son azarosos. Al contrario, se ajustan a un perfil determinado,
que les diferencia de aquellos que sí aportan información. Tómese, por ejemplo, dos
variables: “ingresos” y “categoría profesional”. Si se observa que personas de distintas
categorías profesionales no declaran igualmente sus ingresos —las personas de cate-
gorías profesionales superiores son, por ejemplo, los más reacios a informar de sus in-
gresos—, no se está ante datos incompletos al azar. La eliminación de estos casos del
análisis supondrá, salvo que representen una baja proporción en el conjunto de la
muestra, la obtención de resultados sesgados, además de estimaciones de parámetros
inconsistentes. Por esta razón se aconseja que, antes de proceder a eliminar del aná-
lisis a los casos sin respuesta, se compruebe si aquellos casos que no aportan infor-
mación en variables de interés se ajustan a un mismo perfil. De ser así, habrá que de-
sestimar su eliminación de la muestra de análisis y optar por otro remedio a la “no
respuesta”.
Cuando no se cumplen las circunstancias referidas de tamaño muestral elevado y/o
baja proporción de casos sin respuesta, y éstos no se distribuyen al azar, sino que
reúnen unas mismas características, es habitual elegir alguno de los remedios si-
guientes:
e La imputación a partir de los casos de los que se tiene información. Se trata de

sustituir estos valores sin respuesta por otros que tendrán tratamiento de valo-
res observados reales. Los valores se imputan siempre bajo el supuesto de
cuál habría sido el valor dado a la variable por ese caso o sujeto si hubiese da-
do una respuesta. A tal fin pueden seguirse distintos procedimientos.
1. Reemplazar los valores sin respuesta (“missing values”) en una variable por la
media de los valores observados en dicha variable, antes de proceder al
análisis. Esta solución es especialmente útil, cuando se quiere hacer uso de los
datos incompletos y las intercorrelaciones existentes entre las variables son
pequeñas. La ventaja principal es que todos los casos de la muestra original
intervienen en la obtención del modelo de regresión. El inconveniente sería
los sesgos que su aplicación puede introducir en las estimaciones de los pa-
rámetros de regresión.
2. Tomar los valores de respuesta dados por otros casos que han proporcio-
nado respuestas similares en otras variables. Se trata de atribuir a los casos
sin respuesta la dada por otros individuos de similares características, que
han proporcionado las mismas respuestas que ellos en las demás variables.
Esta atribución de respuesta es más arriesgada que la solución anterior. In-
dividuos con similares características no tienen por qué ser plenamente
coincidentes.
3. Predecir cuál habría sido la respuesta del sujeto, partiendo de la información

que sí proporcionó en otras variables. Esta predicción puede llevarse a
efecto mediante una ecuación de regresión, que analice el valor que co-
rresponderá a la variable en cuestión, considerando las respuestas que dicho
sujeto dio en otras variables.
Este tercer procedimiento de imputación es una opción deseable cuando
existen correlaciones elevadas entre las variables consideradas (Afifi y
Clark, 1990). Pese a ello, su aplicación puede introducir sesgos en el análisis
como sucede con los demás procedimientos de imputación.
e Incluir los casos sin respuesta, en una o en varias variables, con el código “mis-
sing value”. Si los datos son continuos, estos valores sin respuesta suelen codi-
ficarse como valores extremos (por ejemplo, 99 o 0). En estas circunstancias, es-
ta opción no parece ser muy útil. Pero sí, en cambio, cuando se analizar
variables ficticias. La consideración de los datos incompletos “como una res-
puesta separada a una cuestión junto con otras respuestas puede ser una opciór
interesante. Algunas veces, en los datos de encuesta, el hecho de que un sujeto
no responda una cuestión particular puede ser una parte de información útil a
analizar” (Afifi y Clark, 1990: 224).
e El investigador también puede considerar la eliminación del análisis de cualquier
variable que presente una proporción elevada de casos sin respuesta. Á menos
que ésta se estime crucial en la predicción de la variable dependiente.
e Un último remedio que puede evitar la incidencia negativa en la merma de lz
muestra original que puede suponer la eliminación de los casos sin respuesta, sie
acudir a la imputación, es la eliminación del análisis sólo de los casos que no apor-
ten información en la variable que se analiza; es decir, sólo cuando se estimen los
parámetros de la variable afectada por la no respuesta. Que el caso se elimine de
dicho análisis no supone su eliminación de otros análisis que afecten a otras va-
riables de las que sí proporciona información. Este proceder ofrece la gran ven-
taja de suponer una reducción sensiblemente menor del tamaño muestral que
la eliminación total del caso, indistintamente de la variable que se analice, sin ne-
cesidad de recurrir a la imputación. De ahí que haya sido ésta la actuación se-
guida en el análisis de los datos aquí expuestos.
EemeLo DE TRATAMIENTO DE LOS CASOS “SIN RESPUESTA”. | —
El tratamiento dado a los casos “sin respuesta” en la encuesta aquí analizada ha sido e
último mencionado: realizar el análisis de regresión sólo con aquellos casos que sí propor
cionan información en las variables de interés. Al ser el tamaño de la muestra original bas
tante elevado (n = 2.492 casos), no era imperioso recurrir a la imputación. Se quería con elk
evitar los sesgos que toda suposición de cuál habría sido la respuesta dada puede introdu-
cir en la estimación de los parámetros. Pero, proceder a la eliminación de todo caso que no
aportase información en alguna de las variables incluidas en el estudio suponía una reduc-
ción drástica en el tamaño de la muestra original, bastante superior a la mitad (n = 692). Es-
ta drástica merma en el tamaño muestral, por encima de las predicciones de Jaccard y Wan
(1996), se debe no sólo al número de variables elegidas para el análisis (15), sino también
a que los casos “sin respuesta” no coinciden en todas las variables. La desestimación de los
casos “sin respuesta”, aunque sólo sea en una de las variables seleccionadas para el aná-
lisis, provoca esta reducción tan llamativa en el tamaño muestral, cuando se analizan con-
juntamente las variables. Sin duda la reducción habría sido menor, si los casos “sin respuesta”
no se hubiesen distribuido al azar en la muestra, adecuándose a un mismo perfil en la ma-
yoría de las variables.
En cambio, la eliminación parcial del caso sin respuesta del análisis, sólo cuando afec-
ta a la variable que se analiza, supuso una reducción sensiblemente menor en el tamaño de
la muestra original a 1.280 casos. Esta reducción se debió al cruce de las dos variables con
más casos sin respuesta: “leyes inmigración” (P16), con un total de 1.713 casos válidos; y la
variable “ingresos” (P52), declarados sólo por 1.793 de los 2.492 encuestados. Pese a
ello, el tamaño muestral continúa siendo elevado y posibilita, para la comprobación de la va-
lidez de los resultados, el seccionamiento aleatorio de la muestra a la mitad (aproximadamente
640 casos en cada submuestra: de análisis y de validación).
1.3.2. Indagación exploratoria: la matriz de correlaciones
Antes de comenzar el análisis de regresión, propiamente, es conveniente hacer in-

dagación exploratoria en los datos a analizar. Se precisa conocer si, con la información
reunida, puede llevarse a cabo un análisis de regresión. Además de la comprobación
de los supuestos básicos de regresión, ya referidos, procede realizar análisis univariables
de cada una de las variables de interés por separado. En especial, se analizan sus me-
dias y desviaciones típicas. Recuérdese que la regresión lineal exige que las variables
se ajusten a una escala continua. Por lo que, la media y la desviación típica se convierten
en las medidas de tendencia central y de dispersión más representativas, y dos esta-
dísticos principales cuyos valores se revisan.
EjemLo DE INDAGACIÓN EXPLORATORIA UNIVARIABLE:

MEDIA Y DESVIACIÓN TÍPICA
A continuación figuran las medias y desviaciones típicas de las variables analizadas en

la muestra total. Para su interpretación se recomienda la relectura del subapartado 1.1.3. En
Estadísticos descriptivos
Desviación
Media típica N
Simpatía marroquí 5,9629 2,7276 2.183

Leyes inmigración 2,6947 1,0354 1.713
Ideología política 4,6729 1,9595 1.804
Sexo 4811 ,4997 2.492
Edad 44,9330 18,1276 2.492
Simpatía latinoamericano 7,1693 2,2478 2.174
Número inmigrantes 2,2260 ,6284 2.111
Regularizar inmigrante ,7568 ,4291 2.171
Entrada inmigrante 1,9069 ,6305 2.288
Partido racista 1,4242 15692 2.237
Casar con marroquí 1,6729 1,0094 2.415
Estudios 2,1482 1,1990 2.281
Ingresos 143.991,0 105.233,1459 1.793
Vecino marroquí 1,2670 ,6723 2.468
Inmigrante delincuente 3716 ,4950 2.138
él se describe cada una de las variables; si son continuas o ficticias, además de los códigos
numéricos dados a cada uno de sus valores. Esta información es de gran interés en la in-
terpretación de estos estadísticos descriptivos.
Además, observése como el tamaño muestral (N) varía en cada variable, al excluirse del
análisis los casos sin respuesta sólo en la variable a la que afecta. En las variables “sexo” y
“edad” se dispone de información de todos los casos de la muestra original. Pero, en otras va-
riables, como “leyes inmigración” (P16) e “ingresos” (P52), los casos analizados se reducer
considerablemente. En la variable “ingresos” la reducción no sorprende, debido a la reticenciz
normalmente mostrada a la declaración específica de los ingresos, aun pidiéndose que se der
de forma aproximada. En la variable “leyes inmigración” tampoco, al haberse incluido comc
opción de respuesta (en la valoración de las leyes que regulan la entrada y permanencia de
extranjeros en España) “no conoce la legislación en materia de inmigración”.
Por último, señalar que la mayor desviación típica de la variable “ingresos”, seguida a dis-
tancia de la variable “edad”, se debe a la unidad de medición de ambas variables: pesetas y
años. En las otras variables el rango de valores posibles se restringe a 11 como máximo (en
las variables “simpatía marroquí” y “simpatía latinoamericano”: la escala de valores va de €
[ninguna simpatía] a 10 [mucha simpatía)); y en las variables ficticias (“sexo” [P41], “regularizar
inmigrante” [P19] e “inmigrante delincuente” [P2904)) se reduce a los valores 1 y O (el grupa
de referencia).
A la indagación exploratoria univariable le sigue la bivariable que analiza la re-

lación habida, por separado, entre cada dos variables. Primero, se quiere conocer e!
grado de relación de cada variable independiente con la dependiente para decidir
la pertinencia de su inclusión en el análisis. Si una variable independiente muestra

una mínima correlación con la dependiente, se puede reconsiderar su inclusión en
el análisis. Segundo, se comprueba la relación habida entre cada dos variables in-
dependientes. La finalidad es comprobar el grado de colinealidad existente entre
ellas y si éste puede afectar negativamente a los resultados del análisis (como ya se
dijo en el subapartado 1.1.8). Toda esta información la proporciona la matriz de co-
rrelaciones.
La matriz de correlaciones incluye las correlaciones bivariadas de cada una de las
variables que participan en el análisis. Esta matriz se caracteriza por ser cuadrada y si-
métrica. Los mismos valores se sitúan por encima y por debajo de la diagonal de la ma-
triz (que resulta del cruce de una variable por sí misma). Por esta razón, en algunos
programas estadísticos sólo se dan los valores que se hallan a un lado de la diagonal
(por encima o por debajo), para no proporcionar información redundante.
En la matriz de correlaciones la diagonal siempre está compuesta por unos. Incluye
la correlación de cada variable, ya sea dependiente o independiente, consigo misma. De
ahí que la correlación sea siempre 1,0, el valor máximo posible. Las variables figuran en
el mismo orden en filas y en columnas. La variable dependiente puede estar en la últi-
ma fila y columna, o en la primera, depende del programa que se utilice. Sus valores se
cruzan con cada una de las variables independientes, de lo que se obtiene un coeficien-
te de correlación producto-momento de Pearson (“r”). Éste constituye una medida basada
en la covarianza entre dos variables relacionada con la dispersión de sus respectivas dis-
tribuciones. Concretamente, se obtiene del cociente entre la covarianza de “X” e “Y” y
la raíz cuadrada de las varianzas de “X” e “Y”, para todo valor i = (1,2,3...N) , siendo “N”
(o “n”) el tamaño de la muestra. Dos fórmulas alternativas son las siguientes:
59 vz (3 ] 2,
N
2 XY,
donde Sxy = A — X Y= Covarianza de X en Y
S?x = NE — X? = Varianza de X, siendo “ XxX? ”el cuadrado de la media de X
Sy == — Y ? = Varianza de Y, siendo “ Y ? ”el cuadrado de la media de Y

Mediante cualquiera de estas fórmulas se obtiene un coeficiente que expresa el gra-

do y la dirección de la relación existente entre dos variables (“X” e “Y”, cuando se mí-
de la relación de cada variable independiente con la dependiente; o de “X” y “Xx”, ==
la relación es entre dos variables independientes). Su valor oscila de —1,0 a 1,0. El va-
lor 0,0 expresa inexistencia de relación entre las variables; +1,0 correlación perfecta po-
sitiva (conforme aumenta el valor de una variable se incrementa, igualmente, el valos
de la otra); y -1,0 correlación perfecta negativa (el incremento de una variable provocz
la disminución de la otra).
La figura 1.8 contiene la composición de una matriz de correlaciones. En ella
aparece cada coeficiente de correlación entre cada par de variables, indistintamente de
si actúan de dependiente o de independientes. La diagonal está formada por unos y, 2
ambos lados de ella, se sitúan los mismos coeficientes. Es igual, por ejemplo, la co-
rrelación de la variable X, con X, (r,,) que a la inversa (r,,), de la variable X, con Xy
Las correlaciones entre variables ficticias equivalen a los coeficientes phi (() y se re-
lacionan con ¿2 (chi-cuadrado), porque ¿= Y /N . Ambos estadísticos miden la relació.
entre variables cualitativas en una tabla de contingencia 2 x 2. Ello afecta a que la corre-
lación entre este tipo de variables se interprete como la proporción de casos que en ese
grupo es mayor (signo positivo) o menor (signo negativo) que la proporción de casos
en los otros grupos.
X, X, X, Xx, Y
X, lu prisas Ti Ty
> O AP Tap T2y
Xd Tn Ta 1. x.<. 3 M3,
XA Ta Ta Ta..... 1 o
Y la La are me E 1
Figura 1.8. Matriz de correlaciones.
Una forma de analizar la matriz de correlaciones es determinar un valor de corte

por ejemplo, una correlación igual o superior a 0,50, o incluso inferior: 0,40. Ses
cual fuere el valor que se escoja, se procede a señalar todas aquellas correlaciones cw-
ya correlación sea de igual o superior magnitud que el valor tomado de corte. Esto ayu-
da a tener una primera impresión de las interrelaciones existentes entre las variables.
Se insiste en que la relación es exclusivamente entre dos variables y no se tiene en con-
sideración la influencia, a su vez, con otras variables.
Si la relación es entre dos variables independientes, recuérdese que todo valor igual
o superior a +0,80 se considera indicativo de una elevada correlación entre las varia-
bles (se está ante variables muy colineales). Son funciones casi perfectas una de otra,
lo que demanda la adopción de alguna de las medidas contra la multicolinealidad re-
feridas en el subapartado 1.1.8. También puede tomarse como referente de colineali-
dad importante toda correlación igual o superior a +0,60.
Asimismo, puede darse la situación de correlaciones inferiores a las esperadas. Ello
puede deberse a la existencia de una relación no lineal entre las variables o, simple-
mente, a la presencia de outliers (casos “atípicos”). Para descartar ambas explicacio-
nes a la baja correlación entre las variables hay que proceder a la comprobación de los
supuestos de regresión (apartado 1.1) y, en su caso, a la detección de “atípicos” (véa-
se subapartado 1.5.4).
Por último, advertir de que las correlaciones demasiado bajas pueden deberse,
igualmente, a valores extremos de la media y desviación típica de la variable. “Si las me-
dias de las variables para una muestra dada son números muy grandes y las desvia-
ciones típicas muy pequeñas, entonces los programas de ordenador pueden producir
matrices de correlación cuyos valores son demasiado pequeños” (Hutcheson y So-
froniou, 1999: 18). Esta tercera explicación tendrá, asimismo, que comprobarse, lo que
exige un análisis univariable de las variables afectadas.
= EjemeLo DE MATRIZ DE CORRELACIÓN
En el subapartado 1.1.8 se hizo referencia a la matriz de correlaciones, a su aplicación

en la comprobación del grado de colinealidad existente entre dos variables independientes.
A lo expuesto en el susodicho subapartado hay que añadir comentarios referidos, princi-
palmente, a las correlaciones de cada variable independiente con la dependiente.
En la salida original del programa SPSS (versión 10.0) figura la matriz de correlaciones
completa, junto a la significatividad (unilateral) de cada correlación bivariable y el tamaño
muestral en el que se han calculado. Para facilitar su exposición y lectura, se ha decidido ex-
poner la matriz de correlaciones como se hace en un informe de resultados. Las correlaciones
bivariables sólo aparecen una vez, no repitiéndose a ambos lados de la diagonal. Recuérdese
que la correlación entre la variable X, y X, es igual a la habida entre X, y X,. Lo mismo su-
cede con las demás variables.
Matriz de correlaciones
YX |x|Xx]|% |% Xx 1x1 ]|*X |*Xo|*X1 12] *s]|X.
Y |1.000| 302 |-,115|-,050 |-,113| 593 |-,297 | ,281 |-,294 |-,216 | -,476 | ,140 | ,057 | -,396|-,268
(,000) | (,000) | (,010) |(.000) |(,000) | (,000) | (,000) | (,000) [(,000) | (,000) | (,000) [(,012)| (,000)|(,000,
Xx 1,000 | -,181 | -,035 |-,129 | ,196 |-,337 | ,286 | -,368 |-,141 | -,246 | ,184 | ,156 | -,227|-.285
(,000) | (,075) |(,000) (,000) | (,000) | (,000) | (,000) (,000) | (,000) | (,000) | (,000)| (,000)|(,000;
Xx 1.000 |-,031| 118 |-,048| ,140 |-,111| ,136 | ,170 | ,147 |-,052 | ,037 | ,117 | ,149
(098) |(,000) |(,024) | (,000) | (,000) | (,000) |(,000) | (,000) | (,017) |(,088)| (,000)|(,00c%
Xx, 1,000 |-,058 |-,009 | -,027 | -,039| ,046 | ,021 |-,024 ,080 | ,107 | ,026 | 055
(,002) |(,330) | (,106) | (035) | (,015) |(,160) | (,116) | (,000) | (,000) | (,102)|(,005;
X, 1,000 |-,102 | ,141 |-,089| ,117 | ,097 | ,163 | -,442 |-,291| ,124 | ,201
(,000) | (,000) | (,000) | (,000) |(,000) | (,000) (,000) | (,000)| (,000)|(,00%,
X, 1,000 |-,230| ,228 |-,246 |-,219|-,274 | ,120 | ,085 | -,267|-,193
(,000) | (,000) | (,000) |(,000) | (,000) | (,000) | (,000)| (,000)|(,00€:
Xx 1,000 |-,283| ,275 | ,183 | ,233 | -,254 |-,223| ,194 | 316
(,000) | (,000) | (,000) | (,000) | (,000) | (,000) | (,000)|(,00€C;
X, 1,000 |-,388 |-,199|-,265 | ,175 | ,118 | -,249|-,26%
(,000) [(,000) | (,000) | (,000) | (,000)| (,000)|(,O00*
Xs 1,000 | 257 | ,290 | -,154 |-,139| ,266 | ,309
(,000) | (,000) | (,000) | (,000)| (,000)|(,000;
Xx 1,000 | ,239 | -,128 |-,070| ,261 | ,178
(,000) | (,000) | (,002)| (,000)|(,000;
e 1,000 | -,114 |-,023| ,573 | ,271
(,000) | (,169)| (,000)|(,00C*
Lu 1,000 | ,471 | -,095|-,204
(,000)| (,000)|(,00G
X12 1,000| -,041|-,117
(,041)|(,002,
X13 1,000| ,207
(,000:
Xi 1,000
* Las cifras entre paréntesis corresponden a la significatividad de las correlaciones bivariables respectivas.
» Y: "simpatía hacia norteafricano (marroquí...)" (P201); X,: “leyes inmigración” (P16); X: “ideología política” (P33:
X,: “sexo” (P41); X,: “edad” (P42); X,: “simpatía hacia latinoamericanos” (P210); X¿: “número de inmigrantes
(P11); X,: “regularizar a inmigrantes” (P19); X¿: “entrada inmigrantes” (P21); X,: “partido racista” (P37); X,¿: “cz
sar con marroquí" (P306); X,: “estudios” (P43a); Xy2: “ingresos” (P52); X,,: “vecino marroquí” (P506); Xi: Er
migrante delincuente” (P2904).
Debajo de cada correlación y entre paréntesis está la significatividad (unilateral) de cz

da correlación. Como puede observarse, la mayoría de las correlaciones habidas son bastani=
significativas, al ser p < ,05 (la probabilidad de error en la estimación es inferior al 5% en E
mayoría de las situaciones). La significatividad es muy elevada en todos los coeficientes de
correlación de cada variable independiente con la dependiente, pero no en todos los coe$
cientes de correlación entre dos variables independientes. La significatividad es inferior al va
lor tomado habitualmente de referencia en las correlaciones entre las variables: X, y Xy (1075;
X, Y Xz (1098), X, y Xy2 (088), Xy y X5 (,330), X, y X¿ (,106), Xy y Xy (,160), X3 Y Xy,
(,116), X, y X;g (,102), X,o y X;2 (,169). Afecta, sobre todo, a la variable ficticia X¿ (“sexo”), ¿
su correlación con siete variables (la mitad de las consideradas). La correlación con estas vz
riables es, asimismo, muy baja, siendo la más alta de -,035, que corresponde a su correla-
ción con la variable X,. Con las otras seis variables las correlaciones son, inclusive, más ba
jas. Estas bajas correlaciones significan que apenas existen diferencias entre los varonesy
las mujeres en las variables referidas.
Recuérdese que la variable “sexo”es una variable ficticia que, al tener codificación binaria
(1 varón, O mujer), su relación con las otras variables no se ajusta a una recta de regresión,
aunque realmente las variables estén muy relacionadas. En las variables ficticias, el coeficiente
de correlación producto-momento de Pearson (“r”) no expresa el grado de relación existen-
te entre dos variables, sino la proporción de casos que en ese grupo (el codificado 1) es ma-
yor (signo positivo) o menor (signo negativo) que la proporción de casos en el grupo de re-
ferencia (codificado 0). Por ejemplo, la correlación de X, con Y de —,050 significa que la
proporción de varones (codificados 1) que muestran “simpatía hacia los norteafricanos
(marroquíes...)” es muy ligeramente inferior a la de mujeres (el grupo de referencia, al co-
dificarse 0). En cambio, la correlación positiva de la variable X, con X,, de ,107 indica la pro-
porción en que los “ingresos” de los varones superan a los declarados por las mujeres. A la
vista de ambas correlaciones, que son bastante significativas y de escasa cuantía, puede con-
cluirse que existen más diferencias entre los varones y las mujeres en los “ingresos” decla-
rados (a favor de los varones) que en la “simpatía” manifestada hacia los norteafricanos (li-
geramente superior en las mujeres). Es en la variable “ingresos” donde las diferencias por
género son superiores (aunque con escasa magnitud: ,107). Respecto a las otras variables,
las diferencias por género son apenas perceptibles. La correlación más baja se da entre la
variable X, y X; (-,009). En la manifestación del grado de “simpatía hacia los latinoamericanos”
las diferencias entre los varones y las mujeres son nulas (inclusive inferiores a las registra-
das en la variable Y: “simpatía norteafricano”) e, igualmente, en dirección negativa (míni-
mamente superior en las mujeres).
Las otras dos variables ficticias (X, y X,¿) muestran una mayor correlación con Y que X,.
En la variable X, (“regularizar a inmigrantes”) la correlación es positiva y ligeramente supe-
rior (,281). Entre las personas que creen que sí “se debería tratar de regularizar la situación
de los inmigrantes ilegales” (grupo codificado 1) la proporción de casos que muestran más
simpatía hacia los norteafricanos es ,281 superior a la habida entre los contrarios a la re-
gularización (el grupo de referencia). Asimismo, la correlación de X,, e Y de —,268, significa
que entre aquellos que están de acuerdo en que “el aumento de los inmigrantes favorece el
aumento de la delincuencia en nuestro país” aquellos que muestran simpatía hacia los
norteafricanos son en una proporción de ,268 inferiores a los que están en desacuerdo con
dicha aseveración. En este último grupo (el grupo de referencia) es superior el grado de sim-
patía manifestado hacia los norteafricanos, aun no siendo excesiva en magnitud.
De las catorce posibles variables predictoras consideradas X, (“simpatía hacia latinoa-
mericanos”) es la variable más correlacionada con Y (“,593). La correlación habida entre am-
bas variables es positiva e importante, aunque no perfecta. Las simpatías mostradas hacia
los latinoamericanos y norteafricanos covarían en la misma dirección. Ambas variables es-
tán positivamente relacionadas, lo que significa que los aumentos (o disminuciones) en sim-
patía hacia los latinoamericanos suelen coincidir, aunque no siempre, con aumentos (o dis-
minuciones) igualmente en la simpatía manifestada hacia los norteafricanos. Para que la
correlación entre ambas variables fuese perfecta (y la coincidencia de sus valores total en to-
dos los casos) su valor debería aproximarse a 1,0. No obstante, la correlación entre ambas
variables es importante y puede afirmarse que ésta será la primera variable que formará la
ecuación de regresión, la que más ayuda a predecir el valor de Y.
X¿p (casar con marroquí”) es la segunda variable en importancia que muestra una
mayor correlación con Y, aunque en dirección negativa (-,476). El signo del coeficiente res-
ponde a cómo está definida esta variable. El valor más alto (4) corresponde a aquellos que
afirman que “le preocuparía mucho que un hijo o una hija suya se casara con un ciudadano
de Marruecos u otro país norteafricano”; el valor más bajo (1), a aquellos que declaran que
no les preocuparía “nada” dicho matrimonio. Hecha esta especificación, el signo del coeficiente
no sorprende. La simpatía mostrada hacia los norteafricanos varía inversamente con la pre-
ocupación de que un hijo o hija se casase con un marroquí. A medida que aumenta le
preocupación hacia un posible matrimonio con un marroquí u otro ciudadano de un país norf-
teafricano, desciende la simpatía hacia este grupo de personas. Esta es menor entre los que
dicho matrimonio les preocuparía “mucho” o “bastante” que entre aquellos a los que les pre-
ocuparía “poco” o “nada”. La relación entre ambas variables es lineal, aunque no perfecta. 4
partir de la matriz de correlaciones puede predecirse que ésta será la segunda variable en for-
mar la ecuación de regresión, al ser la segunda más correlacionada con Y, cumpliendo a s=
vez la condición de estar apenas correlacionada con X,. La correlación (muy significativa) hz
bida entre las variables X,, y X¿ es leve (-,274). Se trata de dos variables poco colineales. Lz
inclusión de una de ellas en la ecuación de regresión no restringe la incorporación de la otra
Como se verá posteriormente, la incorporación de variables predictoras a la ecuación de
regresión está determinada no sólo por la correlación que dicha variable tenga con la de-
pendiente, sino también de la tenida con variables independientes previamente introducidas
en la ecuación (por mostrar una mayor correlación con Y). En suma, para poder predecir que
la variable X,, (la tercera más correlacionada con Y: —,396) y X, (la cuarta, ,302), por
ejemplo, van a formar parte de la ecuación de regresión, habrá antes que observar cuáles sor
las correlaciones de estas dos variables entre sí y con las variables previamente indicadas
como posibles integrantes de la ecuación. Un grado elevado de colinealidad con variables yz
en la ecuación dificulta la incorporación de nuevas variables, aun estando muy correlacionad==
con Y. Como se señaló en el subapartado 1.1.8, en el análisis de regresión se trata de ev
tar la multicolinealidady con ello la redundacia en la predicción de Y. Para más informació
reléase dicho subapartado. En los siguientes se volverá a hacer referencia a esta matriz de
correlaciones para la interpretación del modelo de regresión.
1.4, La ecuación de regresión
En el análisis de regresión lineal múltiple la relación entre la variable dependient:

(Y) y la serie de variables independientes se expresa como una función lineal de las va
riables independientes (X;). Dicha función conforma la ecuación siguiente para i =
1,2,3...n observaciones muestrales:
SOX ADA ADA rr +b,X +,
Esta ecuación permite predecir el valor de la variable dependiente, en cada casí

concreto (Y;), a partir de unos valores determinados de la serie de variables inde-
pendientes que muestran relación con la dependiente.
Como dicha predicción es rara vez exacta, al tratarse generalmente de dato:
muestrales, la ecuación también incluye un término de perturbación (e,). Éstos son, ez
suma, sus componentes:
“X;, Xy, Xz... X,” las distintas variables predictoras de las que se ha obtenido infor-
mación en fa muestra analizada.
“a”: también denominado “b,”. Identifica la constante o el intercepto de la recta de re-
gresión. Es el punto donde la recta (o el plano) de regresión “intercepta”, o
sea, corta el eje Y. De ahí su referencia de “intercepto”. También se le conoce co-
mo “constante” porque su valor denota el valor promedio de Y cuando las va-
riables independientes son nulas; es decir, iguales a cero. Pero, téngase presente
que no siempre el valor cuantitativo del intercepto tiene una interpretación directa.
Esto sucede, habitualmente, cuando presenta un valor negativo. Rara vez, en el
mundo real, un valor de Y puede ser inferior a 0 (salarios, calificación académica,
horas de estudio, por ejemplo). En estas circunstancias de valores de “a” (o
“by”) negativos, su cuantía no es directamente interpretable, aunque continúa sien-
do imprescindible para la predicción de Y.
En caso de variables independientes ficticias (véase subapartado 1.1.2), el in-
tercepto (o constante) refleja el valor predicho de la variable dependiente para el
grupo de referencia. Ello se debe a que todas las variables ficticias son iguales a ce-
ro para el grupo de referencia (0 varón, 1 mujer; O suspenso, 1 aprobado, por ejem-
plo). Su valor se interpreta como la frecuencia media de la variable dependiente
para el grupo que se ha codificado 0.
“b,, Da... b,” son los coeficientes de pendiente parcial o de regresión parcial. En regre-
sión simple, cuando sólo hay una variable independiente, su valor representa la
pendiente de la recta de regresión. En regresión múltiple, con dos o más variables
independientes, su valor identifica la pendiente del hiperplano de regresión con
respecto a su respectiva variable independiente (X_). Separan el efecto de cada va-
riable independiente en la dependiente del resto. Ésto se debe a que su cuantía ex-
presa el cambio promedio en la variable dependiente asociado a una unidad de
cambio en X_, cuando el resto de las variables independientes se mantienen
constantes (esto se conoce como control estadístico).
En variables independientes ficticias (con codificación binaria 0 — 1) el coe-
ficiente de pendiente en cada una de las variables ficticias estima la diferencia en
el valor de Y entre el grupo en cuestión y el grupo de referencia. En variables con
sólo dos categorías, como sexo, el valor de dicho coeficiente se convierte en la di-
ferencia en las medias entre el primer grupo (el codificado 1) y el segundo grupo
(el codificado 0). Si los “varones” actúan, por ejemplo, como grupo de referencia
(codificado 0), el coeficiente “b” asociado a “mujer” (con el código 1) denota la
diferencia en Y entre “mujeres” y “varones”. En general, los casos que puntúen
0 en cada una de las “g — 1” variables ficticias creadas se toman como grupo de re-
ferencia, respecto al cual se comparan los coeficientes de regresión de cada una de
las variables ficticias formadas a partir de una variable cualitativa. Por esta razón
se recomienda seleccionar como grupo de referencia aquel que haga más signifi-
cativa la interrelación de los respectivos coeficientes de pendiente.
Como los coeficientes de pendiente suelen estimarse de datos muestrales,
siempre habrá una variación en su valor, dependiendo de la muestra que se ana-
lice. Esa variación se cuantifica mediante el “error de estimación” o error típico de

los coeficientes de regresión (véase subapartado 1.4. 2).
“g,”: el término de error aleatorio que se añade a la ecuación de predicción de Y. El mo
delo de regresión, en similitud a otros modelos estadísticos, es un modelo pro
babilístico y no determinístico. Rara vez la relación causa-efecto detectada entrz
las variables es exacta. Por lo que debe cuantificarse la magnitud del error de pre-
dicción de Y a partir de la serie de variables independientes incorporadas 2
modelo predictivo.
La denominación “aleatorio” le viene de la convicción de que los errores de-
ben seguir un modelo aleatorio. Esto quiere decir que se sitúan, de forma aleatoriz
alrededor de la recta de regresión, con un valor esperado de cero (E(e;) = 0) y unz
varianza constante o”. (subapartado 1.5.2).
A partir de la ecuación de regresión puede predecirse el valor de la variable de-

pendiente en cada caso concreto (Y;). Para ello se sustituye, en la ecuación, los valore:
que presenta dicho caso en cada una de las variables independientes. Estos valores se
multiplican por sus respectivos coeficientes de regresión. Se suman todos los produc:
tos y se añade el error de predicción, a partir del cual se calculan los intervalos de cor
fianza (como se expone en los subapartados correspondientes). Toda inferencia se rez
liza en términos de probabilidad. “Cualquiera que sea el método utilizado en E
contrastación de hipótesis, los resultados nunca son ciertos, sino aproximaciones en tér
minos de probabilidad” (Goode y Hatt, 1952: 87).
La finalidad de la regresión múltiple no es únicamente descriptiva: cuantificar e
grado de relación existente entre una serie de variables independientes y una sola va
riable dependiente. Es también inferencial. De los coeficientes de regresión, estimada
en la muestra analizada, se persigue su generalización al conjunto de población de k
cual se ha extraído la muestra. Ello exige el cumplimiento de los supuestos de regre
sión resumidos en el apartado 1.1.
Para la población, la ecuación de regresión múltiple se formula igualmente, salv:
que los parámetros de regresión pasan a denominarse con letras del alfabeto griego
Los símbolos “o” (alpha) y “B”( beta) nombran, respectivamente a la constante (0 in:
tercepto) y a los coeficientes de regresión (o de pendiente). Su valor se obtiene a par
tir de sus correspondientes estimaciones muestrales, aunque se halla estandarizado (ex-
presado en unidades de desviación típica). Todas las variables independientes tienez
ahora el mismo promedio y cantidad de variación. Sus respectivos coeficientes beta «
hallan en unidades de desviación típica, y no en la unidad de medición original de k
variable, lo que facilita la comparación de los coeficientes: el conocimiento de qué vz
riable afecta más a la predicción de la variable dependiente. Para su estandarización
se divide cada coeficiente b, por su desviación típica. “e,” (epsilón) ahora nombra a
error de estimación.
Y, = 004 PX, +B,X,, + PX, + +B Xp

tE
Si el investigador prevé la posibilidad de que el efecto de una variable predictora

en Y dependa de los valores de otra variable independiente, ha de añadir a la ecuación
de regresión el efecto de un término de interacción al modelo original, a modo del si-
guiente, donde “B, X,, X,;” denota el término de interacción.
Y, =0+Pp,X + PX, + P,Xy, + Xy X3; +E;
Las interacciones pueden afectar a más de dos variables predictoras. En realidad,

puede haber tantas interacciones como variables predictoras, si sus efectos en la va-
riable dependiente son interactivos ( y no aditivos). El coeficiente “f,” de la ecuación
anterior indica el cambio en “*X,” por “X,”, mientras se controla por los otros térmi-
nos en el modelo. La interpretación de los términos de interacción se complica, no obs-
tante, al aumentar las interacciones incluidas en el modelo de regresión, que cada vez
se hace más complejo. Para evitar la complejidad innecesaria se recomienda no pro-
ceder de forma rutinaria, sino incluir sólo aquellas interacciones que muestren ser sig-
nificativas. Dos razones principales, destacadas por Gunst y Mason (1980: 38-39),
apoyan esta recomendación:
a) El número de interacciones posibles para modelos de regresión con varias

variables predictoras puede ser elevado. Con sólo 5 variables predictoras exis-
ten 10 posibles términos de interacción de 3 variables, 5 de 4 variables y 1 de 5
variables. La consideración de todas estas interacciones resultaría en un modelo
complejo con 36 términos, sin que esto redunde, necesariamente, en una mejora
sustancial de ajuste a los datos.
b) Los términos de interacción a veces repiten información proporcionada por las
variables predictoras individuales. Si la redundancia inducida por los términos
de interacción es demasiado fuerte, se pueden distorsionar las estimaciones de
los coeficientes para las variables predictoras individuales. Esta redundancia se
identifica con la multicolinealidad (referida en el subapartado 1.1.8).
Pero, si no se incluyen interacciones que realmente existen, los parámetros esti-

mados para los otros términos del modelo pueden verse afectados. Para obviarlo, una
práctica empleada comúnmente consiste en añadir el producto “XX.” en la ecuación
de regresión para representar posibles interacciones (Afifi y Clark, 1990). Estas pue-
den darse entre dos o más variables continuas o entre una continua y una ficticia. En
este último caso, se comprueba si la respuesta a un cambio en una variable indepen-
diente continua difiere entre los grupos clasificados de acuerdo con la variable ficticia.
No obstante, se insiste en la conveniencia de que sólo se incluyan aquellas interacciones
que muestren ser significativas.
A continuación se detalla cada uno de los integrantes de la ecuación de regresión,
junto con los procedimientos principales seguidos en su estimación.
1.4.1. Estimación de los coeficientes de regresión
El procedimiento de estimación de los coeficientes de regresión más aplicado, sieri-

pre que se satisfagan todos los supuestos básicos de regresión, es el método de mínimo*
cuadrados ordinarios (OLS). Este método de estimación fue primeramente enunci2-
do por Legendre en 1805, si bien Gauss lo venía aplicando desde 1795. Su nombre le
viene de su propia finalidad: la obtención de una recta que haga mínima la distanci2
que separa, simultáneamente, a todos los puntos de datos de la recta (o hiperplano €Z
regresión múltiple). Estos puntos representan la conjunción de los valores de las
distintas variables independientes (X a) con la dependiente (Y), en cada caso obser
vado en el estudio, y se reflejan en un gráfico de dispersión.
Para la consecución de la recta que “mejor” ajuste a los datos (aquella que haga mé
nima la distancia de los puntos respecto de ella) se emplea la suma de los valores cuz
drados de las distancias verticales. Más conocido como la suma de los errores cuadradez
(denotado SSE): SSE=Y ¿? = Y (Y, -Y, y
¡=1 ¡=1
Si los errores no se elevan al cuadrado, las distancias por encima de la recta de re-
gresión anularían a las que se sitúan por debajo de la recta. Cuanto más se aproximez
los puntos (de los datos) a la recta, mejor es el ajuste del modelo, al ser mínima la su
ma de los términos de error al cuadrado. En cambio, cuanto más se distancien los pur:
tos, peor es el ajuste.
La representación gráfica de la aplicación del principio de mínimos cuadrados e
más sencilla en regresión simple (cuando sólo se analiza el efecto de una variable in-
dependiente en la dependiente) que en regresión múltiple (donde un plano sustituy:
a la recta de regresión). Conforme aumenta el número de variables predictoras, la re
presentación gráfica se complica considerablemente, en relación con el número de vz
riables independientes implicadas. Con tres variables independientes, se tiene ur
plano en un espacio tridimensional, debido a que el número de variables indepen
dientes es tres. La localización de este plano está determinada por los valores de “a, b,
b,... b,”. Estos se obtienen mediante la aplicación del método de mínimos cuadrada
ordinarios, Es decir, considerando la desviación de cada valor respecto a la media de
la variable en cuestión. La figura 1.9 ilustra la representación del principio de mínima:
cuadrados ordinarios cuando se analiza una única variable independiente, al ser en es
te contexto más visual y fácilmente comprensible. También se incluye la representació:
cuando son dos las variables independientes consideradas (regresión múltiple). Con má
de tres variables la representación gráfica se vuelve demasiado compleja y de difíci
comprensión.
Los puntos representan en el gráfico de regresión simple los valores observados de
Y para cada valor de X en cada caso observado; en el gráfico de regresión múltiple, lo:
valores observados de Y para cada combinación de valores de las dos variables inde
pendientes (X, y X,). De lo que se trata es de buscar una recta (regresión simple) o ur
plano (regresión múltiple) que haga mínima la suma de las diferencias, elevadas a
cuadrado, entre los valores observados de Y (en la muestra) y los estimados mediante k
ecuación de regresión (P,, para cada caso concreto (i = 1, 2, 3... n). Dichas diferencias
constituyen los errores de predicción (“e;”). Existe uno para cada punto. Su valor informa
de la distancia habida entre el punto y la recta O plano. Rara vez se logra un ajuste per-
fecto de los puntos a la recta o plano, por lo que siempre existe error. Lo que se quiere
es que sea lo menor posible, que la distancia habida entre ambos valores sea mínima.
a) Regresión simple b) Regresión múltiple

Figura 1.9. Representación del principio de mínimos cuadrados ordinarios.
Cuando se comprueban los efectos conjuntos de 4 o más variables predictoras en la

dependiente, la representación gráfica del principio de mínimos cuadrados ordinarios se
hace casi imposible. La función lineal que se estima en este caso se llama hiperplano y,
como reconoce Tacq (1997: 116), “escapa a nuestra imaginación”. Para el caso general
de “p” variables predictoras se precisaría ajustar un hiperplano p-dimensional a un grá-
fico de “p + 1” dimensiones. El principio, no obstante, es el mismo.
En resumen, mediante la regresión de mínimos cuadrados ordinarios se pretende bus-
car los valores de los coeficientes de regresión (a, b,, b,..., b pd» que minimicen la suma de
las desviaciones cuadradas de las observaciones, “Y”, de los valores predichos de la va-
riable dependiente (Y). En el caso de una única variable independiente (regresión sim-
ple), los valores de los coeficientes “a” y “b” se obtienen de las ecuaciones siguientes:
S (X, - XNY, - Y)
b=w=____ ___=Covarianza de XY / Varianza de X
$ (x, - X)
Una vez conocido “b” se procede al cálculo de “a”
a=Y -bX
Pero, cuando se dispone de dos o más variables predictoras (regresión múltiple),

las fórmulas para la estimación de los coeficientes de regresión se complican. Requieren
la aplicación del álgebra de matrices. Siguiendo la formulación del álgebra de matriz, la

ecuación de regresión queda así definida:
Y'=X*B+E
Donde: “Y”” es un vector n-dimensional de la variable dependiente.

EP (L, Apdo 5) contiene una columna de “n” unos y una co-
lumna de “n” abeeraciones en cada una de las “p” variables inde-
pendientes.
“B'” es un vector de p + 1 dimensiones (siendo “p” el número de variables
predictoras) de los pa del modelo: a, fB,, B,, Bj... B,-
e”” es un vector de los“n” términos de error aleatorios.
En regresión se diferencian los coeficientes de regresión estandarizados (conocidos

como coeficientes beta) de los no estandarizados (los coeficientes de pendiente “b”).
Ambos proporcionan más información que el coeficiente de correlación:
El coeficiente de correlación (“rx”)

6. )?
indica el grado de relación lineal existente en-
tre dos variables y la dirección de la misma. Si el signo es positivo, las dos va-
riables covarían en la misma dirección: el aumento de una de ellas provoca el au-
mento de la otra (por ejemplo, a más horas de estudio, mejor resultado
académico; o a menos horas de asistencia a clase, peor calificación en el examen).
El signo negativo significa, por el contrario, que ambas variables covarían en di-
recciones opuestas: conforme se incrementa el valor de una de ellas, disminuye
el valor de la otra (el aumento del número de cajetillas de tabaco fumadas al día
supone la disminución de la esperanza de vida del fumador, por ejemplo). Su va-
lor expresa el grado de covariación entre ambas variables. En el subapartado
1.3.2 figuran las fórmulas aplicadas para su obtención.
El coeficiente de pendiente “b” (en regresión simple, de pendiente de la recta;
en regresión múltiple, de pendiente del hiperplano de regresión con respecto a
las “p” variables independientes) proporciona más información que el coefi-
ciente anterior. Indica cuánto varía la variable dependiente cuando la inde-
pendiente cambia en una unidad, controlándose, a su vez, el efecto de las de-
más variables independientes. Por lo que, muestra ser de especial utilidad
para comprobar el impacto de una variable independiente en la dependiente y
sus variaciones en las diferentes muestras. Esto último mediante el cálculo del
error de estimación de cada coeficiente “b”.
A este coeficiente también se le conoce como coeficiente de regresión parcial.
Ello se debe a que su valor se ve afectado por la composición de las variables in-
cluidas en el análisis, exactamente, por las posibles interrelaciones que existan
entre ellas. El coeficiente para una variable concreta siempre se ajusta en fun-
ción de las otras variables incluidas en la ecuación de regresión. La inclusión 0
exclusión de una de ellas suele conllevar una alteración en el valor de los coe-
ficientes de las variables en la ecuación. De ahí la importancia de incluir en el
análisis variables relevantes. A veces incluso la omisión de variables que no sean

significativas a un determinado nivel de significación (usualmente p< 0,05) pue-
de ocasionar problemas en la interpretación de los coeficientes de pendiente, cu-
yo valor se ve afectado por la omisión de variables.
Además, téngase presente que la magnitud de los coeficientes de pendiente tam-
bién se halla afectada por la unidad de medición de la variable. Lo que limita su
aplicación en la comprobación de la importancia relativa de las diversas variables
independientes a la predicción de la dependiente. Ello exige la conversión de las
variables a una misma unidad de medición, es decir, su estandarización.
Por último, añadir que cuando la variable dependiente está expresada en lo-
garitmos, los coeficientes se interpretan de una forma aproximada, en términos
porcentuales. Nourisis (1986) lo ilustra con el siguiente ejemplo: un coeficiente
de regresión parcial de —,104 para la variable sexo, cuando las mujeres se codi-
fican como 1, indica que los salarios (variable dependiente) de las mujeres se es-
tima que sean cerca del 10% menos que el salario de los varones, después del
ajuste estadístico para las otras variables independientes en el análisis.
El coeficiente de regresión estandarizado (también referido como coeficiente be-
ta) mide la variación en unidades de desviación típica de la variable dependiente
por cada unidad de variación de la independiente, esta última también expre-
sada en unidades de desviación típica. Para ello, cada puntuación “X” se trans-
(x io XxX ¡)
forma en puntuaciones típicas: Zz = O al igual que la variable Y:
X,
Y -Y
Z,y = LE . Después se procede a un nuevo cálculo de la ecuación de re-
Y
gresión, pero sin el intercepto (o constante). Las puntuaciones Z suponen des-
viaciones respecto de la media, lo que implica su traducción al origen.
Los coeficientes beta se obtienen del producto de cada coeficiente “b” por el co-
ciente entre la desviación típica de la variable independiente y la desviación típica
de la variable dependiente: Br.x, = dy.x, 5 :

Y
En regresión simple, el valor del coeficiente beta coincide con el coeficien-
te de correlación correspondiente (la relación entre las dos variables). En re-
gresión múltiple, no. Su valor se ve afectado por la correlación existente entre la
variable independiente respectiva con las demás predictoras incluidas en la
ecuación.
A diferencia de los coeficientes “b”, los beta no deben ser mayores de 1, por-
que son coeficientes estandarizados (con media cero y desviación típica uno). Si,
alguna vez, se obtiene un coeficiente beta superior a 1, puede tomarse como in-
dicio de la existencia de una importante colinealidad entre las variables.
Por último, insistir en que los coeficientes beta no se utilizan para predecir
el valor de la variable dependiente, sino para comparar e inferir la importancia
relativa de cada variable independiente en el modelo de regresión. La estan-
darización permite la comparabilidad directa de los distintos coeficientes de re-

gresión, puede conocerse qué variable predice más el valor de la dependiente.
Además, su valor también está afectado por la correlación existente entre las va-
riables independientes en la ecuación, por lo que proporcionan una información
más veraz del poder predictivo de cada variable independiente que el coeficiente
de correlación y el de pendiente.
La importancia relativa de cada variable independiente puede igualmente com-
probarse contrastando la variación, o incremento, del valor de R?, que provoca la in-
corporación de dicha variable a la ecuación. Para ello se resta el valor de R? obtenido tras
la incorporación de la variable del habido previo a la inclusión: es decir, R?— R? , sien-
do “Roy el cuadrado del coeficiente de correlación múltiple, cuando todas las variables
exceptuando (“i”) se incorporan a la ecuación. La cantidad de cambio en el valor de R*
se interpreta como la proporción de información única aportada por la variable inde-
pendiente correspondiente en la predicción de la variable dependiente.
La raíz cuadrada del aumento se conoce como el coeficiente de correlación parcial.
Se define como la correlación existente entre una variable independiente y la variable
dependiente cuando los efectos de las otras variables independientes se mantienen
constantes. En caso de no existir correlación entre las variables independientes, el cam-
bio en R?, cuando se introduce una nueva variable en la ecuación, es el cuadrado del
coeficiente de correlación entre esa variable y la dependiente.
Si el coeficiente de correlación parcial de una variable se eleva al cuadrado, se obtiene
cuánto supondría su incorporación al modelo de regresión en la proporción de va-
rianza explicada de Y (R?). Concretamente, su valor expresa la proporción de la varianza
no explicada que puede quedar explicada, si se incorpora la variable a la ecuación. Por
ejemplo, si R? = ,43 (que supone que queda un 57% de la varianza de Y sin explicar por
las variables en la ecuación), un coeficiente de correlación parcial en una nueva variable
de ,524 no significa que dicha variable explique el 52,4% de la varianza que previamente
no ha quedado explicada. Si se eleva al cuadrado (,524? = ,275) se obtiene que el
27,5% del 57% de la varianza de Y no explicada puede quedar explicada si se incorpo-
ra esa nueva variable a la ecuación. Su inclusión a la ecuación supone un aumento en por-
centaje de varianza explicada de Y (R?) del 15,7%. Esta cantidad se obtiene de multi-
plicar la proporción de varianza no explicada de Y por el cuadrado del coeficiente de
correlación parcial de la variable: (1,43) x 275 =,157.
Pero, únicamente se considera la incorporación (por muy pequeña que sea) de va-
riables cuyo coeficiente de correlación parcial sea significativo estadísticamente. Su
significatividad se mide mediante el estadístico “P” de Student, explicado en el su-
bapartado 1.4.3.
1.4.2. El error típico de los coeficientes y los intervalos de confianza
En la evaluación de la importancia relativa de las variables independientes también ha

de considerarse la variabilidad de los coeficientes de regresión estimados. Ésta se mide me-
diante el error típico (“standard error”), que constituye una medida de la variabilidad de
las estimaciones de los coeficientes, a partir de la información extraída de una muestra.
El error típico del coeficiente de regresión “b” (SEB) se define como la variación en
la estimación del valor del coeficiente de una a otra muestra (de iguales características)
que pertenezcan a la misma población. Permite conocer la divergencia en las estimaciones
de los coeficientes y equivale a la distribución de las estimaciones del coeficiente de re-
gresión que resultaría, si se extrajesen repetidamente muestras, de un determinado ta-
maño, de una misma población y, para cada una de ellas, se calculase el coeficiente de re-
gresión. Como estos coeficientes estimados de muestras aleatorias varían de sus
correspondientes valores poblacionales, el error mide, precisamente, cuál es esa variación.
Esta información es imprescindible a efectos inferenciales (de los coeficientes estimados
en una muestra a sus correspondientes parámetros poblacionales).
El cálculo del error típico de un coeficiente concreto (S,,) se realiza mediante la si-
guiente fórmula:
Y, - YN —p-1)
S, =
Y (X, - X) (1-7?)
i=1
Donde: “N” (o “n”) es el tamaño de la muestra.

“p” el número de variables independientes en la ecuación.
“r? la correlación múltiple cuadrada obtenida de la regresión de X, en to-
das las otras variables independientes.
Cuanto más bajo sea su valor, mejor es la estimación del coeficiente ““b”: menos va-
riación habrá en muestras distintas de una misma población. Lo que repercute, ob-
viamente, en su significatividad estadística. La obtención de errores típicos elevados sue-
le ser, a decir de su fórmula, consecuencia de uno o varios de los aspectos siguientes:
a) Elevados errores de predicción de la variable dependiente.

b) Elevada varianza de la variable independiente.
c) Elevada correlación de la variable independiente correspondiente con otras va-
riables independientes (multicolinealidad).
d) Tamaño muestral bajo. Cuando no se cumplen los ratios número de casos por
variables predictoras a los que se hizo mención en el subapartado 1.1.1.
e) Elevada correlación de la variable independiente con otras excluidas del mo-
delo.
A partir de error típico pueden calcularse los intervalos de confianza para cada
coeficiente de regresión que haya mostrado ser significativo (subapartado 1.4.3). Pa-
ra ello se multiplica el error por el valor teórico de “+” de Student, con “N — p-— 1” gra-
dos de libertad (siendo “p” el número de variables predictoras en la ecuación de re-
gresión), al nivel de probabilidad elegido. El nivel de significación más habitual €*

“q = 05”. Adviértase que la distribución “t” se asemeja a la distribución norm2
cuanto más se aleja el tamaño muestral de 30 unidades.
Los intervalos de confianza para cada coeficiente de pendiente b se obtienen del mo”
do siguiente:
Intervalo de confianza = b + (1(SEB)
Donde “t” es el percentil 100 (1-0/2) de la distribución “t”, con “N —p-1” grados
de libertad. El límite inferior del intervalo viene dado por la diferencia del coeficiente
estimado respecto al producto del valor “t” crítico y el error de estimación del coefi-
ciente. El límite superior, en cambio, queda definido por la suma de dicho producto y
el coeficiente de regresión. Para la constante, el intervalo de confianza se calcula dei
mismo modo y con los mismos grados de libertad:
Intervalo de confianza = a + (1(SEA)
El cálculo de los intervalos de confianza es preciso a efectos inferenciales. Á par-

tir de la estimación muestral de los coeficientes de regresión, el intervalo de confian-
za proporciona el rango de valores entre los que se halla dicho coeficiente en la po-
blación. La inferencia se realiza a un nivel de significatividad determinado: el más usua!
Ca = ,05”) supone una probabilidad de acierto del 95% de que el parámetro pobla-
cional esté incluido en el intervalo estimado.
1.4.3. La significatividad de los coeficientes de regresión
La contribución de cada variable independiente al modelo de regresión se evalúa.

primero, comprobando la significatividad estadística de cada coeficiente de regresión
parcial por separado. El análisis de regresión se asienta en la teoría de la probabilidad.
en las posibilidades de inferencia de los estadísticos calculados en una muestra a los co-
rrespondientes parámetros poblacionales, lo que se refleja en la desestimación de cual-
quier resultado que no satisfaga el requisito de la significatividad.
Por razones de coste económico y temporal, fundamentalmente, el investigador ra-
ra vez recibe información de cada una de las unidades (personas, familias, viviendas
organizaciones...) que forman la población objeto de estudio, aunque ésta fuese de pe-
queñas dimensiones. La práctica común es extraer una muestra del universo o pobla-
ción de interés, Pero, si a partir de las estimaciones muestrales se quiere inferir los co-
rrespondientes parámetros poblacionales, la muestra ha de ser “representativa” de la
población. Dicha “representatividad” está subordinada, esencialmente, al tamaño
de la muestra y al procedimiento seguido en la selección de las unidades muestrales
El tamaño de la muestra determina la probabilidad de tener estadísticos significativos
E
el procedimiento de selección, las posibilidades de generalización de los hallazgos del

estudio. Para ello es imperativo que en la selección de la muestra se siga un procedi-
miento aleatorio, que dé a cada unidad de la población la misma probabilidad de par-
ticipar en la muestra. El azar permite la equiparación de la muestra a la población, la
inclusión de toda la variedad de sus componentes.
Respecto a la significatividad estadística, rutinariamente se procede a su com-
probación en todo estadístico calculado con datos muestrales. Para ello se hace uso de
los supuestos de la Estadística Inferencial: la prueba de hipótesis y la estimación
de los parámetros poblacionales. En concreto, la evaluación de la significatividad de los
coeficientes de pendiente (b¡) comienza con la definición de una hipótesis nula (E), so-
bre un valor del parámetro poblacional (f,). En la generalidad de las situaciones la hi-
pótesis nula se formula en los siguientes términos: A; f, = 0. De aceptarse, supondría
la no significatividad estadística del coeficiente estimado, dado que el valor de dicho
coeficiente siempre difiere de cero.
La hipótesis nula se contrasta con la hipótesis alternativa de que coeficiente de re-
gresión es diferente de cero (H.; fB, * 0). Ésta es la hipótesis que el investigador espera
corroborar con sus datos. Supone la significatividad estadística de los coeficientes es-
timados, que siempre serán diferentes de cero, lo que significa que la variable inde-
pendiente respectiva se halla linealmente relacionada con la dependiente. En cambio,
un PB=0 indica la independencia de ambas variables: el valor medio de la variable de-
pendiente no cambia conforme lo hace la independiente.
El contraste de hipótesis siempre se realiza a un nivel de significación que el in-
vestigador escoge. El más aplicado (“a = 05”) supone una probabilidad de acierto del
95% o, lo que es igual, una probabilidad máxima del 5% de equivocarse al rechazar la
HA, cuando ésta realmente es cierta. Otro nivel de significación muy usual es “a = 01”,
que conlleva una menor probabilidad de equivocación. Se reduce al 1%. Pese a ello, es-
te último nivel de significación es menos aplicado que el anterior, al ser más restrictivo.
Exige un valor “t” empírico superior para que el coeficiente estimado resulte signifi-
cativo a una probabilidad de acierto del 99%. Esto puede provocar la desestimación, co-
mo significativos, de coeficientes que se encuentren entre ambos niveles de significación.
Por ejemplo, para 60 grados de libertad, a un nivel de significación a = ,05, el valor “t”
teórico es 2,000; para un a = 01 el valor “t” teórico aumenta a 2,660, lo que supone un
incremento apreciable en el valor mínimo para que la “t” empírica (la obtenida en la
muestra analizada) sea significativa, y pueda inferirse a la población el coeficiente es-
timado correspondiente. Como lo habitual es que el tamaño muestral supere los 100 ca-
sos como mínimo, la distribución “t” se aproxima a la normal (*“z”), coincidiendo sus res-
pectivos valores teóricos. Para un a: = 05 el valor “t” teórico es 1,96; para un a = 01, el
valor “t” se eleva a 2,576.
La prueba de significación estadística consiste en comprobar si el valor “t” empí-
rico se ubica dentro de la zona de aceptación de A. Esta zona queda definida por el
correspondiente valor “t” teórico o crítico, que figura en la tabla de la distribución “t” de
Student, para una prueba bilateral (al incluirse tanto valores positivos como negati-
vos), al nivel de significación elegido y para unos grados de libertad igual a “N —p-—1”.
El valor “t” empírico, necesario para el contraste de hipótesis, se obtiene de la división

de cada coeficiente por su error:
Donde: “b,” es el valor estimado del coeficiente de pendiente o de regresión

parcial.
“PB” el correspondiente coeficiente de pendiente en la población, bajo la
hipótesis nula formulada: Hy; fB, = 0.
“S,” el error típico estimado de “b,”.
Cuando la variable independiente es ficticia, la razón “t” para cada coeficiente b

equivale a la razón “t” para la diferencia entre la media del grupo codificado 1 y la me-
dia del “grupo de referencia” (codificado 0), que actúa a modo de grupo de control.
En la salida de ordenador suele figurar los valores de la razón “t”, junto al coefi-
ciente de regresión y su nivel de significación. Este último ha de ser, al menos “<,05”
para que sea significativa la “t” empírica y sea inferible el correspondiente coeficiente
de regresión. En caso afirmativo, se procede al cálculo de los intervalos de confianza
a modo de lo expuesto en el subapartado 1.4.2.
La significatividad del intercepto (o constante) también puede comprobarse me-
diante la razón “t”, del mismo modo que el coeficiente de pendiente. La hipótesis nu-
a se formula, igualmente, en términos de independencia: el valor del intercepto en la
población es igual a cero (H, : a = 0); frente a la alternativa que lo contradice. La *“t”
empírica se obtiene del cociente entre el intercepto y su error de estimación (S,):
Pero, a diferencia de los coeficientes de pendiente, los paquetes estadísticos no

siempre proporcionan información referida a la prueba de hipótesis del intercepto es-
timado en la muestra. Por último, se indica que el cuadrado del estadístico “t” equivale
al estadístico “F”, con “p” y “N — p- 1” grados de libertad, lo que permite su uso al-
ternativo para dicho contraste de hipótesis.
= EjemeLo DE ECUACIÓN DE REGRESIÓN MÚLTIPLE
Tras realizar un procedimiento secuencial (o por “pasos”) de selección de variables pre-

dictoras, que se describe en el subapartado 1.6.1, se obtiene el siguiente modelo de regre-
sión, a partir de las variables consideradas. De las 14 variables que inicialmente se creía po-
drían ayudar a la predicción de la variable dependiente (“simpatía hacia los norteafricanos
[marroquíes, etc.]”), sólo 6 muestran poder predictivo significativo. Especialmente, las va-
riables X¿ (“simpatía hacia latinoamericanos”) y X,, (“casar con marroquí”), que son las dos
variables que más varianza de Y logran explicar. La tabla A incluye los coeficientes estan-
darizados y no estandarizados de las variables que conforman el modelo de regresión, jun-
to a su significatividad.
Tabla A
Coeficientes no | Coeficientes Intervalo de confianza

Modelo de regresión estandarizados | estandarizados T Sig. para B al 95%
B Error Beta Límite Límite
típico inferior superior
(Constante) 3,786 | ,400 9,458 | ,000| 3,001 4,571

Xs simpatía latinoamericano ,558 | ,026 ,460 21,428 | ,000 ,507 ,610
Xy Casar con marroquí —,698 | ,068 -,258 -10,281 |,000| -,832 -,565
X, leyes inmigración ,261 | ,058 ,099 4,527 | ,000 ,148 ,374
X¿ Número de inmigrantes -,356 | ,095 -,082 -3,751 | ,000| -,543 -,170
X¡¿ Vecino marroquí -,348 | ,101 —,086 3,443 | ,001 —-,546 -,150
X¿ Sexo -,265 | ,110 —,049 -2,414 | ,016| -,481 —,050
Primero figuran los coeficientes no estandarizados. Con ellos se confecciona la ecuación

de regresión, que permite predecir el valor de la variable dependiente (en cada caso concreto)
en función de unos valores concretos en las variables independientes que han mostrado re-
levancia en la predicción de Y. La ecuación de regresión es la siguiente:
Y = 3,786 + ,558X, — ,698X q +,261X, — ,356X¿ — ,348X, — ,265X,

* 3,786 es la constante o intercepto: el punto del hiperplano que intercepta el eje Y. Su
valor denota el valor promedio de Y cuando el valor de las variables independientes es ce-
ro. A veces, el valor de la constante no tiene interpretación directa. Sobre todo, cuando el va-
lor es negativo. En esta ecuación, la constante tiene un valor positivo y podría interpretarse.
En una escala de O (ninguna simpatía) a 10 (mucha simpatía), 3,786 es la simpatía prome-
dio hacia los norteafricanos (marroquíes...), cuando el encuestado manifiesta que no siente
ninguna simpatía hacia los latinoamericanos (X;¿); no le preocupa que un hijo o hija suyo se
case con un ciudadano de Marruecos (u otro país norteafricano) (X,); piensa que las leyes
que regulan la entrada y permanencia de extranjeros en España son demasiado tolerantes
(X,); le parece que son pocas las personas procedentes de otros países que viven en España
(X¿); no le preocupa tener como vecinos a una familia de ciudadanos de Marruecos u otro
país norteafricano (X,,); y es mujer (X,).
e Los coeficientes de pendiente parcial (que separan el efecto de cada variable inde-
pendiente en la dependiente del resto) expresan el cambio promedio en la variable depen-
diente para cada unidad de cambio en la variable dependiente respectiva, manteniéndose las
demás variables independientes constantes. El valor promedio de Y aumenta cuando las va-
riables X¿ y X, se incrementan en una unidad. Ambas variables se hallan positivamente re-
lacionadas con la variable dependiente. El aumento en una unidad en la escala de O a 10 de
“simpatía hacia latinoamericanos” provoca, a su vez, un aumento, aunque en menor cuantía,

en la “simpatía hacia los norteafricanos”. El incremento es de ,558. El valor promedio de Y
también aumenta, aunque en una cantidad inferior (,261), conforme las leyes que regulan la
entrada y permanencia de extranjeros en España pasan a percibirse como “duras” o *into-
lerantes”. Recuérdese que los valores de esta variable van de 1 (demasiado tolerantes) a 5
(demasiado duras).
El valor promedio de Y disminuye, en cambio, conforme aumentan los valores de las va-
riables Xq, Xy, Xyg Y X,. Estas cuatro variables están negativamente relacionadas con Y. La
simpatía hacia los norteafricanos (Y) disminuye, situándose por debajo de su valor promedio
(3,786, obtenido cuando las independientes son cero), al aumentar dichas variables en
una unidad. La disminución en el valor de Y es de ,698, conforme aumenta la preocupación
por un futuro casamiento con un marroquí (X,¿), manteniéndose las demás variables cons-
tantes; de ,358, al aumentar la percepción sobre el número de inmigrantes como demasia-
dos (X;); de ,348, si aumenta la preocupación por tener como vecinos a una familia de ciu-
dadanos de Marruecos (X,); y de ,265, si el individuo es varón.
Comparando estos coeficientes de regresión parcial con los coeficientes de correlación
de cada una de las variables independientes con Y (matriz de correlaciones: subapartado
1.3.2), puede observarse que los signos de ambos coeficientes coinciden, pero no su valor.
Los coeficientes de correlación se calculan para cada variable por separado, mientras que los
coeficientes de regresión parcial para cada variable se ven afectados por la relación de dicha
variable con las demás incluidas en la ecuación de regresión.
El cálculo de la ecuación de regresión cumple una finalidad eminentemente predictiva.
Se quiere predecir el valor de la variable dependiente en función de qué valores se presen-
ten en una serie de variables independientes. Por ejemplo, una persona que reúna las ca-
racterísticas siguientes:
- Manifieste una simpatía hacia los latinoamericanos (X¿) de 7 en una escala de O (“nin-
guna simpatía”) a 10 (“mucha simpatía”).
Le preocupa “bastante” (3) que un hijo o hija suya se case con un ciudadano de Ma-
rruecos u otro país norteafricano (X;¿).
Considera que las leyes que regulan la entrada y permanencia de extranjeros en Es-
paña (X,) son “correctas” (3).
Piensa que son “bastante, pero no demasiados” (2) las personas de otros países que
viven en España (X¿).
Le preocupa “bastante” (3) tener como vecino a una familia de ciudadanos de Ma-
rruecos u otro país norteafricano (X;y).
— Es varón (1) (X,).
Para una persona con estas características puede predecirse que su “simpatía hacia los
norteafricanos” es:
Y= 3,786 + (,558)(7) + (-,698)(3) + (,261)(3) + (-,356)(2) + (-,348)(3) + (-,265)(1) = 4,36

Pero, como los coeficientes de regresión son estimaciones a partir de datos muestrales,
la predicción de Y (“simpatía hacia norteafricano”) nunca puede ser exacta. Hay que añadir
el error de predicción (o error típico
de la estimación a partir de las variables independientes
incorporadas al modelo predictivo). Este, como se expone en el subapartado 1.5.2, es una me-
es PP
dida de la adecuación del modelo de regresión en la predicción de Y. Cuanto más se apro-

ximen los valores de Y observados en la muestra con los estimados por el modelo de re-
gresión, menor es el error de predicción, lo que se traduce en una mayor precisión en la es-
timación del valor promedio de Y. Como se verá en el susodicho subapartado, el error
típico de la estimación en este modelo de regresión múltiple es 1,9595. Un valor pequeño en
magnitud, que no significa necesariamente que el error de predicción sea pequeño. Para sa-
ber si el error es elevado o bajo hay que analizarlo respecto a la variabilidad de Y, como se
detalla en dicho subapartado. Aquí sólo se avanza que, aunque la cuantía de error sea 1,9595,
el error de predicción es elevado, a decir por la amplitud del intervalo en la predicción de Y.
De acuerdo con el modelo obtenido, para un nivel de significación de ,05 (que significa que
hay un 5% de probabilidad de equivocamos en la inferencia o, lo que es igual, la probabilidad
de acierto es del 95%), la “simpatía hacia los norteafricanos” de una persona que reúna las
características señaladas es un valor comprendido en el intervalo que va de 0,519 a 8,201.
Este intervalo es demasiado amplio e indica que el ajuste de los puntos al hiperplano no ha
sido perfecto. La correspondencia entre los valores observados de Y y los estimados no se
alcanza en algo más de la mitad de los casos, como se verá en el apartado 1.5. El interva-
lo de confianza se ha obtenido restando (límite superior) y sumando (límite superior) al va-
lor de Y estimado (Y = 4,36) el producto del error típico de la estimación (1,9595) y el valor
teórico de t para el nivel de significación escogido (,05) y sus grados de libertad correspon-
dientes (N — p — 1). Como el tamaño muestral es muy elevado, la distribución t de Student
se apro-
xima a la distribución normal, siendo el valor t teórico correspondiente 1,96.
0,519
4,36 2(1,96)(1,9595):
—— 8,201
+ Además de los coeficientes de regresión, en la tabla A de resultados figuran los erro-

res típicos de cada uno de los coeficientes no estandarizados estimados. Estos errores ex-
presan la variabilidad de dichos coeficientes si, en vez de ésta, se hubiesen analizados otras
muestras del mismo tamaño extraídas de la misma población. Como el tamaño muestral es
muy elevado (bastante superior a los ratios mínimos exigidos), y la multicolinealidad de las
variables incluidas en la ecuación baja, al igual que sus varianzas, es de prever bajos erro-
res típicos de los coeficientes de regresión.
A diferencia del error de estimación de Y, los errores típicos de los coeficientes son ba-
jos, a excepción del correspondiente a la constante (que es el más elevado: ,400). Existe po-
ca variabilidad en los coeficientes estimados. De los coeficientes de pendiente, b, (,558) es
el que presenta un menor error típico (,026) y b, (,265) el mayor (,110), lo que se traduce en
un intervalo de confianza más amplio a efectos de inferencia estadística.
* Las posibilidades de inferencia de los coeficientes estimados en la muestra depende
de su significatividad. Como se dijo en el subapartado 1.4.3, la significatividad de los coefi-
cientes de regresión se comprueba mediante el contraste de hipótesis t de Student. Se com-
paran los valores t empíricos con la t teórica (o crítica) para “N — p — 1” grados de libertad, a
un nivel de significación determinado. Los valores t empíricos se obtienen de dividir el coe-
ficiente por su error típico. Por ejemplo, para X,,: “t =-,348/ ,101 = 3,44”; igual para la cons-
tante: 3,786 /,400 = 9,46.
Como todos los valores t empíricos superan el correspondiente valor t crítico (1,96, para un
nivel de significación de ,05), se rechaza la hipótesis nula. Esto significa que todos los coefi-
cientes son significativos estadísticamente y, en consecuencia, inferibles a la población a la que

pertenece la muestra analizada. En la tabla A puede verse que la significatividad es plena. Sal
vo en la variable “sexo” (que es significativa a un nivel de ,05), los demás coeficientes, incluyendo
la constante, lo son a un nivel de ,01: la t empírica supera el valor teórico para Y =,01 (2,576).
Al ser todos los coeficientes significativos, se calculan los intervalos de confianza. En la
tabla A figuran los límites inferiores y superiores del intervalo de confianza para la inferencia
de cada coeficiente a un nivel de confianza del 95%, que equivale a un nivel de significación
o probabilidad de equivocarnos en la inferencia (de rechazar la hipótesis nula cuando real-
mente es cierta) del 5%. Por ejemplo, para la variable X¿, hay un 95% de probabilidad de que
su coeficiente de regresión parcial en la población sea un valor comprendido en el intervalo
que va de ,507 (,558 - [1,96][,026)) a ,610 (,558 + [1,96][,026)). La estimación muestral es,
exactamente, ,558. En consecuencia, el intervalo no es muy amplio. En las otras variables las
oscilaciones son mayores.
* Los coeficientes de regresión parciales (no estandarizados) son de utilidad en la pre-
dicción del valor promedio de Y. Si quiere conocerse la importancia relativa de cada vanable
independiente en la predicción de Y hay que acudir a coeficientes estandarizados o coefi-
cientes beta. Los coeficientes no estandarizados se ven afectados por la unidad de medición
de la variable, lo que dificulta la comparación entre ellos. Para ello hay que proceder a su es-
tandarización, multiplicando cada coeficiente de pendiente (“b”) por el cociente de la desviación
típica de la variable independiente y la desviación típica de la variable dependiente. Por ejem-
plo, para X; el coeficiente beta (“P”) es igual a: “,558 — 2,2478/2,7276 = ,460”. Las desviaciones
típicas de todas las variables analizadas se incluyen en el subapartado 1.3.2.
Los coeficientes beta se calculan para todas las variables independientes, pero no para la
constante porque las puntuaciones Z suponen desviaciones respecto de la media, lo que im-
plica su traducción al origen. Su valor se ve afectado, al igual que los coeficientes no estan-
darizados (“b”), por la correlación existente entre la variable independiente correspondiente y
las demás independientes en la ecuación. Pero, al estar todos los valores expresados en la mis-
ma unidad de medición (unidades de desviación típica), permiten la comparación entre ellos y
conocer qué variable independiente contribuye más a la predicción de Y. Ésta es su utilidad prin-
cipal (la “comparación” de los efectos de cada variable predictora) y no la predicción de Y.
A diferencia de los coeficientes “b”, los “f” han de tener un valor entre O y +1. Todo valor su-
perior a 1 indica la existencia de multicolinealidad. El mayor coeficiente f[£ corresponde a X;
(,460). Precisamente, ésta es la variable independiente más correlacionada con Y (r = ,593). Le
sigue en importancia X,y (-,258), la segunda más correlacionada con Y (r =-,476). X, es, en
cambio, la variable de menor coeficiente $ (-,049) y, a su vez, la menos correlacionada con
Y (r =-,050). Estas correlaciones figuran en la matriz de correlaciones (subapartado 1.3.2).
Pero, aunque en estas tres variables la correspondencia entre los coeficientes $ y los de
correlación sea cierta, no lo es en todas las variables. X ¿y es la cuarta variable independiente
con mayor coeficiente $ (-,086), pero la tercera más correlacionada con Y (r =—,396). De la
comparación de los coeficientes [$ con los coeficientes de correlación (en la matriz de co-
rrelaciones), puede concluirse que la correlación bivariada con la variable dependiente no de-
termina la inclusión de la variable independiente en la ecuación de regresión. La variable X,
(“sexo”), por ejemplo, es de las 14 variables la menos correlacionada con Y, si bien logra ser
incluida en la ecuación de regresión. En cambio, variables más correlacionadas con Y, como
X, (r =,281) o Xg (r = -,294) han quedado excluidas del modelo. La explicación a su exclu-
sión está en la correlación que estas variables tienen con variables previamente incluidas en
la ecuación de regresión, al mostrar mayor poder predictivo de Y.
+ Del producto de los coeficientes beta y los coeficientes de correlación se extrae el por-
centaje de varianza de Y que cada variable independiente logra explicar. En concreto, la con-
tribución de cada variable independiente en la predicción del valor medio de Y. Ésta se mues-
tra en la tabla B.
Tabla B
Variables r B rxB
X; ,593 ,460 ,2728

Xi -,476 -,258 ,1228
X, ,302 ,099 ,0299
X6 -,297 —,082 ,0243
Xi3 -,396 —,086 ,0341
X —,050 —,049 ,0025
48,64% es el porcentaje de varianza de Y que logra explicar el modelo de regresión in-

tegrado por estas seis variables independientes. X, es la variable independiente que mayor
proporción de varianza explica (27,28%), seguida por X,, (12,28%). Sólo estas dos variables
predictoras explican el 39,56% de la varianza de Y. Las cuatro variables restantes apenas con-
tribuyen en la predicción de Y. X,, es la tercera variable predictora en importancia, pero a dis-
tancia de las anteriores (explica el 3,41% de la varianza de Y); X,, la cuarta, al explicar el
2,99%. La variable “sexo” (X,) apenas es relevante en la predicción de Y: no logra explicar
ni un 1% de su variabilidad (exactamente, el 0,25%). Aunque exista una mayor predisposi-
ción en los varones a manifestar una menor simpatía hacia los norteafricanos que en las mu-
jeres, el conocimiento de la variable “sexo” apenas es de utilidad para predecir Y. Respecto
a la variable “simpatía norteafricanos” las diferencias por género son casi inapreciables, lo que
puede llevar a reconsidererar su inclusión en el modelo de regresión.
. Al ser los coeficientes beta los que mejor representan la contribución de cada variable
independiente en la predicción de Y, éstos son los coeficientes que normalmente se utilizan
en la representación gráfica del modelo de regresión. En este modelo, como no se ha incluido
ningún término de interacción, su representación gráfica es la siguiente:
Simpatía hacia
latinoamericanos
,460
Po Casarse con marroquí -,258

= ,099 Simpatía hacia
l Leyes de inmigración A 0,82 norteafricano
L N.? de inmigrantes 088

—,04
P Vecino marroquí
| Sexo
+ Las otras ocho variables independientes analizadas han quedado excluidas del modeio
de regresión. Ninguna de ellas presenta un coeficiente de regresión significativo, como
puede verse en la tabla C. La significatividad de los coeficientes supera el valor de referen-
cia habitual de ,05, al ser los valores t empíricos inferiores a 1,96.
Además de la significatividad y el valor t, en la tabla se incluyen los coeficientes beta den-
tro y de correlación parcial. Beta dentro es el coeficiente de regresión estandarizado que
tendría la variable si se incorporase al modelo de regresión. Todos ellos son valores muy ba-
jos. En cambio, el coeficiente de correlación parcial expresa la correlación de cada variable in-
dependiente con la dependiente, cuando los efectos de las otras variables independientes se
mantienen constantes. Elevando su valor al cuadrado, se obtiene la proporción de varianza de
la “no explicada” de Y por el modelo de regresión (51,36%) que quedaría explicada si dicha va-
riable independiente se incluyese en el modelo. Por ejemplo, X, es la variable que mayor coe-
ficiente de correlación parcial tiene (,051). Este coeficiente no significa que dicha variable ('re-
gularizar a inmigrantes”) explique el 5,1% de la varianza “sin explicar” de Y. Para conocer
realmente qué proporción de varianza explica, hay que elevar dicho coeficiente al cuadrado:
,051? = ,0026. El 0,26% del 51,36% de la varianza “no explicada” de Y sería explicada incor-
porando la variable X, al modelo de regresión. Exactamente, “,5136 x ,0026 = ,0013”, una pro-
porción de varianza totalmente insignificante. X,, al igual que las otras siete variables, no apor-
ta nada a la predicción de Y. Su conocimiento no ayuda a reducir el error de predicción de Y.
Tabla C
Variables excluidas Beta dentro t Sig. Correlación

del modelo de regresión parcial
X, ideología política -,018 -,868 ,386 —,024

X, edad ,009 ,430 ,668 ,012
X, regularizar inmigrantes ,040 1,820 ,069 ,051
Xy entrada inmigrantes -,028 -1,233 ,218 —,035
Xy partido racista -,001 -,047 ,963 —,001
X,, estudios ,012 ,986 ,958 ,016
X ¡2 ingresos -,021 -1,026 ,305 —,029
X ¡4 inmigrante delincuente -,038 -1,741 ,082 —,049
1.5. La evaluación del modelo
La evaluación del modelo de regresión incluye distintos aspectos relacionados con

el ajuste del modelo y su significatividad (estadística y lógico-sustantiva). También se
analizan los casos “atípicos”, aquellos que no han logrado explicarse con el modelo pre-
dictivo obtenido.
1.5.1. El ajuste del modelo de regresión

Estimada la ecuación de regresión, interesa conocer lo bien que el modelo obte:
nido logra predecir la variabilidad de la variable dependiente. Esto puede saberse, pri:
mero, con la ayuda de gráficos, en los cuales se trata de comprobar lo bien que la nu-
be de puntos se “ajusta” a la recta o plano de regresión. A estos gráficos se ha hecho
referencia en páginas anteriores.
Pero, aunque los gráficos ayudan a visualizar el “ajuste”, la distancia que separa los
puntos de la recta (o plano) se mide, de forma más precisa, mediante el coeficiente de
correlación múltiple cuadrado (R?). Éste constituye una medida de proximidad rela-
tiva, empleada en el análisis de regresión para evaluar la bondad de ajuste del modelo.
La proximidad se mide como la proporción de varianza de la variable dependiente que
queda explicada por la recta (o plano) de regresión.
“R2” también se refiere como coeficiente de determinación. Su valor expresa la pro-
porción de variación total de la variable dependiente que es “determinada” o explicada
por las variables independientes que conforman la ecuación de regresión. El rango de
valores posibles va de 0,0 a 1,0. Un valor de R? = 1,0 indica que el modelo de regresión
logra explicar completamente la varianza de la variable dependiente. Esta situación se
produce cuando todos los puntos caen en la recta (o plano) de regresión. En cambio,
un R? = 0,0 denota que el modelo de regresión carece de poder predictivo. Ningún pun-
to coincide con la recta de regresión. Ambas situaciones son, no obstante, difíciles de
encontrar en la práctica investigadora. Tan improbable es obtener una ecuación de re-
gresión que logre explicar toda la variabilidad de la variable dependiente, como con-
seguir una que no explique nada. Lo habitual son valores intermedios.
El coeficiente de determinación es el cuadrado del coeficiente de correlación R. Es-
te último expresa el grado en que la variación de la variable dependiente se halla re-
lacionada con las variaciones, simultáneas, de las variables independientes en la ecua-
ción. Cuando se considera sólo una variable independiente, el valor de “R” figura
acompañado de un signo (*+”, “—”). Éste informa si ambas variables se mueven en la
misma dirección (signo positivo) o en direcciones contrarias (signo negativo) omo
se expuso en los subapartados 1.3.2 y 1.4.1-.
Cuando se analiza la relación de dependencia con dos o más variables indepen-
dientes, el valor del coeficiente de correlación R múltiple aparece sin signo (ni positi-
vo ni negativo). Ello se debe a que se analiza, conjuntamente, la influencia de la serie
de variables independientes en la dependiente. Lo normal es que no coincida la di-
rección de la relación de cada variable independiente con la dependiente. Por eso, al
analizarse su influencia conjunta, el signo se anula. El coeficiente R múltiple sólo indica
el grado de correlación entre las variables afectadas, pero no la dirección de la relación
entre ellas. Esta última información la proporciona los coeficientes de pendiente y los
coeficientes de correlación bivariable (en la matriz de correlaciones).
La variación total de la variable dependiente (o suma total de cuadrados, TSS) con-
sidera las desviaciones de la variable dependiente observada en cada uno de los casos
N —
de la muestra (i = 1, 2, 3...N) respecto de la media de Y: y (Y, — Y Y. Su valor es igual

i=1
a la suma de dos partes: una, la variación que queda explicada por la ecuación de re-
gresión (o suma de cuadrados de regresión, RSS), que mide la desviación de cada va-
N A —
lor estimado de Y respecto de la media de Y: > (Y, - Y Y; dos, la variación residual,

i=1
la que queda sin explicar por la ecuación (o suma de cuadrados residual, ESS), que con-
sidera la desviación de cada: valor observado de Y respecto al predicho por el mode-
lo de regresión obtenido: y (Y, - YY.
¡=1
El coeficiente de determinación R? múltiple, como medida de bondad de ajuste del

modelo de regresión, se obtiene del cociente entre la suma de cuadrados de regresión
(RSS), la variación que queda explicada, y la variación total (ISS). Cuanto mayor es
RSS respecto a TSS, mejor es el ajuste del modelo. El valor de R? se halla muy próximo
a 1,0. Los valores observados de Y coinciden con los predichos ($, ). Los puntos se si-
túan todos alineados en el plano de regresión. En caso contrario, su valor se aproxima
a 0,0; los residuos (E, = Y; — Y) son muy elevados, siendo el ajuste extremadamente ma-
lo. El conocimiento de las variables independientes no ayuda a la predicción de Y, al
ser variables totalmente independientes unas de otras. En este caso, el plano de re-
gresión no ajusta los valores de Y mejor que su media.
Za Ñ RSS
y 7 T5S=RSS+ ESS
=1
-.
El valor de R? se toma como medida de reducción proporcional en el estadístico

de error. Mide la proporción (o porcentaje, si se multiplica por 100) en que el mode-
lo de regresión reduce el error de predicción de Y, relacionado con predecir la media
de la variable dependiente (Y). Por ejemplo, un valor de R? múltiple igual a ,613 sig-
nifica que el 61,3% de la variación (sobre la media) en la variable dependiente es ex-
plicada por la variación en las variables independientes, que conforman el modelo de
regresión, sobre sus medias respectivas. El conocimiento de los valores de las variables
independientes logra reducir en un 61,3% el error de predicción de la variable de-
pendiente.
Un valor de R? próximo a 0,0 no siempre se debe a la inexistencia de relación en-
tre las variables independientes con la dependiente; también puede ocurrir que
no se hayan incluido variables predictoras relevantes en el modelo. Berry y Feldman
(1985) destacan otros dos factores como contribuyentes a una baja varianza explicada
de Y:
a) Un elevado error de medición en las variables.

b) Fallos en la especificación de la forma funcional de la ecuación de regresión.
Relacionado con esto, señalan dos limitaciones importantes de R? como medida de

bondad de ajuste (Berry y Feldman, 1985: 15).
a) Su valor se halla determinado por la muestra analizada: las regresiones llevadas a

cabo en dos muestras diferentes pueden producir idénticos coeficientes de pendiente
parcial pero, en cambio, sus respectivos R? pueden diferir considerablemente de una
a otra muestra. Ello se debe a diferencias en la varianza de Y en las muestras.
bj) El empleo de R? puede ser engañoso, si se intenta comparar la bondad de ajus-
te relativa de diferentes modelos de regresión con un número distinto de va-
riables independientes. La razón está en que el valor de R? siempre tiende a au-
mentar (aunque sea poco) cuando se añaden nuevas variables a la ecuación,
incluso cuando éstas apenas tienen efecto en la variable dependiente. De hecho,
cuando el número de variables independientes (p) se aproxima al número de ca-
sos de la muestra (N), el valor de R? se aproxima a 1,0.
Para obviar esta última limitación, se introduce un ajuste en R? que corrige la so-
breestimación de R?, cuando no se mantienen las debidas proporciones de número de
casos por variables predictoras. El R? ajustado (R?, también referido R?) queda defi-
nido de la siguiente forma:
R? 2 POR)
: N-p-1
Donde: “R?” es el coeficiente de determinación múltiple.

“p” el número de variables independientes o predictoras.
“N” (o “n”) el tamaño de la muestra analizada.
El valor de R? generalmente coincide con el correspondiente a R?, salvo cuando el

tamaño de la muestra es insuficiente en relación con las variables independientes en
el análisis. Al menos debe haber 20, e incluso 10 casos por variable predictora (véase
subapartado 1.1.1). Cuando se está próximo a estos límites mínimos, el valor de R? es
inferior a R?. Tanto más, cuanto menor es la proporción de casos por variables pre-
dictoras. Además, el valor de R? disminuye cenforme se añaden variables indepen-
dientes a la ecuación de regresión, a diferencia de R?, que siempre aumenta (aunque
sea poco). Esta disminución en el valor de R? responde a la ya referida merma en la
proporción de casos por variable independiente que se precisa para la adecuada rea-
lización de los análisis (R? puede incluso tomar valores negativos).
Además de cumplir esta finalidad de “ajuste”, R? es de utilidad en la comparación
de modelos de regresión estimados en muestras diferentes y con diversas variables pre-
dictoras.
1.5.2. El error de predicción
Otro estadístico de utilidad en la comprobación de la bondad de ajuste del modelo

de regresión es el error típico de la estimación de Y (también denominado Se o 0). És-
ta es una medida de la adecuación del modelo para la predicción de Y. Se define a par-

N A
tir de la suma de errores cuadrados de regresión »> (Y, - Y,Y ) la suma de las des-
i=1 fu
viaciones de cada valor Y observado respecto a su correspondiente valor predicho (Y)

mediante la ecuación de regresión. Cuanto mayor es la distancia entre ambos valores
mayor es el error de predicción.
El error de predicción depende de la confluencia de varios factores. Principalmente,

las variables independientes que se hayan incluido o excluido del modelo, y de la co-
relación que exista entre ellas. Su valor aumenta conforme se incrementa la corre-
lación entre las variables independientes, ya sea con otras incluidas en el modelo (co-
linealidad), ya con aquellas que han quedado excluidas. El error de predicción se ve
muy afectado por la exclusión de variables predictoras relevantes y, en general, por una
incorrecta especificación de la relación entre las variables.
El conocimiento del error de predicción (el error promedio en la predicción de la
variable dependiente) interviene a efectos inferenciales: inferir, a partir del modelo de
regresión, el valor de la variable dependiente en la población de interés. La inferencia
se realiza en términos de probabilidad, la cual determina, junto al error, la amplitud del
intervalo de confianza para la predicción de Y. También afecta el tamaño de la mues-
tra empleada en la estimación de los coeficientes de regresión, además del número de
variables independientes utilizadas en la predicción de Y:
Intervalo de confianza = Y, + (t x Se)
Donde “t” es el percentil “100(1-0/2)” de la distribución “t” de Student con “N -

p — 1” grados de libertad. El valor de la variable dependiente estimado ($) se inter-
preta como una estimación de la media de Y en las “p” variables independientes.
1.5.3. La significatividad del modelo
Una vez estimado el error de predicción del modelo, corresponde la comprobación

de su significatividad. En el subapartado 1.4.3 se trató la significatividad de los coeficien-
tes de regresión estimados por separado (mediante la razón “t” de Student). Ahora se
trata de comprobar si el efecto conjunto de todas las variables independientes que
han mostrado ser relevantes en la predicción de Y difiere significativamente de cero o
no. La hipótesis nula adopta la siguiente formulación: “Hp; B, = P,= P,=... = PB, = 0”; la
media de Y es tan adecuada en la predicción de Y como el modelo de regresión. La hi-

pótesis alternativa se formula, en cambio, en términos de desigualdad: “H.; B, = PB, = P,
=...= B, 4 0”. No se comprueba si cada uno de los coeficientes “b” (se excluye el in-
tercepto, “a”) es, individualmente, igual o diferente de cero, sino si tomados en conjunto
son simultáneamente iguales (A,) o diferentes de cero (H,), como dice el modelo esti-
mado. El rechazo de la hipótesis nula, al nivel de Sibolficación elegido, supone la co-
rroboración del modelo. Éste es estadísticamente significativo. Después, habrá que
comprobar si lo es, igualmente, desde la vertiente lógico-sustantivo, si tiene un significado
lógico y se adecua al modelo teórico tomado de referente.
La comprobación de la significatividad del modelo en su conjunto se realiza me-
diante la razón “F”. Ésta se define como la razón (o cociente) entre varianza explicada
de Y por el modelo de regresión y la varianza residual:
R?/p _ RSS/G.L. Regresión

ARAN =p=D> ESS/G.L. Residual
Los grados de libertad (g.1.) de regresión son iguales a “p” (número de variables in-
dependientes en el modelo); y g.1. residual a “N — p — 1”. Todos estos valores se incluyen
en la tabla ANOVA (análisis de varianza) en el análisis de regresión múltiple: |
Fuente de Suma de Grados de Media Razón Significatividad

variación cuadrados libertad cuadrática “po “F”
N 5 7 Contraste de los
Regresión 2 ¿7 Y) p RSS /p valores “F” empí-
¡
Residual 2
Y, —
:
pa )
=p- less A e |a
ESS/N — p=1|
1
de libertad a un
N nivel de significa-
Total y, (Y, - Y y N=1 TSS/N-1 ción determinado
i=1
El modelo de regresión adquiere significatividad estadística cuando la razón “F” em-

pírica supera a la teórica a un nivel de significación concreto, usualmente, “,05”, que sig-
nifica una probabilidad de acierto al rechazar la hipótesis nula del 95%. Para que el re-
chazo de la hipótesis nula sea posible, la significatividad asociada a la razón “F” ha de ser,
al menos, “<,05”. Lo que permitiría concluir que la predicción de la variable dependiente
a partir de la ecuación de regresión estimada es significativa estadísticamente, no pu-
diéndose atribuir a la casualidad. Por el contrario, cuando la significatividad de la razón
“F” supera el valor “,05” (si éste ha sido el nivel de significatividad elegido), se acepta la
hipótesis nula. Lo que supone la no significatividad del modelo estimado. No hay evi-
dencia suficiente para asegurar que la varianza explicada de la variable dependiente por
el modelo de regresión no pueda atribuirse a variación muestral aleatoria.
EsemeLo DE COMPROBACIÓN DEL AJUSTE DEL MODELO DE REGRESIÓN [-
Como ya se avanzó, el modelo de regresión (estimado mediante el procedimiento “pa-

so a paso” de inclusión y eliminación de variables), integrado por las variables independientes
Xos Xy01 Xy2 Xgs X ¡9 y Xy es estadísticamente significativo, a decir por la prueba de signifi-
catividad F realizada. En la tabla A se descomponen sus integrantes.
Tabla A
Fuente de Suma de | Grados de Media Razón Significatividad |

variación cuadrados libertad cuadrática up” 4?
Regresión | 4627,827 6 771,304 |

Residual 4887,883 1273 3,840 200,879 ,000 ¡
Total 9515,710 1279 7,440
El coeficiente de correlación múltiple es igual a ,697, lo que significa que el grado de re-
lación conjunta entre las seis variables independientes con la dependiente es muy importante.
Recuérdese que un valor próximo a 1,0 indica correlación perfecta entre las variables. Este
coeficiente no va acompañado de signo porque la dirección de la relación de cada variable
independiente con la dependiente (positiva o negativa) no coincide. En las variables X; y X,
es positiva, mientras en X109 X6> X13 Y X, es negativa. Elevando este coeficiente al cuadrado
se obtiene el coeficiente de correlación múltiple cuadrado o coeficiente de determinación (R?):
,697? = ,486. De acuerdo con este coeficiente, traducido a términos porcentuales, el 48,6%
de la variación (sobre la media) en la variable dependiente es explicada por la variación en
las variables independientes que integran el modelo de regresión, sobre sus medias. Esto sig-
nífica que el conocimiento del valor de las variables independientes logra reducir en un 48,6%
el error de predicción de Y, cantidad nada desdeñable. Casi la mitad de la varianza de Y es
explicada por la conjunción de seis variables predictoras. El ajuste de la nube de puntos al hi
perplano es bueno, aunque no perfecto. Queda un 51,4% de su variabilidad sin explicar, al
estar afectada por otras variables no consideradas.
R? se obtiene del cociente entre la suma de cuadrados de regresión (la variación expli-
cada) y la suma de cuadrados total (varianza total de Y): 4627,827 / 9515,710 = 486.
El coeficiente R? ajustado, que corrige la sobreestimación de FA? cuando el tamaño
muestral es pequeño en relación con el número de variables independientes analizadas, ape-
nas difiere del anterior, debido a que la proporción de casos por cada variable independiente
es muy elevada: FÉ = 484 . Este valor se obtiene aplicando la fórmula siguiente:
_ 2 ==
r? = R? _ p(t R ) _ 6- 6(1 ,486)
a N-p-1 ” = ,484
1280-6-1
El error típico de estimación de Y se calcula, en cambio, a partir de la suma de cuadra-

dos residual (la variación residual de Y, la que queda sin explicar por el modelo de regresión).
Mide el desajuste de la nube de puntos respecto al hiperplano: la no coincidencia entre los
valores Y observados en la muestra con los estimados por la ecuación de regresión. En es-
te modelo, el error típico de la estimación ha sido 1,9595. Su valor se obtiene mediante la si-
guiente ecuación:
E Y 4887,883
= = 1,9595
N-p-1 1280 -6-1 9
Como ya se vio en el subapartado 1.4.3, el valor del error determina la amplitud de los in-
tervalos de confianza en la predicción de Y, a un nivel de probabilidad determinado.
Por último, el modelo de regresión estimado en la muestra es inferible al universo, al ser
significativo estadísticamente. La F empírica (200,879) supera bastante su correspondiente
valor teórico (2,10), para un nivel de significatividad de ,05 y 6 y 1.273 grados de libertad. El
rechazo de la hipótesis nula (la media de Y es tan adecuada en la predicción de Y como el
modelo de regresión) era predecible por el elevado tamaño de la muestra. La F empírica es
el resultado de la razón siguiente:
_ RSS/p _ 4627,827/6 _ 771,304

= 200,879
— ESS/N-p-1 4887/1273 — 3,840
+ En una comprobación posterior de la validez del modelo de regresión, se procedió a la

división aleatoria de la muestra total en dos submuestras iguales: la muestra de análisis y
la de validación. En ambas se obtuvieron resultados similares, aunque no idénticos, que se
resumen en la siguiente tabla:
Tabla B
Fuente de Suma de Grados Media Razón | Sign. Ajuste del modelo

variación cuadrados libertad cuadrática PP” e” de regresión
ANÁLISIS + ANÁLISIS
Regresión 2.421,903 5 484,381 R ,721
Residual 2.241,519 629 3,564 [135,924 | ,000 r?2 ,519
Total 4.663,422 634 7,356 R?, 1516
Error típico est. 1,8878
VALIDACIÓN * VALIDACIÓN
Regresión 2.337,153 5 467,431 R ,717
Residual 2.207,797 619 3,567 [131,053 | ,000 r? 1514
Total 4.544,951 624 7,284 AA, ,510
Error típico est. 1,8886
En ambas submuestras, el modelo de regresión es bastante significativo, al ser la pro-

babilidad de error al rechazar la hipótesis nula (cuando en realidad es cierta) inferior al 1%.
El porcentaje de varianza explicada es prácticamente igual: 51,6% en la muestra de análisis

y 51%, en la muestra de validación (de acuerdo con el estadístico R cuadrado corregido o
ajustado, R?). El error típico de la estimación también es similar (1,8878 en la muestra de aná-
lisis y 1,8886 en la muestra de validación) y ligeramente inferior al obtenido con la muestra
entera. Obsérvese que ello se debe a que el modelo de regresión obtenido tras la división
aleatoria de la muestra total logra un mejor ajuste (la aproximación de la nube de puntos aj
hiperplano es mayor) que cuando se analiza la muestra en su conjunto (en esta ocasión el va-
lor A? es ,484, que es igual a un 48,4% de varianza explicada). Además, adviértase que el
modelo antes incluía seis variables independientes. Ahora, se obtiene un modelo que explica
un 3,2% más de la variabilidad de Y (la muestra de análisis), pero con sólo cinco variables in-
dependientes. La variable “sexo” (X,) queda excluida del modelo, al dejar de ser significati-
va en la predicción de la variable dependiente. Las otras cinco variables independientes con-
firman, en cambio, su poder predictivo en la ecuación de regresión. Si bien, la variable X,.
(“vecino marroquí”) muestra ahora mayor contribución a la predicción de la variable depen-
diente que la variable X¿ (“número de inmigrantes”).
Respecto a la eliminación de la variable X¿ ésta era de esperar, no sólo porque dicha va-
riable es, de las incluidas en el modelo, la menos correlacionada con Y, sino sobre todo por-
que su incorporación al modelo suponía un ligero incremento en los niveles de colinealidad,
a decir por su valor en el índice de condición (subapartado 1.1.8). La tabla C detalla la com-
posición, bastante similar, del modelo de regresión en ambas submuestras. Además, la con-
tribución de sus cinco variables explicativas en la predicción de Y (“simpatía hacia nortea-
fricanos: marroquíes...”) es parecida a la extraída en la muestra total. Para comprobar lo dicho,
compárense estos resultados con los incluidos en el subapartado 1.4.3.
Tabla C
Coeficientes no Coeficientes
estandarizados estandarizados
Modelo de regresión t Sig.7
B Error Beta
típico
. MUESTRA DE ANÁLISIS
(Constante) 3,595 536 6,705 ,000
X, simpatía latinoamericano ,589 ,035 ,494 16,598 | ,000
Xy Casar con marroquí -,515 ,096 -,192 -5,387 | ,000
X, leyes inmigración 1211 ,079 ,080 2,651 | ,008
X,¿vecino marroquí -,417 ,135 -,106 -3,098 | ,002
X¿número de inmigrantes -,358 ,130 084 -2,752 | ,006
. MUESTRA DE VALIDACIÓN
(Constante) .3,238 | ,583 5,554 | ,000
X, simpatía latinoamericano ,586 ,036 ,487 16,193 | ,000
Xp Casar con marroquí -,540 ,096 -,202 -5,628 | ,000
X, leyes inmigración ,302 ,083 114 3,651 | ,000
X,¿vecino marroquí -,488 ,139 -,122 -3,499 | ,001
X¿número de inmigrantes -,284 | ,136 -,066 -2,097 | ,036
1.5.4. La detección de “atípicos”
La evaluación del modelo de regresión incluye también la detección de “atípicos”

(o “outliers”). Por “atípico” se entiende toda observación que no ha quedado bien re-
presentada por el modelo de regresión. Son observaciones no coincidentes con el res-
to de los casos analizados, y van acompañadas de residuos elevados: existe una gran dis-
paridad entre la respuesta observada (Y) y la predicha a partir de la ecuación de
regresión ($. Su presencia apenas influye en la adecuación del modelo, si sólo afec-
ta a unos casos esporádicos. Pero cuando son varios los casos afectados, urge la adop-
ción de alguna medida para paliar los efectos negativos que su presencia tiene en la re-
solución del modelo de regresión.
La detección o identificación de “atípicos” puede efectuarse con ayuda de gráficos
y/o estadísticos concretos. Los gráficos de residuos constituyen una vía rápida y sencilla
para detectar “atípicos”. Entre los gráficos más aplicados en la detección de “atípicos”
destaca el histograma de frecuencias de residuos estudentizados. Este gráfico ya fue des-
crito, en general, en el subapartado 1.1.6. Puede realizarse con residuos estandarizados
o estudentizados. En la identificación de “atípicos” se prefiere, no obstante, los residuos
estudentizados (E,) con preferencia a los estandarizados (E, 2 (Sen y Srivastava,
1990). Mediante ambos tipos de residuos, toda observación con residuos superior a 2
(desviaciones típicas) se considera un posible “atípico”. Este valor de referencia res-
ponde al nivel de significación más aplicado en la investigación empírica: ,05 (que su-
pone una probabilidad de acierto del 95%). A este nivel de significación, el valor “z”
y “t” teóricos (siempre que los grados de libertad de este último sea superior a 120) es
1,96. De este modo, todo residuo (estandarizado o estudentizado) superior a este va-
lor se identifica como estadísticamente significativo. Su confirmación precisa, no
obstante, un análisis más profundo. Cuando el residuo es mayor de 3, su calificación co-
mo “atípico” es más clara. En el histograma todos los casos con valores superiores a
3,16 o menores de -3,16 aparecen en el intervalo etiquetado “out” (fuera).
En la identificación de “atípicos” también es de gran utilidad el gráfico de líneas de
residuos estudentizados. En este gráfico, toda observación con residuos positivos o ne-
gativos muy elevados (se aplican los mismos valores de referencia que en el histograma)
se consideran “atípicos”; es decir, observaciones que no han quedado bien represen-
tadas en la ecuación de regresión. La figura 1.10 incluye el gráfico de líneas de residuos
estudentizados que corresponde al análisis de regresión aquí realizado para la mues-
tra total.
Otro gráfico que puede ayudar en la detección de “atípicos”, de más reciente apli-
cación, es el gráfico de residuos brutos, E, (en el eje vertical) y eliminados, E; (en el
horizontal). Estos últimos reflejan el cambio en el ajuste de la ecuación de regresión
cuando el caso “ji” es eliminado. A diferencia del gráfico de residuos estandarizados,
en este gráfico, la nube de puntos debería aproximarse a una recta, desde el origen, de
457, con una pendiente de 1. Todo caso que se aleje de dicha recta se considera un po-
tencial “atípico”. Tanto más, cuanto mayor sea su distancia a la recta. La figura 1.11 ilus-
tra la aplicación de esta modalidad gráfica con los datos aquí analizados (la muestra to-
tal). La nube de puntos se ajusta a la recta de 45% y pocos puntos se distancian d

ella. Si se compara con el gráfico de la figura 1.10, la identificación de posibles “ati
picos” se evidencia más en el gráfico de líneas de residuos estudentizados que en est=
último.
“mu
Oo
TD
a
3
a
o
yo]
2“M
o
mn
Oo
23
3“
Y
6 ' TT 1 1 vo TT I I 1 I I T T I T T
251 501 751 1.001 1.251 1.501 1.751 2.001 2.251
126 376 626 876 1.1126 1376 1.626 1.876 2.126 2.376
Número de caso
Figura 1.10. Gráfico de líneas de residuos estudentizados.
10
Residuos brutos
T
-10 4 10
Residuos eliminados
Figura 1.11. Gráfico de residuos brutos (o no estandarizados) y eliminados.
A estos gráficos hay que añadir los gráficos de regresión parcial, que permiten la iden
tificación de “atípicos”, pero para cada relación de la variable dependiente con cada in
]
dependiente, por separado. Asimismo, es de utilidad el gráfico de residuos parcial que

considera la correlación parcial de cada variable independiente con la dependiente, des-
pués de eliminar el efecto de las otras variables predictoras en el modelo. A veces, tam-
bién se aplican el gráfico de caja en la identificación de “atípicos”, pero su uso es menos Y
4
habitual. En este último gráfico, los datos se representan en una caja alrededor de la me-
dia. Todo caso que se sitúe lejos de la caja se considera un posible “atípico”. La figura 1.12
incluye el gráfico correspondiente a los datos del ejemplo.
4 O 698
1.195
1.017
1.556
4 — 1.497
246
8
N= 1.389
Residuos estudentizados
Figura 1.12. Gráfico de caja con residuos estudentizados.
e Además de los gráficos, existen estadísticos específicos que ayudan a identificar,

de forma más precisa, el grado al que una observación es un “atípico”. Entre los más
aplicados destacan los siguientes:
— La distancia D, de Cook, algunas veces también referida“C,” (Nourisis, 1986;

Graybill e Iyer, 1994), se define como función de los residuos estudentizados eli-
minados (E — ) o SDRESID), definido en el subapartado 1.1.10, y los elementos
de la diagonal, “h, ”, de la matriz H, mediante la expresión siguiente:
D. = Exei hi
p+i 1h,
Esta distancia se calcula para cada una de las N observaciones que componen
la muestra. Mediante ella se comprueba la cantidad en que varían las estimacio-
nes de los coeficientes de regresión, si la observación “i” se elimina del análisis.
Concretamente, proporciona una medida de la distancia entre el valor del coefi-
ciente de pendiente cuando se utilizan todas las observaciones en el cálculo de la
ecuación de regresión y cuando se omite la observación “i”. Toda observación que

presente un valor elevado, D; > E +1N-p-1 UN nivel de significación concreto
(normalmente, “,05”), se considera un posible “atípico” (y se recomienda un exa-
men riguroso). Los casos con mayores valores de distancia coinciden con aquéllos
cuya eliminación provoca una mayor variación en los coeficientes de regresión. Es-
to suele acontecer bien cuando la observación presenta un residuo estudentizado
muy elevado, o bien cuando la razón “hi; (1 — h,¡)” es también elevada. Esto úl-
timo se conoce como valores “leverage”. Se obtienen de comparar la distancia del
valor de un caso desde las medias de todas las variables independientes. Los ca-
sos con valores “leverage” superiores a “2p/N” (donde “p” es el número total de
coeficientes, incluyendo el intercepto) se consideran “atípicos”.
Cook y Weisberg (1982) proponen que toda observación con una distancia de
Cook superior a 1 es un posible “atípico”. Hutcheson y Sofroniou (1999) prefie-
ren no utilizar ese valor de referencia genérico, e incluso conservador. Proponen
un punto de referencia calculado a partir del cociente siguiente: “4 / (N — p)”.
- La medida de distancia de Welsch-Kuhn, más conocida como DFFITS, mide si-
multáneamente la influencia en el coeficiente de regresión y en la varianza.
Guarda bastante similitud con la distancia de Cook:
DFFITS, = Evo Ah.

ho,
Toda observación que presente un valor absoluto de DFFITS > 2Vp/N se

considera un posible “atípico”.
e La detección de “atípicos” también puede limitarse a un diagnóstico por caso. Se

identifican los casos con un residuo estandarizado (ZRESID) superior a un valor da-
do. Lo más habitual (y así lo aplica el programa SPSS, por ejemplo, por defecto) es fi-
jarlo en 3. Se suele escoger este punto de referencia (o de corte) porque, si los datos es-
tán normalmente distribuidos, la probabilidad de alcanzar un valor superior a 3 es
bastante baja. Además, ya se dijo que todo caso con un residuo estandarizado superior
a +3,0 o inferior a 3,0 es un claro “atípico”. Cuando el residuo se sitúa entre 2,0 y
3,0, se precisa confirmación por otros procedimientos.
EsemeLo DE IDENTIFICACIÓN DE “ATÍPICOS”
La aplicación de gráficos en la identificación de atípicos ya se ha ilustrado en las figuras

1.10, 1.11 y 1.12, además del histograma y de los gráficos de regresión parcial descritos en
páginas precedentes. A continuación figuran los “atípicos” obtenidos tras fijar como punto de
“corte” todo residuo estandarizado (o tipificado) superior a +3,0 o inferior a —3,0.
Diagnósticos por caso?
Número Residuo Simpatía Valor Residuo

de caso tip. marroquí | pronosticado bruto
246 — 4,284 ,00 8,3941 — 8,3941

353 — 3,224 ,00 6,3181 - 6,3181
369 — 3,263 ,00 6,3946 — 6,3946
698 4,217 10,00 1,7374 8,2626
727 — 3,438 ,00 6,7365 — 6,7365
1.017 3,137 9,00 2,8528 6,1472
1.149 3,339 10,00 3,4570 6,5430
1.195 3,356 10,00 3,4233 6,5767
1.497 - 4,015 ,00 7,8677 — 7,8677
1.501 — 3,419 ,00 6,7001 — 6,7001
1.556 — 3,665 ,00 7,1820 —- 7,1820
1.834 — 3,081 2,00 8,0378 — 6,0378
1.920 3,322 9,00 2,4903 6,5097
2.143 3,408 10,00 3,3228 6,6772
2.280 — 3,041 ,00 5,9586 — 5,9586
a Variable dependiente: simpatía marroquí.
Como puede apreciarse en la tabla, los casos atípicos coinciden con aquéllos cuyo valor
pronosticado se distancia bastante de su valor observado en la variable dependiente. Lo que
explica que sus residuos (brutos o estandarizados) sean muy elevados. En total son 15 los
casos claramente no explicados por el modelo de regresión. En los gráficos coinciden con pun-
tos alejados del conjunto de datos. (Si el punto de corte se hubiese fijado en 2, 48 serían los
casos identificados como posibles “atípicos”.) A la identificación de los “atípicos” le sigue la
adopción de alguna medida, en busca de alcanzar alguna mejora en el modelo. A este res-
pecto, téngase presente que la proporción de “atípicos” es muy pequeña en el conjunto de la
muestra. Además, la distancia de Cook (con un valor medio de ,001) indica que, al ser un va-
lor muy pequeño, la exclusión de dichos “atípicos” del cálculo de los estadísticos de regresión
no afectaría a un cambio sustancial de sus coeficientes de regresión.
e Tras la identificación de atípicos, procede la adopción de alguna medida al

respecto, en busca de alcanzar alguna mejora en el modelo de regresión. Lewis-Beck
(1980) resumen a cuatro las actuaciones posibles ante la existencia de “atípicos”:
a) Excluir del análisis los casos que muestren ser “atípicos”. Éstos pasarían a en-
grosar la lista de “missing values” (o casos sin respuesta). El principal incon-
veniente de esta solución radical es la reducción que puede producir en el ta-
maño de la muestra (y la consiguiente pérdida de información). Salvo que el
número de “atípicos” sea escaso, siendo su presencia en la muestra mínima.
b) Efectuar dos ecuaciones de regresión: una con “atípicos” incluidos y otra sis
ellos. Siguiendo este proceder no habría pérdida de información. Pero presenta
el inconveniente principal de duplicar los análisis con unas mismas variables.
c) Transformar la variable afectada por “atípicos”. Esta se considera una op-
ción óptima. Supone el cálculo de una única ecuación de regresión, no varian-
do el tamaño de la muestra.
d) Aumentar el tamaño de la muestra para comprobar si los “atípicos” son real-
mente “atípicos” o si, por el contrario, se ajustan a la realidad de un mode-
lo más general (quizás no lineal). Los inconvenientes principales de esta ac-
tuación son el coste económico y la dificultad que supone abarcar más
unidades muestrales.
Antes de tomar alguna (o varias) de estas medidas, tal vez debiera seguirse la re-
comendación de Gunst y Mason (1980) de comprobar si los “atípicos” se deben a erro-
res de grabación. Hutcheson y Sofroniou (1999) señalan a datos incorrectamente
grabados y a indicadores de “missing values” incorrectamente especificados en el pro-
grama utilizado, como dos posibles razones de “atípicos”. En caso afirmativo, estos
errores pueden corregirse de forma inmediata. Habría que remitirse a la fuente de in-
formación general para, a continuación, corregir el valor mal grabado por el correcto
en la base de datos. En caso negativo, habría que decidir qué hacer con los “atípicos”.
Sin duda, la decisión se verá bastante afectada por la proporción que representen los
“atípicos” en la muestra analizada.
1.6. Variaciones en el análisis de regresión
El procedimiento de regresión expuesto en páginas precedentes es el ordinario,

aunque existen variaciones al mismo. Primero, en función de cómo se seleccionen las
variables predictoras para constituir el modelo de regresión, si se ha seguido un pro-
cedimiento secuencial (o “por pasos”) y, en caso afirmativo, cuál de ellos. También hay
que hacer referencia a alternativas principales al procedimiento de mínimos cuadra-
dos ordinarios (OLS), de gran utilidad cuando se incumplen uno o varios de los su-
puestos básicos para la regresión OLS. Cada uno de estos contenidos se desarrollan en
los subapartados siguientes.
1.6.1. Los procedimientos secuenciales de selección de variables predictoras
En la realización de un análisis de regresión es habitual partir de una serie amplia

de variables independientes (o predictoras). El objetivo principal es seleccionar un gru-
po reducido de ellas que muestren una contribución significativa a la predicción de la
variable dependiente. Se busca un modelo sencillo, parsimonioso y, a la vez, fácil de in-
terpretar. Todo lo cual incide en la decisión de aplicar algún procedimiento secuencial
de selección de variables predictoras. Sobre todo, cuando la investigación es explo-

ratoria y es elevado el número de variables independientes cuyo poder predictivo quie-
re comprobarse. En cambio, cuando la investigación es confirmatoria, los procedi-
mientos secuenciales no son de utilidad. La finalidad no es efectuar una selección de
variables en función de su poder predictivo, sino corroborar un modelo concreto
obtenido en indagaciones precedentes.
Tres son los procedimientos esenciales de selección secuencial de variables pre-
dictoras:
a) Inclusión secuencial de variables “hacia delante” (“forward”).

b) Eliminación progresiva de variables “hacia atrás” (“backward”).
c) El procedimiento “paso a paso” (”stepwise”) de inclusión y eliminación de va-
riables.
Las dos primeras opciones pueden considerarse casos especiales del tercer pro-
cedimiento, que es más utilizado. A favor de la primera opción está el menor número
de cálculos que supone su realización. Pero, la segunda opción (la eliminación pro-
gresiva de variables) suele tratar mejor el problema de la multicolinealidad que la pri-
mera opción. Por esta razón algunos autores, como Chatterjee y Price (1977), por ejem-
plo, recomiendan su utilización con preferencia al procedimiento de inclusión
secuencial de variables “hacia delante”. Pero, veamos en qué consiste cada uno de es-
tos procedimientos secuenciales.
A) Inclusión secuencial de variables “hacia delante”
El análisis comienza con el modelo más sencillo: aquel que sólo incluye la constante
(o intercepto). A continuación, el programa procede a la selección “secuencial” de va-
riables, en función del grado de relación que éstas manifiesten con la variable de-
pendiente y su significatividad. También afecta el grado de colinealidad de las varia-
bles independientes candidatas a ser incluidas en la ecuación de regresión con aquellas
variables que previamente han sido incorporadas.
La selección de variables predictoras es “secuencial”. En cada paso se incorpora
una nueva variable a la ecuación de regresión, lo que suele ocasionar una alteración en
los coeficientes de regresión respecto al paso anterior. Dicha variación en los coefi-
cientes es mayor cuando la variable recién incorporada a la ecuación presenta un gra-
do de colinealidad elevado con una o varias de las variables predictoras que previa-
mente fueron introducidas en la ecuación de regresión. Si la colinealidad es elevada,
puede incluso suponer la pérdida de significatividad de variables que, en pasos ante-
riores, mostraron poder predictivo en la explicación de la variable dependiente. Pero,
a diferencia del tercer procedimiento secuencial, de inclusión y eliminación de varia-
bles, en éste no se contempla la eliminación de variables previamente incluidas en la
ecuación de regresión, de un paso a otro.
La primera variable que se incluye es aquella que muestra una correlación simple más
alta con la variable dependiente, indistintamente de si la correlación es positiva o ne-
gativa. Esta información la proporciona la matriz de correlaciones (subapartado 1.3.2).
En el primer paso, se está ante un modelo de regresión simple, compuesto por una so-
la variable independiente. Si el modelo muestra ser significativo, de acuerdo con la ra-
zón “F” (subapartado 1.5.3), se comprueba si puede incorporarse otra variable inde-
pendiente a la ecuación. A tal fin, se examinan las correlaciones parciales de las variables
independientes no incluidas en la ecuación con la dependiente y su significatividad. En-
tre aquellas variables cuya correlación parcial sea significativa, de acuerdo con la razón
“t” (subapartado 1.4.3), se escoge la variable que presente la correlación parcial más ele-
vada con la variable dependiente. Si se desea saber qué ocurrirá si dicha variable se in-
cluyese en la ecuación, la mayoría de los programas estadísticos, como el SPSS, ofrecen
el coeficiente de regresión estandarizado (a veces llamado “beta in” o “beta dentro”).
Tras cada incorporación de una variable a la ecuación de regresión, se comprueba
la significatividad del modelo. El análisis prosigue hasta que el modelo deja de ser sig-
nificativo estadísticamente, o hasta que no queden variables independientes que
muestren tener un efecto significativo en la predicción de la variable dependiente.
En el programa estadístico se fija un valor mínimo de F para que la variable in-
dependiente pueda incluirse en la ecuación y su correspondiente valor “p”. Este último
expresa la significatividad del estadístico “F”. Por ejemplo, en el programa SPSS el va-
lor mínimos de F para entrar (“F-to-enter” o “F-in”) y el criterio de probabilidad aso-
ciado a este estadístico por defecto son, respectivamente, F > 3,84 y p < 0,05. Éstos son
los valores que se aplican, mientras el investigador no especifique lo contrario.
Bendel y Afifi (1977) compararon varios valores “F-to-enter” mínimos, aplicados ha-
bitualmente en este procedimiento de selección de variables (“forward” o “hacia de-
lante”). Un valor que recomiendan es el percentil “F” que corresponde a un valor
p =0,15. Utilizar el criterio usual de p = 0,05 es demasiado bajo y con frecuencia excluye
del modelo a variables relevantes en la predicción de Y. Es mejor opción aplicar niveles
de significatividad de 0,15 e incluso 0,20. Esto repercute negativamente en un riesgo ma-
yor de rechazar la hipótesis nula, cuando es cierta; es decir, afirmar que una relación es
cierta, cuando en realidad no lo es. La probabilidad de equivocación se eleva al 20%. Pe-
ro, por el contrario, disminuye el riesgo de desacierto al rechazar la hipótesis nula,
cuando en realidad es falsa (es decir, de no encontrar una relación que realmente es cier-
ta). Si el tamaño muestral es elevado, el valor de F mínimo para entrar que recomiendan
es el percentil 85 de la distribución F, con 1 e infinitos grados de libertad. O, lo que es igual,
un valor F mínimo de 2,07 y no el habitual de 3,84, que es más restrictivo.
Tomar un valor mínimo de F elevado (F > 4,0, por ejemplo) supone dar una menor
oportunidad a la variable para incorporarse a la ecuación de regresión. Se consegui-
ría un modelo de regresión más restrictivo, aunque con mayor nivel de significatividad.
En la valoración de los valores de F de entrada mínimos, téngase además presente que
la significatividad del modelo no se ve sólo afectada por el nivel de riesgo que el investi-
gador asume de equivocarse. También influye los grados de libertad asociados a la suma
de cuadrados de regresión y la suma de cuadrados residual (véase subapartado 1.5.3).
Por último, añadir que tras la incorporación de una nueva variable, se produce un
aumento en el valor de R?. El incremento varía en relación con la correlación existente
entre dicha variable con la dependiente, una vez considerada su correlación con las de-
más predictoras en la ecuación. Cuanto mayor sea la correlación de la nueva variable
predictora con el resto de predictoras y menor su correlación con la dependiente, me-
nor será el incremento en R? de un paso a otro. Lo que también puede afectar a que
el error típico de la estimación no disminuya, como es de esperar, sino que aumente. To-
do lo cual afecta en la disminución del valor “F” empírico de un paso a otro. De ahí la
reiterada recomendación de no incorporar variables independientes que sean irrele-
vantes en la predicción de Y, ya que provocan un aumento en el error de predicción sin
haber logrado incrementar la proporción de varianza explicada de la variable de-
pendiente.
B) Eliminación progresiva de variables “hacia atrás”
Este segundo procedimiento es el contrario al anterior. El análisis comienza

con todas las variables independientes incluidas en el modelo. Después se procede a
la eliminación “secuencial” (una a una) de las variables que muestren menor rele-
vancia en la predicción de Y. La primera variable en ser eliminada es aquella que
muestra una menor contribución a la reducción de la suma de errores cuadrados, lo
que suele coincidir con presentar un valor “+” no significativo. Tras cada eliminación,
se recalcula la ecuación de regresión con las variables independientes que aún per-
manecen en ella. El proceso de eliminación y reestimación del modelo concluye cuan-
do todas las razones “1” son significativas; es decir, cuando las razones “t” absolutas
mínimas son superiores a “Losy - p) (depende del nivel de significación elegido:
0,05, 0,10 o superior).
En el programa SPSS se aplica por defecto el criterio usual de un valor F mínimo
para permanecer en la ecuación (“F-to-remove”, “F-out” o “F para salir”) de 2,71, que
equivale a la probabilidad máxima asociada (““P-out”) de 0,10. Toda variable cuyo va-
lor F no sobrepase dicho valor (2,71), siendo su significatividad superior a 0,10, se con-
vierte en candidata a ser eliminada del modelo de regresión. Si se quiere un modelo
menos restrictivo, a costa de aumentar el error de rechazar la hipótesis nula (cuando
en realidad es cierta), puede seguirse la recomendación de Afifi y Clark (1990) de re-
ducir el valor de “F para salir” a 1,07.
Como en el procedimiento anterior, tras la eliminación de una variable, se recal-
culan los F parciales para las variables predictoras que quedan en la ecuación. El pro-
ceso concluye cuando ninguna F parcial es inferior a la cuantía mínima de F fijada pa-
ra permanecer en la ecuación.
C) El procedimiento “paso a paso” de inclusión y eliminación de variables
Este tercer procedimiento de selección secuencial de variables predictoras es

una combinación de los dos precedentes. Es un proceso de selección “hacia delante”
que incorpora los criterios de eliminación “hacia atrás”. Añade al primer procedimiento
la posibilidad de eliminar, en un paso posterior, una variable predictora introducida en
un paso anterior. La incorporación y eliminación de variables se ve sobre todo afectada
por el grado de colinealidad existente entre las variables independientes. Por esta ra-
zÓn se incluye, como criterio adicional para la incorporación de variables a la ecuación.
su nivel de tolerancia (por ejemplo, TOL,; > 0,01).
Como en el procedimiento de inclusión de variables “hacia delante”, el proce-
dimiento “paso a paso” comienza con sólo el intercepto (O constante). En cada paso
se van incorporando variables independientes a la ecuación de regresión (una a una).
La variable escogida será aquella que cumpla los mismos criterios que en la selección
“hacia delante”. Pero, a diferencia de la selección “hacia delante”, en el procedi-
miento “paso a paso” de inclusión y eliminación de variables no se considera defi-
nitiva la incorporación de una nueva variable al modelo. Su aportación a la predic-
ción de Y es constantemente revaluada, tras la incorporación de una nueva variable
predictora al modelo de regresión. Para la exclusión de una variable predictora se si-
guen los mismos criterios que en la eliminación “hacia atrás”. No obstante, hay que
advertir que si quiere evitarse que una misma variable sea continuamente introdu-
cida y eliminada del modelo de regresión, hay que fijar un valor “F para entrar” mí-
nimo superior al correspondiente valor máximo de “F para salir”. O, lo que es
igual, “P-in” ha de ser inferior a “P-out”. Recuérdense los valores mínimos reco-
mendados por Afifi y Clark (1990), por ser muy útiles en la práctica, de 2,07 en “F
para entrar” y 1,07 en “F para salir”; o los aplicados convencionalmente de 3,84 y
2,71, respectivamente.
Si quiere examinarse la secuencia completa hasta que se introducen todas las va-
riables, será conveniente establecer un valor “F para entrar” mínimo pequeño
(por ejemplo, 0,1, que corresponde a un valor “P-in” de 0,99). Lo que lleva inevi-
tablemente a fijar un valor “F para salir” máximo inferior a 0,1. Después de exa-
minar esta secuencia, puede hacerse una segunda corrida utilizando otros valores
F. Para más información, véase Nourisis, 1986, Afifi y Clark, 1990; o Graybill e lyer,
1994,
Como en todo procedimiento secuencial, el modelo de regresión se vuelve a €s-
timar tras la incorporación y/o eliminación de una variable predictora. Esta reconsi-
deración de la contribución de las variables independientes a la predicción de Y lleva
a la recomendación de este procedimiento para propósitos eminentemente explora-
torios (Graybill e Iyer, 1994). Cuando el investigador desea la inclusión de variables
independientes concretas, con el propósito de comprobar una teoría, o a efectos pu-
ramente comparativos con otros estudios, puede forzar la incorporación de las varia-
bles de interés al modelo de regresión. En la mayoría de los programas estadísticos se
ofrece la posibilidad de “forzar” la inclusión de variables, al comienzo o después del
proceso de selección secuencial. Además, cualquiera de los tres procedimientos de se-
lección de variables secuencial permite experimentar con diferentes combinaciones de
variables independientes en la búsqueda de aquella combinación de variables que me-
jor logre predecir el valor de la variable dependiente.
Ñ EjemeLo DE PROCEDIMIENTO SECUENCIAL DE SELECCIÓN

DE VARIABLES PREDICTORAS
En la búsqueda de un modelo de regresión que ayude a predecir la “simpatía hacia los

norteafricanos (marroquíes, etc)”, se escoge el procedimiento “paso a paso” de inclusión y eli-
minación de variables, por considerarlo más adecuado a los propósitos del estudio. Se
busca la obtención de un modelo parsimonioso, que evite la incorporación de variables muy
colineales. Los valores mínimos de “F para entrar” y “F para salir” seguidos son los aplicados
por defecto en el programa SPSS: 3,84 y 2,71, respectivamente, que equivalen a las pro-
babilidades de F “de entrada” de 0,05 y “de salida” de 0,10. Se busca un modelo altamente
significativo y no se juzga necesario disminuir las exigencias de entrada y de eliminación de
variables. Sobre todo, cuando se alcanza un modelo de regresión que logra explicar el 48,4%
de la varianza de la variable dependiente, incluyendo seis variables predictivas en la ecua-
ción de regresión. En la tabla A se resume el modelo:
Tabla A
R cuadrado Error tip. de Cambio en

Modelo A A cuadrado corregida la estimación R cuadrado
1 ¿5938 ,351 1351 2,1979 1351

2 ,676P ,457 ¡457 2,0106 ,106
3 ,688* ,473 ,472 1,9821 ,016
4 ,6929 ,479 477 1,9721 ,006
5 ¿6962 ,484 ,482 1,9632 ,005
6 ,6971 ,486 ,484 1,9595 ,002
a Variables predictoras: (constante), simpatía latinoamericano; P Variables predictoras: (constante), simpatía latino-
americano, casar con marroquí; * Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí,
leyes inmigración; Y Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración,
n.* de inmigrantes; * Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración,
n.* de inmigrantes, vecino marroquí; ' Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí,
leyes inmigración, n.* de inmigrantes, vecino marroquí, sexo.
El análisis comienza con una única variable predictora (“simpatía hacia latinoamericanos”)
que es, de las 14 consideradas, la más correlacionada con la variable dependiente (“simpatía
hacia norteafricanos”), como se vio en la matriz de correlaciones (subapartado 1.3.2). La se-
gunda en entrar es “casar con marroquí”, que cumple la doble condición de ser la segunda
variable independiente más correlacionada con Y, estando, a su vez, poco correlacionada con
la variable antes introducida (r =—,274). En total son seis las variables independientes incluidas
en el modelo de regresión. Ninguna de ellas es expulsada tras la incorporación de una nue-
va variable porque, como ya se señaló en la matriz de correlaciones y cuando se describió
la colinealidad entre las variables independientes, son pequeñas las correlaciones existen-
tes entre las variables independientes.
La primera variable en formar el modelo de regresión se distingue además por ser la va-
riable que explica el mayor porcentaje de varianza de Y (35,1%, de acuerdo con el coeficiente
R cuadrado corregido). Como es usual, tras cada incorporación de una nueva variable, au-
menta la proporción de variabilidad explicada y desciende el error típico de la estimación, aun-
que en menor proporción de lo deseable. Ello se debe al poco poder predictivo de las cuatro
últimas variables que se incorporan al modelo. Si la segunda variable (“casar con marroquí”)
provoca un aumento en R del 10,6%, la tercera (“leyes inmigración”) sólo del 1,6%. Las otras
tres, inclusive menos: el 0,6%, 0,5% y 0,2%, respectivamente. Estas últimas cuatro variables
predictoras (“leyes inmigración”, “n.* inmigrantes”, “vecino marroquí” y “sexo”) apenas reducen
el error de predicción de la variable dependiente (“simpatía hacia norteafricano”), aunque son
incorporadas al modelo de regresión porque su contribución a la predicción de Y, aunque mí-
nima, es significativa (p < 0,05).
En la tabla B se resume el análisis de varianza (ANOVA) para comprobar la signifi-
catividad del modelo de regresión en su globalidad. Al haber un total de 1.280 casos válidos,
la razón Fes significativa en los seis modelos obtenidos en cada paso, aunque su valor des-
ciende de 691,815 en el primer modelo a 200,879 en el modelo 6 (integrado por las seis va-
riables predictoras). El descenso es más acusado a partir del tercer paso y responde, fun-
damentalmente, al escaso poder predictivo de las nuevas variables que se incorporan al
modelo de regresión. Tras una nueva incorporación disminuye ligeramente la propor-
ción de casos por variables predictoras en el modelo, pero apenas aumenta la proporción
de varianza explicada en la variable dependiente. Esta mínima mejora en el ajuste del mo-
delo es la causa principal del descenso en la razón F. Pese a ello, el modelo de regresión
múltiple final, con seis variables predictoras, sigue siendo estadísticamente significativo, al
ser el valor de F empírico bastante superior al valor F teórico (2,10) correspondiente, pa-
ra 6 (número de variables independientes) y 1.273 (tamaño muestral menos número de coe-
ficientes calculados incluida la constante) grados de libertad y un nivel de significación de
0,05. La significatividad estadística del modelo era predecible por el elevado tamaño de la
muestra analizada.
En la tabla B obsérvese, además, los cambios habidos, en cada paso, en las sumas de
cuadrados de regresión y residual, como medidas de ajuste del modelo de regresión (o de
adecuación entre la nube de puntos y el hiperplano de regresión).
La tabla C describe la composición del modelo de regresión obtenido en cada paso. El
primer modelo es de regresión simple, al estar integrado por una sola variable independiente
(X;). Esta es la variable más correlacionada con la variable dependiente (r = ,593). Si se ele-
va su correlación parcial al cuadrado (.593? =,351), se obtiene que dicha variable explica el
35,1% de la varianza de Y. Esta información coincide con la dada en la tabla A (,351 es el va-
lor R? corregido en el primer modelo).
Además, obsérvese que su coeficiente beta (f¿=.593) coincide con su coeficiente de co-
rrelación con Y (como consta en la matriz de correlaciones). Esta coincidencia entre los
coeficientes beta y de correlación sólo se produce en regresión simple, cuando la ecuación
de regresión incluye una única variable independiente. Si son dos o más las variables pre-
dictoras, ambos coeficientes difieren. Ello se debe a que, mientras el coeficiente de correlación
mide la correlación de la variable independiente con la dependiente, sin considerar las demás
variables predictoras, los coeficientes de regresión (estandarizados o no) se ven afectados
por la correlación de la variable independiente con las demás incluidas en el modelo de re-
gresión. Cuanto mayor sea su correlación, más diferirán ambos coeficientes.
La colinealidad (o correlación entre las variables independientes) es, asimismo, la ra-
zón principal de las variaciones en los coeficientes de pendiente (estandarizados o no) de
un modelo a otro. El cambio en la magnitud del coeficiente es mayor cuanto más correla-
A AAA
cionada esté la variable con la recién incorporada al modelo. Como las variables aquí ana-
lizadas no presentan un grado elevado de colinealidad (como se comprobó en el suba-
partado 1.1.8), los coeficientes de pendiente apenas varían con la incorporación de una nue-
va variable predictora al modelo de regresión. Las mayores variaciones se producen en la
constante (o intercepto), especialmente, cuando se pasa del modelo 1 (con una sola variable
independiente) al modelo 2 (que incluye dos variables predictoras): de 807 cambia a 3,147.
Este cambio es lógico ya que se pasa de una recta a un plano (de dos dimensiones) de re-
gresión. Recuérdese que la constante es el punto de la recta (o plano) que “intercepta” el
eje Y. La variación en la constante es menor entre el modelo 5 (3,616) y el modelo 6
(3,786).
Tabla B
Anova?2
Model: Suma de Media ,

PO cuadrados gl cuadrática F Sig.
1 Regresión 3341,993 1 3341,993 691,815 ,000*

Residual 6173,717 1278 4,831
Total 9515,710 1279
2 Regresión 4353,291 2 2176,646 538,425 ¿000?

Residual 5162,419 1277 4,043
Total 9515,710 1279
3 Regresión 4502,713 3 1500,904 382,038 ¿000€

Residual 5012,997 1276 3,929
Total 9515,710 1279
4 Regresión 4556,983 4 1139,246 292,926 ,0004

Residual 4958,727 1275 3,889
Total 9515,710 1279
5 Regresión 4605,457 5 921,091 238,984 ¿0008

Residual 4910,253 1274 3,854
Total 9515,710 1279
6 Regresión 4627,827 6 771,304 200,879 000!

Residual 4887,883 1273 3,840
Total 9515,710 1279
2 Variables predictoras: (constante), simpatía latinoamericano.

D Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí.
C Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración.
3 Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, núm. inmi-
grantes.
* Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, núm. inmi-
grantes, vecino marroquí.
! Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, núm. inmi-
grantes, vecino marroquí, sexo.
9 Variable dependiente: simpatía marroquí.
TablaC
Coeficientes no Coef. Intervalo confianza

Modelo | estandarizados | Estándar| 1 | sSig.| 95% Correlación | Tolerancia| FiV
parcial
B Error tip. Beta Límite Límite
inferior | superior
Constante| ,807 | 201 4,019|,000| ,413 1,201

Xs ,719 | ,027 ,593 | 26,302|,000| ,665 ,773 ,593 1,000 | 1,000
Constante | 3,147 | ,236 13,340| ,000| 2,684 | 3,610

Xs ,606 | ,026 5500 | 23,322|,000| ,555 ,658 ,547 ,925 1,081
Eo -,916 | ,058 -,339 |-15,816| 000 | -1,030 | -,802 -,405 1925 1,081
Constante | 2,256 | ,274 8,237| 000 | 1,718 | 2,793

Xs ,584 | 026 ,482 | 22,579|,000| ,534 ,635 ,534 ,907 1,102
Mo -,843 | 058 -,312 |-14,448|,000 | -,957 | -,728 -,375 ,886 1,128
Y ,344 | 056 ,131 6,167| ,000 | ,234 ,453 ,170 ,921 1,085
Constante | 3,267 | ,384 8,506| ,000 | 2,513 | 4,020 '

Xs ,570 | 026 1470 | 21,/912|,000| ,519 ,621 1523 888 | 1,126 '
a -815 | 059 -,301 |-13,925|,000| -,929 | -,700 | -,363 872 | 1,147 '
X, ,284 | 058 ,108 4,907|,000 | ,170 ,397 ,136 ,850 1,177
Xo -,357 | 096 -,082 | -3,736|,000| -,544 | -,169 -,104 ,844 1,185
Constante | 3,616 | ,395 9,159|,000| 2,842 | 4,391 |

Xs 1559 | 026 ,/461 | 21,416| 000 | ,508 ,610 1514 ,875 1,143
Mo -,690 | 068 -,255 |-10,156|,000 | -,824 | -,557 -,274 ,640 1,562 ;
X, ,267 | 058 ,101 4,633| ,000| ,154 ,381 ,129 ,844 1,185
X6 -,347 | 095 -,080 | -3,652|,000 | -,534 | -,161 -,102 ,844 1,185 ;
Mos -,358 | ,101 -,088 | -3,546| ,000 | -,557 | -,160 —,099 ,653 1,531 |
Constante] 3,786 | 400 9,458| ,000 | 3,001 4,571 |

Xs 1558 | 026 14460 | 21,429|,000| ,507 ,610 1515 ,875 1,143
Mio -,698 | 068 -,258 |-10,281|,000 | -,832 | -,565 -,277 ,639 1,566
Xx, ,261 | 058 ,099 4,527| 000 | ,148 ,374 ,126 ,842 1,187
Xo -,356 | ,095 -,082 | -3,751| 000 | -,543 | -,170 -,105 ,842 1,187
Xi -,348 | ,101 -,086 | -3,443|,001 | -,546 | -,150 —,096 ,652 1,534
Xx -,265 | ,110 -,049 | -2,414| 016 | -,481 -,050 -,067 ,994 yo |
Y: "simpatía hacia norteafricano (marroquí...)” (P201); X,: “leyes inmigración” (P16); X,: “sexo” (P41); X;: “simpatía ha-
cia latinoamericanos” (P210); X¿: “número de inmigrantes” (P11); X ¡0 : “casar con marroquí” (P306); X,,: “vecino ma-
rroquí” (P506).
Respecto a los coeficientes de pendiente, la mayor variación en su valor se registra en

X;s, entre el modelo 1 (,719) y el modelo 2 (,606). En el modelo 1 es ella la única variable pre-
dictora, mientras que en el modelo 2 está acompañada por la variable X,¿. Aunque la co-
relación entre ambas variables (X, y X,) es pequeña (r =-,274), la inclusión de la variable
X ¡y Provoca un descenso lógico en los coeficientes (no estandarizado y estandarizado) de xo
Por su parte, la variable X,y experimenta una mayor alteración en su coeficiente de pendiente
entre el modelo 4 (b,, = -,815) y el modelo 5 (b,, =-,690). Este descenso en la contribución_
de X,, en la predicción de Y se debe a su correlación con la variable recién incorporada, X;y'
r=,573. Ésta es la mayor correlación habida entre las variables predictoras (véase matriz de
correlaciones), aunque se sitúa aún lejos del valor ,80, que incita a la adopción de alguna me-
dida que evite su incidencia negativa en el análisis de regresión. Los valores de tolerancia y
FIV confirman lo dicho sobre colinealidad. Los valores de tolerancia más bajos y de FIV más
altos se dan en estas dos variables, aunque distan bastante de los valores que alertan de una
colinealidad severa: ,20 en tolerancia y 5,0 en FIV.
Los errores típicos de los coeficientes son relativamente bajos, salvo los correspon-
dientes a la constante, lo que concuerda con la variación de los coeficientes. Los errores
típicos más elevados en la estimación de los coeficientes se dan en las variables X,, X,y
y X¿, siendo en estas variables donde la amplitud de los intervalos de confianza es mayor.
Pese a ello, la contribución de todas las variables predictoras en el modelo es significati-
va estadísticamente y, en consecuencia, inferible al universo o población de la que se ha
extraído la muestra. Los coeficientes no se han obtenido por mera casualidad, al ser sus
valores t empíricos superiores al correspondiente valor teórico (1,96), con una probabilidad
de error del 5%. Además, la incorporación de una nueva variable no ha supuesto, en nin-
gún modelo, la expulsión de ninguna variable ya integrada en la ecuación de regresión.
Compruébese lo dicho en la tabla C.
Las razones que llevan a incluir o a excluir a una variable del modelo de regresión se
encuentran en la tabla D. En ella figuran las variables independientes que quedaron ex-
cluidas del modelo de regresión en cada paso, junto a sus coeficientes beta dentro y su sig-
nificatividad, los coeficientes de correlación parcial y las medidas de colinealidad (tolerancia
y FIV).
Del primer modelo de regresión quedaron excluidas todas las variables excepto X¿. Una
vez comprobado que el modelo de regresión símple con la variable X¿ es significativo es-
tadísticamente, se pasa a analizar si de las 13 variables excluidas del modelo, alguna pue-
de ser incorporada. Salvo la variable X,,, cuyo valor t empírico (,308) es inferior al co-
rrespondiente teórico (1,96), cualquiera de las doce variables restantes es una posible
candidata a ser incluida en el modelo de regresión. Pero, en cada paso, sólo puede ser ele-
gida una. La variable finalmente seleccionada es X,¿ por ser la que mayor contribución
muestra en la predicción de Y. El coeficiente de regresión estandarizado que esta variable
tendría si se incorporase a la ecuación de regresión (beta dentro) es el más elevado (-,339).
Compruébese en la tabla C que este valor coincide con el coeficiente beta que la variable
X ¡y Presenta cuando se añade a la ecuación de regresión (modelo 2). Asimismo, su co-
rrelación parcial (-,405) es la más alta. Elevándola al cuadrado (-,405* = ,164), se obtie-
ne que el 16,4% del 64,9% de varianza de Y no explicada por el primer modelo (tabla A)
quedaría explicada con la inclusión de la variable X,¿. La proporción de varianza que que-
daría explicada es exactamente: ,649 x ,164 = ,1064. X,¿ explica el 10,64% de la varian-
za Y. Sumando esta proporción a la explicada por X; (,351 + ,106 = ,457), se obtiene que
ambas variables explican conjuntamente el 45,7% de la varianza de Y. Este es precisa-
mente el valor de R? corregido que corresponde al modelo 2 (,457), que incluye como va-
riables predictoras a X; y X;¿-
En el siguiente paso se elige a la variable X, por las mismas razones anteriores. Ob-
sérvese que en este segundo paso la contribución de la variable X, en la predicción de Y de-
ja de ser significativa.
El análisis de regresión concluye en el paso 6, al no haber ninguna variable cuya con-
tribución a la predicción de Y sea significativa. Los valores t empíricos de las ocho variables
excluidas del modelo de regresión son todos inferiores a 1,96.
TablaD
Modelo h) t Sig. Correlación

parcial | Toleranciaa | FIV Tolerancia
aaa
X, ,1938 8,636 ,000 1235 ,962 1,040 ,962

Xo -0872 | -3,867 ,000 -,108 ,998 1,002 ,998
X, 0442 1,977 ,048 -,055 1,000 1,000 1,000
X, —0532 -2,334 ,020 -,065 ,990 1,011 ,990
Xo -,169 -7,475 ,000 -,205 ,947 1,056 ,947
X, 159 6,797 ,000 ,187 ,948 1,055 ,948
X -,158* 6,922 ,000 -,190 ,940 1,064 ,940
Xy -,090* -3,932 ,000 -,109 ,952 1,050 ,952
e -,33% | -15,816 ,000 -,405 ,925 1,081 925
Xs: ,0692 3,063 ,002 ,085 ,985 1,015 ,985
Mas ,0073 ,308 ,758 ,009 ,993 1,007 ,993
X:3 -,256% | -11,505 ,000 -,306 ,929 1,077 ,929
Xa -,1572 6,934 ,000 -,190 ,960 1,041 ,960
X, ¿1310 6,167 ,000 ,170 ,921 1,085 ,886
X, 0420 -2,026 ,043 -,057 ,978 1,022 ,907
X; 0540 -2,609 ,009 -,073 ,999 1,001 ,924
Xs -007* -,326 1745 —,009 ,970 1,031 ,907
X; -,112 -5,271 ,000 -,146 ,916 1,092 ,895
X, ,086? 3,992 ,000 111 ,904 1,107 ,882
X4 0820 -3,777 ,000 -,105 ,886 1,129 ,872
Xy -028> -1,287 ,198 -,036 ,918 1,090 ,891
Ma ,042> 1,999 ,046 ,056 ,978 1,022 ,917
xa ,007> ,340 ,734 ,010 ,993 1,007 ,919
Mo -,1045 4,125 ,000 -,115 ,659 1,517 ,656
Xs 0859 -3,944 ,000 -,110 ,910 1,099 ,876
0242 -1,133 ,258 -,032 ,958 1,046 ,876
x 0490 2,399 017 -,067 ,998 1,002 ,885
X4 ,004* ,201 ,841 ,006 ,963 1,039 ,873
Xo -,082: -3,736 ,000 -,104 ,844 1,185 ,844
X, 060 2,751 ,006 1077 ,860 1,162 ,860
X; -,046" -2,043 041 -,057 ,805 1,243 ,805
Xy 019 -,896 1971 -,025 ,914 1,095 ,860
Xs1 0235 1,103 /270 ,031 ,956 1,046 ,884
X12 -,012 561 1575 -,016 ,972 1,029 Po
: =091% | -3,632 ,000 -,101 ,654 1,530 6
X 058" -2,672 ,008 -,075 ,864 1,157 ,856
X, 0184 -,871 ,384 -,024 ,951 1,052 ,836
X, 0529 -2,557 011 -,071 ,996 1,004 ,843
Xy ,010% ,492 ,623 ,014 ,957 1,045 ,839
X, 0489 2,187 ,029 ,061 ,838 1,193 822:
Xa 036% -1,604 ,109 -,045 ,792 1,262 1%
Xy 0124 -,553 581 -,015 ,906 1,104 ,837 |
X41 ,008% ,402 ,687 011 ,921 1,086 1813 |
Xo -,026% | -1,263 ,207 -,035 ,940 1,064 1816 |
Ls —-088 3,546 ,000 —,099 ,653 1,531 640!
Xa 0444 -1,963 ,050 -,055 ,829 1,207 ,809
(../...)
Modelo E t Sig q Tolerancia | FIV pe

Xx 0162 -,788 431 022 950 1,052 637
Xx —.049e 2,414 016 -.067 "994 1.006 639
Xx 0128 567 571 '016 957 1,045 636
Xx 042* 1.912 056 "054 832 1.201 635
xo —.030* -1,337 182 037 788 1.270 633
Xx 0029 —.097 "923 -,003 '890 1123 637
xo '008* "386 700 '011 "921 1.086 640
Xo —.027* -1.286 199 -.036 "940 1.064 639
Xx 0420 -1887 059 053 "828 1.208 "630
X _018' -.868 386 024 949 1,053 .636
X 0091 430 668 012 953 1,049 634
Xx '040' 1820 "069 '051 831 1,203 633
Xx —.028' -1,233 218 -.035 786 11272 '631
X 0011 -.047 963 001 '890 11124 635
xo 012! '586 '558 016 915 1,093 638
Xo 0211 11026 305 029 928 1,077 637
Xx —.038' 1.741 082 049 825 1212 628
» 2 Variables predictoras: (constante), simpatía latinoamericano; * Variables predictoras: (constante), simpatía lati-
noamericano, casar con marroquí; * Variables predictoras: (constante), simpatía latinoamericano, casar con ma-
rroquí, leyes inmigración; Y Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, le-
yes inmigración, n.” de inmigrantes; * Variables predictoras: (constante), simpatía latinoamericano, casar con
marroquí, leyes inmigración, n.” de inmigrantes, vecino marroquí; ' Variables predictoras: (constante), simpatía la-
tinoamericano, casar con marroquí, leyes inmigración, n.” de inmigrantes, vecino marroquí, sexo.
» Y: “simpatía hacia norteafricano (marroquí...)” (P201); X,: “leyes inmigración” (P16); X,: “ideología política” (P39);
X,: “sexo” (P41); X¿: “edad” (P42); X,: “simpatía hacia latinoamericanos” (P210); X¿: “número de inmigrantes” (P11);
X,: “regularizar a inmigrantes” (P19); X¿: “entrada inmigrantes” (P21); Xy: “partido racista” (P37); X,¿ : “casar con ma-
rroquí” (P306); X,,: “estudios” (P43a); X,,: “ingresos” (P52); X,,: “vecino marroquí” (P506); X,,: “inmigrante delin-
cuente” (P2904).
1.6.2. Alternativas a la regresión de mínimos cuadrados ordinarios
El análisis de regresión expuesto en este capítulo resulta de la aplicación del

principio de “mínimos cuadrados ordinarios” (OLS). El incumplimiento de alguno o
varios de sus supuestos básicos puede llevar, sin embargo, a la aplicación de procedi-
mientos de regresión alternativos. A continuación se resumen rasgos diferenciadores
de opciones alternativas más habituales:
A) Regresión de mínimos cuadrados ponderados
El análisis de regresión de mínimos cuadrados ponderados (WLS) se presenta co-

mo una alternativa deseable cuando se incumplen, principalmente, dos de los supuestos
básicos de la regresión de mínimos cuadrados ordinarios: homocedasticidad e inde-
pendencia de los términos de error (subapartados 1.1.7 y 1.1.9, respectivamente).
Como su nombre indica, este procedimiento de regresión se caracteriza por “pon-

derar” los datos por el recíproco de su varianza, de forma que los “pesos” sean inversa-
mente proporcionales a la varianza de los errores. De esta manera se logra una cierta re-
distribución de la varianza: “Las observaciones con varianzas más grandes tienen menos
impacto en las observaciones asociadas con varianzas pequeñas” (Nourisis, 1994: 223),
Si se quiere, se especifica un rango de potencia (el rango usual va de 0 a 3) y unin-
cremento (por ejemplo, 0,2). En programas como el SPSS, por ejemplo, el rango de po-
tencia aplicado por defecto va de -2 a +2, y el incremento es 0,5. Después se evalúa la
función de “log-likelihood” para todas las potencias incluidas en el rango; y se procede
a la selección de la potencia que haga máxima la función de máxima verosimilitud
(“log-likelihood”). La variable independiente (elevada a una potencia 0,1,2 o 3) que
logre un mayor “log-likelihood” se introduce en la ecuación de regresión. Después se
calculan los coeficientes de regresión.
Esto se hace para la variable independiente que se haya escogido como variable de
ponderación, al observarse (por ejemplo, mediante un gráfico bivariable de cada variable
independiente con la dependiente) que la variabilidad de la variable dependiente no se
mantiene constante para todos los valores de la variable independiente. Por el contrario,
se halla relacionada con la magnitud de dicha variable independiente, que aumenta o dis-
minuye (recuérdese el ejemplo del “gasto en vacaciones”, cuando se observa una mayor
variabilidad entre las personas de un mayor nivel de ingresos que entre aquellos de un
nivel de renta inferior), lo que supone la existencia de heterocedasticidad.
Las mejoras de la regresión de mínimos cuadrados ponderados respecto al pro-
cedimiento de mínimos cuadrados ordinarios no son tanto en los coeficientes de re-
gresión, sino en el error típico de los coeficientes. Éstos suelen ser inferiores a los ob-
tenidos en la regresión OLS. Ello significa una mejor estimación de los parámetros, más
precisa, con la menor varianza posible.
B) Regresión no lineal: regresión polinómica y la estimación

de máxima verosimilitud
Cuando los datos a analizar no cumplen el supuesto de linealidad, habrá que op-
tar por un procedimiento de regresión “no lineal”. Sea el caso, por ejemplo, de la re-
gresión logística (véase capítulo 2) y, en general, de la estimación de parámetros (in-
tercepto, coeficientes de pendiente, errores de estimación) mediante el método de
máxima verosimilitud (ML). Se trata de encontrar la serie de estimaciones de pará-
metros que haga máxima la probabilidad de ocurrencia (véase el capítulo referido).
Pero ésta no es la única solución ante la “no linealidad”. Existen otras que resul-
tan de transformaciones en la ecuación de regresión, que permiten la aplicación del
principio de mínimos cuadrados ordinarios. Entre estas transformaciones destaca la
transformación logarítmica de la variable dependiente, añadiendo 1 a la variable de-
pendiente para, a continuación, tomar el logaritmo natural. La razón de añadir 1 es evi
tar tomar el logaritmo natural de 0, que es indefinido. Mediante esta transformación, la
ecuación de regresión adopta la forma siguiente: In(Y + 1) =a.+ B,X, + B_X, + ... + BA
o equivalentemente: (Y + 1) = e% + 4% + .. + B,X, Esto es igual a: Y =

a+ BiX1 +... + B,X,-1; siendo “e” la base del logaritmo natural, que es igual a 2,72.
Otras transformaciones son la polinómica y la exponencial. Ambas permiten la apli-
cación del principio de mínimos cuadrados ordinarios, cuando se incumple el su-
puesto de linealidad. En la polinómica, la variable dependiente se considera una
función de una variable independiente y una o más potencias de dicha variable:
Y =00+
BP, X,+P,X7 + PX +... + B, X m4 €
Así se habla de modelo polinómico de orden 2, cuando la variable independiente
se eleva al cuadrado (Y = a+ fB,X, + B,A? + €); y de orden 3, si se eleva al cuadrado y
al cubo (Y= 2+ PX, + PA? + P,X% + €).
La transformación polinómica se muestra apropiada cuando se observa que la re-
lación entre una variable independiente y la dependiente cambia de signo, conforme
aumenta el valor de la variable independiente. En cambio, la transformación expo-
nencial se adecua más cuando la relación entre la variable independiente con la de-
pendiente aumenta o disminuye en magnitud, al cambiar el valor de la variable in-
dependiente (y no tanto de signo). Depende del coeficiente de pendiente: si es mayor
o inferior a 1,0. Si es mayor de 1,0, la pendiente crece; si es inferior, disminuye.
En la regresión exponencial la estimación de los coeficientes exige tomar logarit-
mos a ambos lados de la ecuación. Ésta adopta la forma siguiente:
log Y = log a+ f(log X) + log e
Una última transformación la ofrece el modelo hiperbólico (o recíproco), definido co-

mo: Y = 4 + B(1/X) + e. Berry y Feldman (1985) destacan como característica diferen-
ciadora de este último modelo que, cuando el valor de la variable independiente X au-
menta infinitamente, el valor esperado de Y se aproxima a “a”. El valor esperado de Y
será inferior a “a” cuando “P”es negativo. Y si “f” es positivo, el valor esperado de Y se-
rá mayor que “o”; y se aproximará a “a” desde arriba (y no desde abajo, como sucede
cuando “f” es negativo). Una información más detallada de estas transformaciones se en-
cuentra en textos especializados, como el de Berry y Feldman (1985) y el más reciente de
Menard (1995). La transformación logarítmica y su repercusión en el análisis de regresión
se incluye en el siguiente capítulo, dedicado al análisis logit.
LECTURAS COMPLEMENTARIAS
Allison, P. D. (1999). Multiple regression, California, Sage.

Berry, W. D. (1993). Understanding regression assumptions, Newbury Park, Sage.
Fox, J. (1991). Regression diagnostics, Newbury Park, Sage.
Graybill, F. A. e Iyer, H. K. (1994). Regression analysis. Concepts, and applications, Ca-
lifornia, Duxbury Press.
Guillén, M. E. (1992). Análisis de regresión múltiple, Madrid, CIS, Cuaderno Meto-
dológico n.* 4.
Hair, J. F, Anderson, R. E., Tathan, R. L. y Black, W. C. (1999). Análisis multivariante,

SA edición, Madrid, Prentice Hall.
Hardy, M. A. (1993). Regression with dummy variables, Newbury Park, Sage.
Lewis-Beck, M. S. (1980). Applied regression. An introduction, Beverly Hills, Sage.
Miles, J. y Shevlin, M. (2000). Applying regression and correlation, Newburry Park, Sage.
Sen, A. y Srivastava, M. (1990). Regression analysis: theory, methods and applications,
Nueva York, Springer-Verlag.
EJERCICIOS PROPUESTOS
1. Con la misma base de datos, se quiere predecir el valor de la variable “ingresos”

a partir de cuatro variables independientes: sexo, edad, estudios y tamaño
del municipio. Comenta cada uno de los siguientes resultados:
Correlaciones
Ingresos Sexo Edad Estudios | Municipio
Correlación de Pearson Ingresos 1,000 ,107 -,291 AN ,239

Sexo ,107 1,000 -,058 ,080 -,003
Edad -,291 -,058 1,000 -,442 -,032
Estudios 471 ,080 -,42 1,000 ,228
Municipio ,239 -,003 -,032 ,228 1,000
Sig. (unilateral) Ingresos ,000 ¿000 ¿000 ,000

Sexo ¿000 ,002 000 ¡432
Edad ¿000 ,002 ¿000 ,053
Estudios ¿000 ¿000 ¿000 ,000
Municipio ¿000 4432 ,053 ,000
N Ingresos 1.793 1.792 1.792 1.614 1.793

Sexo 1.792 2.492 2.491 2.280 2.492
Edad 1.792 2.491 2.492 2.280 2.492
Estudios 1.614 2.280 2.280 2.281 2.281
Municipio 1.793 2.492 2.492 2.281 2.493
Resumen del modelo*
Modelo R Riéxadrado R cuadrado Error tip. de la Durbin-

corregida estimación Watson
1 4712 ,222 ,222 92.838,3113

2 ,490> ,240 ,240 91.767,4828
3 501% ,251 ,250 91.155,7664
4 ¿5064 ,256 254 90.881,5199 1,856
a Variables predictoras: (constante), estudios.

b Variables predictoras: (constante), estudios, municipio.
€ Variables predictoras: (constante), estudios, municipio, edad.
d Variables predictoras: (constante), estudios, municipio, edad, sexo.
€ Variables predictoras: (constante), ingresos.
ANOVA
Suma de Grados de Media os .

Modelo cuadrados libertad cuadrática F Significación
Regresión 3,969E+12 1 3,969E+12 460,455 ,000

Residual 1,389E+13 1612 8,619E+09
Regresión 4,296E+12 2 2,148E+12 255,052 ,000

Residual 1,357E+13 1611 8,421E+09
Regresión 4,484E+12 3 1,495E+12 179,889 ,000

Residual 1,338E+13 1610 8,309E+09
Regresión 4,573E+12 4 1,143E+12 138,415 ,000

Residual 1,329E+13 1609 8,259E+09
Coeficientes”
Coeficientes no Coefic. Estadísticos de

Modelo estandarizados estandar. t Sig. colinealidad
B Error tip. Beta Tolerancia FIV
1 (Constante) 55123,524 4539,826 12,142 | ,000

Estudios 41368,712 1927,874 A71 21,458 | ,000 1,000 1,000
2 (Constante) 52539,797 4506,572 11,658 | ,000

Estudios 38590,370 1957,089 440 19,718 | ,000 948 1,055
Municipio 2,344 E-02 ,004 ,139 6,232 | ,000 948 1,055
3 (Constante) 91911,243 9399,107 9,779 | ,000

Estudios 33973,633 2172,209 ,387 15,640 | ,000 ,759 1,317
Municipio 2,483 E-02 ,004 ,147 6,627 | ,000 942 1,061
Edad 666,821 138,975 -,115 4,764 | ,000 ,800 1,250
4 (Constante) 85163,544 9594,543 8,876 | ,000

Estudios 33515,980 2170,175 ,382 15,444 | ,000 ,156 1,322
Municipio 2,508 E-02 ,004 ,149 6,712 | ,000 3942 1,062
Edad 656,238 139,591 -,113 4,701 | ,000 ,800 1,250
Sexo 14889,155 4545,079 ¿071 3,276 | ,001 993 1,008
2 Variable dependiente: ingresos.

Variables excluidas?
Estadísticos de colinealidad
Modelo Beta t Sig. Correlación —
dentro parcial Tolerancia
Tolerancia| FIV mínima
1 Sexo ¿0707 3,185 ¿001 ¿079 994 1,006 994

Edad -,102* | -4,204 ¿000 - ,104 ,305 1,242 ,805
Municipio ¿139% 6,232 ¿000 ,153 ,948 1,055 948
2 Sexo ,073> 3,364 ¿001 ,084 1993 1,007 942

Edad -,115% | -4,764 ¿000 -,118 ,800 1,250 ,159 ;
— 3
3 Sexo ¿0715 3,276 ¿001 ¿081 1993 1,008 ,156 ¡
1 Variables predictoras en el modelo: (constante), estudios.

D Variables predictoras en el modelo: (constante), estudios, municipio.
* Variables predictoras en el modelo: (constante), estudios, municipio, edad.
d Variable dependiente: ingresos.
Histograma Gráfico de regresión parcial

Variable dependiente: ingresos Variable dependiente: ingresos
Frecuencia
Desv. típ.=1,04
Media = ,07
JN = 1612,00
go ers
Regresión residuo tipificado
2. En la investigación “Las consecuencias psicosociales del cuidado informal a per-

sonas mayores” de Julián Montoro Rodríguez (Revista Internacional de So-
ciología (RIS), mayo-agosto, 1999: 7-29) se analizan las consecuencias del cui-
dado asistencial en los cuidadores derivadas de la ayuda informal a personas
mayores con dependencia o discapacidad. Las variables independientes son: 2)
por parte del cuidador: edad (en años), género (mujer = 1), situación laboral
(trabaja tiempo parcial o completo = 1), posición subjetiva respecto de la cla-
se social (baja =1, media/baja =2, media =3, media/alta =4, alta =5), salud
subjetiva (muy mala =1, mala =2, regular =3, buena =4, muy buena =5), tiem-
po como cuidador (meses), horas semanales de dedicación a actividades rela-
cionadas con el transporte, los asuntos bancarios o legales, las comidas y lim-
pieza de la casa y el cuidado personal, y la relación de parentesco (cónyuge =1);

b) por parte de la persona mayor dependiente: edad (años), género (mujer =1)
y la corresidencia (vive con familia = 1). Se realiza un análisis de regresión múl-
tiple (tras un análisis factorial para resumir los indicadores) “paso a paso” de in-
clusión y eliminación de variables. En la medición de los factores que influyen
en la actitud depresiva de los cuidadores (N = 202) se obtienen los siguientes re-
sultados en cada uno de los cuatro pasos de que consta el análisis (coeficientes
beta). Coméntese los resultados.
Variables independientes DESEA

Modelos 1 U In : Iv
Factores de contexto
Persona mayor:
Edad 13% -,13**
Género —-,12*
Corresidencia
Cuidador:
Edad ¿19% ,18** ¿177% 230.
Género ,12* ,13* ,11*
Trabaja
Clase social subjetiva -24++* 25 .. 20. 170
Salud subjetiva ii 34498 an. 2
Tiempo como cuidador ¿11 129 11% —,12**
Dedicación horas semanales
Relación familiar: Esposo/a
R cuadrado ajustado ,23 223 ,32 41

Cambio en R cuadrado zar. dd 10nee qee.
Test F 6,50*** 5,60*** 6,30*** 7,60***
*p<,10; ** p< ,0S; ***p < ,01
3. En el estudio de Joan Font (1992) “La abstención en las grandes ciudades, Ma-
drid y Barcelona” (REIS, n.* 58: 123-139), se obtienen los resultados siguientes.
Coméntese.
Participación Madrid = 75,4 — 0,5 Paro + 0,13 Asociación + 0,12 Estudios + 0,02 tamaño población
Error St. 0,19 0,06 1,08 0,05
Coef. T 2,7 2,2 1,6 0,4
Error Y = 3,7 R? =0,51 Grados de libertad = 22
Participación Barcelona = 76,4 — 0,39 Inmigración + 0,15 Trabajo - 0,17 Estudios — 0,39 Paro
Error St. 0,15 0,06 0,13 0,18
Coef. T 2,2 2,5 1,3 2,5
Error Y = 2,5 R? = 0,56 Grados de libertad = 22
4. Pedro L. Iriso y David-Sven Reher obtienen en su estudio de 1987 “La fecun-

didad y sus determinantes en España, 1887-1920. Un ensayo de interpretación”
(REIS, n.* 39: 45-118) varios modelos explicativos de la fecundidad matrimonia!
en España para el mundo urbano y rural, mediante la aplicación del análisis de
regresión lineal. Coméntense los siguientes resultados referidos a la fecundidad
matrimonial rural de 1900:
Matriz de betas y de correlaciones simples para fecundidad matrimonial rural, 1900
1] 10 9 8 7 6 5 4 3 2 1
Jornaleros (11) 402 595 | ,320 207 | -,153 361 ,242 -,150 -,167 | 013
(402*) | (,651*) | (,681*) | (445%) | (321) |(,565*) | (,608*) | (-,085) | (,048) | (-.396*s
Pob. no agr. rural (10) ,140 | ,267 | -,087 | -,158 | -,493 | -,013 -,661 057 | -210
(377*) (,532*) | (101) | (1131) | (-,106) | (282) | (- 422) (-,324) | (-,110;
Migración (9) 396 1596 ,244 ,340 -,057 ,047 216
(703%) | (,576*) | (,481*) | (483%) | (,526*) (,279) |(-.424*,
Urbanización prov. (8) -0065 | ,586 | ,058 ,376 ,538 -.056 | 215
(,420*) | (,561*) | (,352*) | (,611*) | (058) | (,186) | (-316)
Razón act. masculina (7) ,049 -,118 ,166 - -,161 | -,679
(,458*) | (230) | (,459*) (,300) | (- 5079)
Mercado matr. (6) S = ml 335 :
¿115 (,614*) i
Analfabetismo (5) (,416*) | -,059 ,175 | -389
(120) | (204) |(-,527*)
Secularización prov. (4) - ,099 | -.051
(354*) |(.442+),
E) ,760 ,825
(751%) | (- 10).
Npcialidad (1,,) (2) 176|
(- A12*);
Fecun. Matr. 1) (1) |
Múltiple R 402 | 663 | 802 | 671 | ,635 | ,727 | ,684 | ,558 | ,917 | 859 '
* “Jomaleros” y “población agraria” se expresan en tanto por ciento, “Migración”: el valor 1,000 expresa un saldo migratono
nulo; un valor por debajo de 1,000 indica emigración, “Urbanización”: porcentaje de población que vive en cascos urbanos
de más de 5,000 habitantes, “Razón de actividad”: población masculina en edades activas / población masculina en eds
des no activas, “Mercado matrimonial”: razón de masculinidad en torno a la edad media al casarse, “Analfabetismo”: por-
centaje de población > 10 años que no sabe leer ni escribir, “Secularización”: porcentaje de voto a la izquierda, “sq; =
fallecidos entre 0 y 5 años por mil nacidos, “Nupcialidad” = 1, “Fecundidad matrimonial” = 1,
» Entre paréntesis: correlaciones simples. Sin paréntesis: coeficientes beta.
» El asterisco (*) indica que la correlación es significativa para p = 01.
,340 596
> Migración =S
4438 (,576)
Pe) S95 Á (651) 1396 (,703)
561 _
Urbanización [3] Mercadoe mrimonia!]
(,0,58) (,614) 67
Mortalidad ia
(So
825 y (103)
Ei
-,176 (-,412)
-,389
Analfabetismo *K_——_——
Fecundidad matrimonial
(-,527)
» Sólo se incluyen las relaciones (beta) que directa o indirectamente explican la variable dependiente en más de 0,300
o (0,300). Entre paréntesis, correlaciones simples; sin paréntesis, los coeficientes beta.

Capítulo 1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capítulo 1

Cargado por

Copyright:

Formatos disponibles

1

La regresión múltiple es una de las técnicas analíticas multivariables principales. Pri-

existente entre las variables incluidas en el análisis. A partir de dicha ecuación,

La consecución de estos tres objetivos fundamentales descansa en dos pilares bá-

1. El cálculo diferencial, analizado primeramente por Fermat, Leibniz y Newton,

1.1. Supuestos básicos del análisis de regresión múltiple

La correcta aplicación del análisis de regresión múltiple de mínimos cuadrados or-

Tamaño de la muestra elevado.

La variable dependiente ha de ser continua.

Independencia de los términos de error.

1.1.1. Tamaño muestral elevado

La finalidad de cualquier análisis estadístico no se limita a la descripción de los ca-

muestra, al conjunto de la población a la que ésta pertenece. La capacidad de inferencia

paquetes estadísticos al uso eliminan para el análisis, de forma automática, todos

a) Eliminar una o varias variables independientes. Este remedio drástico nor-

EjemPLo DE DISEÑO MUESTRAL

Al ser el procedimiento de selección muestral aleatorio, se garantiza la igual probabili-

1.1.2. Variables continuas: la creación de variables ficticias

Como técnica estadística multivariable de dependencia, el análisis de regre-

e EsemeLo DE CODIFICACIÓN DE VARIABLES FICTICIAS -Y-————————

La variable categórica “estado civil”, originariamente medida en 5 categorías: 1 soltero,

ESTADO CIVIL VARIABLES FICTICIAS

De este modo, la variable ficticia D1 = 1, si la persona está casada; D1 = O, si su estado

Las variables ordinales (como la variable “clase social” o “satisfacción”) no precisan

1.1.3. Variables independientes relevantes

La solución de regresión depende bastante de qué variables independientes par-

tas han de mostrar “relevancia” en la predicción de la variabilidad de la variable de-

7 EsemeLo DE SELECCIÓN DE VARIABLES INDEPENDIENTES RELEVANTES

P11: “¿Qué le parece a Vd. el número de personas procedentes de otros países

Del total de 18 variables inicialmente elegidas para la predicción de la variable depen-

La relación entre la variable dependiente y cada variable independiente ha de ser

A) Gráficos de regresión parcial

a) Relación lineal positiva b) Relación lineal negativa

c) No-lineal d) Inexistencia de relación

EsjempLo DE COMPROBACIÓN DEL SUPUESTO DE LINEALIDAD

simpatía latinoamericana sexo

A diferencia del gráfico de regresión parcial, el gráfico residuos no se limita a re-

a) Relación lineal b) Relación no lineal c) Relación no lineal

varias submuestras que incluyan un rango de valores para la variable independiente.

a) La aplicación de métodos de regresión no lineal, como la regresión polinomial.

a) Modelo interactivo de variable ficticia. Cuando una de las variables indepen-

de la relación entre cada variable independiente y la dependiente esté rela-

En consecuencia, si se observa que el cambio en el valor de Y, relacionado con un pe-

El supuesto de normalidad es común a otras técnicas de análisis multivariable. Con-

Como en otros supuestos de regresión, la forma más sencilla de comprobar éste es

Incluye los residuos, preferiblemente estandarizados, junto con las frecuencias de

— EljemPLO DE HISTOGRAMA DE RESIDUOS

Desv. tip. = 1,00

Regresión residuo tipificado

B) Gráfico de probabilidad normal

Algunas veces referidos como gráfico P— P. Difiere del histograma de residuos en

puntos de la diagonal definida por ambas probabilidades. En las distribuciones asi-

A EjemeLo DE GRÁFICO P - P DE PROBABILIDAD NORMAL

El gráfico P - P de probabilidad normal de residuos estandarizados (o tipificados) de la

Gráfico P-P normal de regresión residuo tipificado

e La normalidad también puede comprobarse con la ayuda de estadísticos. El de ma-

el Ejemplo DE COMPROBACIÓN DEL SUPUESTO DE NORMALIDAD

La comprobación del supuesto de normalidad no se ha limitado al análisis de los gráficos

Simpatía marroquí ,147 2.183 ,000

a Corrección de la significación de Lilliefors.

e Los remedios más aplicados ante el incumplimiento del supuesto de normalidad

a) La transformación logarítmica de la variable dependiente (log Y), sobre todo,

No obstante, Nourisis (1986) advierte que el estadístico “E”, empleado en la com-

a) Se incumple el supuesto de normalidad.