Está en la página 1de 322

~na ~ rá~ti~a

~n ainv~~ti a~i~n ~~~ia

lSBN 84-7738-943-8
34 o 06

9
ANÁLISIS MULTIVARIABLE
TEORÍA Y PRÁCTICA
EN LA INVESTIGACIÓN SOCIAL
Consulte nuestra página web: www.sintesis.com
En ella encontrará el catálogo completo y comentado

ANÁLISIS MULTIVARIABLE
TEORÍA Y PRÁCTICA
EN LA INVESTIGACIÓN SOCIAL

M.a Ángeles Cea D'Ancona

Ouedaprohibida, salvo excepd6n prevista


en la ley, cualquier forma de reproducción.
distribuciÓn, comunicación pllblica y
!¡ansformación de esta obro sin contar

l!;~~·lil~L au~ión
I
con de tos titu\afeSde la pro-
~I~ro ,,!
_......., ¡es .... piedad intelectual. la Infracción ~e los
derect"oosrnencb1ados puede ser COfl$tituliva 00 delito contra la pro¡)iedad
. intelt-cttlá {arls. 270 Yslgs. Código Pernl~. El Centro Es¡xli'lOl de Derechos
EDITORIAL
I Reptogr'áficOO (\'MW.cedlo.org) V€1a por el respeto de !os otaQOS deteChos.

SINTESIS
l
¡!
i
A mi padre
Pedro Cea Maza
in memoriam

Segunda edición: junio 2004

Reservados todos los derechos. Está prohibido, bajo


las sanciones penales y el resarcimiento civil previstos
en las leyes, reproducir, registrar o transmitir esta
publicación, íntegra o parcialmente por cualquier sis-
tema de recuperación y por cualquier medio, sea me-
cánico, electrónico, magnético, electroóptico, por fo-
tocopia o por cualquier otro, sin la autorización previa
por escrito de Editorial Síntesis, S. A

© M.a Ángeles Cea D'Ancana

© EDITORIAL SíNTESIS, S. A.
Vallehermoso,34 - 28015 Madrid
Teléf., 91 593 20 98

Depósito Legal: M. 24.383-2004


ISBN,84·7738·943·8

Impreso en Espalia ~ Printcd in Spain


íNDICE

INTRODUCCIÓN ................................................................................................................. 11

CAPíTULO 1: REGRESIÓN MÚLTIPLE

1.1. Supuestos básicos del análisis de regresión múltiple ......................................... 15


1.1.1. Tamaño muestral elevado ........................................................................ 15
1.1.2. Variables continuas: la creación de variables ficticias .......................... 18
1.1.3. Variables independientes relevantes ...................................................... 21
1.1.4. Linealidad .................................................................................................. 25
1.1.5. Aditividad .................................................................................................. 29
1.1.6. Normalidad ................................................................................................ 30
1.1.7. Homocedasticidad ..................................................................................... 38
1.1.8. Ausencia de colinealidad entre las variables independientes .............. 49
1.1.9. Independencia de los términos de error .. ,.............................................. 58
1.1.10. El análisis de los residuos en la comprobación de los supuestos de re-
gresión ........................................................................................................ 61
1.2. La obtención del modelo de regresión múltiple: fases principales .................. 64
1.3. La preparación de los datos para el análisis ....................................................... 64
1.3.1. Depuración de los datos: el tratamiento de los casos "sin respuesta" .... 66
1.32. Indagación exploratoria: la matriz de correlaciones ............................. 69
1.4. La ecuación de regresión ......................................................................... ,............. 76
1.4.1. Estimación de los coeficientes de regresión ........................................... 80
1.4.2. El error típico de los coeficientes y los intervalos de confianza ............... 84
1.4.3. La significatividad de los coeficientes de regresión .............................. 86
1.5. La evaluación del modelo...................................................................................... 94
1.5.1. El ajuste del modelo de regresión ........................................................... 94
1.5.2. El error de predicción ............................................................................... 97
1.5.3. La significatividad del modelo ................................................................. 98
1.5.4. La detección de "atípicos" ....................................................................... 103
•.. Índice 9
8 Análisis multivariable. Teoría y práctica en la investigación social

108 3.3.3. Algoritmos de clasificación ......................... ,.................... ,.. . 248


l.6. Variaciones en el análisis de regresión .................................... . .................. :."
1..6.1. Los procedimientos secuenciales de selección de vanables pledlc- 3.3.4. Medidas de distancia y de similaridad ............................... .. 257
toras ................ ,..... .................... .,...................... ...... . 108 3.4. La obtención de conglomerados .............. ,......................... ,............ ,., ..... . 284
1.6.2, Alternativas a la regresión de mínimos cuadrados ordinarios ,........ ,. ..... . 119 3.4.1. Elección del número de conglomerados ................................... .. 285
............................................ . 121 3.5. Presentación de los resultados y su interpretación .......................................... .. 289
L~c:.turas complementarias ................... ,.,..
................. .................. ........................ . 122 3.5.1. Las tablas de resultados ........................................................................... . 289
Ejercicios propuestos o •••••••••••••••••••••••••••••••••

3.5.1.1. Métodos de conglomeración jerárquicos ................................. , 290


3.5.1.2. Métodos de conglomeración no jerárquicos ............................ . 297
CAPÍTULO 2: ANÁLISIS "l.OGIT" 3.5.2. Las representaciones gráficas ................... " ............................................ . 305
3.5.3. La detección de atípicos .......................................................................... . 309
2.1. La regresión logística ............. " ................................ :..... ': .......... ,. ......... ,.... . 128 3.5.4. El perfil de los conglomerados ............................................................... . 310
2.1.1. Relación con otras técnicas analíticas multIvanables ..................... .. 129 3.6. Validación de los resultados .............................................. ,................................ .. 310
2.1.2. Supuestos básicos: el análi~is d.e~ los residuos ....................................... .. . 130 Lecturas complementarias ........................................................................................... .. 313
2.1.3. Fases principales en su aphcaclOll ........ :.................. :............................. .. 137 Ejercicios propuestos ................................................................................................ ,... . 314
2.1.4. La ecuación de regresión logística y su tnterpretaC16n ....................... .. 138
2.1.4.1. Estimación de parámetros ................................... :.; .........; ... : ..... . 147
2.1.4.2. La significatividad de los coeficientes de regreslOu loglstIca .. 149 CAPÍTULO 4: ANÁLISIS DISCRIMINANTE
2.1.5. La adecuación del modelo ................................................ ,.................... .. 160
2.1.5.1. El ajuste del modelo global ....................................................... . 161 4.1. Orígenes del análisis discriminante y su relación con otras técnicas multiva-
2.15.2. La eficacia predictiva del ~ode!~ ............................................. . 171 riables .................................................................................................................... .. 322
2,1.5.3. La deteccIón de casos "abpIcos .......................... ,.................. .. 178 4.2. Supuestos básicos del análisis discriminante ..................................................... . 324
2.1.6. La selección del modelo .......................................................................... . 183 4.3. Fases principales en su aplicación ...................................................................... .. 331
2.1..6.1. Criterios para incluir y eliminar variables ......... : ...................... . 183 4.4. Los preliminares del análisis ....... ,....................................................................... . 333
2.1.6.2. Procedimientos secuenciales de selección de vanables predlc- 4.4.1. Decisiones clave ....................................................................................... . 335
toras .............................................................................................. . 185 4.4.2. Análisis univariable de las diferencias grupales ................................... . 337
2.2. El modelo logit comO variante del modelo lag-linear ...................................... . 195 4.5. Estimación de las funciones discriminantes canónicas ................................... .. 344
2.2.1. El modelado lag-linear ............................................................................ . 196 4.5.1. Determinación del número de funciones discriminantes y su signifi-
2.2.1.1. Tipos de modelos log-linear ................. :.; .................................. . 196 catividad .................................................................................................... . 346
2.2.1.2. La ecuación lag-linear y su mterpretaclOn .............................. . 198 4.5.2. Derivación de los coeficientes de la función discriminante ............... .. 354
2.2.1.3. La estimación de parámetros ................................................... .. 203 4.5.3. El procedimiento secuencial o por pasos .............................................. . 360
2.2.1.4. La adecuación del modelo global: estadísticos de bondad de 4.6. Evaluación de la capacidad predictiva de las funciones discriminantes .............. . 389
ajuste ........................................................................................... .. 207 4.6.1. La matriz de clasificación .......................... :.................................. ,......... .. 389
2.2.1.5. El análisis de los residuos ......................................................... .. 210 4.6.2. Criterios para valorar el éxito de la c1asificación ................................ .. 398
2.2.1.6. La representación gráfica del modelo lag-linear ......... :.......... . 211 4.7. Interpretación de los resultados ......................................................................... .. 403
2.2.2. La particularidad del modelo logit respecto al modelado lag-lmear .. 211 4.7.1. Las tablas de resultados ........................................................................... . 404
Lecturas complementarias .......................... ,.... ,.................................... ,....................... . 222 4.7.2. Representaciones gráficas ....................................................................... . 408
Ejercicios propuestos .................................................................................................... . 222 4.8. Validación del modelo discriminante ................................................................. . 415
Lecturas complementarias ............................................................................................ . 417
CAPÍTULO 3: ANÁLISIS DE CONGLOMERADOS Ejercicios propuestos ..................................................................................................... . 417

3.1. Orígenes del análisis de conglomerados y sU relación con otras técnicas mul-
tivariables ....................................................................... ,... ...................... . 230 CAPÍTULO 5: ANÁLISIS FACTORIAL
3.2. Fases principales en su aplicación ....................................................................... . 233
3.3. Los preliminares del análisis: decisiones clave .................................................. .
234 5.1. Orígenes del análisis factorial y su relación con otras técnicas multivariables .. 428
3.3.1. Elección de variables ...................... ...................... ........................... . 234 5.2. La variedad de modelos factoriales: tipologías ............................ , .................. ,. 429
3.3.2. Métodos de conglomeración ..... .. ................. .
237 5.2.1. El análisis de componentes principales ................................................. . 432
3.3.2.1. Métodos jerárquicos ............................. .
239 5.2.2. El análisis de factor común ................. ,......................................... .. 434
241 5.3. La obtenGÍón de un modelo factorial exploratorio: fases principales .. 437
3.3.2.2. Métodos no jerárquicos ... .. 246
3.3.2.3. La combinacíón de métodos de conglomeración
5.4. La preparación de los datos para el análisis ........................................... " 438
10 Análisis multivariable. Teoría y práctica en la investigación social

5.4.1. Los supuestos básicos y decisiones clave ............................................... . 438


5.4.2. La matriz de covarianzas ......................................................................... . 442
5.4.3. La matriz de correlación .................................... :.... :................................ . 442
5.5. La extracción de factores comunes o componentes prIncipales ..................... . 451
5.5.1. Procedimientos de extracción factorial .................................... ·........... .. 451
5.5.2. Criterios de selección del número de factores ..................................... .. 458
5.6. La matriz factorial y su interpretación .............................................................. .. 468
5.6.1. La rotación de factores ............................................................................ . 472
5.6.2. Lectura e interpretación de la matriz factorial .................................... .. 489 INTRODUCCIÓN
5.7. La evaluación del modelo factorial .................................................................... . 499
5.8. Las puntuaciones factoriales .............................................................................. .. 501
5.8.1. Su contribución en la detección de atípicos ......................................... .. 504
Lecturas complementarias ........................................................................................... .. 505
Ejercicios propuestos ..................................................................................................... . 506

CAPÍTULO 6: ECUACIONES ESTRUcrURALES


6.1. Orígenes del modelado de ecuaciones estructurales y su relación con otras
técnicas multivariables ......................................................................................... . 516
6.2. Supuestos básicos del modelado de ecuaciones estructurales .......: ....: ............ . 519 El análisis constituye una fase decisiva en cualquier proceso de investigación.
6.3. La obtención de un modelo de ecuaciones estructurales: fases pnnclpales .. . 523
523 De lo exhaustivo que se sea en su desarrollo depende la cantidad y calidad de la
6.4. La especificación del modelo causal y su identificación ................................. ..
6.4.1. El modelo estructural .............................................................................. . 525 información que se extraiga de los datos recogidos en el estudio. Dada la compleji-
6.4.2. El modelo de medición .... ,...........................................:..:.; ...................... . 529 dad de la realidad social, es preciso que el análisis no se limite a una mera exploración
6.4.3. La articulación de los modelos estructural y de medlclOn ................. .. 532 univariable (de cada variable por separado), e incluso bivariable (de la conjunción de
6.4.4. El proceso de especificación del modelo global ................................... . 536 dos variables), sino que se adentre en el conocimiento de las interrelaciones exis-
6.5. La preparación de los datos para el análisis ...................................................... . 547 tentes entre grupos de variables.
6.5.1. El tratamiento de los casos "sin respuesta" ......................................... .. 548 La posibilidad de analizar varias variables, al mismo tiempo, se ha facilitado
6.5.2. Las matrices de datos ............................................................................... . 549 bastante en los últimos años por la mayor accesibilidad de los programas estadísti-
6.6. La estimación del modelo .................................................................................... . 550
6.6.1. Mínimos cuadrados no ponderados ....................................................... . 551 cos. Pero, aunque su manejo sea cada vez más sencillo, se precisa de unos conoci-
6.6.2. Mínimos cuadrados generalizados ........................................................ .. 552 mientos uúnimos que garanticen su correcta realización e interpretación. El propó-
6.6.3. Máxima verosimilitud .............................................................................. . 553 sito de este libro es facilitar el conocimiento de algunas de las técnicas de análisis
6.6.4. Otros métodos alternativos de estimación de parámetros .................. . 554 multivariable de uso más común en la investigación social. No se centra en el com-
6.6.5. Solución estandarizada y no estandarizada .......................................... .. 556 ponente matemático de las distintas técnicas analíticas. Sólo se aportan los descrip-
6.7. La evaluación del modelo .................................................................................... . 563 tores mínimos para su comprensión. El interés está en su aplicación, desarrollo e
6.7.1. Estimaciones erróneas ............................................................................ .. 564
567 interpretación de los resultados.
6.7.2. La detección de atipicos: el análisis de los residuos ............................ ..
De cada técnica se detallan las fases que confluyen en su realización. Desde los
6.7.3. El ajuste del modelo global: los índices de ajuste :............................... . 569
6.7.4. Evaluación de los modelos estructural y de mediCión ......................... . 587 preliminares del análisis (que incluye la depuración de los datos e indagación explora-
6.8. La mejora del modelo: su modificación o reespecificación ............................ .. 595. toria, además de la comprobación de los supuestos básicos que garantizan su correcta
6.9. La presentación del modelo final ............... :............ :.......................................... . 601 realización) hasta la presentación de los resultados. Ello se suma a una presentación
6.10. La particularidad del análisis factorial confIrmatorlo :..................................... . 603 genérica de la técnica, donde se hace referencia a sus orígenes, objetivos principales y
6.10.1. Diferencias con el análisis factorial exploratono ................................ .. 603 características que la diferencian de otros procedimientos analíticos multivariables.
6.10.2. La obtención de un modelo factorial confirmatorio ... " ...................... .. 604 Debido al gran número de posibilidades de análisis multivariable existente,
~cturas complementarias .......................................................................................... .
617
618 cuyo desarrollo pormenorizado supondría la realización de dos volúmenes, se ha
Ejercicios propuestos .................................................. ,.................................................. .
decidido optar por una selección de técnicas, tratadas con detenimiento, en lugar de
BIBLIOGRAFÍA .......................... ,........................................................................................ . 627 una sucinta referencia al amplio abanico de técnicas habidas hasta la fecha.
]2 Análisis multivariahle. Teoría y práctica en la investigación socia!

En la selección de las técnicas se ha considerado su aplicabilidad en la investiga-


ción social y que traten distintas opciones analíticas. Se incluyen técnicas de análisis
de dependencia, que analizan las relaciones causa-efecto de una sene de vanabl~s:
los análisis de regresión lineal y logística (de mayor aplicahilidad en la IllvestIgaclOn
social por las características de las variables que se analizan pre~omIllantemente), el
modelo logit (relacionándolo con el modelado lag-linear), el a~ahsIs dlSCrlmlna~te y
el modelado de ecuaciones estructurales (que amplía las pOSIbIhdades del analrsIs
1
causal, incluyendo múltiples interrelaciones eutre variables independie~tes y REGRESIÓN MÚLTIPLE
dependientes, observadas y latentes). A estas técnicas se suman otras tradIcIon~l­
mente clasificadas como técnicas de interdependencia. No dlstmguen entre vana-
bies dependientes e independientes, como las anteriores. El inte.rés está ~n la sínte-
sis de la información, en la búsqueda de lo que "une" a una sene de vanabl,:s o de
casos (cuando se quiere clasificar entidades individuales o colectIvas). Las. tecmcas
elegidas son el análisis de conglomerados y el análisis factorial (e~ploratono y con-
firmatorio), las dos técnicas multivariables tradicionalmente mas aplIcadas en la
clasificación de objetos. A ellas se añade el análisis lag· linear, al que se hace refe-
rencia para diferenciarlo del análisis logit, de más reciente desarrollo.. ,
Cada una de estas técnicas se ajusta a unos objetivos de lllveslIgacIon concretos La regresión múltiple es una de las técnicas analíticas multivariables principales. Pri-
ya unas características determinadas de las variables analizadas. Principalmente, sn mero, por su pionera y amplia aplicación en la investigación empírica. Segundo, por
número y nivel de medición. Su disposición en el texto responde a su vmculaclón proporcionar la base de técnicas analíticas posteriores, como el análisis discriminante
conceptuaL La regresión múltiple se sitúa en el primer capítulo, nO sólo por su o el modelado de ecuaciones estructurales. Ésta es la razón de que se haya optado por
amplia aplicación sino, sobre todo, porque proporciona las bases donde se aSIentan su disposición, en el texto, en primer lngar.
otras técnicas de análisis. El modelado de ecuaciones estructurales se ubIca en el Antes de proseguir con su exposición, hay que señalar que lo dicho en este capí-
último capítulo por su mayor complejidad. Su comprensión exige el conocimiento tulo concierne exclusivamente al procedintiento de regresión más popular: la regresión
previo de dos análisis básicos: regresión y factorial. . lineal de mínimos cuadrados ordinarios. También conocido como procedimiento OLS
Para facilitar la comprensión de los contenidos teóricos, se han seleccIOnado (del inglés "Ordinal Least Squares"). En el capítulo 2 se desarrolla la regresión logística,
quince variables de la encuesta "Actitudes ante la inmigración", realizada por el de aplicación más reciente y adecuada a variables muy usuales en la investigación so-
Centro de Investigaciones Sociológicas, del 6 al 10 de junio de 1996 (estndIO 2.214). cial: las variables cualitativas (o no métricas), al ser sn nivel de medición nominal u or-
Con ellas se han realizado todos los análisis para qne el lector compruebe las dIStlll- dinal. En este primer capítulo también se descIiben otros procedimientos de regresión
tas opciones analíticas alternativas ante unas mismas variables, dependiend~ de de nso más restringido (subapartado 1.6.2).
cuáles sean los objetivos de la investigación. En el capítulo pnmero se explrca como Todos los análisis de regresión, como técnicas analíticas multivariables de dependencia
se procedió a la selección de las variables y se describen características básicas de la que son, se adecnan a Un mismo propósito: el análisis de relaciones de dependen-
encuesta necesarias en la interpretación de los análisis realrzados ex profeso para cia (causa-efecto) entre los valores de una única variable dependiente (aquella cuya va-
este text~. A los resultados de esta encuesta se añaden los obtenidos en otras inves- riabilidad el investigador desea analizar) y los correspondientes a dos o más variables
tigaciones "reales", efectuadas en España, como ejercicios propuestos. Con ello se independientes (también denominadas variables predictoras o explicativas). Difieren,
quiere ofrecer referencias útiles en el ejercicio de investigación. no obstante, en las características de las variables qne se analizan, que determinan la
Los capítulos concluyen con una selección bibliográfica, a modo de "lecturas ejecución de los análisis y los supuestos necesarios para su correcta realización. Con-
complementarias" recomendadas, además de los "ejercicios propuestos" para que cretamente, el análisis de regresión múltiple de m[nimos cuadrados ordinarios tiene los
pueda comprobarse si se han entendido los conceptos teóricos y el desarrollo prác- siguientes objetivos principales:
tico dado a lo largo del capítulo. Espero que su lectura contnbuya a un mayor desa-
rrollo del análisis multivariable en la investigación social. L Predecir los valores que adoptará la variable dependiente a partir de los valores
conocidos de la sede más pequeña posible de variables independientes. Ello con-
lleva la búsqueda de la ecuación que mejor represente la asociación lineal

I
14 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 1: Regresión múltiple 15

existente entre las variables incluidas en el análisis. A partir de dicha ecuación, Su uso ayuda a determinar el nivel de confianza con que puede afirmarse que los
y gracias a los coeficientes beta, puede también graduarse la aportación de ca- estadísticos estimados, en la muestra analizada, predicen adecuadamente las
da variable independiente (X) en la predicción de la variable dependiente (Y). características correspondientes de la población objeto de estudio.
Si bien, hay que hacer dos matizaciones. Primero, "el análisis de regresión es so-
bre todo útil para la estimación de la magnitud de los efectos, no para la determi- La exposición del análisis de regresión múltiple comienza, a diferencia del resto de téc-
nación de qué variables predictoras son relevantes" (Wittink, 1988: 93). Segundo, nicas analíticas multivariables reseñadas en este texto, con la enumeración y desarrollo de
"los análisis de regresión no pueden probar causalidad, sólo pueden justificar o con- cada uno de los supuestos básicos. Éstos son de imprescindible cumplimiento para ga-
tradecir supuestos causales" (Gunst y Mason, 1980: 17). Depende de cómo se ha- rantizar la correcta realización del análisis de regresión lineal. Después, se procede al de-
ya especificado el modelo, de qué variables predictoras se han incluido, siempre talle de cada uno de los componentes del análisis, así como de los diversos procedimien-
acorde con consideraciones teóricas. Se precisa que las variables predictoras sean tos alternativos para su realización. Como ya se dijo en la introducción, para facilitar la
"relevantes" en la explicación y predicción de la variable dependiente. comprensión de la técnica analítica, la exposición teórica se acompaña de ejemplos prác-
2. Cuantificar la relación de dependencia mediante el coeficiente de correlación R ticos. Principalmente, del análisis propio efectuado de una selección de ítems de la encuesta
de Pearson y su cuadrado (el coeficiente de determinación). Este último coefi- "Actitudes ante la inmigración", de junio de 1996, del Centro de Investigaciones Socio-
ciente informa de la proporción de varianza de la variable dependiente (Y) que lógicas (CLS.); amén de otros ejemplos también con datos reales.
queda explicada por la conjunción de variables independientes (X) qne con-
forman la ecuación de regresión. La relevancia de dichas variables explicativas
en la predicción de Y se mide, básicamente, con la ayuda de este coeficiente (el 1.1. Supuestos básicos del análisis de regresión múltiple
coeficiente de determinación).
3. Determinar el grado de confianza con que el investigador puede afirmar que la La correcta aplicación del análisis de regresión múltiple de mínimos cuadrados or-
relación observada en los datos muestrales es realmente cierta. Rara vez se ana- dinarios (OLS) exige el cumplimiento de una serie de supuestos básicos. Su grado de
lizan datos poblacionales. La práctica común en la investigación empírica es ex- cumplimiento garantiza la esencia del análisis: poder inferir los estadísticos obtenidos
traer una muestra de la población de interés, mediante procedimientos que ga- en la muestra analizada a sus correspondientes parámetros poblacionales. Estos su-
ranticen su representatividad. De ello depende las posibilidades de inferencia puestos se resumen en los siguientes:
de los datos analizados, a un nivel de probabilidad determinado (Cea, 1996).
En regresión múltiple, la significatividad del modelo en su coujunto se com- L Tamaño de la muestra elevado.
prueba mediante el estadístico de comprobación "F" de Snedecor. La significa- 2. La variable dependiente ha de ser continua.
tividad de cada uno de los coeficientes concretos que conforman la ecuación de re- 3. Inclusión de variables independientes relevantes.
gresión se mide, en cambio, con la ayuda de la razón "t" de Student. Ambas 4. Linealidad: la relación entre la variable dependiente y cada variable inde-
pruebas de significatividad permiten conocer las probabilidades de inferencia de pendiente ha de ser lineaL
los estadísticos muestrales correspondientes a parámetros poblacionales -<:omo se 5. Aditividad: los efectos de las variables independientes en la dependiente han de
detalla en los subapartados 1.5.3 y 1.4.3, respectivamente-. poderse sumar entre sí.
6. Normalidad: La distribución de los datos (tanto para la variable dependiente co-
La consecución de estos tres objetivos fundamentales descansa en dos pilares bá- mo las independientes) ha de corresponderse conla distribución normaL
sicos, tradicionalmente referidos (véase GuiJIén, 1992): 7. Homocedasticidad o igualdad de las varianzas de los términos de error en la se-
rie de variables independientes.
1. El cálculo diferencial, analizado primeramente por Fermat, Leibniz y Newton, 8. Ausencia de colinealidad (o de correlación) entre 1ftS variables independientes.
¡ii: 9. Independencia de los términos de error.
en el s. XVII; y, posteriormente, por D'Alembert y Bernouilli, en el s. XVIII. SU
'1 aplicación permite cuantificar la relación existente entre variables. En el aná-
JI lisis de regresión se hace uso, en especial, del principio de "mínimos cuadrados", 1.1.1. Tamaño muestral elevado
enunciado en 1794 por Gauss. Éste sirve de fundamento al análisis de regresión
lineal, en general. La finalidad de cualquier análisis estadístico no se limita a la descripción de los ca-
2. La teoria de la probabilidad, cuyo principal desarrollo se produce, a partir del sos ele los que se ha recogido información. Éstos constituyen la muestra de la investi-
s. XVIII, con las aportaciones fundamentales de Moivre, Bayes, Laplace y Pearson. gación. Ante todo, se quiere describir, a partir de las características observadas en la
16 Análisis multivarial>!e. Teoría y prácrica en fa investigación social Capitulo 1: Regresión múltiple 17

muestra, al conjunto de la población a la que ésta perteuece. La capacidad de inferencia paquetes estadísticos al uso eliminan para el análisis, de forma automática, todos
de los resultados de la investigación se halla muy determinada por el tamaño de la los casos sin respuesta ("missing values") en alguna de las variables consideradas, sal-
muestra, además del procedimiento seguido en su selección: si el procedimiento de se- vo que el investigador especifique lo contrario. En consecuencia, si el número de va-
lección de las unidades de la muestra ha sido aleatorio o no. La aleatoriedad garanti- riables independientes es elevado, y cada una de ellas tiene una cierta cantidad de ca-
za la equiprobabilidad, o igualdad en la probabilidad de ser elegido para participar en sos sin respuesta (que neccsariamente no corresponde a los mismos casos en todas las
la muestra, de todas las unidades de la población de interés. También se exige que el variables), la eliminación deliberada de dichos casos supone nna merma cuantiosa en
procedimiento de selección de la muestra haya sido riguroso en todas sus fases. el tamaño de la mnestra. Esta reducción adqniere mayor gravedad cuando el tamaño
Respecto al tamaño de la muestra, su cuantía incide directamente en la reducción de la muestra no es elevado. La muestra final pucde no cnmplir los ratios mínimos re-
del error de estimación y en la consiguicnte significatividad de los resultados del aná- queridos para el análisis. En cambio, en muestras elevadas, la eliminación de casos sin
lisis. Por esta razón, se precisa que el tamaño de la muestra sea lo más elevado posible, respuesta apenas tiene efecto en el análisis.
para favorecer la significatividad de los estadísticos muestrales. . El nO cumplimfento de los ratios casos por variables predictoras referidos pnede,
La adecuación del tamaño de la muestra a las exigencias del análisis se comprueba sm embargo, solventarse con alguna de las medidas signientes:
en relación con el número de variables independientes (o predictoras) que se incluyen
para la predicción de Y. En regresión lineal múltiple se barajan distintos ratios mfnimos a) Eliminar una o varias variables independientes. Este remedio drástico nor-
de observaciones precisas por cada variable independiente introducida en el análisis. El malmente snpone la eliminación de aquellas variables con menor capacidad pre-
ratio más bajo, propuesto por autores como Afifi y Clark (1990: 179), es al menos de 5 dictiva. Aquellas que presenten una menor correlación con la variable de-
a 10 veces más casos qne variables independientes o predictoras. Otros autores, como Ta- pendiente y, a su vez, tengan un número importante de casos sin respuesta.
bachnick y FIdell (1989: 128-129), elevan el ratio preciso a 20 veces más casos que va- b) Combinar variables independientes (con casos sin respuesta) relacionadas en
riables independientes. De modo que, si el análisis incluye 6 variables predictoras, el ta- una única variable (o inclusive más). Esta solución es menos drástica que la an-
maño mnestral mfnimo para nn correcto análisis ha de ser de 120 unidades muestrales terior y suele suponer nna pérdida menor de información.
o casos. Cuando se opta por un procedimiento de regresión secuencial (o "por pasos"),
el ratio de número de casos por variables aumenta a 40 casos por cada variable. En el sn-

~·lEJEMPLODE DlSEÑOMUESTRAL
pnesto anterior se precisaría, por tanto, nn tamaño muestral mínimo de 240 uniclades.
El no cumplimiento de los ratios mínimos referidos suele corresponder a la ob-
tención de errores de estimación elevados. Lo que revierte, negativamente, en la pér-
dida de significatividad estadística y la consiguiente posibilidad de inferencia del La encuesta analizada ex profeso para este texto ("Actitudes ante la inmigración") fue
modelo de regresión estimado a partir de la muestra analizada. realizada por el C.I.S. del 6 al 10 de junio de 1996 (estudio 2.214). El ámbito de la encues-
Además, si se quiere comprobar la validez del modelo obtcnido siguiendo el pro- ta fue nacional. Se incluyeron las provincias insulares, aunque se excluyeron Ceuta y Meli-
cedimiento llamado "validación cruzada", es conveniente que el tamaño muestral sea in- lIa. El universo fue la población española de ambos sexos de 18 y más años.
cluso superior. Este procedimiento de validación se caracteriza por dividir la muestra to- El tamaño de la muestra diseñado, para un nivel de confianza del 95,5%, heterogenei-
tal en dos submuestras: la muestra de análisis y la muestra de validación. La muestra de dad máxima (P = Q = 50) Y un error máximo elegido para el conjunto de la muestra de ±2%,
análisis es la que se utiliza para la consecución del modelo de regresión. Una vez obte- es 2.500 unidades muestrales. Pero, finalmente se realizaron 2.493 entrevistas.
El procedimiento seguido para la selección de la muestra fue polietápico, estratificado por
nido éste, los resultados se validan con la muestra de validación. Lo babitual es destinar
conglomerados, con selección de las unidades primarias de muestreo (municipios) y de las
el 60% de la muestra total a la muestra de análisis, dejando el 40% restante para la va- unidades secundarias (secciones) de forma aleatoria proporcional de las unidades últimas (in-
lidación del modelo. También, puede optarse por afijar la mfsma proporción de casos en dividuos) por rutas aleatorias y cuotas de sexo y edad. Al ser la afijación proporcional, no pro-
ambas submnestras. Este seccionamiento del tamaño mnestral exige, obviamente, que cede su ponderación.
el número de nnidades muestrales sea cuantioso. La muestra de análisis ha de cumplir los Los puntos de muestreo fueron 161 municipios elegidos aleatoriamente, tocando a 44 de
ratios mfnimos de casos por variables referidos para facilitar la significatividad estadís- las 50 provincias. Los estratos se formaron por el cruce de las 17 regiones autonómicas con
tica y consiguiente inferencia del modelo de regresión resultante. el tamaño de hábitat, dividido en 7 categorías: menos o igual a 2.000 habitantes; de 2.001 a
Por las razones expnestas, se recomienda que, antes de proceder a realizar los aná- 10.000; de 10.001 a 50.000; de 50.001 a 100.000; de 100.001 a 400.000; de 400.001 a
lisis, se compruebe el tamaño muestral real disponible. Esta comprobación adqUIere 1.000.000; más de 1.000.000 de habitantes.
mayor relieve cuando se inclnyen variables con una proporción considerable de Los cuestionarios se aplicaron mediante entrevista personal en los domicilios. Esta in-
"missing values" (o casos sin respuesta). Cuando esto acontece, la generalidad de los formación se detalla en la ficha técnica del citado estudio.
18 Análisis multivariable. Teoría y práctica en la investigación social Capüulo 1: Regresión múltiple 19

Al ser el procedimiento de selección muestral aleatorio, se garantiza la igual probabili- socioeconómicas, etc." (Hardy, 1993: 1-2) .. De lo que se trata es de comprobar si las va-
dad que tienen los individuos que componen la población de interés de participar en la mues- riables independientes analizadas tienen efectos varios en los grupos diferenciados.
tra. Por lo que se cumple un requisito básico para la aplicación de un análisis de regresión Si no se qUiere perd~r la info:mación proporcionada por estas variables, habría que
lineal múltiple: la selección aleatoria de la muestra. También se cumple otro de los requisitos traducirlas a una sene de vanables ficticias para su utilización posterior en un análi-
básicos, cual es el tamano muestral elevado. La muestra final consta de 2.493 unidades sis de regresión lineal.
muestrales. Tamano muestral considerable, superior a los mínimos exigidos, y que permi-
te el seccionamiento de la muestra total en dos submuestras para propósitos de validación. . En suma, nn modelo de regresión lineal puede combinar variables cuantitativas con
Como después se verá, para la "validación cruzada" se decide dividir la muestra total en dos cualitativas. Pero, como su correcta aplicación exige que las variables estén medidas en
submuestras de igual tamano: la muestra de análisis y la muestra de validación. No hubo ne- una ~scala continua, toda aqnella variable predictora que sea cualitativa (o categórica)
cesidad de destinar el 60% de la muestra total a la muestra de análisis y el 40% a la mues- habra de ser transformada en una serie de variables ficticias, que facilite sn tratamiento
tra de validación, como es habitual. Incluso optando por eliminar del análisis los casos sin como continua.
respuesta en alguna de las variables de interés, se está ante un tamaño muestral de Por variable ficticia se entiende una variable dicotómica que se crea a partir de una
1.713 unidades. variable cualitativa (nominal u ordinal). Ésta puede ser dicotómica (tiene sólo dos ca-
tegorías, como la variable "sexo", por ejemplo) o politómica (con más de dos categorías
Como I~ variable "estado civil"). Para captar toda la información que contiene las "g';
categonas de la vanable, habrá que crear "g - 1" variables ficticias. Siempre habrá una
1.1.2. Variables continuas: la creación de variables ficticias variable ficticia menos qne el número de categorías iniciales de la variable categórica
(o cualitativa) original. .
Como técnica estadística multivariable de dependencia, el análisis de regre- Aquella categoría que no se transforma en variable ficticia actúa en los análisis co-
sión (de mínimos cuadrados ordinarios o OLS) exige la existencia de una única va- mo grupo de referencia. En general, se aconseja que la categoría elegida de referencia
riable dependiente y dos o más variables independientes. La variable dependiente ha se halle bien definida y que contenga un número suficiente de casos. Quiere esto de-
de ser métrica (medida a nivel de intervalo o de razón) y continua. Una varíable de- cir, qne se desaconseja la consideración como grupo de referencia de categorías ge-
pendiente discreta viola el supuesto de que el error en el modelo de regresión está néricas como "otros" o que se hallen escasamente representadas en la muestra.
normalmente distribuido, con varianza constante. Si bien, Fox (1991: 63) advierte que La codificación binaria más aplicada en la creación de variables ficticias consiste
"este problema sólo es serio en casos extremos -por ejemplo, cuando hay muy po- en la atríbución de los códigos numéricos O y 1 en cada categoría de la variable. El có-
cas categorías de respuesta-, o donde una gran proporción de observaciones está en digo 1 se asigna a los casos que pertenecen a una categoría concreta; el código O a
un número pequeño de categorías condicionales en los valores de las variables in- aquellos que no pertenecen. De este modo la variable nominal "sexo", medida ori-
dependientes" . ginariamente con dos categorías, 1 varón y 2 mujer, se transforma en una única va-
Las variables independientes pueden, en cambio, ser continuas o dicotómicas. Aun- riable ficticia: 1 varón y Omujer, o a la inversa, Ovarón y 1 mujer. Depende de qué gru_
que se prefiere que sean métricas y continuas. Es decir, que se hallen medidas con pre- po se tome de referencia. En el primer supuesto serían las mujeres, mientras que en
cisión numéríca. el segundo los varones.
En consecuencia, cuando la variable dependiente es no métrica, hay que optar por Alternativamente se puede aplicar otra codificación binaria: -1 y +1, donde el có-
otra técnica multivariable de dependencia, COmo la regresión logística, por ejemplo (ca- digo -1 den~ta al grupo de referencia. Si bien esta última codificación es menos popular
pítulo 2). El procedimiento de regresión de mínimos cuadrados ordinarios no es que la antenor. Por el contrarIO, el empleo de otros códigos numéricos, COmo 1 y 2, por
apropiado cuando la variable dependiente es dicotómica (con codificación binaría: ejemplo, no se considera apropiado (Hutcheson y Sofroniou, 1999). La razón está en
O-1, u otra) y, en general, cualitativa. que el procedimiento de regresión atribuye un significado específico a estos números:
Por el contrario, la existencia de variables independientes no métricas no invalida el grupo codi~cado 2 se interpretaría como 2 veces el valor del grupo codificado 1,
la aplicación del método de regresión de mínimos cuadrados ordinarios. Aunque, con cuando en realidad se trata de categorías distintas y no ordenadas (nominales). En cam-
la condición de que se hayan previamente traducido a variables ficticias (también co- bio, la aplicación de los códigos O y 1 únicamente describe la presencia (1) o ausencia
nocidas como "dummy variables"). De otra forma, "la utilidad del modelo de re- (O) de un atributo concreto de la variable en cuestión. En ningún caso reflejan un or-
gresión sería severamente limitada si todas las variables independientes utilizadas co- den cuantitativo de las categorías de las variables.
mo predictores tuviesen que estar medidas en una escala de intervalo. Los problemas Cuando la variable incluye más de dos categorías (politórnica), habría que crear
de investigación que implican diferencias grupales son bastante corrientes. Por ejem' tantas variables ficticias como número de categorías de la variable ("g") menos 1. Un
plo, diferencias étnicas, sexuales, regionales, en la conducta, actitudes, características procedimiento a seguir se ilustra en el siguiente ejemplo:
20 Análisis multivariable. Teoría y práctica en la investigaóón social
Capftulo .1: Regresión múltip!(> 21

-[EJEMPLO DE CODIFIC.~~ÓN r:':. VARIABLES F I C T l c ; s J f - - - - - - - - Las variables ordinales (como la variable "clase social" o "satisfacción") no precisan
de su transformación en variables ficticias para su incorporación a un análisis de
regresión lineal. De acnerdo con Afifi y Clark (1990: 226), las variables ordinales "re-
La variable categórica "estado civil", originariamente medida en 5 categorfas: 1 soltero, presentan variables con una escala latente". Esto posibilita su tratamiento como varia-
2 casado, 3 separado/divorciado, 4 viudo y 5 en pareja. Como variable nom!nal, ne~esana­ ble continua. Pero ello exige que los códigos numéricos asignados a cada categoría de la
mente exige su previa transformación en variable ficticia para su !ncorporac~on al a~a¡!s~s de variable se correspondan con la cualidad que expresau. Así, por ejemplo, en la variable
regresión lineal. Como esta variable incluye 5 categorías, son 4 las vanables ficticIas a "clase social", medida en cinco categorías: alta, media-alta, media, media-baja y baja; de-
crear. Arbitrariamente, se escoge una de las categorías de la variable para actuar de grupo bería aplicarse una escala numérica en consonancia con el nivel de esta tus correspon-
de referencia. La única condición que se impone es que su presencia en la muestr,a no sea diente. El código numérico más bajo, el (se aplicaría a la "clase social baja". En cam-
escasa. En este ejemplo se elige la categoría de "soltero" como grupo de referencia. La co- bio, el código numérico más elevado, el 5, a la categoría de "clase alta". Y no a la
dificación resultante sería la siguiente:
inversa. Lo que facilita la interpretación de la variable en la ecuación de regresión.
Pero el investigador también puede optar por ignorar el orden latente de las varia-
ESTADO CIVIL VARIABLES FICTICIAS
bles ordinales, tratándola a modo de variable nominal. Ello exige su transformación a tan-
(Original) DI D2 D3 D4 tas variables ficticias Como número de categorías menos uno. En el ejemplo anterior, ten-
dría que crearse 4 variables ficticias. Arbitrariamente se tomaría una de las categorías de
Soltero O O O O
la variable "clase social" como grupo de referencia. La categoría elegida puede ser la "cla-
Casado I O O O se social alta". Las cuatro variables ficticias serían: clase media-alta (DI), media (D2), me-
Separado/divorciado O I O O dia-baja (D3) y baja (D4). Si D1 = 1, el individuo es de clase media-alta; DI = O, no es de
clase media-alta. Y así con las otras variables ficticias.
Viudo O O 1 O El proceder de esta segunda manera, transformando las variables ordinales en fic-
En pareja O O O 1 ticias, tiene, no obstante, un inconveniente importante. La codificación ficticia no re-
tiene información sobre el orden expreso en la variable. Las categorías de la variable
cambian a variables no relacionadas. "El análisis consecuentemente pierde algún
poder" (Hutcheson y Sofroniou, 1999: 92), al perderse el orden de las categorías de la
De este modo la variable ficticia D1 = 1, si la persona está casada; D1 = O, si su estado
°
civil es otro. D2 = ;, si está separado o divorciado; D2 = si su estado civil es otro. D3 = 1,
variable ordinal. Por esta razón, se aconseja elegir la primera opción: dar a la variable
ordinal el tratamiento de variable continua.
si es viudo/a D3 = O si su estado civil es otro. D4 = 1, si vive en pareja; D4 = O, si su esta-
do civil es ot;o. Los s'ujetos que puntúen O en todas las cuatro variables ficticias, constituyen Por último, señalar una utilidad importante de transformar variables ordinales, e in-
el grupo de referencia (los "solteros"). , cluso de intervalo, en ficticias. Cuando se sospeche la existencia de nna relación curvilínea
Si se desea comparar cada variable ficticia con el promedio grupal, se esta ante un proce- entre dicha variable independiente con la dependiente. En este caso la transformación
dimiento de codificación llamado "desviación" (Hutcheson y Sofroniou, 1999). Este segundo a variables ficticias tendría la utilidad de representar segmentos de la distribución de di-
procedimiento no difiere del anterior, salvo en la codificación del grupo (o categoría) de.referen- chas variables independientes. Lo que proporciona -de acuerdo con Hardy (1993)- una
cia. Éste pasa a codificarse -1, en vez de O(para cada una de las cuatro vanabl.es fictICIas cre~­ alternativa útil a la regresión polinomial o al uso de transformaciones.
das). Lo que posibilita la comparación de cada grupo codificado 1 (variable fictICIa) y el promedio
de todos los grupos. Hecho que incide en que los coeficientes de regresión para las vanables fIC-
ticias permanezcan constantes, indistintamente del grupo que se tome de referenCia. 1.1.3. Variables independientes relevantes
Hay que advertir, no obstante, que cuando se aplica este segundo procedlm/~nto de co-
dificación no puede omitirse ninguna de las g - 1 variables ficticias creadas a partir de la va-
riable categórica original. De otra forma se dificulta la comparación con el promedIo grupal. La solución de regresión depende bastante de qué variables independientes par-
Para cada una de estas cuatro variables ficticias (indistintamente del procedimiento segUi- ticipen en el análisis. Tan importante es comprobar que no se ha excluido (de la base
do en su elaboración) se calcula un coeficiente de regresión, por separado. Cada una de estas de datos) ninguna variable independiente que se estime "relevante" (en la predicción de
variables actúa en el modelo como variable independiente. Lo que puede provocar un efecto no la variable dependiente) como la no inclusión de variables "irrelevantes".
deseado: elevar la cOlinealidad, al poderse predecir el valor de cualquiera de dichas variables a En regresión, como en la generalidad de los análisis estadísticos, se busca la ob-
partir del conocimiento de las otras tres variables. La colinealidad se trata en el subapartado 1.1.8. tención de un modelo parsimonioso. Es decir, un modelo explicativo que incluya el me-
nor número posible de variables predictoras (o independientes). Pero, asimismo, és-
22 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 1: Regresión múltiple 23

tas han de mostrar "relevancia" en la predicción de la variabilidad de la variable de-


pendiente. "El añadir variables innecesarias causa una pérdida en precisión de los coe-
• P11: "¿Qu~ le parece a 'yd."el número de personas procedentes de otros países
ficientes estimados en las variables relevantes" (Schroeder el al., 1986: 17). Ello se de- que Viven en Espana? . Son demasiados (1) Son bastantes, pero no dema-
siados (2) Son pocos (3) N.s. (8) N.c. (9).
be al aumento del error típico de la estimación (subapartados 1.4.2. y 1.5.2.), que • P16: "En su opinión ¿cree que las leyes que regulan la entrada y permanencia de
ocasiona la incQrporación de variables "irrelevantes", sin que ello se traduzca en extranJero~ e~ ,España son demasiado tolerantes, más bien tolerantes, co-
una mejora en proporción de varianza de la variable dependiente explicada por las in- rrectas, mas bien duras o demasiado duras?". Demasiado tolerantes (1) Más
dependientes, medida mediante el coeficiente de determinación R2 (subapartado bien tOlerante~ (2)?orrectas (3) Más bien duras (4) Demasiado duras (5) No
1.5.1.). Por esta razón fundamental se desaconseja la inclusión de muchas variables in- ~onoce la leglslaclon en materia de inmigración (6) N.s. (8) N.c. (9).
dependientes en el análisis de regresión, a menos que muestren que son "relevantes" • P19: Y, en .general, ¿cree Vd. que se debería de tratar de regularizar la situación
para la predicción de la variable dependiente. de lo~ mm~~rantes ¡Jeg~les o por el contrario se les debería devolver a su país
La comprobación de si se han incluido variables predictoras "irrelevantes" puede de ong~n .. Se debena regularizar su situación (1) Se les debería devolver
hacerse siguiendo alguna de las opciones ya resumidas por Sánchez Carrión (1995: 412): a su pals (2) N.s. (8) N.c. (9).
• P21: "¿Qué políticacree Vd',~ue sería la más adecuada con respecto a los tra-
a) Comprobar cuánto mejora la explicación de la variable dependiente el hecho de baJadores Inmigrantes? . Facilitar la entrada de trabajadores inmigrantes
que se incluya una nueva variable independiente (véase incremento en R2). (1) FaCilitar la <;ntrada sólo a aquellos que tengan un contrato de trabajo (2)
b) Mediante la realización de un contraste que permita conocer si el efecto de ca- Hacer muy difiCil la entrada de trabajadores inmigrantes (3) Prohibir por
da variable independiente es estadísticamente significativo. ~ompleto la entrad~ de trabajadores inmigrantes (4) N.s. (8) N.c. (9).
• P2904: El aumento de los Inmigrantes favorece el incremento de la delincuencia en
,~uestro país". De acuerdo (1) En desacuerdo (2) N.s. (8) N.c. (9).
• P33: ¿Ha teUldo Vd. alguna vez relación o trato con inmigrantes en España?" Sí
(1) No (2) N.c. (9). .
• P37: "En estos últimos años se está prodUciendo en algunos países europeos un
Del total de ítems que componen la encuesta de "Actitudes ante la inmigración" de 1996 cierto .auge de partidos políticos de ideología racista que, como Le Pen en
del C.I.S., se han escogido las siguientes variables (enunciadas con el nÚmero de la pregunta F:?ncla, propugnan expulsar del país a ciertos colectivos por su raza o reH-
con el que figura en el cuestionario): g~on (negr?s, mahometanos, judíos, etc.). ¿A Vd. este auge le parece muy po-
SitiVO, pOSitiVO, negativo o muy negalivo?". Muy positivo (1) Positivo (2) Ne-
?atlvo (3) Muy negativo (4) N.s. (8) N.c. (9).
A. Variable dependiente: • P39: Cuando se habla de política se utiliza normalmente las expresiones iz-
• P201: "Dígame, por favor, en una escala de O a 1O, la simpatía que Vd. siente por los qUle:da y derecha. En esta tarjeta hay una serie de casillas que van de
norteafricanos (marroquíes, etc.), teniendo en cuenta que O significa ninguna simpa- IzqUierda a derecha ¿En qué casilla se colocaría Vd.?
tía y 10 mucha simpatía". ~,zda 01 10 Dcha N.s (98) N.c. (99)
• P41: Sexo" Hombre (1) Mujer (2).
Se ha elegido esta variable por su carácter de "continua". Se quiere conocer qué varia- • P42: ::Cuá~tos años cumplió Vd. en s~ último cumpleaños?" ___ N.c. (99).
¡, bles ayudan a predecir el mayor o menor grado de simpatía hacia los norteafricanos. • P43a: ¿Cuales son los estudiOS de mas alto nivel que Vd. ha cursado (con inde-
i' pendenCia de .Ios que ha terrmnado o no?". Algunos años de primaria (01) Es-
1,
i B. Variables independientes: tudiOS pnmanos (02) Bachillerato elemental (03) FP1 (04) Bachillerato su-
penor (05) FP2 (06) Arquitecto e ingeniero técnico (07) Diplomado escuela
ilj! • P210: "Dígame, por favor, en una escala de O a 1O, la simpatía que Vd. siente por u.nlversltana (08) Estudios superiores de 2 o 3 años (09) Arquitecto e inge-
¡:
i! los latinoamericanos, teniendo en cuenta que O significa ninguna simpatía y mero supenor (10) Licenciado universitario (11) Doctorado (12) Estudios de
1O mucha simpatía". pos:grado, master (13) Estudios no reglados (corte y confección mecano-
• P306: "A Vd. le preocuparía mucho, bastante, poco o nada que un hijo o una hija su- grafla ... ) N.s. (98) N.c. (99). '
ya se casara con un ciudedeno de Marruecos u otro país norteafricano". Mu- • P49a: "¿Co.n qué frec~encia asiste Vd. a misa u otros oficios religiosos sin contar las
cho (1) Bastante (2) Poco (3) Nada (4) No sabe (8) No contesta (9). ocasiones relaCionadas con ceremonias de tipo social, por ejemplo, bodas, co-
• P506: "¿Hasta qué punto: mucho, bastante, poco o nada le importaría a Vd. tener mUniones o funerales?': Casi nunca (1) Varias veces al año (2) Alguna vez al mes
como vecinos a una familia de ciudadanos de Marruecos u otro país norte- ~3) Cas~ todos Jos domingos o festiVOs (4) Varias veces a la semana (5) N.c. (9).
africano?". Mucho (1) Bastante (2) Poco (3) Nada (4) N.s. (8) N.c. (9). • P51: ¿A que clase SOCial dlna Vd. que pertenece?" Alta (1) Media-alta (2) Media-
baja (3) Media-media (4) Baja-trabajadora (5) N.S. (8) N.c. (9).
24 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo]: Regresión múltiple 25

• P52: "Actualmente, entre todos los miembros del hogar y por todos los conceptos, 1.1.4. Linealidad
¿de cuántos ingresos netos disponen por término medio en su hogar al
mes?" Menos de 50.000 pts. (01) 50.001-100.000 (02) 100.001-150.000 La relación entre la variable dependiente y cada variable independiente ha de ser
(03) 150.001-200.000 (04) 200.001-300.000 (05) 300.001-400.000 (06) lineal. Esto significa que el efecto de cada variable independiente (X.) en la depen-
400.001-500.000 (07) 500.001-750.000 (08) 750.000-1 millón de pts. (09) Mas diente (Y) es el mismo, cualquiera que sea el valor de la variable indep~ndiente. O, di-
de 1 millón de pts. (10) N.c. (99) .
cho con otros términos, para "cada variable independiente Xi' la cantidad de cambio
• Tamuni' '"Tamaño del hábitat" Hasta 2.000 hab. (1) 2.001-10.000 (2) 10.001-50.000 (3)
. 50.001-100.000 (4) 100.001-400.000 (5) 400.001-1.000.000 (6) Más de en el valor medio de Y asociado con un aumento de una unidad en X., manteniendo
1.000.000 (7). todas las otras variables independientes Constantes, es el mismo sin co¡;siderar el nivel
de X¡' (Berry y Feldman, 1985: 51).
Por el contrario, si se observa que el cambio en el valor medio de la variable de-
Del total de 18 variables inicialmente elegidas para la predicción de la variable depen- pendiente asociado con el incremento de una unidad en la variable independiente va-
diente 14 son finalmente las variables que participan en el análisis. Las 4 vanables des-
ría con el valor de la variable Xi se dice que la relación entre la variable dependiente
cartad~s por mostrar muy escasa correlación (bivariable) con la variable dependiente son las y la independiente es no lineal (no se ajusta a una recta). Cuando esto sucede, el mo-
siguientes: P33 (r = ,095), P49a (r =-,010), P51 (r = ,028) Y Tamunl (r = ,01S). . .
La mayorfa de las variables elegidas son ordinales, exceptuando las vanables metncas delo de regresión no logra captar "el modelo sistemático de relación entre las variables
dependiente e independientes" (Fox, 1991: 49).
P210, P39, P42 Y P52 (en intervalos); y las nominales P19, P2904 Y P41. ..
Como ya se expuso, las variables ordinales no precisan de su transforma?,on en va- En regresión múltiple, el cumplimiento de este cuarto supuesto puede fácilmente oom-
riables ficticias para su incorporación como variables independientes en el anallsls de re- probarse de fonna visual, con la ayuda de los gráficos de regresión parcial y los de residuos.
gresión lineal. Estas variables representan variables en u~a escala lat~nte que posibilita
su tratamiento como variable continua. Para ello se precisa que los codlgos numéncos A) Gráficos de regresión parcial
asignados a cada categoría de la variable se correspondan con la cualidad que expres~n.
Esta correspondencia facilita la interpretación de la variable en la ecuaclon de regre~,on.
Por esta razón variables como P306, P506, P11 o P37, por ejemplo, se han recodifica- Estos gráficos son de gran utilidad para conocer qué variables concretas incumplen
do para mante~er la correspondencia necesaria entre el código numérico y la cualidad que el supuesto de linealidad. Muestrau, para cada variable independiente, su relación COn
expresa: Mucho (4) Bastante (3) Poco (2) Nada (1); Son demasiados (3) Son bastantes, la dependiente. Para que el supuesto de linealidad se cumpla, la nube de puntos que
pero no demasidos (2) Son pocos (1); Muy positivo (4) Positivo (3) Negativo (2) Muy ne- corresp.onde a los valores de Xi e Y en cada caso concreto, ha de ubicarse en tomo a una
gativo (1). . . . recta. Esta puede ser creciente o decreciente. Es creciente, cuando ambas variables, X.
La variable P43a (estudios) se ha agrupado en cinco categonas: Prlmanos o me~os (1), e Y, se hallan positivamente relacionadas; es decir, que el aumento del valor de la va~
EGB, FP1 (2) Bachillerato, FP2 (3) Medios (diplomado, técnico, superiores de 2 o 3 anos) (4) riable independiente supone igualmente un aumento en el valor de la variable de-
Superiores (5). . . pendiente. En cambio, la recta será decreciente si la relación entre las variables es ne-
Al estar agrupada la variable P52 (ingresos) en intervalos, se ha procedido previamen- gativa: al aumento de valor de la variable independiente le sigue una disminución en el
te a calcular los puntos medios de los intervalos (la suma de sus limites, su penar e Infenor, valor correspondiente a la variable dependiente. Véanse gráficos a y b en la figura 1.1.
dividida entre dos), como valores representativos de los mismos, para el cálculo de la medIa
Por el contrario, si se observa que la nube de puntos no sigue una misma pauta li-
y demás estadísticos. . ..
Las variables nominales P19, P2904 Y P41 se han transformado en flcflclas. Al tener C?- neal, creciente o decreciente, sino en forma de curva (habiendo un punto de inflexión
da una de ellas sólo dos categorías son tres las variables ficticias creadas: P41 (sexo) Varan en los datos, pasándose de una tendencia creciente a decreciente, o a la inversa) se es-
(1) Mujer (O); P2904 (inmigrante delincuente) De acuerd? (1) En desac~e;,do (O); P19 (re: tá ante una relación no lineal (gráfico e). Cuando esto acontece, es preciso realizar una
gularizar inmigrantes) Sí (1) No (O). Recuérdese que el codlgo numenco O designa al gru transformación logarítmica en dicha variablc independiente (lag X,) para alcanzar la
po de referencia. . . _ linealidad que exige el análisis de regresión lineal.
No se ha querido incluir más variables en el análisis porque la finalidad es obtener un mo En cambio, si en el gráfico se observa que la nube de puntos no sigue ninguna pau-
. o que muestren s~r ""rrele~
delo "parsimonioso". La incorporación de variables innecesanas ,1 ta (ya sea lineal o curvilínea), significa que no existe ninguna relación entre las varia-
vantes" para la predicción de la variable dependiente suele ir acompañada de una perdida de bles dependiente e independiente. El cociente de correlación de ambas variables co-
Prec'ls'lón de los coeficientes estimados en las variables "relevantes" (Schroeder et al., mo en el supuesto anterior de relación curvilínea, se aproxima a cero (r ~ O) -vé~nse
. .
1986), debido al aumento, que suele, provocar, en el error típico de las estrmaclones de las
subapartados 1.3.2. y 1.5.1-. Lo que lleva a reconsiderar la inclusión de dicha variable
variables "relevantes",
independiente en el análisis de regresión lineal (al mostrar no ser de utilidad en la pre-
dicción de la variable dependiente).
I
I
l.
26 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 1: Regresión múltiple 27

a) Relación lineal positiva b) Relación lineal negativa a) b)

Gráfico de regresión parcial Gráfico de regresión parcia!


Variable dependiente: simpatía marroquí Variable dependiente: simpatía marroquí

1
y y 1-1O+--~-~-~-~_~~_....j
$Impatra fatrrwamericana

El primer gráfico a) refleja la relación bivariable existente entre la variable dependiente "sim-
patía por los norleafricanos: marroquíes, etc." (P201) y la independiente "simpatía por los lati-
X noamericanos" (P21 O). Ambas variables se encuentran en la misma escala de medida. Sus va-
c) No-líneal d) Inexistencia de relación lores van de O a 10. Del gráfico puede deducirse la existencia de una relación lineal positiva entre
(relación curvilínea) entre las variables ambas variables, aunque no es perfecta. La simpatía mostrada hacia los latinoamericanos ayu-
da a predecir la sentida hacia los norteafricanos (marroquíes, etc.). La valoración dada a este úl-
Figura 1.1. Gráficos de regresión parciaL
timo colectivo de inmigrantes está positivamente relacionada con la dada a otro colectivo de in-
migrantes: los latinoamericanos. Las personas que más simpatía sienten hacia los norteafricanos
Los ejes de los gráficos de regresión parcial pueden venir expresados en las uni- son, asimismo, los que más simpatía muestran hacia los latinoamericanos. Al aumento en la va-
dades originales en que fueron medidas a,mbas variables o ~n sus corresp.ondtentes pun- loración hacia los latinoamericanos le sigue normalmente una mayor valoración hacia los nor-
tuaciones estandarizadas (unidades Z). Estas resultan de tIpificar la vanable par~ neu- teafricanos. Pero, la relación líneal positiva observada entre ambas variables no es perfecla. Si
tralizar la incidencia de la unidad de medida. En este caso, los valores de las vanables fuese perfecta, la nube de puntos se ajustaría a una recta ascendente. Este tipo de gráfico coin-
cide con un coeficiente de correlación r = 1,0, que indica la existencia de una relación lineal po-
se localizan en el intervalo de" -3" a "+3". _
sitiva perfecta entre ambas variables: conforme aumenta el valor de la variable independiente,
A su utilidad en el análisis de la relación bivariable entre cada Xi e Y, hay que ana-
se incrementa, asimismo, el de la dependiente; los valores arras y bajos en ambas variables coin-
dir que los gráficos de regresión parcial también muestran ser de utilidad en h de- ciden. En cambio, la correlación existente entre las dos variables referidas (simpatía por los la-
tección de atípicos. Por atípico comúnmente se enttende todo caso que se distancte de tinoamericanos y simpatía por los norteafricanos) no es perfecta, aunque sí importante: "r = ,593",
la tendencia observada en la generalidad de los datos (véase subapartado 1.5.4.). como se verá posteriormente, en la matriz de correlaciones. lo que explica que la nube de pun-
En el gráfico de regresión parcial cualquier punto que se aleje de la nube de puntos tos no sea totalmente lineal. la nube de puntos pierde la linealidad, a medida que disminuye la
identifica a un posible atípico, cuya confirmación precisa de otros procedmllentos ana- correlación entre las variables. Recuérdese que, cuando la correlación es nula, el gráfico de re-
líticos resumidos en el susodicho subapartado. gresión parcial coincide con el mostrado en la figura 1.1 (gráfico d).
la existencia de puntos alejados de la nube de puntos principal informa de la existencia
de atípicos a confirmar mediante otros procedimientos analíticos.
El gráfico b) es totalmente distinto al anterior. Ilustra la relación existente entre una variable
independiente ficticia ("sexo") y la dependiente continua ("simpatía por los norteafricanos"). la
variable "sexd' es una medida discreta converlída a ficticia mediante la codificación binaria "1" va-
rón y "a' mujer. Ello afecta a que cuando se modela su relación con una variable dependiente con-
tinua no resulta una recta de regresión, aunque las variables se hallen muy relacionadas. Por el
Para ilustrar el uso del gráfico de regresión parcial en la comprobación del supuesto de contrario, el gráfico de regresión parcial ofrece dos nubes de puntos principales, que corresponden
linealidad, se han selecdonado dos gráficos del total de realizados medIante el programa a los valores de la variable dependiente para cada uno de los dos valores posibles de la inde-
SPSS (versión 10.0). pendiente 1 y O. En general, el análisis de regresión con variables independientes ficticias posibilita
28 Análisis multivariable. Teoría y prácfica en la investigación social
CapítuLo j: Regresión múltiple 29

el conocimiento de los valores predichos (o esperados) en la variable dependiente para cada uno
varias sUbm?estras que incluyan un rango de valores para la variable independiente,
SI la re~r~slOn en cada ~ubmuestra) por separado, genera estímaciones de intercepto y
de los subgrupos en la variable independiente, Lo que imposibilita su representación mediante
una recta realizada desde una serie continua de valores.
de coefICIentes de pendIente que difieran sustancialmente a través de las submuestras
se considera la relación entre las dos variables no lineal. '
El incumplimiento del supuesto de linealidad no supone la invalidación del análisis
B) Gráficos de residuos de regresIón, aunque sí 10 debilita, Cuando acontece, la relación entre la variable de-
pendIente con la independiente no queda suficientemente captada por el coeficiente
A diferencia del gráfico de regresión parcial, el gráfico residuos no se limita a re- de regresIón lmeaL Para que esto no suceda, conviene aplicar alguno de los siguientes
laciones bivariables, Por el contrario, muestra los efectos combinados de todas las va- remedIOS contra la no linealidad:
riables predictoras incluidas en la ecuación de regresión con la dependie~lle, Para lo
cual se representan los residuos estandarizados o los estudentizados -exphcados en el a) La aplicación d~ _método~ de regresión no lineal, como la regresión polinomial,
subapartado 1.1.10- contra los valores predichos de la variable dependiente a partir de b) L~ transforrnaclOn logantmlca de la vanable Independiente (log X). La ecua-
la ecuación de regresión (11,
Estos valores se obtienen de sustituir (en la ecuación de CIOn de regresIón que resulta de utilizar lag Xi en lugar de X. no presentarfa nin-
regresión resultante de los análisis) los valores correspondientes de la vanable mde- gún problellla en la interpretación de los valores predich¿s de la variable de-
pendiente, en cada caso concreto, La diferencia entre el valor de la vanable depen- pendIente (Y). Por esta razón, "la mayoría de los investigadores aceptan la
diente observado en la muestra (Y) y el predicho a partir de la ecuación de regresión transformaclOn de loglox como razonable en estas situaciones" (Afifi y Clark
(11 es 10 que se entiende por residuo (E,). Si éste se halla dividido por la d~sviación tí- 1990: 119), '
pica, el residuo será estandarizado (E ,.). Los estuden/izados (E,) se caractenzan por se-
guir la distribución "t" de Student c¿n N - p - 1 grados de libertad (siendo "N" el ta-
maño de la muestra y "p" el número de variables independientes), _ ' 1.1.5. Aditividad
La figura 1.2 incluye distintas posibilidades de gráficos de residuos. Estos difieren
de los gráficos de regresión parcial en dos aspectos importantes: uno, ahora se rela- , La predicción de la variable dependiente exige que los efectos de las distintas va-
cionan los residuos con Y(los valores predichos de la variable dependiente), y no los ;Iables mdependlentes puedan sumarse entre sí. Esto significa que, para cada variable
valores de Y con X, como sucede en los gráficos de regresión parcial; dos, la nube de mdependlente mclUlda ?n el modelo de regresión, la cantidad de cambio que provo-
puntos ha de ser horizontal, y no ascendente ni descendente (según sea positivo o ne- ca ~n la vanable depend18nte será el mismo, indistintamente de los valores de las otras
gativo el coeficiente de regresión para la variable independiente), El supuesto de Iz- vanables independientes incluida,s en la ecuación de regresión, Si, por el contrario, se
nealidad se cumple cuando los residuos se distribuyen aleatoriamente, próximos a la observa que su mfluencla se ve atectada por los valores que presenten otras variables
línea horizontal que parte de 0, Téngase presente que este gráfico se realiza con resi- mdependientes, se está ,ante un modelo de regresión no aditivo ( o interactivo). Ello
duos estandarizados (E .) Y estudentizados (E,). En cambio, cuando la nube de puntos acontece cuando las vanables mdependientes interactúan unas con otras al influir en
presenta una forma ens~urva, en vez de rectangular, el supuesto de linealidad no se la variable dependiente, '
cumple, Como sucede en los gráficos b) Y c) incluidos en la figura 1.2, , Berry y Feldman (1985) diferencian tres variedades de modelos de regresión no adi-
üvos:
a) Relación lineal b) Relación no lineal e) Relaci6n no lineal

E" +3
.', +2
BO¡ +3
+2
ESj +3
+2
a) Modelo interactivo de variable fi~ticia, Cuando una de las variables indepen-
+1 +1 dlent~s es dlc~tÓID1~a (es deCir, dIspone de dos opciones de respuesta diferen-
O O tes: SI-no, varon-muJer, aprobado-suspenso), el modelo es interactivo si la va-
-1 .:. -1
-2 -2 riable independiente está linealmente relacionada con la variable dependiente
-3 L.....,..,....,..,....,..,.-=-
10 20 30 40 50 Y, 20 30 40 50 Y,
-3L.---·--
10 20 30 40 50 Y,
para ambos valores de la variable ficticia dicotómica. No obstante, la pen-
diente de la recta de regresión y el intercepto que caracterizan la relación lineal en-
Figura 1.2. Gráficos de residuos. (re la variable dependiente y las independientes diferirán según sea el valor de
la variable ficticia dicotómica (DJ
Berry y Feldman (1985: 54) proponen otra forma alternativa de comprobar el su- b) Modelo multiplicativo, Si dos variables independientes, medidas a nivel de
puesto de linealidad, que consideran más "rigurosa", Consiste en dividir la muestra en mtervalo, interactúan en la variable dependiente, de modo que la pendiente
30 Análisis multivariable. Teoria y práctica en la investigación social
Capítulo 1: Regresión múltiple 31

de la relación entre cada variable independiente y la dependiente esté rela- . Clomo eln otros supuestos de regresión, la forma más sencilla de comprobar éste es
cionada linealmente con el valor de la otra variable independiente. vlsua , con a ayuda de alguno de los gráficos siguientes:
c) Modelo interactivo no lineal. La resolución de este tipo de modelo exige tomar
logaritmos en ambos lados de la ecuación de regresión. Es decir, tanto para la
variable dependiente como para cada una de las variables independientes, in- A) Histograma de residuos
cluyendo la constante y el término de error.
1 I~c~ye ~os residuos, preferiblemente estandarizados, junto con las frecuencias de
En consecuencia, si se observa que el cambio en el valor de Y, relacionado con un pe- a vana e. ara que el supnesto de normalidad se satisfaga, los residuos (a ueUos da-
queño aumento en Xi depende del valor de Xi' significa que se está ante un modelo no li- t~s que no logran ser exphcados por el análisis de regresión, al no coincidir fos valores
neal. Por el contrario, cuando el cambio en Y, relacionado con un pequeño aumento en Xi' o ~ervadosco~ l~s predIchos a partir de la ecuación de regresión) han de estar nOr-
está relacionado con el valor de otra variable independiente, el modelo es interactivo. m mente dlStnbrudos. El histograma, en suma, ha de tener una forma acam anada (de
Tacq (1997) propone una sencilla comprobación del supuesto de aditividad. La con- campan.~ de ,G:anss). Su distribución ha de ser perfectamente simétrica, co:media O
fección de una ecuación de regresión que incluya todos los efectos multiplicativos entre desvlaclon lIplca 1. SI, ~or el contrario, se observa nna agrupación exagerada de r;
'dos variables independientes. Por ejemplo, Y = bo + b l XI + b, JS¡ + b3 X¡ JS¡ + e. Esta ecua- SI~UOS, no en el centr?, smo en un extremo de la distribución, ya sea en los valores po-'
ción se añade al modelo aditivo simple, que no contiene ténninos de interacción: Y = b o SJtIVOS o en los negallvos, el supuesto de normalidad no se cumple.
+ b l XI + b2 JS¡ + e. Si el valor del estadístico F empírico (obtenido del modelo) es mayor
que el correspondiente F teórico (que figura en la tabla de F, a unos grados de libertad y
nivel de significación concretos) -véase subapartado 1.5.3- significa que la totalidad de los
efectos de interacción ofrece una contribución significativa a la explicación de la variable
~)C¡;iA4¡;iiRl)~.H/s*9~~~~Á~E,~~~WI)~s·,/I¡---________
dependiente. En este caso, el modelo aditivo no sería adecuado.
En resumen, con más de dos variables independientes en el modelo pueden in- a co~:~a !u~trar la a PIicación del histograma en la comprobación del supuesto de normalidad
u clan se IncIuye el histograma correspondiente a Jos d t ' '
cluirse varios ténninos producto para cada dos, tres o más variables. De esta forma ha-
bría un refuerzo mutuo entre las variables independientes en la explicación de la va-
~~~~:~: ;~~~t~dl~~ ant~la inmigración". El gráfiCO contiene las~r~~~:~i:~~Z~~:r:b:: ~~:
de ob resl uos estandanzados, para un total de 1.267 casos válidos. En él pue-
riable dependiente. El modelo no sería aditivo, sino multiplicativo. La suma ponderada servarse que el supuesto de normalidad prácticam t i '
de los efectos de las variables independientes no explicaría el valor de la variable de-
pendiente; sino los productos de las variables independientes con efectos interactivos. ~~~:~~~~ae~i;i~~~~i~n~:~:~~ns~~i~:~~~t~~:~~:~~~~~:~i~I:~~~~~~~~:;~r:~~i~~~
1.1.6. Normalidad Histograma
Variable dependiente: simpatía marroquí
El supue;to de normalidad es común a otras técnicas de análisis multivariable. Con-
siste en la correspondencia de los datos (tanto relativo a la variable dependiente, co- 140
mo a las independientes) con la distribución normal. Ello es importante porque per- 120
mite el uso de los estadísticos "F" de Snedecor y "t" de Student, en la comprobación 100
de la significatividad del modelo de regresión en su conjunto ("F") y de sus coeficientes 80
por separado ("t").
60
El incumplimiento de este supuesto es más probable cuando el análisis de regre-
sión se realiza en una muestra de tamaño pequeño (inferior a los ratios mencionados
en el subapartado 1.1.1). Conforme aumenta el tamaño de la muestra, y merced a la
'""El"'" 40
20 Desv. tipo = 1,00
teoría del limite central, es más cierta la correspondencia de la distribución de datos con "
¡l:; O
Media = ,05
la curva normal. De hecho, algunos antores, como Afífi y Clark (1990: 116), afirman \7 \r \;> '-:> \?"\ " "\ ~~"""-_J N = 1.267,00
que "las salidas ligeras de este supuesto apreciablemente no alteran nuestras infe- '00 'so '00"so '00<"0 <00 "'''O "'00"'''0 {oo {so,;'q, ,;''''' -?q, -?""
rencias si el tamaño muestral es suficientemente grande".
1
Regresión residuo tipificado
32 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 1: Regresión múltiple 33

dia aritmética ha de ser igual a "0,0" y su desviación típica igual a "1,0". Si. se comparan los
valores obtenidos con los de referencia, puede concluirse que la asimetría de la distribución
pU,ntos de la diagonal definida por ambas probabilidad e E '" .
metncas negativas la agrupación de valo d s. n las dlstnbuclOnes aSl-
observada es ligera. Como era de esperar por el tamaño muestral analizado, en relación con b . . res se pro uce a la derecha de la curv I1
el número de variables predictoras incluidas en el análisis, la distribución de los datos casi se a~::e~:í::~~:f:~:~~c:~~: ~alorels superiores a la media en la muestra analiz;d:. ~~
corresponde con la curva normal, Para un análisis más detallado del ligero apuntamiento y . ' n va or negatIvo. De detectarse algú t' . ,
desviación hacia la derecha de la distribución observada ha de acudirse a los gráficos de pro- preC1SO examinar por separado cada variable para comprobar en CU~I~;~eais~~etnal' eS
babilidad normal para variables predictoras concretas, y no para el conjunto de la distribución, supnesto de normalidad. ' ump e e l
además de estadfsticos específicos de asimetría y curtosis. Éstos ayudan a comprobar la ex-
tensión a la que la serie de puntuaciones observadas se desvlan de la distribución normal.

EJEMPLO D'E GRÁFICO P - PDE PROBABILIDAD NORMAL


B) Gráfico de probabilidad normal
El gráfico P - P de probabilid d Id'
Algunas veces referidos como gráfico P - P. Difiere del histograma de residuos en misma distribución de datos analiZ~d~~~~~bo~ar::duOStstanda~Zad?S (o tipificados) de la
que también puede aplicarse cuando el tamaño de la muestra analizada es pequeño. En Como puede observarse en el rático _ . cone USlones el hIstograma de residuos.
él se compara la distribución observada de los residuos estandarizados (o tipificados) la ddiagonal (que resulta de cor~parar :s~~~u~~~:sn~~~~;:a~~~~=;:;~~~I~~~~argbo
I:s de
con la esperada bajo el supuesto de normalidad. Para ello se representan ambas dis- va as y esperadas -para una distribución normal- l' . o ser-
tribuciones de probabilidad acumuladas: la esperada y la observada. Si ambas distri- tanciamientos notorios. Lo que lleva a afirmar el c parar os reSiduos estandanzados), sin dis-
La asimetría a la derecha detectada es m I ~mp Imlento del supuesto de normalidad
buciones coinciden, se obtieue una recta que forma un ángulo de 45°. Lo que signifi-
ca que se está aute una distribución normal. Las salidas de la normalidad se producen encicma de la dbiagon?1 en el rango semiin~~r:::rtíli~~~~sl:= ~~~~~~~~~~tse:~~~I~rdco por
omo am os graflcos de reSiduos (P P d b' . as.
cuando la distribución de datos se distancia de la diagonal definida por dicha recta. siduos) muestran el práctico cumplimiento-del seupro abllIdad normal y el histograma de re-
Cuando la línea de puntos cae por debajo de la diagonal, la distribución es plati- seguirse la recomendación de Tabachnick y Fidell 0~~~o7~~ norrr;a/~dad m~,ltlvanable, puede
cúrtica. Tanto más, cuanto más se distancie la línea de puntos de la diagonal. Este ti- tIple, SI los gráficos de residuos parecen normales ' , ' segu~ a cual, . en ~egreslon mul-
po de distribución se caracteriza por una elevada dispersión de sus valores con respecto t
individuales para comprobar la normalidad" N b no eXiste razon para VisualIzar variables
a la media de la distribución, lo cual dificulta su representatividad. La distribución de de ser deseable en busca de mejora del mOdel~ ~b~eante, esta comprobacl~n univariable pue-
los datos presenta una forma achatada o plana, con escasos valores en su centro. El va- procedimientos estadísticos y gráficos que se verá~'~o¿:~~~ cual habra de segUirse otros
lor de curtosis correspondiente es negativo (inferior a O). Por el contrario, si la línea
de puntos se sitúa por encima de la diagonal, la distribución es leptocúrtíca. Sus valores
se hallan muy concentrados en torno a la media de la distribución, al haber muchos Gráfico ::-P normal de regresión residuo tipificado
casos en su centro; su dispersión respecto de la media aritmética es muy pequeña, fa- VarIable dependiente: simpatía marroquí
voreciendo su representatividad. El valor de curtosis es en este caso positivo (supe- 1,00
rior a O). ~)l
Un arco sencillo por encima opor debajo de la diagonal indica, asimismo, asime-
tría (pOSitiva o negativa). La asimetría constituye un indicador de la agrupación de las
frecuencias en la curva de una distribución, del grado en que coinciden las medidas de """
~
~

o.
,75

,50
,¿JPJ
....',
I'!'"'
tendencia central (media, mediana y moda). La distribución es simétrica (o normal) 00

cuando los valores de dichos estadísticos no difieren. Gráficamente, la nube de puntos '"
S
se ajusta a la diagonaL Si se sitúa por encima de la diagonal, la distribución es asimé- "" ,25
trica a la derecha (o con sesgo positivo). Los casos se agrupan a la izquierda de la cur- "
.D
o
va, al haber en la distribución mayor representación de los valores inferiores a la me- ~

dia. El valor de asimetría correspondiente es positivo (superior a O). '" I I I


0,00 ,25 ,50 ,75
Un arco por debájo de la diagonal informa, en cambio, que la distribución es asi- 1,00
Prob. aCUm. observada
métrica negativa (o con sesgo negativo); tanto más, cuanto más se distancie la línea de
34 Análisis multivariable. Teoria y práctica en la investigación social
Capitulo 1: Regresión múltiple 35

• La normalidad también puede comprobarse con la ayuda de estadísticos. El de ma-


yor aplicación es el estadístico W de Shapiro-Wilks (propuesto por ambos autores en 1965, ~~~~u:~~nd:ol~:~~:;~ad~o~~:I;~¡;eCción anterior de Jos datos, aunque era de prever por
en ''An analysis of variance test for nonuality", Biometrika 52: 591-611). Este estadístico
ha alcanzado una amplia aplicación en la comprobación del supuesto de nonualidad, aun- las p~~:~:!d~eq~i~~~c~~~~~~sll~!,~d:~ r~::~~~: ~ ~~~~e~~d~~I:S)~O :;~s habitu~1 q~e es
que limitada a tamaños muestrales pequeños (inferiores a 50 unidades). Su popularidad muestral se halla presente en su cálculo (los grados de libertad)· , da o que e tamano
en gran parte se debe a su presencia en la mayoría de los paquetes estadísticos. coincidencia en los resultados Incluso 1 I . ..' e;a e esperar esta no
Como Hair el al. (1999: 65) afirman. "E~~ re ~s v~lor~s D ~ su. slgmflcatlvldad correspondiente.
A

Su valor se obtiene a partir de los valores esperados de los residuos (E; = Y; - Y;l
de una distribución normal estándar. El rango de valores posibles va de 0,0 a 1,0. Un significación son menos útiles en ~ues;~::~~ga O! e(bena siempre recordar que los tests de
grandes muestras (u . quenas menores de 30) y muy sensibles para

~~~~";~~:~d~ ~s~~:~~~:~:b~~; ~~~~fi:~~~2::~~ ~::~;~b:~~~c~~:~~~~~~I~~ ~~~


W = 1,0 significa el cumplimiento del supuesto de normalidad, mientras que un W = 0,0,
su incumplimiento.
La generalidad de los paquetes estadísticos suelen ofrecer los valores de W acom- en muestras pequeñas o r~~~:r~~~: ep·e;~Sn~stadt,stlco_s de normalidad muestran adecuación
pañados de la probabilidad asociada (valor p), para comprobar la hipótesis nula que r d' , e n amanos muestrales elevados como el aqur
los datos se ajustan a una distribución normal. Cuando el valor de Wes pequeño, pró-
ximo a 0,0, así como el valor de p, se rechaza la hipótesis nula de que los datos se ha-
llen nonualmente distribuidos.
!~~~~~ei~~~~~~~~;!::E~~:~J~:~~~j~~~~~~~~i~;eda~~~:I:s:ds~~~~:~e~~:~~~~~~~~
A lo que añaden· "E . suc e en os atas aqUl analizados-.
La comprobación del supuesto de normalidad tambiéu puede hacerse con el es-
tadístico D de Kolmogorov-Smimov. Pero, únicamente cuando se analice un tamaño ~f~~~~~e~~ao~~~~~r~~~~:~~~~~:~: ~~;i:~~~:~~r~s;~::~~~g~::~r:~~~a(~e~~=~s~~
muestral elevado. Con este segundo estadístico de comprobación, la hipótesis nula de y curtosis no son tan importantes como sus tamañO~ ~:a~~~e e:ore Slgnlflcat~vlda~ ~e asj~etría
O) y apariencia real de la distribución" (Tabachnick y Fidell, (¡'989: ~~~~)~as se distanCien de
c
normalidad se rechaza a la inversa que con el anterior: para valores elevados de D (y
no bajos), o un valor pequeño de p. Estas observaCiones han ayudado a I ·nI ..
de la significatividad, al contar con un nú~~roeJ:~~~~snV~~i~~~ r~~~:~dOS, al la no ~nsider~ción
clones (en la ~ariable "leyes de inmigración"), de 1.713 unidades la o, en a peor . e las sltua-
mogorov-Smlmov se ha contrastado con I ' . . .. prueba de normalidad de Kol-
diante los gráficos Q Q I os estadlsticos descnptiVOs de asimetría y curtosis y me-
- norma para cada una de las variables consideradas.

Pruebas de normalidada

Kolmogorov~SmirnovB
La comprobación del supuesto de normalidad no se ha limitado al análisis de los gráficos
de residuos. También se ha acudido a estadísticos que describan la forma de la distribución, Estadístico gl Sigo
en qué medida coincide o se distancia de la curva normal. Como la muestra analizada supera Simpatía marroquí
las 50 unidades, el programa SPSS no calcula los valores correspondientes al estadístico de ,147 2.183 ,000
Leyes inmigración ,208
Shapiro-Wilks. Los valores de normalidad que ofrece son los valores O de Kolmogorov-Smir- 1.713 ,000
Ideología política ,139
nov, con una corrección de la significatividad de la normalidad de Lilliefors. Esta corrección 1.804 ,000
Sexo ,351 2.492 ,000
es de utilidad cuando se aplican estimaciones muestrales y se desconocen la media y la va- Edad ,097 2.492 ,000
rianza poblacionales. Los valores O figuran con sus grados de libertad respectivos. Éstos son Simpatía latinoamericano ,127 2.174
Número inmigrantes ,000
iguales al número de casos válidos (o con respuesta) en la variable concreta analizada. ,305 2.111
Regularizar inmigrante ,000
Atendiéndonos a los datos que figuran en la tabla anexa puede observarse que, a ex- ,471 2.171 ,000
cepción de dos variables principales ("vecino marroqur' y "regularizar a inmigrantes"), que pre- Entrada inmigrante ,346 2.288 ,000
Partido racista ,385
sentan valores O próximos a ",5", la generalidad de las variables se sitúan por debajo de es- 2.237 ,000
Casar con marroquí ,383
te valor. Especialmente, las variables "edad" (,097), "ideología política" (,139) Y "simpatía hacia Estudios
2.415 ,000
el marroquí" (,147), con valores O próximos a O. Lo que significa su proximidad con la curva ,221 2.281 ,000
Ingresos ,240
normal. Pero, la prueba de significatividad efectuada informa de lo contrario. Los niveles de 1.793 ,000
Vecino marroquí ,489
significación de Lilliefors son, en todas las variables, ",000". Lo que supone el rechazo de la 2.468 ,000
Inmigrante delincuente ,378 2.138 ,000
hipótesis nula de normalidad en todas las variables consideradas para el análisis. Esta
.. de Ldltefors .
• Correcclón de la slgnlllcaclon
Capítulo]: Regresión múltiple 37
'e')rl',,), práctica en la investigación ,<,'ocial
36 Análisis multivaria bl,e. 7 ,. <-<

Como son muchas las variables analizadas. se han seleccionado gráficos Q -- Q que
b) muestran ajuste de la variable a la distribución normal y otros que muestran desajuste, Los
a) gráficos Q - Q normal (o gráficos de cuanti/-cuanti~ son similares a los gráficos P - P, pero
Gráfico Q-O normal de ideología P~
Gráfico Q~Q normal de leyes inmigración aplicados a variables individuales, Ayudan a identificar salidas de la normalidad no para el con-
3
3,-------- o junto de las variables. sino en cada una de las variables de interés, Las puntuaciones figuran
o 2 o igualmente ordenadas y se comparan los valores observados para cada caso con el esperado
2-
bajo el supuesto de normalidad, Los gráficos a) y b) ejemplifican una buena corresponden-
cia de las variables con la distribución normal. La mayoría de los puntos coinciden con la dia-
o gonal, siendo mfnimas las desviaciones (debidas a procesos aleatorios). En cambio, los grá-
o 'g
'g ~ O ficos c) y d) muestran discordancia con la distribución normal. Corresponden a las variables
\lO ¡j "vecino marroquP' e "ingresos". Éstas son, precisamente, las dos variables con mayores ni-
¡j ro -1 veles de asimetría ("2,677" y "2,824" con un error típico de ",049" y ",058", respectivamente_

I~~---r----~~~--;,
';;-1
Recuérdese que el error típico de asimetría es una medida de la extensión a la que la asi-
§ §
Z-z+ 8 10 12 metría puede variar como una función del tamaño de la muestra) y de curtosis ("6,528" y
Z.-2+--'---'---''--4'---Y,-:.6 O 2 4 6
"12,622", con errores típicos de ",099" y ",116"), Se trata, en ambos casos. de distribuciones
O 2 3
Valor observado asimétricas a la derecha (la mayoría de los valores se sitúan a la izquierda de la media) y lep-
Valor observado
tocúrticas (demasiados casos en el centro de la distribución), especialmente la variable "in-
d) gresos". Las demás variables se distancian menos de la distribución normal, con valores de
e) Gráfico Q-Q normal de ingreso asimetría y curtosis por debajo del valor de referencia "±.80" que expresa una asimetría (po-
Gráfico Q-Q normal de vecino marroquí
3
'-----,
D sitiva o negativa) y curtosis importante,
2.' o
o Para comprobar si la introducción de una transformación en dichas variables pudiese co-
2 rregir su desviación de la normalidad, se procede a su transformación logarítmica al estimarse
2.0
o importante su desviación de la normalidad (curtosis y asimetría positiva severa). Los gráficos
l.' o
e) y f) corresponden a los gráficos Q - Q normal con las variables transformadas a sus lo-
o 'O
~
garitmos naturales, Si se comparan ambos gráficos con los habidos previo a la transforma-
~l,O
~ O ción logarítmica de las variables (gráficos c) y d), puede observarse que dicha transfor-
\l ¡j
~ ,5 mación no resuelve la no-normalidad en la variable "vecino marroqui', aunque sí en la variable
~ ~-1
"ingresos", al quedar la ntlbe de puntos prácticamente ajustada a la diagonal. Lo que lleva a
~o,o § considerar esta última transformación en la solución de regresión, Una explicación posible an-
~ ~,5 t-~O~-r--r--r--'--~~~}, Z. -2 t--,.L,n--- "O-OO-4-0--'OO-0-O-6~O::rOO~OO::-'::80::;oloo::;O:-':-;OjOO'ooo te este dispar efecto de la transformación de las variables es lo ya observado por Afifí y Clark
Z 10 '1 , 2 O 2' 3.0 3,5 4,0 4,5 _200000 O 200
,5 , , -, , Valor observado (1990), que la efectividad de la transformación, al inducir normalidad, aumenta en variables
Valor observado cuya desviación típica es grande en relación con su media. La media de la variable "ingresos"
es 143.991 pesetas al mes, siendo la desviación típica de 105.233 pesetas, En cambio, la me-
f)
e) dia de la variable "vecino marroqur' es 1,27 con una desviación de ,672_
Normal gráfico Q-Q de ingresos
Normal gráfico O-O de vecino marroquí 13,5 ;~=..'::==-=--=--_::"_-/[O'l
1.0
13,0
• Los remedios más aplicados ante el incumplüniento del supuesto de normalidad
.8 o 12,5
multivariable son los siguientes:
.g ,6
.g 12,0
~
~ Q) 11,5 a) La transformación logarítmica de la variable dependiente (Iog Y), sobre todo,
"
8. ,4 ~
~
<U1l0
-;;; , cuando la distribución de los residuos muestra asimetría positiva severa. Si di-
g ,2 § 10,5 o cha asimetría es mediana, puede aplicarse la raíz cuadrada (m,
~ 10,0 +---'4-,---,-----:':""---;,4 b) La transformación cuadrada, si la asimetría es negativa,
b ~ ¡ ~,--,--,,----,-,--1
Z 0,0 ·l-----r-'4¡ - - 4 6' 8 10 1,2 1,4 10 11 e) También puede oplarse por la transformación inversa, cuando la distribución de
~2 0,0 ,2 ' ' , ' Valor observado
Valor observado
los residuos muestra un incu.mplimiento grave del supuesto de normalidad.
Transformaciones: log natural
38 Análisis multivariable. Teoria y práctica en la investigaci6n social
Capitulo 1: Regresión múltiple 39

No obstante, Nourisis (1986) advierte que el estadístico "F", empleado en la com- tamaños, tales com? empresas pequeñas, medias o grandes o renta alta, media o baja.
probación de hipótesis de significatividad del modelo de regresión en su conjunto, En los datos de senes temporales, por otro lado, las variables tienden a ser de ordenes
snele ser bastante insensible a las salidas "moderadas" de la normalidad. Por ello re- SImIlares de magnitud porque generalmente se recogen los datos para la misma enti-
comienda adoptar alguno de los remedios referidos sólo cuando el incnmplimiento dad a lo largo de un período de tiempo".
del supuesto de normaliCÚ1d sea importante. Afifi y Clark (1990: 67) proponen que las La figura 1.3 incluye situaciones de homocedasticidad a) y heterocedasticidad b) pa-
transformaciones para alcanzar normalidad no se lleven a cabo "si la desviación típica ra un modelo de regreSIón SImple. Incluye la probabilidad condicional de la variable
dividida por la media es inferior a 1f4'. "Las transformaciones son más efectivas al inducir dependiente (Y) para valores seleccionados de la variable independiente (X). Como
normalidad cuando la desviación típica de la variable no transformada es grande rela- puede observarse, la ho,,:oceCÚ1sticidad se da cuando la varianza condicional de Y per-
cionada con la media" (como sncede con la variable "ingresos" aquí analizada). manece constant~, mdlstmtamente de los valores que tome la variable independiente.
En caso de optar por la transformación, el análisis de regresión ha de realizarse con SI, por el contrano, la vananza no permanece constante, sino que aumenta conforme
los datos transformados. Los resultados pueden compararse con aquéllos obtenidos se mcrementa el valor de la variable independiente se habla de heterocedasticidad. La
con los datos no alterados. De esta forma puede observarse la ganancia adquirida con fIgura l.3b !lustra esta situación. En ella puede observarse como la varianza de los tér-
la transformación. minos dee:ror se halla positivamente correlacionada con la variable independiente. La
dlstnbuclOn pasa de ser leptocúrtica a cada vez más platicúrtica.
La homocedasticidad suele relacionarse con el supuesto de normalidad. De hecho
1.1.7. Homocedasticidad se observa que "cuando el supuesto de normalidad multivariable se satisface las re-
laciones entre las variables son homocedásticas" (Tabachnick y Fidell, 1989: 82).' En ge-
Para que la relación de las variables independientes con la dependiente pueda medirse ~eral, la heterocedas¡icidad es más probable que acontezca cuando se da alguna o va-
con rigor, se precisa que la varianza de los valores de la variable dependiente sea igual en nas de las situaciones siguientes:
cada valor de las variables independientes (o predictoras). Esto se conoce como homo-
cedasticidad o igualdad de las varianzas de los términos de error residual en la serie de va- a) Se incumple el supuesto de normalidad.
riables independientes. La variable dependiente ha de mostrar niveles iguales de varianza b) Las variables no se encuentran directamente relacionadas.
en los distintos valores de las variables independientes. En cambio, si la variabilidad en los e) Algunas de las variables son asimétricas mientras que otras no lo son.
términos de error de las distintas variables independientes no es constante, se dice que los d) En determinadas variables independientes, las respnestas se concentran en nn
residuos son heterocedásticos. Ello significa que su magnitud (de los residuos) aumenta o número limitado de valores. .
disminuye en función de los valores que adopten las variables independientes, o según cuá-
les sean los valores predichos. La varianza de la variable dependiente se concentra en unos Proba- Proba-
valores concretos de las variables independientes, lo que provoca que la predicción del va- bilidad bilidad
lor de la variable dependiente sea mejor (de existir heterocedasticidad), no en todos, si- condi- condi-
cional y
no sólo en determinados valores de las variables independientes. cional
deY
Aunqtle el supuesto de homocedasticidad es uno de los que más se incumplen ha- de Y
dado dado
bitualmente (Hair et al. 1992; 1999), en el análisis de regresión lineal debe valorarse. X X
Para qne el análisis de la relación de dependencia sea correcto, la varianza de la va-
riable dependiente no ha de concentrarse en unos valores determinados de las varia- X X
bles independientes. Ello no sólo ocasiona diferencias en la predicción del valor de la
variable dependiente, sino que en general se relaciona con la obtención de pruebas de a) Términos de error homocedácticos b) Términos de error heterocedácticos
significatividad (mediante los estadísticos "t" y "F") cuyos resultados sean incorrectos. Figura 1.3. Homocedasticidad y heterocedasticidad.
La posibilidad de que esto acontezca es mayor cuando se analizan datos seccionales (o
transversales) que longitudinales; por ejemplo, en una encnesta convenci9naL Como Berry y Feldman (1985: 73) destacan tres situaciones en las cuales la heteroce-
Gujarati (1988: 319) observa: "En datos seccionales, se suele tratar con miembros de dasticidad se convierte en problema:
una población en un punto det"rminado en el tiempo, tales como consnmidores in-
dividuales o sus familias, empresas, industrias, o snbdivisiones geográficas, tales como a) Cu~ndo la variable dependiente está medida con error, y la cantidad de error
estados, países o ciudades, etc. Lo que es más, estos miembros pueden ser de diferentes vana con el valor de la variable independiente. Por ejemplo, la encuesta. En ella,
40 Análisis multivariable. Teorfa y práctica en la invesúKación social
Capitulo 1: Regresión múltiple 41

la unidad de análisis más habitual es el individuo y algunos de ellos pueden


aportar una información más adecuada que otros.
b) Cuando la unidad de análisis es un "agregado" y la variable dependiente la for-
ma un promedio de Nalores para los objetos individuales que componen las uni-
dades agregadas. Por ejemplo, el nivel de renta media en alguna unidad agre- Xi Xi
gada. Si el número de individuos seleccionados, en cada unidad agregada,
para determinar el nivel de renta media, difiere a través de las unidades, la ade-
cuación con la que está medida la variable dependiente también variará.
Los niveles de renta medios estimados a partir de una muestra grande de in- a) Homocedasticidad con b) Homocedasticidad con
dividuos suelen caracterizarse por un menor enor de medición que las medias ob- una muestra grande e) Heterocedasticidad
una muestra pequeña (varianzas de error
tenidas de una muestra pequeña. Esta aseveración se deduce del conocimiento de
. crecientes)
que la varianza de la distribución de una media muestra! decrece cuando el tamaño
FIgura 1.4. Gráficos de residuos estandarizados para homocedasticidad.
de la muestra aumenta (Wonnacott y Wonnacott, 1972: 120-122).
c) La heterocedasticidad también puede preverse en las situaciones donde existe Si el tamaño muestral es elevado 1 .d d '
variación significativa en la variable dependiente. Beny y Feldman (1985) citan, go de los valores de la variable ind~ 0::::;'1
~os ebenan repartirse por igual a lo lar-
como ejemplo ilustrativo, un modelo en el que la renta anual de la familia sea 1íne~s horizontales paralelas alrededo~ de O~~u~ ~~;:,'~n~:estr~. ~a f;g~ra lAa, en dos
la variable independiente y sus gastos anuales en vacaciones la dependiente. Lo quenas, por el contrario la varianza d i ' la r~sl ua. n muestras pe-
más razonable es esperar que en las familias con rentas bajas el gasto medio en dos los valores de la variable indepen~ieo:t~e~:~~:~~e~i~~s~:onades tidédntidca enfto-
vacaciones sea igualmente bajo. La variación en los gastos en todas las familias ta La vananza ser ~ 1) ce as lCl a per ec-
. a mayor en os valores próximos al centro de la distribuc"
1os extremos como puede obser
es, en consecuencia, bastante peqneña. Debido a que las familias de rentas ba- 1 fi IOn que en
jas han de gastar el gmeso de su renta en cubrir las necesidades básicas, dejando de las dos va~iedades mencio~a;::::~st:a l~u:¡" ¡Ab; C~a:quier gráfico que se aleje
muy pocos fondos para gastar en vacaciones. Pero, cnando la renta familiar au- ticidad, como indica la figura 1 4c En e11 d o aClOn e supuesto de homocedas-
menta, el gasto medio destinado a vacaciones no aumenta necesariamente. Lo decrece con el aumento del v~lo~ de la ~~r~:b~ ~:~:pceÓ~?elatvarianza de los residuos
que resulta en variación importante en los valores de la variable dependiente. Cuando s liz 1 . ' d " 1 n e.

Esta situación se conoce como heterocedn.l'ticidad.


~~r:~:J~!:~!E:~~~ ~:~~~ e~~~:s~~~J::.:: ~;;~r~~~.v;:i~~~:s~~~~~~~~!e;:~::i~~~;
La heterocedasticidad a veces se debe a errores de medición. En otras ocasiones es con- riable dependiente (Y~~~!~~~~~ l~ ~~~~'i.:::i~~02 ~ontra los val?res predichos de la va-
secuencia de la existencia de una interacción importante entre nna valiable independiente man la ecuación de regresión. En esta moda' as vanables mdependientes que for-
inclnida eu el modelo con otra ausente del mismo. Siguiendo el ejemplo de Beny y Feld- de los residuos de acuerdo COn el valor predi!~a~e~:~l:~~~~ ~~m::~~:n~edl~nunuciones
man (1985: 75), "podría argumentarse que la cantidad de gasto de una familia para va- ~:cu~~limiento, del supuesto de homocedasticidad (figuras l.5b ~ 1.5c). De\~~ ~~~~~~
caciones está determinada no sólo por la renta de la familia, sino también por la satis- bit';al ;:;:: q~~S sea la figura l.5c la que ~efleje la situación de heterocedasticidad más ba-
facción que sus miembros obtienen de las vacaciones, yel nivel de satisfacción y de renta
puede esperarse que interactúen al determinar los gastos en vacaciones: entre las familias qne tambi~;:xp~~far~:~;~c~~;:"~~c':'d~~nJ:~~.~~~gura 1.5b en forma de diamante,
que obtienen poca satisfacción de las vacaciones podemos esperar que la renta tenga nn sidnos hacia el centro de la distribucio'n 'd yA 1 ClOnes de mayor variación de re-
e que en os extremos.
débil efecto en los gastos en vacaciones, pero cuando la satisfacción obtenida aumenta, se E
ti +3
pnede esperar que la renta tenga un efecto más fuerte en el nivel de gastos". +3
+2 +3
Al igual qne la normalidad y otros supnestos de regresión, la heterocedasticidad +1 +2
pnede detectarse mediante un gráfico ele residuos. La figura 1.4 incluye gráficos de re- +1
O. +1
O .-
siduos estandnrizados en distintas situaciones de homocedasticidad. En el eje vertical -1
-1
O
-2 -1
se sitúan los residuos yen el horizontal los valores de la variable independiente. Ha- -2
brá heterocedasticidad, cuando se observe aumento o disminución en los residuos con
-3 y¡ ~3 Yt ·-2

i a) Homocedasticidad
~3 'Vi
1
los valores de la variable independiente. Berr)' y Fcldman (1985: 80) diferencian las tres b) Heterocedasticidad e) Heterocedasticidad
situaciones expuestas en la figura lA.
I Figura 1.5. Gráficos de residuos estudentizados para homocedasticidad.
Capitulo 1: Regr~si6n múltiple 43
42 Análisis multivariable. Teoría y práctica en la investigación social

y la prueba de correlación de rango de Spearman. Una información detallada de las


El supuesto de homocedasticidad también puede comprobarse con la ayuda de es- mIsmas se encuentra en GUJaratí (1988).
tadísticos. Entre los más aplicados se encuentran los tres siguientes:
a) El test de Levane. Propuesto en 1960 por Levane en un artículo títulado "Ro-
. bust tests for.equality ofvariances". De su título puede deducirse la finalidad
de la prueba: aplicar un análísis de varianza sobre el valor absoluto de las pun-
tuaciones de desviación. Se trata de medir la igualdad de varianzas para un úni-
co par de variables (simples o compuestas). Y se comprueba que su robus!,ez
mejora cuando se sustituyen las desviaciones alreded~ de la mediana (IY;¡ Y)l
por las desviaciones alrededor de la media (IY .. - Y¡I). La significatividad se
comprueba mediante el estadístico "F". Éste se ~plica para determinar si la hi-
pótesis nula (Ha) de homogeneidad de la varianza debe rechazarse. Esta hipótesis
se rechaza cuando el estadístico de Levene es significativo (habitualmente, P < ,05).
Lo que supone el incumplimiento del supuesto de homocedasticídad.
De acuerdo con Hair et al. (1999: 168), el uso de esta prueba (de Levene)
"es particularmente recomendable porque es el que menos queda afectado por
desviaciones de la normalidad, otro de los problemas que ocurren con fre-
cuencia en la regresión".
b) El test de Goldfield y Quant. Propuesto en 1965 por los autores susodichos, con-
siste en la reordenación de las "n" observaciones de la muestra de forma cre-
ciente, de acnerdo con la variable independiente que se sospeche que covariará
con la varianza del término de error. Después se elimina un 25% de los casos del
centro de la distribución. Igual número se elímina también de los casos que se
hallan por debajo y por encima del medio de la distribución. Requiere, en con-
secuencia, la división de las observaciones en dos grupos. Para cada uno de ellos
se realiza un análisis de regresión OLS. Después se comparan sUS respectivas su-
mas de residuos cuadrados (RSS) en relación con sus grados de líbertad (véa-
se subapartado 1.5.3). Si el cociente entre ambos muestra ser significativo, de
acuerdo con el estadístico de comprobación F, puede afirmarse, al nivel de sig-
nificatívidad elegido, el incumplimiento del supuesto de homocedasticidad.
Esta prueba estadística muestra adecuación a tamaños muestrales pequeñOS. Gráfico de dispersión
Thmbién, cuando se asume que la varianza heterocedástica se encuentra positíva- Variable dependiente: simpatía marroquí
mente relacionada con una de las variables predictoras en el modelo de regresión. o 4¡-______~~----~~==~~
~ ;
e) La d de Durbin-Watson. Este estadístico puede utilizarse igualmente en la .~o 2
comprobación del supuesto de homocedasticidad, además de en la compro-
bación del supuesto de independencia de los términos de error. Esta prueba se ~o
g
o -.
aplica a residuos correlacionados serialmente, como se muestra en el suba-
partado 1.1.9. En la comprobación del supuesto de homocedasticidad su valor ~ -2

ha de estar comprendido entre 1,5 Y 2,5 para poderse afirmar que existe ho- o
1-4 ..
mocedasticidad (Frei y Ruloff, 1989).
~-64_--_,----,_---r---.----~--J
A estos tres procedimientos de comprobación principales cabe añadir otros, aun-
-4 -2 -2 -1 o 2
Regresión valor pronosticado tipificado
que de uso menos extendido. Destacan, por ejemplo, la prueba de Park, la de Glejser
44 Análisis multivariable. Teoría y práctica en la investigación social
CapEta/o 1: Regresión múltiple 45

concentran en dicho intervalo, aunque en menor proporción de la recomendable. Además, se


ambas variables la significatividad del estadisti '. .
observa que la nube de puntos tiene igual amplitud, aunque muestra una continua tendencia li-
rechazo de la hipótesis nula. Se está ante va~~~!~nfenor a dicho referente, lo que supone el
neal decreciente. Si bien ésta no se ajusta plenamente a situaciones claras de heterocedasti~
daslie/dad La varianza de la variable de endie . , que Incumplen el supuesto de homoee-
rlables predictoras. Para la interpretaciln d 1 nte d,;,ere e~ los distintos :alores de las dos va-
cidad, como las expuestas en las figuras 1.5b y 1.5c. En suma, de la observación de dicho grá-
fico no puede concluirse el cumplimiento satisfactorio del supuesto de homocedasticidad. e
des de medición de ambas variables (expu °ts gra ICOS tengase ademas presente las unida-
Para mejorar el ajuste del modelo, pOdría probarse algún prócedimiento de regresión alterna- es as en el subapartado 1.1.3).
tivo, como el análisis de regresión de mínimos cuadrados ponderados. A tal fin, se escogerían d)
pesos que fuesen proporcionales a la inversa de la varianza (subapartado 1.6.2). 6 e)
6
Aunque distintos autores (Tabachnick y Fidell, 1989; Afifi Y Clark, 1990) advierten que la
4
existencia de heterocedasticidad no invalida el análisis de regresión lineal, aunque lo debi- 4
lite, es bueno buscar algún remedio a la misma. Alifi y Clark (1990: 116), por ejemplo, ob- 2

,••••
!I
servan que "el supuesto de homogeneidad de la varianza no es crucial para la recta de mí-
• 2 ,• ..
"
,
II I
nimos cuadrados. De hecho, las estimaciones de mínimos cuadrados de a y b son insesgadas .g o I i '" o
~ -2
11/ 11
~
si o no el supuesto es válido". ¡ • I .'2
I ~
El análisis por separado de las variables predictoras muestra el pleno cumplimiento del su- 'O

puesto de homocedasticidad en variables continuas como "edad" o "ingresos" y en variables fic-


~
.~ -4
: ....
'" -2
'O
v
.~
1
:
I
ticias como "sexo" o "identificación del inmigrante con delincuente", por ejemplo. Esta conclusión 'O

"
11
~-4-
'O g
.... ~

se extrae tanto de la aplicación del estadístico de Levene como de la observación de los gráfi-
cos de dispersión correspondientes. Véase el gráfico by, de la variable "edad". Este gráfico ejem-
"'-<5 "ro
-2 o 2 ~ 6 I "'-<5
plifica como ha de ser el gráfico de dispersión para mostrar homocedastlcidad en una variable simpatía latinoamericano
8 10 12 O 1 2 ; 4 5 6
continua. La varianza de la variable dependiente ha de ser constante en los distintos valores de estudios
la variable independiente. El gráfico e) (la variable "sexo", dieotomizada en 1 varón y O mujer) se
adecua, en cambio, a la situación de análisis de una variable ficticia. . . En la tabla A figuran los valores del estadíst' .
distintos supuestos: datos sin transformar t ~o de Levene, ¡unto a su significatividad, en
mero de casos en los distintos valores de o r~s orm.ados (cuando las características y el nú-
b) e)
igualdad en las varianzas Las transforma am as variables lo permite), en busca de alcanzar
6,---__________________-, cíproca y la transformaciÓn de raíz cuadra~~n~::alizadas han ~ido tres: la logarítmica, la re-
6,-------------------------, por separado, la variabilidad de la variable tÍ lante el ,~stad/s~co de. Levene se compara,
4 marroquíes ... ") en los distintos valores de ~pendlent". ( slmpalJa haCia los norteafricanos:
4
ca a variable Independiente. Aunque el programa
2
2
YoablaA
Datos sin Transformación Transformación
transformar logarítmica Transformación
Levene Sigo
recíproca raíz cuadrada
Levene Slg. Levene Sigo Levene Slg.
l.I Leyes inmigración
Media 1,815 ,053
I o
edad
20 40 60 80 100 -,1 0,0 ,2 ,4 .6 ,8 1,0 1,2
Mediana 1,978 ,032
3,099
1,629
,001
,094
8,114
3,500
,000
,000
1,407
1,144
,171
sexo ,325
Ideología política
Media
Por úttimo, los gráficos d) y e) para las variables "simpatía hacia latinoamericanos" y "es- 2,076 ,024 2,270 ,013
Mediana 2,492 ,006 2,093
tudios", respectivemente, no muestran la satisfacción del supuesto de homocedasticidad. Si se 1,756 ,065 1,501 ,023
,135 1,448 ,155
atiende, además, a lo dicho por el estadístico de Levene, que figura a continuación, el incum- 1,588 ,106
Sexo
plimiento del supuesto de homocedastieldad es evidente en ambas variables. Recuérdese que Media
3,602 ,000
en la prueba de Levene (aplicada pára la comprobación de la homocedasticidad en un único par Mediana 3,602
,678 ,746 ,000
de varianzas) el rechazo de la hipótesis nula de igualdad de varianzas se produce cuando el va- ,678 ,746
lor de este estadístico es significativo (p < ,05), a decir por la prueba de significatividad de F. En
(.l ... )
46 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 1: Regresión múltiple 47

SPSS (versión 10.0) facilita distintos valores del estadístico de Levene (basándose en la me-
dia, en la mediana, en la mediana y con los grados de libertad corregidos, y en la media re-
Datos sin Transformación Transformación Transformación cortada), se ha decidido escoger, para simplificar la tabla, los valores de Levene corres-
transformar logarítmIca recíproca raíz cuadrada pondientes a la media y a la mediana con los grados de libertad corregidos. De esta forma
Levene 8;9· Levene 8;9· Levene 8;9· Levene 8;9· puede comprobarse si realmente mejora su robustez, cuando se sustituyen las desviaciones
alrededor de la mediana por las desviaciones alrededor de la media.
Edad
Media 1,136 ,331 .,868 ,563 1,373 ,189 ,975 ,464 De la lectura de la tabla puede concluirse que las desviaciones respecto a la mediana se
Mediana 1,073 ,379 ,626 ,792 ,977 ,462 ,726 ,700 adecuan más, especialmente, en las variables ficticias, por las propias características de di-
chas variables (variables dicotómicas). Hecho este inciso, hay que decir que la significativi-
Simpatía latinoamericano dad del estadístico de Levene es, en general, superior cuando su cálculo se realiza a partir
Media 25,036 ,000 29,578 ,000 de la media, que cuando se basa en la mediana, aun ajustando por grados de libertad.
Mediana 19,095 ,000 19,536 ,000 En siete de las catorce variables predictoras analizadas se incumple el supuesto de ho-
mocedasticidad, a decir por los resultados de la aplicación de esta prueba estadística. El valor
Regularizar inmigrantes del estadístico de Levene es bastante significativo (p < ,05), lo que supone el rechazo de la hi-
Media 22,144 ,000 22,144 ,000
pótesis nula de igualdad de varianzas. La varianza de la variable dependiente difiere en los dis-
Mediana 5,729 ,000 5,729 ,000
tintos valores de las siguientes variables independientes: "simpatía hacia latinoamericanos", "re-
Entrada inmigrantes
gularización de inmigrantes", "valoración de partidos de ideología racista", "consideración del
Media 3,392 ,000 8,114 ,000 14,518 ,000 5,232 ,000 número de inmigrantes", "casarse con marroquí", "estudios" y "tener por vecino a un marroquí".
Mediana 1,689 ,080 3,129 ,001 4,293 ,000 2,381 ,009 En la otra mitad de las variables la significatividad de este estadístico de comprobación
es inferior (p >,05), ya sea respecto de la media o de la mediana. Esto significa la aceptación
Partido racista de la hipótesis nula. La varianza de la variable dependiente muestra constancia en dichas va-
Media 4,128 ,000 6,243 ,000 8,304 ,000 5,127 ,000 riables: "leyes inmigración", "ideología política", "sexo", Cjedad", "entrada de inmigrantes", "in-
Mediana 2,402 ,008 2,543 ,005 2,707 ,003 2,461 ,007 gresos" e "identificación del inmigrante con delincuente".
De las opciones barajadas para alcanzar la homocedasticidad en aquellas variables en
N,o inmigrantes las cuales la varianza de la variable dependiente difiere, sólo parece lograrse en dos varia-
Media 3,629 ,000 2,214 ,015 6,365 ,000 2,502 ,006
bles: "número de inmigrantes" y "estudios". En la primera, la homocedastícídad puede lograrse
Mediana 1,941 ,037 1,888 ,043 2,430 ,008 1,794 ,058
mediante la aplicación de una transformación de raíz cuadrada. En cambio, respecto a la va-
Casar con marroquí riable "estudios", puede realizarse cualquiera de las tres transformaciones comprobadas. Si
Media 25,890 ,000 32,494 ,000 39,976 ,000 28,622 ,000 bien, normalmente se prefiere la transformación logarítmica como se detalla a continuación.
Mediana 9,704 ,000 8,940 ,000 8,292 ,000 9,318 ,000

Estudios
Media 3,099 ,001 1,056 ,394 2,576 ,005 1,741 ,068
1,155 ,483 1,684 ,081
Si con la ayuda de estos estadísticos y/o de los gráficos de residuos referidos se de-
Mediana 2,331 ,011 ,319 ,954
tecta la existencia de heterocedasticidad, habrá que aplicar algún remedio que posibilite
Ingresos la aplicación de la regresión lineal a los datos de interés. Las opciones posibles son va-
Media ,412 ,941 ,615 ,801 1,862 ,047 ,314 ,978 rias y dispersas: desde la aplicación de procedimientos de regresión distintos al estándar
Mediana ,372 ,959 ,533 ,867 1,375 ,188 ,320 ,976 de mínimos cuadrados ordinarios (OLS), hasta transformaciones de la variable de-
pendiente en busca de la estabilidad de la varianza.
Vecino marroquí
Media 37,660 ,000 38,059 ,000 37,538 ,000 37,735 ,000
Mediana 18,686 ,000 15,921 ,000 13,112 ,000 17,437 ,000 a) Schroeder et al. (1986: 77) aconsejan el empleo del procedimiento de regresión
de mínimos cuadrados generalizados, para proporcionar pesos diferenciales a
Inmigrante delincuente las observaciones y, de esta forma, burlar sus efectos en las pruebas de hipótesis.
Media 4,096 ,000 4,096 ,000
No obstante, son más los autores que se inclinan por el procedimiento de re-
Mediana ,837 ,593 ,837 ,593
gresión de mínimos cuadrados ponderados (WLS): Chatterjee y Price (1977: 49),
Afifi Y Clark (1990: 116) o, más recientemente, Tacq (1997: 131), por citar al-
48 Análisis multivariable. Teoría y práctica en la invesLigación. social Capítulo 1: Regresión múltiple 49

gunos. Mediante este último procedimiento de regresión (e~puesto en el su- de red?C~rSe, e incluso eliminarse, si antes se ha aplicado alguna corrección a ambos in-
bapartado 1.6.2) las estimaciones de los parámetros de regreslOn se realizan, co- cumfhmlentos.Pero esto no significa que la heterocedasticidad se resuelva con la apli-
mo su nombre indica, minimizando una suma ponderada de los cuadrados caClOn de las mIsmas correcclOn~s de la norm.alidad y/o linealidad. Así se observa que
de los residuos. Esta suma se caracteriza porque los pesos son mversamente pro- para datos de frecuencIa, que tlplcamente tIenen errores de Poisson una transfo!'-
" d yln . ,
porcionales a la varianza de los errores. Por ejemplo, si la varianza es una maclOn. e ~proxlma heterocedasticidad (o varianza constante); y2/3 aproxima
función lineal de X, el peso idóneo sería entonces l/X. normahdad; y uhlrzar log Y provoca aditividad en los efectos sistemáticos.
b) Transformaciones de la variable dependiente en log Y, -[Yo en l/Y, para lograr
la estabilidad de su varianza. Con los valores transformados se procede a
efectuar el análisis de regresión lineal. 1.1.8. Ausencia de colinealidad entre las variables independientes
Aunque estas transformaciones son defendidas por varios autores (como
Gunst y Mason, 1980: 239; o Tacq, 1997: 131), Afifi Y Clark (1990: 158) opman Para que se p~edan medir los efectos concretos de cada variable independiente en
que "las transformaciones de Y deberían evitarse cU,ando sea posl?I;,' porque la dependIente es lmprescmdlble la ausencia de colinealidad; es decir, de correlación en-
tienden a oscurecer la interpretación de la ecuaclon de regreslOn . A este tre las. ;ariables independientes incluidas en el modelo de regresión. La existencia de co-
respecto, Hair et al. (1992: 52) hacen las siguientes matizaciones: rrelaclon ele~ada entre dos o más,variables independientes (multicolinealílÚld) repercute,
~e manera drrecta, en los errores típiCOS de los coefiCIentes de regresión de dichas variable.
1. Las frecuencias sugieren una transformación de raíz cuadrada. ., Estos se ven mdebldamente mcrementados, lo que provoca que la estimación de los coe-
2. Las proporciones son mejor transformadas mediante la transformacwn a~­ fIcIentes sea menos precisa (coeficientes infiables), con el consiguiente aumento de los
coseno. Una nueva variablé que sea igual a dos veces el arcoseno de la raIZ zntervalos de c~nfianza (a este respecto véase subapartado 1.4.2). El modelo de regresión
cuadrada de la variable original. pu~de ser slgmf¡calJvo en su conjunto (en virtud de la razón "F''', que mide la significa-
3. El cambio proporcional se maneja mejor tomando el logaritmo de la va- tI~dad del coefiCIente de correlación cuadrada múltiple o coeficiente de determinación
riable. R -véanse subapartados 1.5.1 y 1.5.3-) y, en CaJ11blO, no ser significativos los coeficientes
4. La heterocedasticidad no sólo se debe a un tipo de variable. También puede .de regresión individuales de las variables muy colineales que lo componen.
resnltar de la distribución de bien la variable independiente, bien la de- La colmealldad elevada provoca, eu suma, un aumento en la variabilidad de los
pendiente. Con frecuencia esto se ve mediante una distribución de ~os re- coefiCIentes de regres,ión estimados (que informan de la cantidad de variación de Y por ca-
siduos en forma de cono. Si el cono se abre a la IZqUIerda, toma la rQlZ cua- da umdad de vanaclon de Xi' mantemendo constante las demás variables independientes
drada. Si, por el contrario, se abre a la derecha, es preferible el inverso. en el modelo). Este aumento del error típico de coeficiente suele suponer un incremento
en la vananza explicada de Y (W). Pero, al mismo tiempo, aumenta el error de estimación
Respecto a las transformaciones de Y, Nourisis (1986) pone el énfasis, con la pérdida consiguiente de significatividad estadística de los coeficientes de regresió~
principalmente, en cómo se presente la varianza o desv¡aclón de Y: de las vanables muy collneales. Esta significatividad se mide con el estadístico "t" de
Student, que se obtiene del cociente entre el coeficiente estimado y el error de estimación.
1. Cuando la varianza sea proporcional a la media de Y, para un valor X dado, De manera que, cuanto mayor Sea el error de estimación, menor es el valor empírico de "t",
es mejor utilizar la raíz cuadrada de Y, siempre y cuando todos los valores lo que determma la no slgnificatlV!dad estadística del coeficiente de regresión estimado.
de Y. sean positivos. . A dIferenCIa de otros supuestos de regresión, la multicolinealidad afecta no tanto
2. Cua~do la desviación típica sea proporcional a la media, prueba la trans- a la obtención del modelo (en la vertiente descriptiva), como a sus posibilidades de in-
formación logarítmica. . ferencia: la generalización de los estadísticos muestrales a los correspondientes pa-
3. Cuando la desviación típica sea proporcional al cuadrado de la medIa, em- rámetros poblacionales.
plea el recíproco de Y. ., Pero la multicolinealidad no debclia COncebirse como algo que o "existe" o "no exis-
4. Cuando Y sea una proporción o razón, nuevamente la transformaclOn ar- te". "La multicolinealidad existe cn grados" (Berry y Feldman, 1985: 40). "Está presen-
coseno se presenta como la mejor opción para estabilizar la varianza de Y. te e,n todos los análiSIS de regresIón, ya que es improbable que las variables independientes
esten totalmente no correlaCIOnadas:' (Schroeder et al. 1986: 76). Sirvan como ejemplo,
Por último, hay que destacar la recomendación dada al efecto por McCullagh y Nel- vanables muy habItuales en la I11vestJgaclón social, COmo son las variables "nivel educa-
der (1989). Estos autores advierten de que la heterocedasticidad puede ser el resulta- tivo" y "ocupación". Ambas variables actúan como indicadores habituales de la posición
do del incumplimiento de los supuestos de normalidad y de linealidad. Por lo que, pue- SOCIal de Un mdlvIduo. Sus valores se encuentran muy interrelacionados entre sí. Lo que
50 Análisis multivariable. Teorfa y práctica en la investigación social Capitulo.1: Regresión múltiple 51

eleva la correlación (colinealidad) entre ambas variables. Dicha corrdación se convi~rte • La existencia de multicolinealidad también puede detectarse durante el análisis
en problema sólo cuando es elevada; es decir, cuando una de las vanables I?dependIen- cuando se observen errores típicos elevados en coeficientes de regresión de va:
tes comparte con otra (u otras) más de la mitad de su variabilidad. La mulucoltneahdad nables que se espera sean importantes predictores de la variable dependiente.
es perfecta si la variabilidad de dicha variable puede ser perfecta?,ente predeCId? a La obtención de errores típicos inflados redunda en la pérdida de significativi-
partir del conocimiento de otras variables predictoras. Al no aportar runguna infonnaclOn dad estadística de los coeficientes de regresión, como ya se ha mencionado.
única al modelo de regresión, deberla considerarse su no incorporación al modelo de re- . No obstante, hay que precisar que la existencia de errores típicos elevados no
gresión porque afectarla negativamente al cálculo de la ecuación de :eg:esIón. ". SIempre es indicativa de colinealidad elevada. Puede ser consecuencia de haber
La multicolinealidad puede detectarse en dlstmtas fases del anabsls de regreslOn. estimado dicho coeficiente en un tamaño muestral pequeño y/o que la variable
en los preámbulos, en la matriz de correlaciones, durante su eje.cución, ,:n los coefic,en:es en la muestra analizada, tenga una elevada varianza. Ambos aspectos, relacio:
de regresión y en sus errores típicos correspondientes. También medIante los estadls- nados con los casos analizados, han de valorarse antes de atribuir de forma au-
ticos de tolerancia y el llamado factor de inflación de la varianza (FIV) y otros que a tomática, errores típicos elevados a la existencia de multicolinealidad.
continuación se detallan. • Un procedimiento alternativo de comprobar la existencia de multicolineali-
dad consiste en efectuar un análisis de regresión para cada variable indepen-
• La matriz de correlación muestra la correlación entre cada variable indepen- diente por separado. En cada ocasión, una de las variables indepeodientes actúa
diente, por separado, con la dependiente y, también, de las indepe:ndientes en- como vanable dependIente. El resto continúa siendo independiente. Para cada
tre sí. Un coeficiente de correlación entre dos variables independientes Igual a una se calcula una ecuación de regresión. Después se comparan los distintos co-
OO indica ausencia completa de colinealidad. Mientras que una correlación efietentes de detenninación R2. Si el valor de éste se aproxima a 1,0, puede afir-
d~ 1,0, colinealidad perfecta. A partir de 0,60 suele considerarse la colinealidad marse qne la variable en cuestión presenta un grado muy elevado de multico-
problemática. Y más, cuando la correlación supera el valor 0,80, que denota que linealidad con ?tras variables independientes. Un valor de R2 igual a 0,0 expresa,
ambas variables se hallan muy correlacionadas. por el contrano, la total ausencia de multicolinealidad.
Pese a estos referentes comúnmente aceptados, Berry y Feldman (1985: 42) . La detección del grado de multicolinealidad se considera más precisa si.
reconocen que "es muy difícil definir un valor de corte qne siempre sea apro- gUlendo este tercer procedintiento qne con la comparación de correlaciones bi.
piado". En muestras pequeñas, una correlación entre dos variables indepen- variables, de dos variables por separado, mediante la matriz de correlación (Coo-
dientes de 0,70 puede repercutir negativamente en la estimación de los coefi- per y Weekes, 1983; Berry y Feldman, 1985; Menard, 1995). Ello se debe,
cientes. En muestras una correlación de 0,85 puede incluso afectar menos al preCisamente, a que se analiza de manera simultánea la correlación de cada va-
cálculo de la ecuación de regresión. riable independiente COn las demás independientes (mediante el valor de R2).
Por su parte, Wittink (1988: 89) matiza que "una correlación de 0,50 entre A favor de este procedimiento de detección de multicolinealidad también es-
dos variables predictoras tiene poco impacto en el error típico. Pero una co· tá la facilidad de su ejecución. La mayoría de los paquetes estadísticos propor-
rrelación de 0,95 requiere casi tres veces tanta variación en Xi (o tres veces el t.a. ClOnan, entre sus varias opciones, la posibilidad de obtener el valor del coefi-
maño de la muestra) comparado con tener correlación cero. Con una cor~elaclOn ciente R2 múltiple para cada variable independiente, por separado. Ya sea
de 0,99 requerimos casi siete veces tanta variación, o siete veces el tam~no de la gracla~ ,al estadístico llamado Tolerancia, ya mediante su recíproco, el Factor de
muestra". A partir de una correlación de 0,95 entre dos variables predIctoras se InflacLOn de la Varianza (FIV).
está, en consecuencia, ante un problema grave de colinealidad. Este valor de cor-
te es, no obstante, bastante elevado y se aleja del habitualmente propuesto co- a) La tolerancia se define como la cantidad de variabilidad de la variable inde-
mo indicativo de colinealidad problemática: 0,60 (Tacq, 1997); o, al menos, del pendiente que "no es" explicada por otras variables independientes. Su valor se
valor 0,80 (Berry y Feldman, 1985; Hutcheson y Sofroniou, 1999). obuene restando a 11a proporción de la varianza de dicha variable independiente
En esta discusión de qué valor de correlación tomar como referente de co- que es explicada por las demás variables independientes o predictoras (R2,) .
linealidad problemática, téngase también presente una limitación inherente a la
matriz de correlaciones. Ésta sólo muestra las relaciones individuales entre ca- TOLi = 1-R~
da par de variables: independiente con independiente y de independiente con de-
pendiente. Si se quiere en cambio comprobar el grado de relación entre c~da va- Donde "R2¡" es la correlación múltiple cuadrada de la variable inde.
riable independíente con las otras variables independientes, al mismo tIempo, . pendiente Xi (considerada como dependiente) y las otras variables in-
habrá que acudir a otros procedimientos. dependientes.
52 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 7: Regresión múltiple 53

TOL tiene un rango de valores de 0,0 a 1,0. Unvalor próximo a 1,0 de- de una forma alternativa, aunque menos rigurosa que la anterior. Consiste en ob-
i
nota la ausencia completa de multicolinealidad: la vanable Xi no presenta nm- servar si la incorporación de una nueva variable a la ecuación de regresión su-
guna correlación con el resto de variables predictoras. Un valor de toleran- pone una variación importante en el coeficiente de regresión de alguna (o al-
cia inferior a 0,20 es, en cambio, indicativo de un grado elevado de gunas) vanables mdependlentes prevIamente introducidas en la ecuación. La
multicolinealídad. Si el valor desciende a 0,10, la multicolínealidad es muy entrada de una nueva variable suele provocar una variación en el valor de los
alarmante y exige la adopción de alguna medida para reducirla. El valor 0,0 coeficientes de las variables incorporadas en pasos previos. Esta variación será
expresa multicolinealidad perfecta: la varianza de la variable Xi está total- tanto mayor cua~to más corr,elacion~da esté la variable con la recién incorpo-
mente determinada por los otros predictores. . rada al modelo. SI la correlaclOn es baja, apenas hay variación en el valor del coe-
En consecuencia, interesan valores de tolerancia elevados porque son m- bClente. P~ro, cuando la colinealídad adquiere cierta magnitud, la variación es
dicativos de una baja multicolínealídad. Cuando la colinealidad aumenta, el muy apreCIable. No obstante, la mayoría de los paquetes estadísticos aplican, por
valor de tolerancia disminuye. Lo que repercute en la peor estimación del defecto, valores de tolerancia que impiden la entrada de variables muy colinea-
coeficiente de regresión, debido al incremento de su error típico. les (como se mencionó en el punto anterior).
b) Eliactor de inflación de la varianza (FIV, en inglés VlF) es el reverso de la • La multicolínealidad también puede comprobarse observando oscilaciones en los
"tolerancia", Su definición es la siguiente: coeficientes de regresión (o coeficientes de peudiente "b"), siguiendo un pro-
cedImIento que puede aphcarse en los análisis de regresión "no secuenciales".
Se divide la muestra del estndio en dos mitades. A continuación, se realiza uu
T -1 1 análisis de regresión en cada submuestra, por separado. Las variaciones en
FlV; = OL; = 1- R2
, l?s coeficientes de ambas mitades se toman como indicios de multicolínealidad.
Esta es más grave, cuanto mayor es la diferencia entre los respectivos coefi-
Al ser inverso de tolerancia interesan valores de FlVi bajos. Cuanto más se CIentes.
aproxime a 1,0 mejor. Un valor de FIV (o VIF) de 1,0 indica la inexistencia de o Un último,procedimiento de detección de multicolinealidad atiende a los au-
relación entre las variables predictoras. Valores superiores a 10,0 expresan mul- tovalores. Estos expresan cuántas dimensiones distintas existen entre las variables
ticolínealidad severa. En tolerancia el valor equivalente es 0,10, que exige una independientes. Sus valores se obtienen de la matriz de productos cruzados de
actuación al respecto. No obstante, se recomienda adoptar alguna medida con las variables independientes. Para que exista elevada multicolínealidad debe ha-
valores inferiores: un valor de FlV de 5 o más o de tolerancia de 0,2 o menos. ber varios autovalores próximos a O. Esto acontece cuando la multicolinealidad
En general, los valores de ambos estadísticos de colinealidad coinciden, es tan alta que pequeños cambios en los datos pueden provocar grandes cambios
cuando sólo hay dos variables independientes. en las esl!maclOnes de los coeficientes de regresión. Situación que suele coincidir
con modelos de regresión con errores típicos elevados.
Antes de proceder al análisis de regresión, conviene especificar, en el pro- . De los autovalores se obtiene el índice de condición (le). Este índice se de-
grama infonnático que se utilice, el grado de multicolinealidad que se adnute. Los fIlle, en cada dimensión, como la raíz cuadrada del cociente entre el autovalor
puntos de corte más usuales son 0,10 para tolerancia y su equivalente para mayor y el menor. Cuando lC es superior a 30, la colínealidad es elevada. Si es
FIV: 10,0 (Afin y Clark, 1990; Hair et al., 1992,1996; Graybill e Iyer, 1994; Me- mayor de 10, pero menar de 30, la colínealidad es moderada. Un valor inferior
nard, 1995). Ambos valores corresponden a una correlación múltiple cuadrada a 10 supone que se está ante variables de escasa colinealidad.
superior a 0,90. Un nivel ya en sí bastante elevado, aunque inferior al aplicado,
por defecto, en la mayoría de los programas, salvo que se especifique lo con-
trario. En el programa SPSS, por ejemplo, el valor de tolerancia aplicado por de-
fecto para excluir una variable del análisis es 0,01. Este valor es demaSIado ba- ~EJEMPI.:O DE CoIV1PR0/3ACI6~~ELA EXISTENCIA DE Mi.ÚICOLlNÉALI[JAD .
'.' .- " ',- " -.
jo ya que pennite la incorporación, a la ecuación de regresión, de variables que
tienen hasta el 99% de su varianza determinada por otras vanables prevIamente Para comprobar la existencia de multicolinealidad se procede, primero, al análisis de la
incorporadas al modelo de regresión. . . matnz de correlaciones que figura en el subapartado 1.3.2. En esta matriz puede observar-
o La aplicación de un procedimiento de incorporación de vanables mdepen- se que la correlación más elevada (,573) se da entre las variables X ("casar Con marroquf':
dientes secuencial (o "por pasos") -como se verá en el subapartado 1.6.1- P306) y X'3 ("vecino marroquf': P506). La correlación es importante, ~~nque no alcanza el va-
permite comprobar la presencia de variables con elevado grado de colinealidad lor de referenCIa habItualmente aplicado para denotar una colinealidad elevada (que exigiría
54 Análisis multivariable. Teorfa y práctica en la investigación sociaL
Capitulo 1: Regresión múltipLe 55

alguna actuación al respecto): >,80, Ambas variables se hallan relacionadas y de forma po-
sitiva, si bien sólo comparten el 33% de su variabilidad (,5732 ). Las personas que manifies-
tan que no les importaría tener como vecinos a una familia de ciudadanos de Marruecos u otro
país norteafricano suelen coincidir, aunque no plenamente (al ser la correlación de ,573), con
aquellos que afirman que no les preocuparía que su hijo o hija se casase con un marroquí;
y, a la inversa,
Además, téngase presente que al ser el tamaño de la muestra analizada bastante elevado
(n 2.492 individuos), los valores de referencia comúnmente adoptados para denotar una 00-
linealidad apreciable (,60) y severa o muy importante (,80, que supone que casi dos de las
tres partes de la variabilidad de una de las variables puede predecirse por el conocimiento del
valor de la otra variable con la que se halla relacionada) pueden incluso aumentarse, de acuer-
do con Berry y Feldman (1985). El efecto de la mu/ticolinealidad en la obtención de la
ecuación de regresión es menor cuando se analiza una muestra grande que cuando la mues~
tra es pequeña,
Las segundas variables más correlacionadas entre sí son X ll ("estudios": P43a) y X'2 ("in-
gresos": P52), con una correlación también positiva de ,471, Le sigue en importancia la co-
rrelación negativa habida entre las variables X4 ("edad": P42) y X ll ("estudios": P43a):
-,442, Los "estudios" y los "ingresos" cavarían de forma ascendente (conforme aumenta el
nivel de estudios lo normal es que se incremente el nivel de ingresos, ya la inversa), mien-
tras que la "edad" y los "estudios" se encuentran negativamente relacionados (los niveles de
estudios más bajos se dan, con mayor frecuencia, entre las personas de más edad; a medida
que la edad del encuestado desciende, es más probable que su nivel de estudios sea superior,
pero no en todos los casos. La correlación entre ambas variables no es muy elevada:
-,442), Tabla A
En suma, de la lectura de la matriz de correlaciones se concluye que ninguna de las 14
Variables independientes en el Tolerancia
variables independientes analizadas se halla, positiva o negativamente, correlacionada con modelo de regresión Factos de inflación de
otra variable independiente en una magnitud que aconseje la adopción de alguna medida pa- la varianza
ra evitar los efectos negativos de su inclusión en el análisis de regresión, Xs: simpatía hacia latinoamericanos ,875 1,143
En el subapartado 1.4.2 se comprueba, asimismo, que ninguno de los coeficientes de re- X10 : casarse con marroquí ,639 1,566
gresión de las cinco variables predictoras que conforman el modelo de regresión final tiene X1 : leyes de inmigración ,842
un error típico elevado, Además, como se observa en el subapartado 1.6,1, donde se expone X6 : n." inmigrantes 1,187
,842 1,187
la obtención del modelo de regresión mediante procedimientos secuenciales, los coeficien- X13 : vecino marroquí ,652
X3 :sexo 1,534
tes de regresión de las variables y sus errores típicos prácticamente coinciden en los distintos ,994 1,006
pasos. La incorporación de una nueva variable prediclora apenas altera los coeficientes de
variables previamente introducidas en la ecuación de regresión. Esta inalteración apreciable
en los coeficientes y errores típicos correspondientes responde a la escasa correlación
existente entre las seis variables que finalmente forman el modelo de regresión: X5 , X,o' Xv
X6 , X'3 Y X3, Las correlaciones bivariadas existentes entre cada par de estas seis variables
pueden comprobarse en la matriz de correlaciones referida (subapartado 1.3.2).
La comprobación de la presencia de multicolinealidad sigue con el cálculo de los valores
de tolerancia y el factor de inflación de la varianza (FIV), tanto para las variables incluidas co-
mo en las excluidas del modelo de regresión. Con ambos estadísticos puede comprobarse
la correlación simultánea de cada variable independiente con el resto de variables inde-
pendientes,
Primero, se calculan los valores de tolerancia y FIV para las variables que forman el mo-
delo de regresión. Los valores de ambos estadísticos se recogen en la tabla siguiente, En ella
puede observarse que en ninguna variable los valores de tolerancia o de FIV alerlan de la exis-
An.álisis mul!i.variable. Teoría y prácfica en la investigación social
Capüulo 1: Regresión múltipLe 57
56

Tabla B • Cuando se detecte la existencia de elevada colinealidad, ha de adoptarse algún


remedio para evitar su negativa incidencia en los resultados del análisis de regresión.
FIV Tolerancia
Variables excluidas del Tolerancia
mínima Entre los remedios más utilizados destacan dos: uno más radical, que supoue la eli-
modelo de regresión minación de las variables muy colineales; y un segundo, más conservador, que dcfiende
.- ,636 la combinación de variables colineales en una única variable latente (llámese índice, fac-
,949 1,053
X2 : ideología política
,953 1,049 ,634 tor o componente principal). También pnede elegirse aumcntar el tamaño de la
X4 : edad ,633
X7 : regularizar inmigrante ,831 1,203 muestra. Con ello se reduciría el error típico y, de esta forma, el efecto negativo de
1,272 ,631
Xa: entrada inmigrantes ,786
,635
la multicolinealidad, Pero, como ello no siempre es posible, habrá que elegir alguna de
,890 1,124
Xs : partido racista ,638 las medidas siguientes:
,915 1,093
KIt: estudios ,637
,928 1,077
X12 : ingresos ,628 • Eliminar las variables independientes que presenten un grado elevado de coli-
,825 1,212
X 14 : inmigrante delincuente
nealidad. Éste es el remedio más drástico contra la multicolinealidad, por lo que
provoca una amplia disparidad de opiniones.
Un último diagnóstico de multicolinealidad realizado afe?ta a los autovalores Yal índic~ Algunos autores, como Wittink (1988: 91, 93) advierten que "omitir una va-
de condición (le). Recuérdese que los autovalores indican c~antas dimenSiones dlsllntas eXIs_ riable predictora relevante puede causar severos problemas. Tal omisión es un
ten entre las variables independientes. Sólo en las dlme.~slones 6 Y7 los aut~va~~(;Os~3~) ejemplo de lo que se llama error de especificación", "La validez (falta de sesgos)
túan próximos a O. Pero, a decir por le, sólo en la dimenslon 7 se obtiene un va or , requiere la inclusión de las variables predictoras relevantes, mientras que la fia-
situado en el intervalo de 10 (colinealidad moderada) a 30 (cohnealldad severa). En las d~: bilidad (error típico pequeño) de las estimaciones de los parámetros puede em-
más dimensiones los valores le son inferiores a 10. El valor de le decrece, obviamente, ca
peorar si las variables predictoras están bastante correlacionadas." Esto le lleva a
forme disminuye la dimensión. . ' d ca m- defender la combinación de variables predictoras frente a su eliminación.
Atendiendo a las proporciones de la varianza de la eslimada explicada por ca a d d
ponente principal asociado con cada autovalor sólo puede calificarse la cOlmea"-d~men~ Otros autores afirman, en cambio, que esta solución no lleva a una gran pér-
problemática, cuando un componente asociado a un le elevado contnbuye sustancia . dida de información. Ello se debe a que "las variables independientes que estén
te a la varianza de dos o más variables. Esta situación no se da plenan:ente en 1m; dat~s Ia~UI bastante correlacionadas presumiblementc representan e[ mismo fenómeno"
analizados. De la lectura de la tabla e se concluye que no es necesano reduCIr e ~o e o e (Frei y Ruloff, 1989: 339).
regresión a 5 e incluso 4 variables independientes para consegUir un modelo ma~1 e~able¡ En la decisión de adoptar o no esta medida radical ha de considerarse di-
aunque puede probarse. La dimensión 7 explica el 52% de la varianza de la vana . e 6 y ~ verSOS aspectos, Principalmente, el número de variables predictoras cuyo grado
34% de la varianza de la variable X5 . Éstas son las mayores proporCiones de v~nanzla el: de colinealídad exige una actuación, qué proporción representan estas variables
mínimo Lo que no hace Impenoso a e 1-
plicada. En las otras variables (X 10' X13 YX3) es . . . 1_ en el conjnnto de las variables independientes y su relevancia en la investigación
minación de la dimensión 7 del análisis de regresión lineal. La colmea"-dad detectada p~r cua (para que su eliminación no redunde, negativamente, en un incremento del error
quiera de los procedimientos referidos es de escasa c~antía y no pr.eclsa de mnguna de especificación).
actuación al respecto para mejorar los resultados del análiSIS de regreSlon.
• Efectuar un análisis factorial exploratorio ( de componentes principales o de fac-
Tabla e tor común) con las variables independientes de interés. Esta solución supone em-
Proporciones de la varianza plear, en el análisis de regresión, Índices o variables latentes (los factores ob-
Dimensión Autovalor índice de tenidos del análisis factorial, ya sean componentes principales o factores comunes
condición X IO X, X, X3
Constante X5 X'3 -véase capítulo 5-) integrados por indicadores bastante correlacionados (las va-
,00 ,00
riables predictoras colineales). Estos Índices (o factores) actúan en el análisis de
1,000 ,00 ,00 ,00 ,00 ,00
1 5,855
,03 ,00 ,00 ,01 ,88 regresión como las variables independientes. Y, debido a que estos índices han
2 ,497 3,432 ,00 ,00
4,097 ,00 ,04 ,15 ,08 ,00 ,08 ,08 de estar, por definición, incorrelacionados entre sí (unos índices o factores
3 ,349 ,00
,108 7,371 ,00 ,03 ,04 ,43 ,25 ,07 respecto de otros) y, en cambio, los indicadores (o variables empíricas) que [o
4 ,76 ,01
7,565 ,00 ,00 ,74 ,01 ,00 componen, bastante correlacionadas, el problema de la multicolinealidad se re-
5 ,102 ,00
,59 ,03 ,19 ,23 ,03
6 7,464E-02 8,857 ,00
,02
suelve (Tacq, 1997).
20,139 ,00 ,34 ,02 ,29 ,52 ,05
7 1,444E-02 .L-_ Chatterjee y Price (1977: 172) matizan que "este método de análisis no
resolverá la multieolinealidad si está presente, pero indicará aq uellas funciones
58 Análisis multivariable. Teoría y práctica en la investigación social Capítulo J: Regresión múltiple 59

que son estimables y las dependencias estructurales que existen entre las va- plo siguiente: "Supón que estudias el tiempo de sobrevivencia después de una ope-
riables explicativas". .. " . ración como una función de la complejidad de la operación, la cantidad de sangre trans-
Este uso del análisis factorial con anterioridad al análtsls de regreslOn Imeal ferida, la dosis de medicamentos y así. Además de estas variables, también es posible
puede tener una doble finalidad: una, la identificación de vari?bles indep~n­ que la habilidad del cirujano aumente con cada ,operación y que el tiempo de sobre-
dientes, que sean bastante colineales, para su exclusión del análtSls de regreslOn; vivencia de un paciente esté influido por el número de pacientes tratados. En caso de
dos la combinación de variables colineales en un único índice o factor. Estas apli- que esto sea cierto, habrá autocorrelación".
caciones del análisis factorial (relacionadas con la redistribución de la varianza Asimismo, en un estudio sobre el éxito académico existirá autocorre/ación, si se ob-
compartida por las variables independientes) se desarrollan en el capítulo 5, de- serva que la calificación obtenida en un examen no sólo depende de las variables in-
dicado al análisis factorial. dependientes horas de estudio, asistencia a clase, cociente de inteligencia o motivación
por la asignatura. También se ve afectado por el momento de corrección del examen:
si es el primer examen que se corrige, o el último. Las calificaciones dadas a exámenes
1.1.9. Independencia de los términos de error precedentes puede afectar a la obtenida en exámenes posteriores. La presencia de un
buen examen (o trabajo) subconscientemente afecta a la calificación de los exámenes
Un último supuesto básico del análisis de regresión lineal concierne a la necesidad inmediatamente posteriores, al elevarse el nivel de exigencia del profesor. Igual-
de que los términos de error na estén correlacionados. El valor. de la vanable depen- mente, el haber corregido, previamente, exámenes deficientes beneficia a exámenes me-
diente en cada caso concreto ha de ser independiente del resto. SI las observaclOnes son diocres posteriores, al disminuir el grado de exigencia del profesor. El estado aními-
independientes unas de otras, los residuos sucesivos tampoco han de estar correlacio- co de éste también puede afectar a la calificación final del examen. Sobre todo,
nados. En caso contrario, se tiene que hablar de correlación serial de los reSiduos, o de cuando éstos se corrigen en distintos períodos de tiempo. Si ello se demuestra, habrá
autocorrelación. autocorrelación. En su evaluación habrá que tener información adicional sobre el or-
A diferencia de la heterocedasticidad (que es más habitual en diseños de investi- den en que se recogieron los datos en la muestra. Esta información no siempre está dis-
gación transversales o seccionales), la,autocorrelación se produce, con mayor fre- ponible en los datos de encuesta. En este caso, habrá que acudir a gráficos de residuos
cuencia en los estudios longitudinales. Estos se caracterizan porque la recogida de m- y/o estadísticos al efecto.
formación se produce de forma secuencial, en períodos de. tiempo suc~~ivos, Entre las consecuencias negativas de la autocorrelación destaca, en primer lugar,
planificados en el proyecto de investigación. La finalidad es a~altzar la e,voluclOn del su efecto pernicioso en la significatividad de los coeficientes de regresión. La autoco-
fenómeno que se investiga a lo largo del "tiempo". Como la mformaclOn refenda a rrelación provoca una subestimación del error típico. Éste será inferior al habido
unas mismas variables se recoge en dos o más momentos temporales, el valor que pue- realmente, si no existiese autocorrelación. La consecuencia inmediata es la obtención
de tener una variable en un momento probablemente na es independiente del valor de un valor "t" inflado, superior al reaL Éste indicará que el valor correspondiente del
que dicha variable adquirió en un tiempo anterior. Esto se evidencia más, c~ando los coeficiente de regresión es significativo estadísticamente, cuando en realidad no lo es.
dos procesos de recogida de información acontecen en un período corto de llempo; y, Lo que invalidará el modelo de regresión.
sobre todo, si el diseño de investigación es longitudinal de panel. El recoger un mismo Para evitar la incidencia negativa de la autocorrelación, primero hay qne proceder
tipo de información, de unas mismas personas, en tiempos suceSIVOS, puede produclf a su identificación. De nuevo, los gráficos de residuos son de gran ayuda para este pro-
el efecto no deseado del aprendizaje (Cea, 1996). ._ pósito. Los residuos ahora se disponen en orden secuenciaL Especialmente, cuando los
Schroeder et al. (1986) sintetizan en tres las causas principales de la autocorrelaclOn: datos se recogen y graban secuencialmente. En este caso, los residuos se representan
siguiendo la variable de secuencia en gráficos como los incluidos en la figura 1.6. En
1. La omisión de nna variable explicativa importante. los ejemplos expuestos anteriormente, la variable de secuencia es el "orden" en que los
2. El empleo de una forma funcional incorrecta. . pacientes son intervenidos quirúrgicamente y, en el otro ejemplo, el "orden" en que se
3. La tendencia de los efectos a persistir a lo largo del tiempo o, para las van~bles corrigen los exámenes.
dependientes, a comportarse cíclicamente. Tal vez por ello la autocorrelaclOn es El supuesto de independencia de los términos de error se cumple, cuando los re-
más común en datos de series temporales. siduos se distribuyen de una forma aleatoria. Es decir, no muestran ninguna pauta con-
sistente, como sucede en la figura 1.6a. En este gráfico se alternan los casos con resi-
Sánchez Cardón (1995: 417), por ejemplo, ilustra la autocorrelación con la si- duos positivos con los negativos. Por el contrario, hay autocorrelación, cuando los
guiente aseveración: "La inflación que pueda haber en un país en ti + 1 na es l?de- residuos siguen una pauta discernible, a modo de la reflejada en la figura 1.6b. En él
pendiente de la inflación en ti'. Nourisis (1986: B-188), por su parte, expone el eJem- puede apreciarse como se pasa, secuencialmente, de residuos negativos elevados
60 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 1: Regresión múltiple 61

(-3,0) a positivos (3,0). El orden puede ser tambiéu el inverso: pasar de residuos el~­ Si se detecta autocorrelación cn la distribución de datos, el remedio más habitual
vados positivos (3,0) a negativos (-3,0). Estos últimos gráficos son caracterísllcos de SI- es la aplicación del método de regresión de m[nimos cuadrados generalizados. Éste par-
tuaciones en que el orden de disposición del caso en la muestra analizada afecta a la t~ del método de regresión de mínimos cuadrados ordinarios) pero difiere -como se ve-
información que de él se obtenga, como sucede en los ejemplos antes expnestos. ra en el subapartado 1.6.2- en utilizar variables que han sido transformadas.

-3,0 3,0
Caso Caso 1.1.10. El análisis de los residuos en la comprobación de los supuestos de regresión
1 1
2 2
3 3 Como el lector habrá podido constatar, el análisis de los residuos es de gran utili-
dad en la,;omp;obacIón de la mayoría de los supuestos de regresión. Especialmente,
eu regreslOn.mnltIple, cuando se analizan dos o más variables independientes. Ello se
debe a la dIfIcultad que Supone reflejar en un gráfico bidimensional los valores de la
n n varia?le dependiente para cada una de las variables independientes, de manera si-
multanea.
a) Ausencia de autocorrelación b) Autocorrelación (o dependencia En regresión lineal se entiende por residuo la diferencia entre los valores obser-
vados en la vari~ble dependi~_nte (Y) y sus correspondientes valores predichos, a par-
de las observaciones)

Figura 1.6. Gráfico de residuos para detectar autocorrelación de los términos de error. trr de la ecuaClOn de regreslOn (Y), para cada uno de los casos analizados (siendo
1 = 1, 2, 3... n). ReSIduo es, parafraseando a Hutcheson y Sofroniou (1999: 24), "lo que
queda una vez que un modelo se ha ajustado a los datos": E. = Y. _ Y.
La autocorrelación puede igualmente identificarse con la ayuda de estadísticos. El
más aplicado, cuando se analizan datos secuenciales, es el coeficiente de Durbin-Wat-
í
No ~ebe confundirse el residuo (denotado Ei o ri' en algun'os te~tos con el error de
predlcclOn (s). El error de predicción -como se detalla en el subapartado 1.5.2- repre-
son. Este coeficiente se calcula a partir de los residuos estudentizados (E,), en cada ca- senta la diferenCIa entre el valor verdadero de Y i en la población (no en la muestra ana-
so, mediante la siguiente fórmula: Irzada) y su correspondiente valor estimado mediante la ecuación de regresión. El valor
real de la vanable dependIente en la población puede diferir del observado en la mues-
tra, lo que denota la exist~ncia de error de medición en la investigación realizada.
. EXIste una ampha van edad de residuos, aunque todos ellos hacen referencia a la
dIferenCIa entre la respuesta observada y la predicha. Entre los más empleados se en-
cuentran los siguientes:

a) Residuos brutos (o "raw residuals"). Éstos se ajustan a lo que normalmente se


Con el coeficiente de Durbin-Watson, así definido, se comprueba si la correlación
entrende por reSIduo: la diferencia Aentre los valores de la variable dependien-
serial (a cada residuo E se le resta el inmediatamente precedente, E,_l) es nula. La au-
te observados (Y) y los predichos (Y), en cada caso concreto. Cuanto más gran-
tocorrelación es positi~a (los términos de error se hallan positivamente correlaciona-
de sea dIcha dIferenCIa, peor es el ajnste a la ecuación de regresión.
dos) cuando la diferencia entre los residuos sucesivos es pequeña. El valor "d" co-
rrespondiente es pequeño. En caso contrario, la autocorrelación es negativa. La E=Y-Y
, , ,
diferencia entre los residuos sucesivos es grande. Lo que se materializa en un valor "d"
elevado. . Si bien, téngase presente que los residuos brutos se hallan expresados en la
Como en todo contraste de hipótesis, el valor de "d" empírico, obtenido de la mues- UnIdad de medICIón de la variable dependiente. Lo que hace que su cuantía sea
tra, se compara con el correspondiente valor "d" teórico, a un nivel de probabilidad muy dIspar. Supenor en vari.ables como ingresos, por ejemplo; e inferior cn va-
concreto. La hipótesis nula de no autocorrelación entre los términos de error snceSI- nables como antrgüedad en el cargo. Depende de la unidad de medición de la
vos se rechaza cnando la diferencia entre ambos valores "d" es significativa a dicho ni- variable dependiente.
vel de probabilidad (ps ,05, usualmente). En general, cuando el valor "d" empírico es- b) Residuos eSlandariza,dos (o "standardized residuals", o *ZRESID, en progra-
tá comprendido en el rango del ,5 a 2,5 no existe motivo de preocupación. mas como el SPSS). rratan de palrar la defiCIencia observada en los residuos
62 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 1: Regresión múltiple 63

brutos, cuya cuantía se halla relacionada con la unidad de medición de 1~ va- de los residuos estudentizados, al dividir el residuo bruto por la desviación típica
riable dependiente. Para ello se divide al residuo bruto (E) por la estImaClOn de estimada del residuo en ese punto.
su desviación típica (&). De esta forma la magnitud del residuo qn~da expresada
en unidades de desviación típica por encima (si el signo es pOSitIVO) o por de-
E
bajo de la media (si es negativo). "

Los residuos estudentizados se ajustan a la distribnción "t" de Stndent con


N - P -1 grados de libertad. Los valores "d . ." también suelen denotarse :'h .."
(Gray b'II
I e Iyer, 1994; Gnnst y Mason, 1980). ',' Esta cantidad -que suele igual- "
N-p-l mente referirse "leverage"- indica el elemento "i" de la diagonal de la matriz
H (también

llamada "hat matriz" y las cantidades "h 41. .", "hat values"). Las ob-
servaCl?neS con un v~lor "hu> 2pln" deberían examinarse como observaciones
Donde "N" representa el tamaño de la muestra (que ta?:bién ~~:de n~­ potencmlmente muy mfluyentes en la ecuación de regresión. Lo mismo acon-
presentarse por "n", para diferenciarlo del tamaño de la p'~blaclOn); y P_' el nu- tece con valores de "Eti> 2".
mero de variables independientes incluidas en la ecuac~on de regreslOn. . d) Residuo eliminado estudentizado ("Studentized deleted residuals"). Difiere
Esta tipificación de los residuos (que quedan convertIdos a la ?,Isma un,ldad
del anterior en que, al calcular el error típico residual, no se incluye el iésimo re-
de medición: unidades de desviación típica) facilita su comprenslon, ademas de
Siduo (-1). De esta forma se obtiene una distribución del estadístico "t" de Stu-
la comparación de residuos y de modelos de regr~sión distintos. dent con "N - p - 2" grados de libertad.
Saber, por ejemplo, que un residuo bruto es Igual a -849,25 apenas pro-
porciona información. Sólo que el valor observado en la yariable dependiente
E,
(Y) es inferior a su correspondiente valor predicho (YJ .Y ello porq~e el E '(_1)
signo de dicho residuo ·es negativo. Si su valor fu~se pOSlttVO, mdlcana lo
opuesto: la Yi observada es superior a la predich~ (Y,). . ... ._
Si se transforma el residuo bruto en estandaYlzado (al dlvlduse por la estt Los valores de cualquiera de estos cuatro residuos se añaden a gráficos que facilitan
mación de su desviación típica), su valor pasa de ser -849,25 ~ -3,0. ~llo penrute la comprobación inmediata de los supuestos de regresión. Los gráficos de residuos más
conocer no sólo que el valor de 'Yi es inferior al correspondiente Y i , sm~ t.am- comunes son los que representan los residuos (ya sean brutos, estandarizados o estu-
bién que es bastante superior a otros en valor absoluto. Alcanza ~u valor maxrmo, denttzados) contra:
El rango de los residuos estandarizados va de -3,0 a +3,0, aprOlomadamente. Al
estar estandarizados, estos residuos se caractenzan por ser su media Oy su des- • Una de las variables independientes (X).
viación típica 1. ., • Los valores predicho~ de la variable dependiente (YJ
c) Residuos estudentizados ("Studentized residuals" o SDRESID, en notaclOn • La suma ponderada Yi de las variables independientes (X,).
SPSS). Se definen de forma similar a los estanda~i~ados: el ,cociente del reSIduo
bruto y su desvio.ción típica estimada. A esta. defini:Clón comun (co~ el reSIduo es- De esto!! gráficos, el más empleado es el segundo: el gráfico de residuos contra los
tandarizado) se añade, no obstante, la conSideraCión de la distanCia de cada va- valores de Y¡- En él, tanto los residuos como los valores predichos de la variable de-
lor de la variable independiente respecto de su media: "dJ', que expresa la pendiente se hallan estandarizados. Para que refleje el cumplimiento de los su-
distancia habida entre el punto i y el punto medio. .. puestos deregresión, este zráfíco no ha de mostrar ningún modelo sistemático en
La variabilidad de los valores predichos no es igual en todos los puntos, SI- conSideraCión al valor de Yi (como ha podido constatarse en los subapartados an-
no que varía .con los valores de la variable independiente y de la proxnmdad de teriores).
ésta respecto de la media. La variabilidad en los valores predichos es menor, , La adecuación del mod~lo de regresión puede, asimismo, comprobarse mediante
cnando la variable independiente se aproxima a la media. Por el contrano, au- el llamado "casewise plot". Este constituye igualmente un gráfico de residuos, aunque
menta para los valores m~s extremos de la variable independiente. Esta~ CO?- para cada caso concreto y de una forma estandarizada. Como proporciona información
sideraciones sobre la variabilidad cambiante se matenahzan en .la formulaclOn de cada uno de los casos analizados (su valor predicho, Yi' Con sus residuos Corres-
ti
64 Análisis multivaríable. Teoría y práctica en la investigación social

Capítulo 1: Regresión múltiple 65

pondientes), su uso se complica cuando cl tamaño muestral es elevado. El número de


páginas del gráfico aumenta con el número de casos analizados. Lo que dificulta su lec-
tura e interpretación. PREÁMBULOS DEL ANÁLISIS DE REGRESIÓN MÚLTIPLE
1.0
<.) Elaboración de un modelo de reo-resión '
con ei marco teórico de la i f b' teÓrICO en consonancia
1.2. La obtención del modelo de regresión múltiple: fases principales Q S .
eleCCIón de los casos a analizar
6
nves 19aCJ n
G Comprobación de los su b/, .
Como en cualquier procedimiento analítico, la consecución de un modelo de re- lineal puestos aSICQS para un análísis de regresión
gresión lineal incluye varias fases. Desde los "preámbulos", que abarca todas las tareas
'" Depuración de los datos: tratamiento d, J " ,
referidas a la preparación de los datos, hasta la fase final de interpretación del modelo datos incompletos) e os casos SIn respuesta" (o
de regresión obtenido. La interpretación de los resultados acontece nna vez que ha con- el Indagación exploratoria Inclu e l ' .

clnido la evaluación de la adecuación predictiva del modelo, tanto desde la vertiente riables a partir de la mat'riz d y e ~n~hSlS de correlaciones biva-
e corre aClOlles
estadística como la lógico-sustantiva. El modelo de regresión ha de ser teóricamente
plausible, además de significativo desde el punto de vista estadístico. De no ser así, ha-
brá que remitirse a las fases iniciales del análisis, en busca de causas posibles de la no
significatividad detectada en el modelo. Para este propósito es imprescindible COm- R ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN
probar si se han cumplido cada uno de los supuestos básicos de regresión. En caso afir- E 2°
mativo, habrá que remitirse al modelo teórico y a su operacionalización. En caso ne- P : ~btenCió? ~e los coeficientes de regresión
gativo, habrá que buscar algún remedio que posibilite la obtención de un modelo de 1 e~ror tIplcO de los coeficientes
L • La slgnificatividad de los coeficientes
regresión adecuado.
A
La figura 1.7 esquematiza, a modo de gráfico, las fases principales de un análisis de
regresión lineal múltiple. Es un esquema genérico. Como se verá en el apartado 1.6, la N
consecución de un modelo de regresión líneal difiere según el procedimiento qne se ha- T
E ~
ya seguido en la incorporación de variables independientes a la ecuación de regresión.
Si se ha optado por un procedimiento instantáneo o, por el contrario, se ha segnido uno A LA EVALUACIÓN DEL MODELO DE REGRESIÓN OBTENIDO
secuencial (o "por pasos"). y, dentro de ellos, qué variedad ha sido la finalmente ele- R 3.°
o El ajuste del modelo de regresión
gida ("hacia delante", "hacia atrás" o "paso a paso de inclusión y eliminación de va- el El error de predicción

riables"). G La significatividad del modelo de "


tadística y lógico-sustantiva regreSIón, desde la vertiente es-
La detección de casos "atípicos"
/¡!

1.3. La preparación de los datos para el análisis

I I~
Como muestra la figura 1.7, los preámbulos del análisis de regresión lineal inclu-
yen diversas tareas a realizar previas a la ejecución, propiamente dicha, del análisis de
regresión. Comprende la elaboración de un modelo de regresión teórico, la selección
I Ner
va
Posi~iva )

de los casos a analizar, la comprobación de los supuestos básicos de regresión, la de- '(
'--_4.° INTRODUCCIÓN DE
puración de los datos e indagación exploratoria. Los supuestos básicos de regresión li- MODIFICACIONES rONCLUSIÓN DEL ANÁLISIS:
neal ya se expusieron en el apartado 1.1. En él también se hizo referencia a aspectos presentación de resultados
relacionados con la muestra de análisis (subapartado 1.1.1), aunque no a otras tareas
que componen, igualmente, los preámbulos al análisis de regresión. Figura 1.7. Fases princi ales de ..
. P un análiSIS de regresIón múltiple .
Lo primero es elaborar un modelo te6rico. El tener un modelo teórico de partida, gir para la predicción de la variable de . d'
diseñado a partir del ¡narco teórico de la investigación, es básico en regresión, como en Per'e . d'
,1 neja e otros lllvestigadores
pen lente'
ue h
además
.'
de los casos a analizar. La ex-
cualquier procedimiento analítico. Ayuda a decidir qué variables independientes ele- tigación contribuye a evitar errore; com?ta~ analIzado el mismo problema de inves-
1 os en estudlOS anteriores. Esta experien_
66 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 1: Regresión maZtiple 67
cia se convierte en un referente crucial en todo diseño de investigación (Cea, 1996). En
se incluyen 15 variables y cada una de el! .
las fases finales de la investigación, también es crucial la mediación de un marco respuesta. as tiene, al menos, Un 5% de sus valores sin
teórico. Éste sirve de marco de referencia al que acudir en la interpretación de los re-
. La eliminación de los casos sin res uest
sultados del análisis.
A continuación se desarrollan otros dos aspectos no tratados: el tratamiento de los
cuando estos casos no son azarosos.
que les diferencia de aquellos que s'
1: con~r~ampoco es una soluciónrecomendable,
nfo, se ajustan a un perfll determinado
casos "sin respuesta" y la matriz de correlaciones. . '. I aoortan In orrnació T' . '
vanables: "lOgresos" y "categon'a p f'· 1'· n. omese, por ejemplo dos
~ ro eSlOna '. Si se obs . '
categonas profesionales no dec\ar . l erva que personas de distintas
gorías profesionales superiores son a;~g~~ me~t~ sus i~gresos -las personas de cate-
1.3.1. Depuración de los datos: el tratamiento de los casos "sin respuesta" gresos-, no se está ante datos' ' Ir Jemp o, os mas reacios a informar de sus in-
'l' . mcomp etos al azar La el" "' d
ana ISIS SUpondrá , salvo que re p re sent en una baja : munaClOn
"- e estos casos del
Una vez concluida la recogida de información de la muestra elegida, procede muestra, la obtención de resultado d proporclon en el conjunto de la
realizar tareas preliminares de depuración de los datos que se han recogido. Incluye la inconsistentes. Por esta razón s s sesga os, ademas de estimaciones de parámetros
eliminación de errores de grabación, además de algunas decisiones clave, como la re- ·.
lISIS e aconseja que antes de d l"
a los casos sin respuesta Se co b: proce er a e Immar del aná-
ferida al tratamiento de los casos sin respuesta en una o en varias variables de la in- mación en variables de interés se aj:~rue e SI aquellos casos que no aportan infor-
vestigación. seshmar su eliminación de la muestraa~ a, un r.n: smo perfil. De ser así, habrá que de-
El análisis de regresión precisa, como la generalidad de las técnicas analíticas, de respuesta". e análtsls y optar por otro remedio a la "no
datos "completos" en todas las variables incluidas en el análisis. Pero, en la práctica in-
Cuando no se cumplen las circunst· .
vestigadora, esto no sucede siempre. Es frecuente encontrar variables de las que se ca- baja proporción de casos sin respues~nc!as,r~fendas de tamaño muestral elevado y/o
rece de información en algunos casos de la muestra. Cuando esto acontece, ha de adop- reúnen unas mismas características e~' ~ ~St o\no se distribuyen al azar, sino que
tarse alguna medida que evite los efectos negativos que la inclusión de datos gUlentes: ' a I ua e legIr alguno de los remedios si-
incompletos tiene en el análisis. Fundamentalmente, la sobreestimación de los errores
típicos de los coeficientes de las variables afectadas. Esta sobreestimación redunda, de
manera negativa, en la significatividad de los coeficientes de regresión y, más am- • La i,!,putación a partir de los casos de lo '. .,
pliamente, en el ajuste global del modelo de regresión. sushtuir estos valores sin respue t s que Se lIene mfonnaclOn. Se trata de
Las actuaciones posibles ante datos incompletos dependen de varios aspectos: el ta- res observados reales. Los val;r~;~r ?tros que t.endrán tratamiento de valo-
maño de la muestra, la proporción que en ella representeu los datos incompletos, si és- cuál habría sido el valor dado a la e ~~putan siempre baJO el supuesto de
tos afectan a una o a varias variables y, por último, si se hayan distribuidos de forma alea- do una respuesta. A tal fin pued vana. e po.r ~se caso o sujeto si hubiese da-
en segUIrse dlStlOtOS procedimientos.
toria "La negativa sistemática de los sujetos a responder un tipo de pregunta particular
en una encuesta puede distorsionar seriamente los resultados" (Hutcheson y Sofroniou,
1. Reemplazar los valores sin respuesta (" . .
1999: 18). media de los valores observados :sslOg vaIues") en una variable por la
Si la proporción de datos incompletos es pequeña en una muestra elevada y éstos análisis. Esta solución es especialm e~ !~a vanable, antes de proceder al
se distribuyen de forma aleatoria, la mejor opción puede ser eliminarlos del análisis. datos incompletos y las intercorre~n ~ ut cUMdo se quiere hacer uso de los
Pero, cuando estas condiciones no se cumplen, la aplicación de este remedio radical pequeñas. La ventaja princi al es aCI~nes eXistentes entre las variables Son
a los datos incompletos no es recomendable. Primero, porque puede suponer una re- intervienen en la obtención ~el m:e~o ~~os los c~:;os dela muestm original
ducción drástica del tamaño muestral, que haga peligrar la validez estadfstica de los sesgos que su aplicación puede' t d r~greslOn. EllOc~nvemente sería
los resultados del análisis. Y, segundo, porque puede provocar la obtención de re- rámetros de regresión. lO ro uClr en las estimacIOnes de los pa-
sultados sesgados.
Z. Tomar los valores de respuesta dados o
Además, téngase presente que, para efectuar el análisis de regresión, se eliminan nado respuestas similares en otras . ~I r o~os casos que han proporcio-
de la matriz de datos inicial todos aquellos casos que no aporten información en al me- sin respuesta la dada por otros ind~~~~ es. e tr~ta de atribuir a los casos
nos una de las variables consideradas. La merma del tamaño muestral original es más han proporcionado las mism os de Similares características, que
drástica cuantas más variables,se incluyan en el estudio y no coincidan los casos sin res- Esta atribución de respuesta~: re~puestas que ellos en las demás variables.
puesta en todas las variables. Según estimaciones de Jaccard y Wan (1996) la reducción dividuos can similares caracte ~~s arnesgada que la solución anterior. In-
en el tamaño muestral puede llegar incluso a suponer su reducción a la mitad, cuando coincidentes. ns Icas no tienen por qué Ser plenamente
68 Análisis InultivariabLe. Teoría y práctica en la investigación social

Capftulo 1: Regresión m(tltiple 69

3. Predecir cuál habría sido la respuesta del sujeto, partiendo de la información


8,vitar Jos s~sgoS que toda suposición de cuál '.
que sí proporcionó en otras variables. Esta predicción puede llevarse a clr en la estimación de los parámetros P habrla Sido la respuesta dada puede íntrodu-
efecto mediante una ecuación de regresión, que analice el valor que co- aportase información en alguna de la; v erobiroceder a la eliminación de tOdo caso que no
rresponderá a la variable en cuestión, considerando las respuestas que dicho ción drástica en el tamaño de la muest an~. es ¡ncluldas en el estudio suponía una reduc
sujeto dio en otras variables. ta drástica merma en el tamaño muest;:1 Original, bastante superior a la mitad (n = 692). Es~
Este tercer procedimiento de imputación es una opción deseable cuando (1996), se debe,no sólo al número de va~i~~~e~n~;m~ de las predicci~nes de Jaccard y Wan
existen correlaciones elevadas entre las variables consideradas (Afífi Y a que los casos 'sin respuesta" no c' °d egidas para el ana lisIs (15), sino también
Clark, 1990). Pese a ello, su aplicación puede introducir sesgos en el análisis, casos "sin respuesta~' aunque sólo olnC! en en todas las variables. La desestimación de los
como sucede con los demás procedimientos de imputación. ~is¡s, provoca esta reducción tan lIa~:~v:neUnn: de la8_variables seleccionadas para el aná-
juntamente las variables. Sin duda la reducción hl ta';lano muestral,cuando se analizan con-
s Incluir los casos sin respuesta) en una o en varias variables, con el código "mis- no ~e hUbIesen distribuido al azar en la mu abna sld~ menor, SI los casos "sin respuesta"
yona de las variables. estra, adecuandose a un mismo perfil en la ma-
sing value". Si los datos son continuos, estos valores sin respuesta suelen codi-
ficarse como valores extremos (por ejemplo, 99 o O). En estas circunstancias, es- En cambio, la eliminación parcial del caso . , ..
ta a la variable que se anaHza, supuso una r d Sin r:espuesta del anallsls, sólo cuando afec-
ta opción no parece ser muy útil. Pero sí, en cambio, cuando se analizan la muestra onginal a 1 280 casos Esta d e .~cclon sensiblemente menor en el tamaño de
variables ficticias. La consideración de los datos incompletos "como una res- . . . . re ucclon se debió I
mas casos Sin respuesta: "leyes in mí .." a cruce de las dos variables con
puesta separada a Una cuestión juuto con otras respuestas puede ser una opción variable "ingresos" (P52), declarad;:a~~~~ (P16), con un total de 1.713 casos váHdos; y la
interesante. Algunas veces, en los datos de encuesta, el hecho de que un sujeto or
ello, el tamaño muestral continúa siendo ele/ 1.793. de los 2.492 encuestados. Pese a
no responda uua cuestión particular puede ser una parte de información útil a lidez de los resultados el seccionamiento a lada y Posibilita, para la comprobación de la va
analizar" (Afifi y Clark, 1990: 224). 640 casos en cada s~bmuestrao de ana-Il eatodno de la mU,estra a la mitad (aproximadament~
. SIS y e va/ldaclon).
• El investigador también puede considerar la eliminación del análisis de cualquier
variable que presente una proporción elevada de casos sin respuesta. A menos
que ésta se estime crucial en la predicción de la variable dependiente.
• Un último remedio que puede evitar la incidencia negativa en la merma de la
1.3.2. Indagación exploratoria: la matriz de correlaciones
muestra original qne puede suponer la eliminación de los casoS sin respuesta, sin
acndir a la imputaci6n, es la eliminación del análisis sólo de los casos que no apor- Antes de comenzar el análisis de re resión .
ten información en la variable que se analiza; es decir, sólo cuando se estimen los
parámetros de la variable afectada por la no respuesta. Que el caso se elimine de
dagación exploratoria en los datos a a 1· s' prop~amente, es conveniente hacer in-
reunida, puede llevarse a cabo Un an~~ ¡z~. e preCIsa conocer si, con la información
dicho análisis no supone su eliminación de otros análisis que afecten a otras va- de los supuestos básicos de regresión ¡SISf ~ regresión. Además de la comprobación
riables de las que sí proporciona información. Este proceder ofrece la gran ven- a
de cada una de las variables de inte;'y re endos, procede realizar análisis univariables
taja de suponer una reducción sensiblemente menor del tamaño muestral que dias y desviaciones típicas. Recuérde~~ p~: sl:parado: ~n especial, se analizan sus me-
la eliminación total del caso, indistintamente de la variable que se analice, sin ne- se ajusten a una escala continua Por I q l regreslOn Imea! exige que las variables
cesidad de recurrir a la imputación. De ahí que haya sido ésta la actuación se- en las medidas de tendencia c~ntral ~ ~ued a media y la desviación típica se convierten
guida en el análisis de los datos aquí expuestos. dísticos principales cuyos valores se revi~a~sperslón más representativas, y dos esta-

EJElV1fL90ETRATAM/ENTODE LOS QASOS "SIN RESPljESTA"


- EJEMPLO DE /NDAGAc/ó
MEO/A y DESV/AC/ÓNTíF'/~EXPLORA TORlA UN/VARIABLE: o •• r------_
El tratamiento dado a los casos "sin respuesta" en la encuesta aquí analizada ha sido el ~ o

último mencionado: realizar el aDálisis de regresión sólo con aquellos casos que sí propor-
cionan información en las variables de interés. Al ser el tamaño de la muestra original bas-
A continuación figuran las medias desvi. ~ .
tante elevado (n = 2.492 casos), no era imperioso recurrir a la imputación. Se quería con ello la muestra total. Para su interpretación ~e ac~ones tlplcas de las variables analizadas en
recomienda la relectura del subapartado 1.1.30 En
70 Análisis mulcivaria ble. 7'eoria y pra'cLica en la investigación social
Capítulo 1: Regresión múltiple 71
Estadísticos descriptivos
la pertinencia de su inclusión en el análisis. Si Una variable independiente muestra
Desviación una mínima correlación con la dependiente, se puede reconsiderar su inclusión en
Media típica N
el análisis. Segundo, se comprueba la relación habida entre cada dos variables in-
Simpatía marroquí 5,9629
.
2,7276 2.183 dependientes. La finalidad es comprobar el grado de colinealidad existente entre
Leyes inmigración 2,6947 1,0354 1.713 ellas y si éste puede afectar negativamente a los resultados del análisis (como ya se
Ideología política 4,6729 1,9595 1.804 dijo en el subapartado 1.1.8). Toda esta información la proporciona la matriz de co-
Sexo ,4811 ,4997 2.492 rrelaciones.
Edad 44,9330 18,1276 2.492
La matriz de correlaciones incluye las correlaciones bivariadas de cada una de las
Simpatía latinoamericano 7,1693 2,2478 2.174
Número inmigrantes 2,2260 ,6284 2.111 variables que participan en el análisis. Esta matriz se caracteriza por ser cuadrada y si-
Regularizar inmigrante ,7568 ,4291 2.171 métrica. Los mismos valores se sitúan por encima y por debajo de la diagonal de la ma-
Entrada inmigrante 1,9069 ,6305 2.288 triz (que resulta del cruce de una variable por sí misma). Por esta razón, en algunos
Partido racista 1,4242 ,5692 2.237 programas estadísticos sólo se dan los valores que se hallan a Un lado de la diagonal
Casar con marroquí 1,6729 1,0094 2.415 (por encima o por debajo), para no proporcionar información redundante.
Estudios 2,1482 1,1990 2.281
Ingresos 143.991,0 105.233,1459 1.793 En la matriz de correlaciones la diagonal siempre está compuesta por unos. Incluye
Vecino marroquí 1,2670 ,6723 2.468 la correlación de cada variable, ya sea dependiente o independiente, consigo misma. De
Inmigrante delincuente ,5716 ,4950 .2.138 ahí que la correlación sea siempre 1,0, el valor máximo posible. Las variables figuran en
el mismo orden en filas y en columnas. La variable dependiente puede estar en la últi-
ma fila y columna, o en la primera, depende del programa que se utilice. Sus valores se
cruzan COn cada Una de las variables independientes, de lo que se obtiene un coeficien-
. bies,.SI' so nEcontinuas
él se describe cada una de las vana o ficticias,
t 'nformación es deademás de I?s en
gran interes códigos
la In- te de correlación producto-momento de Pearson ("r"). Éste constituye una medida basada
numéricos dados a cada uno de sus valor~s. s a 1 en la covarianza entre dos variables relacionada con la dispersión de sus respectivas dis-
terpretación de estos estadísticos des,::nptlvos. I (N) varía en cada variable, al excluirse del tribuciones. Concretamente, se obtiene del cociente entre la covarianza de "X" e "Y" y
Además, observése como el t~mano mue~t~e a la ue afecta. En las variables "sexo" y la raíz cuadrada de las varianzas de "X" e "Y", para todo valor i = (1,2,3 ...N) ,siendo "N"
análisis los casos sin respuest~ solo en la vana os de ~ muestra original. Pero, en otras va- (o "n") el tamaño de la muestra. Dos fórmulas alternativas SOn las siguientes:
"edad" se dispone de inf~rma~I?~, de todos}os cas "(P52) los casos analizados se reducen
riables, como "leyes inmlgra~lon !,P16) e 1~~res~~CCión n~ sorprende, debido a la reticencia
considerablemente. En la vanable In9resos ~. re e los in resos, aun pidiéndose que se den Sxy
normalmente mostrada a la declaraclon eSpe?lflc~ d ., n" t~mpoco al haberse incluido como r=~===
~S;S¡
o
de forma aproximada, En la variabl? "leyes Inmlgrac~~ re ulan la ~ntrada y permanencia de
opción de respuesta sen,~a valoraclon de I~~~~~~S! mat~ria de inmigración". . .
extranjeros en Espana) no conoce la legl ., rica de la variable "ingresos", segUIda a dIS-
Par último, señalar que la mayor deSVlaC!~nd I~ medición de ambas variables: pesetas y N
tancia de la variable "edad", se debe a la Unl a e 'bles se restringe a 11 como máximo (en
años. En las otras variables el r~~g~, de val~res pOSI mericano": la escala de valores va de O
LX,Y,
donde Sxy = '=1
las variables "si~patla marroqw y sl~patl:~~!~~~riableS ficticias ("sexo" [P41], "regularizar N - XY = Covarianza de X en Y
[ninguna slmpatla] 10 [mucha slmpalla])'t Y" [P2904]) se reduce a los valores 1 y O (el grupo
inmigrante" [PI9] ea"inmIgrante dehncuen e N
de referencia). LX;'
S 2X = ,= N1 - X' = Varianza de X, siendo" X' "el cuadrado de la media de X
. . bl l ' la bivariable que analiza la re-
A la indagación exploratoria umvana e e ~Igbules 'Pr¡'mero se quiere conocer el N

lación hablda, por separa o, ~


. d e tre cada dos vana e . ,
. d d' te con la dependiente para deCidir
grado de relación de cada vanable In epen len
. . LY,'
S'y = '=~ - y' = Varianza de y, siendo" y' "el cuadrado de la media de Y
'.
i~;
L
Capitulo J: Regresión múltiple 73
T 'o y práctica en la investigación social
Análisis multivariable. eorl .
72
ya correlación sea de igualo superior magnitud que el valor tomado de corte. Esto ayu-
. coeficiente que expresa el gra-
. d tas fórmulas se ob(¡ene un "" "y" cuando se Im- da a tener una primera impresión de las interrelaciones existentes entre las variables.
Mcdiante cualqUiera e~s . 'stente entre dos variableS (X e d' "X" Y"X" si Se insiste en que la relación es exclusivamente entre dos variables y no se tiene en con-
do la dirección de la relacl n ~Xi diente con la dependiente; o e El ~a- sideración la influencia, a su vez, con otras variables.
de la rel~eiónde eada v~~~~~~~~:X:;endientes). Su valor oSci~~~~a~;¿~ ~;I~~cta
pa- Si la relación es entre dos variables independientes, recuérdese que todo valor igual
la relacron eS e~tredos . de relación entre las vapables , +1,0 c 'gualmente, el valor o superior a ±O,80 se considera indicativo de una elevada correlación entre las varia-
t
lar 0,0 expresa mexisten~: el valor de una variable se incremen a'~na variable provoca bles (se está ante variables muy colineales). Son funciones casi perfectas una de otra,
sitiva (confarme aumen . _ erfeeta negativa (el incremento e d lo que demanda la adopción de alguna de las medidas contra la multicolinealidad re-
de la otra); Y;-1,0 correlaclon P . laciones. En ella feridas en el subapartado 1.1.8. También puede tomarse como referente de colineali-
la dism~nu~~~n1d; ~~~:;:l~ la composición de una ;~~~a~:~~~~:ndistintamente de dad importante toda correlación igualo superior a ±O,60.
Asimismo, puede darse la situación de correlaciones inferiores a las esperadas. Ello

~~r~:l~~:d~~e::~~F~!e:~1:!i~:~~:~~~?g~~:~~:7~;i:ra~~:l~r~!~:~;:
puede deberse a la existencia de una relación no lineal entre las variables o, simple-
mente, ala presencia de outliers (casos "atípicos"). Para descartar ambas explicacio-
nes a la baja correlación entre las variables hay que proceder a la comprobación de los
1 .. n de la variable Xi con X 2 (ri2) q . 1 n a los coeficientes phi (</l) y .. supuestos de regresión (apartado 1.1) y, en su caso, a la detección de "atípicos" (véa-
Z:sa~~~relaciones entre variables fictlcza~ ~~a. ~mbos estadísticos miden la relac~~:- se subapartado 1.5.4).
lacionan con X2 (Chi~Cuadrad~)~~~~~~~/d~ contingencia 2 x 2. Ello a~,,;~::o;~:~ ~~ ese Por último, advertir de que las correlaciones demasiado bajas pueden deberse,
entre variables cualrta~:~:;iables se interprete como la pro)porci~:proporción de casOS igualmente, a valores extremos de la media y desviación típica de la variable. "Si las me-
lación entre este tipa ") enor (signo negatiVO que dias de las variables para una muestra dada son números muy grandes y las desvia-
grupO es mayor (sIgno pOSitiVO o m ciones típicas muy pequeñas, entonces los programas de ordenador pueden producir
en los otros grupos. matrices de correlación cuyos valores Son demasiado pequeños" (Hutcheson y So-
franiou, 1999: 18). Esta tercera explicación tendrá, asimismo, que comprobarse, lo que
exige un análisis univariable de las variables afectadas.
Xp y
XI X, x,

r ,p r ly
X, 1 r" r"
r,p r 'y
X, f 21 r"

~
1 r 'p f 'y
X, f31 f"
EJEMPLO DE MATRIZ DE CORRELACIÓN

1 fpy En el subapartado 1.1.8 se hizo referencia a la matriz de correlaciones, a su aplicación


X f pI f p' f p'
en la comprobación del grado de colinealidad existente entre dos variables independientes.
fyp
1 A lo expuesto en el susodicho subapartado hay que añadir comentarios referidos, princi-
fy3
Y f yl f y' palmente, a las correlaciones de cada variable independiente con la dependiente.
En la salida original del programa SPSS (versión 10.0) figura la matriz de correlaciones
completa, junto a la significatividad (unilateral) de cada correlación bivariable y el tamaño
. ,1 8 Matriz de correlaciones.
FIgura .,' muestral en el que se han calculado. Para facilitar su exposición y lectura, se ha decidido ex-
¡:i
poner la matriz de correlaciones como se hace en un informe de resultados. Las correlaciones
r" '.. . r un valor de corte, bivariables sólo aparecen una vez, no repitiéndose a ambos lados de la diagonal. Recuérdese
li.:., . d . elaciones es determma '. . .. () 40 Se a
U f ma de analizar la matriz e corr. _ O 50 o inclusa mferroi. .' . que la correlación entre la variable X, y X 2 es igual a la habida entre X2 y X" Lo mismo su-
neampo~o una correlación igual o sUdPenor _aala'r t~das aquellas correlaciOnes cU- cede con las demás variables.
por e J ' . roce e a sen
cual fuere el valor que se escoJa, se p
Análisis multivariable. Teoria y práctica en la investigación social
Capítulo 1: Regresión múltiple 75
74

Matriz de correlaciones Recuérdese que la variable "sexo"es una variable ficticia que, al tener codificación binaria
(1 varón, O mujer), su relación con las otras variables no se ajusta a una recta de regresión,
x, x, X, x" X" X14 aunque realmente las variables estén muy relacionadas" En las variables ficticias, el coeficiente
y x, x, x, x, X, X, x" x"
de correlación producto-momento de Pearson ("r") no expresa el grado de relación existen-
y -,297 ,281 -,294 -,216 -,476 ,140 ,057 -,396 ,268
1,000 ,302 -,115 -,050 -,113 ,593 te entre dos variables, sino la proporción de casos que en ese grupo (el codificado 1) es ma-
(,000) (,000) (,010)(,000) (,000) (,000) (,000) (,000) (,000) (,000) (,000) (,012) (,000) (,000)
-,337 ,286 -,368 -,141 -,246 ,184 ,156 -,227 -,289 yor (signo positivo) o menor (signo negativo) que la proporción de casos en el grupo de re-
x, 1,000 -,181 -,035 -,129 ,196
(,000) (,075)(,000) (,000) (,000) (,000) (,000) (,000) (,000) (,000) (,000) (,000) (,000) ferencia (codificado O). Por ejemplo, la correlación de X3 con y de -,050 significa que la
-,111 ,136 ,170 ,147 -,052 ,037 ,117 ,149
X, 1,000 -,031 ,118 -,048 ,140 proporción de varones (codificados 1) que muestran "simpatía hacia los norteafricanos
(,098)(,000) (,024) (,000) (,000) (,000) (,000) (,000) (,017) (,088) (,000) (,000)
-,024 ,080 ,107 ,026 ,055 (marroquíes ... )" es muy ligeramente inferior a la de mujeres (el grupo de referencia, al co-
X, 1,000 -,058 -,009 -,027 -,039 ,046 ,021
(,002) (,330) (,106) (,035) (,015) (,160) (,116) (,000) (,000) (,102) (,005) dificarse O). En cambio, la correlación positiva de la variable X3 con X '2 de ,107 indica la pro-
1,000 -,102 ,141 -,089 ,117 ,097 ,163 -,442 -,291 ,124 ,201 porción en que los "ingresos" de los varones superan a los declarados por las mujeres. A la
X4 (,000) (,000) (,000) (,000) (,000)
(,000) (,000) (,000) (,000) (,000) vista de ambas correlaciones, que son bastante significativas y de escaSa cuantía, puede con-
1,000 -,230 ,228 -,246 -,219 -,274 ,120 ,085 -,267 -,199
x, (,000) (,000) (,000) (,000) (,000) cluirse que existen más diferencias entre los varones y las mujeres en los "ingresos" decla-
(,000) (,000) (,000) (,000)
1,000 -,283 ,275 ,183 ,233 -,254 -,223 ,194 ,316 rados (a favor de los varones) que en la "simpatía" manifestada hacia los norteafricanos (li-
x, (,000) (,000) (,000) (,000) (,000)
(,000) (,000) (,000) geramente superior en las mujeres). Es en la variable "ingresos" donde las diferencias por
1,000 -,388 -,199 -,265 ,175 ,118 -,249 -,268
X, (,000) (,000) (,000) (,000) (,000)
género son superiores (aunque con escasa magnitud: ,107). Respecto a las otras variables,
(,000) (,000)
1,000 ,257 ,290 -,154 -,139 ,266 ,309 las diferencias por género son apenas perceptibles. La correlación más baja se da entre la
X, (,000) (,000) (,000) (,000) (,000) (,000) variable X3 y X5 (-,009). En la manifestación del grado de "simpatía hacia los latinoamericanos"
1,000 ,239 -,128 -,070 ,261 ,179
x, las diferencias entre los varones y las mujeres son nulas (inclusive inferiores a las registra-
(,000) (,000) (,002) (,000) (,000)
1,000 -,114 -,023 ,573 ,271 das en la variable Y: "simpatía norteafricano") e, igualmente, en dirección negativa (míni-
XlO (,000) (,169) (,000) (,000) mamente superior en las mujeres).
1,000 ,471 -,095 -,204 Las otras dos variables ficticias (X7 y X ,4) muestran una mayor correlación con Y que X3 .
X" (,000) (,000) (,000)
1,000 -,041 -,117 En la variable X7 ("regularizar a inmigrantes") la correlación es positiva y ligeramente supe-
X" (,041) (,000) rior (,281). Entre las personas que creen que sí "se debería tratar de regularizar la situación
1,000 ,207 de los inmigrantes ilegales" (grupo codificado 1) la proporción de casos que muestran más
x" (,000)
simpatía hacia los norteafricanos es ,281 superior a la habida entre los contrarios a la re-
1,000
X14 gularización (el grupo de referencia). Asimismo, la correlación de X 14 e Y de -,268, significa
• Las cifras entre paréntesis corresponden a la signiticatividad de las correlaciones bivanables respectivas . que entre aquellos que están de acuerdo en que "el aumento de los inmigrantes favorece el
.. Y: «simpatla hacia norteafricano (marroquL)" (P201); X1: "leyes inmigración" (Pi6); ><:a: }d,eología p~lfti~a" (P39),: aumento de la delincuencia en nuestro país" aquellos que muestran simpatía hacia los
X : usexo" (P41)' X : "edad~ (P42)' X : "simpatía hacia latinoamericanos" (P21 O}; X6 : numero de mmlgrantes norteafricanos son en una proporción de ,268 inferiores a los que están en desacuerdo con
3 ' 4 ' 5 ( 1) y ''p rt"d "ta"(P37)"X ""ca
(P11); X : "regu!arizar a inmigrantes" (Pi9); Xa: "entrada inmigrantes" P2 ; ''9: ,a I o raels m ' . 10', u' -
dicha aseveración. En este último grupo (el grupo de referencia) es superior el grado de sim-
7
sar con marroqui" (P306); X : "estudios" (P43a); X 12: "ingresos" (PS2); X 1S: "vecino marroqUl (PS06), X14' 10-
11 patía manifestado hacia los nórteafricanos, aun no siendo excesiva en magnitud,
migrante del1ncuente" (P2904).
De las catorce posibles variables predictoras consideradas Xs ("simpatía hacia latinoa-
Debajo de cada correlación y entre paréntesis está la significatividad (unilateral) de ca- mericanos") es la variable más correlacionada con Y (",593). La correlación habida entre am-
da correlación. Como puede observarse, la mayoría de las correlaciones habidas son bastante bas variables es positiva e importante, aunque no perfecta. Las simpatlás mostradas hacia
significativas, al ser p:;; ,05 (la probabilidad de error en la estimación es inferior alS% en la los latinoamericanos y norteafricanos cavarían en la misma dirección. Ambas variables es-
mayoría de las situaciones). La significatividad es muy elevada en todos los coeficientes d~ tán positivamente relacionadas, lo que significa que los aumentos (o disminuciones) en sim-
correlación de cada variable independiente con la dependiente, pero no en todos los coefi- patía hacia los latinoamericanos suelen coincidir, aunque no siempre, con aumentos (o dis-
cientes de correlación entre dos variables independientes. La significatividad es inferior al va- minuciones) igualmente en la simpatía manifestada hacia los norteafricanos. Para que la
lor tomado habitualmente de referencia en las correlaciones entre las variables: X, Y X3 (,075), correlación entre ambas variables fuese perfecta (y la coincidencia de sus valores total en to-
X y X (,098), X y X (,088), X 3 Y X5 (,330), X3 Y X6 (,106), X 3 Y X9 .C160), "X 3 y"X 'O dos los casos) su valor debería aproximarse a 1,0. No obstante, la correlación entre ambas
2 3 2 '2
16) • X3 yX 13 (102) X yX 1 (169) Afecta sobretodo , alavanableflctlclaX 3 (sexo),a variables es importante y puede afirmarse que ésta será la primera variable que formará la
(1, I '10 2'" ,,
su correlación con siete variables (la mitad de las consideradas). La correlaclon con estas va- ecuación de regresión, la que más ayuda a predecir el valor de Y.
riables es, asimismo, muy baja, siendo la más alta de -,035, que corresponde a su c~rrela­ X lO ("casar con marroquf') es la segunda variable en importancia que muestra una
ción con la variable X . Con las otras seis variables las correlaciones son, inclusive, mas ba- mayor correlación con Y, aunque en dirección negativa (-,476). El signo del coeficiente res-
jas. Estas bajas correlaciones significan que apenas existen diferencias entre los varones y ponde a cómo está definida esta variable. El valor más alto (4) corresponde a aquellos que
las mujeres en las variables referidas. afirman que "le preocuparía mucho que un hijo o una hija suya se casara con un ciudadano
76 , . en la
AnálisL'i multivariable. Teoría y pracflca inve~tig(Jción
. social

Capítulo 1: Regresión múltiple


77
, b' 1) a aquellos que declaran que
de Marruecos u otro país norteafricano";. el ~:~~a:~~a :~~~cificación, el signo del coef:cl~~~~ 2
no les preocuparía ','nada': dIcho tmadt~~~~:~'IOS norteafricanos varía inve~Sdamentea~:e~ta la
"Xl' X , X 3 ·" X," las distintas variables predictoras de las que se ha obtenido infor-
1a
Inación en muestra analizada.
~~uso~~~~n d~ ~~r~~~ío;
nde La slmpatla mas ra uí A medl a que
que un hijo o hija se casase con ot;o ciudadano de un país nor- "a": también denominado "bo"· Identifica la constante o el intercepto de la recta de re-
p
preocupaclo"n hac'la un posible matnmonlo . con un de person a s. E' sta es menor entre los que
tupo gresión. Es el punto donde la recta (o el plano) de regresión "intercepta", o
teafricano, desciende la simpatí~ ~~cla ~~"eo~:bastante" que entre aquellos a los que I:~t~r~ sea, Corta el eje y. De ahí su referencia de "intercepto". También se le conoce co-
dicho matrimonio les preocupana . ~uc bas variables es lineal, aunque no perf i mo "constante" porque su valor denota cl valor promedio de Y cuando las va-
ocupana ' "poco" o "nada" . La relaelon entre
d am . den or~
, ta sera' la segunda vanable
decirse que es riables independientes Son nulas; es decir, iguales a cero. Pero, téngase presente
ás correlacionada con Y, cum~I.len. o a su
~ar
artir de la matriz de correlaCiones pue e pre
la ecuación de regresión, al ser la segunda m X La correlación (muy significativa) ha-
que no siempre el valor cuantitativo del intercepto tiene una interpretación directa.
Esto sucede, habitualmente, cuando presenta un valor negativo. Rara vez, en el
vez la condición de estar apenas correla~,o~;~)a ~~~rar~ de dos variables poco ??llne~les't La mundo real, un valor de Y puede ser inferior a O(salarios, calificación académica,
bida entre las variables X10 y X5 es leven d~ reg;esión no restringe la incorporaclon de ~,~~: horas de estudio, por ejemplo). En estas circunstancias de valores de "a" (o
inclusión de una de ellas en la ecuaclo . 'n de variables predictoras a la ecuac o d o
Como se verá posteriormente, la ",corporaclo 'ó ue dicha variable tenga con la e- "b ") negativos, su Cuantía no es directamente interpretable, aunque Continúa sien-
do imprescindible para la predicción de Y.
~:g~~i~~t~,e~~~ ~:~~~~~~al:~e~~~ ~~~ ~a~~~~~ar~{e~~~~e:~:a:;:::;~~~~ ~~~~~~i~'~~: En caso de variables independientes ficticias (véase subapartado 1.1.2), el in-
en la ecuación (por mostrar una mayor co~re a~a n y. _ 396) Y X, (la cuarta, ,3?2), por tercepto (o constante) refleja el valor predicho de la variable dependiente para el
var:~b~:nX~3f~:~!~~:~: :~: ~~~~~i~~,~~areg;eSiÓn, h~b~!:~~~:sq~~e~~s~~:;eci~~~~~~:
con
grupo de referencia. Ello se debe a que todas las variables ficticias Son iguales a ce-

~:~~rr~laciones variabl.~s ec~~~~toc~~~:dO v~riable~:


la ro para el grupo de referencia (O varón, 1 mujer; OSuspenso, 1 aprobado, por ejem-
de estas dos de colinealidad con plo). Su valor se interpreta COmo la frecuencia media de la variable dependiente
como posibles integrantes de la ecu~clon. as variables aun estando muy corre aCiana . para el grupo que se ha codificado O.
en la ecuación dificulta la incorporaclon d~ n~e~ 8 en el análisis de regresión se trata de e~,­ 2
"bl' b ·•· b/ Son los coeficientes de pendiente parcial o de regresi6n parcial. En regre-
con Y. Como se señaló en el subaparta o '.' , la redicción de Y. Para más ",formaclon sión srmple, cuando sólo hay nna variable independiente, su valor representa la
tar la multicolinealidady con ello la red~ndtaeCs,aS:~olv~rá a hacer referencia a esta matnz de
. b rtado En los slgulen ., pendiente de la recta de regresión. En regresión múltiple, con dos o más variables
reléase dicho su
correlaciones paraapa. . ., del modelo de regreslon.
la ",terpretaclon independientes, su valor identifica la pendiente del hiperplano de regresión Con
respecto a su respectiva variable independiente (X ). Separan el efecto de cada va-
riable independiente en la dependiente del resto. &to se debe a que su cuantía ex-
presa e¡ cambio promedio en la variable dependiente asociado a una unidad de
lA. La ecuación de regresión . cambio en X P ' cuando el resto de las variables independientes se mantienen
constantes (esto se conoce como Control estadístico).
.' ,. relación entre la variable dependlente En variables independientes ficticias (con codificaCión binaria O _ 1) el coe-
En el análisis de regresión Imcal mulllple la o una función lineal de las va-
. d
'(Y) y la serie de variables m epen 1 d'entes se
. ,
expresa comla ecuación sigmente
f rma . para i __ ficiente de pendiente en cada una de las variables ficticias estima la diferencia en
.
dables independlentes (X) i ' Dicha funclOn con o el valor de y entre el grupo en cuestión y el grupo de referencia. En variables con
1,2,3".n observaciones muestrales: sólo dos categorías, como sexo, el valor de dicho coeficiente se convierte en la di-
ferencia en las medias entre el primer grupo (el codificado 1) Y el segundo grupo
(el codificado O). Si los "varones" actúan, por ejemplo, Como grupo de referencia
Y;=a+ bX
1 li-'-bX+bX3·+
2' I3 .... " ... +bpXp¡+e¡
21 ,1
(codificado O), el coeficiente "b" asociado a "mujer" (con el código 1) denota la
diferencia en y entre "mnjeres" y "varones". En general, los casos que puntúen
. predeclr
. el valo r de la cas~
Esta ecuación permlte . variable dependiente,
do' de la en cada,nde
serie de vanables Oen cada una de las "g - 1" variables ficticias creadas Se toman como grupo de re-
.
concreto (Y), a partir e d unos.,valores determma
l d endiente. s ferencia, respecto al cual se comparan los coeficientes de regresión de cada una de
pendientes que muestran relaclOn con a ep t al tratarse generalme~te de datos las variables ficticias formadas a partir de una variable cualitativa. Por esta razón
Como dicha predicción es rara vez ex~c a, d' perturbación (e). Estos son, en l
se recomienda seleccionar como grupo de referencia aquel que haga más signifi-
,~ también incluye un termmo e
muestra les, la ecuaCJon cativa la interrelación de los respectivos coeficientes de pendiente.
"
¡

suma, sus componentes: Como los coeficientes de pendiente suelen estimarse de datos muestrales,
siempre habrá una variación en su valor, dependiendo de la muestra que Se 3na-
t
r '
Capítulo 1: Regresión múltiple 79
Análisis multivariable. Teoria y práctica en la investigaci6n social
78

e ef~cto de una v~n~ble predictora


Si el investigador prevé la posibilidad d que 1 .
liceo Esa variación se cuantifica mediante el "error de estimación" o error típico de en Y dependa de los valores de otra variableei
de regresión el efecto de un término d ' nd~~endlente, ha d~ anadlr a la ecuación
los coeficientes de regresión (véase subapartado 1.4.2). guiente, donde "P X X "d t 1 e Int~raccLOn al modelo ongmal, a modo del si-
"e(': el térrcino de error aleatorio que se añade a la ecuación de predicción de Y. El mo- _ 4 2i 3i eno a e térmIno de Interacción.
delo de regresión, en similitud a otros modelos estadísticos, es un modelo pro-
babilístico Y nO determinístico. Rara vez la relación causa-efecto detectada entre
las variables es exacta. Por lo que debe cuantificarse la magnitud del error de pre-
dicción de Y a partir de la serie de variables independientes incorporadas al
modelo predictivo. Las interacciones pueden afec! r á d d .
La denominación "aleatorio" le viene de la convicción de que los errores de- puede haber tantas interacciones ~;:v:r' e os var~ables predictoras. En realidad,
ben seguir un modelo aleatorio. Esto quiere decir que se sitlian, de forma aleatoria, riable dependiente son interactivos ( ~a. es pre lctoras, Sl sus efectos en la va-
bl
alrededor de la recta de regresión, con un valor esperado de cero (E( e,) = O) Yuna anterior indica el cambio en "X" / ~~~, Ilt~OS). El coeflClente "f34" de la ecuación
noS en el modelo L . t ,!, p r 3 ' mlentras se controla por los otros térmi-
varianza constante cr" (subapartado 1.5.2). . a m erpretaclOn de los térrcin s d . t ., .
tan te, al aumentar las interacciones incluidas en 01 e ~n tr~CclOn se ~?mplica, no obs-
A partir de la ecuación de regresión puede predecirse el valor de la variable de- se hace más complejo. Para evitar la com ., e .mo e o ~ regreslOn, que cada vez
pendiente en cada caso concreto (YJ. Para ello se sustituye, en la ecuación, los valores ceder de forma t' . . . . pleJldad mnecesana se recomienda no pro-
ru mana, smo mclurr sólo aq l I ' .
que presenta dicho caSO en cada una de las variables independientes. Estos valores se nificativas. Dos razones principales d t u~ as mteraCClOnes que muestren ser sig-
multiplican por sus respectivos coeficientes de regresión. Se suman todos los produc- apoyan esta recomendación: ' es aca as por Gunst y Mason (1980: 38-39),
tos y se añade el error de predicción, a partir del cual se calculan los intervalos de con-
fianza (como se expone en los subapartados correspondientes). Toda inferencia se rea-

:::~~l;~~~~~;c~oras pue:e .sero::ev:¿~~~n~~1~~~a~~a~~!:;~~~c~~~a;:~:~


liza en términos de probabilidad. "Cualquiera que sea el método utilizado en la a) El número de interacciones p 'bl
contrastación de hipótesis, los resultados nunca son ciertos, sino aproximaciones en tér-
minos de probabilidad" (Goode y Batt, 1952: 87).
La finalidad de la regresión múltiple no es únicamente descriptiva: cuantificar el ~~~~~~j~ ;;o~c~~~;:::~~óne~~~~:~~~~a~~~;:~:i~~=~ ~e~~~a,,:;:~l: ~~~:l~
grado de relación existente entre una serie de variables independientes Y una sola va- sustancial de ajus~~~Sd~~O;ue esto redunde, necesariamente, en una mejora
riable dependiente. Es también inferencia/. De los coeficientes de regresión, estimados
b) Los términos de interacción a vece .t . f .,
en la muestra analizada, se persigue sn generalización al conjunto de población de la
cual se ha extraído la muestra. Ello exige el cnmplimiento de los snpuestos de regre-
va~ables p~edictoras individuales. ~~~~~:~~~d~:~~~~~ p~.10rci°fad~ po; las
de mteraccl6n es demasiado fue e .. u 1 a por os terrnmos
sión resumidos en el apartado 1.1.
Para la población, la ecuación de regresión múltiple se formula igualmente, salvo
que los parámetros de regresión pasan a denominarse con letras del alfabeto griego.
:~~~~~~~i~~~~:~=I;::O~::!~~¡;~~(~~fi~~;dr~~~n~l~I~?:U~~~:.rri::ae;!:~~~~~~
re en a en e subapartado 1.1.8).
~:
Los símbolos "d" (alpha) y "{3"( beta) nombran, respectivamente a la constante (o in-
mados para los otros términos del od l que r~a mente eXlsten, los parámetros esti-
tercepto) Ya los coeficientes de regresión (o de pendiente). Su valor se obtiene a par- Pero, si no se incluyen interacciones 1 .
tir de sus correspondientes estimaciones muestrales, aunque se halla estandarizado (ex-
práctica empleada comúnmente cor;:sist °e pu<~ edn vell se afectados. Para obviarlo, una
e
1 presado en unidades de desviación típica). Todas las variables independientes tienen "- enana rr e producto "X X" en 1 "-
ahora el mismo promedio y cantidad de variación. Sus respectivos coeficientes beta se de regreslOn para representar posibles inter c . (A . . i j ~ ecuaclOn
\. den darse entre dos o más variable ( a ClOnes fliJ y Clark, 1990). Estas pue-
hallan en unidades de desviación típica, y no en la unidad de medición original de la este último caso se comprueba s. lS con muas o entre una continua y una ficticia. En
il variable, lo que facilita la comparación de los coeficientes: el conocimiento de qué va- d" , l a respuesta a un cambio en . bl .
riable afecta más a la predicción de la variable dependiente. Para su estandarización lente continua difiere entre los grupos 1 T d d una vana e mdepen-
No obstante, se insiste en la convenienc' c ~Sl lca <:s e acuerdo con la variable ficticia.
\'!
se divide cada coeficiente b por su desviación típica. "e/' (epsilón) ahora nombra al que muestren ser significativas. la e que solo se incluyan aquellas interacciones
error de estimación. P
. A continuación se detalla cada uno de lo . .,
junto con los procedimientos principal s l~dtegrantes de la ecuaClon de regresión,
es segUJ os en su estlmaclón.
80 Análisú' rn.ultivariab/e. Teodo y práclica en la investigación social
Capítulo J.' Regresión múltiple 81

1.4.1. Estimación de los coeficientes de regresión


ecuación de regresión ("Y), para cada caso concreto (i _ '.
constItnyen los errores de predicción (" .") E . - 1, 2, 3... n). DIchas dIferencias
El procedimiento de estimación de los coeficientes de regresión más aplicado, siem- de la distancia habida entre el pnnto ~' . .X1ste uno para cada punto. Su valor informa
cta
pre que se satisfagan todos los supuestos básicos de regresión, es el método de mínimos feclo de los puntos a la recta o Plano Y a7 o plano. Rara vez se logra un ajuste per-
cuadrados ordinarios (OLS). Este método de estimación fue primeramente enuncia- es que sea lo menor posible que la d¡ft~~ ? tueb~dlempre existe error. Lo que se quiere
do por Legendre en 1805, si bien Gauss lo venía aplicando desde 1795. Su nombre le , cm a 1 a entre ambos valores sea mínima
viene de su propia finalidad: la obtención de una recta que haga mínima la distancia
y
que separa, simultáneamente, a todos los puntos de datos de la recta (o hiperplano en
n y
regresión múltiple). Estos puntos representan la conjunción de los valores de las
distintas variables independientes (X .) COn la dependiente (Y,), en cada caso obser- G o
o G o
vado en el estudio, y se reflejan en uri"gráfico de dispersión. 3 o o
Para la consecución de la recta que "mejor" ajuste a los datos (aquella que haga mí- 2 o
nima la distancia de los puntos respecto de ella) se emplea la suma de los valores cua- 1
drados de las distancias verticales. Más conocido como la suma de los errores cuadrados x
N N
(denotado SSE): SSE = Let = I,(y, - Y,)' 1 2 3 .... n x,
¡",,1 1",,1
a) Regresión simple .
Si los errores no se elevan al cuadrado, las distancias por encima de la recta de re- . b) RegreSIón múltiple
gresión anularían a las que se sitúan por debajo de la recta. Cuanto más se aproximen FIgura 1.9. Representación del principio de mínimos cuadrados ordinarios.
los puntos (de los datos) a la recta, mejor es el ajuste del modelo, al ser mínima la su-
ma de los términos de error al cnadrado. En cambio, cuanto más se distancien los pun- Cuando se comprueban los efectos conjuntos de 4 ' .
tos, peor es el ajuste. dependiente, la representación gráfica del rinci 'io de o :nas vanables predictoras.en la
La representación gráfica de la aplicación del principio de mínimos cuadrados es hace CasI Imposible. La función lI'n 1 p P mmlmos cuadrados ordmanos se
más sencilla en regresión simple (cuando sólo se analiza el efecto de una variable in- como reconoce Tacq (1997' 116) " ea que se estIma .en este caso se 11 ama h'lperplano y
. . ,escapa a nuestra lmagi ,"" P ,
dependiente en la dependiente) que en regresión múltiple (donde un plano sustituye
de "p" variables predictoras se precisaria aju t h' naclOn .. ara d caso general
fICO de "p + 1" dimensiones El . .. s ar un Iperplano p-dunenslonal a un grá-
a la recta de regresión). Conforme aumenta el número de variables predictoras, la re- En . . ' pnnclplO, no obstante, es el mismo
presentación gráfica se complica considerablemente, en relación con el número de va- 1 esumen, mediante la regresión de mm . 'd .
car los valores de los coeficientes de r " lmos cua radas ordinarios se pretende bus-
riables independientes implicadas. Con tres variables independientes, se tiene un . . egreslon (a b b b ) qu '..
1as deSVIaCIones cuadradas de las ob . ' l' 2"" p' e nurunucen la suma de
plano en un espacio tridimensional, debido a que el número de variables indepen- , AservaclOnes "Y" d 1 1 .
dientes eS,tres. La localización de este plano está determinada por los valores de "a, bj> nable dependiente (Y.) En el caso d ' . ' i.' e os va ores predIchos de la va-
, . e una
l ) los valores de los coeficientes "a" y "b"UDIca vanable ¡nd d' ( .,
b2 ·o. bp ". Estos se obtienen mediante la aplicación del método de mínimos cuadrados pe, b. epen lente regreSlOn sim-
se o tIenen de las ecuaciones siguientes:
ordinarios. Es decir, considerando la desviación de cada valor respecto a la media de N
la variable en cuestión. La figura 1.9 ilustra la representación del principio de mínimos
cuadrados ordinarios cuando se analiza una única variable independiente, al ser en es-
L (Xi - X)(Y, - y)
te contexto más visual y fácilmente comprensible. También se incluye la representación b = ~''''"''-ÑN~~~~_ _ = Covarianza dc XY I Varianza de X
cuando son dos las variables independientes consideradas (regresión múltiple). Con más L(X, -X)
¡"'l
de tres variables la representación gráfica se vuelve demasiado compleja y de difícil
comprensión.
Los puntos representan en el gráfico de regresión simple los valores observados de Una vez conocido "b" se procede al cálculo de "a'"
y para cada valor de X en cada caso observado; en el gráfico de regresión múltiple, los
valores observados de Y para cada combinación de valores de las dos variables inde- a = y -bX
pendientcs (Xl y X2 ). De lo que se trata es de buscar una recta (regresión simple) O un
plano (regresión múltiple) que haga mínima la suma de las diferencias, elevadas al Pero, cuando se dispone de dos o más v " bl .
cuadrado, entre los valores observados de Y (en la muestra) y los estimados mediante la las fÓlmulas para la estimación de los coefi . a~a des predlc,toras (regresión múltiple),
tCJen es e regresJOn se complican. Requieren
Capítulo 1: Regresión múltiple 83
82 Análisis multivariable. Teoría y práctica en la investigación social

análisis variables relevantes, A veces incluso la omisión de variables que no sean


la aplicación del álgebra de matrices, Siguiendo la formulación del álgebra de matriz, la
significativas a un detenninado nivel de significación (usualmente p:5 0,05) pue-
ecuación de regresión queda así definida: de ocasionar problemas en la interpretación de los coeficientes de pendiente, cu-
yo valor se ve afectado por la omisión de variables,
Además, téngase presente queJa magnitud de los coeficientes de pendiente tam-
Donde: "Y'" es un vector n-dimensional de la variable dependiente, bién se halla afectada por la unidad de medición de la variable. Lo que limita su
"X*" = (1 X X X X ) contiene una columna de "n" unos y una co- aplicación en la comprobación de la importancia relativa de las diversas variables
, l' 2' 3"" P . bl 'd
lumna de "n" observaciones en cada una de las "p" vana es m e- independientes a la predicción de la dependiente, Ello exige la conversión de las
pendientes, ' variables a una misma unidad de medición, es decir, su estandarización,
"B'" es un vector de p + 1 dimensiones (siendo "p" el número de vanables Por último, añadir que cuando la variable dependiente está expresada en lo-
predictoras) de los parámetros del modelo: a, /31' /32, /3" .. /3p ' garitmos, los coeficientes se interpretan de una forma aproximada, en términos
"E ,,, es un vector de los un" términos de error aleatonos. porcentuales, Nourisis (1986) lo ilustra con el siguiente ejemplo: un coeficiente
de regresión parcial de -,104 para la variable sexo, cuando las mujeres se codi-
En regresión se diferencian los coeficientes de regresión estandarizados (conocidos fican como 1, indica que los salarios (variable dependiente) de las mujeres se es-
" t d
como coeficientes beta) de los no estandarizados (los coe f IClen es e pen d'ente
I
"b")
' tima que sean cerca del 10% menos que el salario c!e los varones, después del
Ambos proporcionan más información que el coeficiente de correlacIón: ajuste estadístico para las otras variables independientes en el análisis.
• El coeficiente de regresión estandarizado (también referido como coeficiente be-
• El coeficiente de correlación ("r") indica el grado de relación line~l existente en- ta) mide la variación en unidades de desviación típica de la variable dependiente
tre dos variables y la dirección de la misma, Si el signo es POSItiVO, las dos va- por cada unidad de variación de la independiente, esta última también expre-
riables covarían en la misma dirección: el aumento de una de ellas provoca el au- sada en unidades de desviación típica, Para e11~cada puntuación "Xi' se trans-
mento de la otra (por ejemplo a más horas de estudio, mejor resultado
académico; o a menos horas de asi~tencia a clase, peor calificación en el ~xamen), . - . Z
f onna en puntuacIOnes llplcas: x, =
(Xi - Xi)
S
,
' al Igual que la variable Y:
El signo negativo significa, por el contrario, que ambas variables covan,an ~n di- x,
recciones opuestas: conforme se incrementa el valor de una de ellas, dlsmmuy,e (y-y)
el valor de la otra (el aumento del número de cajetillas de tabaco fumadas al dia Zy = S ' Después se procede a un nuevo cálculo de la ecuación de re-
y
supone la disminución de la esperanza de vida del fumador, por eJemplo), Su va-
lor expresa el grado de covariación entre ambas variables, En el subapartado gresión, pero sin el intercepto (o constante). Las puntuaciones Z snponen des-
viaciones respecto de la media, lo que implica su traducción al origen.
1.3.2 figuran las fónnulas aplicadas para su obtención" ,
• El coeficiente de pendiente "b" (en regresión simple, de pen?lente de la recta, Los coeficientes beta se obtienen del producto de cada coeficiente "b" por el ca-
en regresión múltiple de pendiente del hiperplano de regresión con respecto ~ dente entre la desviación típica de la variable independiente y la desviación típica
'- S
, . - . f mac!'ón que el coefl-
las "p" variables independientes) proporcIOna mas m or
ciente anterior. Indica cuánto varía la variable dependiente cuando la mde-
, de la variable dependiente: /3y,x, = by,x, ty
pendiente cambia en una unidad, controlándose, a su vez, el efect~ de l~~ de- En regresión simPle, el valor del coeficiente beta coincide con el coeficien-
más variables independientes. Por lo que, muestra ser de espeCial utlltdad te de correlación correspondiente (la relación entre las dos variables). En re-
para comprobar el impacto de una variable independiente e:, la depe?dlente Y gresión múltiple, no. Su valor se ve afeclado por la correlación existente entre la
sus variaciones en las diferentes muestras, Esto último mediante el calculo del variable independiente re~pectiva con las demás predictoras incluidas en la
error de estimación de cada coeficiente "b" . .' l ecuaCIón. !

A este coefi.ciente también se le conoce como coeficiente de regresIón parct,a ' A diferencia de los coeficientes "b", los beta no deben ser mayores de 1, por-
Ello se debe a que su valor se ve afectado por la composición de las vanables m- que son coeficientes estandarizados (con media cero y desviación típica uno), Si,
cluidas en el análisis exactamente por las posibles interrelaCIOnes que eXistan alguna vez, se obtiene un coeficiente beta superior a 1, puede tomarse comO in-
, '. . e aJ"usta en fun- dicio de la existencia de una importante colinealidad entre las variables,
entre ellas, El coeficiente para una vanable concreta slempr~ s . ._
ción de las otras variables incluidas en la ecuación de regreslOn. La mcluslOn o Por último, insistir en que los coeficientes beta nO se utilizan para predecir
exclusión de una de ellas suele conllevar una alteración en el valor de los coe- el valor de la variable dependiente, sino para comparar e inferir la importancia
ficientes de las variables en la ecuación. De ahí la importancia de incluir en el relativa de cada variable independiente en el modelo de regresión. La eSlan-
84 Análisis multivariable. Teoría y prácfica en la ínvestigación social
Capítulo 1: Regresión múltiple 85
darización permite la comparabilidad directa de los distintos coeficientes de re-
diante el error típico ("standard error") u e . .
gresión, puede conocerse qué variable predice más el valor de la dependiente. las estImaciones de los coeficientes a ' ~. dco~stltuye Una medIda de la variabilidad de
Además, su valor también está afectado por la correlación existente entre las va- El err~r típico del coeficiente d~ r~:re~~óI~ ,,~,I,nformación extraída de una ,:,uestra.
riables independientes en la ecuación, por lo qne proporcionan una información la estlJl1aCIÓn del valor del coefI·cI·ent d (SEB) se defme como la vanación en
más veraz del poder predictivo de cada variable independiente que el coeficiente e e una a otra m t (d .
que pertenczcan a la misma población p . ues ra e Iguales características)
de correlación y el de pendiente. de los coeficientes y equivale a la dI·st· ·berm'.te dconocer la dIvergencia en las estimaciones
·ó n UClOn elasesf ·'d ..
La importancia relativa de cada variable independiente puede igualmente com- gn:!~l n que resultaría, si se extrajesen re etidame lITlaClOnes el coefiCIente de re-
probarse contrastando la variación, o incremento, del valor de R2, que provoca la in- mano, de nna misma población y para: d nte muestras, de un determinado ta-
corporación de dicha variable a la ecuación. Para ello se resta el valor de R 2 obtenido tras gresión. Como estos coeficien'tes e ~a a ~na de ellas, se calculase el coeficiente de re-
la incorporación de la variable del habido previo a la inclusión: es decir, R2 - Re_i)' sien- correspondientes valores poblacional s Im a os e muestras aleatorias varían de sus
. f
E st a In ., es, e l error rrude preclsam t '1
do "Re_!)" el cuadrado del coeficiente de correlación múltiple, cuando todas las variables onnaClOn es imprescind·bl f " ' en e, cua es esa variación
1 e a e ectos mferencial (d I .. .
exceptuando ("i") se incorporan a la ecuación. La cantidad de cambio en el valor de R2 en Una muestra a sus correspondi t á es . e os COefICIentes estimados
se interpreta como la proporción de información única aportada por la variable inde- El cálenlo del error típico de ~~ ces p~~ metros poblaclOnales).
gniente fórmula: oefIclente concreto (Sb,) se realiza mediante la si-
pendiente correspondiente en la predicción dc la variable dependiente.
La raíz cuadrada del aumento se conoce como el coeficiente de correlación parcial.
Se define como la correlación existente entre una variable independiente y la variable
dependiente cuando los efectos de las otras variables independientes se mantienen
constantes. En caso de no existir correlación entre las variables independientes, el cam-
bio en R2, cuando se introduce una nueva variable en la ecuación, es el cuadrado del
coeficiente de correlación entre esa variable y la dependiente.
Si el coeficiente de correlación parcial de una vaJiable se eleva al cuadrado, se obtiene Donde" "N" ( " ")
cuánto supondría su incorporación al modelo de regresión en la proporción de va- " " " o "n es el tamaño de la muestra.
rianza explicada de Y (R2 ). Concretamente, su valor expresa la proporción de la varianza
no explicada que puede quedar explicada, si se incorpora la variable a la ecuación. Por
,,~, ~~ ~~:e~:~i~~ :~i~~::~~:~:;~~~i:~~¡, en la ecuació~.
das las otras variables I·nde d. da de la regresIón de Xi en to-
ejemplo, si R 2 = ,43 (que supone que queda un 57% de la varianza de Y sin explicar por pen lentes.
las variables en la ecnación), un coeficiente de correlación parcial en una nueva variable Cuanto más bajo Sea su valor me·or l · .,
de ,524 no significa que dicha variahle explique el 52,4% de la varianza que previamente riación habrá en mnestras dI·stI·n't J es a e~tnnaCJ.on del coeficiente "b": menos va-
no ha quedado explicada. Si se eleva al cuadrado (,5242 = ,275) se obtiene que el . as d e nna n1lsma bl . , L
vlamente, en su significatividad estadística L bt P,o aClOn. O que repercute, ob-
27,5% del 57% de la varianza de Y no explicada pnede quedar explicada si se incorpo- le ser, a decir de su fórmula, consecuen : ; o enClon de errores típicos elevados sue-
ra esa nueva variable a la ecuación. Sn inclusión a la ecuación snpone un aumento en por- CIa e uno o vanos de los aspectos siguientes:
centaje de varianza explicada de Y (R2) del 15,7%. Esta cantidad se obtiene de m.un- a) Elevados errores de predicción de la variable .
plicar la proporción de varianza no explicada de Y por el cuadrado del coeficiente de b) Elevada varianza de la v . bl . d . dependIente.
E ana e l!1 ependlente
correlación parcial de la variable: (1- ,43) x ,275 = ,157. c) . levad~ correlación de la variable inde endie . .
Pero, únicamente se considera la incorporación (por muy pequeña que sea) de va- nable~ l!1dependientes (mUlticolinealiXad) nte correspondIente con otras va-
riables cuyo coeficiente de correlación parcial sea significativo estadísticamente. Su d) Tar:rano muestral bajo. Cuando no se cum . le .,
significatividad se mide mediante el estadístico "t" de Student, explicado en el su- vanables predictoras a los qne se h·z p. n los ratros nnmero de casos por
bapartado 1.4.3. e) Elevada correlación de la variable I,~ men~6n en el subapartado 1.1.1.
delo. m epen Icnte con otras excluidas del mo-
1.4.2. El errOr típico de los coeficientes y los intervalos de confianza Apartir de error típico pueden cale 1 .
coefIcIente de regresión que haya mostr: arse l~s mte~valos de confianza para cada
En la evaluación de la importancia relativa de las variables independientes también ha ra ello Se multiplica el error por el v 1 t. ~o se. '.lgnif¡wllvo (su.bapartado 1.43) Pa-
de considerarse la varmbilidad de los coeficientes de regresión estimados. Ésta se mide me' d . a or eonco de "t" d S . .
os de hbertad (siendo "p" el númer d . e . tudent, con "N - p - 1" gra-
o e vana bies predlctoras en la ecuación de re-
86 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 1: Regresión múltiple 87

gresión), al nivel de probabilidad elegido. El nivel de significación más habitual es el procedimiento de selección, las posibilidades de generalización de los hallazgos del
"a = ,05". Adviértase que la distribución "t" se asemeja a la distribución normal estudlO. Para eIJo es Im~erativo q~e en la selección de la muestra se siga un procedi-
cuanto más se aleja el tamaño muestral de 30 unidades. . ffiI~nto aleatono, que de a cada umdad de la población la misma probabilidad de par-
Los intervalos de confianza para cada coeficiente de pendiente b se obtienen del mo- ticipar ~m la muestra. El azar permite la equiparación de la muestra a la población, la
do siguiente: mcluslOn de toda la variedad de sus componentes.
Respecto a la significatividad estadística, rutinariamente se procede a su com-
probación en todo estadístico calculado con datos muestrales. Para ello se hace uso de
Intervalo de confianza = b ± (t)(SEB)
los supuestos de la Estadística Inferencial: la prueba de hipótesis y la estimación
de los parámetros poblacionales. En concreto, la evaluación de la significatividad de los
Donde "t" es el percentillOO (1-012) de la distribución "t", con "N - P -1" grados coeficientes de pendiente (b,) comienza con la definición de una hipótesis nula (Ha)' so-
de libertad. El límite inferior del intervalo viene dado por la diferencia del coeficiente bre un valor del parámetro poblacional (f3,). En la generalidad de las situaciones la hi-
estimado respecto al producto del valor "t" crítico y el error de estimación del coefi- pótesis n~l~ se f~rmula en los siguientes términos: Ha; f3i = O. De aceptarse, supondría
ciente. El límite snperior, en cambio, queda definido por la suma de dicho producto y la no slgmücatrvldad estadística del coeficiente estimado, dado que el valor de dicho
el coeficiente de regresión. Para la constante, el intervalo de confianza se calcula del coeficiente siempre difiere de cero.
mismo modo y con los mismos grados de libertad: L,a hipótesis nula se contrasta con la ~ip6tesis alternativa de que coeficiente de re-
greSlOn es diferente de cero (HI ; f3i '" O). Esta es la hipótesis que el investigador espera
Intervalo de confianza = a ± (t)(SEA) corroborar con sus datos. Supone la significatividad estadística de los coeficientes es-
timados, que siempre serán diferentes de cero, lo que significa que la variable inde-
El cálculo de los intervalos de confianza es preciso a efectos inferenciales. A par- pendient~ respectiva se halla linealmente relacionada con la dependiente. En cambio,
tir de la estimación muestral de los coeficientes de regresión, el intervalo de confian- un f3 = Omdlca la mdependenCla de ambas variables: el valor medio de la variable de-
za. proporciona el rango de valores entre los que se halla dicho coeficiente en la po- pendiente no cambia conforme lo hace la independiente.
blación. La inferencia se realiza a un nivel de significatividad determinado: el más usual ~I contraste de hipótesis siempre se realiza a un nivel de significaci6n que el in-
("a = ,05") supone una probabilidad de acierto del 95% de que el parámetro pobla- vesllgador escoge. El más aplicado (" a = ,05") supone una probabilidad de acierto del
cional esté incluido en el intervalo estimado. 95% o, lo que es igual, una probabilidad máxima del 5% de equivocarse al rechazar la
Ha' cuando ésta reahnente es cierta. Otro nivel de significaci6n muy usnal es "a = ,01",
que conlleva una menor probabilidad de equivocación. Se reduce al! %. Pese a ello es-
1.4.3. La significatividad de los coeficientes de regresión te último nivel de significación es menos aplicado que el anterior, al ser más restrictivo.
Ex~ge un valor "t" ~mpírico superior para que el coeficiente estimado resulte signifi-
La contribución de cada variable independiente al modelo de regresión se evalúa, cativo a una probabilidad de acierto del 99%. Esto puede provocar la desestimación co-
primero, comprobando la significatividad estadística de cada coeficiente de reg:~sión mo significativos, de coeficientes que se encuentren entre ambos niveles de significa~ión.
parcial por separado. El análisis de regresión se asienta en la teoría de la probabilidad, Por ejemplo, para 60 grados de hbertad, a un nivel de significación a = 05 el valor "t"
en las posibilidades de inferencia de los estadísticos calculados en una muestra a los co- te6rico es 2,000; para un a = ,01 el valor "t" te6rico aumenta a 2,660, lo 'qu~ supone un
rrespondientes parámetros poblacionales, lo que se refleja en la desestimación de cual- mcremento apreCiable en el valor mínimo para que la "t" empírica (la obtenida en la
quier resultado que no satisfaga el requisito de la significatividad. . . ,?uestra analizada) sea significativa, y pueda inferirse a la población el coeficiente es-
Por razones de coste económico y temporal, fundamentahnente, el mvestlgador ra- tunado correspondiente. Como lo habitual es que el tamaño muestral supere los 100 ca-
ra vez recibe información de cada una de las unidades (personas, familias, viviendas, sos como mínimo, la distribución "t" se aproxima a la nonnal ("z"), coincidiendo sus res-
organizaciones... ) que forman la población objeto de estndio, aunque é~ta fuese de pe- pectivos valores teóricos. Para un a= ,05 el valor "t" teórico es 1,96; para un a~ ,01, el
queñas dimensiones. La práctica común es extraer una muestra del ~Jllv~rso o pobla- valor "t" se eleva a 2,576.
ción de interés. Pero, si a partir de las estimaciones muestrales se qUIere mfenr los co- , La prueba de significación estadística consiste en comprobar si el valor "t" empí-
rrespondientes parámetros poblacionales, la muestra ha de ser "representativa" de ..la neo se ubica dentro de la Zona de aceptación de Ho' Esta zona queda definida por el
población. Dicha "representatividad" está subordUlada, esenCialmente, al tamano correspondiente valor "t" teórico o critico, que figura en la tabla de la distlibución "t" de
de la muestra y al proéedimiento seglúdo en la selección de las unidades muestrales. Student, para una prueb~, bilateral (al incluirse tanto valores positivos como negati-
El tamaño de la muestra determina la probabilidad de tener estadísticos significativos, vos), al mvel de slgm(¡caclOn elegido y para unos grados de libertad igual a "N - p _ 1".

I
Capítul.o 1: Regresión. múltiple 89
Análisis multivariable. Teoría y prácrica en la invesrigación sodal
88

dI' ótesis se obtiene de la división [marroquíes, etc,]"), sólo 6 muestran poder predictivo significativo, Especialmente, las va-
El valor "e empírico, necesarlo para el contraste e l1P , riables X5 ("simpatía hacia latinoamericanos") y X'0 ("casar con marroqur'), que son las dos
de cada coeficiente por sU error: variables que más varianza de Y logran explicar, La tabla A incluye los coeficientes estan-
darizados y no estandarizados de las variables que conforman el modelo de regresión, jun-
b - f3, to a su significatividad,
t. = --'--
I Sb¡
Tabla A
" t de pendiente o de regresión
, es el valor estimado del cae flClen e
Donde: "b:'
Modelo de regresión
Coeficientes no Coeficientes
Sigo
Intervalo de confianza
estandarizados estandarizados T para B a/95%
parciaL , I oblación bajo la
"f3" el correspondiente coeficiente de pendiente en a P ,
B Error Beta Límite Límite
, hipótesis nula formulada: HO:,f3i,~ O, típico inferior superior
"S" el error tíPICO estImado de b¡ .
b,
--- 1 - - - --
(Constante) 3,786 .400 9,458 ,000 3,001 4,571
, ji' .' 1 ~ n "t" para cada coeficiente b Xs simpatía latinoamericano ,558 ,026 ,460 21,429 ,000 ,507 ,610
Cuando la variable indepe~dlente, es lCllc;a, a ~az~ 1grupo codificado 1 Y la me-
F

XlO casar con marroquí -,698 ,068 -,258 -10,281 ,000 -,832 -,565
equivale a la razón "t" para la dlferencla entre a me ~~ a : modo de grupo de controL Xl leyes inmigración ,261 ,058 ,099 4,527 ,000 ,148 ,374
dia del "grupo de referencia" (codifIcado O), que ac u d I ' 'n "t" junto al coefi- X6 número de inmigrantes -,356 ,095 -,082 -3,751 ,000 -,543 -,170
En la salida de ordenador suele figurar los valor,es e a lazo '¡ S ,,< 05" X'3 vecino marroquí -,348 ,101 -,086 -3,443 ,001 -,546 -,150
, ' I d ' 'ficación Este ultimo ha de ser, a meno -, X3 sexo -,265 ,110 -,049 -2,414 ,016 -,481 -,050
ciente de regresión. y su mve e Slgm, " f 'ble el correspondiente coeficiente
. 'f . 1 "t" mpínca y sea III en
para que sea slgm lcatlV~ a , e d 1 '1 lo de los intervalos de confianza
de regresión. En caso aflfmatlvo, se proce e a ca eu Primero figuran los coeficientes no estandarizados. Con ellos se confecciona la ecuación
a modo de lo expuesto en el subapartado 1.4,2, ,, ede com robarse me- de regresión, que permite predecir el valor de la variable dependiente (en cada caso concreto)
La significatividad del intercepto (o constante) tamdblen P~'ente U;hipótesis nu- en función de unos valores concretos en las variables independientes que han mostrado re-
. " " dI' modo que el coefICIente e pen 1 . levancia en la predicción de Y. La ecuación de regresión es la siguiente:
dmnte la razón t , e mismo" ' d ia' el valor del intercepto en la
la se formula, igualmente, en termmos de mdepen ene : lo contradice, La "t"
oblación es igual a cero (Ho: a = O); frente a la alternallva que , ' 'n (S ), y = 3,786 + ,558X 5 - ,698X lO + ,261X, - ,356X6 - ,348X'3 - ,265X3
~mpírica se obtiene del cociente entre el intercepto Y su error de esllmaClO a'
• 3,786 es la constante o intercepto: el punto del hiperplano que intercepta el eje y, Su
a-a valor denota el valor promedio de Y cuando el valor de las variables independientes es ce-
t=-- rO, A veces, el valor de la constante no tiene interpretación directa, Sobre todo, cuando el va-
S, lor es negativo, En esta ecuación, la constante tiene un valor positivo y podría interpretarse.
En una escala de O (nínguna simpatía) a 10 (mucha simpatía), 3,786 es la simpatía prome-
, , d' t lo paquetes estadísticos no
Pero, a difer~ncia ?e los cO~:lclentes dea~=n r~;b=' de ~iPótesis del intercepto es-
dio hacia los norteafricanos (marroquíes .. ,), cuando el encuestado manifiesta que no siente
ninguna simpatía hacía los latinoamericanos (Xs); no le preocupa que un hijo o hija suyo se
siempre proporcIOnan mformaclOn refenda p d d d l tadl'stl'ca "t" equivale case con un ciudadano de Marruecos (u otro país norteafricano) (X lO); piensa que las leyes
'1' ' d' a que el cua ra o e es
timado en la muestra, Por u timo, se Jll ~~ 'd d l'b rtad lo que permite su uso al- que regulan la entrada y permanencia de extranjeros en España son demasiado tolerantes
al estadístico "F", con "p" y "N - P - 1 gIa os e 1 e ,
(X,); le parece que son pocas las personas procedentes de otros países que viven en España
ternativo para dicho contraste de hipótesis, (X6 ); no le preocupa tener como vecinos a una familia de ciudadanos de Marruecos u otro
país norleafricano (X ,3); y es mujer (X3 ),
• Los coeficientes de pendiente parcial (que separan el efecto de cada variable inde-
EJEMPLO DEECUACIÓN DE REGRESiÓN MÚL TIPLE pendiente en la dependiente del resto) expresan el cambio promedio en la variable depen-
diente para cada unidad de cambio en la variable dependiente respectiva, manteniéndose las
, ' ' ( or" asas") de selección de variables pre- demás variables independientes constantes, El valor promedio de Y aumenta cuando las va-
Tras realizar un procedImiento secuenCial o p P bt' el s'lguiente modelo de regre- riables X5 y X, se incrementan en una unidad, Ambas variables se hallan positivamente re-
, I b parlado 1 6 1 se o lene
dictaras, que se describe en e su a d D ' l' , 14 variables que in'lcialmente se creía pa- lacionadas con la variable dependiente, El aumento en una unidad en la escala de Oa 10 de
sión, a partir de !as vanables cons!der~ as. de as " t ("simpatía hacia los norteafricanos
drían ayudar a la predicción de la vanable epen dlen e
90 Análisis multivariable. Teorla y práctica en la investigación social
Capitulo 1: Regresión múltiple 91
"simpatía hacia latinoamericanos" provoca, a su vez, un aumento, aunque en menor cuantía, dida de la adecuación del modelo de re r . . " ..
en la "simpatía hacia los norteafricanos". El incremento es de ,558. El valor promedio de Y ximen los valores de Y observados e T eSlon en la predlcclon de Y. Cuanto más se apro-
también aumenta, aunque en una cantidad inferior (,261), conforme las leyes que regulan la gresión, menor es el error de prediCCión ~ muestra con los estimados por el modelo de re-
entrada y permanencia de extranjeros en España pasan a percibirse como "duras" o "into- timación del valor promedio de Y C n, o que se traduce en una mayor precisión en la es-
lerantes". Recuérdese que los valores de esta variable van de 1 (demasiado tolerantes) a 5 típico de la estimación en este mOd~lo ~~~e~e v~ra e?1 el susodicho subapartado, el error
(demasiado duras). magnitud, que no significa necesariamente" ~eslon mu tlp le es 1,9595. Un valor pequeño en
El valor promedio de Y disminuye, en cambio, conforme aumentan los valores de las va- ber si el error es elevado o bajo hay q q re el error de predICCIón sea pequeño. Para sa-
riables X,0 , X6 , X Y X3 " Estas cuatro variables están negativamente relacion¡¡.das con Y. La detalla en dicho subapartado Aquí s'l ue ana Izarlo respecto a la variabilidad de Y, como se
'3
simpatía hacia los norteafricanos (Y) disminuye, situándose por debajo de su valor promedio el error de predicción es eleVada a ~~~i~ a~~~za que, aunque la cuantía de error sea 1,9595,
(3,786, obtenido cuando las independientes son cero), al aumentar dichas variables en De acuerdo con el modelo obtenido p a amplitud dellnt?rvalo en la predicción de Y.
una unidad. La disminución en el valor de Y es de ,698, conforme aumenta la preocupación hay un 5% de probabilidad de e Uiv~:a~~~ un nlv~1 de slgnlflcaclon de ,05 (que significa que
por un futuro casamiento con un marroquí (X lO), manteniéndose las demás variables cons- de acierto es del 95%), la "simp~tía hacia ~:n la Infer~ncla~: Jo que es igual, la probabilidad
tantes; de ,358, al aumentar la percepción sobre el número de inmigrantes como demasia- caracterlsticas señaladas es un valor com n~.~eafncanos de una persona que reúna las
dos (X6 ); de ,348, si aumenta la preocupación por tener como vecinos a una familia de ciu- Este intervalo es demasiado am lio e indi~:en loen el Intervalo que va de 0,519 a 8,201.
dadanos de Marruecos (Xd; y de ,265, si el individuo es varón. sido perfecto. La correspondenéfa entre lo q~e el aJ~ste de los puntos al hiperplano no ha
Comparando estos coeficientes de regresión parcial con los coeficientes de correlación alcanza en algo más de la mitad de lo s va ores o servados de Y y los estimados no se
de cada una de las variables independientes con Y (matriz de correlaciones: subapartado lo de confianza se ha obtenido restan: c~~os, como ~e verá en el apartado 1.5. El interva-
1.3.2), puede observarse que los signos de ambos coeficientes coinciden, pero no su valor. lar de Y estimado (Y = 4 36) el rod t o ~ '~'te su~enor) Y sumando (límite superior) al va-
Los coeficientes de correlación se calculan para cada variable por separado, mientras que los teórico de t para el nivel de sig~fiCa~~~ e~c~n~r t('P~~O) de la estimación (1,9595) Y el valor
coeficientes de regresión parcial para cada variable se ven afectados por la relación de dicha dientes (N - P - 1). Como el tamaño m st gl o, Y sus grados de libertad correspon-
variable con las demás incluidas en la ecuación de regresión. xima a la distribución normal siendo ~~ v rall es tm~y. elevado, la distribución t de Student Se apro-
El cálculo de la ecuación de regresión cumple una finalidad eminentemente predictiva. , a or t eonco correspondiente 1,96.
Se quiere predecir el valor de la variable dependiente en función de qué valores se presen-
___ 0,519
ten en una serie de variables independientes. Por ejemplo, una persona que reúna las ca-
4,36 ±(1 ,96)(1 ,9595): ----
racterísticas siguientes:
--------- 8,201
Manifieste una simpatía hacia los latinoamericanos (X5 ) de 7 en una escala de O ("nin- • Además de los coeficientes de regresión I
guna simpatía") a 10 ("mucha simpatía"). res típicos de cada uno de los coeficient ' en a tabla A de r~sultados figuran los erro-
Le preocupa "bastante" (3) que un hijo o hija suya se case con un ciudadano de Ma- presan la variabilidad de dichos coeficien~s n? estandarizados eslimados. Estos errores ex-
rruecos u otro país norteafricano (X ,0). muestras del mismo tamaño extraídas de~~ ~i en vez de é~.ta, se hubiesen analizados otras
- Considera que las leyes que regulan la entrada y permanencia de extranjeros en Es- muy elevado (bastante superior a los ra . •sma pObla?,on. Como el tamaño muestral es
paña (X,) son "correctas" (3). variables incluidas en la ecuación baja lif~ ml~'mos eXlgld?s), y la multicolinealidad de las
Piensa que son "bastante, pero no demasiados" (2) las personas de otros países que res típicos de Jos coeficientes de regre~a. Igua que sus varianzas, es de prever bajos erro-
viven en España (X6 ). A d'f . Ion.
I erenCla del error de estimación de Y I ' .
Le preocupa "bastante" (3) tener como vecino a una familia de ciudadanos de Ma- jos, a excepción del correspondiente a la 't os errores tlPlcosde los coeficientes son ba-
rruecos u otro país norteafricano (Xd. ca variabilidad en los coeficientes estima~~~s ~~t~ (que es .el más eleVado: ,400). Existe po-
- Es varón (1) (X3). el que presenta un menor error típico ( 026) ; b (g~5~0~flclentes de pendiente, b5 (,558) es
un intervalo de confianza más amplio ~ f t 3 d. e m~yor (,110), lo que se traduce en
Para una persona con estas características puede predecirse que su "simpatía hacia los • Las POSibilidades de inferencia de~ ec os "e inferenCia estadística.
norteafricanos" es: de su significatividad. Como se dro e I os coefiCientes estimados en la muestra depende
cientes de regresión se comprueb~ m~d7a~~b:i~rtado 1.4.3, la ~,gnificatividad de los coefi-
Y= 3,786 + (,558)(7) + (-,698)(3) + (,261)(3) + (-,356)(2) + (-,348)(3) + (-,265)(1) 4,36 paran los valores t empíricos con la t teóri 0 ~~traste de hlpotesls t de Student. Se com-
un nivel de significación determinado Lo ca t Cmlca) para "N - P - 1" grados de libertad, a
ficiente por su error típico. Por ejemplo' pa~ v~ or;1 t empfncos se obtienen de dividir el coe-
Pero, como los coeficientes de regresión son estimaciones a partir de datos muestrales, s
la predicción de Y ("simpatía hacia norteafricano'') nunca puede ser exacta. Hay que añadir tanteo 3,786/,400 = 9,46. , a 13' = -,348 / ,101 = -3,44"; igual para la cons-
el error de predicción (o error típico de la estimación a partir de las variables independientes Como todos los valores t empíricos su . '
incorporadas al modelo predictivo). Éste, como se expone en el subapartado 1.5.2, es una me- nivel de significación de 05) se rech fe~an :1 correspondiente valor / crítico (1 ,96, para un
" aza a Ipotesls nula. Esto significa que todos los coefi-
92 Análisis multivariahle. Teoría y prtÍdica &11 la investigación social
Capitulo]: Regresión múltiple 93

cientes son significativos estadísticamente y, en consecuencia, inferibles a la población a la que


pertenece la muestra analizada. En la tabla A puede verse que la significatividad es plena. Sal-
vo en la variable "sexo" (que es significativa a un nivel de ,05), los demás coeficientes f incluyendo
la constante, lo son a un nivel de ,01: la t empírica supera el valor teórico para (J. =,01 (2,576).
Al ser todos los coeficientes significativos, se calculan los intervalos de confianza. En la
tabla A figuran los límites inferiores y superiores del intervalo de confianza para la inferencia
de cada coeficiente a un nivel de confianza del 95%, que equivale a un nivel de significación Tabla B
o probabilidad de equivocarnos en la inferencia (de rechazar la hipótesis nula cuando real- -_o
Variables r
mente es cierta) del 5%. Por ejemplo, para la variable X5 , hay un 95% de probabilidad de que f3 r xf3
su coeficiente de regresión parcial en la población sea un valor comprendido en el intervalo X5 ,593 ,460 ,2728
que va de ,507 (,558 - [1 ,96J[,026]) a ,610 (,558 + [1 ,96J[,026]). La estimación muestral es, X,o -,476 -,258 ,1228
exactamente, ,558. En consecuencia, el intervalo no es muy amplio. En las otras variables las X, ,302 ,099 ,0299
oscilaciones son mayores. X6 -,297 -,082 ,0243
° Los coeficientes de regresión parciales (no estandarizados) son de utilidad en la pre- X'3 '-,396 -,086 ,0341
dicción del valor promedio de Y. Si quiere conocerse la importancia relativa de cada variable X3 -,050 -,049 ,0025
independiente en la predicción de Y hay que acudir a coeficientes estandarizados o coefi-
cientes beta. Los coeficientes no estandarizados se ven afectados por la unidad de medición
de la variable, lo que dificulta la comparación entre ellos. Para ello hay que proceder a su es- 48,64% es el porcentaje de varianza de Y que lo r r
tandarización, multiplicando cada coeficiente de pendiente ("b") por el cociente de la desviación tegrado pordestas seis variables independientes. X5 e~ ~ ~~i~~~~~~:p~e~~i~~t~eqg~~S~~yi~;
típica de la variable independiente y la desviación típica de la variable dependiente. Por ejem- proporclon e vananza explica (27 28%) seguida or X (12 o '
predictoras explican el 39 560/ di' .' P 'o ,28 Yo). Solo estas dos variables
plo, para X5 el coeficiente beta ("¡J') es igual a: ",558 - 2,247812,7276 = ,460". Las desviaciones . • ." o e a vananza de Y. Las cuatro vana bies restantes apenas con-
típicas de todas las variables analizadas se incluyen en el subapartado 1.3.2.
Los coeficientes beta se calculan para todas las variables independientes, pero no para la.
:~~~r:~:~~: ~~~~;f~;~~ ~:x~ii:~3e~~:: 1t~c~~al:~~~~~~~e~~c~)raXen limportancia , pero a dis-
2 99°1< La var bl" " (X ) , "a cuarta, a l explicar el
constante porque las puntuaciones Z suponen desviaciones respecto de la media, lo que im-
plica su traducción al origen. Su valor se ve afectado, al igual que los coeficientes no estan-
ni un ;.% de S~ava~ia~~~~ad (~x:~t~:!n~! r::';;'~~~t~Ja predicción de Y: no logra explicar
?ión en los varones a manifestar una men~r S¡~ atí; ha~i~¡~e eXista ~na mayor predisposi-
darizados ("b"), por la correlación existente entre la variable independiente correspondiente y
las demás independientes en la ecuación. Pero, al estar todos los valores expresados en la mis- Jeres, el conocimiento de la variable "sexo" ape~as es de util~~~rteaf"can~s que en las mu-
ma unidad de medición (unidades de desviación típica), permiten la comparación entre ellos y
conocer qué variable independiente contribuye más a la predicción de Y. Ésta es su utilidad prin-
~~:;:~\:~~r":i~:C~~~i~~~:~~~~~ni~~;~~~ó~f:~e~~~~~~~og~~~~g~eO~~:S¡i~a;~~i:bl::'~~~c~~
• Al ser I f.' . , slon.
cipal (la "comparación" de los efectos de cada variable predictora) y no la predicción de Y. inde endientZ~ coe ¡c¡entes ?eta los ~ue mejor representan la contribución de cada variable
A diferencia de los coeficientes "b", los "¡J' han de tener un valor entre O y ±1. Todo valor su-
perior a 1 indica la existencia de mu/ticolinealidad. El mayor coeficiente f3 corresponde a X5
en I;rep;esenta~¿~ ~~:~~~~~ ~~~~I~S~~Sr!~~~~~n~~~i~~~t:o~~~ normalmente se utilizan
(,460). Precisamente, ésta es la variable independiente más correlacionada con Y (r = ,593). Le nlngun termino de interacción, su-representación gráfica es la Si9u~~~~e~0 no se ha Incluido
sigue en importancia X10 (-,258), la segunda más correlacionada con Y (r = -,476). X3 es, en
cambio, la variable de menor coeficiente f3 (-,049) y, a su vez, la menos correlacionada con Simpatía hacia
y (r = -,050). Estas correlaciones figuran en la matriz de correlaciones (subapartado 1.3.2). latinoamericanos
Pero, aunque en estas tres variables la correspondencia entre los coeficientes f3 y los de ,460
correlación sea cierta, no lo es en todas las variables. X'3 es la cuarta variable independiente Casarse con marroquí
con mayor coeficiente f3 (-,086), pero la tercera más correlacionada con Y (r = -,396). De la -,258
comparación de los coeficientes f3 con los coeficientes de correlación (en la matriz de co-
rrelaciones), puede concluirse que la correlación bivariada con la variable dependiente no de-
Leyes de inmigración I ,099 Simpatía hacia
norteafricano
termina la inclusión de la variable independiente en la ecuación de regresión. La variable X3
("sexo"), por ejemplo, es de las 14 variables la menos correlacionada con Y, si bien logra ser
incluida en la ecuación de regresión. En cambio, variables más correlacionadas con Y, como
N. o de inmigrantes
~ -,086
-,04
Vecino marroquí
X7 (r = ,281) o X. (r = -,294) han quedado excluidas del modelo. La explicación a su exclu-
sión está en la correlación que estas variables tienen con variables previamente incluidas en
la ecuación de regresión, al mostrar mayor poder predictivo de Y.
Capítulo 1: Regresión múltiple 95
'eOrl'a y práctica en la investigación social
94 Análisis multivaria ble. 7

, ' ' lizadas han quedada excluidas del modelo mero, con la ayuda de gráficos, en los cuales se trata de comprobar lo bien que la nu-
o Las otras ocho vanables Independientes ana f"
, ' d Has presenta un cae IClen
te de regresión significativo, como
de regresion, Ninguna e e , " "d d d los coeficientes supera el valor de re eren-
f \ be de puntos se "ajusta" a la recta o plano de regresión. A estos gráficos se ha hecho
referencia en páginas anteriores.
puede verse en la tabla C, La slgmflcatlvl a" e inferiores a 1,96, Pero, auuque los gráficos ayudan a visualizar el "ajuste", la distancia que separa los
cia habitual de ,05, al ser los valores t ~m~mc~s tabla se incluyen los coeficientes beta den- \ puntos de la recta (o plano) se mide, deforma más precisa, mediante.el coeficiente de
Además de la significatividad Yel va or , en a f" te de regresión estandarizado que correlaci6n múltiple cuadrado (R2). Éste constituye una medida de proximidad rela-
' / B ta dentro es e l cae IClen
"
tro y de corre/aclon parcIa, e 'ón Todos elloS son valores muy ba- tiva, empleada en el análisis de regresión para evaluar la bondad de ajuste del modelo.
tendría la variable si se incorporase al mo?elO de r/egreslsa'la correlación de cada variable in- La proximidad se mide como la proporción de varianza de la variable dependiente que
¡'os " En cambio, el coeficiente de corre/aclon parcIa eXdPrelas otras variables independientes se
queda explicada por la recta (o plano) de regresión.
dependiente con la depend'lente , cuando los efectos d e obtiene la proporclon , , de vananza
. de
mantienen constantes. Elevando su valor al CU~d~103~;0) que quedaría explicada si dicha va- "R2" también se refiere como coeficiente de determinaci6n. Su valor expresa la pro-
la "no explicada' de Y por el modelo de regreslon ,. lo X es la variable que mayor coe- porción de variación total de la variable dependiente que es "determinada" o explicada
riable independiente se incluyese en el modelo. porf.e¡emtPe no' slgnifica que dicha variable ("re- por las variables independientes que conforman la ecuación de regresión. El rango de
" parcIa
ficiente de corre/aclon . / t'lene ("051) Este cae IClen . a "s'In explicar" de Y. Para conocer valores posibles va de 0,0 a 1,0. Un valor de R2 = 1,0 indica que el modelo de regresión
gularizar a ¡nmlgrante~, expI'que
. ' ") 1,
el 5 ' 1'1<01'de la
havananz
que elevar dicho coeficiente al cuad.rad'
o. logra explicar completamente la varianza de la variable dependiente. Esta situación se
realmente qué proporclon de vananza exp IC~, Y" explicada" de Y sería explicada ¡ncor- produce cuando todos los puntos caen en la recta (o plano) de regresión. En cambio,
0512 = 0026. El 0,26% del 51 ,36% de la ~,anaEnzatno nte "5136 x 0026 = ,0013", una pro- un R2 = 0,0 denota que el modelo de regresión carece de poder predictivo. Ningún puu-
, '. I d I de regreslon. xac ame " ' .
parando la vanable X7 a mo e o , . . al i ual ue las otras siete vanables, no apor- to coincide con la recta de regresióu. Ambas situaciones son, no obstante, difíciles de
porción de varianza totalmente Inslgmf¡~ante. X , 9 da~ reducir el error de predicción de Y.
7
encontrar en la práctica investigadora. Tan improbable es obtener una ecuación de re-
ta nada a la predicción de Y. Su conocimiento no ayu
gresión que logre explicar toda la variabilidad de la variable dependiente, como con-
Tabla e seguir una que no explique nada. Lo habitual son valores intermedios,
El coeficiente de determinaci6n es el cuadrado del coeficiente de correlaci6n R. Es-
Sigo Correlación
Beta dentro t te último expresa el grado en que la variación de la variable dependiente se halla re-
Variables excluidas parcial
del modelo de regresión lacionada con las variaciones, simultáneas, de las variables independientes en la ecua-
,386 ,024 ción. Cuando se considera sólo una variable independiente, el valor de "R" figura
-,018 ,868
X ideología política
2 ,430 ,668 ,012 acompañado de un signo ("+", "-"). Éste informa si ambas variables se mueven en la
,009 ,051
X4 edad
,040 1,820 ,069 misma dirección (signo positivo) o en direcciones contrarias (signo negativo) -como
X regularizar inmigrantes ,218 -,035
7 -,028 -1,233 se expuso en los subapartados 1.3.2 y 1.4.1-.
X entrada inmigrantes ,963 -,001
8 • t -,001 -,047 Cuando se analiza la relación de dependencia con dos o más variables indepen-
X g partido racls a ,558 ,016
,012 ,586 dientes, el valor del coeficiente de correlaci6n R múltiple aparece sin signo (ni positi-
X 11 estudios ,305 -,029
-,021 -1,026
X12 ingresos . -1,741 ,082 -,049 vo ni negativo). Ello se debe a que se analiza, conjuntamente, la influencia de la serie
X inmigrante delincuente -,038
t4 de variables independientes en la dependiente. Lo normal es que no coincida la di-
I
rección de la relación de cada variable independiente con la dependiente. Por eso, al
analizarse su influencia conjunta, el signo se anula. El coeficiente R múltiple sólo indica
1.5. La evaluacióu del modelo . el grado de correlación entre las variables afectadas, pero no la dirección de la relación
.
. 1 e distintos aspectos relaciOnados con entre ellas. Esta última información la proporciona los coeficientes de pendiente y los
La evaluación del modelo. de r~greslón mc u:' ló ico-sustantiva). También se coeficientes de correlación bivariable (en la matriz de correlaciones).
tica
el ajuste del modelo y ~u slgmflcatlvldad (eS~,dl 1 gr:dO ~xplicarse con el modelo pre- La variación total de la variable dependiente (o suma total de cuadrados, TSS) con-
analizan los casos "atípIcos", aquellos que nO an o sidera las desviaciones de la variable dependiente observada en cada uno de los casos
N
dictivo obtenido.
de la muestra (i = 1, 2, 3... N) respecto de la media de Y: I
¡",l
(Y¡ - Y)'. SU valor es igual
1.5.1. El ajuste del modelo de regresi6n a la suma de dos partes: una, la variación que queda explicada por la ecuación de re-
, .,. sa conocer lo bien que el modelo obte- gresión (o suma de cuadrados de regresi6n, RSS), que mide la desviación de cada va-
Estimada la ecuacióu de regreslOu, mter~l d ndiente Esto puede saberse, pri-
nido logra predecir la variabilidad de la vana e epe .
Capftulo 1,' Regresión múltiple 97
96 Análisis multivariable. Teoría y prácrica en la investigación social

N
a) Su valor se halla determinado por la muestra analizada: las regresiones llevadas a
lor estimado de Y respecto de la media de Y: ~ (V¡ - J7')' ; dos, la variación residual, cabo en dos muestras diferentes pu~den producir idénticos coeficientes de pendiente
¡,o! parCial pero, en cambIO, sus respectIvos R2 pueden diferir considerablemente de una
la que queda siu explicar por la ecuación (o suma de cuadrados residual, ESS), que con- a otra muestra. Ello se debe a diferencias en la varianza de Y en las muestras.
sidera la desviación de cada valor observado de Y respecto al predicho por el mode- b) El empleo de R2 puede ser engañoso, si se intenta comparar la bondad de ajus-
N te relahva de dlferentes modelos de regresión con un número distinto de va-
lo de regresión obtenido: ~ (Y¡ - y)' . nables mdependlentes. La razón está en que el valor de Rl siempre tiende a au-
¡",1

El coeficiente de determinación R 1 mtiltiple, como medida de bondad de ajuste del mentar (aunque sea poco) cuando se añaden nuevas variables a la ecuación,
modelo de regresión, se obtiene del cociente entre la suma de cuadrados de regresión mcluso cuando éstas apenas henen efecto en la variable dependiente. De hecho
(RSS), la variación que queda explicada, y la variación total (TSS). Cuanto mayor es cuando el número de variables independientes (p) se aproxima al número de ca~
RSS respecto a TSS, mejor es el ajuste del modelo. El valor de Rl s~ halla muy próximo sos de la muestra (N), el valor de Rl se aproxima a 1,0.
a 1,0. Los valores observados de Y coinciden con los predichos (Y,). Los puntos se si-
túan todos alineados en el plano de regresión. En caso contrario, su valor se aproxima Pa:a obviar est~ última limitación, se introduce un ajuste en R2 que corrige la so-
°
a l O·, los residuos (E1 = YI - Y)I son muy elevados' siendo el ajuste extremadamente
, . ~
lo. El eonoeimiento de las variables independientes no ayuda a la predlcclOn de Y, al
ma- breestlmacló~ de R ,cuando no se manhenen las debIdas proporciones de número de
casos por van~bles predlctoras. El R2 ajustado (R~, también referido j¿l) queda den-
ser variables totalmente independientes unas de otras. En este caso, el plano de re- mdo de la sIgUIente forma:
gresión no ajusta los valores de Y mejor que su media.
R2 = R 2 _ p(l - R' )
N , N-p-l
~(Yi - Y)' RSS
~¡",-Ll- - - - = ---~~---
R' =
f (Y¡ _ y)2 TSS = RSS + ESS
Donde: "R2" es el coeficiente de determinación múltiple.
"pO' el número de variables independientes o predictoras.
¡",l "N" (o "n") el tamaño de la muestra analizada.
El valor de R2 se toma como medida de reducción proporcional en el estadístico
de error. Mide la proporción (o porcentaje, si se multiplica por 100) en que el mode-
E~ valor de R; generalmente. coincide con el correspondiente a R2, salvo cuando el
tama?? de la muestra es msuficlente en relación con las variables independientes en
lo de regresión reduce el errol de predicción de Y, relacionado con pr~decir la media el anahsls. Al menos debe haber 20, e incluso 10 casos por variable predictora (véase
de la variable dependiente (Y). Por ejemplo, un valor de R2 múltiple Igual a ,613 sIg- subapartado 1.1.1). Cuando se está próximo a estos límites mínimos, el valor de R2 es
nifica que el 61,3% de la variación (sobre la media) en la variable dependiente es ex- mfenor a R2 Tanto más, cuanto menor es la proporción de casos por variables pre-
plicada por la variación en las variables independientes, que conforman el moddo de dIctaras. Además, el valor de R~ disminuye conforme se añaden variables indepen-
regresión, sobre sus medias respectivas. El conocimiento de los valores de las vanables dIentes a la ecuacIón de regresión, a diferencia de R 2 , que siempre aumenta (aunque
independientes logra reducir en un 61,3% el error de predicción de la variable de- sea poco~. Esta disminución en el valor de R~ responde a la ya referida merma en la
pendiente. proporclOn de casos por variable independiente que se precisa para la adecuada rea-
Un valor de R2 próximo a 0,0 no siempre se debe a la inexistencia de relación en- hzaclón d~ los análisis (R; puede incluso tomar valores negativos).
tre las variables independientes con la dependiente; también puede ocurnr que Ademas de cumpl;r esta fmaMad de "ajuste", R~ es de utilidad en la comparación
no se hayan incluido variables predictoras relevantes en el modelo. Berry y Feldman d~ modelos de regreslOn estImados en muestras diferentes y con diversas variables pre-
(1985) destacan otros dos factores como contribuyentes a una baja varianza explicada dlctoras.
de Y:
a) Un elevado error de medición en las variables. 1.5.2. El error de predicción
b) Fallos en la especificación de la forma funcional de la ecuación de regresión.

Relacionado con esto, señalan dos limitaciones importantes de R2 como medida de Otro e~tadístico de utilidad en la comprobación de la bondad de ajuste del modelo
de regreslOn es el error típico de la estimación de Y (también denominado Se O a). És-
bondad de ajuste (Berry y Feldman, 1985: 15).
r Capitulo 1: Regresión múltiple 99
98 Análisis multivariable. Teorfa y práctica en la investigación social
I
m_edia de Y es tan adecuada en la predicción de Y
potesls alternativa se formula, en ca b' _ . como el modelo de regresión. La hi-
ta es una medida de la adecuación del modelo para la predicción de Y. Se define a par- = .,. = f3 ;' O" No se ca b ' m 10, en termmos de desigualdad' "H . f3 - f3
mprue a SI cada u d I " . l' 1 - 2 = f3
in~
lt
p'
tercepto, "a") es, individualmente igualo dif?O e os coefIcIentes "b" (se excluye el
tir de la suma de errores cuadrados de regresión (Y; - y,)' )= la suma de las des- son s'Imu1taneamente
_ iguales (H), ed'f
r e n t e de cero' ,Silla SI. tomados en conJ'unto
. .. I ' .~omo dIce el modelo esti-
d El . o o I erentes de cero (H )
ma o. . ;echazo de la hipótesis nula 1 . l.
.
viaciones de cada valor Y observado respecto a su correspondiente valor predicho CY¡) rroboraclOn del modelo. Éste es estad~s mve de slgmficacI?n elegido, supone la co-
c?,?probar si lo es, igualmente, desde la ve~:~en:e. slgmf¡catJvo. Después, habrá que
mediante la ecuación de regresión. Cuanto mayor es la distancia entre ambos valores,
mayor es el error de predicción. 10glCO y se adecua al modelo teórico tom n e JOglCo-sustantlvo, si tiene· un significado
dO
N
. La comprobación de la Signi/icatiVid: de referente.
,4.., (Y; - Y;) 2
dlante la razón "F" Ésta se defi d del modelo en su conjunto se realiza me
d e Y por el modelo. de regresión
'" A

neycomo
l a 'la razón (o cocIente)
. entre varianza explicada-
Se vananza reSIdual:
N-p-1
F R2/p RSSjO.L. Regresión
El error de predicción depende de la confluencia de varios factores. Principalmente, 2
ESSjO.L. Residual
(1-R )/(N-p-1)
las variables independientes que se hayan inclnido o exclnido del modelo, y de la co-
rrelación que exista entre ellas. Su valor aumenta conforme se incrementa la corre-
dependIentes en el modelo); y g.l. residual a "N n Igual~s a p (numero de variables in-
lación entre las variables independientes, ya sea con otras incluidas en el modelo (co- Los. grados de libertad (g.l.) de regresión so . ",,-
linealidad), ya con aquellas que han quedado excluidas. El error de predicción se ve
muy afectado por la exclusión de variables predictoras relevantes y, en general, por una
en la tabla ANOVA (análisis de varianza) -IP -?
.Todos estos valores se incluyen
en e anabsls de regresión m U-IrIp1e:
incorrecta especificación de la relación entre las variables.
El conocimiento del error de predicción (el error promedio en la predicción de la Fuente de Suma de Grados de Media Razón Significatividad
variable dependiente) interviene a efectos inferenciales: inferir, a partir del modelo de variaci6n cuadrados libertad cuadrática "F" "F"
regresión, el valor de la variable dependiente en la población de interés. La inferencia N
Contraste de los
se realiza en términos de probabilidad, la cual determina, junto al error, la amplitud del Regresión Ley; Y)' p RSS/p v.alores "F" empí-
¡",l
intervalo de confianza para la predicción de Y. También afecta el tamaño de la mues- rICO y teóríco, con
N RSS/p
tra empleada en la estimación de los coeficientes de regresión, además del número de Residual L(Y;-fJ' N-p-l ESS I N -p-l p y N-p·l grados
ESS/N-p-l de libe:rtad a un
variables independientes utilizadas en la predicción de Y: b"l
N nivel de significa-
L(Y;-Y)' N -1 TSS/N-l ción determinado
Total
Intervalo de confianza = Y; ± (t X Se) ,'",1

Donde "t" es el percentil "100(1-a/2)" de la distribnción "t" de Stude~t con "N-


El modelo de regresión adquiere si 'Ji ..
p -1" grados de libertad. El valor de la variable dependiente estimado (Y,) se inter- pírica supera a la teórica a un nivel de r:u;'atlV~~ad estadística cuando la razón "F" em-
preta como una estimación de la media de Y en las "p" variables independientes. ~ca una probabilidad de acierto al rec~az~cra~~ c?n~eto, usualmente, ",05", que sig-
c azo de la hipótesis nula sea asible 1 . . . IpOteslS nula del 95%. Para que el re-
. ,"<
a! menos , . Lo que penmtJría
_05" P . _ concluir
,a slgnificatlVldad
1 . . _ a la razón "F" h a de ser,
asociada
1.5.3. La significatividad del modelo a.~artlr de la ecuación de regresión esr ¿ue a predlcCJon de la variable dependiente
dlendose atribuir a la casualidad P lIma a es slgmficatlva estadísticamente no pu-
Una vez estimado el error de predicción del modelo, corresponde la comprobación .;;.,;:3, or e contrano
"F" supera el valor" 05" (si éste .ha'd l' cu d
,an o i ' .
a slgnificatividad ' razo-n
de la
de susignificatividad. En el subapartado 1.4.3 se trató la significatividad de los coeficien- hipotesls
_ . nula. Lo que ' supone la no' SI oe"fmveldes
.. nifi "d
Ig catJV! ad elegido), se acepta la
tes de regresión estimados por separado (mediante la razón "t" de Student). Ahora se dencla suficiente para asegurar que l:~;~~~~~vldad del modelo estimado. No hay evi-
trata de comprobar si el efecto conjnnto de todas las variables independientes que el modelo de regresión no pueda atr'b . explic~da de la vanable dependiente por
1 mrse a vanaClon muestral aleatoria.
han mostrado ser relevantes en la predicción de Y difiere significativamente de cero o
no. La hipótesis nula adopta la siguiente formulación: "Ho; fll = fJ, = fl3 = .,. = flp = O"; la .
100 Análiús JTwltivariable. Teoría y práctica en la investigación social

Capítulo J: Regresión m.úüiple 101

El ~rror t(pico de estimación de Y se calcula en ca. .


dos residual (la variación residual de Y 1 ' . mblo, a partir de la suma de cuadra-
Mide el desajuste de la nube de punt' a que queda sin explicar por el modelo de regresión).
valores Y observados en la muestra caos rlespecto al hlperplano: la no coincidencia entre los
Como ya se avanzó, el modelo de regresión (estimado mediante el procedimiento "pa- n os estimados por la e "
te modelo, el error t(pico de /a estimación ..
so a paso" de inclusión y eliminación de variables), integrado por las variables independientes ha sido 1 9595 cuaclon de regreslon. En es-
gUleme ecuación: ' . Su valor se obtIene mediante la si-
X5 ' XlO' X X6 , X'3 Y X3 , es estadísticamente significativo, a decir por la prueba de signifi-
catívidad F" realizada. En la tabla A se descomponen sus integrantes.

Tabla A
Se ~
Jf(Yi - vy
,., f 4887,883"
N-p-1 ~ 1280-6-1 ~ 1,9595
-
Fuente de Suma de Grados de Media Razón Signifícatívidad
variación cuadrados libertad cuadrática "F" "F" Como ya se vio en el subapartado 1 4 3 el v 1
lervalos de confianza en la predicción d'y a or del error determina la amplitud de los in-
Regresión 4627,827 771,304 Por último, el modelo de regresión ~.' ~ un nivel de probabilidad determinado. .
6
significativo estadísticamente. La F eme~r;:a(2~ en la muestra es inferible al universo, al ser
Residual 4887,883 1273 3,840 200,879 ,000 valor teórico (2,10), para un nivel de si:nificativid~~~9) ~~pera bastante su correspondiente
Total 9515,710 1279 7,440 rechazo de la hipótesis nula (la media d Y e , y 6 Y 1.273 grados de libertad. El
modelo de regresión) era predecible por:1 e7:v~~~ adecu_ada en la predicción de Y como el
el resultado de la razón siguiente: tamano de la muestra. La F empfrica es

El coeficiente de correlación múltiple es igual a ,697, lo que significa que el grado de re- RSS/p .4627,827/6
F= 771,304
lación conjunta entre las seis variables independientes con la dependiente es muy importante. ESS/N-p-1 4887/1273 3,840 ~ 200,879
Recuérdese que un valor próximo a 1,0 indica correlación perfecta entre las variables. Este
coeficiente no va acompañado de signo porque la dirección de la relación de cada variable • En una comprobación posterior de la valid d
independiente con la dependiente (positiva o negativa) no coincide. En las variables X5 y X, división aleatoria de la muestra total en d ~z el mod?lo de regresión, se procedió a la
es posítiva, mientras en X,0, X6, X Y X3 es negativa. Elevando este coeficiente al cuadrado
'3 la de validación. En ambas se obtuvíeron os s~ :;uestras Iguales: la muestra de análisis y
se obtiene el coeficiente de correlación múltiple cuadrado o coeficiente de determinación (R2): resumen en la siguiente tabla: resu a os sImilares, aunque no idénticos, que se
,697 2 ,486. De acuerdo con este coeficiente, traducido a términos porcentuales, el 48,6%
de la variación (sobre la media) en la variable dependiente es explicada por la variación en
Tabla B
las variables independientes que integran el modelo de regresión, sobre sus medias. Esto sig-
nifica que el conocimiento del valor de las variables independientes logra reducir en un 48,6% Fuente de Suma de Grados Media Razón
variación cuadrados Signo Ajuste del modelo
el error de predicción de Y, cantidad nada desdeñable. Casi la mitad de la varianza de Y es libertad cuadrática "P' "F" de regresión
explicada por la conjunción de seis variables predictoras. El ajuste de la nube de puntos al hi- ANÁLISIS
perplano es bueno, aunque no perfecto. Queda un 51,4% de su variabilidad sin explicar, al Regresión • ANÁLISIS
2.421,903 5 484,381
estar afectada por otras variables no consideradas. Residual 2.241,519 R
629 3,564 135,924 ,000 ,721
R2 se obtiene del cociente entre la suma de cuadrados de regresión (la variación expli- Total 4.663,422 R2
634 7,356 ,519
cada) y la suma de cuadrados total (varianza total de Y): 4627,827/9515,710 ~ ,486. R', ,516
El coeficiente R2 ajustado, que corrige la sobreestimación de Ff2- cuando el tamaño VALIDACiÓN Error típico est. 1,8878
muestral es pequeño en relación con el número de variables independientes analizadas, ape- Regresión 2.337,153 ~VAUDACIÓN
Residual 5 467,431
nas difiere del anterior, debido a que la proporción de casos por cada variable independiente 2.207,797 619 3,567 131,053
R ,717
Total ,000 R'
es muy elevada: R'; ~ ,484 . Este valor se obtiene aplicando la fórmula siguiente: 4.544,951 624 7,284 ,514
R', ,510
Error típico est. 1,8886
R' ~ R' _ p(1-.R') ~ 486- 6(1-,486) ~ 484
, N- P- l' 1280 - 6 - 1 ' .En ambas submuestras, el modelo de re resió
babllidad de error al rechazar la hipót· P( . .
n es bastante slgAlficativo, al ser la pro-
eSls nu a cuando en realidad es cierta) inferior al 1%.
Capitulo 1: Regresión múltiple 103
eoría y práctica en la investigación social
102 Análisis multivariable. T

1.5.4. La detección de "atipicos"

La evaluación del modelo de regresión incluye también la detección de "atípicos"


(o "outliers"). Por "atípico" se entiende toda observación que no ha quedado bien re-
presentada por el modelo de regresión. Son observaciones no coincidentes con el res-
to de los casos analizados, y van acompañadas de residuos elevados: existe una gran dis-
paridad en\(e la respuesta observada (Y) y la predicha a partir de la ecuación de
regresión (Y). Su presencia apenas influye en la adecuación del modelo, si sólo afec-
ta a unos casos esporádicos. Pero cuando son varios los casos afectados, urge la adop-
ción de alguna medida para paliar los efectos negativos que su presencia tiene en la re-
solución del modelo de regresión.
La detección o identificación de "atípicos" puede efectuarse con ayuda de gráficos
y/o estadísticos concretos. Los gráficos de residuos constituyen una vía rápida y sencilla
para detectar "atípicos". Entre los gráficos más aplicados en la detección de "atípicos"
destaca el histograma de frecuencias de residuos estudentizados. Este gráfico ya fue des-
crito, en general, en el subapartado 1.1.6. Puede realizarse con residuos estandarizados
o estudentizados. En la identificación de "atípicos" se prefiere, no obstante, los residuos
estudentizados (E,) con preferencia a los estandarizados (E,) (Sen y Srivastava,
1990). Mediante ambos tipos de residuos, toda observación con residuos superior a 2
(desviaciones típicas) se considera un posible "atípico". Este valor de referencia res-
ponde al nivel de significación más aplicado en la investigación empírica: ,05 (que su-
pone una probabilidad de acierto del 95%). A este nivel de significación, el valor "z"
y "t" teóricos (siempre que los grados de libertad de este último sea superior a 120) es
1,96. De este modo, todo residuo (estandarizado o estuden/izado) superior a este va-
Tabla e lor se identifica como estadísticamente significativo. Sn confirmación precisa, no
Coeficientes obstante, un análisis más profundo. Cuando el residuo es mayor de 3, su calificación co-
Coe';cientes no
estandarizados
estandadzados
t Sigo mo "atípico" es más clara. En el histograma todos los casos con valores superiores a
Error T 3,16 o menores de -3,16 aparecen en el intervalo etiquetado "out" (fuera).
Modelo de regresión Beta
B tfpico En la identificación de "atípicos" también es de gran utilidad el gráfico de líneas de
residuos estudentizados. En este gráfico, toda observación con residuos positivos o ne-
6,705 ,000
• MUESTRA DE ANÁLISIS ,536 ,000
gativos muy elevados (se aplican los mismos valores de referencia que en el histograma)
3,595 16,598
(Constante) . ,589 ,035 ,494
-5,387 ,000 se consideran "atípicos"; es decir, observaciones que no han quedado bien represen-
X simpatía latinoamericano -,515 ,096 -,192 ,008 tadas en la ecuación de regresión. La figura 1.10 incluye el gráfico de lineas de residuos
5 • 2,651
X10 casar con marroqUl ,079 ,080 ,002
.. ,211 -3,098 estudentízados que corresponde al análisis de regresión aquí realizado para la mues-
X leyes lmnigraclo.n -,417 ,135 -,106 ,006
1 -2,752 tra total.
X vecino marroqUl -,358 ,130 -,084
x1~úmero de inmigrantes Otro gráfico que puede ayndar en la detección de "atípicos", de más reciente apli-
6
5,554 ,000 cación, es el gráfico de residuos brutos, Ei (en el éje vertical) y eliminados, E(_i) (en el
. MUESTRA DE VALIDACiÓN 3,238 ,583 ,000 horizontal). Estos últimos reflejan el cambio en el ajuste de la ecuación de regresión
16,193
(Constante) . ,036 ,487 ,000
,586 -5,628 cuando el caso "i" es eliminado. A diferencia del gráfico de residuos estandarizados,
X simpatía latinoamen.cano -,540 ,096 -,202 ,000
s
X casar con marroqUl ,114
3,651 en este gráfico, la nube de puntos debería aproximarse a una recta, desde el origen, de
10 •• ,302 ,083 -3,499 ,001
X leyes inmigraclon ,139 -,122 45°, con una pendiente de 1. Tbdo caso que se aleje de dicha recta se considera un po-
1 -,488 -2,097 ,036
X vecino marroquf ,284 ,136 ,066 tencial "atípico". Thnto más, cuanto mayor sea su rlistancia a la recla. La figura 1.11 ilus-
x:;'úmero de inmigrantes , - tra la aplicación de esta modalidad gráfica con los datos aquí analizados (la muestra to-
I
Capitulo]: Regresión múltiple 105
Análisis multivariabLe. Teoría y práctica en la investigación social
104
dependiente, por separado. Asimismo, es de utilidad el gráfico de residuos parcial que
. . d 450 ocos puntos se distancian de
tal). La nube de puntos se ajusta a la ~ecta ~ 10 l~ fctentificación de posibles "atí- considera la correlación parcial de cada variable independiente con la dependiente, des-
ella. Si se compara con el gráfic? de la l,~ura d'
siduos eSludenlizados que en este pués de eliminar el efecto de las otras variables predictoras en el modelo. A veces, tam-
bién se aplican el gráfico de caja en la identificación de "atípicos", pero su uso es menos
picos" se evidencia más en el graflco de meas e re '
último. habitual. En este último gráfico, los datos se representan en una caja alrededor de la me-
dia. Todo caso que se sitúe lejos de la caja se considera un posible "atípico". La figura 1.12
6~---------------------------1 incluye el gráfico correspondiente a los datos del ejemplo.

0698
4
2
2
8
'O O
~

.~ O
'O -2
m -2
8 -4
:g" -4
o:" -6 ~-L __________________. -________________ ~

251
126 376 1.389
Número de caso Residuos estudentizados
Figura 1.10. Gráfico de líneas de residuos estudentizados.
Figura 1.12. Gráfico de caja con residuos estudentizados.

1o-.----------------1 o
• Además de los gráficos, existen estadísticos específicos que ayudan a identificar,
de forma más precisa, el grado al que una observación es un "atípico". Entre los más

... aplicados destacan los siguientes:

La distancia Di de Cook, algunas veces también referida"C:' (Nourisis, 1986;


Graybill e Iyer, 1994), se define como función de los residuos estudentizados eli-
O
minados (Et(_i) o SDRESID), definido en el subapartado 1.1.10, y los elementos
de la diagonal, "h . .", de la matriz R, mediante la expresión siguiente:
','
i D¡ = ( E~_¡»)( h¡,¡ )
1 o"
o: -lo-l---~------------------~--------------------~lO
p+1 1- hu

Esta distancia se calcula para cada una de las N observaciones que componen
-10 -D
la muestra. Mediante ella se comprueba la cantidad en que varían las estimacio-
Residuos eliminados ,r . dos
d~ residuos brutos (o no estandarizados) Y e lffilOa .
Figura 1.11. Gráfico nes de los coeficientes de regresión, si la observación "i" se elimina del análisis.
Concretamente, proporciona una medida de la distancia entre el valor del coefi-
- .n , ' I que permiten la iden- ciente de pendiente cuando se utilizan todas las observaciones en el cálculo de la
A estos gráficos hay que añadir los gráfico~ de regreslO pa:~~, endiente con cada in-
tificación de "atípicos", pero para cada reJacJon de la vanabl p .
106 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 1: Regresión múltiple 107

ecuacióu de regresión y cuaudo se omite la observación "i". Toda observación que


presente un valor elevado, Di > F + 1 N .. -1 a un nivel de significación concreto Diagnósticos por caso 8
(normalmente, ',,05"), se consideri un p6sible "atípico" (y se recomienda un exa-
Número Residuo
men riguroso). Los casos con mayores valores de distancia coinciden con aquéllos de caso
Simpatía Valor Residuo
tipo marroquí
cuya eliminación provoca una mayor variación en los coeficientes de regresión. Es- pronosticado bruto
to suele acontecer bien cuando la observación presenta un residuo estudentizado 246 4,284 ,00 8,3941 -8,3941
muy elevado, o bien cuando la razón "h.'¡ (1- h..)" es también elevada. Esto úl- 353 -3,224 ,00
1,1 1,1
369 6,3181 - 6,3181
timo se conoce como valores "leverage". Se obtienen de comparar la distancia del -3,263 ,00 6,3946
698 4,217 - 6,3946
valor de un caso desde las medias de todas las variables independientes. Los ca- 10,00 1,7374 8,2626
727 -3,438 ,00
sos con valores "leverage" superiores a "2plN" (donde "p" es el nÚmero total de 1.017 6,7365 - 6,7365
3,137 9,00 2,8528
coeficientes, incluyendo el intercepto) se consideran "atípicos". 1.149 3,339 6,1472
10,00 3,4570 6,5430
Cook y Weisberg (1982) proponen que toda observación con una distancia de 1.195 3,356 10,00
1.497 3,4233 6,5767
Cook superior a 1 es un posible "atípico". Hutcheson y Sofromou (1999) prefie- -4,015 ,00 7,8677
ren no utilizar ese valor de referencia genérico, e incluso conservador. Proponen 1.501 - 3,419 -7,8677
,00 6,7001 - 6,7001
1.556 -3,665 ,00
un punto de referencia calculado a partir del cociente siguiente: "4 / (N - P )". 1.834 7,1820 -7,1820
- 3,081 2,00 8,0378
- La medida de distancia de Welsch-Kuhn, más conocida como DFFITS, mide si- 1.920 3,322 - 6,0378
multáneamente la influencia en el coeficiente de regresión y en la varianza. 2.143 9,00 2,4903 6,509'7
3,408 10,00 3,3228
Guarda bastante similitud con la distancia de Cook: 2.280 - 3,041 6,6772
,00 5,9586
,. a Variable dependIente. slmpatla marroqUI.
5,9586

DFFITS, = E,(_i)
f2t '.'
1- h¡,i
Como puede apreciarse en la tabla los cas r' '.
pronosticado se distancia bastante de s~ v I ~s a IplCOS COinCIden con aquéllos cuyo valor
Toda observación que presente un valor absoluto de DFFITS > 2~p/N se
explica que sus residuos (brutos o estand:r~;a~os~lVado en la variable dependiente. Lo que
considera un posible "atípico". casos claramente no explicados por el mod I s sea.n muy elevados. En total son 15 los
• La detección de "atípicos" también puede limitarse a un diagnóstico por caso. Se
identifican los casos con un residuo estandarizado (ZRESID) superior a un valor da- adopción de alguna medida en bus d i '
:f
tos alejados del conjunto de datos S· I e o de regreslon. En los gráficos coinciden con pun-
casos identificados como pOSible; '~a;í;i!~~\O ~~rte ~e hubiese fijado en 2, 48 serían los
a I entl lcaclón de los "atípicos" le sigue la
do. Lo más habitual (y así lo aplica el programa SPSS, por ejemplo, por defecto) es fi- . , ' ca, e a canzar alguna me; I
pecto, tengase presente que la proporción de "atí." ,ora en,! modelo. A este res-
jarlo en 3. Se suele escoger este punto de referencia (o de corte) porque, si los datos es- muestra. Además la distancia de Ca k ( pICOS es muy pequena en el conjunto de la
tán normalmente distribuidos, la probabilidad de alcanzar un valor superior a 3 es Ior muy pequeño, la exclusión de diCh~s ~~~ ~n ~~Ior m?dio de ,001) indica que, al ser un va-
bastante baja. Además, ya se dijo que todo caso con un residuo estandarizado superior no afectaría a un cambio sustancial de Plcos . del calculo de los estadisticos de regresión
sus coefleJentes de regresión.
a +3,0 o inferior a -3,0 es un claro "atípico". Cuando el residuo se sitúa entre 2,Oy
3,0, se precisa confirmación por otros procedimientos.
• Tras la identificación de at{¡ icos' d .,
respecto, en busca de alcanzar al~a ' proce ella adopclOn de alguna medida al
(1980) resumen a cuatro las actuacion:eJorabeln e modelo de regresión. Lewis-Beck
pOSl es ante la eXIstencIa de "atípicos":
a) Excluir del análisis los casos que mue t ",." É
La aplicación de gráficos en la identificación de atípicos ya se ha ilustrado en las figuras grosar la lista de "missing values" s ren ser atlplcoS. stas pasarían a en-
1.10, 1.11 Y1.12, además del histograma y de los gráficos de regresión parcial descritos en " veniente de esta solución radical (01 casdos
-
Sl;:
respuesta). El principal incon-
es a re UCClon que puede producir en el t
páginas precedentes. A continuación figuran los "atípicos" obtenidos tras fijar como punto de
"corte" todo residuo estandarizado (o tipificado) superior a +3,0 o inferior a -3,0. :~~r~ed~ ,~~ep~tra Sy la consiguiente pérdida de información). Salvo que :;
IGOS sea escaso, SIendo su presencia en la muestra mínima.
108 AnálL<;is multivariable, Teoria y práctica en la investigación social Capítulo 1. Regresión múltiple 109

b) Efectuar dos ecuaciones de regresión: una con "atípicos" incluidos y otra sin de selección de variables predictoras. Sobre todo, cuando la investigación es explo-
ellos. Siguiendo este proceder no habría pérdida de información. Pero presenta ratoria y es elevado el número de variables independientes cuyo poder predictivo quie-
el inconveniente principal de duplicar los análisis c~m unas mIsmas variables. re comprobarse. En cambio, cuando la investigación es confirmatoria, los procedi-
e) Transformar la variable afect.ada por "atípicos". Esta se consIdera Una op- mientos secuenciales no son de utilidad. La finalidad no es efectuar una selección de
ción óptima. Supone el cálculo de una única ecuación de regresión, no varian~ variables en función de su poder predietivo, sino corroborar un modelo concreto
do el tamaño de la muestra. obtenido en indagaciones precedentes.
d) Aumentar el tamaño de la muestra para comprobar si los "atípicos" son real- Tres son los procedimientos esenciales de seleccióu secuencial de variables pre-
mente "atípicos" o si, por el contrario, se ajustan a la realidad de un mode- dictaras:
lo más general (qnizás no lineal). Los inconvenientes principales de esta ac-
tuación son el coste económico y la dificultad que supone abarcar más a) Inclusión secuencial de variables "hacia delante" ("forward").
unidades muestrales. b) Eliminación progresiva de variables "hacia atrás" ("backward").
c) El procedimiento "paso a paso" ("stepwise") de inclusión y eliminación de va-
Antes de tomar alguna (o varias) de estas medidas, tal vez debiera seguirse la re- riables.
comendación de Gunst y Masan (1980) de comprobar si los "atípicos". se deben a erro-
res de grabación. Hutcheson y Sofrouiou (1999) señalan a datos I.ncorrectamente Las dos primeras opciones pueden considerarse casos especiales del tercer pro-
grabados y a indicadores de "missing values" incorrectamente especIfIcados ~n el pro- cedimiento, que es más utilizado. A favor de la primera opción está el menor número
grama utilizado, como dos posibles razones de "atípicos". Eu c~so afIrmatIvo, estos de cálculos que supone su realización. Pero, la segunda opción (la eliminación pro-
errores pueden corregirse de forma inmediata. Habría que remItIrse a la fuente de m- gresiva de variables) suele tratar mejor el problema de la multicolinealidad que la pri-
formación general para, a continuación, corregir el valor mal grabado por el correcto mera opción. Por esta razón algunos autores, como Chatteljee y Price (1977), por ejem-
en la base de datos. En caso negativo, habría que decidir qué hacer con los "atípicos". plo, recomiendan su utilización con preferencia al procedimiento de inclusión
Sin duda, la decisión se verá bastante afectada por la proporción que representen los secuencial de variables "hacia delante". Pero, veamos en qué consiste cada uno de es-
"atípicos" en la muestra analizada. tos procedimientos secuenciales.

1.6. Variaciones en el análisis de regresión A) Inclusión secuencial de variables "hacia delante"

El procedimiento de regresión expuesto en páginas precedentes es el o.rdinario, El análisis comienza con el modelo más sencillo: aquel que sólo incluye la constante
aunque existen variaciones al mismo. Primero, en función .de cómo se seleCCIOnen las (o intercepto). A continuación, el programa procede a la selección "secuencial" de va-
variables predictoras para constituir el modelo de regreslOn, ~I se ha segUIdo ~? pro- riables, en función del grado de relacíónque éstas manifiesten con la variable de-
cedimiento secuencial (o "por pasos") y, en caso afirmatIVO, cual de ellos. Tamblen hay pendiente y su significatividad. También afecta el grado de colinealidad de las varia-
que hacer referencia a alternativas principales al procedimiento de mín~mos cuadra, bles independientes candidatas a ser incluidas en la ecuación de regresión con aquellas
dos ordinarios (OLS), de gran utilidad cuando se incumplen u~o o vanos de los su- variables que previamente han sido incorporadas.
puestos básicos para la regresión OLS. Cada uno de estos contemdos se desarrollan en La selección de variables predictoras es "secuencial". En cada paso se incorpora
los subapartados siguientes. una nueva variable a la ecuación de regresión, lo que suele ocasionar una alteración en
los coeficientes de regresión respecto al paso anterior. Dicha variación en los coefi-
cientes es mayor cuando la variable recién incorporada a la ecuación presenta un gra-
1.6.1. Los procedimientos secuenciales de selección de variables predictoras do de colinealidad elevado con una o varias de las variables predictoras que previa-
mente fueron introducidas en la ecuación de regresión. Si la colinealidad es elevada,
En la realización de un análisis de regresión es habitual partir de una serie amplia puede incluso suponer la pérdida de significatividad de variables que, en pasos ante-
de variables independientes (o predictoras). El objetivo principal es seleCCIOnar un gru- riores, mostraron poder predictivo en la explicación de la variable dependiente. Pero,
po reducido de ellas que muestren una contribución significativa a la predICCIón de. la a diferencia del tercer procedimiento secuencial, de inclusión y eliminación de varia-
variable dependiente. Se busca un modelo sencillo, parsimonioso y, a la vez, fácil de m- bles, en éste nO se contempla la eliminación de variables previamente incluidas en la
terpretar. Todo lo cual incide en la decisión de aplicar algún procedimiento secuencwl ecuación de regresión, de un paso a otro.
110 Análisis multivariable. Teoría y práctica en la investigación social
,
~ :
Capftulo 1: Regresión múltiple 111

La primera variable que se incluye es aquella que muestra una correlación simple más Por último, añadir que tras la incor .. -
alta con la variable dependiente, indistintamente de si la correlación es positiva o ne- aumento en el valor de R2 El . poraclOn de una nueva variable se produc
. . mcremento varia l' . ' e un
gativa. Esta información la proporciona la matriz de correlaciones (subapartado 1.3.2). entre dIcha variable con la dependiente un _en re .aclOn COn la correlaci6n existente
En el primer paso, se está ante un modelo de regresión simple, compuesto por una so- más predlctoras en la ecuación Cua t' a vez conSIderada su correlación Con las de-
· . n o mayor sea la l' .
la variable independiente. Si el modelo muestra ser significativo, de acuerdo con la ra- pre dIctora COn el resto de predicto. corre aClOn de la nueva variable
zón "F" (subapartado 1.5.3), se comprueba si puede incorporarse otra variable inde- nor será el incremento en R2 d !tas y menor su correlación con la dependiente me
' . e un paso a otro Lo . '. , -
pendiente a la ecuación. A tal fin, se examinan las correlaciones parciales de las variables e1error [¡p'CO de la estimación no d" . que tamblen puede afectar a que
d 1 1 Isnunuya como es d .
independientes no incluidas en la ecuación con la dependiente y su significatividad. En- o o cua afecta en la disminución del valo~ "F" e ,e esperar, smo que aumente. To-
tre aquellas variables cuya correlación parcial sea significativa, de acuerdo con la razón reIterada recomendaci6n de no inco . mpInco de un paso a otro. De ahí la
"t" (subapartado 1.4.3), se escoge la variable que presente la correlación parcial más ele- vantes en la predicción de Y ya que rporar vanables Illdependientes que sean irrele-
vada con la variable dependiente. Si se desea saber qué ocurrirá si dicha variable se in- haber logrado incrementar' la prop~ro~?ca~ un aumento en el error de predicción sin
cluyese en la ecuación, la mayoría de los programas estadísticos, como el SPSs, ofrecen pendiente. rClOn e vananza explicada de la variable de-
el coeficiente de regresión estandarizado (a veces llamado "beta in" o "beta dentro") .
. Tras cada incorporación de una variable a la ecuación de regresión, se comprueba
B) Eliminación progresiva de variables "hacia atrás"
la significatividad del modelo. El análisis prosigue hasta que el modelo deja de ser sig-
nificativo estadísticamente, o hasta que no queden variables independientes que Este segundo procedimiento es el cont· .
muestren tener un efecto significativo en la predicción de la variable dependiente. COn todas las variables independiente . l ' ~ano al antenor. El análisis Comienza
En el programa estadístico se fija un valor mínimo de F para que la variable in- la eliminación "secuencial" (una a U:;)~:I as enel modelo. Después se procede a
dependiente pueda incluirse en la ecuación y su correspondiente valor "p". Este último vancJa en la predicci6n de Y La' la~ vana bies que muestren menor rele-
expresa la significatividad del estadístico "F". Por ejemplo, en el programa SPSS el va- muestra una menor contribu~ión pn merda va.r:able en ser eliminada es aquella que
qu e sue1e COInCIdir
'. a lare uCClOndelas d
lor mínimos de F para entrar ("F-to-enter" o "F-in") y el criterio de probabilidad aso- COn presentar un valor" " ' .. u~a e errores cuadr{.ldos, 10
ciado a este estadístico por defecto son, respectivamente, F 2: 3,84 Y p:S 0,05. Éstos son se recalcula la ecuación de regresión con 1 t no .slgmbcatIVo. Tras cada eliminación,
los valores que se aplican, mientras el investigador no especifique lo contrario. manecen en ella. El proceso de elimínación as van~bles ~ndependlentes que aÚn per-
Bendel y Afifi (1977) compararon varios valores "F-to-enter" mínimos, aplicados ha- do todas las razones "t" SOn signl'f' t' Y reeshmaclOn del modelo concluye cuau
, . ' I c a Ivas' es decir c d I -
bitualmente en este procedimiento de selección de variables ("forward" o "hacia de- rnmlmas SOn superiores a "t " (d ' , u~n o as razones "t" absolutas
lante"). Un valor que recomiendan es el percentil "F" que corresponde a un valor 0,05,0,10 o superior). .OS(N - p) epende del mvel de significación elegido:
p =0,15. Utilizar el criterio usual de p =0,05 es demasiado bajo y con' frecuencia excluye En el programa SPSS se aplica Or def '.
del modelo a variables relevantes en la predicción de Y. Es mejor opción aplicar niveles para permanecer en la ecuacI'ón ("FPto ecto el cnteno Usual de un valor F mínimo
. 1 - -remove" "F t" "F
de óignificatividad de 0,15 e incluso 0,20. Esto repercute negativamente en un riesgo ma- equIVa e a la probabilidad máxima asociada "p_ou¡~U o para salir") de 2,71, que
yor de rechazar la hipótesis nula, cuando es cierta; es decir, afirmar que una relación es lar F no sobrepase dichó valor (271) siendo ( . .) de 0,10. Toda variable cuyo va-
cierta, cuando en realidad no lo es. La probabilidad de equivocación se eleva al 20% . Pe- vIerte en candidata a ser elimin;da d' 1 dsul slgnificatlVldad superior a 0,10 se Con-
me . . e mo e o de regres" S· . '
ro, por el contrario, disminuye el riesgo de desacierto al rechazar la hipótesis nula, nos restnctIvo, a costa de au t 1 IOn. I se qUIere un modelo
cuando en realidad es falsa (es decir, de no encontrar una relación que realmente es cier- en realidad es cierta) puede se ~en ar e error de rechazar la hipótesis nula (cuando
ta). Si el tamaño muestral es elevado, el valor de F mínimo para entrar que recomiendan ducir el valor de "F~ara salir"~ l:~~.la recomendación de Afifi y Clark (1990) de re-
es el percentil85 de la distribución F, con 1 e infinitos grados de libertad. O, lo que es igual, . Como en el procedimiento anterior tras la e" .,
un valor F mínimo de 2,07 y no el habitual de 3,84, que es más restrictivo. cnlan los F parciales para las variables ~ed' lurunaClon de una variable, se recal-
Tomar un valor mínimo de F elevado (F2: 4,0, por ejemplo) supone dar una menor ceso concluye cuando ninguna F parei;; es .~oras q~e quedan en la ecuación. El pro-
oportunidad a la variable para incorporarse a la ecuación de regresión. Se consegui' ra permanecer en la ecuación. I enor a a cuantía mínima de F fijada pa-
ria un modelo de regresióu más restrictivo, auuque con mayor uivel de significatividad.
En la valoración de los ~alores de F de entrada mínimos, téngase además presente que' e) El procedimiento "paso a paso" de' I'ó '.
la significatividad del modelo no se ve sólo afectada por el nivel de riesgo que el investi- me LiSz n y ehmznación de variables
gador asume de equivocarse. También influye los grados de libertad asociados a la srnna Este tercer procedimiento de selecci' . .
de cuadrados de regresión y la suma de cuadrados residual (véase subapartado 1.5.3). '. una combmación de los dos precedente ;;~ secuenCIal de vanables predictoras es
s. s Un proceso de selecci6n "hacia delante"
Capflu1o./: Regresi6n múltiple 113
112 Análisis multivariable. Teoría y práctica en /a investigación sodal

que iucorpora los criterios de eliminación "hacia atrás", Añade al primer procedimiento -------~---------- SEL~CCI~:l
EJEMPLO DE PROCEDIMIENTO SECUENCIAL DE
..
la posibilidad de eliminar, en un paso posterior, una variable predictora introducida en DE VARIABLES PREDICTORAS ~J
un paso anterior. La incorporación Y eliminación de variables se ve sobre todo afectada
por el grado de colinealidad existente entre las variables independientes, Por esta ra-
zón se incluye, como criterio adicional para la incorporación de variables a la ecuación, En la búsqueda de un modelo de regresión ue ' '" ,
norteafrlcanos (marroquíes etc)" se s I q ayude a predeCIr la sImpa tia hacia los
su nivel de tolerancia (por ejemplo, 1OL i ¿0,01), minación de variables, p;r co~side~a~~g~: pr~cedlmlento "paso a ~a~o" de inclusión y eli-
busca la obtención de un modelo arsimania:aa ecuado a los propos.'~os del estudio, Se
Como en el procedimiento de inclusión de variables "bacia delante", el proce-
dimiento "paso a paso" comienza con sólo el intercepto (o constante), En cada paso
se van incorporando variables independientes a la ecuación de regresión (una a una),
calmeales, Los valores mínimos d:"F
para entr~¡,u~,evlte la Inc~rporaclon de variables muy
por defecto en el programa SPSS' 384 271 Y F para salir segUidos son los aplicados
La variable escogida será aquella que cumpla los mismos criterios que en la selección babilidades de F "de entrada" de O' Y"~ , I'~/~spectlvamente, que equivalen a las pro-
05
"bacia delante", Pero, a diferencia de la selección "hacia delante", en el procedi- significativo y no se juzga necesari~ dis ,e s~ I a de 0,1.0, Se busca un modelo altamente
miento "paso a paso" de inclusión y eliminación de variables no se considera defi- variables, Sobre todo, cuando se alcanz:~~u~ as eXigencIas d: entrada y de eliminación de
nitiva la incorporación de una nueva variable al modelo, Su aportación a la predic- de la varianza de la variable dependient ' 10delo de re,gresl~n que logra explicar el 48,4%
ción de Y es constantemente revaluada, tras la incorporación de una nueva variable ción de regresión, En la tabla A se re e, ¡nc uyendo seIs variables predictivas en la ecua-
sume e l modelo:
predictora al modelo de regresión, Para la exclusión de una variable predictora se si-
guen los mismos criterios que en la eliminación "hacia atrás", No obstante, hay que Tabla A
advertir que si quiere evitarse que una misma variable sea continuamente introdu-
cida y eliminada del modelo de regresión, hay que fijar un valor "F para entrar" mí- Rcuadrado Error tipo de Cambio en
Modelo R Rcuadrado corregida la estimación R cuadrado
nimo superior al correspondiente valor máximo de "F para salir", 0, lo que es
igual, "P-in" ha de ser inferior a "P-out", Recuérdense los valores mínimos reco- 1 ,593' ,351 ,351 2,1979 ,351
mendados por Afifi Y Clark (1990), por ser muy útiles en la práctica, de 2,07 en "F 2 ,676' ,457 ,457 2,0106 ,106
para entrar" y 1,07 en "F para saJir"; o los aplicados convencionalmente de 3,84 y 3 ,688c ,473 ,472 1,9821 ,016
4 ,692' ,479 ,477 1,9721 ,006
2,71, respectivamente, 5 ,696' ,484 ,482 1,9632 ,005
Si quiere examinarse la secuencia completa hasta que se introducen todas las va-
6 ,697 ' ,486 ,484 1,9595 ,002
riables, será conveniente establecer un valor "F para entrar" mínimo pequeño
(por ejemplo, 0,1, que corresponde a un valor "P-in" de 0,99), Lo que lleva inevi-
.
9. Variables predictor as (constante), Slmpatl8 latmoamerrcan . b V . bl .
tablemente a fijar un valor "F para salir" máximo inferior a 0,1. Después de exa- amencano, casar con marroquí" e Variables pred'leto ( 0, arra es predlctoras: (constante), simpatía latino
minar esta secuencia, puede hacerse una segunda corrida utilizando otros valores
1
e~es •¡~mlgraclon;
• .• .' ras: constante) simpat' ! r '
d Vanables predictoras: (constante) simp r r' ' . 18 a moamencano, casar con marroquí,
-
n. de mm"lgrantes; e Variables predictoras' (constante)' slm a t'~ ,atr~oamencano, casar con marroquí, leyes inmigración
F, Para más información, véase Nourisis, 1986; Afifi Y Clark, 1990; o Graybill e Iyer, n.o de .Inm.lgran.t;$,
. ',' " pa la atlnoamericano e r ' '
veCino marroquí; I Variables predictoras: ( . : as.a con n:arroqUl, leyes inmigración,
leyes mmlgraClOn, n. o de inmigrantes, vecino marroquí, sex~nstante), slmpatla lahnoamencano, casar con marroquí,
1994,
Como en todo procedimiento secuencial, el modelo de regresión se vuelve a es-
timar tras la incorporación y/o eliminación de una variable prediclora, Esta reconsi-
que es, de las 14 consideradas la más co I pre ~ctora ( slmpalia haCia latinoamericanos")
El análisis comienza con una única variable d' " ' , '
deración de la contribución de las variables independientes a la predicción de Y lleva
a la recomendación de este procedimiento para propósitos eminentemente explora- hacia norteafricanos"), como s~ vio en la rr:tcl~na a con la variable dependiente ("simpatía
gU?da en entrar es "casar con marro uf,m u~z e correlaCiones (subapartado 1,3,2), La se-
variable independiente más correlacio~ad~ ~on ~u;:le la doble condICión de ser la segunda
torios (Graybill e Iyer, 1994), Cuando el investigador desea la inclusión de variables
independientes concretas, con el propósito de comprobar una teoría, o a efectos pu- la variable antes introducida (r = -274) En total ' tanda, a s~ vez, poco correlaCionada con
ramente comparativos con otros estudios, puede forzar la incorporación de las varia- en el modelo de regresión, Ning~na d~ ellas son S~IS las vanables Independientes incluidas
bles de interés al modelo de regresión, En la mayoría de los programas estadísticos se va variable porque, como ya se señaló en la e~ ex~u sada tras I~ Incorporación de una nue~
ofrece la posibilidad de "forzar" la inclusión de variables, al comienzo o después del la colinealidad entre las variables independient::/~ de correl';.clones y cuando se describió
proceso de selección secuencial. Además, cualquiera de Jos tres procedimientos de se- tes entre las variables independientes, ' on pequenas las correlaCIones existen-
lección de variables secuencial permite experimentar con diferentes combinaciones de , La primera variable en formar el modelo d '' "
variables independientes en la búsqueda de aquella combinación de variables que me- nable que explica el mayor porcentaje de varia~:e~re~o(~;e
a e ,1
~'SlingUe además por ser la va-
de acuerdo con el coeficiente
0,

jor logre predecir el valor de la variable dependiente,


114 Análisis multivariable. Teoria y práctica en la investigación social
Capitulo 1: Regresión múltiple 115

R cuadrado corregido). Como es usual, tras cada incorporación de una nueva variable, au-
menta la proporción de variabilidad explicada y desciende el error típico de la estimación, aun- ~ionada esté la variable con la recién incorporada al modelo. Como las variables aquí ana-
que en menor proporción de lo deseable. Ello se debe al poco poder predictivo de las cuatro lizadas no presentan ~n grado elevado de colinealidad (como se comprobó en el suba-
últimas variables que se incorporan al modelo. Si la segunda variable ("casar con marroqur') partado 1.1.8), I~s coeficientes de pendiente apenas varían con la incorporación de una nue-
provoca un aumento en R del 10,6%, la tercera ("leyes inmigración") sólo del 1,6%. Las otras va vanable predlctora al modelo de regresión. Las mayores variaciones se producen en la
tres, inclusive menos: el 0,6%, 0,5% Y 0,2%, respectivamente. Estas últimas cuatro variables constant~ (o intercepto), especialmente, cuando se pasa del modelo 1 (con una sola variable
predictoras ("leyes inmigración", "n,o inmigrantes", ''vecino marroquf' y "sexo") apenas reducen independiente) al. modelo 2 (que incluye dos variables predictoras): de ,807 cambia a 3,147.
el error de predicción de la variable dependiente ("simpatía hacia norteafricano"), aunque son Este ?amblo e~ /oglco ya que se pasa de una recta a un plano (de dos dimensiones) de re-
incorporadas al modelo de regresión porque su contribución a la predicción de Y, aunque mí- greslon. Recuerdese que la constante es el punto de la recta (o plano) que "intercepta" el
nima, es significativa (p:> 0,05). eje Y. La variación en la constante es menor entre el modelo 5 (3,616) Y el modelo 6
En la tabla B se resume el análisis de varianza (ANOVA) para comprobar la signifi- (3,786).
catividad del modelo de regresión en su globalidad. Al haber un total de 1.280 casos válidos,
la razón F es significativa en los seis modelos obtenidos en cada paso, aunque su valor des-
ciende de 691,815 en el primer modelo a 200,879 en el modelo 6 (integrado por las seis va- TablaB
riables predictoras). El descenso es más acusado a partir del tercer paso y responde, fun-
Anova9
damentalmente, al escaso poder predictivo de las nuevas variables que se incorporan al
modelo de regresión. Tras una nueva incorporación disminuye ligeramente la propor- Modelo $umade Media
ción de casos por variables predictoras en el modelo, pero apenas aumenta la proporción cuadrados gl F Sigo
cuadrática
de varianza explicada en la variable dependiente. Esta mínima mejora en el ajuste del mo-
1 Regresión 3341,993 1 3341,993
delo es la causa principal del descenso en la razón F. Pese a ello, el modelo de regresión 691,815 ,000'
Residual 6173,717 1278 4,831
múltiple final, con seis variables predictoras, sigue siendo estadísticamente significativo, al Total 9515,710 1279
ser el valor de F empírico bastante superior al valor F teórico (2,10) correspondiente, pa-
ra 6 (número de variables independientes) y 1.273 (tamaño muestral menos número de coe- 2 Regresión 4353,291 2 2176,646 538,425 ,000b
ficientes calculados incluida la constante) grados de libertad y un nivel de significación de Residual 5162,419 1277 4,043
Total 9515,710 1279
0,05. La significatividad estadística del modelo era predecible por el elevado tamaño de la
muestra analizada. 3 Regresión 4502,713 3
En la tabla B obsérvese, además, los cambios habidos, en cada paso, en las sumas de Residual
1500,904 382,038 ,oooe
5012,997 1276 3,929
cuadrados de regresión y residual, como medidas de ajuste del modelo de regresión (o de Total 9515,710 1279
adecuación entre la nube de puntos y el hiperplano de regresión). 4 Regresión 4556,983
La tabla e describe la composición del modelo de regresión obtenido en cada paso. El Residual
4 1139,246 292,926 ,000d
4958,727 1275 3,889
primer modelo es de regresión simple, al estar integrado por una sola variable independiente Total 95t5,710 1279
(X5). Ésta es la variable más correlacionada con la variable dependiente. (r ~ ,593). Si se ele-
va su correlación parcial al cuadrado (.5932 ~,351), se obtiene que dicha variable explica el 5 Regresión 4605,457
Residual 4910,253
5 921,091 238,984 ,oooe
35,1% de la varianza de Y. Esta información coincide con la dada en la tabla A (,351 es el va- 1274 3,854
Total 9515,710 1279
lor R 2 corregido en el primer modelo).
Además, obsérvese que su coeficiente beta (f35~.593) coincide con su coeficiente de co- 6 RegreSión 4627,827 6 771,304 200,879 ,000'
rrelación con Y (como consta en la matriz de correlaciones). Esta coincidencia entre los Residual 4887,883 1273 3,840
coeficientes beta y de correlación sólo se produce en regresión simple, cuando la ecuación Total 9515,710 1279
de regresión incluye una única variable independiente. Si son dos o más las variables pre-
dictaras, ambos coeficientes difieren. Ello se debe a que, mientras el coeficiente de correlación a Variables predictoras: (constante), simpatía latinoamericano.
b Var!ables pred~ctoras: (constante), simpatía latinoamericano, caS¡¡tf con marroquí.
mide la correlación de la variable independiente con la dependiente, sin considerar las demás
: Var~abfes pred~ctoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración.
variables predictoras, los coeficientes de regresión (estandarizados o no) se ven afectados Vanables predrctoras: (constante), simpatía latinoamericano, casar con marroquí leyes inmi9ración núm Inm;.
por la correlación de /a variable independiente con las demás incluidas en el modelo de re- grantes. ' ,.
gresión, Cuanto mayor sea su correlación, más diferirán ambos coeficientes. a Variablespr~d¡ctoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración núm. inmi-
grantes, vecino marroquí. '
la colinealidad(o correlación entre las variables independientes) es, asimismo, la ra-
zón principal de las variaciones en los coeficientes de pendiente (estandarizados o no) de ( Variables pn~dictoras: (c?nstante), simpatía latinoamericano, casar con marroquí, leyes inmigración, núm. inmi-
grantes, vecinO marroqUl, sexo.
un modelo a otro. El cambio en la magnitud del coeficiente es mayor cuanto más correla- 9 Variable dependiente: simpatía marroquí.
116 Análisis multivariable. Teo,,',,''" y práctica en la invesligación social
Capítulo]: Regresión múltiple 117
Tabla e
r = ,573. Ésta es la mayor correlación habida entre las variables predictoras (véase matriz de
--c-'_.
correlaciones), aunque se sitúa aún lejos del valor ,80, que incita a la adopción de alguna me,
Coeficientes no Caef. Intervalo confianza
ModeJo estandarizados Estándar 95% Correlación Tolerancia FIV
dida que evite su incidencia negativa en el análisis de regresión, Los valores de tolerancia y
t Sigo
parcial FIV confirman lo dicho sobre colinealldad Los valores de tolerancia más bajos y de FIV más
B Error tipo Beta Límite Límite altos se dan en estas dos variables, aunque distan bastante de los valores que alertan de una
inferíar superior colínealidad severa: ,20 en tolerancia y 5,0 en F/V.

Constante ,807 ,201 4,019 ,000 ,413 1,201


Los errores típicos de los coeficientes son relativamente bajos, salvo los correspon-
X5 ,719 ,027 ,593 26,302 ,000 ,665 ,773 ,593 1,000 1,000 dientes a la constante, lo que concuerda con la variación de los coeficientes. Los errores
típicos más elevados en la estimación de los coeficientes se dan en las variables X , X
Constante 3,147 ,236 13,340 ,000 2,684 3,610 y X6 , siendo en estas variables donde la amplitud de los intervalos de confianza es mayor.
3 '3
X5 ,606 ,026 ,500 23,322 ,000 ,555 ,658 ,547 ,925 1,081 Pese a ello, la contribución de todas las variables predictoras en el modelo es significati,
X" -,916 ,058 -,339 -15,816 ,000 1,030 -,802 -,405 ,925 1,081
va estadísticamente y, en consecuencia, inferible al universo o población de la que se ha
Constante 2,256 ,274 8,237 ,000 1,718 2,793 extraído la muestra. Los coeficientes no se han obtenido por mera casualidad, al ser sus
X5 ,584 ,026 ,482 22,579 ,000 ,534 ,635 ,534 ,907 1,102 valores t empíricos superiores al correspondiente valor teórico (1,96), con una probabilidad
X" -,843 ,058 -,312 -14,448 ,000 -,957 -,728 -,375 ,886 1,128 de error del 5%. Además, la incorporación de una nueva variable no ha supuesto, en nin-
X, ,344 ,056 ,131 6,167 ,000 ,234 ,453 ,170 ,921 1,085
gún modelo, la expulsión de ninguna variable ya integrada en la ecuación de regresión.
Compruébese lo dicho en la tabla C,
Constante
X5
3,267
,570
,384
,026 ,470
8,506
21,912
,000
,000
2,513
,519
4,020
,621 ,523 ,888 1,126 °
Las razones que llevan a incluir a excluir a una variable del modelo de regresión se
X" -,815 ,059 -,301 -13,925 ,000 -,929 -,700 -,363 ,872 1,147 encuentran en la tabla D. En ella figuran las variables independientes que quedaron ex-
X, ,284 ,058 ,108 4,907 ,000 ,170 ,397 ,136 ,850 1,177 cluidas del modelo de regresión en cada paso, junto a sus coeficientes beta dentro y su sig-
X, -,357 ,096 ,082 3,736 ,000 ,544 -,169 -,104 ,844 1,185
ynificatividad,
FIV). los coeficientes de correlación parcial y las medidas de colinealidad (toleranCia
Constante 3,616 ,395 9,159 ,000 2,842 4,391
X5 ,559 ,026 ,461 21,416 ,000 ,508 ,610 ,514 ,875 1,143 Del primer modelo de regresión quedaron excluidas todas las variables excepto X , Una
X" -,690 ,068 -,255 -10,156 ,000 -,824 -,557 -,274 ,640 1,562 vez comprobado que el modelo de regresión simple con la variable X es significativo 5 es-
X, ,267 ,058 ,101 4,633 ,000 ,154 ,381 ,129 ,844 1,185 5
tadísticamente, se pasa a analizar si de las 13 variables excluidas del modelo, alguna pue-
X, -,347 ,095 -,080 -3,652 ,000 -,534 -,161 -,102 ,844 1,185
de ser incorporada. Salvo la variable X ,2 , cuyo valor t empírico (,308) es inferior al co-
X" ,358 ,101 -,088 -3,546 ,000 -,557 -,160 -,099 ,653 1,531
rrespondiente teórico (1,96), cualquiera de las doce variables restantes es una posible
Constante 3,786 ,400 9,458 ,000 3,001 4,571 candidata a ser incluida en el modelo de regresión. Pero, en cada paso, sólo puede ser ele-
X, ,558 ,026 ,460 21,429 ,000 ,507 ,610 ,515 ,875 1,143 gida una. La variable finalmente seleccionada es X por ser la que mayor contribución
-,698 ,068 -,258 -,832 -,565 ,639 lO
X" -10,281 ,000 -,277 1,566 muestra en la predicción de Y. El coeficiente de regresión estandarizado que esta variable
X, ,261 ,058 ,099 4,527 ,000 ,148 ,374 ,126 ,842 1,187
X, -,356 ,095 -,082 -3,751 ,000 -,543 -,170 -,105 ,842 1,187
tendría si se incorporase a la ecuación de regresión (beta dentro) es el más elevado (-,339),
X" -,348 ,101 -,086 -3.443 ,001 -,546 -,150 -,096 ,652 1,534 Compruébese en la tabla C que este valor coincide con el coeficiente beta que la variable
lO
X, ,265 ,110 -,049 -2,414 ,016 -,481 -,050 -,067 ,994 1,006 X presenta cuando se añade a la ecuación de regresión (modelo 2). Asimismo, su co-
rrelación parcial (-,405) es la más alta. Elevándola al cuadrado (-,4052 = ,164), se obtie-
." ..
Ion" ( Pi6' X . ~sexo" (P41); X5~ "simpatía ha-
, )" (P201)
. . ' X1""leyes Inmlgrac con)"marroquf'
3 .
) X 13: ''vecino ma. ne que el 16,4% del 64,9% de varianza de Y no explicada por el primer modelo (tabla A)
ci~ latlnoameñcanos" (P210); X6: unúmero de mmlgrantes
y. "simpatía hacia norteafricano {marroqUl... (P11)' X . "casar (P306;
'10'
rroquf' (PS06).
quedaría explicada con la inclusión de la variable X1O' La proporción de varianza que que-
daría explicada es exactamente: ,649 x ,164 = ,1064. X explica el 10,64% de la varian-
'O
za y. Sumando esta proporción a la explicada por X (,351
5
+ ,106 = ,457), se obtiene que
Respecto a 105 coeficientes de pendiente, la ~ d lo 1 es ella la única variable pre'
. ma or vanación en su valor se registra en ambas variables explican conjuntamente el 45,7% de la varianza de Y. Éste es precisa,
X , entre el modelo 1 (,719) Y el modelo 2 (,606). En :a:;;'o p~r la variable X . Aunque la co- mente el valor de R2 corregido que corresponde al modelo 2 (,457), que incluye como va-
d~tora '
mientras que en el modelo 2 esta acampa _ (
. bl (X X) es pequena r = -"
274) la inclusión
lO de la vanable
. d X
riables predictoras a X y X '
5 'O

rrelaclón entre ambas vana es 5 y 10 . . ( standarizado y estandanzado) e 5:., En el siguiente paso se elige a la variable X, por las mismas razones anteriores, Ob-
X 10 provoca un descenso lógico e~ !os COef!CI:!e~r :~:raCión en su coeficiente de pe~die~:e __ sérvese que en este segundo paso la contribución de la variable X en la predicción de Y de-
ja de ser significativa.
Por su parte, la variable XlO expenmenta ~n~ (b y = -,690) Este descenso en la contnbuclo~ _
4

entre el modelo 4 (b1O = -,815) Y el mode o 1'0 . 'n con la variable recIén Incorporada, X . El análisis de regresión concluye en el paso 6, al no haber ninguna variable cuya con,
de X10 en la predIcción de Y se debe a su corre aClo 13 tribución a la predicción de Y sea significativa. Los valores t emprricos de las ocho variables
excluidas del modelo de regresión son todos inferiores a 1,96.
118 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 1: Regresión múltiple 119

Tabla O Beta
Modelo t Correlación Tolerancia
dentro Sig Tolerancia FIV
Beta Correlación Tolerancia parcial mínima
Modelo dentro t Sig parcial Tolerancía FIV mínima X2 -,016' -,788 ,431 -,022 ,950
X, 1,052 ,637
-,049' -2,414 ,016 -,067 ,994
X, ,193a 8,636 ,000 ,235 ,962 1,040 ,962 X4 1,006 ,639
,012 6 ,567 ,571 ,016
X2 -,087a -3,867 ,000 -,108 ,998 1,002 ,998 X, ,957 1,045 ,636
,042' 1,912 ,056 ,054
X, -,044a -1,977 ,048 -,055 1,000 1,000 1,000 X, ,832 1,201 ,635
-,030' -1,33l" ,182 -,037
X4 -,053' -2,334 ,020 -,065 ,990 1,011 ,990 X, -,002 6 -,097
,788 1 ,270 ,633
-,169a ,923 -,003 ,890
X. -7,475 ,000 -,205 ,947 1,056 ,947 Xll ,008 6 ,386 ,700 ,011
1,123 ,637
X, ,155a 6,797 ,000 ,187 ,948 1,055 ,948 -,0276
,921 1,086 ,640
-,158a X" -1,286 ,199 -,036 ,940
X, -6,922 ,000 -,190 ,940 1,064 ,940 X14 -,0426 -1,887
1,064 ,639
-,090a ,059 -,053 ,828
X. -3,932 ,000 -,109 ,952 1,050 ,952 1,208 ,630
XlO -,339a -15,816 ,000 -,405 ,925 1,081 ,925 X2 -,018'
X ,069a 3,063 ,002 ,985 1,015 -,868 ,386 -,024 ,949 1,053
,085 ,985 X4 ,009' ~ ,636
,007a ,430 ,668 ,012 ,953
X12
" ,308 ,758 ,009 ,993 1,007 ,993 X, ,0401 1,820
1,049 ,634
X13 -,256a -11,505 ,000 -,306 ,929 1,077 ,929 ,069 ,051 ,831 1,203 ,633
,157a
X, -,028' -1,233 ,218 -,035 ,786
X14 -6,934 ,000 -,190 ,960 1,041 ,960 X, -,001' -,047
1,272 ,631
,963 -,001 ,890 1,124
X ,012' _ ,586 ,635
X, 131 b 6,167 ,000 ,170 ,921 1,085 ,886 ,558 ,016 ,915 1,093
X"" -,021' -1,026 ,305
,638
X2 -:042b -2,026 ,043 -,057 ,978 1,022 ,907 X'4 -,038'
-,029 ,928 1,077 ,637
-1,741 ,082 -,049 ,825
X, -,054b -2,609 ,009 -,073 ,999 1,001 ,924 1,212 ,628
X4 -,007 b -,326 ,745 -,009 ,970 1,031 ,907
X, -,112b -5,271 ,000 -,146 ,916 1,092 ,895 .. a Variables predictoras: (constante), simpatía latinoamericano; b Variables predictoras: (constante), simpatía lati-
X, ,086 b 3,992 ,000 ,111 ,904 1,107 ,882 noamericano, casar con marroquf; e Variables predictoras: (constante), simpatía latinoamericano, casar con ma-
X, -,082b --3,777 ,000 -,105 ,886 1,129 ,872 rroquí, leyes inmigración; d Variables predictoras: (constante), simpatfa latinoamericano, casar con marroquí, le-
X, -,028b -1,287 ,198 -,036 ,918 1,090 ,891 yes inmigración, n.o de inmigrantes; e Variables predictoras: (constante), simpatía latinoamericano; casar con
X ,042b 1,999 ,046 ,056 ,978 1,022 ,917 marroquí, leyes inmigración, n.O de inmigrantes, vecino marroquí; 1Variables predictoras: (constante), simpatfa la-
X"'2 ,007b ,340 ,734 ,010 ,993 1,007 ,919 tincamericano, casar con marroquí, leyes inmigración, n.o de inmigrantes, vecino marroquí, sexo.
X" -,104b -4,125 ,000 -,115 ,659 1,517 ,656 .. Y: "simpatía hacia norteafricano (marroquí...)" (P201); XI: "leyes inmigración" (Pi6); X : "ideología política" (P39);
X14 ,085b -3,944 ,000 -,110 ,910 1,099 ,876 2
Xs: "sexo" (P41); X4 : "edad" (P42); Xs: "simpatía hacia latinoamericanos" (P21 O}; Xa: ''número de inmigrantesn (P11);
X7: "regularizar a inmigrantes" (Pi9); Xa: "entrada inmigrantes" (P21); X : "partido racista n(P37); X : "casar con ma-
X2 -,024c -1,133 ,258 -,032 ,958 1,046 ,876 9 IO
rroquí" (P306); Xtl: "estudios" (P43a); X.) "ingresos" (P52); X13: "vecino marroquf' (PS06); X : "inmigrante delin-
X, -,049' -2,399 ,017 -,067 ,998 1,002 ,885 cuente" (P2904). 14
X4 ,004' ,201 ,841 ,006 ,963 1,039 ,873
X, -,082' -3,736 ,000 -,104 ,844 1,185 ,844
X, ,G60e 2,751 ,006 ,077 ,860 1,162 ,860
X, -,046c -2,043 ,041 -,057 ,805 1,243 ,805 1.6.2. Alternativas a la regresión de mínimos cuadrados ordinarios
X, -,019' -,896 ,371 -,025 ,914 1,095 ,860
Xll ,023c 1,103 ,270 ,031 ,956 1,046 ,884
X'2 -,012' -,561 ,575 -,016 ,972 1,029 ,886 El análisis de regresión expuesto en este capítulo resulta de la aplicación del
X13 -,091 c -3,632 ,000 -,101 ,654 1,530 ,646 principio de "mínimos cuadrados ordinarios" (OLS). El incumplimiento de alguno o
X,. ,058c -2,672 ,008 -,075 ,864 1,157 ,856
varios de sus supuestos básicos puede llevar, sin embargo, a la aplicación de procedi-
X2 -,G18 d -,871 ,384 -,024 ,951 1,052 ,836 mientos de regresión alternativos. A continuación se resumen rasgos diferenciadores
X, -,052d -2,557 ,011 -,071 ,996 1,004 ,843 de opciones alternativas más habituales:
X4 ,010d ,492 ,623 ,014 ,957 1,045 ,839
X, 048d 2,187 ,029 ,061 ,838 1,193 ,822
X, _:036d -1,604 ,109 -,045 ,792 1,262 ,791
X, -,012" -,553 ,581 -,015 ,906 1,104 ,837 A) Regresión de minimos cuadrados ponderados
Xll ,008d ,402 ,687 ,011 ,921 1,086 ,813
X'2 -,026d -1,263 ,207 -,035 ,940 1,064 ,816
X13 -.088d --3,546 ,000 -,099 ,653 1,531 ,640 El análisis de regresión de mínimos cuadrados ponderados (WLS) se presenta co-
X14 _,044" -1,963 ,050 -,055 ,829 1,207 ,809 mo una alternativa deseable cuando se incumplen, principalmente, dos de los supuestos
básicos de la regresión de mínimos cuadrados ordinarios: homocedasticidad e inde-
(.. ./... ) pendencia de los términos de error (subapartados 1.1.7 y 1.1.9, respectivamente).
120 Análisis multivariable. Teoría y práctica en la in.vestigación social

Capítulo 1: Regresión múltiple 121

Como su nombre indica, este procedimiento de regresión se caracteriza por "pon-


derar" los datos por el recíproco de su varianza, de forma que los "pesos" sean inversa- o equivalentemente: (Y + 1) = ea + p,x, ., ... + p X .
mente proporcionales a la varianza de los errores. De esta manera se logra una cierta re- ea + f31 X ¡ + ". + flpXp-1- siendo "e" la b d 11' p P. Esto es Igua] a: y ;:::
' ase e ogantmo natural . 1
distribución de la varianza: "Las observaciones con varianzas más grandes tienen menos O tras transformaciones Son la r ' .. . ' que es Igua a 2,72.
impacto en las observaciones asociadas con varianzas pequeñas" (Nourisis, 1994: 223). cación del principio de mínimo/:u~;;;;:a y la ~xponenczal. Ambas permiten la apli-
°
Si se quiere, se especifica un rango de potencia (el rango usual va de a 3) y un in-
cremento (por ejemplo, 0,2). En programas como el SPSS, por ejemplo, el rango de po-
puesto de linealidad. En la poi· , . lOS ordznarzos, cuando se incumple el su-
.,
funClOn de una variable independ· t '
znomzca a vanable dep d· .
en lente se conSIdera una
tencia aplicado por defecto va de -2 a +2, Yel incremento es 0,5. Después se evalúa la len e y una o más potencias de dicha variable.
Y- .
función de "log-likelihood" para todas las potencias incluidas en el rango; y se procede X
3XJ
- IX + f3 I I + f32X2¡ + f3 + ... + f3 X j"+ e
m
a la selección de la potencia que haga máxima la función de máxima verosimilitud Así se habla de modelo polinómico de o d . .
("log-Iikelihood"). La variable independiente (elevada a una potencia 0,1,2 o 3) que se eleva al cuadrado (Y = IX + f3 X + f3 X'i + r ):n 2, cuando la ~anable Illdependiente
logre un mayor "log-likelihood" se introduce en la ecuación de regresión. Después se al cubo (Y = IX + f3 X + a ~'2 1 al,,, 2 I e, y de orden 3, SI se eleva al cuadrado y
. l. I 1-'2-" I + f>3A ¡ + e).
calculan los coeficientes de regresión. La transformaCión polinómica se muestra a r ., d
Esto se hace para la variable independiente que se haya escogido como variable de lación entre una variable independi t 1 d P opla a cuando se observa que la re-
ponderación, al observarse (por ejemplo, mediante un gráfico bivariable de cada variable aumenta el valor de la variable ind:~ee~. a ep~ndlentecambia de signo, conforme
independiente con la dependiente) que la variabilidad de la variable dependiente no se nencial se adecua más cuando la r 1 .? lente. n cambIO, la transformación expo-
mantiene constante para todos los valores de la variable independiente. Por el contrario, pendiente aumenta o disminuye ee aClOn ~ntre la variable independiente con la de-
se halla relacionada con la magnitud de dicha variable independiente, que aumenta o dis- dependiente (y no tanto de signo) ~ mag~t~d'l al cambiar el valor de la variable in-
minuye (recuérdese el ejemplo del "gasto en vacaciones", cuando se observa una mayor o inferior a 1,0. Si es mayor de 1 O· 1 epende e coefIcrente de pendiente: si es mayor
variabilidad entre las personas de un mayor nivel de ingresos que entre aquellos de un E n la regresión exponencz·alla ' , a pen lente crece' SI es i f" d· .
t. ., , n enor, ISmllluye.
es ImaClOn de los coeí" . .
nivel de renta inferior), lo que supone la existencia de heterocedasticidad. mos a ambos lados de la ecuación E t d 1~lentes eXIge tomar logarit-
Las mejoras de la regresión de mínimos cuadrados ponderados respecto al pro- . s a a opta la forma sIguIente:
cedimiento de mínimos cuadrados ordinarios no son tanto en los coeficientes de re- log Y = log IX + f3(Jog X) + log e
gresión, sino en el error típico de los coeficientes. Estos suelen ser inferiores a los ob- Una última transformación la ofrece el d I h· ,
tenidos en la regresión OLS. Ello significa una mejor estimación de los parámetros, más mo: Y = IX+ f3 (l/X) + e. Berry y F Id 0;.0 e o lperbolico (o recíproco), definido co-
precisa, con la menor varianza posible. ciadora de este último modelo quee madn ( 985) destacan como característica díferen-
. . . ,cuan o e1 valor de la va . bl . d .
me?ta IllfImtamente, el valor esperado de Y se . "n~ e In ependJente X au-
B) Regresión no lineal: regresión polinómica y la estimación sera inferior ¡t "d' cuando "f3"es ne ativo Y si "a~roxlma ~ d. El valor esperado de Y
de máxima verosimilitud rá mayor que" d'; Y se aproximarla" IX'; desd! ~ POSI(¡VO, el valor esperado de Y Se-
cuando "13" es negativo) Una informació 'd amba (y no desde abaJO, como sucede
Cuando los datos a analizar no cumplen el supuesto de linealidad, habrá que op- cuentra en textos especi~liZados, com I~ m~s etaUada de estas transformaciones se en-
tar por un procedimiento de regresión "no lineal". Sea el caso, por ejemplo, de la re- Menard (1995). La transformación lo o:ít e erry y Feldman (1985) y el más reciente de
gresión logística (véase capítulo 2) y, en general, de la estimación de parámetros (in- se incJuyéen el siguiente capítulo d gd· llUcalYsu,reperCUSIón en el análisis de regresión
tercepto, coeficientes de pendiente, errores de estimación) mediante el método de , e lcad o a analisls logu.
máxima verosimilitud (ML). Se trata de encontrar la serie de estimaciones de pará-
metros que haga máxima la probabilidad de ocurrencia (véase el capítulo referido). LECTURAS COMPLEMENTARIAS
Pero ésta no es la única solución ante la "no linealidad". Existen otras que resul-
tan de transformaciones en la ecuación de regresión, que permiten la aplicación del ~llíson, P. D. (1999). Multiple regression California Sage
principio de mínimos cuadrados ordinarios. Entre estas transformaciones destaca la erry, W. D. (l993). Understanding regr~sSion assu;" . .
transformación logarítmica de la variable depeudiente, añadiendo 1 a la variable de' Fox, J. (1991). Regression diagnostics Newb P kPStlons, Newbury Park, Sage.
Graybill F A 1 '1 K , u r y ar , age.
pendiente para, a continuación, tomar el logaritmo natural. La raZÓn de añadir 1 es evi- . ' .. . e yer, r . . (1994). Regression a l · e .
hforma, Duxbury Press. na ySlJ: oncepL~ and applzcations, Ca-
tar tomar el logaritmo natural de 0, que es indefinido. Mediante esta trausformación, la
Guillén M F (1992) A T·
ecuación de regresión adopta la forma siguiente: ln(Y + 1) = (J. + f3¡X¡ + f32X 2 + ... + f3pXp; ; ...
d o 1OglCO . na lSlS de regresión múltiple Madrid CIS e d M
n. o 4. ' " u a erno eto-
Capítulo 1: Regresión múltiple 123
122 Análisis multivariable. Teoría y práctica en la investigación social

ANOVA
Hair, J. F., Anderson, R. E., Tathan, R. L. Y Black, W. C. (1999). Análisis multivariante,
Suma de Grados de Media
5." edición, Madrid, Prentice Hall. Modelo
cuadrados libertad cuadrática
F Significación
Hardy, M. A. (1993). Regression with dummy variables, Newbury Park, Sage.
Lewis-Beck, M. S. (1980). Applied regression. An introduction, Beverly Hills, Sage. Regresión 3,969E+12 1 3,969E+12 460,455 ,000
Miles, J. y Shevlin, M. (2000). Applying regression and corre/afian, Newburry Park, Sage. Residual. 1,389E+13 1612 8,619E+09
Sen, A. y Srivastava, M. (1990). Regression analysis: theory, methods and applications,
Regresión 4,296E+12 2 2,148E+12 255,052 ,000
Nueva York, Springer-Verlag. Residual 1,357E+13 1611 8,421E+09

EJERCICIOS PROPUESTOS Regresión 4,484E+12 3 1,495E+12 179,889 ,000


Residual 1,338E+13 1610 8,309E+09
1. Con la misma base de datos, se quiere predecir el valor de la variable "ingresos"
Regresión 4,573E+12 4 1,143E+12 138,415 ,000
a partir de cuatro variables independientes: sexo, edad, estudios y tamaño Residual 1,329E+13 1609 8,259E+09
del municipio. Comenta cada uno de los siguientes resultados:

Correlaciones

Ingresos Sexo Edad Estudios Municipio

,471 ,239 Coe!icientes Q


Correlación de Pearson Ingresos 1,000 ,107 -,291
,107 1,000 -,058 ,080 -,003
Sexo Coeficientes no Coefic. Estadisticos de
-,291 -,058 1,000 -,442 -,032
Edad Modelo estandarizados estandar. colinealiddd
,471 ,080 -,442 1,000 ,228 t Sigo
Estudios
,239 -,003 -,032 ,228 1,000
Municipio B Error tipo Beta Tolerancia FIV
,000 ,000 ,000 ,000
Sigo (unilateral) Ingresos 1 (Constante) 55123,524 4539,826 12,142 ,000
,000 ,002 ,000 ,432
Sexo Estudios 41368,712 1927,874 ,471 21,458 ,000 1,000 1,000
,000 ,002 ,000 ,053
Edad
,000 ,000 ,000 ,000
Estudios 2 (Constante) 52539,797 4506,572 11,658 ,000
Municipio ,000 ,432 ,053 ,000
Estudios 38590,370 1957,089 ,440 19,718 ,000 ,948 1,055
1.614 1.793 Municipio 2,344 E-02 ,004 ,139 6,232 ,000 ,948 1,055
Ingresos 1.793 1.792 1.792
N 2.280 2.492
Sexo 1.792 2.492 2.491
2.280 2.492 3 (Constante) 91911,243 9399,107 9,779 ,000
Edad 1.792 2.491 2.492
2.281 2.281 Estudios 33973,633 2172,209 ,387 15,640 ,000 ,759 1,317
Estudios 1.614 2.280 2.280
2.281 2.493 Municipio 2,483E-02 ,004 ,147 6,627 ,000 ,942 1,061
Municipio 1.793 2.492 2.492
-, Edad -666,821 138,975 -,115 -4,764 ,000 ,800 1,250

Resumen del modeloe 4 (Constante) 85163,544 9594,543 8,876 ,000


Estudios 33515,980 2170,175 ,382 15,444 ,000 ,756 1,322
R cuadrado Error tipo de la Durbin- Municipio 2,508 E-02 ,004 ,149 6,712 ,000 ,942 1,062
Modelo R R cuadrado corregida estimación Watson Edad -656,238 139,591 -,113 -4,701 ,000 ,800 1,250
Sexó 14889,155 4545,079 ,071 3,276 ,001 ,993 1,008
1 ,47¡a ,222 ,222 92.838,3113
2 ,490b ,240 ,240 91.767,4828 a Vanable dependíente: ingresos.
3 ,501(; ,251 ,250 91.155,7664
,254 90.881,5199 1,856
4 ,506d ,256

a Variables predictoras: (constante), estudios.


b Variables predictoras: (constante), estudios, municipio.
e Variables predictoras: (constante), estudios, municipio, edad.
d Variables predictoras: (constante), estudios, municipio, edad, sexo.
e Variables predictoras.: (c(lnstante), ingresos.
124 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 1: Regresión múltiple 125

Variables excluidasd pieza de la casa y el cuidado personal, y la relación de parentesco (cónyuge =1)'
-----~- b) por parte de la persona mayor dependiente: edad (años), género (mujer =1)
Estadísticos de colinealidad y la cOlresldencl~(vlve con familia = 1). Se realiza un análisis de regresión múl-
Modelo Beta t Sigo Correlación lIple (tras un análISIS faetonal para resumir los indicadores) "paso a "d'
dentro parcial Tolerancia cl" l" '. puo e~
. Tolerancia FIV minima USlon y e ImmaClOn de variables. En la medición de los factores ue influ en
en la actItud depreSlVa de los cuidadores (N = 202) se obtienen los sfguiente;re-
1 Sexo ,0703 3,185 ,001 ,079 ,994 1,006 ,994 sbUlta)dOeS en cada uno de los cuatro pasos de que consta el análisis (coeficientes
Edad - ,1023 - 4,204 ,000 -,104 ,805 1,242 ,805 eta. oméntese los resultados.
Municipio ,1393 6,232 ,000 ,153 ,948 1,055 ,948

2 Sexo ,073' 3,364 ,001 ,084 ,993 1,007 ,942


Variables independientes Depresión: actitud
Edad - ,115b -4,764 ,000 -,118 ,800 1,250 ,759 Modelos
1 11 III
,993 1,008 ,756 IV
3 Sexo ,071' 3,276 ,001 ,081
Factores de contexto
3 Variables predictoras en el modelo: (constante), estudios. Persona mayor:
b Variables predictoras en el modelo: (constante), estudios, municipio. Edad -,13*
e Variables predictoras en el modelo: (constante), estudios., municipio, edad. Género -,13**
d Variable dependiente: íngresos.
-,12*
Corresídencia
Cuidador:
Edad ,19** ,18""* ,17** 23***
Género ,12* ,13*
Histograma Gráfico de regresión parcial ,11*
Trabaja
Variable dependiente: ingresos Variable dependiente: ingresos Clase social subjetiva, -,?A*** -,25~'** -,20*** -,17*'**
800000,---:------------, Salud subjetiva -,33*** -,34***
Tiempo Como cuidador -,29*** -,22***
-,11*
600000-
o -,12** -,11 ** -,12**
Dedicación horas semanales
400000 Relación familiar: Esposo/a
200000
R cuadrado ajustado ,23 ,23 ,32 ,41
o Cambio en R cuadrado ,27*** ,27*** ,10*** ,08***
Des\!. tip.=l,04 ~ TestF 6,50*** 5,60*** 6,30***
Media "',07 ::'::' -200000 7,60***
i"-"'r"'-.-.--.-r.,-lN '" 1612,00 ~ *' p < ,10; ** P < ,05; ***p < ,01
-400000+_ _~--._-~--_r--_j
-40 -20 o 20 40 60

~~del estudio de ~oan Font ~1992) "La abstención en las grandes ciudades, Ma-
Regresión residuo tiplllcado Edad
3.
n ~ Barcelona (RE/S, n. 58: 123-139), se obtienen los resultados siguientes.
e omentese,
2. En la investigación "Las consecuencias psicosociales del cuidado informal a per-
sonas mayores" de Julián Montoro Rodríguez (Revista Internacional de So-
ciología (RIS), mayo-agosto, 1999: 7-29) se analizan las consecuencias del cui- ParticisPación Madrid - 75,4 - 0,5 Paro + 0,13 Asociación + 0,12 Estudios + 0,02 tamaño población
dado asistencial en los cuidadores derivadas de la ayuda informal a personas E rror t. 019 006 108
Coef . T " , 0,05
mayores con dependencia o discapacidad. Las variables independientes son: a) 2,7 2,2 1,6
por parte del cuidador: edad (en años), género (mujer = 1), situación laboral Error Y "" 3,7 R2:;;;: 0,51 Grados de libertad = 22 0,4
(trabaja tiempo parcial o completo = 1), posición subjetiva respecto de la cla-
se social (baja =1, media/baja =2, media =3, media/alta =4, alta =5), salud Participación Barcelona = 76,4 - 0,39 Inmigración + 0,15 Trabajo _ 0,17 Estudios _ 0,39 Paro
Error St, O 15
subjetiva (muy mala =1, mala =2, regular =3, buena =4, muy buena =5), tiem- , 0,06 0,13 0,18
Coef. T 22
po como cuidador (meses), horas semanales de dedicación a actividades rela- 2,5 1,3 2,5
Error y:: 2,5 R2 "" 0,56 Grados de'
cionadas con el transporte, los asuntos bancarios o legales, las comidas y lim-
126 Análisis multivariab 1e. 'Peor¡'a
.l.' y práctica en la investigación social

, ., Reher obtienen en su estudio de 1987 "La fecun-


4, Pedro L Inso y Davld-Sven _ 1887-1920, Un ensayo de interpretación"
didad y sns determmante~ en Esd~na, licativos de la fecundidad matrimonial

en Españalineal.
regresión para el mundo ur :no
Coméntense os slgmen
1
(REü; n,o 39: 45-118) vanos:o e os eX mediante la aplicación del análisis de
y rurat~s resultados referidos a la fecundidad
matrimonial rural de 1900:
Matriz de betas y de correlacIOnes Slmp 1es para fecundidad matrimonial rural, 1900
2
11 10 9 8 7 6 5 4 3 2 1

Jornaleros' (11) ,242 -,150 -,167


ANÁLISIS "LOGIT"
,402 ,595 ,320 ,207 -,153 ,561 ,013
(,402*) (,651") (,681*) (,445*) (,321) (,565*) (,608*) (-,085) (,048) (-,396*)
Pobo no agro rural (10) ,140 ,267 -,087 -,158 -,493 -,013 -,661 ,057 -,210
(,377*) (,532*) (,101) (,131) (-,106) (,282) (-,429*) (-,324) (-,110)
Migración (9) ,396 ,596 ,244 ,340 -,057 ,047 ,276
(,703') (,576') (,481") (,483*) (,526') (,279) (-,424*)
Urbanización prov. (8) -,065 ,586 ,058 ,376 ,538 -,056 ,215
(,420*) (,561") (,352*) (,611") (,058) (,186) (-,316)
Razón act. masculina (7) ,049 -,118 ,166 - -,161 -,679
(,458*) (,230) (,459*) (,300) (-,507*)
Mercado matr. (6) - - ,335 -
,115 (,614")
Analfabetismo (5) (,4!6") -,059 ,175 -,389
(,120) (,204) (-,527')
Secularización prov. (4) ,099 -,051
(,354') (-,442*) Una excelente alternativa al análisis de variables categóricas (predominantes en la
,q o (3) ,760 ,825 investigación social) la ofrece el análisis "logit". Ésta fue la denominación dada por
(,751 *) (-1,03)
Npcialidad (1m) (2) -,176 Berkson en 1944 (en "Application to the logistic function to bio-assay", ¡oumal ofthe
(-,412*) American Statistical Association, 39, 357-365), como forma abreviada de su expresión
Fecun. Mate. (1g) (1)
base: "Iogistic probabiJity unit", Tradncida al castellano como "unidad de probabilidad
Múltiple R ,402 ,663 ,802 ,671 ,635 ,727 ,684 ,558 ,917 ,859 logística" .
"Mi ación": el valor 1,000 expresa un saldo migratorio Con el término genérico "Iogit" también se hace mención a otro componente bá-
• "Jornaleros" y "población agrana" se expres~ e~ ~an~~~r c:~~~ón'" :Orcentaje de pobladón que vive en cas~os urbanos
i'n en edades activas I población masculina en eda~ sico del análisis: los logaritmos, "Técnicamente nn logit Se refiere a una diferencia en-
pobl~c~6n
nulo' un valor por debajo de 1,000 indica enugraClon, r:m
d ":ás de 5 000 habitantes, "Razón de actividad":
e~.., . , 1"
des no activas, "Mercado matnrnorua : raz n ,
mascu I a la edad media al casarse, "Analfabetismo": por-
6 demasculirudad en tomo a , ' d " n_"-
""S larizaci6n": porcentaje de voto a la lzquler a, 5"lO _
tre dos logaritmos" (Kennedy, 1983: 123), los correspondientes a los niveles diferen-
" 10 - s ue no sabe leer ni eSCribir, ecu
centaje de poblaclon > ano q
, '1" 1
" ' ' N cíalidad" =- 1 , "Fecundidad rnatnmorna "" g'
fallecidos entre ,0 y 5 años ~or mil. nac;do~, p~éntes¡s: coeficientes beta,
.. Entre parénteslS: COrrelaCIones slmp es, In. ' , ' _ 01
generalmente enunciada en forma binaria: y = 1 (ocurrencia del evento) e Y = (no
ocurrencia) ,
°
ciados en la variable dependiente, Ésta se caracteriza por ser una variable categórica,

o El asterisco (*) indica que la correlación es slgOlfIcatlva parap _, .

,340 J Migración ,596


Migraci6n P(Y = 1)]
Cuando el modelo predictivo de la variable dependiente se expresa en ténninos de
K
t,/x
(,438)
,561
,595 t (,651)
,320
,396 ~
(,576)
(,703)
,586
"logit", como: lag[ 1- P(Y = 1) = X K, se está ante la variedad analítica lla-

~ Jornaleros Urbanización 561) Mercado matrimoniaU mada "modelo logit" (Liao, 1994), Esta variedad deriva de los populares modelos
(,565) ,402>1, (,402) (,681) ,538 ~ (,0,58) , ,3351 (,614) -,679
loglinear para analizar relaciones de dependencia entre variables categóricas,
-P,493 PobL no agraria -,661
( ,492)
"'1 Mortalidad
I
J rNupcionalidad J (-,507) Los modelos loglinear se distinguen por su carácter simétrico, No diferencian
entre variables explicativas (o independientes) y variables de respuesta (o depen-
(-,106)
~ -389
,825 '\' (-1,03) -,1761 (-,412) dientes), Se incluyen dentro de las técnicas analíticas multivariables de interdepen-
dencia, Su objetivo principal es medir el grado de relación existente entre varias va-
r AnalfabetismoJ (-,527) Fecundidad matrimonial riables categóricas,

i '. . ~e directa o indirectamente explican la variable dependiente en más de 0,300 El modelo logit, por el contrario, se clasifica en el grupo de técnicas analíticas mul-
¡I, o Sólo se incluyen las relaCiones (beta) q. . l" aréntesis, los coeficientes beta.
0(-0,300). Entre paréntesis, correlaclOnes slmp es, Sin p tivariables de dependencia, al diferenciar entre variables dependientes e independientes.
'1
Ambos tipos de variables han de ser categóricas_ Cuando la variable dependiente in-
Capítulo 2: Análisis "logit" 129
128 Análisis multivariable. Teoría y práctica en la investigación social

. 'f t ) el modelo logit es binomial. Mediante la regresión logística se quiere predecir la probabilidad de ocurrencia de
cluye sólo dos categorías (la formulaCIón mas recuen e , . dos el modelo es un determinado evento (Y = 1) -como, por ejemplo, aprobar un examen, comprar un
Si el número de categorías de la variable dependIente es supenor a , libro, votar a un determinado partido en las próximas elecciones-, a partir de los va-
lores que presente una serie de variables independientes categóricas y/o continuas ana-
mul~::~~~l modelo predictivo de la variable dependiente se enuncia en términos de lizadas. A este objetivo plincipal se suman los comunes a la regresión: determinar el
probabilidad de evento: grado de relación existente entre las variables independientes y la dependiente y su sig-
nificatividad.

2.1.1. Relación con otras técnicas analíticas multivariables

U na de las técnicas analíticas multivariables con la que más se identifica la re-


gresión logística es la regresión lineal. Ambas son técnicas de regresión y comparten un
mismo objetivo principal: la predicción de una única variable dependiente a partir de
. ., "1 git") Éste se presen- dos o más variables predictoras (o independientes). Se quiere medir el grado de re-
e está ante un modelo de regresión logístIca (o de regreslOn o '.. , . _ lación de 1.a variable dependiente con las independientes y comprobar su significati-
~a como alternativa al análisis de regresión lineal cláSICO para la predI:?lOn d~ va~~ vidad. Si bien, ambos procedimientos analíticos difieren en los estadísticos que aplican
bies dependientes categóricas. Goodman (1972) lo llamó, preCIsamente, aproxImaclOn para alcanzar este objetivo principal.
de r~~~~~~~:c~d~~~::~~IO logit, en la regresión logística la predicción de lbalProba-
Ambas técnicas coinciden en exigir que las variables independientes sean continuas.
. d d' t uede hacerse con vana es pre- La incorporación de variables predictoras discretas o categóricas supone, en ambas
bilidad de ocurrencia de la vanable epen Ien.e p . cambio a variables modalidades de regresión, su previa transformación en variables ficticias. Entre los
dictoras continuas y/o categóricas. El modelo IO~lt, se restn~~~~; la form'a de "cova- aspectos fundamentales que separan a la regresión logística de la lineal destaca su distinta
categóricas. De existir variables continuas, ten nan que a consideración de la variable dependiente. En la regresión lineal se exige que ésta sea con-
riantes" r . "1 ·t" ge tinua, para así poder predecir su valor medio. En la regresión logística, la variable de-
Par; insistir más en las diferencias ent:e estas dos opci~n~ ~a ~~ct;92.o~edard- pendiente ha de ser, por el contrario, categórica, con dos (dicotómica) o más categorías
nerales en la literatura especializada (Aldr~chy r-:~lson, ,198c~" (:n ~ez' de "binomial": (politómica). De ella se predice, no su valor medio, sino la probabilidad de ocurrencia.
1995), en regresión logística se a~Ic~ el ad~~~:~eg~~~i~::e incluye dos categorías. Si Asimismo, mientras que en la regresión lineal se asume que los errores del compo-
como en los modelos,loglt) cuan. o advan t' nte un análisis de regresión logística nente aleatorio se hallan normalmente distribuidos, en la regresión logística se ajustan
el número de categonas es supenor a os, se es a a a la distribución binomial. La función que vincula a las variables independientes con la
politómico (en vez ,de "multi~o:uia~~): "1 oit" en su conjunto, incluyendo sus diversas dependiente es "lineal", en la regresión lineal, y "no lineal", en la logística. Adopta la for-
El presente capitulo trata e an SIS o". d I I l'near de obligada referen- ma de curva (en forma de S), con unos valores que oscilan de Oa 1. Recuérdese que en
opciones analíticas. También se exponen los mo e os og- l. ' regresión logística se calcula la probabilidad estimada "P (Y = 1)". El rango de valores
cia para comprender su variante asimétrica: el modelo loga. posibles siempre es positivo, yendo de O a +1, ambos inclusive. En la figura 2.1 se re-
presentan ambas funciones de vinculación: la "lineal" y la "logística".
En la regresión lineal los coeficientes de regresión se estiman aplicando el principio
2.1. lLa regresión logística de "mínimos cuadrados ordinarios". En regresión logística la estimación de los coe-
. .d ' a al análisis de variables de- ficientes se rige, esencialmente, por el procedimiento de "máxima verosimilitud":
La regresión logística constituye una alternatlvda I .~ned ste tipo de variables nO maximizar la probabilidad de ocurrencia del evento que se analiza.
. ,. ( I't t'vas) En la pre ICClon ele' 'ó l' eal princI-.
Pendientes categorlcas o cua é 1 al.
' t ulares como a I egresl n In ,
Pese a estas diferencias, y otras que se irán viendo a lo largo del presente capítu-
es aconsejable el empleo de t cmcas ar., pop 1 d . ferencia cuando se aplica lo, la regresión logística guarda bastante similitud con la regresión lineal. Por esta ra-
palmente debido a que ésta provoca senos prob emas e III e di' o en el capítulo zón se recomienda la revisión del capítulo 1 (de regresión múltiple) para realizar una
en variables dependientes categóri~as. Estas vanables -c~~::o s en iénninos de pro- lectura paralela, que ayude a la comprensión de las semejanzas y diferencias entre am-
1- exigen, por sus propias caractenstlcas, un tratamIento 1 1 , bas variedades de regresión.
babilidad.
Capitulo 2: Análisis "logít" 131
'a y práctica en la investigación social
130 Análisis multivariab1e. Teor ~,

gística esto supone, concretamente, no sólo que la forma del modelo en su conjunto sea
y correcta, sino, ante todo, que las variables independientes incluidas en el modelo sean re-
y 1 levantes en la predicción de la variable dependiente. Esto exige la omisión de toda va-
riable que se crea "irrelevante" en la predicción de la variable dependiente.
p La incorporación de una o varias variables irrelevantes repercute negativamente
en los resultados del análisis, principalmente, en los errores típicos de las estimaciones
de los parámetros, que tienden a aumentar. En relación a esto, Menard (1995: 59) ma-
OL-~--~ X
X tiza que "el grado al que los errores típicos son inflados depende de la magnitud de la
b) Regresión lineal correlación entre la variable incluida irrelevante y las otras variables en el modelo. Si
a) Regresión logística la variable irrelevante incluida está completamente incorrelacionada con las otras va-
Figura 2.1. Funciones de vinculación en la regresión logística Y en la lineaL riables en la ecuación, los errores típicos pueden no estar inflados en absoluto. Pero es-
ta condición -reconoce el autor- es extremadamente improbable en la práctica".
La omisión de variables relevantes en el modelo predictivo puede, por su parte,
2.1.2. Supuestos básicos: el análisis de los residuos ocasionar coeficientes de regresión logística sesgados. De manera especial, cuando se
b" s con la regresión lineal: hallan muy correlacionadas con variables que sí han sido incluidas en el modelo pre-
La regresión logística comparte cinco supuestos aSlCO
dictivo. Ello se debe a que la variable independiente afectada recoge el efecto de otras
variables predictoras, con las que se halla muy correlacionadas, que influyen iguahnente
a) Tamaño muestral elevado. 1 predicción de la variable de- en la variable dependiente, pero que han sido desestimadas para el análisis.
b) Incluir variables independientes relevantes en a
pendiente. .
c) Variables predictoras contInuas. . d' t as
d) Ausencia de colinealidad entre las vanables pre 1C or . C) Variables predictoras continuas
e) Aditividad. , . En regresión logística, como en regresión lineal, las variables predictoras pueden
A estos cinco supuestos básicos se suman tres específicos a la regresión loglStlCa: ser continuas (en intervalo) y/o discretas (o categóricas). La incorporación de estas úl-
timas exige, nO obstante, su previa transformación en variables ficticias, para poderlas
f) No-linealidad de la v~,riable dependiente. tratar a modo de variables continuas. El número de variables ficticias a crear será igual
g) Celdillas de "no cero . al número de categorías total de la variable original menos uno. La categoría no
h) Heterocedasticidad. transformada en variable ficticia (elegida arbitrariamente) actúa como "grupo de
referencia", respecto al cual se comparan los efectos de las variables ficticias creadas.
En regresión logística, como en regresión lineal, 10 habitual es asignar al "grupo de re-
A) Tamaño muestral elevado
ferencia" el código O. Éste es el procedimiento de codificación más seguido, debido al
. ., álisis de regresión logística se precisa, como interés que en regresión logística hay en "estimar el riesgo de un grupo 'expuesto' re-
Para una correcta real!zaclOn de un an . 1 vado Especialmente, cuando lacionado con el grupo de 'control' o 'no expuesto'" (Rosmer y Lemeshow, 1989: 50).
" l 'mea,
en regreslOn 1 que e1tamaño de la muestra
d' . seat ede
e · .. d L
máxima verosimLl¡tu. a ra-
l' mediante el proce lmlen o " Pero también puede seguirse otro procedimiento de codificación llamado "des-
los parámetros se es 1man d ' ble predictora para lograr un ana- viación de la media de todas las categorías". Consiste en asignar para una de las ca-
zón mínima recomendada de casos po,: c~l ~ ~~~aendiente (Ste;ens, 1986', De Maris, tegorías de la variable el valor -1 en todas las variables ficticias creadas. El resto de las
lisis fiable, es de 15 casos por cada vana. ,e 'may~r es la estabilidad de los co,efi<:ierJle'¡,,' categorías de la variable cualitativa original se codifica Oy 1, como en el procedimiento
1992). Cuanto más se supere esta proporclon,
de codificación anterior. De esta forma, cada coeficiente de regresión logística estimado
de regresión logística. expresaría lo mejor o peor que cada categoría de la variable original es comparada con
el efecto promedio de todas las categorías. A diferencia de la regresión lineal y del aná-
B) Variables independientes relevantes lisis de la varianza, por ejemplo, la aplicación de este segundo procedimiento de co-
dificación es menos común en regresión logística. Hosmer y Lemeshow (1989) 10
. ',. ' 1 eneralidad de las técnicas de análisis.
Un requiSito baS1CO que co,:,"parte a g t specificado. En regreSiÓn 10- explican por la mayor complejidad y menor claridad de la estimación de los coeficientes
variables es que el modelo analit1cO se halle correctamen e e
Capffulo 2: AnáLL,>is "logit" 133
132 Análisis multivariable. Teoría y práctica en la investigación social

. . d'f . 'ó de "desviación de U na vez detectada, los remedios a aplicar contra la multicolinealidad son, en re-
de regresión logit, cuando se aplica el procedmuento de co . ~ IcaCI ~n "grupo de refe- gresión logística, los mismos que en regresión lineal, a cuya relectura se vuelve a remitir.
la media de todas las categorías" respecto a la com~~rtCIO~s ~:es tiene más scntido
renda". A sU favor está, no obstante, el hecho de que a gun fr' 1999' 144)
d' "(Hutcheson YSo omou, . .
comparar cada categoría contra el vaIor prome !O b' Ad ás se obtendrá E) Aditividad
La elección de la categoría de "referencia" no siempre es o Vl~. em..' 1
un coeficiente de regresión para todas las categorías dedladvasen;:t~~1~nr~l~ctura del La regresión logística, como la regresión lineal, se asienta en el supuesto básico de
"00 ctos ya refendos con antenon a , que los efectos de las distintas variables independientes puedan sumarse en la pre-
snb:;~~~~~;~~, q:: t:~: de la transfonnación de variables cualitativas en ficticias. dicción de la variable dependiente.
Recuérdese que la no-aditívidad acontece cuando el cambio en la variable depen-
diente, asociado con un cambio de una unidad en la variable independiente, "depende"
D) Ausencia de colinealidad entre las variables predictoras del valor de una de las otras variables independientes. Para el análisis de regresión lo-
gística Menard (1995: 65) ilustra este supuesto básico con el ejemplo siguiente: "Un cam-
La multicolinealidad tiene en regresión logístic~ los mi~~os e::~: ::;~;~~~e:~ e~ bio de una unidad en la exposición a amigos delincuentes puede producir un cambio ma-

:~!~;~i~: ~~;:~~:~:el:~~:~~!~;d~~~~~!~~:l~~l:: de;e~~i~~tele0:::p~:~~;; ~: yor en la frecuencia o prevalencia del consumo de marihuana para individuos con
débiles o moderadas creencias en que es erróneo violar la ley (que puede ser más sus-
suman los siguientes efectos concretos pnnclpales: uno, la obtenc~on uada!ente la in- ceptible a la influencia de iguales) que en individuos con fuerte creencia en que es erró-

;:;~~:~~~~:~:~~[::~~~~~~::e ~:r:~~;e~~:n~;);r~;s~J:'~o~;'Se?¡c;:!ct";¡~ l;:e~~: neo violar la ley (que pueden ser menos susceptibles a la influencia de iguales)".
La comprobación de que se está ante un modelo "aditivo" es menos directa que la
ficientes también desorbitados. Todo lo cual afecta ~ la a ecuaClOn e. comprobación de otros supuestos, como el de colinealidad o linealidad. El marco
tivo, tanto en su ajuste global, como en la sigmf¡catlVld~d de sus co~fic~:~~~~. aplicados teórico de la investigación puede fundamentar la creencia de que se está ante un mo-
En la detección de multicotinealidad se siguen los nnsmos proce um delo aditivo. No obstante, es conveniente que dicha creencia se corrobore, analizando
en regresión lineal: todos los efectos de interacción posibles. Esta comprobación puede resultar relativa-
mente sencilla en modelos con pocas variables predictoras. Pero, conforme éstas au-
a) La matriz de correlaciones: toda correlación bivariab: (e~tre 1~s ;::;;~~;:~~ mentan en número, la comprobación de todos los posibles efectos de interacción
dependientes) superior a 0,60 es indicativa de un grado e cO mea ¡ acuando la co: entre ellas resulta cada vez menos viable y más tedioso.
a partir de 0,80 se considera elevado y, por tanto, preoc.upante, y, l' ,
rrelación es mayor de O90, se califica "alarmante" Y de lmpenosa reso ulclOnF·¡V
.' . 1 O01 o SU homólogo un va or F) No-linealidad de la variable dependiente
b) Un valor de toleranCia mayor o 19ua a" . ' . l'd d
igualo superior a 10,0, iudican, asimismo, la existen)cia de;;~~~l~(~ ~~s) ~~:
ve. Si bien, un valor de toleranCia de 0,20 (o menos Yde . el 1 atriz de A diferencia de la regresión lineal, la función de vinculación "logit" se caracteri-
en la ado ción de alguna medida al respecto. Pero, a diferenCia e ~ m '. za por ser "no-lineal". El cambio en la variable dependiente para un cambio de una
~orrelacio~es la utilización de estos dos índices no se hmlta a rel~c~ones ~~va­ unidad en la variable independiente depende del valor que dicha variable tenga.
riables' inforr:,an de la correlación existente entre cada variable m ep~n len- Cuando esto acontece, se dice que la relación entre las variables es "no-lineal". Esto
te con ¡as demás independientes. Si el programa informá~c~ que. selehJ;e~~~ sucede cuando la variable dependiente es categórica. Los modelos de regresión lineal se
la realización del análisis de regresión logística no mforma e?s mve es .ó ti- caracterizan por lo contrario: la "linealidad". El cambio en la variable dependiente aso-
lerancia" puede calcularse su valor realizando diversos análiSIS de regre~l n ciado con un cambio de una unidad en la variable independiente es constante, siendo
neal, por' separado, para cada var~able independiente actuando como epen- igual al coeficiente de regresión para la variable independiente.
diente en la relación con las demas mdependlentes. . 'es Hosmer y Lemeshow (1989) destacan las siguientes técnicas para detectar la
c) Como la colinealidad suele afectar a la cuantía real aumentando los coefic¡en; "no-linealidad" entre la variable predictora y la independiente:
s
de regresión un tercer procedimiento principal para detectar su predsenc¡aden °u
, fi . d gresión logísllca estan anza os s - a) Tratar cada una de las variables independientes como una variable categórica.
datos es observar si existen coe lClentes e re . . d . d
. al ""-b¡'én se recomienda comprobar todo coefiCIeute nO estan anza O A continuación, utilizar un contraste polinomial ortogonal para comprobar los
penores . ""H . t l'd d efectos de orden superior, lineal, cuadrático y cúbico, en la regresión logística.
superior a 2, como indicativo de una elevada mulflco mea l .a .
134 Análisis multivariable. l'eoria y práctica en la investigación social
Capítulo 2: Análisis "logit" 135

b) Más sencillo, agrupar las variables continuas en categorías en función de ~u dis-


La ventaja COn este p~ocedimiento es que el examen del gráfico Corres-
tribución en cuartiles o deciles. Estas categorías se representan despues me-
pondiente puede ayudar a Identificar casos con valores inusuales en la variable
diante variables ficticias. Recuérdese que tiene que crearse una variable ficticia
mdependlente o combinaciones de valores en las variables independientes y de-
menos que el número de categorías. El grupo más pequeño puede tomarse co- pendiente (Menard, 1995).
mo "grupo de referencia". . .
El modelo de regresión logística se reestima, sustituyendo en la ecuación
la variable predictora continua original por sus correspondiente.s variables fic- G) Celdillas de no-cero
ticias. Después se representan las estimaciones par.a las vanables fictlclas
contra los puntos medios de las categorías agrupadas. SI la vanable dependiente
En la regresión logit, como en el modelado log-linear y todo análisis basado en tablas
mantiene una relación "lineal" con la variable independiente, los pnntos re-
de contlOgencla, eXlste_ un problema a evitar: "celdillas cero". Este problema suele re-
presentados forman una línea recta. En caso contrario, se está ante una rela-
ción "no lineal".
laclOn~rse con el ta~ano muestral cuando se incluyen muchas variables predictoras en
el análiSIS, y c?n vanables categóricas (variables nominales, principalmente). Se presenta
cuan?o la vana~k dependiente no varía para uno o más valores de una variable inde-
c) Si la variable independiente contiene un número elevado de categorías (por
ejemplo, 20), los errores típicos tienden a ser elevados. Esto puede provocar que
pendJente cat.egonca. En variables continuas, e incluso ordinales, es habitual, por el con-
ni la linealidad ni ninguno de los efectos "no-lineales" pueda parecer ser esta-
trarIO, que eXistan medias condicionales de Oa 1 para algunos valores de las variables in-
dísticamente significativo, aunque en realidad lo sea.
dependientes, lo que restringe la.posibilidad de ocurrencia de este problema.
Ante esta situación, puede aplicarse la transformación de Box- Tidwell,
" DeMans (1992: 41) diferenCia dos tipos de "celdillas cero": "ceros estructurales"
propuesta por ambos autores en 1962 (en "Transfo~at~on of ~he independent y ceros muestrales".
variables", Technometrics, 4: 531-550). Consiste en anadir un termmo de la for-
ma "xln(x)" a la ecuación. Si el coeficiente para esta variable. ~s estadistican:ente
a) Los "ceros estructurales" (Everitt [1992] los llama "ceros a priori"· Ishii-Kuntz
[1994], :'ceros fijo~") n~ se relacionan COn el tamaño de la muestra. Se'deben a que
significativo, evidencia que existe "no-linealidad" en la relaCion entre la vanable
independiente y logit (Y).
Aunque su simplicidad y fácil aplicación pueda llevar a probarlo, Hosmer y
d~temunadas clasificaCIOnes cruzadas de las variables no pueden lógicamente ocu-
mr. En Un estudIO de diferenCias sexuales la probabilidad de padecer algún tipo
Lemeshow (1989: 90) advierten que dicho procedimiento tiene menos poder pa-
de cáncer,. por eJelllPlo, l~s casos de. cáncer de mama en los varones y de próstata
ra detectar pequeñas salidas de la linealidad. Asimismo, no especifica la forma pre-
en las ~uJeres, senan lógicamente lOexistentes en estos colectivos. El análisis se
cisa de la "no-linealidad", lo que lleva a la necesidad de complementarlo con otro
limtt,~na, en consecue~~ia, a las celdillas que contienen información al respecto.
b) Los c~ros muestrales acontecen, en cambio, cuando la muestra analizada no
procedimiento que ayude a determinar el modelo de "no-linealidad". .
d) Agregar casos en grupos definidos por los valores d~ la vanable mdependiente.
es sufiCientemente grande para que determinadas clasificaciones cruzadas de va-
Calcular la media de la variable dependiente. Despues, calcular elloglt de la me-
nables de baja ocurrencia en la población, Se recojan en la muestra. En pro-
dia de la variable dependiente para cada grupo y representarlo contra el valor de
grarr;a.s como BMDP o SPSS, por ejemplo, los "ceros muestrales" se ajustan au-
la variable independiente. Para cada valor i de la variable independiente X, la me-
tomatlCamente: al calcular los grados de libertad para comprobar un modelo.
dia de Y (en regresión logística) es la probabilidad "P(Y = l/X =1)".
Los ~rados de .libertad pU,eden verse afectados, adversamente, por "celdillas de
El problema con este procedimiento surge cuando, para algún valor X, el va- cero , dependiendo de como estén ubicadas en la tabla.
lor correspondiente de Y siempre es o 1 o O. Si esto sucede, no P?ede calcularse
logit (Y). Éste será igual a "±=" (o infinitamente grande o mfimtamente p~­
queño). Este problema puede, no obstante, solventarse con alguna de las SI-
" L~je~stencia ~e,:'celdill~s cero" es un problema en este tipo de análisis porque los
odds : odds rat:o (o razon de probabilidades) y "logit" son indefinidos cuando el
guientes actuaciones: denommador esta compuesto por "ceros".
Ante la existenci~ de ".celdillas cero" se han propuesto una amplia variedad de re-
1. Agrupando categorías adyacentes con probabilidades similares, pero de- mediOs. Entre los mas aplicados destacan los siguientes:
siguales. .
2. Asignando una media arbitrariamente grande (por ejemplo, 0,99) a a) Eliminar la categoría de la variable afectada.
grupos con una media de 1, y una media arbitrariamente pequeña (por
b) Aumentar el tamaño de la muestra para así eliminar la presencia de "ceros
ejemplo, 0,01) a grupos con una media de cero. muestrales".
r , .' m ul' . ble. . 7'eorfa)' !'JTlÍctica en la investigación social
Capítulo 2: Análisis" logit" 137
136 AnallSls llvarw

., ' le inde endiente categórica afectada (previo al análisis), • En la comprobación de éste, y demás supuestos de regresión logística (como en
c) RecodlfIcar la vanab y., l' , a do aquellas qne causen
d categonas slmüares, ya e lmm n regresión lineal-véase subapartado 1.1.10-) adquiere nn protagonismo especial el aná-
ya sea agrupan o d o ción puede ser más viable que la anterior, aunque lise, de los residuos, Éstos se definen, igualmente, como la diferencia entre el valor ob-
problemas. Esta S~,gu~ ~e~ción más cruda de la vadable independiente y ses- servado en la variable dependiente y su correspondiente valor estimado, a partir de la
puede resultar en uln " entre la variable dependiente Yla predictora a cero" ecuación de regresión, Pero, en regresión logística la diferencia se hace en ténrúnos de
garla fuerza de la le acwn . , ' t 'ipal re probabilidad: de la observada y la estimada.
d 1995' 69) A ello hay que añadIr un mconvem,en e pnnc, , p se~-
(Menar , ' . '. . d agrupación: la pérdida de mformacwn e, melusl-
te en todo procedlmlento e E¡ = P(Y¡ = 1) - P(Y¡ = 1)
d' ., d 1proceso que se modela,
ve, Ia lstorswn e den sin embargo reducirse (haciendo de este re-
Estos mconvementes pue, ' .., . Donde: "P(Y.J = 1)", es la probabilidad estimada de Y.J = 1, a partir del modelo de
. ' d ble) cuando coinciden las dos sltuacwnes slgmentes:
medlo una alternativa esea regreslón logit.
, d. la variable predictora que se agrupan se encuentren
L Las categonas e t l Además, en regresión lineal el error se asume que es independiente de la media
unidas realmente mediante algún vínculo concep, ua . ,
. 'b . , de la vadable dependiente, a traves de las categonas de condicional de Y. En regresión logística, en cambio, la varianza de error se considera
2. La dIstn ucwn . una función de la media condicional. Ésta es la razón pdncipal de que los residuos (co-
la variable predictora, se aseme¡a. mo estimaciones de error) se estandaricen, ajustando por sus errores típicos, De este
.' d' 1 puede optarse por modelar la variable como si fue- modo se calcula el residuo de Pearson o residuo estandarizado (SPSS) o ehi (SAS): di-
Slla vanable es o, ma, vidiendo la diferencia entre las probabilidades observadas y las estimadas por la
, (H er YLemeshow, 1989: 84).
se contmua osm . d "eldilla" (de cruce de las categorías de las va- desviación típica binomial de la probabilidad estimada. Hosmer y Lemeshow (1989)
d) Aumentar las frecuencl;,s ~n~pequeña cantidad constante (habitualmente los definen mediante la ecuación siguiente:
riables), sumando a to as
0,5) antes de proceder al ~?-áliSi~, también se logra eliminar "celdillas de cero", _ _ p(Y¡ = l)-P(Y¡ = 1)
Con este cuarto pro ce uulen °d
, b' h
E 'tt (1992)- que este procedimien-
atizar -de acuer o con ven
Z¡ - X¡ - "p )l '( )T
Ií'(Y¡ = 1 1 - P Y¡ = 11J
SI len, ay que m d' t nurn'ero elevado de "ceros de muestreo",
lt table cuan o eX1S e un
to no r~su a acep mentaría artificialmente el tamaño de la muestra,
La razon está en que au . , t . Cuando el tamaño de la muestra es grande, el residuo estandarizado (llámese "Z/'o
Ishií-Kuntz (1994) añade dos opciones alternallvas a es a. "E,,", como en regresión lineal) se ajusta a la distribución normal (con media cero y
desviación típica 1),
L Añadir una pequeña cantidad, como por ejemplo, 0,2; aunque sólo a las
Si el residuo se divide por su varianza, en vez de la desviación típica, se obtiene el
"celdillas de cero". 'd d "" . al al residuo "Iogit" (Menard, 1995):
2. Añadir el valor "l/r" a las "celdillas de cero', on e r es 19U
número de categorías de respuesta. p(Y¡ = 1) - p(Y¡ = 1)
p(Y¡ = 1)[1- p(Y¡ = 1)]
H) Heterocedasticidad
Con cualquiera de estos residuos puede comprobarse supuestos como el de linealitU¡d,
J ' • analíticas que asumen "errores normales" se normalidad u homocedasticidad, a modo de lo hecho en el análisis de regresión lineal.
En regresión lineal y :e~~a~~~;~~ependiente es constante e independiente de la Igualmente se aplica a la detección de "atípicos", de gran interés en la mejora del modelo
parte de que la vaYlanza e a , , 1 't' a como en el modelado log-linear en
. (h d ' 'd d) En regreswn OglS IC , . 1 de predicción. Este particular se trata postedonnente, en el subapartado 2.1.5.3.
media omoce astlCI a . 1 ' d d s dl'stribucionales de la vanab e
bio que as prople a e .,
general, se asume, en cam .' f .ón fija de la media, La regreswn 10-
dependiente restringen la varzanza abser unaleUs?,C1La varianza se da mediante "var(Y) 2.1.3. Fases principales en su aplicaci6n
" . t ' me "errores momIa . d'
glstlca, en ~oncre o'"a~~ media de Y. (Recuérdese que en muestras grandes la 1S-
= p(l - p) ,donde p es la. 1 1) Por su parte en los modelos log-linear los En la elaboración de un modelo de regresión logística se siguen fases similares a
tribución bi,,:omial se aPdrotXlmb~c~ó~ ~~r;~~son (Hutches~n y Sofroniou, 1999). otras técnicas analíticas; desde las iniciales, imprescindibles para un desarrollo adecuado
errores se ajustan a la 1S TI
138 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 2: Análisis "logit" 139

del análisis, hasta la evaluación e interpretación del modelo empírico que resulta de los
análisis. Estas fases se esquematizan en la figura 2.2. PREÁMBULOS DEL ANÁLISIS DE REGRESIÓN LOGÍSTICA
1.0
e Elaboración de un modelo de regresión teórico en consonancia COn el
2.1.4. La ecuación de regresión logística y su interpretación marco teórico de la investigación
• Selección de los casos a analizar
Mediante el análisis de regresión logística se trata de comprobar la probabilidad de • Comprobación de los supuestos básicos para un anáÍisis de regresión lo-
gística
que un evento concreto ocurra, a partir de la observación de una serie de variables in-
dependientes. El componente sistemático del modelo predictivo se asemeja bastante • De~uración de los datos: tratamiento de los "casos sin respuesta" (o da-
tos lllcompletos)
al de regresión lineal, al igual que la interpretación de sus coeficientes principales (véa-
• Indagación exploratoria. Incluye el análisis de correlaciones bivariables
se apartado 1.4). La ecuación general para la regresión logística es la siguiente: a partir de la matriz de correlaciones

~
R ESTIMACIÓN DEL MODELO DE REGRESIÓN LOGÍSTICA
Adviértase que se ha optado por la letra "k", en vez de "p", en referencia a las va-
E 2.°
riables independientes (o predictoras) en el modelo, para no confundirlo COn "P", que • Obtención de los coeficientes de regresión
expresa probabilidad. Salvo esta particularidad, la ecuación es similar a la de regresión P • El error típico de los coeficientes
lineal. Las letras griegas "a" (alpha) y "f3" (beta) se emplean para simbolizar los L • La significatividad de los coeficientes
parámetros poblacionales. Las letras latinas "a" y "b" representan, en cambio, las es- A
timaciones muestrales.
~
N
La constante (o intercepto) puede, asimismo, identificarse indistintamente mediante T
las letras" d' o "f3o". Expresa el valor de la probabilidad de Y cuando las variables in- E LA EVALUACIÓN DEL MODELO DE REGRESIÓN OBTENIDO
dependientes son cero. Su valor se ve afectado por cómo se definan las variables. Lo
A
habitual es que no sean interpretables. "En ocasiones el coeficiente de intercepto se- 3.° • El ajuste del modelo global
R
rá de interés, pero ésta es la excepción, no la regla" (Rosmer y Lemeshow, 1989: 38). ., La significatividad del modelo de regresión, desde la vertiente es-
Los coeficientes de regresión logística (f31' f32.. • f3k ), o coeficientes de pendiente, in- tadística y lógico-sustantiva
forman, igualmente, cuánto varía la probabilidad de ocurrencia de Y ante un cambio • La eficacia predictiva del modelo
de unidad de la variable independiente correspondiente, manteniéndose las demás va- • La detección de casos <'atípicos"
riables explicativas constantes. Si el signo del coeficiente es positivo, significa que la
variable a la que corresponde aumenta la probabilidad de ocurrencia de Y (por ~
ejemplo, aprobar un examen, padecer una enfermedad, tener hijos), en la cuantía ex-
presada por el coeficiente "f3". Cuando el signo de "f3" es negativo, se interpreta co- I Ner
va
I Positiva I
mo disminución de la probabilidad de Y. Un coeficiente de "f3" de cero expresa au- t
sencia de cambio en la probabilidad de Y, probabilidad que aumenta, conforme se '---4. 0 INTRODUCCIÓN DE CONCLUSIÓN DEL ANÁLISIS:
MODIFICACIONES
incrementa el valor de "f3". presentación de resultados
Asimismo, el término "8" representa el término de perturbación o el error de es-
timación. Figura 2.2. Fases pnnclpaIes de Un análisis de regresión logística.
Pero, a diferencia de la regresión lineal (donde la variable dependiente se carac-
teriza por ser continuo.), en la regresión logística (caracterizada por tener una variable sus valores medios. Por esta razón se prefiere sus valores medios. A partir de ellos se
dependiente categórica) el efecto de la probabilidad de ocurrencia del evento Y no es calculan los ~ncrementos de probabilidad, como después se verá.
lineal, varía con el valor de la variable independiente. Es menos importante en los va- S1 se escnbe el modelo logístico en términos de log odds (también llamado logit [y])
lores extremos de las variables independientes y, por el contrario, más importante en -ellogantmo natural de la razón de probabilidad de que ocurra un evento respecto a
Capitulo 2: Análisis "logit" 141
140 Análisis rnultivariable. Teoría y práctica en la investigaci6n social

., t . I variables independientes con la (Hosmer y Lemeshow, 1989: 6-7). A estas propiedades Liao (1994: 15) añade que el
la probabilidad de que no ocurra- la relaclon en re a~ter retación más directa de los "log-odds ratio tiene las mismas propiedades de los efectos aditivos, incluyendo el sig-
dependiente se convierte en lineal. Esto fac¡[lta una 1 p. d 'ón r 1 no del efecto que se demarca por O" .
., " d de los coefrclentes e regresl mea.
coeficientes de regreslOn log/.Stlca, a mO o d' . "'n (sl'gno negativo) de una
' gno positivo) o IsmmuclO
De esta manera, un aumen to (sl . lI 't (Y) -el "Iog" de
unidad en la variable independiente tendrá el mismo efecto en e ogI .LogJt
. (Y) = In r P(Y = 1) '1 = a + f3¡X¡ + f3 X , + ... + f3kXk
2
1-P(Y = 1)
los "odds"- de la ocurrencia del evento. .. . babilidad de
Por odds ratio (lJI) se entiende la razón de probablildades. la pr~
que se presente un evento respecto a Ia pr obabilidad de que no ocurra. Esta transformación de odds en logaritmo natural de odds produce una variable
que varía desde "~,, (cuando P [Y = lJ = O) hasta "+=" (si P [Y = 1J = 1). Su valor ab-
Probabilidad de ocurrencia de Y soluto aumenta gradualmente conforme odds disminuye de 1 a O. El aumento es en di-
Odds (de ocurrencia de evento) = probabilidad de nO ocurrencia de Y rección positiva, cuando odds aumenta de "1" a "OQ",
P(Y = 1) _ P(Y = 1) El modelo así expresado lleva a los modelos logit. Su interpretación es, no obstante,
más compleja. Los coeficientes 131' 13, ... f3k se interpretan como cambio en el log-odds
= 1 - P(Y = 1) - P(Y = O)
asociados con un cambio de una unidad en la variable independiente correspon-
diente. Si, por ejemplo, el coeficiente para la variable independiente "horas de estudio"
Conociéndose una de las probabilidades, puede saberse la ottra'r'; ~;~ 2~ =(s¡e~:o(~ =p;2: es 0,69, significa que, conforme el número de horas de estudio aumenta en una unidad,
. I .I ción de aprobados en una asigna u , ellog-odds de aprobar el examen aumenta, asimismo, en 0,69, manteniéndose las de-
Por eJemp o, SI a propor d' t O 35) los odds a favor de observar un aproba-
porción de suspensos correspon len e, .' . . más variables predictoras constantes.
do, cuando se extrae un sujeto de la poblaclOn al azar es. Mediante log-odds los parámetros pueden interpretarse como el efecto lineal de
cambio de una unidad en una variable independiente en el logaritmo de la razón
P(Y = 1) = 0,65 = 1,857 de probabilidades (log-odds ratio) de un resultado. Este logro ofrece, sin embargo, la
Odds (aprobado / y = 1) = 1 - P(Y = 1) 0,35 salvedad de una interpretación menos comprensiva. Como bien señala Long (1987:
t I azar un alumno que ha sus- 423), "poca gente encuentra esta interpretación como comprensible, como una in-
Este resultado significa que, cada vez que se ex rae a t 1 857) terpretación que es lineal en su efecto en las probabilidades". Y lo argumenta com-
. . I han aprobado (exactamen e" .
pen~~~ (~::~~ ~~s~~~~a~~~~~~s5~:esenta sólo valores pOSi~vlo)s'..Sion nhin~~~,~~it~ parando las siguientes dos afirmaciones en las que se comparan los coeficientes de pro-
babilidad lineal y logit, tomados de Amemiya (1981):
'bl de O cuando P(Y - - , as ,
superior. El rango de valores pOSI es va b.'· odela la probabilidad de ocn-
P(Y '" 1) = 1. El límite inferio~es c~ro. En ca: f3lo~1 :e~+ f3,;K , surge el problema de a) "Un aumento de una unidad en educación aumenta la probabilidad de votar al
rrenCla P (Y = 1) como P (Y -1) - a+ f3lX I 2 2 .k 1 partido republicano por 0,05" .
. h d P (Y - 1) inferiores a Oo supenores a .
obtener valores predlc os e - d b bTdades de ocurrencia y no b) "Un aumento de una unidad en educación aumenta ellog de los odds de votar
Un odds próximo a 1,00 mforma que la~ os proapar~~ar un ~xamen) son iguales al partido republicano como opuesto al demócrata por 0,00125".
ocurrencia de un evento (por ejemplo, apro ar o nO .,
.. ' I ) L . nifica que nO existe ninguna relaclOn. De estas dos afirmaciones, la "a", que es lineal en probabilidades, resulta de más
(o casllgua es. o que slg . /, b bTd d de que el evento acontezca
Un odds> 1,00 muestra que eXiste mas pro a I I a fácil comprensión por la mayoría de la gente. La segunda aseveración, la "b", que es
(aprobar) versUS su no ocurrencia. b bil'dad de que el evento ocurra versUS su lineal en el "log de los odds", resulta, por el contrario, de peor comprensión, pese a re-
U n odds <, 1 00 expresa una menor
.
pro a l . , .
. t cía de una relacIOn Inversa. flejar, más adecuadamente, el proceso causal.
no ocurre,ncia (no aprobar). Inddlcal'Opo~ ~~:~~:a~~~t;:IOS efectos positivos y los ne- Para facilitar la interpretación (de más fácil comprensión en términos de odds -o ra-
Recuerdese que 0,0, en vez e, e .,' 1 ZÓn de probabilidades- que de log-odds), se propone la transformación exponencial del
gativos para modelos aditivos.como el ~e regresl~~'(:~~ón de probabilidades), de- logit (Y). En ella, un aumento de unidad en X; siempre produce el mismo cambio en 10-
Si se realiza la transformaclón logantmlca de o . 1l muchas de las pro- gil (Y), mediante la exponenciación: Odds (Y = 1) = e'og,m. El exponente (e" o exp [X])
nominada log-odds-ratio o log-odds, se obtIene loglt (Y), YcO,n e o uede ser conti- es el inverso del logaritmo natural (In [X]). Su valor es 2,718 y su empleo configura la
piedades de la regresión lineal. "EIlogit es lineal en sus parametros;t lores de X)" ecuación de regresión logística. Recuérdese que el logaritmo Y de un número X es aquel
nuO y pue de osel'1 ar d esd"
e " hasta "+=" (dependiendo del rango e va
-00
4
Capitulo 2: Análisis "logit" 143
142 Análisis multivariable. Teoría y práctica en la investigación social

En resumen, la interpretación de los coeficientes de regresión logística resulta más


que satisface la iguald~d
"X = 10 ". Es
Y
dec~r, ~~ ~s~og~~a1~1~~ d~::::~ ~~~a::~ ~~ sencilla cuando se toma" eP". Su valor expresa que, por cada incremento en una uni-
dad de la variable independiente, el odds estimado de Y = 1 se multiplica por "e P",
para obtener X. Por e~mto~, eI1o(y~~~~0')e El logaritmo de cualquier número inferior
= 10°); Yellogantmo e . es _. ue es menor o igual a Ono está defi- cuando los valores de las otras variables independientes se mantienen constantes. El
a 1 es negativo. Y ellogantmo de.un valor die X q b Una ¡'amiliar es el número odds estimado de Y = 1 cambiará, de este modo, en un porcentaje "(eP-1) x 100", por
. . den tomar cua qUler ase. cada incremento en una unidad de la variable independiente, a modo de lo ilustrado
mdo. Los logantmos ~ue d I base "e" son los logaritmos naturales (Iog,
"e = 217183". Los logantmos toma os a a X en el ejemplo anterior. Si el coeficiente "f3" es superior a 1, habrá aumento en odds de
' 1 " " ara obtener
In~pSf¡~:~!o::~~!~~~::~~i~~be:~:::~~~al~Ia~CUaciÓn re~resión logíStti~a
la probabilidad estimada de Y, al aumentar el valor de la variable independiente. Si es
o de que- inferior a 1, odds de P disminuye, conforme la variable independiente aumenta.
. M F' dd (1974) de la manera SlgUlen e. La constante (o intercepto) representa, asimismo, el valor de logit (Y), cnando las
da finalmente definida, sigUiendo a c a en ,
ea+fJ1Xl+~X2+ •. ,+(3KXK
variables independientes tienen un valor de cero (X, = X 2 = ... = X K = O). El odds es-
timado de Y = 1 es "ea".
P(Y =: 1):;:: 1 a+fJ1X)+A.X~+.,,+fJKXK
+e Mientras que en el modelo logit (donde los datos se formulan en términos de una
tabla de contingencia) los coeficientes se interpretan como log-odds ratio, en el análisis
' d d d ue un evento concreto ocurra. Dicha
Esta ecuación representa la probabili a e q d I ' e de "k" va- de regresión logística los odds ratio ('11 = ep) se convierten en los parámetros de inte-
_ di . d el conJ'unto de valores que a opte a sen rés, en gran parte debido a la mayor facilidad de su interpretación. Hosmer y Le-
P.robabilidad esta con clOna a por f 'ó l' eal de las variables in-
. El b' P(Y= 1) no es una unCI n m meshow (1989: 44) advierten, no obstante, que su estimación es correcta, cuando la va-
nables ~redictoras. .cam lO en ría de endiendo del valor de las variables pre-
1;
dependientes. ~ pe~diente de la c~a v: ex~onenciación del coeficiente estimado riable independiente esté codificada como O o 1. "Otro tipo de codificación puede
dictoras. Ademas, ten~ase presen e qu romedio' la media geométrica. requerir que se calcule el valor de la diferencia logit para la codificación específica uti-
expresa los odds relaclo~ados con un ?~,~ p(Y _ O) -'1 _ P (Y = 1) se obtiene de la si- lizada y después exponenciar."
La probabilidad de no ocurrencia -- Los coeficientes de variables ficticias (O - 1) representan el incremento en ellogit aso-
guiente ecuación: ciado con categorías específicas de la variable cualitativa original. Con la exponenciación
de estos coeficientes se obtiene el odds ratio estimado para aquéllos en la categoría de in-
1 terés frente a los de la categoría de contraste o de referencia en variables continuas. La in-
P(Y ::;; O) = 1 a+fJ\X¡+{J¡x2+· ..+fJ«xK
+e terpretación es similar, en términos de razón de probabilidades (odds ratio).
. . d d' te de regresión logística se inter- A la puntualización anterior hay que añadir el hecho de que la estimación de odds
En estas ecuaciones los coeficientes e pen ,e~ . 1M tran el cambio en ratio (o/) tiende a tener una distribución asimétrica. Lo que lleva a la exigencia de au-
pretan de forma similar a los coeficien~e~ de regresló~:~:a~na ~~~dad en la variable mentar el tamaño de la muestra para que la distribución se ajuste a la normalidad. Asi-
la variable depeñdiente: logit (Y), aso~lal o a u~ :~ explicativas constantes. Pueden mismo, recuérdese que uno de los requisitos básicos para una buena realización de la
independiente, mantemendo el resto. e as vana _: de robabilidades. regresión logística es que el tamaño de la muestra sea elevado.
considerarse mediciones d~ 10S(C~~bio;e~p~,)r:z~«ePIX'~ .. elY'K es el factor por el que En paquetes estadísticos como el SPSS, el odds ratio asociado a cada coeficiente de
"e" elevado a lapotenctaJ3, e 1 J . 'd d Y "(eP,-l) x 100" regresión se representa como exp (13). En otros paquetes, como el SAS, figura bajo el
odds cambia, cuando la variable independiente atmle~ta en un~ ~e :~a tmidad en la va- rótulo odds ratio.
es el cambio porcentual estimado en odds para ué' I~~':~ ~r de 1 indica que' el odds
riable predictora correspondiente. U~ odds rallO '11- or e'e~ lo) aumenta, cuando la
de ocurrencia de la variable dependiente (aprobar, Pd lJ 'gni:fip. . que el odds de oc.u.-
. di t tao un odds rallO menor e SI ca
variable mdepen en e aumen , . bl . d . ndiente aumenta. Por ejemplo, pa-
rrencia de Y disminuye, conforme la vanap e m ~~e ( ) es 2 30 Esto significa que.
ra un coeficiente fJ de X, ~e 0,834'Xsu(e (etI o _ ~~:el~onsta~te; las demás variables
a cada cambio de una umdad de 1 man emen
l:ependientes), odds de P ~umentau~ 230% de su vt~;t::v~~.
un incremento del 130% . SI el coefiCiente 13 fuese - ,
. .
:::s;;::re:,:
. enta

dds de P del 81 % por incre'


Para ilustrar la interpretación de una ecuación de regresión logística se expone el mo-
delo desarrollado por Ato y López (1996: 206-207):

. 1 O19 lo que se interpreta como dlsmmuclón en o Logit (p) = -13,02 + 2,826 GPA + 2,379 PSI + ,0952 TUCE
19uaa" .. '
mento de tmidad en la vanable mdependwnte.
144 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 2: Análisis "logit" 145

La variable PSI, que hace referencia a un método de enseñanza, se halla codificada Al ser la desviación típica la raíz cuadrada de la variable, los coeficientes de re-
de forma binaria (O - 1). Su coeficiente de regresión logística es 2,379. Manteniéndose gresión logística estandarizados se estiman de la forma siguiente:
constantes el resto de los predictores, significa que un cambio de O (no enseñados con el
método PSI) a 1 (si enseñados) produce un aumento de 2,3783 unidades logit.
El exponente de dicho coeficiente es e"2 ~ ff',379 ~ 10,7905. Indica que cuando PSI
cambia de O al, la variable dependiente varía por un factor de 10,79, suponiendo cons-
tantes el resto de los predictores.
Esta interpretación puede, asimismo, hacerse en términos porcentuales, donde "100 Donde: "b;,," es el coeficiente de regresión logística estandarizado.
x (e"2 - 1)" expresa el porcentaje de cambio en la variable dependiente para un incremento
de una unidad en el j-ésimo predictor. Así, el cambio porcentual que se produce en la va- " by.," es el coeficiente de regresión logística no estandarizado.
riable dependiente al cambiar PSI de O a 1 es igual a "100 x (10,79 -1) ~ 979%". Esta
cantidad refleja, en términos porcentuales, la importancia del método PSI en el rendimiento " S, " es la desviación típica de la variable independiente X.
obtenido en el curso (la variable dependiente). "S,~g,,(j)" es la varianza de logit (y). Es decir, la varianza de los valores
Lo mismo sucede con los restantes predictbres. El más notable es el predictor GPA, estimados de logit (Y).
que supone un cambio en la variable dependiente por un factor de 16,88 y un aumento por-
centual del 1.588%. El cambio menos importante concierne, en cambio, al predictor "R2)) es el coeficiente de determinación.
TUCE, que supone un cambio en la variable dependiente por un factor de 1,10 y un au-
mento porcentual del 10%. Los coe~ciemes estandarizados se interpretan de forma similar en regresión logística
En términos de razón de probabilidades (odds ratio), el modelo de regresión logit es yen regreslOn lmeal. Un aumento o disminución (depende de si el signo es positivo o
el siguiente: negativo) de desviaciones típicas en logit (Y), asociado con un aumento o disminución
en la variable independiente, en unidades de desviación típica, igual a la cuantía co-
e (-13.02+2,62SGPA+ 2,379PSI+,095TUCE) rrespondiente al coeficiente estandarizado.
1 + e(-13,02+2,626GPA+2,379PSI+,095TUCE) Las ecuaciones anteriormente expuestas del análisis logit corresponden al mode-
lo más habitual en la investigación social: cuando la variable dependiente es dicotómica.
De acuerdo con este modelo, un individuo con 3 puntos en GPA, que haya sido en- Es decir, es una ~ariable codificada de forma binaria, con dos opciones de respuesta po-
señado con el método (PSI ~ 1) Y que haya obtenido 25 puntos en el pretest (TUCE ~ 25), Sible: 1 ocurrencia de un evento; O no ocurrencia.
se prevé que obtendrá en BGRADE el valor 1 con probabilidad p ~ ,5532. O sea, . Cuando la variable dependiente incluye más de dos categorías de respuesta (por
e (-13.02+(2,826)(3)+(2,379)(1 )+(,095)(25») 8,2139
ejemplo, partido político votado, creencia religiosa, idioma ... ), se está ante un análisis
de regresión logística politómica. Éste precisa de tantas ecuaciones de regresión como
P ~ 1 (-13,02+{2,626j{3)+(2,379)(1)t(,Ú95)(251):;;;;: -"1--;2"'''.9 ::::::,5532
+e· +8' número de categorías de la variable dependiente menos 1, para poder describir la re-
lación de las variables independientes con la dependiente.
Como la probabilidad encontrada es ,55, superior a ,50, el pronóstico que le corres- .Como en la codificación de variables ficticias, se toma una de las categorías de la
ponde es BGRADE = 1. vanable dependIente (normalmente la primera o la última) como la categoría de re-
ferencia (Y.= ho)' La probabilidad de pertenencia a las otras categorías se compara con
la probabilidad de pertenecer a la categoría de referencia.
Como en regresión lineal, en regresión logística los coeficientes también pueden es- Con excepción de la categoría de referencia, la ecuación de regresión logística se
tandarizarse: convertirse a unidades de desviación típica. Ello facilita la comparación formula -de acuerdo COn Menard (1995)- en los siguientes témúnos, para cada una de
directa de la influencia de las variables independientes en la predicción de la variable las demás categorías de la variable dependiente:
dependiente. Dichos coeficientes son comparables a los coeficientes de regresión lineal
estandarizados, si bien, su cálculo es más complejo en regresión logística, precisamente
porque se estima la probabilidad de la variable dependiente. Exactamente, logit (Y).
Ante la dificultad de calcular directamente la desviación típica de los valores Para h = 1, 2,.3 ... M - 1 categorías de la variable dependiente. El sufijo "k" hace re-
observados de logit (Y), la desviación típica se obtiene de forma indirecta, utilizando ferenCIa a las vanables predlctoras incluidas en el modelo y el sufijo "h" a las categolías
los valores predichos de logit (Y) Y la varianza explicada, R2 (Menard, 1995). de Y. Para la categOlía de referencia: go (xl' x 2 ••. x k ) = 1.
146 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 2: Análisis "logit" 147

La probabilidad de que Y sea igual a cualquier valor h distinto del excluido, igualmente, en el componente sistemático del modelo, en términos polinomiales
"ho", es: (Hutcheson y Sofromou, 1999). Un modelo con dos variables explicativas, una de las
cuales m~estra una relación. curvilínea con la variable dependiente (en este caso,
una relaclon c~adra~a), por ejemplo, tendría el ~iguiente componente lineal: "a + {3¡X¡
P(Y=h/ X I ,X 2 ", x,) + {3,x2 + f33X!¡ . En el se mcluyen los efectos prmctpales de las variables X y X jun-
to con un ténnino adicional (" f33X!¡"). Este término explica la relación cu~i1ín~~ en-
tre Xz y logit (p).
~. A lo ,expuesto hay que añadir l~ conveniencia de calcular los incrementos de pro-
Para la categoría excluida, ho = M o ho = O babzbdad. Estos penmte~ c~)llocer la mfluencia concreta de las variables independientes
que han mostrado ser s¡gmf¡catlvas en la predicción de la probabilidad de Y.
1 A partn de lafunción logística, definida por McFadden (1974) como:

Adviértase que cuando M = 2 , se está ante un modelo de regresión logística di-


cotómico. En este caso, se precisa un total de M - 1 = 1 ecuaciones para describir la re- Donde: "{J" es un vector de parámetros.
lación entre la variable dependiente con las independientes. "xi"
es la media de la variable Xi'
Menard (1995: 81, 90) reconoce que "el empleo de una variable dependiente po-
litórnica nos lleva más allá de la regresión lineal OLS y nos aproxima más a los modelos Se multiplica~ada coeficiente "{J" significativo por la media correspondiente de la
logit y log-linear". Este autor recomienda el uso de regresiones logísticas separadas co- vanable en cuestlon. Después se calcula su exponente y se aplica la fónnula siguiente:
mo "nn suplemento útil para la regresión logística politómica". De esta forma se
obtendrá un mayor detalle del patrón de relaciones en el modelo.
Por su parte Long (1987: 428) advierte de la complejidad de los análisis, cuando la
variable dependiente es politómica: "Para un análisis logit con una variable dependiente
de 5 categorías y 5 variables independientes, existirán 50 coeficientes de efecto para to- De ~sta manera se obtienen los incrementos de probabilidad. Por ejemplo, si f3 =
dos los pares de resultados dependientes (excluyendo los coeficientes relacionados ,,?n ,421 Yx j = 1,83, f3. x; = ,7704; e"ÍP= 2,161. Entonces,
el intercepto). Conforme el número de categorías de la variable dependtente y/o m-
dependientes aumenta, el número de parámetros aumenta rápidamente. Mientras que
cada uno de los parámetros tomados singularmente hace esta aproximación no siste- P(Y = 1)= 2,161 x,421 = ,091
mática inefectiva al descubrir modelos de relaciones" . (1 + 2,161)'
• Al igual que en regresión lineal, el modelo de regresión logística puede, también,
incluir interacciones de variables explicativas (que se incluyen en la ecuación). Si, por Lo que se interpreta como un incremento del 9,1 % en la probabilidad de ocu-
ejemplo, la interacción es entre las variables Xl y X 2, el componente lineal del mode- rrencta de Y [P(Y = 1)], dado X.
lo se representaría de la forma siguiente: "a + {3¡X¡ + {3,x2 + {3,x¡X2"· Al efecto pnn-
cipal de cada variable explicativa por separado se le añade el efecto conjunto de ambas:
el correspondiente a la interacción de las dos variables explicativas en la variable de- 2.1.4.1. Estimación de parámetros
pendiente. Estos ténninos de segundo orden o superior, que implican dos o ~ás va-
riables independientes, sólo se iucluyen cuando existe interacción entre las vanab~es. En la regresión lineal, los parámetros se estiman esencialmente mediante el método
El investigador siempre deberá considerar la posibilidad de que exista interacctón de m[nimos 'i,uadrados ordinarios (OLS). Se trata de encontrar estimaciones de
entre dos o más variables independientes, en la búsqueda de un modelo explicativo de parámetros (bk ) que J:1agan mínima la distancia entre los valores predichos de la va-
la variable dependieI\te. , nable dependtente (Y) y sus correspondientes valores observados (Y). La distancia
• También puede darse la situación de que exista una relación curvilínea entre una se mide mediante la diferencia de las sumas de cuadrados entre los v~lores Yobser-
variable independiente con la dependiente. Estas relaciones curvilíneas se incorporan, vados y los predichos. Los parámetros estimados han de ser, finalmente, aquellos que
Capítulo 2: Análisis "Iogit" 149
148 Análi"is multivariable. Teoría y práctica en la investigación social

hagan "núnima" la suma de errores cuadrados entre el modelo ajustado y los datos em- Esta búsqueda continua de parámetros que logren maximizar la función logística
se ,lleva a cabo mediantc la aplicación de diversos algoritmos numéricos. De ellos, el
píricos. ., . '. mas popular (al estar presente en la mayoría de los programas estadísticos, como
En la regresión logística, los parámetros de la ecuaClOn se estiman, prmcipal-
mente, mediante el método de máxima verosimilitud (MLE). Este método, propues- el SPSS o el LIMDEP, un programa especializado en el análisis logit) es el algoritmo
to por Fisher en 1950 (en Contributions to mathematical statistics, Nueva York, Wiley), d;, Newton-Raphton. En él, el número de iteraeciones es fijo, aunque también puede
busca "maximizar" la función logística. Es decir, hacer máxima la probabilidad de ocu- ajustarse por el m~es(¡gador. Pero éste no es el único algoritmo posible, como tampoco
rrencia de Y, dados unos valores determinados de las variables independientes. lo es el procedimzento de estimación de parámetros de máxima verosimilitud.
En la aplicación del método MLE a la regresión logística propuesta ~or Aldrich y . En 1969, ?rizzle, Starmer y Koch propusi,eron (en "Analysis of categorical data by
Nelson (1984), la estimación de los parámetros "b", de forma que sea maXima la pro- Imear models " Btometncs, 25: 489-504) el metodo de mínimos cuadrados ponderados
no iterativos. Este sólo utiliza una iteracción en el proceso de estimación de paráme-
babilidad logit, se realiza mediante la siguiente ecuación:
tros, lo que Implzca una mayor rapidez en la estimación de parámetros que MLE. No
obstante, se observa una limitación importante en este método: se debe tener una es-
timación de n(x) -la media condicional de Y dado X cuando se utiliza la distribución
logística- que sea no cero o uno, para la mayoría de los valores X. "Con un gran nú-
mero de vanables mdependlentes, o mcluso unas cuantas variables continuas esta con-
Para el caso politómico, la función de verosimilitud se convierte en la siguiente: dición no es probable que se mantenga" (Hosmer y Lemeshow, 1989: 34). '
Un t~rcer proc~dimiento de estimación de parámetros alternativo es la aproximación
de functon dLScrzmmante: Propuesta en 1962 por Cornfield (en "Joint dependence of the
n~k ?f coronary heart disease on sernm cholesterol and systolic blood pressure: a dis-
cru;nnant fn~ct~on analysis", Federation Proceedings, 21: 58-61), supone la aplicación del
análiSiS dlscnm.mante como un proceso de selección previo, con la finalidad principal de
separar las vanables mdependientes potencialmente diferenciadoras.
El pro~edimiento de [unción discriminante es, igualmente, más rápido qne MLE y,
Donde: "B" denota todos los "K (J -1)" coeficientes a estimar. al mismo !lempo, resuelve la limitación principal observada en el método de mínimos
cuadra~os ponderados no iterativos. En consecuencia, puede aplicarse fácilmente al ca-
Una diferencia importante, a este respecto, entre la regresión logfstica dicotómica y po- so multivana~k. No obstante, presenta una limitación importante que lleva a autores
litómica concierne a los tests de Iúpótesis del impacto de una variable particular en Y. En clave en el análiSIS de regresIón logística --como Hosmer y Lemeshow (1989: 34)- a no
recomenda~ sn uso. Estos autores se refieren al hecho de que la estimación de pará-
el caso dicotómico, la variable X k no tiene ningún efecto (estadísticamente significativo)
en Y. si su coeficiente, b ,no es significativamente diferente de cero (de acuerdo con la metros mediante la función discriminante se basa en el supuesto de que la distribución
prueba de significatividag "t" o "z"). En el caso politómico, como existen J -1 coeficientes de las va;lables mdependientes (dado el valor de la variable dependiente) sea normal
asociados con cada variable exógena, la variable X K no tiene ningún efecto en Y, sólo ?ua~­ multivanada. En caso contrario, los coeficientes estimados estarían sesgados y so-
do todos los J _ 1 coeficientes son simultáneamente O. En este caso, el test de hipotesis breestimarían la magnitud de la relación entre las variables independientes eon la va-
riable dependiente.
apropiado es un test conjunto en los J -1 coeficientes (Aldrich y Nelson, 1984). "
En ambas modalidades de regresión logística la aplicación del método de ,maxzma En regr~sión logística, este snpuest? (el de normalidad multivariada) rara vez, si al-
g~na, se satisface. Debido a que es habItual que las variables independientes sean dico-
verosimilitud se lleva a cabo, iguaimente, mediante procedimientos iterativos. Estos su-
ponen una estimación, comprobación y reestimación de parámetros reiterada, q~e fi- tonu,cas y" por tant?, no se hallen normaimente distribuidas. Todo lo cual favorece la apli-
naliza cuando no se observa ninguna mejora apreciable en la funG/ón de probab¡ildad, eaCion mas extendIda del procedimiento de máxima verosimilitud en regresión logística.
habitualmente, cuando la diferencia en el valor de la función sea inferior al valor pre-
determinado de 0,01. . . 2.1.4.2. La significatividad de los eoeficientes de regresión logística
El proceso comienza con nna solución tentativa. Después, ésta se reVisa con la fi-
nalidad de comprobar si puede mejorarse. En caso afirmativo, el modelo vuelve a es-
timarse. En caso negativo, se da por conclnido el procedimiento de estimación de pa- En regresión logística la comprobación de la significatividad estadística de los
coeficientes se realiza con estadísticos comunes a la regresión lineal, como la "t" de Slu-
rámetros.
150 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 2: Análisis "logit" 151

dent, y con específicos a la regresión logística, como el estadístico de Wald (Wk )· El aba- Hosmer y Lemeshow (1989) advierten que errores típicos estimados extraordi-
nico de posibilidades es amplio. Los estadísticos de uso más común son los siguientes: nariamente elevados y, algunas veces también coeficientes de gran cuantía, indican la
existencia de algún problema en la ejecución del análisis, principalmente, la existencia
a) "t" de Student (tK )· de colinealidad y/o celdillas "cero".
b) .Estadístico de Wald (W K)' A partir del errortipico de cada coeficiente se calculan los intervalos de confianza
c) R A de Atkinson. (CIK ). Éstos son de utilidad en la inferencia de los coeficientes que han resultado ser
d) Correlación parcial (R). significativos en la predicción de la probabilidad de Y. Su cálculo es el" siguiente:
e) <lG (o i' del modelo).

A) "t" de Student (t K)
Si el tamaño de la muestra es elevado, también puede aplicarse un test "z". Me-
En regresión logística la aplicación del estadístico "t" de Student cubre el mismo diante él se comprueba, igualmente, la significatividad del efecto de una variable
propósito que en regresión lineal: la comprobación de. la .hipótesis nula. de que el concreta en el modelo predictivo. Dicho valor se obtiene, al igual que "t", del cociente
coeficiente correspondiente es cero (Ho : f3K ~ O). Esto slgmfica que la vanable mde- entre el coeficiente estimado y el error de estimación (IJKI SíJ)'
pendiente a la que corresponde dicho coeficiente (XK) no tiene, en realidad, ningún
efecto en la predicción de la probabilidad de Y.
El estadístico "t" de Student se define iguahnente como la razón del coeficiente es- B) Estadístico de Wald (WK)
timado (/JK) y el error típico estimado de dícho coeficiente (S íJK!' Los grados ?e libertad
son, asimismo, la diferencia entre el tamaño muestral y el numero de vanables pre- Si se eleva al cuadrado el coeficiente de regresión logística estimado (IJK) y se divi-
dictoras (g.l. ~ N K). de por el cuadrado del error típico del coeficiente estimado, se obtiene un estadístico par-
ticular a la regresión logística (en relación con la regresión lineal). Se trata del estadístico
de Wald (WJ, que guarda bastante similitud con el estadístico "t" de Student. Ambos se
emplean en la comprobación de la siguificatividad estadística de coeficientes individuales.

Recuérdese que cuando los grados de libertad son elevados (g.l. 2: 120) -:situación
ésta habitual en la investigación social- la distribución "t" de Student se eqUIpara a la
distribución normal. Sus valores teóricos de referencia para la contrastación de hi- Se emplea, igualmente, para comprobar la hipótesis nula de que el coeficiente
pótesis son los mismos: 1,96 para un nivel de significación de ,05 ; 2,576 para un nivel reahnente es cero (Ho : f3K ~ O). La variable independiente en cuestión no tiene ningún
de significación de ,01. efecto en la predicción de la probabilidad de Y. La hipótesis alternativa afinna lo con-
El procedimiento seguido en el contraste de hipów;is es el usual. El val?r '.'tl
~~­ *
trario (H, : f3K O).
púico se compara con el teórico, con N - K grados de Iibert~d y el mvel de sl~~caclOn "WK" también se compara con "- 2LL". Ambos siguen una distribución X2, lo que
¡. ' elegido a priori (nonnalmente a ~ ,05). Si el valor "tK " empmco supera al teonco, se ~e­ les capacita para su utilización con variables categóricas. En tamaños muestrales ele-
i chaza la hipótesis nula, lo que supone que el coeficiente de regreslóu est~ado es sIg- vados se aproxima a la distribución normal.
nificativo estadísticamente. En caso contrario, no puede afirmarse que la vanable a la que Si la variable independiente es cuantitativa (o métrica), los grados de libertad de
corresponde dicho coeficiente ayude a la predicción de la probabilidad de Y. "WK " son 1. Cuando la variable es cualitativa (o no métrica), los grados de libertad son
El valor "t "empírico se halla muy determinado por el error típico del coeficien- iguales al número de categorías de la variable menos 1 .
te estimado. É~te expresa la variación probable del coeficiente estimado SK' si s~ ana- Una desventaja importante observada en este estadístico (Hauck y Donner, 1977;
lizan otras muestras de las mismas características de la observada. Cuanto más baJO sea Nourisis, 1994; Ato y López, 1996; Hutcheson y Sofroniou, 1999) es que, al ser una ra-
su valor, significa que se ha logrado una mejor estimación del coeficien~e: Lo que re- zón de cuadrados, tiende a exagerar, erróneamente, la significatividad de variables que
dunda, obviamente, en sU significatividad estadística: un valor "tK " emplflco supenor presentan coeficientes elevados. Es decir, llevan al rechazo de la hipótesis nula, cuan-
al teórico. do en realidad no debería rechazarse, al ser cierta. A esta desventaja importante se aña-
Capítulo 2: Análisis "logit" 153
152 Análisis multivariable. Teoría y práctica en la investigación social

.
de el no ser muy fIable cuando se ana
lizan tamaños muestrales pequeños. Ante ambas
d· . ntos alternativos para
R = ±~ (fiKJS;,)2 - 2K
. . . d I mpleo de otros proce Imle -2LLO
limItacIones, se recornlen a e e. ~ 1 " do ambas situaciones coinciden:
evaluar los coeficientes de regresJOn oglsllca c:,an
coeficientes elevados y tamaño muestraIIPeq:u.endo. I prueba de aJ·uste parcial (corre- Donde: "-2LLO" es un estadístico calculado en cada ocasión con la variable que se
. mplo por la ap IcacJOn e a . está evaluando. Si se introducen varios bloques de variables, el mode-
Puede optarse, por e J e , I . if f· dad de aquellas vanables pre-
lación parcial). También puede compr~b:Us~ a s:gna~~: I;ara ello se compara la signifi- lo base para cada bloque es el resultado de los pasos de entrada previos.
t
dictaras concretas qne presenten cae IClen S e ~v bl . examen. dos, que excluya dicha "K" son los grados de libertad para las variables.
catividad de dos modelos: uno, que mcluya a va?~1 e a I predi~ción de la probabilidad
variable La significatividad del efecto de esa vana e en a . ·l·t d (" 2LL") A la ecuación de R se añade el valor "2K" como ajuste para el número de pará-
. . I b" 1 azón de verOSlmz l u - ,
de Y puede hacerse entonces medIante e cam la en a r metros estimados. Si el estadfstico de Wald es inferior a "2K", R suele fijarse a O
a modo de lo expuesto en el subapartado 2.1.5.1. (Nourisis, 1994).
R puede presentar un valor de -1 a + 1. Su signo, como el de los estadísticos previos,
se corresponde con el del coeficiente de regresión estimado. Un valor positivo significa que
C) R A de Atkinson la variable independiente aumenta en valor, como lo hace la probabilidad de ocurrencia
"R . d·agnostic transforrnation and del evento Y. Un valor de R negativo indica lo contrario. Un valor próximo a "O" significa
Propuesto por Atk~nso~ en 198~, (en egre;~~o~o lal Statistical Socíety, 44: 1-36). que la contribución de la variable independiente al modelo es prácticamente nula. En cam-
constructed vanables Wlth dl~cnssl.o~ , ~o~7a~ olt de 1:variable independiente en la bio, un valor próximo a 1 expresa una correlación máxima entre ambas variables. La va-
También comprueba la ~lgmflc~tJV1~a d e d: ~: r~zón del coeficiente estimado (pre- riable independiente es muy relevante para la predicción de la probabilidad de Y.
probabilidad de y: medlan,te. e cna ra °l.t d) y el error típico estimado de dicho
feriblemente medIante maXlma veroSlml 1 u
coeficiente. A esto añade otros términos:
E) !1G (o X2 del modelo)

Como ya se dijo en el punto B, la significatividad de una variable independiente


concreta puede también comprobarse con la ayuda del estadístico de bondad de
ajuste!1G (o X2 del modelo). Se analiza la diferencia en el valor G entre el modelo com-
S I n·vale a la suma de cua-
Donde: "D[I]" es la varianza del modelo nulo. n va or eq I pleto (con todas las variables independientes) y el modelo reducido (que excluye a la
drados total. variable independiente cuya significatividad en la predicción se examina):
1 d (le· os de cero). Esto indica que la va- !1G = -2LL (para el modelo sin la variable) - (-2LL) (para el modelo completo)
Interesa, igualmente, valores de R A• e eva os I J redicción de la probabilidad de Y.
riable en cuestión tiene un efecto sl¡;nilicatlvo en ,a p d Wald (~ I S_)2 es igualo in-
Adviértase que cuando la magmtud del estadlstJco e d K e !¿:ma convencio- Este estadístico sigue una distribución i' con 1 grado de libertad. Éste resulta de
ferior a 2, el estadístico RAes indefinido. Cuando esto suce e, s la diferencia de los grados correspondientes a ambos modelos.
nalmente como cero. La hipótesis nula se formula en términos de /31 = O. Su rechazo (cuando la diferencia
entre ambos valores "-2LL" es superior al valor i' teórico con 1 grado de liberuid, a
un determinado nivel de significación) significa que la variable independiente en
D) Correlación parcial (R) cuestión tiene un efecto significativo en la predicciÓn de la probabilidad de Y.
!1G también es de utilidad en la comprobación de subseries de coeficientes. Como,
., d h como en regresión lineal, de la por ejemplo, cuando la variable independiente es categórica, con "M" categorías, y a par-
En regresión logística tamblen pue ~ acersed~so~ on la variable dependiente.
tir de ella se han creado M -1 variables ficticias. La significatividad del efecto de cada una
correlación parcial entre cada variabl~ l~dep~~" ~;c:dca variable independiente en la
La finalidad es comprobar la contnbucJOn parCIa I t d' fco R se define de la ma· de estas variables ficticias en la predicción de la probabilidad de Y puede comprobarse,
predicción de la variable dependiente. SI bIen ahora e es a IS I por separado, mediante alguno de los estadísticos de comprobación precedentes.
nera siguiente:
Capítulo 2: Análisis "logit" 155
154 Análisis multivariable. Teoría y práctica en la investigación social

P210) -recuérdese que la correlación de ambas variables es importante: r ~ ,596, como cons-
Pero, para examinar la significatividad de la variable categ~rica en s~ globalidad
ta en la matriz de correlaciones (subapartado 1.3.2)- se ha decidido eliminar una de estas dos
uede optarse por un test de !1G, de la diferencia entre la ¡un~lOn de veroslmllltud pa- variables para evitar los efectos negativos de la introducción de variables muy colineales. Al
~a el modelo reducido (aquel que excluye a las variables ¡lcnCIas) y la correspondlent~ haber constatado en una investigación precedente (Valles, Cea e Izquierdo, 1999) que la iden-
al modelo completo (que incluye todas las variables fictiCiaS creadas). Los grad?s de Ii- tificación del "inmigrante" con "marroquf' es la más habitual entre los españoles, Xs ("simpatfa
bertadson "M-l" iguales al número de parámetros que se comprueban; La blP?tesls haéialatinoamericano") es la variable que se elimina del análisis.
nu Ia expresa que l'os "M- 1" betas asociados a las "M-l" variables . , son. slmul-
. .¡ICtIClaS d Asimismo, trata de reducirse la incidencia negativa de "celdillas cero". Lo que lleva a
,
taneamente O (1:1 - al - az - - f3
o - }JI - }JI - ••• - 1
M- I ~ O) Si el !1G resulta slgmf¡catlVo, qUIere e-
'. .
recodificar algunas de las variables seleccionadas, agrupando categorías similares. Las
cir que al menos uno de estos parámetros es dlstllltO de cero. . agrupaciones fueron mínimas, a excepción de la variable X. ("entrada de inmigrantes"),
que se transforma en ficticia: 1 ("facilitar la entrada"), O ("no facilitarla").
Los valores de "-2LL" para el modelo reducido .'
(aquel que excluye a la vanable de
d 1 . 6n de vanables pre- El procedimiento seguido en la formación del modelo de regresión logístiea fue uno se-
interés) pueden obtenerse siguiendo un procedimiento e e ~CCI •. d "
dictoras secuencial, ya sea "hacia delante" o "hacía atrás", aplicando el enteno e re- cuencial "hacia delante". Si bien, el modelo se comprueba igualmente mediante el procedi-
miento de eliminación de variables "hacia atrás". En ambos casos se sigue el criterio de ¡'re~
ducir la verosimilitud" (RV) -subapartado 2.1.6.1-. j

ducir la verosimilitud" (RV): lograr la mayor reducción posible en el valor "-2LL" (-2 lag de la
verosimilitud). El modelo resultante coincide en ambas situaciones, al igual que cuando se apli-
ca el criterio de "incrementar el estadístico de Wald". En el subapartado 2.1.6.1 se describe
el procedimiento seguido en la constitución del modelo de regresión logística "secuencial".
La tabla A resume el modelo finalmente obtenido mediante el programa SPSS (versión
10) con 780 casos válidos. Incluye los coefícíen/esde regresión logística, los errores tipicos
de los coeficientes los estadísticos de Wald (para comprobar la significatividad de los coe-
En la misma base de datos descrita en el capítulo 1, se procede a realizar un análisis de ficientes, al ser la muestra elevada), los grados de Iíbertad asociados a cada variable, la sig-
re resión logística con las mismas 15 variables elegidas, pero con ~1.9unas diferenCias. En re- nificatividad del estadístico de Wald y los intervalos de confianza para los "odds ratio:' (que
gr~sión lineal la variable dependiente ha de ser continua;" en regr~slon loglstlca, ta,,~~~~; ~~: figuran bajo el rotulo "exp (B)"). Las variables aparecen dispuestas por orden de incorpora-
tegórica. Esta condición lleva a escoger a la variable X, regulanzar a I~mlgr,:;, es tao 1 ción al modelo. La primera variable seleccionada fue X. y la última X1O'
mo variable dependiente. Es una variable dicotómica, al tener dos opciones le redsPbue~ . Todos los coeficientes de regresión logística, a excepción de la constante, son es-
• .. t '1 les") y O ("no se es e ena re-
("se debería regularizar la situacion de los Inmigran es lega di ·ón tadísticamente significativos (p,; ,05), a decir por el estadístico de Wald (WK). Éste se ob-
guiar Izar')
' Se está ante un modelo de regresión loglstlea dicotómico que pretende la pre d':'" t tiene del cociente de los cuadrados del coeficiente y el error típico en cada variable
. . .. d' . t s 'Iegales" (Y -1) me lan e
de la probabilidad de "ser favorable a la regulanzaclon e Inmigran e l . -'. d (subapartado 2.1.4.2). Por ejemplo, para X.' W K = 2,0362 /,337 2 ~ 36,5; siendo su signi-
una serie de variables independientes categóricas y/o continuas. Las vanables seleCCiona as ficatividad plena (,000). Las 9 variables seleccionadas intervienen en la predicción de la
como posibles predictores son las 13 variables siguientes: probabilidad de Y. Los intervalos de confianza del 95% indican los "odds ratio" en la po-
blación en cada variable. Siempre que el intervalo no incluya el valor 1 (que significa la ine-
• X "leyes inmigración" (PI6). xistencia de relación entre la variable y la probabilidad de Y en la población de interéS),
· X: "ideología política" (P39). puede concluirse que es cierta la variación en la prObabilidad de Y, por cada variación de
• X3 "sexo" (P41). X, a partir de la muestra analizada. Recuérdese que en regresión líneal el valor que no de-
o X "edad" (P42). be incluir el intervalo de confianza es O porque expresa inexistencia de relación entre las
• x' "número de inmigrantes" (Pll). variables en la población, aunque se haya detectado en la muestra.
o X· "entrada de inmigrantes" (P21). Al ser todos los coeficientes de regresión logística "significativos", se procede a s'u in-

• X9 "partido racista" (P37). terpretación. La constante sólo es significativa a un nivel de ,195. Este valor (superior a
• x 'o "casar con marroquí" (P306). . ",05") restringe sus posibilidades de inferencia. La ecuación es la siguiente:
• X ll "estudios" (P43a).
o X "ingresos" (P52). Logit (Y) ~ lag (P (Y ~ 1) / P (Y ~ O)) ~ -1,173 + 2,036 X. + ,114 X'5 + ,518 X, + ,414 Xll -
12
• X13 "vecino marroquf' (P506). - ,432 X9 + ,016 X4 - ,399 X. - ,459 X3 - ,288 X'O
• x "inmigrante delincuente" (P2904).
• X14 "simpatía hacia norteafricano (marroquí...)" (P201). Como en regresión Iíneal, la constante expresa el valor de la variable dependiente (en
'5
regresión logls/ica de logit Y) cuando las independientes son cera. Lo habitual es que su
La variable "simpatía hacia nort~africano" aciúa, ahora, como variable independiente (X'5!.· valor no sea interpretable, como sucede en este modelo (-1,173). Y, como indican Hos-
Como esta variable está muy correlacionada con X5 ("simpatía haCia latlnoamencano , mer y Lemeshow (1989: 38), el que sea de interés "es la excepción, no la regla".
Capítulo 2: Análisis "logil" 157
156 Análisis multivariable. Teoría y práctica en La investigación social

" tenga estudios superiores (X" = 5);


r:a bla A Ecuación de regresión fogística
.
" considere el auge de los partidos de ideología racista negativo (X, = 1);
-~.
I.C. 95% para Exp (8) tenga 46 años de edad (X.);
ET Wald g"- Si9· Exp (8) ,------ ------ • estime bajo el número de inmigrantes existente en España (X, =1);
Variables 8
Inferior Superior sea varón (X, = 1);
.14,827 " y deciare que no le preocupa nada que un hijo/a suyo se case con un ciudadano de
1 ,000 7,658 3,955
X, 2,036 ,337 36,468 1,219 Marruecos u otro país norteafricano (X IO = 1); tendrá una predisposición a la re-
1 ,008 1,120 1,030
,114 ,043 6,990 2,254 gularización de inmigrantes ilegales de:
X" ,518 ,150 11,837 1 ,001 1,678 1,250
X, 1 ,001 1,513 1,185 1,931
,414 ,124 11,062 ,921
X" ,179 5,850 1 ,016 ,649 ,458 Logit (Y) -1,173 + (2,036)(1) + (,114)(7) + (,518)(5) + (,414)(5)- (,432)(1) +
X9 -,432 1,005 1,028
,016 ,006 7,584 1 ,006 1,016 + (,016)(46) - (,399)(1) - (,459)(1) - (,288)(1) = 5,479
X, 1 ,024 ,671 ,474 ,950
X6 -,399 ,177 5,067 ,950
1 ,027 ,632 ,421 El valor predicho de logit (Y) es 5,479, que equivale a una probabilidad de ser favorable a
X3 -,459 ,208 4,879 ,968
,750 ,581
'X 10 -,288 ,130 4,865 1 ,027 la regularización de inmigrantes ilegales plena, de 0,996 (e 5 ,479/(1 + e5.479) = 0,9958). Obvia-
1,678 1 ,195 ,310
Constante 1,173 ,905 mente, la probabilidad de no ser favorable a la regularización es prácticamente nula: 0,004
(1/(1 + eS,479) = 0,0042). Como la inferencia siempre se realiza a un nivel de probabilidad,
.' . entos (signo positivo) o disminucio- habría que proceder al cálculo del intervalo de confianza. Esto exige el conocimiento del
Los coeficientes de pendiente (B) indican ~nc~eemunidad en la variable independiente, error de predicción (o estimación), no siempre proporcionado directamente en la salida de
nes (signo negativo) en !ogit (Y), ante un cam 10 t ntes Se interpretan como cambios ordenador estándar. Lo que sí figuran son los exponentes de B (o los "odds ratio") para ca-
manteniéndose las demas variables exPlicat~va~t c~n(~1~9 oddS") respecto a la probabilidad da variable predictora por separado, que facilitan la interpretación del efecto de cada va-
en el logaritmo natural de la razón de veroSlml I u .' ntes") X ("simpatía ha. riable independiente en la probabilidad de ocurrencia (y de no ocurrencia) del evento que
L . bies X ("facilitar la entrada a inmigra "s
de no ocurrencia. "as va~"a 8 • . . 'n") X ("estudios") Y X. ("edad") están po· se analiza: la regularización de los inmigrantes ilegales,
cia norteafncano~ ), X, ( leyes de ln~nI;.;~CI~ d ' s~; favorable a la regularización de In· La tabla A incluye los exponentes de cada coeficiente B. Su interpretación se asemeja
sitivamente relaCionadas con la pro a II ~ e nitud expresada en el coeficiente, en a los coeficientes de regresión lineal: el cambio en la variable dependiente asociado a un
migrantes ilegales. Loglt Y aumenta, en a .mag ecto a los contrarios (X ); cuan- cambio de una unidad en la independiente, manteniéndose el resto de variables inde-
aquellos favorables a facilitar la ~ntrada a Inmlgrante~ resp X . cuando las leyes de in.
8
pendientes constante. Concretamente expresa el cambio en "odds" (razón de probabili-
do aumenta el grado de simpatla haCia los norteafncanos ('s), " (3) Y"duras" (5)' al dades de "ocurrencia" 1 "no ocurrencia" de un evento), cuando la variable independiente
'b' "tolerantes" (1) a "correctas '
migración (X,) pasan de percl Irse como .' I ue la edad (X ). aumenta en una unidad. Un valor superior a 1,00 significa aumento en la probabilidad de
aumentar el nivel de estudi?S del enc~estado (X,.'), ~11~ua"~úmero de inm~rantes"), X, ocurrencia, mientras que un valor inferior a 1,00, disminución, En la tabla A puede ob-
Por el contrario, las vanables X,~ ( pa~,do racl.sta), te
\elacionadas con logit (Y). El servarse que los exponentes mayores de 1,00 coinciden con coeficientes B positivos. En
("sexo") y X'O ("casar con marroqUl ) estan negatl,vame,n X desde "negativo" (1) has- cambio, los inferiores a 1,00 coinciden con variables cuyo coeficiente B es negativo, lo que
cambio en la valoración de los partidos de IdeOIOgl~lr~~~i;~~ ~e la razón de verosimilitud significa que la probabilidad de ocurrencia de Y disminuye, cuando aumenta la variable co-
ta "muy positivo" (4) provoc~ un,,; dlsm~nuClon en e o cto a no ser favorable, en la mag- rrespondiente en una unidad.
de ser favorable a la regulanzaclon de Inmlgrant~:n;:~~~se las demás variables predicto- Por ejemplo, el coeficiente B de la variable X9 es -,432, su exponente es ,649. Este
nitud expresada en el coefiCiente (-,432), man .' d I número de inmigrantes último valor significa que para cada incremento en una unidad en X 9 (manteniendo las de·
ras constantes, Lo mismo sucede cuando cambia la percdepClon. deOS" (2) y a "demasiados" más variables predictoras constantes), la probabilidad de ser favorable a la regularización
" s" (1) a "bastantes pero na emasla
en España (X,) d esd e poco . .' cambio de "O" (mujer) a 1 (varón) pro- de inmigrantes ilegales disminuye en un "35,1%" [(,649 - 1) x 100 = -35,1 J. En la varia-
(3), aunque en menor cuantía (-,399). ASimismo, un · t mente de los valores de las otras ble "sexo" (variable ficticia), con un coeficiente B de -,459, su exponente (,632) se in-
vaca una disminución en logit (Y) de -,-,459. I~depen dlen e favorable a la regularización terpreta como una reducción del 36,8% [(,632 - 1) x 100 = -36,8J en la probabilidad de ser
variables independientes, el ser varan predispone a no ser favorable a la regularización de inmigrantes ilegales cuando se es "varón", en relación con
de inmigrantes ilegales, al contrario que en las mUJeres. . conforman la ecua- las mujeres, que muestran ser más favorables a dicha regularización.
Sustituyendo diferentes valores en las vanable~p~c~~c~o~:~~~:bles explicativas. De X" la primera variable en formar el modelo de regresión logística, es la más relacio·
ción se puede predecir logit (Y) para cualqUier com In . nada positivamente con la probabilidad de ser favorable a la regularización. Por cada au-
acu~rdo con la ecuación de regresión logit obtenida, una persona que.
mento en una unidad en X" se incrementa la probabilidad de ser favorable a la regula·
rización en un 665,8% [(7,658 - 1) x 100 = 665,8J, manteniéndose constantes las demás
• sea favorable a facilitar la entrada a inmigrantes (X, ~ 1); _ .
variables independientes. X. es una variable ficticia con dos opciones de respuesta: 1: fa·
• manifieste una simpatía hacia los norteafncanos de 7 (X" - 7),
cilitar la entrada a inmigrantes; O: no facilitarla. Es lógica la relación entre ambas variables:
considere las leyes de inmigración duras (X, ~ 5);
"':!¡~lr
158 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 2: Análisis ulogit" 159

las personas que afirman que se'tlebería facilitar la entrada a los inmigrantes en España su influencia concreta en la predicción de dicha probabilidad. Como esta información no sue~
son los más predispuestos a su regularización.
La variable "edad" (X,) apenas afecta a la probabilidad de ser favorable a la regulariza_
ción de inmigrantes. El incremento que supone es del 1,6% Y su exponente es prácticamente
1 le p~oporcionarla d.irectamente la mayoría de los paquetes estadísticos, puede calcularse a
partir de los coefiCientes de pendiente y las medias de las variables. El procedimiento con-
siste en calcular las variaciones en la probabilidad de la variable dependiente para los valores
1,00. Recuérdese que este valor expresa la inexistencia de relación entre ambas variables. extremos de las variables explicativas, dando al resto de variables implicadas su Corres-
Las dos probabilidades (de ocurrencia y no ocurrencia) casi coinciden en esta variable: El in- pondiente valor medio. Cada coeficiente se multiplica por la media de la variable y se calcula
cremento en P (Y = 1) apenas es del 1,6%, con cada incremento en edad. . su exponente para, posteriormente, aplicar la siguiente fórmula:
Respecto a la constante, su exponente es ,310. Significa que la P (Y = 1) disminuye
en un 69% [(,310 - 1) x 100 = -69J, cuando todas las variables independientes en la ecua-
ción son cero. Si bien, en la interpretación de los exponentes (o "odds ratio") hay que te-
ner presente que sólo constituyen una medida separada de la relación entre las variables
independientes con la dependiente. No pueden sustituir a los coeficientes de regresión lo-
gística estandarizados en la comprobación de la fuerza de las influencias de las variables Ésta se ha obtenido a partir de la función logística, definida por McFadden (1974) como:
predictoras con la dependiente. Proporcionan la misma información que los coeficientes
no estandarizados, aunque de una forma diferente y más fácilmente interpretable.
Tomando los datos dados en la tabla A, la ecuación de regresión logística queda fi- Prob(Y = 1) = F(x;f3)
nalmente definida de la manera siguiente:

• La probabilidad de ser favorable a la regularización de inmigrantes ilegales es Donde: "P' es un vector de parámetros y "x7' es la media de la variable x..I
igual a:
De acuerdo con los incrementos de probabilidad, puede afirmarse que X ("facilitar la
ea+P,X ,+fj¡ x, +...+p¡;X ~ e( -1, 17J+2,036Xa +,114 X'S +,51SX, +,4t4X" _,432X~ +,016 X. -,399 X~ -,459 X )-,288X,O )
entrada a inmigrantes") es la variable más relacionada con la probabilidad de ~er favorable
P(Y -= 1) -= 1 + e(t+P,X,+~X1+...fJKX¡; 1 + e{-1,173+2,036X8+,1l4X'l+,518XI+,414Xu-,432X~+,016X.-,:)99X6-,4S9X¡-,28SX m ) a la regularización de inmigrantes ilegales. X. ("edad") es, por el contrario, la que m~es­
tra ser m<;nos relevante en la predicción de dicha probabilidad. Aunque la "edad" de la per-
son~ esta posItivamente relaCionada con la probabilidad de ser favorable a la regulari-
zaClon, su conocimiento apenas incrementa la probabilidad de P(Y =1). El incremento de
probabilidad no liega a ser ni del 1%, exactamente de 0,35%.
(,310)(7, 658X,)(1, 120X,,)(1, 678X I )(1, 513Xn )(, 649X, )(1, 016X,)(, 671X, )(, 632X,)(, 750X,,)
_. 1 +[(,310)(7 ,658X,)(1, l20X ,,)(1, 678X 1)(1,513Xn )(,649 X 9)(1,016X, )(,671X,)(,632X3)(' 750X,,)] Tabla B. Incrementos de probabilidad (en porcentajes)

Variable Coeficiente B Media de X" Incrementos de


• La probabilidad de no ser favorable a la regularización de inmigrantes ilegales es Exp(Bx')
Probabilidad (%)
igual a:
X, 2,036 ,9047 6,309 24,0
1 1 Xt5 ,114
P(Y =0) (-1,173¡.2,036Xs+,114X,S+,518X,+,414XI1-,432X?+,016X.-,399X.-,459X1-,288X,o)
5,9629 1,973 2,5
1 +e Xl ,518 1,6441 2,343 10,9
Xll ,414 2,1482 2,434 8,5
1 X, -,432 1,4242 0,541 -9,8
X. ,016 44,9330 2,052 0,4
X. -,399 2,2260 0,411 -8,2
Xa -,459 ,4811 0,802 -11,3
1 X" -,288 . 1,6729 0,618 -6,8
1+[(,310)(7 ,658Xs)(1, 120X ,,)(1, 678X 1)(1,513X n)(,649X, )(1,016X, )(,671X,)(,632X3)(' 750X,,)]
• Los.~alores medIos coinciden con los expuestos en el subapartado 1.3.2, excepto en las variables X (que se ha re.
codificado en un número inferior de categorías) y Xe (qu~ se ha transformado en ficticia). 1

La tabla B incluye los incrementos en la probabilidad de ser favorable a la regularización


de inmigrantes en España, expresados en porcentaje, para las variables que muestran ser . Por último, pUede comprobarse si la eliminación de una de las variables predictoras Con-
significativas en la predicción de P (Y = 1). Los incrementos de probabilidad permiten analizar sigue mejorar el ajuste del modelo. Como se ha aplicado el criterio de "reducir la verosimili-
Capítulo 2: Análisis "logit" 161
160 Análisis multivariable. Teoría y práctica en la investigación social

. . I Iida del ordenador incluye los valores dicción de la probabilidad de Y Incluye no sólo los estadísticos principales en la medi-
tud"(RV) en la selección de variables predlctoras, asa inada del modelo. Esta información ción del ajuste del modelo global, sino también la tabla de clasificación (o de predicción)
de lag-verosimilitud para el modelo, SI la va~,able es ell~ra cuál sería el lag-verosimilitud del y los estadísticos principales en la medición de la eficacia predictiva del modelo. Puede
se da en la tabla C. Para cada vanable pre. Ictora ~~:: variable fuese eliminada del modelo. haber un modelo que presente un ajuste adecuado (que lleve a su aceptación), pero cu-
modelo y el cam~io en log de la veroslmlll:.~d,:1 ~ la significación del cambio. Los grados
-3 ya eficacia predictiva sea escasa; 0, a la inversa.
A esta informaclon se anade I~s grad?S de I e a y arreS ondientes en ambos modelos A la comprobación del ajuste global del modelo y su eficacia predictiva hay que
de libertad se obtienen de la diferencia de.I~~ grado~. Ctoras ~ue muestran ser significativas añadir la identificación de "atípicos" (outliers), por su influencia negativa en el ajus-
(1): el modelo completo (con todas las vana es ~r~ ICeducídO (que excluye a la variable in- te del modelo a los datos empíricos. Aunque ha de insistirse, de nuevo, en que la com-
en la predicción de la p~obabllldad de Y) yel ":'0 e ~~ha robabilidad se examina). Los mis- probación de la adecuación de un modelo analítico no debe limitarse exclusivamente
dependiente, cuya slgnlflcatlvldad en I~ predlcflo~o~:dimien~o secuencial de incorporación de a criterios estadísticos. De igual, e incluso de mayor relevancia, es la comprobación de
mas resultados se han obtenido sl,9u.,end? e" p. t ' " Las variables figuran según su or- su significado lógico-sustantivo (en relación con el marco teórico de la investiga-
variables "hacia delante" que de ellmlnaCID~ hacl? a ras. ción). La carencia de sentido lógico lleva inevitablemente a la desestimación del
den de incorporación al modelo de regreslon loglstlca. T ación para el cambio. superior al modelo, aunque éste muestre ser "adecuado" desde el punto de vista estadístico.
Como ninguna de las variables presenta luna slg~1 I~e al,9una de las variables del mo-
valor de corte habitual (,05), se desestima la e Immacl~n es cero se rechaza. Todas las va- 2.1.5.1. El ajuste del modelo global
delo predictivo. La hipótesis nula de que el coe~clen e n.tud a la probabiHdad de ser fa-
riables muestran contribuir, aunque en pequena mag I t' ambos valores "-2LL" (para En regresión logística la medición del ajuste del modelo en su conjunto se lleva a
vorable a la regularización de inmigrantes. La dlfNe~cla ~~;~a variable a examen) es su- cabo, principalmente, con la ayuda de los estadísticos siguientes:
el modelo sin la vari~ble y el modelo CO~PI~~O, :~~ u~eun nivel de significación de ,05:
perior al valor i' teo~lco con 1 grado e I er , im Iica una probabilidad de equivo- a) G o i' del modelo.
3,841. Si el valor de slgnlflcaclon se f!J~ en ,01 (que ~ I'bertad es 6,635. Cinco de las
cación en la inferencia del 1 %), X' teorlco con 1 grado el .. b) Ri y pseudo -R2.
nueve variables predictoras superan incluso dicho valor teonco. e) La desvianza (D).
d) El estadístico de bondad de ajuste V.
Tabla C. n ud del modelo si se elimina el término
Log~veroslmll e) La prueba X- de bondad de ajuste de Hosmer y Lemeshow.
Grados de Significatividad
Lag verosimilitud Cambio en 210g del cambio A estos estadísticos principales pueden añadirse otros de menor aplicación, al no
Variable de la verosimilitud libertad
de/modelo estar disponibles en la mayoría de los programas estadísticos al uso, como el Criterio
1 ,000
-335,939 40,537 ,008 de Información de Akaika (AIC). Este criterio fue propuesto por Akaike en 1987 (en
X, 7,060 1
X15 -319,200 1 ,000 "Factor Analysis and rAC", Psychometrika, 52: 317-332). También está el criterio de
-322,060 12,779
X, 11,921 1 ,001 Schwartz, una de las modificaciones de Ale. Ambos criterios se aplican en la com-
-321,631 ,016 paración de modelos cuando se comparan los valores correspondientes para el modelo
X" -318,562 5,784 1
X, 1 ,005
-319,580 7,820 ,024
ajustado con los pertenecientes al modelo sólo con el intercepto. Pero, dada su escasa
X, 5,126 1
X, -318,233
1 ,026 aplicación en el análisis de regresión logística, se van a describir sólo los estadísticos de
-318,160 4,979
X3 4,807 1 ,028 uso más común (al ofertarse en la mayoría de los paquetes estadísticos populares).
XlO -318,074

. . .. . . a el cambio en el estadlstlco de razon


Si se comparan los niveles de slgnlflcaclon par,. d Wald (tabla A) se observará A) G o X2 del modelo
de verosimílítud con los correspondientes al estadlstlco e '
que guardan bastante similítud. En regresión lineal, la comprobación del ajuste global del modelo se hace me-
diante la prueba razón "F", con "p" y "N - P -1" grados de libertad (siendo "p" el
número de variables predictoras, y "N" -o "n"- el tamaño de la muestra) -véase su-
2.].5. La adecuación del modelo bapartado 15.3-. Mediante este estadístico se comprueba la hipótesis nula de que to-
dos los coeficientes en el modelo, con excepción del intercepto, son cero en la po-
. . obligado en la construcción de un mo- blación (Ho : /3, = /32 = /33 = ... = /3p = O), frente a la hipótesis alternativa de que al
Una vez estimado'S los coefiCIentes, un paso d ., del modelo para la pre-
delo de regresión logística es la comprobaclOn de la a ecuaclon
Capilulo 2: Análisis "logit" 163
162 Análisis multivariable, Teorfa y práctica en la investigación social

f' t "fl" es distinto de cero. Su contribución estimada a la predic- El contraste de hipótesis se realiza de la forma usual. El valor empírico de i! del
:~~~eul~ ~~;i~~~nd:pendiente es significativa y, en conse~?:,nciasin~rible al U~i­ modelo se contrasta en el correspondiente valor i! teórico, con "K" grados de libertad,
, la a licación del estadístico de contraste t de tu ent, en ca a a un determinado nivel de significación (habituahnente ,05 o ,01, depende de lo res-
verso .. Despue~, d p( bapartado 143) revela qué coeficiente es "no cero" y, en tringido que se quiera el modelo). La hipótesis nula se rechaza cuando el valor empúico
coefiCIente estima o su .. ,
, stadísticamente significativo. ,, de i! del modelo supera alteórico, Si el nivel de significación elegido es ,05, el modelo
consecuenCIa, ~ . , d la significatividad estadística de los coeficientes de regreslOn adquiere significatividad estadística, cuando p" 0,5 (que supone el rechazo de la hi-
La compro aClOn e crito en el subapartado 2.1.4.2. Ahora queda describir pótesis nula de que todos los coeficientes, Con excepción de la constante, son cero). El
logisllca eslJmados ya se, ha,gesf idad del modelo en su globalidad, La mediación del modelo estimado es de utilidad en la predicción de la probabilidad de Y.
cómo se comprueba la slgm ca IV " .) b'én llamado "-2LL" (o me- Por ejemplo, si -2 log de la verosimilitud inicial ("-2LLO") es 65 y el correspon-
estadístico razón de verosimilitud (log;/¡k;/¡hOO:;~~~t~~rr:..2 ~eces log-likelihood ratio, diente a un modelo con 5 coeficientes (incluida la constante) es igual a 49 ("-2LLl"),
nOS dos veces ellogantmo de la raz nevero ara este ro ósito Ayuda a medir la significatividad del cambio en "-2LL" (16) puede calcularse utilizando la distribu-
al ser la diferencia entre dos logantmos) es clave PI b bili~ad d~ Y mediante la
ción i! con 4 grados de libertad (al haber 4 variables independientes) y un nivel de sig-
el efecto ~onjunto de las vari~~I~,~~~~~ct~;:su~nm~X;~ ~on ninguna ;ariable inde- nificación a= ,05. El valor teórico de i! es "9,488", Al ser inferior al empírico (i' del
comparaCIón de dos 10galnt~0) . "2L~' para el modelo con todas las variables ex- modelo o G = 16), se rechaza Ho' El modelo de regresión logística cou 4 variables pre-
pendiente (el modelo nu o, con-
dictaras proporciona un mejor ajuste a los datos empíricos que el modelo nulo.
plicativas (Ll): En la regresión logística politómica, el uso del estadístico i! del modelo es similar
al del modelo dicotómico. Se fonnula, también, en términos de diferencias de las fun-
G =-2 lag (LO / Ll) = (-2 lag (O) - (-2 lag (1)) = - 2 LLO - (-2 LLl) ciones de verosimilitud para el modelo con sólo el intercepto (LO) y el modelo con to-
dos los coeficientes estimados (Ll): X2 del modelo = -2LLO - (-2LLl), Difiere, sin em-
Donde' "Ll" eS el valor de la función de verosimilitud para el model? completo, tal bargo, en los grados de libertad, En el modelo dicotómico es igual a "K"; en el
, como ha quedado configurado, con todos sus coef¡clentes. modelo politómico, a K (M -1), Mediante este estadístico se quiere comprobar,
"LO':es el valor máximo de la función de verosimilitud cuando t'10s los igualmente, la significatividad global de la serie de variables predictoras. La hipótesis
coeficientes exceptuando el intercepto, son cero, Su valor s~e e apa- nula afirma que todos los K(M-l) betas incluidos en las M-l ecuaciones de regresión
recer en la s~lida de ordenador al inicio, antes de que las var:~bles ,I?- logística son simultáneamente iguales a cero, lo que supone la no significatividad es-
l' de endientes entren en el modelo, Común~e,nte se llama funclOn tadística de los coeficientes beta estimados, La hipótesis alternativa expresa, por el con-
lo%-likelihood inicial" (o -210g de la verosimlhtud ImCIa!), trario, que al menos uno de los coeficientes beta es distinto de cera. El rechazo de la
hipótesis nula, y la consiguiente aceptación de la hipótesis alternativa, significa que al
o la verosimilitud suele ser un valor inferior al, se opta por utilizar -2 veces menos una de las variables independientes en el modelo tiene un efecto significativo
Com , T d (" 2LL") De esta forma la dIferenCIa entre ambos en al menos uno de los logits de Y
el logaritmo de la veroslml,¡(U, -:, '' d 102)' lo ue facilita la compro-
" 2LL" se aproxima a la dlstnbuclOn Chl - cuadra o \ Á ' q f ia ba
- , .. . ' d d D h' ue este estadístico aparezca con recuenc -
bación de su SlgUlflC~l!VI a d' e al 1 q d' lo" ("model X2") Este último término es de B) R'i Y pseudo-R'
. 1 b d "chl cuadra o de mo e '
~s~ c~'::'únr:n ~uch~S paquetes estadísticos, Otras veces eS referido simplemente co-
En regresión lineal, el coeficiente de determinación (R2) es básico para conocer la
mo "-2LL". . l' t de "_ 2LLO": -210g de la verosimilitud proporción de varianza de la variable dependiente que queda explicada por el modelo
L luación COill1enza con e mcremen o 1)
inicia~ ~i~o:ee~b~~~~~~~~~;~~:!(n~~:~~~~:~~::'n~;:e;~eb:S~~é~~~~c~~a~l;
de regresión, Su valor se calcula a partir de la razón de la suma de cuadraclos de re-
gresión a la suma de cuadrados total (subapartado 1.5.1).
~~J~~ ~: verosimilitud para el modelo completo, qu~ in,:lu~e tl~da:;~:~~~:~e;el'!{ En regresión logística una medida equivalente es "R'¿", El sufijo "L" se añade para
dependientes que muestr~n ser relevanhtes ';~Nla
(" 2LLl ") Los grados de libertad son a ora -
k:d;~C(~~:nd~ "0' el número
. .. d
de va-
b
expresar que su valor se obtiene a partir de la razón de verosimilitud (log-likelihood) de
la comparación de "-2LLO" y "-2LLl ", Y no de la comparación de Y con Y, como en

ind~pendientes). difder~n~!at:~t~ge::~~~ ~i~~~~~~~ad::::~l;;l~:~a~~~e~


regresión lineal.
ri:bles De Ida Si se parte de que "-2LLO" es análogo a la suma total de cuadrados, y que
tiene i! del modelo, 'con gra os e. I r "-2LL1" es igual a la suma de cuadrados residual (en regresión linea!), se obtiene una
("K": el número de variables predlctoras),
164 Análisis multivariable. Teorlfl y prácrica en la investigación social

Capítulo 2: Análisis "logit" 165

medida tipo "R2" para la regresión logística (Rosmer y Lemeshow, 1989; Agresti, 1990; C) La desvianza (D)
DeMaris, 1992). Ésta se calcula de la manera siguiente:
El estadístico "D" llamado por 1a '
R 2 = -2LLO-(-2LL1) desempeña, en la reg:esión logística ~?ona de los autores "desvianza del modelo"
L ----:2:-:L"'L:-:0:----'- sidual en la regresión lineal" (Hos' , e ~Ismo papel que la suma de cuadrados re'
dor de mal ajuste del modelo con t~~:{la en;eshow, 1989: 44). Se toma como indica:
A En regresión lineal, la comparación de sl~:nables exp]¡catlvas en la ecuación.
Al igual que "R2", el rango de valores posibles de "RE" va de O (las variables in-
(Y) se basa en el cuadrado de la d' t . valores observados (Y) y los predichos
dependientes están completamente incorrelacionadas con la variable dependiente, no dual) E b' IS anCla entre ambos ( d '
siendo de utilidad en la predicción de la probabilidad de Y) a 1 (que indica la pre- · . n cam 10, en regresión logística Se e suma e cuadrados resi-
nable respuesta con los valores predich ompar~n los valores observados de la va-
dicción perfecta de la probabilidad de Y mediante la serie de variables independien- vanable en cuestión Para ello 1 os obtemdos del modelo "con" y "sin" 1
tes que forman el modelo de regresión). Pero, como bien señala DeMaris (1992: 54): . " se emp ea la función de '. a
gUJente expresión (Rosmer y Lemeshow, 1989): . verOSImIlitud siguiendo la si-
"Aunque uno esté tentado a pensar de esta cantidad como la proporción de varianza
explicada por el modelo, no es bastante correcto hacerlo así. La dificultad con esta in- D = -2Ln (verosimil't d d 1
terpretación es que menos de dos veces ellog de la verosimilitud no'es realmente una e modelo corriente/ verosimilitud del modelo saturado)
1U
cantidad interpretable. Quizás lo mejor que pueda decirse es que esta medida es una El modelo saturado es aquel ue co .
aproximación para asegurar la eficacia predictiva". "Rt" expresa la reducción pro- Lumeborg (1994: 422) destac~ e t ntJe~~ t?dos los parámetros posibles.
porcional en "X2"; o, dicho de otra forma, una reducción proporcional en el valor ab- bondad de ajuste global para el mod~l~ ::;gt~t::~,~O¿D) c?mo "nues~ro ~stadístico de
soluto de la medida de "lag de la verosimilitud". ferenclas cuadradas entre las o b ' . o defllle no en termmos de las di
servacIOnes de respu t . -
Aldrich y Nelson (1984) argumentan que "R"i" no tenga la misma interpretación no de sus razones: es a y sus medIas modeladas, si-
que su homólogo en regresión lineal, "R2" (proporción de varianza en la variable de-

D=2(r YIO [¡1(Y/X;) ~


pendiente que es "explicada" por las independientes), debido a que en regresión lo-
gística la media ("P") y la varianza (" P [1 - P]") no son parámetros separados. Para
solventarlo, proponen una medida de bondad de ajuste similar a "R 2", a la que llaman ;"1 '
y, ] + ¡;¡,(1-Y,)10g
g
[1-Y
1-¡1(Y;X;) ]11)
"pseudo-R2". Su definición, siguiendo la notación empleada en este manual, es la si-
guiente: En muestras grandes, la desvía .
dos de libertad. nza se ajusta a una distribución X2, con N _ K gra-
En su lllterpretación se s' 1 . .
2 G . 19uen as SIgUIentes convenciones (Lumeborg, 1994: 425)'
Pseudo- R = - - -
G+N • SI e~ valor del estadístico de desvianza cae dentr o .
quenos que componen la distribución de o del 75 Yo de los valores más pe-
Donde: "G" es el estadístico X2 del modelo, designado como "c" por Aldrich y concluirse que el modelo presenta u b p~obabI]¡dad X2 apropiada, puede
Nelson (1984). • Cuando la desvianza es más d 11 uen ajuste a los datos.
"N" es el tamaño de la muestra total. la distribución X2, se dice q u~:;me, ;~tre el 25% de los valores más grandes en
o e o no proporCIOna un buen ajuste
. En consecuencia, interesa valores de desvian . .
Esta medida equivale al coeficiente de contingencia cuadrado, algunas veces em- lmeal con la suma de errores cuadrado) Yo 1 Za ba¡os (como sucede en regresión
pleado en el cálculo de asociaciones para variables nominales. Su valor va de O a 1: el modelo ajusta bien los casos observ:dos. ap~~e=lde desvwnza pequeños significa que
cuando el ajuste del modelo es bajo, su valor se aproxima a O. Las variables indepen- vados mdlcan un mal aJ'uste del mod 1 b . conhano, valores de desvianza ele-
e o o temdo.
dientes no están relacionadas con la predicción de la probabilidad de Y (G = O). Un va- 1
lor próximo a 1 expresa lo contrario: Un ajuste perfecto del modelo a los datos. No obs-
tante, se observa una desventaja importante en la aplicación de esta medida: "Nunca D) El estadfstico de bondad de ajuste Z2
puede alcanzar en realidad un valor de 1, incluso cuando la predicción de la vadable
Una cuarta medida de bondad d ' ,
dependiente sea perfecta" (Menard, 1995: 22).
cedentes, es el estadístico de bon~a~u~~e'aa~nqu;, de"uso menos habitual que las pre-
J J ste Z2. Este estadístico tamb" len se
1,
166 Análisis multivariable. Teoria y práctica en la investigación social
Capítulo 2: Análisis "logit" 167

ajusta a la distribución X', pero con N-K-l grados de libertad. Compa;a l~s probabi- Hosmer y Lemeshow (1989: 144) destacan como ventaja principal de la aplicación
lidades observadas con las creadas por el modelo mediante la expreslon slgmente: de este estadístico de comprobación que proporciona "un único valor fácilmente in-
terpretable, que puede utilizarse para asegurar el ajuste" del modelo. Además, la ta-
N E2 bla de contingencia contiene información descriptiva valiosa para asegurar la ade-
Z'=2:----'- cuación del modelo ajustado. De Ja comparación de las frecuencias observadas y
;=1 P'(1-P') predichas, en cada celdilia, se puede averiguar dónde el modelo no actúa de manera sa-
tisfactoria.
Donde" E" es el residuo, que se define como la diferencia ent:-e la probabilidad O?- En su contra está que precisa que el tamaño de la muestra sea suficientemente ele-
servada y la e~timada de Y (a partir del modelo predictivo) en elléslffio caso. Para mas vado para permitir su división en, aproximadamente, 10 grupos grandes, de tamaño si-
información véase subapartado 2.1.5.3. . . . milar. Además, es condición necesaria que en cada grupo la frecuencia esperada sea
El valor de ZJ aumenta, cuando el residuo es elevado, mdlcando un mal ajuste del superior a 5. Pero, la existencia de un tamaño muestral muy elevado tampoco garan-
modelo. A diferencia de los estadísticos de bondad de ajuste precedentes, ahora m- tiza la realización exitosa de esta prueba de bondad de ajuste. Recuérdese que X2 de-
teresa la aceptación de la hipótesis nula. Su rechazo equivale a deCIr que el modelo no pende bastante del tamaño muestra!. Cuando el número de casos analizados es muy
es significativo. elevado, lo más probable es que el valor empírico de i' supere al teórico, lo que llevaría
al rechazo de la hipótesis nula, aunque ésta fuese realmente cierta. Por esta razón se
aconseja que su aplicación se haga complementándose con otras pruebas de bondad
E) La prueba X' de bondad de ajuste de Hosmer y Lemeshow
de ajuste. Además, esta prueba no se incluye en la salida estándar de todos los pro-
gramas, aunque sí se oferta en dos principales: SPSS y BMDP.
Hosmer y Lemeshow (1989) propouen la aplicación del estadísticoX' d,; Pea:son e?
la comprobación del ajuste de un modelo de regresión 10gístJca~ Su .realizaclOn ~X1ge, pn-
mero, la división de la muestra total en varios grupos de tama~o s~llar. Lo habItual es
que sean 10 los grupos formados. Después se procede a la ~tnbuclón de los casos a los
grupos en función de su probabilidad estimada de ocurrencia del evento que ~~ analice.
De este modo, cada grupo reúne los casos que presentan la nusma ~omb~n~clOn de va-
lores en las variables predictoras que forman el modelo de regreslOn 10grstJca.. _ El estadístico fundamental en la comprobación del ajuste del modelo en su conjunto
A continuación, se confecciona una tabla de contmgencla con las frecuencIas ob es, en regresión logística, G o ;f del modelo. Su aplicación es análoga a la prueba F en
servadas y esperadas en cada valor de la variable dependiente:. O (no ocurrencia del regresión lineal. Mediante él se comprueba la hipótesis nula de que todos los coeficien-
evento) y 1 (ocurrencia). De la comparación de ambas frecuen~las en cada una de las tes en el modelo, a excepción de la constante, son cero, frente a la hipótesis alternativa
celdillas de la tabla se obtiene el valor empírico de X', a partIr de la suma de tOd;S que afirma lo contrario. Para este contraste de hipótesis se procede, como es común, a
las diferencias entre las frecuencias observadas ("fo") y las predichas o espera a la comparación de los valores empíricos (obtenidos en la muestra analizada) con los
("fe"), en todas las celdillas que componen la tabla: teóricos al nivel de signilicatividad elegido. El valor;f del modelo empírico obtenido es
191,647, con 9 grados de libertad. Recuérdese que son 9 las variables explicativas que

X2 = ±±
¡",,1 1'=1
(fo,¡ - fe,)'
fe¡j
forman el modelo de regresión logística. Su significatividad es plena (,000); supone el re-
chazo de la hipótesis nula con una. probabilidad de equivocación en su rechazo, al ser és-
ta realmente cierta, del 0%. En consecuencia, puede afirmarse que las variables que in-
tegran el modelo ayudan a la predicción de la probabilidad de ser favorable a la
L os grad os d e libert ad son "g - 2" , siendo "g" regularización de inmigrantes ilegales.
, .el número
. de grupos.
. nifi El.,valor
1 em-
'd En una tabla de la distribución;f puede comprobarse el valor teórico de;f para un
pírico se compara con el correspondiente valor teonco, al mvel de slg caclOn e egr o,
para comprobar la hipótesis nula de que "no existen diferenCias entre los valores ob- nivel de significatividad de ,05 y 9 grados de libertad: 16,919. Si el nivel de significatividad
es ,01 (que significa una probabilidad de equivocación en la inferencia del 1%), el valor;f
servados y los predichos a partir del modelo de regresió~": A dlfe;encJa de otras aJ?li- teórico aumenta a 21,666; para un nivel de significación de ,001, es 27,877, un valor bas-
caciones de la prueba X', en ésta interesa un valor empmc~ de X mfenor al teónco tante inferior al empírico. Esto permite concluir que el modelo es estadísticamente sig-
porque permite concluir que el ,modelo presenta un buen ajuste: las fr~cuenclas ob- nificativo: el modelo con 9 variables predictoras es significativamente mejor que el modelo
servadas y las predichas coinciden (como expresa la hlp~tesls nula). La slgmÍlcatlVldad nulo. Esta conclusión era predecible por el tamaño de la muestra analizada y su efecto
de X2 ha de ser, en consecuencia, > ,05 para que la hlpotesls nula no sea rechazada. constatado en el valor ;f.
Capftulo 2: Análiú'l "logit" 169
168 Análisis multivariable. Teoría y práctica en la investigación social

Además de i'del modelo, el programa SPSS ofrece los valores R' de Cox y Snell y R'
G O i' del modelo = -2LLO - (-2LL 1) = 822,988 - 631 ,341 = 191,647
de Nagelkerke, Ambos estadísticos se asemejan al coeficiente de determinación ("Fi''') en
regresión lineal: intentan cuantificar la proporción de varianza "explicada" por el modelo
, ' I f "de verosimilitud cuando el modelo de regresión
" 2LLO" es el valor maxlmo de a unclon 'I'd d de regresión logística obtenido.
- lo ística sólo incluye la constante, Su valor aparece al 'In'lclo de la sa I a e or:
d;nador, antes de proceder a la introducción de las, vanables ,~redlctoras, De ahl -2LLO]%
, " h b't I de" 210g de la verosimilitud Inicial, Sus grados de 11- • R' de Cox y Snell: R" = 1- [ --L-- . A diferencia de R' de Pearson, no alcanza
-2L 1
sburtdednoml~~Nc~~" ~IS~~ "-2~LO" es igual a 822,988 con 780 -1 = 779 grados
e a son ' , d i ' 'cial (que no incluye el valor máximo de "1". En el modelo que se evalúa, R' de Cox y Snell es igual a
de libertad, El coeficiente de la constante en este mo e o InI
,218.
ninguna variable independiente) es igual a 1,263, .
"-2LL 1" es el valor de la función de verosimilitud para el modelo ,completo. Alquel ~~e I~­ • R' de Nagelkerke: R' = R',¡. Es una modificación del R' de Cox y Snell,
cluye las variables independientes que muestran ser slgnl!tcatlvas en ~~~e I~CIO~ 1-(-2LLO) N
de la probabilidad de Y: en este modelo 9, Su valor es 631,34 1 con -- que resuelve su deficiencia principal: el no alcanzar el valor máximo de 1, aunque
grados de libertad ("N - K - 1"), la precisión de la probabilidad de Y sea perfecta. En este modelo su valor es ,324.
Significa que el modelo predictivo con 9 variables predictoras logra una eficacia pre-
.' bas funciones de verosimilitud se obtiene el valor i' del mo-
delo~~;í~~~~;~~1 ~~1;ec~~ 9 grados de libertad (la diferencia entre los grados de libertad dictiva de la probabilidad de ser favorable a la regularización de inmigrantes ilegales
de ,334, cantidad relevante, aunque escasa, La probabilidad del evento que se ana-
correspondiente a "-2LLO"("779") Y "-2LL 1" ("770"). 'an los valores i' del paso y liza depende, en una proporción considerable, de otras variables independientes que
A?~/~á~ed:: ~:~;r~~~~lii~~;; ~~I;:C~~~i~~ior~~o:~;~~ción de variable~ predictoras no han sido incluidas en los análisis.

;::~enci~l: "hacia delante" siguiendo el criterio de reducir la máxima verosimilitud. Conociendo los valores "-2LLO" (822,988) y "-2Ll1" (631,341) puede calcularse
' n "-2LL" en pasos sucesivos. Su valor (4,807) se
Ri., aunque no lo facilite directamente el programa:
• i' del paso expresa eI cam b1 0 . e . 148) el aso 9
obtiene de la diferencia entre los valore~ :'-:2U:' del paso 8ri6!~, el sJbap~rtado R' = -2LLO-(-2LL1) = 822,988-631,341 = 233
(631 341) en el que concluye los anahsls (como se ve , 1 (1 d' L -2LLO 822,988'
2,1.6.2): 636,148 _ 631,341 = 4,807, Los grados de I~bertad son siempre a 1-
ferencia de un paso a otro; es 1 la variable que se anade en cada paso).
I b' n "-2LL" en sucesivos bloques de entrada durante la Esta cantidad ha de tomarse, igualmente, como una aproximación para asegurar la efi-
• i' del bloque es e cam 10 e 'ón lo íst/ca Su valor (191,647) resulta de la di- cacia predictiva del modelo, que resulta ser baja, De acuerdo con DeMaris (1992), no es
elaboración del modelo de regresl g " 'I't d' . 'al" (822 988) Y el corres- correcto interpretar los valores Ri. como proporción de varianza de Y explicada por el mo-
ferencia entre los valores "-210g de la verOSlml1 u InlCI 9 vari~bles predictoras delo. Su valor realmente expresa una reducción proporcional en el valor absoluto de la me-
ondiente al modelo completo hasta dicho paso, con " . de
~631 ,341), Todos los valores i' son estadísticamente Significativos, como pue dida de "lag de la verosimilitud".
Asimismo, se puede proceder al cálculo de pseudo-R', de la manera siguiente:
comprobarse en la tabla A.

a bJa A Pruebas ómnibus sobre los coeficientes del modelo


T; Pseudo-R' =~= 191,647 ,1972
G+N 191,647 + 780
Grados de Jíbertad Significativídad
Paso 9 eh; - cuadrado
En su interpretación hay que tener presente, igualmente, que nunca alcanza el valor
1 ,028
Paso 4,807 1, como ocurre con la R' de Cox y Snell. Lo que se convierte en un límite importante de
,000
Bloque 191,647 9
,000 su aplicación y convierte a R' de Nagelkerke y Rl. en estadísticos preferibles en la com-
191,647 9 probación del ajuste global del modelo de regresión logística.
Modelo
Como el tamaño muestral es elevado (780 casos válidos), el programa SPSS ofrece
la prueba i'de bondad de ajuste de Hosmer y Lemeshow(1989), para cada paso que com-
, ', ' t os del modelo concluye pone el análisis. La tabla B corresponde a la tabla de clasificación necesaria para la
La estimación, comprobación y re.estlmaclon de los parame r imilitud en menos de un
en el número de iteraciones 3, al dlsmlnUII el logantmo de la verlOS ejora en la funGÍón realización de dicha prueba.
La muestra de análisis (780 casos) se divide en 10 grupos casi del mismo tamaño: 78
,010 por ciento, Este valor indica que ha dejado de apreciarse a guna m
de verosimilitud.
°
casos en cada grupo, salvo el grupo 5 (que reúne a 79 casos), y el grupo 1 (que cons-
170 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 2: Análisis "logit" 171

ta de 77), como figura en la última columna de la tabla. La atribución de los casos a los
grupos se hace en función de la probabilidad estimada de ocurrencia del evento que se variabilidad de la probabilidad de Y sin explicar. El estadístico más favorable, Ff de Na-
9,e/kerke, cuantifica la c~pacidad predictiva del modelo en ,334, cuando lo deseable hu-
analiza: la regularización de inmigrantes ilegales (,00, en contra; 1,00, a favor). Por esta biese sido una proporclon, al menos, próxima a ,50.
razón, es habitual que el número de casos en cada grupo varíe ligeramente. Cada grupo
engloba aquellos casos que comparten una misma combinación de valores en las variables
predictoras que forman el modelo de regresión lag ística.
El primer grupo, por ejemplo, está integrado por 78 casos en total: 54 se manifiestan
contrarios a la regularización (,00), mientras que 24 afirman ser favorables a la misma 2.1.5.2. La eficacia predictiva del modelo
(1,00). Además de las frecuencias observadas, la tabla Informa de las esperadas, también
para ambos valores de la variable dependiente. Ambas frecuencias se comparan (las ob- ~ t:~tarse de un modelo predictivo, otro aspecto clave en la evaluación de la "ade-
servadas y las esperadas) para comprobar en qué grado coinciden. Precisamente, el es- cuaClOn del modelo concie~ne, p~ecisamente, a su "eficacia predictiva". Ésta puede
tadístico X2 se calcula mediante la suma de las diferencias al cuadrado entre las fre- c?mpr?,barse, co~o en el analisls dlscruninante (capítulo 4), mediante las tablas de cla-
cuencias observadas y las esperadas dividido entre las frecuencias esperadas, en cada sificaclon (tambl~n.llamadas de predicción), que proporcionan la generalidad de los
celdilla de la tabla. De la suma de dichos cocientes [tt(fO,¡ -fe,¡)' /te;¡] se obtiene un programas estadl~tlcoS al uso. Estas tablas informan del porcentaje de casos que han
~uedado bIen clasIficados por el modelo estimado, lo que se considera un indicador del
r
valor empírico igual a 11,334, con 8 grados de libertad. Recuérdese que los grados de
exllo del modelo.
libertad de X2 para esta prueba es igual al número de grupos (10) menos 2 = 8. Este L~ eficacia predictiva del modelo puede medirse, asimismo, mediante una serie de
valor empírico es inferior al teórico correspondiente para un nivel de significación de ,05 estadlslJcos adecuados a ~kho propósito. Destacan las medidas de asociación común-
<r = 15,507). Su significatividad es, exactamente, 0,183. Este valor restringe la posibilidad mente empleadas en el analislS de tablas de contingencia: phi (4)), gamma ('f) Lambda de
de rechazar la hipótesis nula, que en este caso es deseable. El modelo parece ajustar ra- Goodman y Kn;skal (A,), la? de Somer, la r de Pearson, los "odds ratio'; K~ppa y otros.
zonablemente "bien" los datos, al "no" constatarse la existencia de grandes diferencias en- De ellos se hara mencIón solo a los más empleados en la regresión logística.
tre los valores observados y los esperados.

Tabla B. Tabla de contingencia para la prueba de Hosmer y Lemeshow


A) La tabla de clasificación
Regularizar inmigrante =,00 Regularizar ínmigrante = 1,00
Paso 9
Observado Esperado Observado Esperado
Total En I~ regresión logf~tica, las tablas de clasificación (o de predicción) se ajustan al for-
:"~ estandar, caracterrzado por el Cruce de las frecuencias de las opciones de respuesta
1 54 57,251 24 20,749 78 e ob'f,ervadas en la muestra (1 ocurrencia del evento; O no ocurrencia) con las pre-
2 35 32,814 43 45,186 78 dIchas (Y), a partIr del modelo estimado. La tabla tiene los sigulentes componentes:
3 27 22,559 51 55,441 78
4 12 17,035 66 60,965 78
5 12 13,323 67 65,677 79
16 67,879
PREDICHO ("9)
6 10,121 62 78
7 9 7,653 69 70,347 78 OBSERVADO (Y) '¡No ocurrencia" O "Ocurrencia" 1
8 5 5,555 73 72,445 78 Total
9 - 2 3,777 76 74,223 78 "No ocurrencia" O
10 1,922 77 75,078 77 a b
° "Ocurrencia" 1 c
a+b

d c+d
En resumen, la significatividad del modelo empírico ha sido corroborada por distíntas Total a+c b+d
pruebas X2 , que coinciden en afirmar que el ajuste del modelo a la distribución de datos a+b+c+d
es bueno. Lo que no es tan buena es su capacidad predictiva de la probabilidad de ser fa-
vorable o contrario a la regularización de inmigrantes ilegales, a decir por los distintos es- l Las casillas ':a". y "d" incluyen los casOs que han sido correctamente clasificados por
tadisticos Ff. Aunque el modelo incluya 9 variables predictoras, su contribución a la pre- e modelo predlClJvo, al coincidir su respuesta observada (Y) con la predicha (9)
dicción de dicha probabilidad es pequeña, al quedar una proporción importante de la Por el contrano, en las casillas "c" y "b" se agrupan aquellos casos que no han logra~
172 Análisis multivariable. Teoría y práctica en la investigaci6n social
Capftulo 2: A nálisÚ' "logit" 173

do ser correctamente clasificados por el modelo (en función de los valores que pre-
Su valor depende de los mar in 1 d
scntaban en las variables independientes). lumna ("a + c" y "b d")" g a es e la tabla: d.c fila. ("a + b" Y "e + d") d
El porcentaje de aciertos se obtiene de la división de (a + d) / N >< 100. El porcentaje + , y de la dlferenc'a " . . y e co-
los errores ("b" y "c") en la eI aSlÍlcaClOn.
.. " 1, eXIstente entle los aCIertos ("a" y "d")
Y
de errores de clasificación resulta, en cambio, del cociente (b + c) / N >< 100.
Los valores posibles van de -100 100
Como en el análisis discriminante, para que un modelo de regresión logí'tica se COn- los C h' , a +, . Un valor'¡'o/p -- +1 , OO'
a~.os _an SIdo correctamente ". ,. . slgm'f'lca que todos
sidere "predictivo", el porcentaje de aciertos ha de ser superior al de errores de clasi- . d' . pleGlCnos por el model f d .
In ICa lo cOntrario: fracaso en la predicción. L o es una o. Un ~alor negativo
ficación. En el subapartado 4.6.2 se incluyen diversos cálculos de en qué proporción han lor de 'P¡, se aproxima a cero puede eo l' os errores superan a los aCIertos. Si el va-
de ser superiores los aciertos a los errores de clasificación para considerar "válido" el dicción de la probabilidad de y C " nC mrse que el modelo no es de utilidad en la pre-
d
modelo. pretarse como una medida de r~d ua?ó o su valor se eleva al cuadrado, puede inter-
Cuando la variable dependiente es politómica (modelo de regresión logística po- UCCI n proporcIOnal del error (PRE).
litómica), las tablas de clasificación se elaboran para cada valor Y, incluyendo la ca- 2. Lambda-p (A )
p
tegoría de referencia. Los casos se clasifican en la categoría de Y para la que presen-
tan la probabilidad más alta, en conformidad con el modelo obtenido. Una medida basada en la reducción .
Asimismo, cuando se divide la muestra en dos (la muestra de análisis y la de va- duetion of Error [PRE]) que f proporclOn?1 del error (Proportional Re-
lidación), la tabla de claSIficación es más probable que se "utilice con la muestra de efficiency of prediction in crir::i~~;oP~~s~ por Ohhn y Duncan en 1949 (en "The
validación, y luego sólo en casos donde la clasificación sea un uso importante del mo- 451), como un índice de gran utiIida~~ ;abte~can Journ,al of Sociology, 54: 441-
delo" (Hosmer y Lemeshow, 1989: 173). . Guarda gran similitud COn el estadístico la as e predlcelon.
fine a partir de los valores máximos de la c mbd~ (A.) de Goo?man y Kruskal. Se de-
manera siguiente: onJunclon de las caSIllas de una tabla, de la
B) indices de eficacia predictiva

De las tablas de clasificación pueden calcularse diversos índices de eficacia pre- Ap ~ máx(a,b) +máx(c,d) +máx(a,c) +máx(b,d)
dictiva. Éstos permiten cuantificar el grado de predicción del modelo de regresión lo- máx(a+c,b +d)+máx(a+b,c +d)
2(a+b+c+d)
gística. En su mayoría son medidas de asociación de uso común en análisis de tablas de 2(a+b+c+d)
contingencia, si bien, tienen también utilidad en otros análisis. El rango de valores va de O O a 1 O U A l ' '.
En el análisis de conglomerados, por ejemplo, actúan como medidas de similaridad lizados se hallan perfectamente ~lasiJ/ca'd n p = .,0 slgmflea que todos los casos ana-
entre variables cualitativas (subapartado 3.3.4). En el análisis de regresión logística se Un valor próximo a cero muestra qU lOS a dpartlr del modelo de predicción obtenido
aplican, en cambio, como medidas de eficacia predictivas. Ésta es la razón de que apa- . ee mo eloeare d f' . .
elr, no puede predecirse la probabilidad del ev ce e e ICaela predicyva, es de-
rezcan acompañadas del sufijo "p", para denotar que se calculan para fines "predic- las vanables Independientes que eo f ento de Y a partIr del conocimiento de
tivos". Entre las medidas más aplicadas destacan las siguientes: n orman el modelo de predicción.
3. Tau-p (or)
p

Otra medida de eficacia predietiva .,


donal del error (PRE) es Tau-p (1' M que tamblen Se basa en la reducción propor-
La definición del estadístico phi en las tablas de clasificación se asemeja a la dada
"probablemente la medida de asocPI'a)' ., enard (1995: 28) le otorga el calificativo de ser
en el análisis de conglomerados, como una medida de similaridad para variables , . ClOn para tablas de . d' "
cualitativas (o categóricas). Si bien las letras "a", "b", "e" y "d" hacen referencia (en ra 1a mayona de los propósitos. PI e leelOn más apropiada" pa-
las tablas de clasificación) a los casos que han sido correcta ("a" y "d") o incorrecta- SIgUIendo la definición dada por Kendall a su estadíst' .
ICO 'l'b.
mente ("b" y "e") clasificados por el modelo predietivo.
P-Q
.j(P+Q+ T,)(P +Q+Ty )
(ad -be)
p
rfJ ~Ka+b)(a+c)(b+d)(c+d) Donde: "P" es la probabilidad de ue un .
cordante. q par alea tono de observaciones sea con-
CapEtu!o 2: AnáLisis "logit" 175
Análisis multivariable. Teoría y práctica en la investigaci6n social
174
Donde: "N" es el tamaño de la muestra total.
"Q" es la probabilidad de que sea discordante. "Pe" la proporción de errores sin el modelo.
"T " es el número de pares empatados en X, pero na en Y "Pe" la proporción de errores con el modelo.
"Tx" es el número de pares empatados en Y, pero na en X.
y

, . , l medición del efecto preclictivo de ,un modelo El estadístico "d" así definido se aproxima a la distribución normal. Indica si la pro-
. Este estadlstlco puede adecuarse a a " d "aciertos" de predicción y la porción incorrectamente predicha con el modelo difiere significativamente de la
de regresión logística, si la "concordancia se tra uce a ' , proporción incorrectamente predicha sin el modelo.
"d' d ." a "errores" de predicción. ,. . Este estadístico se asienta, por tanto, en una forma básica de conocer la eficacia pre-
Iscor ancla . . 't odelo de elevada efIcacIa predlc-
Un valor de -r = +1,0 mdlca que se esta an e un m . . . dictiva del modelo de regresión logística. Consiste en una aplicación de la lógica PRE ( de
tiva. Todos los catos han 19nifiogr~do s~~ ~~sr;~~~~:~t~;~::~~~~ ~~~~;:c~~~~ f.~~:~:~: reducción proporcional del error), que estima la mejora en capacidad predictiva que se lo-
delo. Un valor negatlvo SI ca q d íL > 80 sugieren que el modelo presenta un ele- gra con la aplicación del modelo completo, obtenido de los datos analizados, frente al que
~~d~e~~~';::~e::~~~ ~~a-rp~~:;;~ci;n de-I~ probabilidad de ocurrencia del evento Y se tendría sólo por casualidad. Para ello se calcula la diferencia de errores entre el modelo
nulo (aquel que sólo incluye el intercepto o la constante) y el modelo completo (que incluye
(en consonancia con los datos recogidos en la tabla de clasificacIón). además todas las variables independientes que han mostrado un efecto significativo en la
predicción de la probabilidad de ocurrencia de Y). Esta diferenciase divide por el error
4. Gamma-p (y) en la predicción cuando se utiliza el modelo nulo.
, . d G d Kruskal es otra de las medidas de asociación
El estadlstlco gamma e 0.0 man y . .' un modelo de regresión la- Errores en la predicción al Errores en la predicción al
que pueden aplicarse para medir la eficaCia predlctlv:t~~ión PRE Considera la pro-
utilizar el modelo nulo utilizar el modelo completo
gística. Tiene, al igual que los antenore una mterpr ea "concordante" (o correcta-
6
babilidad de que un par aleato:~ ~.~ °d s:;qa~~o~e: '~discordante" (o erróneamente
Eficacia predictiva =
Errores al utilizar el modelo nulo
mente predicha) menos la pro ~ I I a .
predicha), suponiendo la ausencia de empates. La eficacia predictiva se ntide comparando los casos mal clasificados. Los "errores
en la predicción con el modelo" (el número de casos para los cuales el valor de pre-
P-Q
dicción de la variable dependiente es incorrecto) es el equivalente a la suma de erro-
yp = P+Q
res cuadrados en regresión lineal; y los "errores sin el modelo", a la suma total de cua-
drados.
. .ó 'gual a los estadís- El valor máximo posible es 1,00. Este resultado significa que no existe ningún error
El rango de valores posibles, al igual que su mterpretaCl n, es I
1 e guarda una gran slmrlltud. en la predicción de la probabilidad de Y, cuando se utiliza el modelo. Un valor próximo
ticos precedentes, con os qu M d (1995)- un problema importante en su aplica- a 0,00 expresa lo contrario: la ineficacia del modelo obtenido como modelo predicti-
ció;i~e~~~'::';~b~:S~~~~::: ;ue;z:a~e la relación entre las probabilidades estimadas vodeY
y la posición de la variable dependiente. Si se obtiene, por ejemplo, 0,39, significa que los errores de predicción de Y logran
reducirse algo más de un tercio (exactamente, un 39% ), cuando se emplea el modelo
obtenido en la predicción de Y.
5. d-binomial
Un valor negativo se obtiene cuando se cometen más errores con la aplicación del
La significatividad estadística de ~, e~ca~~ b~ed~:!~,~ ~t~nr:~~:I~!I~e~;r'n;!~ modelo completo que si se emplea el modelo nulo. La capacidad predictiva apenas me-
jora en la utilización del modelo empírico.
mismo, medirse con la ayuda del esta IStl~O -!na e i~correctamente clasificados
ración de la proporción de casosdqufie han Sl~ cJ~rl~~t~errores sin el modelo" y los ob- • Una última alternativa en la medición de la eficacia predictiva de un modelo, aun-
por el modelo. Menard (1995) lo e ne a pa rr
que su aplicación es menos habitual (Ato y López, 1996), es el coeficiente de determinación
servados "con el modelo":
(rz). En regresión logística este coeficiente se define como el cuadrado de la correlación en-
d- (P,-p,) tre los valores observados (Y) y los predichos CY). SU valor expresa la proporción de la va-
- ~P,(l-P,)/N rianza de los valores observados que resulta explicada por los valores predichos.
176 Análisis multivariable. Teoría y práctica en la investigación social
Caj)ftulo 2: Análisis "logir" 177

EJEMPLO DE COMPROBACiÓN DE LA EFICACIA PRED!C;IVA~¡-_ _ __ como la aquí descrita, de gran desproporción


variable dependiente.
I _
en os tamanos de los grupos diferenciados en la
DEL MODELO A PARTIR DE LA TABLA DE CLASIFICACION
" ,
En la salida convencional de SPSS no Se inel • . "
La tabla de clasificación para el modelo obtenido es la siguiente: en este subapartado. Si bien, se pro orcio ' f uyen I~s Indlces de efIcaCIa predictiva descritos
A modo de ejemplo, se procede al C~CUlo ;;: In orm~clon sufiCiente para proceder a su cálculo.
-- predicción del modelo aunque sus result d cuatro Indlces que permiten cuantificar el grado de
, a os no son plenamente coincidentes.
Pronosticado

Observado Regularizar inmigrantes • Phi-p: ¡P, r,'- (ad-bc) [(57 x 579)-(115 x 29)]
'1(a+ b)(a+c)(b + d)(c+d) .J(57 + 115)(57 +29)(115+ 579)(29+ 579) =,376
,00 1,00 Porcentaje correcto
Al tener Un valor positivo, puede consider I "'". .
Regularizar ,00 57 115 33,1 superan los errores. Si se eleva su valor al CU:~~:d~ pre11~c~on eXltosa~':
'?s aciertos
Inmigrante 1,00 29 579 95,2 modelo ayuda a reducir en un 141% el d . (,3. 5 - ,141), se obtiene que el
Porcentaje global 81,5 porcentaje, no obstante, bajo af~ctado error e predlcclon de I~ probabilidad de Y. Un
dicción de la probabilidad de ~e t por la elevada proporclon de errores en la pre-
* El valor de corte es ,500. r con rano a la regularización de inmigrantes ilegales.
• Lambda-p:
El 81,5% del total de casos analizados logran ser "correctamente" clasificados por el
modelo obtenido, al coincidir su valor observado en la variable dependiente con el pro- A, = máx(a,b)+máx(c,d)+máx(a,c)+máx(b,d)
máx(a+c,b + d) +máx(a+b,c + d)
nosticado por el modelo, si bien, el porcentaje de casos correctamente clasificados es muy 2(a+b+c+d)
dispar en las dos categorías de la variable dependiente. Siendo el valor de corte aplica- 2(a+b+c+d)
do el usual (,500), el modelo logra predecir con éxito casi en su totalidad (95,2% de los 608 = máx(57, 115) + máx(29, 579) + máx(57, 29) + máx(115, 579)
sujetos originariamente clasificados como favorables a la regularización) la probabilidad 2(57 + 115 + 29 + 579)
de "ser favorable a la regularización de inmigrantes ilegales" (1,00). Por el contrario, la pre-
dicción de la probabilidad de "no ser favorable a la regularización" (,00) sólo alcanza a un _ máx(57 + 29,115 + 579) + máx(57 + 115,29 + 579)
tercio (33,1%) del total de sujetos clasificados en dicho grupo. Los casos incorrectamente 2(57 + 115 + 29 + 579) =,018
clasificados (al no coincidir su valor observado en la variable dependiente con el pro-
nosticado) son más de la mitad de los correctamente clasificados. En conclusión, el Como es muy desproporcionada la com '.. d .
modelo predictivo (integrado por las 9 variables independientes ya expuestas) es de gran ción de la variable dependiente (los lavo bioslcllon e los dos ~rupos diferenciados en fun-
utilidad en la predicción de la probabilidad de "ser favorable" a la regularización, pero fra- tras que los contrarios 172) lambda ra d es a a regulanzaclon suman "608"casos mien-
casa en la predicción de la probabilidad contraria (un 33,1% de los 172 casos origina- 1995) que se adecua más ;. situacio~~:~~me ~alcularse de ?tra forma alternativa (Menard,
riamente clasificados como no favorables a la regularización logran clasificarse correc- observada más pequeña menos el núme o d o a presente. numero de casos en la categoría
tamente, como "no favorables" a la regularización por el modelo de regresión logística). dividido todo ello por el número de cas~ e ICasos Incorrect?mente predichos por el modelo,
s en a categona mas pequeña.
Esta gran disparidad en el porcentaje de casos correctamente pronosticados entre las ca- A 172-144
tegorías de la variable dependiente no sorprende. Se está ante una situación que Hosmer y Le-
p 172 ,163. Indica una reducción moderada en el error de predicción.
meshow (1989: 147) califican de "bastante típica" en la aplicación de un modelo de regresión lo-
gística. La explicación está en el tamaño bastante desproporcionado de ambas agrupaciones. • Tau-p: puede calcularse de una forma má '11' ..
Mientras las personas contrarias a la regularización constituyen el 22% de la muestra total (exac- mero esperado y el nÚmero real de err~rsencl a, dlvldl~ndo la diferencia entre el nú-
tamente 172 casos), los favorables a dicha regularización representan la práctica totalidad de la (Menard, 1995). El número esperado de e es entre el numero esperado de errores
muestra de análisis (el 78% de la muestra total; o sea, 608 casos). Independientemente del ajus- dos grupos dividido por el número total de rrores es Igual al producto de la suma de los
te del modelo, la desproporción en el tamaño relativo de los dos grupos diferenciados en la va- la de una variable dependiente dicotómica ca;os y multiplicado por. dos (porque se tra-
riable dependiente afecta a la clasificación de los casos, favoreciendo la predicción del grupo más cada una de sus categorías). Si N = 172 ~a: espera el mismo nu:nero de errores en
numeroso. Esta constatación lleva a Hosmer y Lemeshow (1989) a recomendar el uso de las ta- (172)(608) Y_o os Y N Y_ 1 = 608, el numero esperado de
blas de clasificación sólo cuando la clasificación sea un objetivo claro del análisis. La valoración errores es: 780 x2=268,14. y tau-pes: ~ - 268,14-144 463 El d
p - -=, .. mo elo redu-
del ajuste del modelo nunca debería restringirse a la tabla de clasificación, sino utilizarse de for- ce el error de clasificación de los casos com f 268,14.
ma complementaria a otras medidas de ajuste. Especialmente, cuando se esté en una situación de inmigrantes ilegales casi a la m"t d ( o avorables o contrarros a la regularización
Ia exactamente, 0,463).
178 Análisis multivariable. T'eoria y práctica en la investigación social
Capitulo 2: Análisis "logit" 179

P-Q
'" Gamma~p: r p = - ,815-,185 6 E I di' b
- ~ - - - - =, 31. ste resu ta O se a eja astante de los de~ Como ya se dijo en el subapartado 1 S 4 su re er .' , .
P+Q ,815+,185 número y de las características ue .. , . p. CUSlOn depende, esenCIalmente, de su
más índices de predictividad aplicados. Se corrobora lo ya comprobado por Menard casos analizados). A lo eXPlicad~ et~~~~t:':;'(Si difieren o convergen con el resto de los
(1995) en la aplicación de este estadístico: tiende a sobrestimar la fuerza de la relación gresión lineal), aquí se añaden las . . 1 apa~tado (perteneCIente al capítulo de re-
entre las probabilidades estimadas. En el subapartado 2.1.2 Se af~:1au~ :~tua~I??eS seglUdasen la regresión logística.
,221-,185 tre la probabilidad observada del eve ( 1 ana~~iS de los reSIduos (la diferencia en-
• d-binomia/: d
-JP,(I-PJI N -J(,221)(1-,221)/780
,296 utilidad en la detección de "atí icos" nd~ ~aa pre Icha a partIr del modelo) es de gran
y los estudentizados. Si se empl~a ' .d nera especIal, los res,iduos estandarizados
Siendo la proporción de casos en la categoría observada de Y más pequeña
los casos deberían tener valores :";aensid UO,S edstandaYlZados: recuerdese que el 95% de
,221 (~172/780) y la proporción del número observado de errores ,185 (~144/780). Com- , " anza os comprendidos en el ra d 2 00
+,2 OO,el 99% se situana entre _ 2 S Y +2 S (1 . . . .. ngo e -, a
prueba si la proporción incorrectamente predicha "con" el modelo difiere significati-
vamente de la proporción incorrectamente predicha "sin" el modelo. Como el valor do valor que supere este último r~ngo (~2 Saa ;~~)arse a la distnbuclOnnormal). To-
d-binomial obtenido es positivo, puede afirmarse que los errores en la predicción de la delo al caso al que corresponde Se t " ,muestra un pobre ajuste del mo-
. es afIa, en consecuencIa, ante un "atípico".
probabilidad de Y son inferiores cuando se aplica el modelo completo (integrado por las
9 variables predictoras), que cuando se aplica el modelo nulo (que incluye sólo a la 1
constante). Si bien, la reducción en el error de predicción sólo alcanza a ,296.
't;l
,75
"'
't;l

] ,50
La eficacia predlctiva también puede evaluarse de forma gráfica mediante la cur- '¡;J

va ROC (Receiver Operating Characteristics). En ella se comparan los valores de es- "
pecificidad con los de sensitividad. '"" ,25

Los valores de especificidad se obtienen del cociente entre "a I (a + b)". Es decir, O "'--::;::---;::::---:::--.J
expresa la proporción de casos correctamente predichos como "no ocurrencia del even- ,25 ,50 ,75 1
Especificidad
to" del total de casos observados en esta categoría (Y ~ O).
Figura 2.3. La curva de ROe.
La sensitividad hace referencia, por el contrario, a la proporción de casos co-
rrectamente predichos COmo "ocurrencia del evento" CY ~ 1) del total de casos Cuando se aplican residuos estud ti d 1
observados en este grupo (Y ~ 1). Su valor resulta de la razón "d I (c + d)". pico" claro se am lía' -3 O 3 en za .os, e rango de valores que define a un "atí-
La proporción de falsos positivos ("b I b + d") Yde falsos negativos ("c I a + c) mi- tudentizado sea? ~3,O. 'a + ,O. Se conSidera "atípico" todo caso cuyo residuo es-
den, en cambio, la proporción de casos incorrectamente clasificados por el modelo pre-
dictivo, ya sea como "ocurrencia del evento" (o falsos positivos), o como \'no ocu-
rrencia" (falsos negativos). Estas dos últimas proporciones interesa que sean inferiores
A estas dos modalidades de esI'd
analítico, hay ue añadir otros m: d '
uo~, e uso com.un en cualquier procedimiento
(199S) resalta10s cinco siguient:: especIficos al análiSIS de regresión logística. Menard
a las dos anteriores (especificidad y sensitividad), para poderse afirmar que el mode-
lo empírico ayuda a la predicción de Y. a) El residuo de desvÚlnza Mid 1 'b'ó
vianza defirúdo en el' e a conth UC! n de cada caso al estadístico de des-
como ~2 x log (proba:~~~arta~~ ~1.5.1. Para cada caso se calcula la desvíanza
En suma, si el área bajo la curva es de O,SO (a modo de la incluida en la figura 2.3),
puede concluirse que el modelo carece de poder preelictivo. La máxima capacidad pre-
dictiva del modelo se alcanza cuando el área bajo la curva se aproxima a 1,00. de desvianza indican que el ~~d~~o"!~~~~f~~~ ~~~:s~~)· Valores elevados
En muestras grandes este residuo se a ro . ,.

2.1.S.3. La detección de casos "atípicos"


normal (con media O y desviación típica f)
xuna, asumsmo, a una distribución
b) El estadístico de leverage ( o "hat value" h) 'De tili'd d
picos" ta lt ., ' i' gran u a para detectar "atí
Un tercer criterio en la evaluación de la adecuación del modelo de regresión bapart~d~ loSe: rsegresllOn lineal como logística. Su definición se dio en el su~
'" Uva orva desdeOO (que ex l" .
logística concierne a la comprobación de posibles de casos "atípicos" o extremos cia) hasta 1 O (que d t · ' presa a mexlstencIa de influen-
("out/lers"), Es decir,casos que no hayan quedado bien explicados por el modelo de , ., ~ ermma completamente los parámetros del modelo)
En regreslOn logLSllca, un modelo con "k" (o" ") . bl . .
predicción y que pueden afectar adversamente al ajuste del modelo. suma de los valores h. será igual "k + 1" ( ' dP vana es predlGtoras, la
, numero e preelictores más uno). Di-
Capitulo 2: Análisis "logit" 181
180 Análisis multivariable. Teorfa y práctica en la investigación social

Listado por casosb


eho en otros términos, el número de coeficientes estimados, incluida la constante, -
Su valor medio es igual a "k + 11 N", siendo "N" el tamaño de la muestra. To- Observado Variable temporal
do valor que supere esta razón se considera "atípico". --,----
c) El cambio en el estadístico i- de Pearson que se atribuye a la eliminación del caso j. Estado de Regularizar Grupo
Caso seleccióno inmigrante Pronosticado pronosticado Resid. Z. resido

2 z~ 1 S 0** ,922 1 -,922 -3,441


L\X - ) 40 S 1** ,108 O ,892 2,868
¡ - (l-h)
137 S 1** ,127 O ,873 2,618
143 S 0** ,919 1 -,919 -3,377
Donde: "z¡" es el residuo estandarizado para el caso j. 260 S 0** ,868 1 -,868 -2,567
"h/' el estadístico de "leverage" para el caso j. 321 S 1** ,112 O ,888 2,809
370 S 0** ,865 1 -,865 -2,533
382 S 0** ,919 1 -,919 -3,380
d) El cambio en el estadístico de desvianza 383 S 0** ,924 1 -,924 -3,491
410 S 0** ,962 1 -,962 -5,040
'D. = d! -
ti
Z!
h¡ d¡2 - h;CL\X¡)
2
424
499
S
S
0**
0**
,895
,957
1
1
-,895
-,957
-2,923
-4,695
) 1-h¡ 595 S 0** ,896 1 -,896 -2,928
607 S 0** ,881 1 -,881 -2,722
Donde: "d¡" es el residuo de la desvianza. 653 S 0** ,951 1 -,951 -4,388
d
Las raíces cuadradas tanto de L\X; como de W. L\X;, .,¡ W.) ajustan ambas 845 S 0** ,878 1 -,878 -2,684
distribuciones a la curva normal. Estd significa que,) todo ~a1or q~e supere el ran-
846 S 0** ,887 1 -,887 -2,796
911 S 0** ,881 1 -,881 -2,721
go de "-2,0" a "+ 2,0" es indicativo de un caso "atípico", 914 S 0** ,904 1 -,904 -3;073
e) El cambio estandarizado en el coeficiente de regresión (DBETA o DFBETA), 1.114 S 0** ,937 1 -,937 -3,871
1.133 S 0** ,895 1 -,895 -2,923
atribuible a la eliminación de un caso concreto (j). Se obtiene de la división de 1.175 S 0** ,867 1 -,867 -2,552
la distancia de Cook [Z'h.1 (1 - h.) ]-disponible en paquetes estadísticos como 1.186 S 1** ,098 O ,902 3,042
1.318 S 0** ,911 1 -,911 -3,209
el SPSS o el SAS-, que)d¿pende del residuo estandarizado para un caso, al igual 1.334 S 0** ,895 1 -,895 -2,917
que su "leverage", entre (1 - h¡l, del modo siguiente: 1.350 S 0** ,902 1 -,902 -3,028
1.357 S 0** ,954 1 -,954 -4,551
1.480 S 0** ,902 1 -,902 -3,027
DBETA= Z;h¡ 1.505 S 0** ,950 1 -,950 -4,378
(l-h)' 1.513 S 0** ,898 1 -,898 -2,969
1520 S 0** ,949 1 -,949 -4,315
1.556 S 0** ,863 1 -,863 -2,513
Todo valor DBETA > 1 expresa un ajuste del casO al modelo de regresión 1.622 S 0** ,931 1 -,931 -3,676
1.641 S 0** ,878 1 -,878 -2,681
logística extremadamente pobre. Es decir, un "atípico". 0** ,930 1 -,930 -3,646
1.657 S
1.662 S 0** ,867 1 -,867 -2,551

~ ''$JEMPLODEDETECClóNOeATíPIC()$''
1.767 S 0** ,903 1 -,903 -3,044
··JI-- - - - - - - - - - - 1.775 S 0** ,872 1 -,872 -2,609
1.820 S 0** ,926 1 -,926 -3,536
1.830 S 0** ,936 1 -,936 -3,839
1.831 S 0** ,921 1 -,921 -3,425
Al haber un 67% de clasificaciones erróneas en la predicción de la probabilidad de ser -,918 -3,341
1.884 S 0** ,918 1
contrario a la regularización de inmigrantes ilegales (P (Y = O)), es de gran interés el diag- 1.966 S 0** ,939 1 -,939 -3,919
nóstico "caso a caso". El programa SPSS facilita el listado de la página siguiente. 1.989 S 0'* ,907 1 -,907 -3,119
Recuérdese que cuando se analizan los residuos estandarizados, se considera un cla- 2.022 S 0** ,945 1 -,945 -4,150
2.045 S 0** ,884 1 -,884 -2,759
ro atípico todo caso cuyo residuo sea superior a ±2,5. Cuando se utilizan los residuos estu- 2.046 S 0** ,918 1 -,918 -3,356
dentizados, el valor de referencia se eleva hasta 3,0. En el listado por casos puede consta- 2.080 S 0** ,879 1 -,879 2,696
tarse que los atípicos coinciden con casos que han sido mal diagnosticados o predichos por 2.081 S 0** ,882 1 ,882 2,736
el modelo obtenido. No coincide su grupo de pertenencia observado con el pronosticado. En
su mayoría se caracterizan por ser personas contrarias a la regularización (inicialmente cla-
sificadas en el grupo O), pero cuyas características se ajustan al perfil de personas favorables
i (.../ .. )

I
182 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 2: Análisis "logit" 183

Como el valor de corte es ,50, los casos cuyas probabilidades predichas superen dicho re-
Variable temporal
Observado ferente, se clasifican en el grupo 1. Por el contrario, aquéllos cuya probabilidad predicha es
Grupo
inferior a ,50, quedan pronosticados como contrarios a la regularización (grupo O). El número
Estado de Regularizar Resid. Z. resid. dentro del histograma identifica al grupo 1 y O. En un modelo de elevado poder predictivo, los
inmigrante Pronosticado pronosticado
Caso selecci6nG casos en los que se presente el evento de ser '~avorables" a la regularización deberían todos
,087 O ,913 3,236 situarse a la derecha de ,50 (en el margen derecho del gráfico); los contrarios, a la izquier-
2.100 S 1** -2,682
,878 1 -,878
2.190 S 0** ,864 2,519 da. Pero, como puede observarse en el gráfico siguiente, esta condición no se cumple en to-
S 1** ,136 O
2.205
0** ,888 1 -,888 - 2,818 dos los casos. Los casos mal ubicados se corresponden con "atípicos".
2.211 S 1 -,927 -3,570
2.295 S 0** ,927
,943 1 -,943 -4,054
2.348 S 0** ,903 3,058 De todas formas, como DBETA expresa el cambio en los coeficientes lo-
S 1 ** ,097 O
2.398 1 -,890 -2,842 gísticos, cuando un caso se elimina del modelo, su valor puede calcularse,
2.419 S 0** ,890 -2,914
,895 1 -,895
2.423 S 0**
1 -,921 - 3,424 también, para cada coeficiente, incluyendo la constante.
2.432 S 0** ,921 -2,817
,888 1 -,888
2.441 S 0** -,861 -2,487
S 0** ,861 1
2.451
a S = Seleccionados, N =:: Casos no seleccionados Y ** == Casos mal clasiflcados. Donde: "/3/' es el valor del coeficiente, cuaudo todos los casos son incluidos.
b Se listan los caSOS con residuos estudentizados mayores que 2.000.
"/3~)" es el valor del coeficiente, cuando el caso i es excluido.

a la re ularización (grupo 1), de acuerdo con los valores que presentan en I~s 9 variables in- Valores elevados de DBETA identifican casos "atípicos", que deberían examinarse
depen~ientes que forman el modelo de regresión logística. Su valor pronostlc~do es supe~or en busca de una solución para mejorar el modelo de predicción. Para evitar redundar en
a ,05, lo que determina su clasificación en el grupo L Si fuese su valor mfenor a ,05, se es aspectos ya tratados, se reItÚte a lo dicho al respecto en el subapartado 1.5.4 (capítulo 1).
habría pronosticado "correctamente" como pertenecientes al grupo O. . O
Hay sólo 7 caSOS erróneamente pronosticados como pertenecientes al grupo ,
cuando en realidad pertenecen al grupo 1. Por ejemplo, el caso 40, que al tener un ~alor 2.1.6. La selección del modelo
pronosticado inferior a ,50 (exactamente, 0,108), queda asignado al grupo O. Su reSiduo
estandarizado es 2,868. .. 'd tT ., d - La búsqueda de un modelo de elevado poder explicativo y, a su vez, parsimonio-
El gráfico de probabilidades estimadas también es de utlhdad en la I en I Icaclon e ca so es la meta de cualquier procedimiento analítico, incluido la regresión logística. Se
sos erróneamente clasificados. Incluye las probabilidades predichas y los grupos observados. quiere conseguir un modelo que sea significativo (tanto desde la vertiente estadística,
como en la lógico-sustantiva) pero, a su vez, que incluya sólo aquellas variables in-
St"p nUlllb"t' "
dependientes que muestren ser relevantes en la predicción de la probabilidad de Y. La
Ob""I.'V"d GtO"p" and I?..:~<:.ted I.'tobabil1ti .. "
incorporación de variables "irrelevantes" puede provocar un aumento leve del poder
explicativo del modelo y, al mismo tiempo, reducir el ajuste del modelo. Ello se debe
, a los efectos adversos de incluir variables "irrelevantes" en el incremento de los
,, errores típicos relacionados cou la predicción. Como Hosmer y Lemeshow (1989:
,
P. 6Q .
m
m 82-83) observan, "cuantas más variables se incluyan en el modelo, mayores serán los
Q
1 1111
, .,
U
1 111111 errores típicos estimados, y más dependiente se hace el modelo de los datos obser-
•e
1 1 llUll1
1 1 111111111
vados". De ahí la recomendación de sólo incluir variables que muestren ser "rele-
, 1 1 11111111111
1 1111111111111
vantes" en la explicación del evento que se analiza. Ello favorece la posibilidad de in-
11 1 1111111111111111 ferencia y.la estabilidad del modelo obtenido.
1 1 1 1101111111111011111111
00 00 01 00 00 o 011011001010100001010000100000101111
",",,-o<""
P.=b, (1 .25
I .5
I' .75
I 1
2.1.6.1. Criterios para incluir y eliminar variables
Gtoup: 00(00000000000001)0000000000000111111111111111111111111111111

Predi<:.t .. d Probability i" of M<lIObc""hip fo..: 1.00 En regresión logística se sigue un procedimiento similar al aplicado en regresión
Th .. cut vaiue Ü .50
Symbo1s: () - .00
1 - 1.(10
lineal para la selección de variables que mejoren el modelo predictivo, si bien, los es-
t:ach Sym);¡~l F.~pN.cnta 5 ca"",,,. I tadísticos utilizados para esta finalidad varían.
¡
184 Análisis rnultivariable. Teoria y práctica en la investigación social
CapCtuLo 2: Análú'is "Iogit" 185

• Primero, se procede a un análisis univariable, de cada variable independiente por la medición de la adecuación del modelo P .
separado. Se analiza su relación con la variable dependiente. re al modelo, las interacciones deben i,er~, para que fmalmente se incorpo-
Cuando la variable incluye un número reducido de valores (ya sea nominal, Una última aproximacl'o'n a la l' an ,0 tdo o, tener sentrdo lógico-sustantivo.
ordinal o continua), la recomendación es confeccionar una tabla de contingen- . se eCClOil e vanables" 1 ," .
segUlI un procedimiento de selecc' ~ . re evantes conSIste en
cia para medir el grado de significatividad de la relación entre la variable in- Ion secuencJaI o "por pa "(\<' '),
do de lo hecho en regresión lineal ot té .' , . sos stepWlse), a mo-
dependiente con la dependiente. Esta última normalmente en forma binaria: criminante, por ejemplo. Es el ro; ras cmcas ana~ltlCas, como el análisis dis-
y= 1,0. mina variables, de forma r p., p o prograI;-ra mformat¡co el que incorpora o eli-
La significatividad puede comprobarse mediante la X' de Pearson o la X2 de por el investigador o los ~p~i~a~~:a y a~tofmatlca, sIgUIendo los criterios definidos
razón de verosimilitud. por e ecto por el programa que se utilice.
También puede optarse por realizar distintos análisis de regresión logística
univariados: uno para cada variable independiente que se estime "relevante", es-
2.1.6.2. Procedimientos secuenciales de selección de variables predictoras
pecialtnente, cuando la variable en cuestión es continua. Ello permite comprobar
la relación entre variables mediante los estadísticos referidos con anterioridad: En regresión logística pueden aplicarse los mi . .
el coeficiente de regresión, el error típico de la estimación, la "t" de Student, el de selección de variables predictoras utilizado s~os tres pro?~dinuentos secuenciales
estadístico de Wald univariado y demás resumidos en el subapartado 2.1.4.2. 1.6.1), pero los estadísticos que ayudan a ~ed' SI ~,Ial regreslOn lmeal (subapartado
• El análisis conjunto de varias variables independientes a la vez. Puede haber va- predicción de la probabilidad de Y 1 Ir a re evancI.a" de las variables en la
riables que, de forma aislada, se hallen poco relacionadas con la variable de- no son l' enamente comcldentes.

a) lnclu.sión ~ecuencial de variables "hacia delante" ("forward"


pendiente, pero cuando se aualizan en conjunción con otras variables inde-
pendientes, pueden convertirse en "relevantes" para la predicción de Y.
A este respecto, es de interés comprobar el efecto de incorporar una nueva
b) EhmmaCI?nprogreSIVa de variables "hacia atrás" ("ba k ~")
c) El procedlnuento "paso a " ('" c war .
variable o un grupo de ellas (por ejemplo, cuando se analizan variables ficticias), riables. ' paso stepwlse") de inclusión y eliminación de va-
mediante el !'.G o !'.x:,
referidos en el subapartado 2.1.4.2. Se analiza la diferencia
de "-2LL" del modelo que excluye la variable de interés y la correspondiente al Como estos procedimientos secuenciales de sel . , . .
modelo completo. Dicha diferencia expresa el efecto de la variable en la pre- fueron explicados en el capítulo de re " '1 ~cclOn de vanables predictoras ya
dicción de la probabilidad de Y. Su significatividad se comprueba utilizando la cación que sigue a continuación se r }reSIOn mu tIple (subapartado 1.6.1), la expli-
x:
distribución con grados de libertad igual a la diferencia en el número de pa- gresión logística. Se aconseja para ;:m: ~:s~ectos .co?cretos de su aplicación en la re-
rámetros entre los dos modelos. presente subapartado en rel;ción Con e/ 1.6.;tend 1mlento, la lectura comparativa del
El criterio de información de Akaike (AIC) para datos dicotómicos puede
utilizarse, igualmente, en la selección de variables predictoras. Este criterio
adopta la siguiente definición: Ale = D(modelo) + 2 x P x $. Donde "D" es la A) Inclusión secuencial de variables "hacia delante"
desvianza, "p" el número de parámetros incluidos en el modelo y "$" es el es-
timador del parámetro (en los modelos dicotómicos suele ser la unidad). El mo- Las variables independientes van u .
delo que presente el valor AlC más bajo se convierte en el más apropiado pa- de la conjunción de aspectos varios: na a una, mcorporándose al modelo, en función
ra la predicción de la probabilidad de Y.
También ha de considerarse la existencia de interacción entre dos o más va-
riables, lo que implica que el efecto de una de las variables no es constante en los • :;,::,~~r;:~~:;r~~:~:~~:::~~~~/:sv:r~:J: dependiente. Como en regresión
niveles de la otra. Por ejemplo, una interacción entre las variables "sexo" y elevada can la variable dependiente L q 1 .~ue presenta una correlación más
"edad" implica que el coeficiente de regresión de "edad" difiere según el "sexo" dependientes se ve afectada no So'lo '1' allllc uSlOln póostenor de otras variables in-
(para varones y mujeres). . or a corre aCl n que tenga 1 .
dependIente, sino también por la habida c I . n con a vanable
La necesidad de incluir términos de interacción en un modelo se asegura, pri- introducidas en el modelo en fases recede~~esas otra~ van~bles mdependientes

~~~1:::~~~~:1~~:~lf~~:~~:~:I~;~eE~I;~~;~~1~~r~:~~~~~:~~~~:I~~:
mero, creando el producto apropiado de la variable en cuestión (a modo de lo in-
dicado en el subapartado 2.1.4). Después, se comprueba su significatividad me-
diante la prueba de razón de verosimilitud ( G ) y demás estadísticos incluidos en
186 Análisis multivariable. Teoría y práctica en la investigación social
Copilu!o 2: Análisis "¡ogil" 187

• La significatividad de la relación de la variable independiente con la dependiente, rarse la posibilidad de incluir una quinta variable, el valor de "-2LL" disminu-
Ésta se mide mediante la razón "tOO de Student, el estadístico de Wald u otros in- ye a 37,5. El cambio habido es: -2LLdif~ 39 - 37,5 ~ 2,5. Su significatividad se
comprueba mediante una distribución X2 con un grado de libertad. El valor teó-
cluidos en el subapartado 2,1.4.2. ..'
A este respecto conviene hacer varias puntuahzacwnes, Pnmer~, es con- r
rico de a un nivel de significación de 0,05 y 1 grado de libertad es 3,841. Co-
veniente seguir la advertencia deHosmer YLemeshow (1989: .un,
segun la cual
los valores "p", calculados en los procedimientos de selecclOn de vanabl~s se-
mo el valor empírico obtenido (2,5) es inferior al teórico, se acepta la hipótesis
nula. Esto significa que la incorporación de una quinta variable predictora no re-
cuenciales, "no coinciden con los valores "p" en el contexto,de ,comprobaclOn. de' sulta en una mejora significativa del ajuste del modelo. La incorporación pro-
hipótesis tradicional. En realidad deberían pensarse como IUdlcadores de la Im- gresiva de variables ha conclllÍdo.
portancia relativa de las variables". .,
r
En general, cuando el valor residual o AG no son significativos, al nivel de
Hecha esta consideración, la mayoría de los autores (como Bendel y Aflfl, significación elegido, el proceso de incorporación progresiva de variables se da
1977; Hosmer y Lemeshow, 1989; Menard, 1995) recomienda elevar el nivel de por finalizado. Ninguna variable más aporta alguna mejora, estadísticamente sig-
significación del 0,05 tradicional al 0,15, e inclusive al 0,20. Este IUcremento del nificativa, al ajuste del modelo a los datos empíricos. Sólo prosigue la incorpo-
nivel de significación puede provocar el efecto adverso de aumentar la p,roba- ración de variables, cuando la significatividad de estos estadísticos sea pequeña
bilídad de rechazar la hipótesis nula, cuando realmente es cterta, Es deCIr, e.n- (al menos, p < ,05).
contrar una relación entre variables que realmente no eXiste. Pero, en camblO, En algunos programas estadísticos, como el SPSS, se ofrece un estadístico al-
existe un menor riesgo de rechazar la hipótesis nula cuando es falsa: no encontrar ternativo al de Wald, Se trata del llamado "Score statistic" (o estadístico de pun-
una relación que realmente existe. El investigador debe ~opesar ambos pros y tuación de Rao, de 1973) y a partir de él se calcula la X2 residual. Este estarustico
contras y tendrá que decidir si aplicar el nivel de slgnilicaCI?n convenCional (0,05) a diferencia del de Wald, no precisa del cálculo explícito de estimaciones de pa~
o elevarlo a los niveles señalados. Esto último favorecena la IUcorporaclón de rámetros. Ello aumenta su utilidad en situaciones complejas, en las que se pre-
más variables a la predicción de la probabilidad de Y. 2'
cisa recalcular estimaciones de parámetros para muchos modelos diferentes
• El test de razón de verosimilitud (llámese AO, X2 del .modelo, X reSIdual o (Nourisis, 1994),
- 2LL di¡) que mide la significatividad de las vari~bles no IUclmd~s en el ,:,odelo.
En regresión lineal el estadístico protagomsta de la declSlOn de que vana-
ble introducir o elimina~ del modelo es "F" (de "entrada" o "s~lida"). Ello se de- B) Eliminación progresiva de variables "hacia atrás"
be a que se asume que los errores se hallan normah~ente dlstnbu~dos, E~ re-
gresión logística, la relevancia de la variable, en térmlUos d~ su slgmfic~twldad, El procec\irniento de formación del modelo comienza de forma inversa al anterior,
,
ri'
se mide, principalmente, mediante ~I e.stad(~tico de razon de veroslmllttud, Todas las variables independientes se hallan inclnidas en el modelo. En consecuencia, se
porque los errores se ajustan a una dlstnbuclOn bmomzal. parte de un modelo saturado porque incluye todos los parámetros posibles, 10 que fa-
Como ya se dijo en el subapartado 2,1.4.2, cuando el tamaño de la mue~t:a vorece una mejor explicación de la variabilidad de y, a costa de la parsimonia y de la bon-
es suficientemente grande, el estadístico "AO" se aproXIma a una dlstr~buclOn dad de ajuste del modelo. Esto último sucede cuando se incluyen variables indepen-
"r" con grados de libertad iguales a la diferencia entre el núm~ro de termlUos dIentes poco relacIonadas con la variable dependiente y/o de escasa significatividad.
Los mismos estarusticos aplicados en el proceclimiento "hacia delante" son también
en el modelo completo y los correspondientes al modelo redUCIdo (exclmda la
,; , variable de interés). Se compara la verosimilitud par~ el modelo redUCIdo con de uso común en la eliminación de variables ("hacia atrás").
la correspondiente al modelo completo (inclmda la vanab.le). La cantIdad P?r I~ El tener el valor más bajo en el estarustico de Wald (un valor próximo a O) y no sig-
que "-2LL" varía, cuando se añaden variables independI~ntes al modelo, mdl- nificativo (p> ,05) convierte a la variable en la primera candidata a ser eliminada del
ca el tamaño del efecto que estas variables tienen, Recuerdese que su valor se modelo. Especialmente, cuando se aplica el criterio de aumentar el estadístico de Wald.
obtiene de la diferencia entre las funciones de verosimilitud del modelo "sm" la Aunque también puede seguirse el criterio alternativo de reducir la verosimilitud
variable y la correspondiente al modelo completo.. _. ' . (RV), como criterio principal en la selección de variables predictoras. Además, hay que
La hipótesis nula afirma que el coeficiente de la vanable anadlda en el últuno insistir en que el nivel de significatividad lo fija previamente el investigador. En re-
paso es igual a O. Su rechazo (al ser p < ,05, al menos), supon~ la inclusión de la gresión logística, lo usual es elevarlo a 0,10 o 0,15. En programas, como el SPSS, el va-
variable en el modelo.],-a variable por el co~trano quedara exclmda, :u~nd~ lor de corte fijado para la significatividad es, por defecto, 0,10.
la significatividad de su coeficiente sea supenor a ,05;,Por e~~mplo, conSIderes _ Cuando el modelo incluye varias variables creadas para representar una variable
un modelo con 4 variables independIentes. Su valor -2LL es 39. Al conslde categórica (variables ficticias), la eliminación (y también la introducción) de una de di-
188 Análisis multivariable. Teoría y práctíca en la investigación social
Capitu.lo 2: Andlú'is '"lagit" 189

chas variables suele suponer la eliminación (o introducción) de las restantes. En este variación importante en su cuantía i n d i c a ' .
caso) se prefiere el estadístico de razón de verosimilitud como preferente en la decisión colinealidad con la variable inde d' que la ,vanable presenta Un grado,elevado de
de qué variable es más relevante para permanecer en el modelo. pen !ente reclen mtrod'd d'
cual, habrá que adoptar alguna de 1 d'd UCl a en Icho paso. Ante lo
La preferencia por este estadístico no se limita, sin embargo, a la situación referida. El proceso de constitución del m~;~l~) :inasseñaladas en el subapartado 2,1.2.
Su uso es más extendido que el estadístico de Wald, en la decisión de qué variable eli- que satisfaga ni los criterios de inclu" . 1 ahza cuando no queda ninguna variable
minar del análisis: aquella que presente un valor "G" más bajo, ya que perjudica a la SIon DI os de exclusión.
bondad de ajuste del modelo a los datos.
Tras cada eliminación de una variable, el modelo vuelve a estimarse -como en to-
do procedimiento secuencial- y se observa el cambio que ello provoca en el "log de la EJEMPLO DESELECC/ÓNSECUENCIAL DE VARIABLES PREDICTORAS
verosimilitud" del modelo. El proceso de eliminación de variables concluye cuando no
queda ninguna variable con una significatividad p > ,05, u otro valor decidido por el in- En la búsqueda del mejor modelo red' .
vestigador. tos secuenciales de selección de vari ~I IC~VO, se han aplicado diversos procedimien-
aproximación "hacia delante" sigUiendao ~s III ependlentes: Pnmero, se ha optado por la
repIte el análisis utilizando el' criterio alte~n~~;~~I~ de redUCir la verosi'!'ilitUd. Después, se
C) El procedimiento "paso a paso" de inclusión y eliminación de variables bien en Un proceso secuencial "hacia dela " e aumentar el estadlstlco de Wald, tam-
plena. Este hecho no sorprende porq nte . La comcldencla en los resultados es
muestra es elevado ambos criterios ca ue, como ya se ha dicho, cuando el tamaño de la
Resulta de la combinación de los dos procedimientos anteriores. Se parte de un mo- Los resultados prin'cipales se exponennvaecrgoent: result~ndo en un mismo modelo predictivo
delo que sólo contiene la constante, salvo que el investigador decida dcliberadamente omi- n Inuaclon: .
tirla. En este paso O, se calcula "-2 lag de la verosimilitud inicial" (LLO): el valor máximo
• El modelo inicial incluye SÓlo la consta' " '
de la función de verosimilitud para un modelo que sólo incluye la constante. a 822,988. La estimación de parámetr nte .sl~ndo su -210g de la verosimilitud" igual
A este paso inicial le sigue la estimación del ajuste de cada uno de los K modelos el logaritmo de la verosimilitud d' . os ilIla Iza en el número de iteración 3 porque
de regresión log[stica univariados posibles, uno por cada una de las K variables inde- sos correctamente clasificados '~~~:~ye en menos de un ,010 por ciento. Los ca-
pendiente& Se comparan sus respectivos "-210g de la verosimilitud" y la variable que las favorables a la regUlariZaciónPde in e modelo llegan a ser el 77,9% (sobre todo
tenga un valor en el estadístico "G" más elevado, que coincide con un valor de signi- contrarios a la regularización san en sm'¡'~~t~s Ilegales (el 100%), mientras que los
ficación pequeño (próximo acero), será la primera candidata a ser incluida en el mo- bla A ofrece las puntuaciones de cada uva~i: I ad erroneamente clasificados. La ta-
delo. Si no existe ninguna variable con un valor p inferior al fijado como referente (sea a su selección secuencial. ble mdependlente IllIclal para proceder
el convencional ,05, o superiores, como ,15 y ,20), el análisis se da por concluido.
A cada incorporación de una variable le sigue la revisión de si alguna de las va-
riables ya incluidas satisface criterios de eliminación. Una variable incluida en un pa- Tabla A. Variables que no están en la ecuadón a
so previo puede ser eliminada en un paso posterior, a diferencia del procedimiento "ha-
cia delante". Variables Puntuación gl Sigo
Para la eliminación de una variable se fija un valor p-máximo (o se toma el valor Paso X15 65,985 1 ,000
aplicado por defecto en el programa), que indica el nivel minirno de contribución con-
tinuada de la variable al modelo. Obviamente, el valor p-máximo elegido ha de exceder
° X3
X,
4,159
48,962 1
1 .041
,000
X, 1,360 1
al valor p-mínimo fijado para que la variable entre en el modelo. De no ser así, una mis- X, ,243
40,236 1 ,000
ma variable estaría continuamente entrando y saliendo del modelo. Los valores re- X, 6,049 1
X. ,014
comendados -de acuerdo con Hosmer y Lemeshow (1989)- son: p-m[nimo = 0,15, Y 110,122 1 ,000
X, 44,861
p-máximo = 0,20. Una variable introducida que presente un p-máximo > ,20 puede ser 1 ,000
X" 35,023 1 .000
eliminada del modelo en un paso posterior. X12 14,015 1
X13 .000
Tras cada inclusión y/o exclusión de variables se vuelven a estimar los diversos ín- 45,133 1 ,000
XlO 56,236
dices de bondad de ajuste del modelo, al igual que los coeficientes de regresión y su sig- 1 ,000
X" 33,448 1 ,000
nificatividad. Los coeficientes se ven afectados por el mayor o menOr grado de eoli-
nealidad entre las variables independientes incluidas en el modelo. Recuérdese que una 'N
o se calculan los ch!-cuadrado residuales a causa de las redundancias.
Capítulo 2: Análisis "logit" 191
190 Análisis multivariable. Teoría y práctica en la investigación social
\
I

Tabla e Historial de iteracioneSl,b,c,d,e


La hipótesis nula de que todos los coeficientes son cero puede rechazarse con \
confianza, a decir por el nivel de significación del estadístico de puntuación de Rao,
si la variable fuese introducida en el modelo de regresión logística en el paso si- Iteración verOSimilitUdlr;;;'-;;:;J~:-í-;I-:-:-I-:;-;.c~o::e~fiC~ie:n~le"'S_-r--r---r-=J
-2 logde la
'! Constante X, X/ 5 X, x,
Xll x,
X$ x,
guiente. La excepción es la variable X, ("edad"), cuya significación (,243) supera el
1 \ Paso 1 ·741,'960 -,984 2,287
valor de referencia habitual (,05) e" inclusive, los superiores de , 0 Y ,15.
De acuerdo con este estadístico (puntuación), la primera variable en formar par- 1 2 734,941 -1,076 2,616
3 734,907 -1,078 2,633
te del modelo de regresión logística es X, ("facilitar la entrada a inmigrantes") por- Paso 1 706,902 - 1,552 2,024 ,137
que presenta la puntuación más elevada (110,122) de las significativas (,000). 2 2 690,158 -2,041 2,351 ,216
• La tabla C resume el historial de las iteraciones. En cada paso se da el valor "-2 lag 3 689,697 -2,147 2,409 ,234
de la verosimilitud" Y los coeficientes de la ecuación de regresión logística co- 4 689,697 -2,151 2,412 ,234
Paso 1 693,674 -1,863 1,941 ,120 ,286
rrespondiente. Compárense éstos con los incluidos en la tabla D. Asimismo, ob- 3 2 671,156 -2,610 2,239 ,188 ,511
sérvese cómo los valores "-2 log de la verosimilitud" en la iteración 3 de cada pa- 3 670,045 -2,834 2,307 ,205 ,597
so coinciden con los valores máximos de la función de verosimilitud en el modelo 4 670,040 -2,850 2,312 ,205 ,605
Paso 1 686,838 -2,043 1,893 ,108 ,257 ,159
de regresión logística que resulta de cada paso. Esta información se incluye en la 4 2 661,410 - 2,946 2,182 ,167 ,466 ,277
tabla B que resume la relevancia de los modelos relacionada con la proporción de 3 659,924 - 3,244 2,257 ,182 ,553 ,319
4 659,915 - 3,270 2,264 ,183 ,561 ,323
variabilidad de la probabilidad de Y que logra explicarse.
Paso 1 681,376 -1,441 1,765 ,096 ,252 ,153 - ,278
5 2 654,643 -2,058 2,019 ,149 ,463 ,266 - ,417
3 653,013 -2,291 2,087 ,162 ,554 ,309 -,454
Tabla B. Resumen de los modelos 4 653,002 -2,313 2,093 ,163 ,564 ,312 -,457
Paso 1 677,522 -1,792 1,742 ,098 ,256 ,202 - ,295 ,007
Rcuadrado 6 2 647,946 -2,773 1,992 ,154 ,476 ,373 -,482 ,013
Rcuadrado
-2log de la de Nagelkerke 3 645,740 -3,202 2,068 ,170 ,577 ,481 -,498 ,015
de Cox y Sne" -3,252 2,077 ,172 ,589 ,460 -,502
Paso verosimilitud 4 645,718 ,016
,164 Paso 1 673,837 -1,163 1,715 ,089 ,224 ,177 - ,274 ,006 - ,211
,107 7 2 642,766 - 1,690 1,948 ,138 ,419 ,332 - ,426 ,012 -,357
1 734,907 ,241
,157 3 640,367 - 1,968 2,023 ,152 ,512 ,407 -,475 ,015 -,406
2 689,697 ,273
,178 4 640,341 -2,007 2,033 ,153 ,524 ,416 -,480 ,015 - ,410
3 670,040 ,289
,189 Paso 1 670,881 -1,035 1,727 ,086 ,226 ,175 - ,275 ,006 - ,213 -,217
4 659,915 ,300
,196 8 2 638,70S - 1,512 1,986 ,134 ,424 ,330 -,430 ,012 - ,351 -,364
5 653,002 ,312
,203 3 636,175 -1,784 2,075 ,149 ,520 ,404 -,483 ,015 -,396 -,413
6 645,718 ,320
,209 4 636,148 -1,824 2,086 ,150 ,533 ,413 - ,488 ,015 - ,400 -,417
7 640,341 ,327
636,148 ,213 Paso 1 666,834 -,574 1,668 ,063 ,215 ,172 -,239 ,007 - ,216 - ,236 - ,189
8 ,334 633,997 -,890 1,930 ,100 ,409 ,328 -,378 -,352 - ,397 - ,265
,218 9 2 ,013
9 631,341 3 631,371 -1,134 2,024 ,112 ,505 ,404 -,426 ,016 ,396 - ,483 ,286
4 631,341 -1,173 2,036 ,114 ,518 ,414 ,432 ,016 -,399 - ,459 ,288
• La tabla O detalla la composición del modelo de regresión logística en cada paso.
Ninguno de sus coeficientes deja de ser significativo en un paso posterior. La úni- : Método: por pas~s hacia delante (razón de ve
En el modelo se IOcluye u roslmd!lud).
ca excepción es la constante Y en el último paso. Siguiendo lo dicho en el suba- <: 2 lo d I ' na constante
d L g.e a verosimilitud inicial: 822,988 .
a un
estlmaclón
,010 por ha finalizado en el nú' . . . 3 porque el logaritmo d
La estimación ha fin~iZado e ! .
partado 2.1.4, pueden interpretarse las ecuaciones obtenidas en cada paso, in- o de ciento mero de IteraclOn . ..
e la verosImIlitud ha disminuido en menos
cluyendO su transformación exponencial. de un ,Ola por ciento. n e numero de iteración 4 porque el logaritmo de la verosimilltud ha d'IsmmUldo
. . en menos
La razón principal de la incorporación de la variable en cada paso se en-
cuentra en la tabla E. En ella puede comprobarse que la incluida coincide con aque-
lla que presenta la puntuación de Rao más elevada, con la condición añadida de ser
cualqUIera de las variables en el modelo f gUlna ~n lag de la verosimilitud" si
significativa. La última variable en incorporarse al modelo es X lO ("casarse con ma- • La comprobación de qué mejora se conse ., "
rroquí") porque es la única en el paso 8 que obtiene una puntuación (4,897) sig-
Esta tabla se obtiene cuando se a lica e uese elimmada se recoge en la tabla F.
nificativa (,027). Los análisis concluyen en el paso 9 al na quedar ninguna variable puede verse que la eliminac',o' n de p. 1cnteno de redUCir la verosimilitud En ella
cuya contribución a la predicción de la probabilidad de ser favorable o contrario a . ninguna de las v . b l ' . .
una meJ?Ja en el ajuste del modelo al . . ana .• es mtroducldas conseguiría
la regularización de inmigrantes ilegales sea estadísticamente significativa. Las va- la verOSImilitud" inferior a 05 tod ser la slgOlficaclon del cambio en "-2 lag d
riables excluidas del modelo predictivo son cuatro: X2 ("ideología política"), X'2 ("in- , en as las vanables en los 9 pasos. e
gresos"), X'3 ("vecino marroquí") y X'4 ("inmigrante delincuente").
Capitulo 2: AnálisL'i "logit" 193
192 Análisis multivariable. Teoria y práctica en la investigación social

Tabla E. Variables que no están en la ecuación a a la F Modelo si se elimina el término


T.b
Tabla D. Variables en la ecuación
r.c. 95,0% para EXP (8) Variables Puntuación gl Sig. L09 Cambio en 8ig. del
Variables verosimilitud ·2log de la 91 cambio
Superior Paso 1 X" 45,413 1 ,000 de/modelo verosímil.

2,633
8 E.r.
,306
Wald

74,154
gl

1
Sigo
,000
--Exp (8)

13,911
,340
Inferior

7,640 25,326
X,
X,
X,
5,771
32,588
,654
1
1
1
,016
,000
,419
Paso 1
Paso 2
X,
X"
--411,494
- 367,453
88,081
45,210
1
1
,000
,000
Paso Xa 1 ,000 1,357 X, 1 ,000
1a Constante ~ 1,078 ,289 13,860
1 ,000 1,264 1,180 28,920 X, - 378,233 66,768 1 ,000
,036 42,249 5,982 20,788 X, 5,558 1 ,018 Paso 3 - 351,824 33,608 1 ,000
,234 1 ,000 11,151 X"
Paso X'5 ,318 57,589 ,116 X, 18,778 1 ,000 X, - 344,848 19,657 1 ,000
2" X, 2,412 1 ,000 1,319
,350 37,660 1,228 1,143 24,367 1 ,000 X, -365,159 60,277 1 ,000
Constante - 2,151
31,713 1 ,000 1,382 2,426 X"
,205 ,036 ,000 1,831 X" 7,830 1 ,005 Paso 4 - 342,748 25,582 1 ,000
Paso X" ,144 17,763 1 5,392 18,895
21,994 1 ,000
X"
3' X, ,605
52,222 1 ,000 10,093 X" X, - 338,206 16,498 1 ,000
2,312 ,320 ,000 ,058 32,027 1 ,000 X, - 358,229 56,543 1 ,000
X, ,396 51,804 1
1,201 1,116 1,291 X"
Constante - 2,850 ,000 X" 22,972 1 ,000 - 335,020 10,125 1 ,001
,183 ,037 24,348 1
1,753 1,320 2,327 X"
PaSo X'5 ,145 15,061 1 ,000 5,114 18,102 Paso 2 X, 4,011 1 ,045 Paso 5 X" - 335,989 18,975 1 ,000
,561 ,000 9,621 X, 15,578 1 ,000 X, - 334,664 16,326 1 ,000
4' X 2,264 ,322 49,289 1
1,381 1,127 1,692
X' ,104 9,694 1 ,002 X, ,134 1 ,715 X, -349,330 45,658 1 ,000
X~l -3,270
,323
,427 58,730 1 ,000
,000
,038
1,177 1,092 1,268 X, 18,571 1 ,000 X, - 329,957 6,913 1 ,009
Constante
,163 ,038 18,301 1
1,758 1,320 2,341 X, 2,743 1 ,098 X" -331,191 9,381 1 ,002
Paso X" 14,908 1 ,000 4,264 15,429 X, 8,294 1 ,004 Paso 6 - 333,228 20,739 1 ,000
5' X, ,564 ,146
1 ,000 8,111 ,889 12,911 1 ,000
X"
2,093 ,328 40,716
,008 ,633 ,451 X" X, - 326,501 7,284 1 ,007
X, -,457 ,173 6,993 1
1,367 1,114 1,676
X" 3,561 1 ,059 X, - 331,643 17,567 1 ,000
X, 9,008 1 ,003 4,417 1 ,036
,312 ,104
1 ,000 ,099 1,281 X" X, -345,038 44,358 1 ,000
X"
Constante -2,313 ,550 17,682
,000 1,187 1,101 X" 7,019 1 ,008 X, -326,942 8,166 1 ,004
,039 19,894 1 1,004 1,027 10,107 1 ,001 - 330,612 15,505 1 ,000
Paso X'5
,172
7,102 1 ,008 1,016
1,350 2,407 X" X"
6' X ,016 ,006
1 ,000 1,803 15,245
Paso 3 X, 4,336 1 ,037 Paso 7 X" - 328,009 15,677 1 ,000
15,958 4,180
x', ,589
2,077
,148
,330 39,600 1 ,000
,004
7,983
,605 ,429 ,853 X,
X,
9,305
,634
1
1
,002
,426
X,
X,
- 322,859
- 323,661
5,377
6,980
1
1
,020
,008
X, ,175 8,247 1 1,247 2,013
X, -,502
14,211 1 ,000 1,584 X, 1,252 1 ,263 X, -326,789 13,238 1 ,000
,460 ,122 ,000 ,039 X, 7.844 1 ,005 X, - 341,290 42,238 1 ,000
X" ,666 23,853 1 1,079 1,259
Constante - 3,252 ,000 1,165 ,940 9,887 1 ,002 X, - 323,875 7,408 1 ,006
,153 .039 15,154 1
,664 ,468 X"
Pasa Xt5 5,317 1 .021 1,004 1,027 X" 2,290 1 ,130 X" - 326,269 12,196 1 ,000
-,410 ,178 ,009 1,015 3,213 1 ,073 - 325,495 14,842 1 ,000
7' X ,006 6,801 1
1,688 1,259 2,264 X" Paso 8 X"
X' ,015
12,232 1 .000 3,997 14,590 X" 5,457 1 ,019 X, -320,171 4,194 1 ,041
X' ,524 ,150 .000 7,637
,330 37,884 1
,619 ,439 ,873 X" 5,983 1 ,014 X, - 320,639 5,131 1 ,024
X' 2,033
7,485 1 ,006 1,190 1,932 Paso 4 X, 4,104 1 ,043 X, - 321 ,618 7,088 1 ,008
X' -,480 ,175 ,001 1,516
,124 11,309 1 X, 6,411 1 ,011 X, - 324,857 13,566 1 ,000
X~l -2,007
,416
,847 5,612 1 ,018
,000
,134
1,162 1,075 1,255 X, 5,966 1 ,015 X, - 339,848 43,548 1 ,000
Conslante 1 ,986 X, 7,608 1 ,006
,150 ,040 14,373
,042 ,659 ,440
,949
X, 1,182 1 ,277 -321,878
Pasa X15 ,206 4,122 1 ,473 X, 7,072 1 ,008 - 324,099 12,051 1 ,001
El' X, -,417
5,072 1 ,024 ,670
1,004 1,027 X"
- ,400 ,178 1,015 X" ,050 1 ,823 Paso 9 X" - 319,200 7,060 1 ,008
X, 6,900 1 ,009 1,268 2,288
X, ,015 ,006
1 ,000 1,704 15,523 X" 2,691 1 ,101 X, - 318,160 4,979 1 ,026
,533 ,150 12,529 8,054 4,179 4,902 1 ,027 X, -318,233 5,126 1 ,024
X, 38,831 1 ,000 ,435 ,867 X"
X, 2,086 ,335
1 ,006 ,614 1,926 X" 5,149 1 ,023 X, -319,580 7,820 1 ,005
- ,488 ,176 7,687 1,512 1,187 Paso 5 X, 4,216 1 ,040 X, -322,060 12,779 1 ,000
X, 11,186 1 ,001
.413 ,124 ,033 ,161 X, 5,654 1 ,017 X, -335,939 40,537 1 ,000
X" ,855 4,555 1 1,030 1,219
Constante -1,824
6,990 1 ,008 1,120
,421 ,950 X, 7,184 1 ,007 X, - 318,562 5,784 1 ,016
,114 ,043 ,027 ,632 X, ,510 1 ,475 - 321,631 11,921 1 ,001
Paso X"
- ,459 ,208 4,879 1
,671 ,474 ,950 X" 4,807 1 ,028
9' X, 5,067 1 ,024 1,028 X" ,061 1 ,804 X" -318,074
-,399 ,177 1,016 1,005 ,258
X, 7,584 1 ,006 1,250 2,264 X" 1,279 1
,016 ,006 ,001 1,678
X, ,150 11,837 1
7,658 3,955 14,827 X" 3,443 1 ,064
X, .518 1 ,000 ,921 4,046 1 ,044
2,036 ,337 36,468
,016 ,649 ,458 X"
X, - ,432 ,179 5,850 1
1,513 1,185 1,931 PasoS X, 4,389 1 ,036
X, 11,062 1 ,001 ,581 ,968 X, 5,344 1 ,021
,414 ,124 ,027 ,750
X" -.288 ,130 4,865 1
,310 X, ,793 1 ,373
X" 1,678 1 ,195 X,? ,057 1 ,812
Constante -1,173 ,905
X" 1,329 1 ,249
1 Variable(s) introducida(s) en el paso 6: X 4 • 4,084 1 ,043
9 varlable(s) introducida(s) en el paso 7: X6 ,
X"
e Variabte(s) introducida{s) en el paso 1: Xw X" 4,623 1 ,032
b Variable(s) introducida(s) en el paSO 2: XtS' ~ Varlable(s) introducida(s) en el paSO 8: X~.
<; Variable(s) introduclda(s) en el paSO 3: X, .• , Variable(s) introducida(s) en el paso 9: X,o' ( .. 1 .. .)
d Variable(s) introdudda(s) en el paso 4: X lt ·
G Variable(s) introducida(s) en el paso 5: X9 •
194 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 2: Análisis "logit" 195

Tabla E. (continuación)
Tabla G, (continuación)
Variables Puntuación gl Sigo

Paso 7 X, 4,148 1 ,042 I.C. 95,0% para EXP (8)


X, ,705 1 ,401 B ET. Wald gl Sigo Exp (B) Inferior
,008 1 ,929 Superior
X'2 Paso ?<a 2,033 ,338
,967 1 ,325 3a 36,166 1 ,000
X" X9 -,397 ,181 4,836 1
7,640 3,938 14,822
X" 4,090 1 ,043 ,028 ,672 ,472
3,165 1 ,075 X" ,421 ,124 11,462 1 ,001
,958
X" X" -,281 ,131 4,646
1,523 1,194 1,943
Paso 8 X, ,731 1 ,392
X" - ,341 ,227
1 ,031 ,755 ,584 ,975
,074 1 ,785 2,259 1 ,133
X" Constante -,858 ,937 ,838 1
,711 ,456 1,109
X" 1,179 1 ,278 Paso Xj5 ,360 ,424
,106 ,043 5,939 1
X" 4,897 1 ,027 4' X -,436 ,208
,015 1,111 1,021 1,210
Paso 9
X"
X,
2,668
,743
1
1
,102
,389
X', -,352 ,179
4,380
3,855
1
1
,036
,050
,646 ,430 ,973
X, ,017 ,006 8,090
,703 ,495 ,999
X" ,127 1 ,721 X, 1 ,004 1,017 1,005
,491 ,152 10,499 1 1,029
X" ,013 1 ,910 X, 2,017 ,001 1,634 1,214
,337 35,844 1 2,199
X" 2,429 1 ,119 X, -,414 ,000 7,516 3,883
,179 5,345 1 14,546
,021 ,661 ,465
X" ,419 ,125 11,309 1 ,001 1,521
,939
a No se calculan los chi-cuadrado residuales a causa de X" -,280 ,130 4,618 1,191 1,941
1 ,032 ,756 ,585
las redundancias, X" -,352 ,226 2,419 1 ,120 ,703
,976
Constante -1,042 ,906 ,452 1,096
1,324 1 ,250
I G
Taba v:a ,.lable s en la ecuación Paso X,s ,114 ,043 6,990 1
,353
5a Xa -,459 ,208
,008 1,120 1,030 1,219
4,879 1 ,027
I,C. 95,0% para EXP (8)
X, -,399 ,1n 5,067
,632 ,421 ,950
X, 1 ,024 ,671 ,474
,016 ,006 7,584 1 ,950
X, ,518 ,006 1,016 1,005
B ET. Wald gl Sigo Exp(B) Inferior Superior ,150 11,837 1 1,028
X, 2,036 ,001 1,678 1,250
,337 36,468 1 2,254
X, -,432 ,000 7,658 3,955
Paso X'5 ,104 ,044 5,625 1 ,018 1,110 1,018 1,209 ,179 5,850 1 11,827
,016 ,649 ,458
la X3 ,448 ,209 4,564 1 ,033 ,639 ,424 ,964 X" ,414 ,124 11,062 1 ,001 1,513
,921
X, -,347 ,181 3,687 1 ,055 ,707 ,496 1,007 X" -,288 ,130 4,865 1,185 1,931
Constante -1,173 1 ,027 ,750 ,581
X, ,017 ,006 8,335 1 ,004 1,017 1,006 1,029 ,905 1,678 1 ,195 ,310
,968
X, ,482 ,152 10,073 1 ,002 1,619 1,202 2,181
X, - ,123 ,157 ,614 1 ,433 ,884 ,649 1,203
X, 2,024 ,339 35,669 1 ,000 7,565 3,894 14,696
X, -,396 ,182 4,713 1 ,030 ,673 ,471 ,962
X" ,402 ,132 9,244 1 ,002 1,494 1,153 1,936
,000 ,000 ,178 1 ,673 1,000 1,000 1,000 • Por último, la tabla G corresponde al modelo de regresión logística obtenido me-
X"
X" ,000 ,182 ,000 1 ,999 1,000 ,699 1,429 diante el procedimiento secuencial de eliminación de variables "hacia atrás", apli-
X" -,284 ,146 3,792 1 ,051 ,753 ,566 1,002 cando el criterio de reducir la verosimilitud. Tras cinco pasos (de los que resulta la
X" -,342 ,227 2,272 1 ,132 ,710 ,455 1,108
Constante -,875 ,941 ,864 1 ,353 ,417 eliminación de cuatro variables independientes) se obtiene el mismo modelo antes
Paso X'5 ,104 ,044 5,702 1 ,017 1,110 1,019 1,208 descrito. Se evita añadir las otras tablas de resultados, al ser plenamente coinci-
2' X, -,448 ,209 4,565 1 ,033 ,639 ,424 ,964 dentes con las obtenidas en la selección "hacia delante".
X, -,347 ,180 3,713 1 ,054 ,707 ,497 1,006
X, ,017 ,006 8,342 1 ,004 1,017 1,006 1,029
X, ,482 ,152 10,073 1 ,002 1,619 1,202 2,181
~,
-,123 ,157 ,618 1 ,432 ,884 ,650 1,202
2,024 ,339 35,720 1 ,000 7,565 3,896 14,689
X, -,396 ,181 4,805 1 ,028 ,673 ,473 ,959 2.2, El modelo logit como variante del modelo log-linear
X" ,402 ,132 9,245 1 ,002 1,494 1,153 1,936
x" ,000 ,000 ,178 1 ,673 1,000 1,000 1,000
.
X" -,284 ,131 4,717 1 ,030 ,753 ,583 ,973 Como ya se dijo en la introducción del presente capítulo, eIténnino "logit" tam-
X" -,342 ,227 2,274 1 ,132 ,710 ,455 1,108
Constante -,875 ,938 ,871 1 ,351 ,417 bién se aplica a una variedad analítica que deriva de los populares modelos log-linear.
Paso X'5 ,105 ,044 5,783 1 ,016 1,110 1,020 1,209 Se trata del modelo logit. Éste se incluye en la clasificación de técnicas analíticas mul-
3' X, -,440 ,209 4,444 1 ,035 ,644 ,428 ,970
X, -,352 ,180 3,851 1 ,050 ,703 ,494 1,000 tivariables de dependencia (entre variables categóricas), a diferencia de los modelos log-
X, .017 ,006 8,344 1 ,004 1,017 1,006 1,029 linear, que pertenecen a las técnicas multivariables de interdependencia porque no di-
X, ,4B3 ,152 10,117 1 ,001 1,621 1,204 2,183
X, ,120 ,157 ,585 1 ,445 ,887 ,653 1,206 ferencia entre variables independientes y dependientes. Mediante el modelo logit se
(.. .1. .)
analiza la relación causa-efecto entre una única variable dependiente y varias inde-
pendientes. Cuando la variable dependiente incluye dos categorías, se trata de un mo-
Capítulo 2: AnálisL<; "logit" 197
196 Análisis multivariable. Teoría y práctica en la investigación social

delo logit binomial. Si el número de categorías es superior a dos, el modelo será Esta variedad de modelo lag-linear resulta muy útil en la comparación de mode-
los diferentes, con la finalidad de descubrir cuál es el mejor.
multinomial. Cuando la interacción.de orden más elevado es significativa, el modelo jerárquico
El proceder en el modelo logit guarda bastante similitud con la regresión logística
y el modelado lag-linear. Como la regresión logística ya se ha descnto en el apartado es saturado y el ajuste con los datos observados es perfecto (Hntcheson y Sofro-
anterior, conviene ahora exponer en qué consiste el modelado log-hnear, antes de ex- niou, 1999).
plicar en qué difiere el modelo logit. Por esta razón se ha decidido mclUlr unos pnmeros
subapartados dedicados al modelado loglinear.
B) Modelo saturado

Un modelo lag-linear es saturado cuando no se impone ninguna restricción en las


2.2.1. El modelado log-linear
relaciones entre las variables. Incluye todas las posibles combinaciones entre las va-
Los modelos lag-linear (también llamados "modelos loglineales" o "n;,odelos linea- riables, definiéndose mediante la siguiente ecuación:
les logarítmicos") tienen su origen en 1935, en la propuesta de Barlett (en Contmgency
table interactions", Journal ofthe Royal Statistical Society, 2, 248-252) de emplear las ra-
zones de verosimilitud ("odds ratio") como medida de asociación en una tabla' de. con-
tingencia. Ésta se convierte en la finalidad principal de esta técmca: analizar las ~elaciO~e.s Donde: "F..Ij ... m"(o n..IJ... ml\ es la frecuencia en la casilla iJ· ... m.
existentes entre variables cualitativas, representadas en tablas de contmgencl~ multld,-
"fi" es el promedio de los logaritmos de las frecuencias en todas las casi-
mensionales. Al ser una técnica de interdependencia, no se distingue entre vanables de- llas de la tabla.
pendientes einterdependientes, a diferencia de los .modelos logit, que sí analizan rela-
ciones de dependencia (de relación entre variables mdependrentes Y dependiente). "A1" es el efecto principal de la categoría i de la variable A.
"At' es el efecto principal de la categoría j de la variable B.
"A1"" es el efecto de interacción de la categoría i de la variable A con la ca-
tegoría j de la variable B.
2.2.1.1. Tipos de modelos lag-linear

Existe una amplia variedad de modelos lag-linear. Una tipología básica diferencia Mediante esta ecuación se establece que, para cada celdilla i,j ...m, el logaritmo na-
las tres modalidades genéricas siguientes: tural de la frecuencia esperada F es una snma aditiva del parámetro de efecto lambda
para cada variable, más la constante (llámese "/l" [mu] o "A" [lambda]). En el mode:
lo saturado hay tantos parámetros como celdillas en la tabla.
~lmodel? lag-linear saturado es de utilidad, sobre todo, como punto de partida en
A) Modelo jerárquico
la busquéda del mejor modelo para representar los datos observados. A partir de él se
De acuerdo con Upton (1978: 57), los modelos jerárquicos s~ caracterizan por cum- va eliminando cualquier relación entre las variables que muestre no ser significativa:
plir la siguiente regla: "Si el parámetro relacionado co.n un conjunto ~e vanables V se un valor lambda bajo.
incluye en el modelo, entonces el modelo debe mclun todos los parametros ,relaciO-
nados con cualquier subconjunto de V". 0, dicho con otras palabras, la mclusiOn de un
término para la interacción de una serie de variables s~pone, nec~sanamente, la C) Modelo de independencia
existencia de términos de orden inferior para todas las pOSibles combmaclOnes de di-
chas variables. Esto significa que la descripción de un modelo jerárquic~ noprecisa de Se inclnye dentro de los modelos no saturados, al caracterizarse por no incluir nin-
la enumeración de todos los términos, es suficiente con enumerar los termmos de or- gún término de interacción. Lo que sin duda facilita la realización de los análisis ade-
den superior en los que aparecen combinados las variables de interés; . más de la obtención de un modelo parsimonioso de la relación entre las variables.
Por ejemplo, un modelo de tres variables es jerárquico cuando la mclusión de.un Para la consecución de un modelo que se ajuste al principio de parsimonia habrá
término de interacción entre las tres variables (AAB') supone, a SU vez, la consideración por tanto, que acudir a una aproximación que excluya algún efecto entre las variables:
B C Sea éste de orden inferior (una aproximación no-jerárquica) O superior (modelo de in-
de todos los términos de orden inferior que incluyen a las tres variables: AA, A , A , AAB,
dependencia, por ejemplo).
AAC, ABC .
Capitulo 2: Análisis "logit" 199
"eorl'a y práctica en la investigación social
198 Análisis multivariable. 1-'

. (1992) observan que sólo los modelos com- representación mediante la letra griega "J1" (mu) con preferencia a
En la práctica, autores como Event! h sivos entiende aquellos que con- "A" (lambda), Con ello quiere enfatizarse el tipo de información
prehensivos son de interés. Por ~odelos CO~~~ar:=ble considerada. que proporciona: el promedio de los logaritmos de las frecuencias en.
tienen al menos un efecto pnnclpal para ca todas las casillas ,fe latabla,
"X1" es el efecto principal de la categoría i de la variable A:
"AJ>'
J ,
es el efecto principal de'la categoría j deja
-_', _.
variable B.
22.1.2. La ecuación log-linear y su interpretación
"A1/" es.el efecto de interacción de la categoría i de la variable A con la
. . d a tabla de contingencia, con un número categoría j de la variable' B.
El análisis log-linear se realiza a partlI (e ~n , . as): bidimensional (dos variables),
de dimensiones que iguala al de vanables ca ego~c(cuandO incluye más de tres varia- Los parámetros lambda (A) representan, por tanto, los efectos de cada variable;
tridimensional (tres variables) Y muladlfnenslOna
tanto por separado (o efectosprincipales o directos de las variables: A1, AB, A~), como
bies). . ' , " . ' redecir' corno si de una variable de~. de las interrelaciones entre ellas: A1[, A1f, AD.f, A1j XC , Guan.tifican el cam¡{io e.n la fré-
La finalidlld principal del an,ahsls eS¿~~:~~irla de"látabla.Las celdillas se forman cuencia de celdilla cuando se va de un niveÍ de la variable explicativa a otro. Es de-
pendiente se tratase; la t:"ecuencla de ~~le ue artícípa en el análisis. La distribución cir, los incrementos (cuando el signo es positivo) o disminuciones (si el signo es ne-
del cruce de una categona de cada var.'ad d ~ Pbt ner un determinado valor en cada gativo) del valor de base "J1" para combinaciones concretas de las variables de
de Poisson pennite estimar la probablh a e o e
interés,
celdilla de la tabla de contingencia. . b das en cada celdilla de la tabla sel Las letras A, B YC no elevan "A" a ninguna potencia, sólo nombran a la variable
En los modelos log-linear las frecuenclafs o serv~ de la celdilla De ahí deriva su a la que hacen referencia: aquéllas implicadas en la relación, En cambio, los sufijos ij
, turales de la recuenCJa . .
transforman en logaTltmos na t e'rdese lo dicho en el subaparta- y k representan las categorías de aquellas variables en el mismo orden, Por ejemplo,
"A este respec o recu "
nombre: modelos "log-Ji near ' 11'. . '1mO. .de. u.n.nÚlllero es la potení1a kit representa el efecto de la interacción de las categorías i y j de las variables A y B,
1 I aritmos En breve e ogan .. '. . ... ' .... 1 ( '1.
do 2, 1'4, respecto a os og k
. ... . .. dicho número::Ellogaritmo ",flura tam' respectivamente.
ala que debe elevarse la ~ase para conse~ ú "e" (o "exponente"). Este es igual
Más concretamente, en un modelo log-linear de tres variables: religiosidad (A), ni-
bién llamado neperiano) llene como base e ~ m:ro "e6,733 _ 840" En cambio, ello-
a 2,718, De modo que, el "In 840 = 6,733". or an, to -' . vel de estudios (B) y sexo (C), el término X::~;:;;, expresa el efecto de estar en la ca-
garitnw común tiene como base lO, ., d un modelo aditivo, a m<Xiod..,!!fiQt tegoría ¡'creyente" en la variable "religiosidad"; ít~~~~:~QS representa el efecto de tener
'lmos pennite la consecuclOn e....... ..' ...•.... ' , 't' 1 estudios "primarios" de la variable '~nivel de estudios"; y A;:~;er' el efecto de ser "mujer".
.El .t omar. 1ogan . ., l ' ' 'ación de la asimetrta pOSI Iva.qull·¡
delo de regresión lineal, Ade'!'-as, favorece a numm~r tener como línúte inferior el var "- ítrefigión,eslu.dios.
creyente ,PrtmarlOS
es el efecto de la interacción de ser '''creyente'' y tener estudios "pri-
supone analizar frecuencias. Estos se caractenzan P marios". Por último , mediante el término xeligiónlis!ll,dJo$:;rexo.
creyenle,pnmarIO$,mUjer
se representa la interacción
. " .., . " ", de las tres categorías (creyente, primarios, mujer) de las tres variables referidas (reli-
lor O, y como hmlte supenor =', ,, " .
El modelo log-linear adopta la ecuactOn sigUiente, giosidad, nivel de estudios y sexo),
Los parámetros de efectos directos (A1, AB , A~) se obtienen de la diferencia de la
'lAK + íLAB... K
'lA +ítB + +íl..K +A:~B + ... +A¡m +... ij"m media de los logaritmos en la categoría correspondiente (p" 11¡ J1k ) Y la media conjunta
lnF¡j ...m.=Jl+/L¡ i .'. ni lJ
entre todas las categorías (J1). De modo que: Ai = J1i - Ji; A.. = J.1.. - fl,' Ak = J.1.k - Ji- Su va-
. lo se expresa del modo siguiente: lor es positivo, cuando el promedio de los casos en una [tIa o ~olumna supera al pro-
Un modelo saturado y tridimensional, por e]emp , medio global. El signo es negativo, cuando sucede lo contrario: es inferior al prome-
AC ílBe ).,ABC
dio global.
in F.'J, = Jl +
J.f"
;ti + íL~ + A.~ + A~B + Aik + jk + ijk Las interacciones de p,imer orden (AAif, A1j;', AB;) se obtienen promediando todos
los valores de las variables A, B y C, en una tabla bidimensional, cada vez, núentras que
Id'n "k Resulta de la combina- la interacción de segundo orden (A1S.C ) es la diferencia entre la suma de cada valor del
Donde: "Fi'k "es la frecuencia esperada en la ce l.a lJ .
. bl deradas A
predictor lineal con los marginales (filas), B (columnas) y C (fondo) y la suma de los
) ción concreta de las tres vana es conSI l' 'l'sis de regr.e.s.ióm marginales de AB, AC y BC con la constante,
I t t o intercepto en e ana 1 '-,''- "<,,,-,Ó)i,~.,
,... es. el e. quivalente
"u" , a a cons .an e erada en la ceId'll
I al]"k , cuando todós, \
Cuando lambda mide el efecto de la interacción entre las variables, su valor ex-
lineal, Expresa la frecuencia esp C or frecuencia se opta por su presa la diferencia existente entre las sumas de las variables tomadas de forma
los parámetros lambda son cero. on may

1
200 Análisis multivariable. Teoda y práctica en la investigación social
Capitulo 2: Análisis "logit" 201

aislada y cn conjunción con otras variables. Su valor cs O, si no se observan diferencias B) Logaritmos naturales
cntre las categorías de las variables relacionadas (por ejemplo, entre los "creyentes",
según su "nivel de estudios"). Su valor es positivo (> O), cuando se constata una ma- Religiosidad Primarios Medios Superiores Promedio
yor predisposición a ser "creyente" entre las personas con estudios "primarios", por
Creyente
ejemplo ( ~~~;~~~;~;;:~::;iOS)' El signo es negativo ( < O), si existe menos predisposición en- 6,475 6,103 5,147 5,908
No creyente 4,644 6,211
tre las personas con estudios primarios a ser creyentes. Un mayor detalle del cálculo 6,082 5,646
Promedio 5,560 6,157
de los parámetros lambda se da en el ejemplo ilustrativo que sigue a continua- 5,614 5,777
ción. Obsérvese que los parámetros de interacción en los modelos log-linear se C) Efectos directos
obtienen de la diferencia entre el logaritmo de la frecuencia observada en una cel-
dilla concreta (a la que se hace referencia) y cllogaritmo de la frecuencia predicha, xellgion 5 9
cNiyeme;;;;; , 08 - 5,777 :::: 0,131
utilizando sólo los parámctros lambda de las variables referidas. Así, por ejemplo, Xeligióli - 5,46
6 - 5,777 ;;;;; -0,131
"O.Creyente -
ítCSludios
prm(lr;os -
- 5> 560 -5,777;;;;; -0,217
xeligión,esllI,díOS. =:: ln(n ) _ (11 + xeligión + A.esll.ldiO~ )
creyCnle,{mmanos 11 t-" creyente pflmarws /lesrudlQs
medio" :::::
6, 157- -
5,777::::: 0,38
A.-esludios - 5 61
superiores - , 4 - 5,777 ::::: -0,163
Doude: "n11 " es la frecuencia observada en la celdilla que corresponde al cru-
ce de las categorías "creyente" y "primarios", de las variables "re-
Obsérvese que las estimaciones para cada variable suman cero en total:
ligiosidad" y "estudios". Para más información véase el ejemplo a
continuación. : Para la variable religiosidad: 0,131 + (-0,131) =
Para la vanable nivel de estudios: -0,217 + 0,38 + (-0,163) =
° °
D) Efectos de interacción

A) Tabla de contingencia con las frecuencias absolutas y porcentuales del cruce de


las variables "religiosidad" (en filas) y "nivel de estudios" (en columnas), en una
muestra de 2.308 casos.

Los valor~s positivos de los parámetros lambda indican una relación o"
Nivel de estudios tre I~S categdonas de las variables que se relacionan; los valores negativos fa ~~~~~a~~-
Religiosidad Total en la~g~~~~II~Se~~el~~:~~~O~~'plz~;Oga;itml os naturales de las frecuencia; observada~
Primarios Medios Superiores . bl' . en e a suma de los efectos directos de cada v
na e Impllcada~ los efectos de interacción entre ellas. A lo que se añade d a-
Creyente 649 447 172 1.268 do con la ecuaClon de los modelos lag-linear la consta ( , . ' e acuer-
86,2 47,3 28,2 54,9
garitmo natural de la frecuencia observada
Ia pnmera columna (n ) es el siguiente:
la celdilla e~ ;~ :;~c:s~'e~~rp(;~~;~~¡I=lpl~;
No creyente 1.040 ll
104 498 438
13,8 52,7 71,8 45.1
ln(nu) = JI. + xcligió" + ,;tes/mIJos + ;religión,eStudios
Crcycltle primarios creyente,primor/o.•
TOTAL 753 945 610 2.308
32,6 41,0 26,4
-
100,0

II In (649) = 5,777 + 0,131 -0,217 + O, 784 = 6,475


Del mismo modo se procede con el resto de las celdillas de la tabla.
r f

202 Análisis multivariable. Teoría y práctica en la investigación sociaL Capítulo 2: Análisis "logit" 203

E) Exponentes Los "odds" nO tienen límite superior ni inferior, pueden adoptar cualquier valor;:
O. Asimismo, recuérdese que un "odds" = 1 se corresponde con un "log odds" de O. Es-
Como la interpretación en términos de logaritmos es más compleja que mediante to se debe a que el logaritmo neperiano de 1 es O.
"odds ratio" (razones de verosimilitud¡, en los modelos lag-linear, al igual que en el análisis Tomando todo esto en consideración, la ecuación lag-linear puede transformarse
de regresión logística, por ejemplo, se procede a la tranSformaC[ión exP(on~;a~~~ lo)s]pa- en un modelo multiplicativo. En el caso de un modelo bidimensional, como el ilustrado en
el ejemplo anterior, la ecuación adoptaría la forma siguiente:
rámetros lambda (el). De esta forma se convierte el "Iog-odd" A= In 1-P(Y = 1) a
, . '1religión
"odds", como se expuso en el subapartado 2.1.4. ASI, por ejemplo, Acreyeme es elloga-
ritmo de la razón de creyentes a no creyentes. Su transfonmación exponencial (el = &,784) es
igual a 2,190. Puede afirmarse que los "odds" estimados de una persona con estudios En el caso de la primera casilla (Fu o nu) el modelo quedaría así expresado:
"primarios" que es "creyente"son algo más de dos veces (exactamente, 2,190) los
"odds" de una persona "creyente" que posee "otro" nivel de estudios. Igualmente,
xeligión,l.'sfui/¡OS.
no-creycme,SUperlOfl.'S
::::: O} 599 se transforma a eO,599 ::::: 1 , 820. Lo que significa que los
"odds" estimados de una persona con estudios superiores que es "no creyente" es ca- = 322,79 x 1,140 x 0,805 x 2,190 = 649
si dos veces (1,820) los "odds" de una persona también "no creyente", pero de un ni-
vel de estudios inferior. En suma, los exponentes actúan como medidas de los efec-
tos directos y de interrelación entre las variables, siendo su interpretación más
2.2.1.3, La estimación de parámetros
sencilla que en términos de logaritmos, A continuación se incluyen todas las trans-
formaciones exponenciales efectuadas de los parámetros lambda que se han calcu-
En los modelos log-lineqr, como en regresión logística, !O~P'1fáIIl\'tró~lambda se
lado:
a
~§lim¡j!!,.pr~f"r,,!!teménte, mediante el método de máxima verosimilitud! través de
Xeligión,esltl.dios. :::: O 784 un proceso iterativo,. El proceso de estimación concluye cuando las diferencias entre
creyente,prlmarlOS ' eO,784 = 2,190 estimaciones sucesivas no difieren más del valor previamente fijado, salvo que el in-
xeligi6n,eSfUd~o$ ::;; -O 185 e-<>,I85 = 0,831 vestigador escoja deliberadamente un valor específico (el más habitual es 0,25).
creye>lle,medlOs ,
xeligión,est«dio.s :::: -O 598 e-<l,598 = 0,550 En la estimación de parámetros también puede aplicarse el método de mínimos
creyellle, SlIpeflore.t '
cuadrados ponderados. Si bien, la aplicación de este último procedimiento no se re-
xeligión,esllld¡o~ . == -O 785 e-O,785 = 0,456
no_creyerlfe,prunar/Os ' comienda cuando se dan dos circunstancias: el tamaño de la muestra es pequeño
xeligión,estlldios. = O 185 eO,I85 = 1,203 y/o existe una elevada proporción de celdillas con frecuencias inferiores a 5: al menos
no.creyellle,medtQs '
xeligión,esllldios. == O 599 eO,59' = 1,820 un 25% del conjunto de celdillas creadas por el cruce de variables.
no_creyerue, s«penores '
El número máximo de parámetros a estimar iguala.a1 número total de celdUlas el}
la,taN~. }1ás cOIl9'~taJnente, para los efectos principales, se estiman tantos parámetros
S()m() n6merod" categorías de la variable menos L Paral()s efectos de interacción, s~
Recuérdese que por "odds" se entiende la razón probabilidades de ocurrencia de estiman. t¡¡.ntos paráxiletios éómo el producto del número de categorías de cada una dé
un evento (de una categoría de una variable) en relación con la probabilidad de que las variables implicadas en la relación menos L En el ejemplo anterior, el modelo in-
no se presente. Algunos autores -como Kennedy (1983)-10 representan mediante la cluye dos variables: "religiosidad", con dos categorías (creyente y no creyente) y
letra griega omega (Q). Otros, en cambio, optan por la denominación tradicional "nivel de estudios", con tres categorías (primarios, m"dios y superiores), Los pará,
que en este texto se ba seguido. Cualquiera qne sea su denominación, cuando su v~or metr()~ deint~racciónson en totaI2:(2 -1)(3 -1) '" 2.
está próximo a "1" significa que ambas probabilidades (de ocurrenCia y no ocurrencia) Cllando"lmodeló abárca máS de tres variables, la complejidad del análisis aumenta
son iguales, lo que se traduce en inexistencia de relación entre las variables. Hay relación, considerablemente. Tanto más, cuanto mayor sea el número de variables. Ello se
cuando su valor se aleja de "1": un "odds" positivo (> 1) o negativo « 1). Un "odds" > debe, sobre todo, al incremento que supone en el número de interacciones posibles. Lo
1 se obtiene cuando existe más probabilidad de "ocurrencia" de un evento que de "no que redunda, negativamente, en una mayor probabilidad de haber "celdillas vacías".
ocurrencia". Por el contrario', un "odds" < 1 supone una menor probabilidad de Este problema, que es común a todo análisis realizado a partir de tablas de con-
"ocurrencia". tingencia, ya fue expuesto en el subapartado 2.L2. En él se hizo referencia a sus
Capítulo 2: Análisis "logit" 205
204 Análisis multivariable. Teoría y práctica en la investigación social

.. .' 1 d b' do a que los "odds ratio" con ce- Si se compara con el obtenido bajo el supuesto anterior, se observa que este último
efectos negativos en el análIsIs, pnnclpa mente, e l . , d' d' índice es ligeramente superior al obtenido para el mismo tamaño muestral (300 casos) y
. . f"t
ros en el denominador henden a m 1m o. SlmlS A' . mo , se a1udlO a lVersos proce I-
. . . tres variables (dos con cuatro categorías y una con cinco). Al reducirse una categoría en
. b . t
mientas para o vlar es e pr ob1ema , entre
.. los cuales destaca la convemencla de m- la última variable se ha pasado de un lE de 3,75 a 4,69. Este aumento en el valor de lE
crementar el tamaño de la muestra a analIzar. . adquiere mayor magnitud cuando se decide reducir el número de categorías de las tres
Otro problema relaClOnado con tablas multidimensionales (que mcluyen más
·
. Ide tres variables a tres. En este último supuesto el índice se aleja bastante del referente de 5, al-
variables) son los "datos esparcidos". Este problema aparece, de mane~~ especia , ~uan­ canzando el valor de 11,11: lE = 300/(3 x 3 x 3) = 11,11.
do el tamaño de la muestra es pequeño y se analizan más de tres vana es, que me uyen
cuatro o más c a t e g o r í a s . · r I ,,~
El ejemplo anterior muestra la importancia de dividir las variables categóricas en
Si quiere conocerse el grado de esparcimiento de los datos: puede ap I?arse e n¡-
dice de esparcimiento" (lE) propuesto por Agresti (1990). Consiste en dlVldlr el tamlan? el menor número de categorías posibles, antes de proceder al modelado log-linear. Má-
de. la muestra entre el numero
: I as d e 1a t a bla , como se muestra en e Sl-
de ce1d'll xime si coincide con un tamaño muestral pequeño. El tener una proporción importante
guiente ejemplo. de celdillas (como el 25% , por ejemplo) con frecuencias inferiores a "5" dificulta el uso
del estadístico X2 y de estadísticos basados en él.

o Cuando el número de variables es superior a tres (modelos multidimensionales),


puede seguirse en la configuración del modelo alguno de los procedimientos secuen-
[5JE,MPLO DE CÁLCULO DEL/NDICE QEESPARCIMIENTq
ciales aplicados en otras técnicas analíticas: los procedimientos de selección hacia de-
. PARA DISTINTOS TAMAÑOS ,MUESTRALfS .
,
".' ' . ,". ,,", ,',
-' .'-
',"
lante ("forward"), de eliminación hacia atrás ("backward") y el procedimiento "paso
a paso" ("stepwise"). Estos tres procedimientos de selección de variables secuencia-
Se quiere analizar la relación entre tres variables mediante una tabla tridim 8 nSion81. les ya fueron referidos en 1971 por Goodman (en "The analysis of mu1tidimensional
, ada una La tercera vanab le se ha- contingency tables", Technometrics, 13: 33-61) como idóneos en su aplicación en mo-
Las dos primeras variables incluyen cuatro categonas c _ . t les los "índices de
lIa medida mediante cinco categorías. Para dlstmtos tamanos mues ra , delos multinomiales.
esparcimiento" son los siguientes: En el modelado lag-linear existe una mayor preferencia por el procedimiento de
eliminación "hacia atrás", especialmente en modelos jerárquicos. Upton (1978) lo re-
a) Para una muestra de 300 casos: comienda por ser el procedimiento "más seguro".
El análisis comienza tomando, como punto de partida, el modelo saturado. Éste se
lE = 300/(4 x 4 x 5) = 3,75 caracteriza (como se vio en el subapartado 2.2.1.1) por incluir todas las asociaciones o in-
teracciones posibles entre las variables. A partir de él se procede a una eliminación se-
b) Para una muestra de 600 casOS:
cuencial de parámetros, hasta lograr un buen ajuste a los datos empíricos. El parámetro
lE = 600/(4 x 4 x 5) = 7,5 eliminado en cada paso es, como en regresión logística, aqnel que no satisface los criterios
de permanencia en el modelo. Éstos se fijan antes de comen;?:ar los análisis. Destaca el
e) Para una muestra de 900 casos: tener un valor estandarizado bajo y, por tanto, no significativo estadísticamente. La sig-
nificatividad se comprueba mediante los estadísticos "t" de Student o "z". Todo valor de
lE = 900/(4 x 4 x 5) = 11,25 "t" o "z" empírico inferior a ±2 supone, en general, que el parámetro correspondiente
barse el aumento del "índi- no es relevante en el modelo empírico, procediéndose a su eliminación.
Con estos supuestos de tamaño muestral pue d e compro . resente Una estrategia relacionada con la anterior, también de uso popular (Nourisis, 1994;
ce de esparcimiento", conlorme se incrementa el tamaño de la ~~.7,:~~:~;~:~~Pcon Ire- Bisquerra, 1989), consiste en comprobar, de forma sistemática, la contribución que ca-
ue valores de lE < 5 indican la presencia de numerosas c:, I eños da término de un orden concreto realiza al modelo. Lo habitual es comenzar con las
~uencias pequeñas. Esta situación es más habitual con tama~os muestrales pequ Y
interacciones de orden superior (como, por ejemplo, ?.~tC). Se comprueba la reper-
cuando el número de categorías de las variables ~s tres o mas" blemente al valor
El número de categorías de las variables tamblen afecta conSI d era to" en el supues- cusión que tendría su eliminación en el ajuste del modelo. Después, se desciende a las
de lE. Para demostrarlo, se vuelve a ca Icu Iar e I ".In d'ce
I de esparclmlen í Para una interacciones de orden inferior (como puede ser ?.1/), para concluir, finalmente, con
to de que las tres variables del ejemplo tuviesen cada una cuatro c~teg~~ as. los efectos directos.
muestra de 300 casos el índice es el sigUIente: lE = 300/(4 x 4 x 4) - 4, .
206 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 2: Análisis "logit" 207

Mediante ,yl~stadístiGo X2 de razón de verosimilitud puede comprobarse la re- nificación elegido: El usual es 0,05. Cuando éste sea el nivel de significación elegido,
percusión que tendría en el ajuste del modelo la eliminación de un efecto de orden de- todo valor Z empmco ¿ 1,96 se consIdera estadísticamente significativo.
terminad9· Para ello se resta el X' correspondiente al modelo que carece del efecto que A partIr de los err::res típicos también se calculan, como en regresión, los intervalos
se evalúa del obtenido en el modelo que sí lo incluye. Esta diferencia de valores X2 a de confianza: lC = A + -
ZSe.Á
veces también se refiere como "X2 parcial".
Por ejemplo, para el parámetro de interacción íl:eligión,e$l~dios. 1 . t' 1 d
. ..... creyente,pnmarlOS ,e ln erva o e con-

X'=X'k-l _X2k flanza ~ena el sIgmente: lC = 0,784 ± (1,96 x 1,42) = 0,506 Y 1,062
El mterv~l~ va de 0,506 a 1,062. Como no incluye el valor O, significa que pnede re-
Donde: "Xt," es el valor de X' correspondiente al modelo sin el efecto de orden k. chaza:se la hIpotesIs nula, lo que supone la relevancia del parámetro en el modelo ex-
":t;' es el valor para el modelo con el efecto de orden k. pllcatIvo, al nIvel de confianza elegido (95%).
. SI se aplica el, el rechazo de la hipótesis nula exige que el intervalo de confianza no
A diferencia de R', cuyo valor aumenta al ir añadiéndose variables independien- mcluya el valor 1. Esto se debe (como ya se mencionó) a que un odds = 1 se corres-
tes al modelo, el val')rde :t disminuye conforme se añaden parámetros al modelo. Por ponde a un log-odds = O.
esta razón, interesan valores de :t'.bajos, como indicativos de un buen modelo. Al con-
trario de lo que sucede con R2
En este contraste de valores X' , la hipótesis nula se formula en términos de que 2.2.1.4. La adecuación del modelo global: estadísticos de bondad de ajuste
el efecto de orden k que se comprueba es igual a cero (Ho; k = O). El rechazo de es-
ta hipótesis se produce cuando el nivel de significación asociado al cambio de X' es pe- El estadístico protagonista en la medición de la bondad de ajuste en el modelado
queño, normalmente, p < ,05, lo que supone la eliminación del efecto del modelo. Es- log-llnear es:t de razón de ver~similitud. Aquí se ha optado por referirlo como "xi", si-
te criterio se aplica, por defecto, en la mayoría de los programas estadísticos al uso, ~u;:~do la propuesta de Eventt (1992). Si bien otros autores prefieren denominarlo
como el SPSS. L . (Kennedy, 1983; Knoke y Burke, 1986), "G2" (Nourisis, 1994; Hutcheson y So-
Pero también puede seguirse la estrategia contraria. Consiste en ir añadiendo pa- fromou, 1999) o "LR2" (Bisquerra, 1989).
rámetros al modelo, a modo del procedimiento seguido en la selección "forward". El ::1estadístic~ X2 de razón ~e verosimilitud Ctl) fue desarrollado por Fisher en 1924
análisis parte de un modelo simple (como puede ser, por ejemplo, el modelo de in- (en The condItlOns under wIth :t measures the discrepancy between observed ob-
dependencia) y, poco a poco, se van añadiendo parámetros al modelo. Depende, sobre servatlO,'l and hYPo,th:sis", Joumal of the Royal Statistical Society, 87: 442-450) Como
todo, de su significatividad (una razón "t" o "z" > ±2). El análisis concluye cuando se alternativa al estadIstICo X' de bondad de ajuste de Pearson. De él difiere en que apli-
ha formado un modelo que presenta un buen ajuste a los datos empíricos. ca logantmo~ naturales, además, precisa que la estimación de parámetros se realice me-
Cnalquiera que sea el procedimiento seguido en la estimación de parámetros y con- dIante el metodo de máxim~ verosimilitud. En el cuadro 2.1 figuran las fórmulas
signiente configuración del modelo log-linear, en todos ellos se comprueba la signifi- que definen a ambos estadístIcos, con la finalidad de facilitar sn comparación.
catividad de los coeficientes lambda estimados y su error típico.
La significatividad normalmente se comprueba mediante el estadístico "z", al CUADRO 2.1. Estadisticos de bondad de ajuste X 2 yxi
ser, en la mayona de las situaciones el tamaño de la muestra superior a 30 casos. Su va-
lor empírico se obtiene, al igual que la razón "t", del cociente entre el coeficiente y el i' de bondad de ajuste de Pearson xide razón de verosimilitud de Fisher
error de estimación correspondiente. Por ejemplo:
XL, =2" J:¡
.... ln F..
~JiJ

"
g. l. = n.O de celdillas en la tabla-
n,o de parámetros independientes

Donde lo~ sufijos" i" Y "}" incluyen todas las celdillas de la tabla. "t' representa el nú-
La hipótesis nula se formula en los términos siguientes: Ho; A1 B = O; y la alternativa: mero de tIlas y "j" el de columnas.
At
H ,; B '" O. Para que el parámetro lambda se considere sig~ificativo y pueda in- ::~/" es la frecuenci~ observada en la celdilla ij. También puede referirse "fo .. ".
cluirse en el modelo deberá superar al correspondiente valor teórico, al nivel de sig- F¡¡ es la frecuencIa esperada en la celdilla ij. También puede referirse "J.'e ..~{.
J'"
208 Análisis mulzivariable. Teoría y práctica en la investigación social
Capítulo 2: Análisis "/ogit" 209

Ambos estadísticos sigucn una distribución X2 Sus valores empíricos se contrastan · Al contrario de cuando se evalúa el ajuste de Un modelo concreto de forma indi-
(para el contraste dc hipótesis) con los teóricos de dicha distribución al nivel de sig- Vidual, en la comparacIón entre modelos se quiere Un valor "02" de comparacl'ó
". ir,' " S · hL n que
nificación elegido y a los grados de libcrtad correspondientes. El modelo presenta un sea slgn IcatrVO. e comprueba SI el modelo propuesto es mejor que otro alternativo.
buen ajuste, cuando el nivel de significación asociado a ambos estadísticos chi-cuadrado Por esta razón mteresa el rechazo de la hipótesis nula, que supone la inexistencia de
es elevado. En cambio, cuando es muy pequeño (p < 0,0005) -al ser los valores em- diferenCIas entre los dos modelos. ..
píricos de X2 y xi elevados- ambos estadísticos expresan que el modelo estimado de- Mediante ambos estadísticos (X y xi) pueden llegarse a las mismas conclusiones
2

bería desestimarse, por no presentar un buen ajuste a los datos. Lo que significa que relativas a la bondad de .ajust~: Si ,?ien, puestos a elegir entre ambos, la mayoría de los
no logra reprcsentar adecuadamente las rclaciones entre las variables. autor;s}ecomJendan utrhzar xi con preferencia a "X2". Kennedy (1983: 60) afirma
Como sucede en los modelos de ecuaciones estructurales (capítulo 6), en el mo- que,XL posee vanas p,ropiedades que son más deseables en el trabajo log-linear y pro-
delado log-linear la aplicación de los estadísticos chi-cuadrado (en la comprobación del bara ser nuestro estadístico de bondad de ajuste". Knoke y Burke (1986: 30) destacan,
ajuste del modelo) es opuesta a su práctica común en otras técnicas analíticas (como por su parte, dos de estas propiedades deseables de xi:
en las tablas de contingencia, por ejemplo). El ajuste dcl modelo es bueno con valores
bajos del estadístico (y no con elevados), relacionados con sus grados de libertad. Es- 1. Las fre~uencias esperadas se estiman mediante procedimientos de máxima
to sucede cuando las frecuencias de celdillas esperadas no difieren, de mancra signi- veroslmlhtud.
ficativa, de las observadas. No siguen, en consecuencia, ninguna pauta discernible. 2. Puede subdividirse en partes, que se añaden al total, para comprobar la inde-
En suma, interesan valores i' no significativos (p> ,OS), debido a que se buscan pendencI~ condICional en tablas multidimensionales, como sucede en el análi-
modelos en los que las frecuencias esperadas (generadas por el modelo) no difieran sig- SIS de vananza, con la suma de cuadrados total. .
nificativamente de las frecuencias observadas en las respectivas celdillas de la tabla.
Los valores de i' de Pearson y xi tienden a coincidir conforme aumenta cl tamaño P~r~ la comprobación de la adecuación del modelo global pueden aplicarse otros
de la muestra. A este respecto se han pronunciado, desde su formulación, diversas pro- estadlstlcos, ,normalmente complementando a los dos principales: i' y X¡. Destaca, so-
puestas relativas al tamaño de la muestra preciso para que ambas distribuciones (x2 y bre todo, d ,~d,ce AlC y sus vanantes (Ato y López, 1996). Todos ellos son de utilidad
i'L) coincidan. Una de las que ha tenido mayor repercusión es la emitida por Cochran en la medlclOn del ajuste del modelo. Un "buen" ajuste del modelo a los datos Se al-
en 1954 (en "Some methods strengthening the common X2 tests"., Biometrics, 10: canza, cuando en cualqllle:a de estos estadísticos, se obtienen valores bajos. En el cua-
417-451). Este autor propone que al menos en el 80% de las celdillas de la tabla "F;/' dro 2.2. se Incluyen el md,ce AlC y sus variantes.
sea mayor de 5,0; y en todas las celdillas el valor de "F;¡" ha de ser superior a 1,0.
El estadístico xi también puede aplicarse para propósitos comparativos cuando se CUADRO 2.2. El índice AIC y sus variantes
quiere comparar entre dos modelos, en busca del que presente un mejor ajuste a los da-
tos. Como sucede en regresión logística, con el estadístico "-2LL d if' o "flG" (o X2 del
• AIC: Criterio de Información de Akaike de 1987: AIC = D _ 2g1
modelo), y en regresión lineal con "F-parcial". A tal fin se comparan los respectivos va-
lores xi de ambos modelos. Se resta el valor xi del modelo de orden superior del co- ., EIC: Criterio de Información Bayesiana. Propuesto por Raftery en 1986 (en el
rrespondiente al modelo de orden inferior. El primer modelo está anidado respecto del contexto del modelado log-linear): EIC = D - (gl)(log N)
segundo modelo.
• CAIC: propuesto por Bazgodan, también en 1987: CAIC = D - (log N + 1) x gl
, X'¿¡"modelo - X'L2"mt>ddQ
XL""",paradóll =::
• ID: Indice de disimilaridad: ID = 100 x 2:/ f;1 - ;;1/'
ij N
El primer modelo es aquel que carece de un determinado parámetro. El segundo Donde "D" es la desvianza y "gl" los grados de libertad
modelo incluye dicho parámetro. Los grados de libertad son iguales a la diferencia en-
tre los grados de libertad de cada uno de los dos modelos.
Si la diferencia entre ambos xi no es significativa (al nivel de significación elegido),
puede rechazarse el modelo más complejo a favor del modelo de orden inferior, que , El índice de disimilaridad (ID) expresa el porcentaje de valores ajustados que ten-
muestra una mayor parsimonia (una cualidad buscada en la generalidad de los modelos dnan que ser reaslgnados entre las dIferentes casillas de una tabla de contingencia pa-
estadísticos). ra que las frecuencias observadas (f,J) igualen a las esperadas (F.). Este índice destaca
'J '
210 Análisis multivariable. Teoría y práctica en la investigación sod.al Capítulo 2: Análisis "logit" 211

junto con BIC, por ser los más adecuados en la medición de la bondad de ajuste en los
modelos log-linear, especialmente Ble. De él se llega incluso a afirmar que es "el más
consistente en todos los criterios de selección (de modelos) hasta ahora desarrollados"
(Ato y López, 1996: 166).
Interesan residuos bajos porque indican la existencia de un buen ajuste. Valores su-
p"~!?f~S a±:l,~6encu"l9.ui~rresiduo estandarizado significa que el modelo obtenido
2.2.1.5. El análisis de los residuos no' es estadísticamente adecuado; Existen importantes discrepancias entre las fre-
cuencias observadas y las esperadas, ante lo cual, nO procede la interpretación de los
U na vez comprobado el ajuste del modelo, así como su consonancia con el marcó parámetros del modelo. Habría que pensar en algún modelo alternativo.
teórico de la investigación, procede efectuar un análisis de los residuos. La finalidad es Además de los residuos brutos y los estandarizados, en el examen del ajuste del mo-
comprobar la existencia de alguna anomalia en el modelo, además de descubrir celdillas delo también se puede hacer uso de los residuos ajustados y los de desvianza. De ma-
concretas de la tabla que presentan un mal ajuste. Esta información no la proporcio- nera especial, en modelos complejos, cuando el residuo estandarizado no alcanza el lí-
nan los estadísticos anteriores, que se limitan a medir el ajuste global del modelo. De mite superior de 1.
ahí el interés de realizar un análisis de los residuos, al igual que sucede en otros pro- El residuo ajustado es igual al residuo estandarizado dividido por una estimación
cedimientos analísticos. de su error típico. Cuando la muestra es elevada, su distribución, como la correspon-
En el modelado log-linear, por residuo se entiende lo mismo que en cualquier aná- diente a los residuos estandarizados, se aproxima a la normal, con media de cero y des-
lisis de tablas de contingencia. El residuo es la diferencia entre las frecuencias obser- viación típica de uno.
vadas y las esperadas de las variables cruzadas en la tabla. Ésta es la definición de re- Lo mismo acontece con los residuos de desvianza. Se definen como la contribución de
siduo bruto. Pero en el análisis log-linear, al igual que en regresión y otras técnicas la celdilla a la xi (de razón de verosimilitud), manteniendo el signo del residuo bruto. La
analíticas, se recomienda el uso preferente de los residuos estandarizados. suma de las desvianzas al cuadrado para todas las celdillas es igual a xl (Nourisis, 1994).
Los residuos estandarizados evitan el efecto debido al número de casos en una celdilla Por último, indicar que en los modelos log-linear pueden aplicarse los mismos pro-
concreta. Nousisis (1994: 179) lo argumenta con el siguiente ejemplo ilustrativo: "Un re- cedimientos de diagnóstico mediante residuos a los que se ha hecho referencia en el ca-
siduo bruto de 5 puede indicar un ajuste pobre, si el númerO observado de casos en una pítulo de regresión múltiple (apartado 1.1), por lo que se remite a su relectura.
celdilla es 4, pero es excelente el ajuste si el número de casos en la celdilla es 12.000".
En 1973 Habermas (en "The analysis ofresiduals in cross-classified tables", Bio- 2.2.1.6. La representación gráfica del modelo log-linear
metries, 29: 205-220) propone la siguiente definición de residuo estandarizado para la
celdilla ij de una tabla de dos dimensiones: Para la interpretación de un modelo log-linear multidimensional es de gran ayuda la
representación gráfica propuesta por Darroch et al. (1980). Consiste en un gráfico donde
cada variable se representa mediante un punto. Si las variables están relaciOnadas mediante,
al menos, una interacción de no-cero, los puntos que las representan se encuentran unidos
mediante una línea. De este modo, la inexistencia de líneas entre dos puntos cuales-
quiera significa que dichas variables son independientes. En cambio, cuando la conexión
De acuerdo con esta definición, los residuos estandarizados se obtienen de dividir los entre dos variables se rompe, abarcando dos o más variables, significa que las variables son
residuos brutos por una estimación de la desviación típica, que es igual a la raíz cuadrada condicionalmente independientes dadas las variables cubiertas. Véase como ejemplo la ilus-
de la frecuencia esperada en la casilla ij correspondiente. En consecuencia, se aplica la dis- tración gráfica de Everitt (1992), incluida en la figura 2.4.
tribución de Poisson, como hacen por defecto la mayoría de los programas estadísticos. Este gráfico también puede aplicarse en otras modalidades analiticas, como el análisis
Esta definición de residuo estandarizado a veces también se refiere como "residuo de correspondencias. Asimismo, es de utilidad en la representación gráfica de los residuos.
de Pearson". Ello se debe a su similitud con la X2 de Pearson. Ambos coinciden
cuando el residuo estandarizado se eleva al cuadrado y se suman en todas las celdiUas
2.2.2. La particularidad del modelo logi! respecto al modelado log-linear
de la tabla.
Si el modelo log-linear es multinomial, la estimación idónea de la desviación típi- El modelo logit deriva del modelado log-linear. Ambas técnicas analíticas com-
ca es igual a la raíz cuadrada del producto de la frecuencia esperada en la casilla ij por parten un mismo procedimiento de análisis, aunque difieren en varios aspectos im-
uno menos la frecuencia esperada entre el número de casos analizados: portantes. De ellos destacan los siguientes:
212 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 2: Análisis "logit" 213

a) b) .6 c~os es elllam?do "modelo logit de categoría de base" (DeMaris, 1992). Se eli-


g u~(a cat~gona de. la va:~able dependiente como la categoría de "referencia"

:L:
La variable 1 es independiente de
.4
~ de base . A c?ntmuaClOn, se calculan los "odds" de cada categoría de las va-
nables m~ependIentes con respecto a la categoría de la variable dependiente to-
mada de base" o "referencia".
En algunos ~aquetes estadísticos la categoría de "referencia" es, por defecto,
la pnmera o la ul,tlma CodIfIcada. La elección de la categoría de "referencia"
puede pare.cer aSl un poco arbJtraria, pero el investigador puede elegirla bajo
las otras variables. Las variables 2 .5
alguna conslder~~Ión teór;c~. Una recomendación a este respecto es tomar co-
y 4 son independientes dado el n(;; categoría de referenCIa aquella que coincida como respuesta de "control"
valor de la variable 3. La variable 2 es condicionalmente in~ utc?,~~on y Sofromou, 1999). Por ejemplo, tomar como categoría de "refe-
dependiente de las variables 1 y 4, dadas rencla. consumIr bebIdas sm alcohol" en un modelo explicativo del consumo
las variables 3 y 5. El mismo tipo de in- de bebIdas alcohólicas.
dependencia se aplica a la variable 6. c) El modelo logit Se caracteriza por incluir menos términos que el modelo lo _
Adicionalmente, la variable 2 es condi~ f¡~ear. Se e~cluye del mod~lo todo término que refleje alguna asociación ent;e
cionalmente independiente de la vatiable sol.o las vanables mdependlentes. El modelo -siguiendo a Liao (1994)- 1'-
6, dadas las variables 3 y 5. Las varia- gmente: es e SI
bles 3 y 5 son claramente de mayor im-
portancia en la tabla

Figura 2.4. Representación gráfica de un modelo lag-linear.

La excepción a la regla se produce cuando el modelo lagit se estima a


a) El modelo logit se agrupa dentro de las técnicas multivariables de dependencia.
PdartIr de un modelo lag-linear, qne sí incluye relaciones entre las variables in-
Analiza la relación existente entre nna serie de variables independientes y una ependlentes.
dependiente. Las variables independientes o explicativas han de ser categóricas.
Siguiend? la notación del modelo lag-linear, el modelo lagit se define de la
Las variables continuas deberán, por tanto, agruparse en categorías. La varia- manera slgmente para un modelo de tres variables independientes:
ble dependiente también debe ser categórica. Si el número de categorías de la
variable dependiente es dos, se está ante un modelo logit 'binomial. Cuando son
más de dos las categorías, el modelo es multinomial.
El modelo log-linear se clasifica, en cambio, dentro de las técnicas multi-
variables de interdependencia, al no diferenciar entre variables explicativas (o
independientes) y de respuesta (o dependiente). Su finalidad principal es El modelo se configura como la diferencia entre dos niveles de la variable
comprobar las relaciones habidas entre una serie de variables categóricas, re- depend~ente. Representa los odds de estar en la categoría 2 como opuesto a la
presentadas en una tabla de contingencia. Se trata de estimar la probabilidad de categona 1. Ello resulta en una combinación aditiva de los efectos marginales
obtener un determinado valor en una celdilla concreta de la tabla. de las tres vanables y del efecto interactivo entre las tres como puede verse e
b) En el modelo logit se calculan los "odds ratio" de la variable dependiente la ecuaCIón. , n
para cada una de las combinaciones entre las categorías de las variables inde- Un~ formulación, alternativa, y de más fácil interpretación, se obtiene ex-
pendientes. El término" logit" se aplica, precisamente, porque lo que se calcula ponenclanda ambos temunos de la ecuación. De lo que resulta la siguiente ecua-
es el logaritmo de la razón de probabilidades ("log odds"), de los casos donde CIón multIplIcatIva:
acontece un determinado evento respecto de aquellos donde no se presenta.
Cuando la variable dependiente consta de tres o más categorías (modelo exp[ 1og-'.'-
m" ]
rn = exp(fl +;VI + A~I +,;tek + A~BC):::::::
'Ik
-'tI ).7 Áf ;·.1/c
ef1 e eee
multinamial), cabe la realización de varios modelos logit. Uno de los más sen- Ijk2
Capitulo 2: Análisis "logi!" 215
214 Análisis multivariable. Teoría y práctica enZa investigación social

De no alcanzarse dicha cuantía, habrá que optar por agrupar categorías de las varia-
. (D M' . 1992' Ato y López 1996) prefieren definir al mo-
Vanos autores e ans, , l . " J..f" bles independientes o por incrementar el tamaño de la muestra u otro de los remedios
delo logit mediante parámetros "'t" (tau) con preferen~la a, e . anteriormente referidos para el tratamiento de las "celdíllas cero".
d El modelo logit utiliza los mismos procedimientos~e estimación, de parám~tros El modelo logit también comparte los estadísticos de bondad de ajuste aplicados
) el modelado log-linea, aunque la interpretaclOn de los parametros difiere. en el modelado log-linear, al igual que los estadísticos empleados para medir la sig-
~~~a se realiza en término~ de log-odds, y no de logaritmos de la. frecuencia de nificatívidad de los parámetros y el procedimiento para calcular los intervalos de
una casilla concreta de una tabla (como sucede en el modelo aditivo log-/¡~ea~), confianza de los parámetros "significativos". Si el intervalo no induye el valor O, pue-
odelo multiplicativo que supone la exponenclaclOn
excepto cuand o se e lige el m ." '. . de rechazarse la hipótesis nula de que ellog-odds ratio es Oen la población. El modelo
de todos los términos de la ecuacJún. En consecuenCia, es, por tanto, inferible al universo, al ser significativo desde el punto de vista estadís-
tico. Luego habrá que comprobar si también lo es desde la vertíente lógico-sustantiva.
• La constante (o intercepto) nO es el promedio de los logaritmos de las fre- Además, como acontece en la regresión logística, la adecuación del modelo logit de-
. todas las celdillas de la tabla (como en el modelado log-lmea r), pende igualmente de su "eficacia predictiva". El modelo puede presentar un ajuste glo-
cuenclaS en . 1 d i ' bies pre
sino ellog-odds promedio de los diversos mve es e as vana - bal correcto y, en cambio, carecer de eficacia predictiva, Por eficacia predictiva se en-
dictoras, . . .., ) tiende el potencial del modelo para generar predicciones precisas acerca de la
• Los arámetros lambda (de efectos pnnclpales y de mt~racclon ,son categoría de la variable de respuesta a asignar para un caso particular (DeMaris,
res !to al lo -odds de la variable dependiente Y no allogantmo de la fre- 1992; Ato y López, 1996).
p , g d de una celdilla de la tabla. Sus valores se mterpretan co-
cue,;cla espera a disminuciones en ellog-odds de la variable dependiente Las medidas más comunes de eficacia predictiva son:
mo mcrementos o .. 1 ión entre
relacionado con lo que se esperaría de no existir mnguna re ac , 1. El coeficiente de concentración de Gini: C ~ 1- LP~
cada variable independiente (o combinació~ de ellas, en el caso de mte-
SU valor máximo (próximo al) lo proporciona el modelo saturado. Esto su-
racción) y ellog-odds de la variable dependiente.
Si se trata de una variable ficticia, los parámetros ,~xpresan ~: efecto cede cuando todos los casos analizados se hallan ubicados en una de las cate-
de cada uno de sus niveles respecto al tomado com,o referente .. gorías de respuesta.
En el modelo logit sólo se estiman aquellos parametros no f¡¡a~os e~
O Los fijados deliberadamente en Oson los elegidos pa~a servIr de base 2. El coeficiente de incertidumbre o entropía de Shannon: H ~ -LP¡logp¡
e~ la comparación, Actúan como "categoría de referenCia" Yno figuran en Si el modelo es correcto, dos veces la entropía para el modelo tiene una dis-
el modelo explícitamente, al ser O. tribución X2 asintótica, con los mismos grados de libertad del modelo,

En resnmen, el modelo logit parte, al igual que el modelo log-linear, de una tabla Ambas medidas de eficacia predictiva se ofrecen en programas comunes como el
SPSS. Además, cualquiera de ellas permite subdividir la dispersión total de la variable
de contingencia cuyas:
dependiente en la dispersión explicada por el modelo y la dispersión residual o no ex-
• Filas corresponden a combinaciones de las categorías de una o más variables ex- plicada. Por ejemplo, en la medida de concentración de Gini, la razón de la concen-
tración del modelo dividido por sus grados de libertad, a la concentración residual, di-
plicativas,
• Columnas, a las respuestas observadas. vidido, asimismo, por sus grados de libertad, tiene una distribución F, con grados de
libertad igual al correspondiente al modelo y al residual (Nourisis, 1994).
Pero, en el modelo logit lo que se modela son los log-odds d:~ai~:::-::~;~i~~~~~~
diente mediante una serie de vanables mdependlentes (se hallen o

entr~~2~u uestos recisos para una correcta realización del análisis son los mismos que
en el mod~lado lo~-linear.
Así, por ejemplo, hay' que in~~~~~~ l~:;~~~~~:n~: ~~: ~~ Para ilustrar la consecución de un modelo logit y después poderlo comparar con la re-
gresión logística, se escoge como variable dependiente X,: "regularizar a inmigrantes"
muestra sea elegida al azar y que tenga un tamano consl 5 D' ho promedio se obtíene (P19); una variable dicotómica con dos opciones de respuesta: 1 ("se debería regularizar
tamaño de la celdilla promedio deja ta~la sea, al menos, '. I~ . .ento de es- la situación de los inmigrantes ilegales") y 2 ("no se les debería regularizar"). En el aná-
dividiendo el tamaño muestral. por el nu~ero ~otal d~ c~~~::. ;;~~~~:!~el análisis. lisis de regresión logística, esta segunda categoría fue recodificada como O, pero en el mo-
te requisito favorece las poslbiJ¡dades e III erencla

\
216 Anális¿<; multivariable. '[eorra y práctica en la investigación social
Capitulo 2: Análisis "Iogil" 217
delado logit dicha recodificación no es necesaria, pudiendo figurar con su código original
(2), Lo que sí es necesario es limitar el número de variables a analizar, en conjunto, a 10, Tabla A Estimaciones de parámetros
a diferencia de regresión logística donde no se impone ninguna condición al respecto, Por
esta razón, se decide restringir el análisis a sólo 4 variables independientes, Las variables Asymptotic 95% el
elegidas son las 4 que mayor relevancia mostraron, en el análisis de regresión logística, Parameter Estimate SE Z~varue Lower
en la predicción de la probabilidad de ser favorable o contrario a la regularización de in- Upper
migrantes ilegales, A decir, 73 3,7913 ,3306 11,47 3,14
74 ,0000 4,44
75 - 1,0760
• X, "entrada de inmigrantes" (P21), una variable dicotómica ficticia: 1 ("facilitar la en- ,2094 -5,14 -1,49
°
trada") y (no facilitarla"),
76
77
-,5042
,0000
,2410 -2,09 -,98
-,67
-,03
• X" "simpatla hacia norteafricano (marroquí",)" (P201 ),Para reducir la incidencia ne- 78 ,0000
gativa de "ceros estructurales", esta variable ha sido recodificada en tres categorías: 79 ,0000
1 ("poca simpatía"), 2 ("normal") y 3 ("mucha simpatía"), 80 ,0000
• X, "Ieyes inmigración" (P16), que incluye tres opciones de respuesta: 1 ("tolerantes"), 81 -1,2122 ,2674 -4,53 -1,74
82 -,9103 -,69
2 ("correctas") y 3 ("duras"), 83
,2759 -3,30 -1,45 -,37
-,8753 ,2870
X l1 "estudios" (P43a), reagrupada en cuatro categorías: 1 ("primarios o menos"), 2 84
-3,05 -1,44 - ,31
,0000
(EGB, FP1 Y equivalentes"), 3 ("bachillerato, FP2 y equivalentes") y 4 (estudios me- 85 ,0000
dios y superiores"), 86 ,0000
87 ,0000
Los análisis se realizan, igualmente, con el programa SPSS (versión 10,0), Al haberse 88 ,0000
89 - 1,2456
reducido el número de variables que participa en el análisis, los casos válidos aumentan ,1982
°
a 1,552, Las celdillas definidas son 144, Hay ceros estructurales impuestos por diseño
y 42 ceros muestrales encontrados,
90
91
-,7037
,0000
,1802
-6,29
-3,90
-1,63
-1,06
-,86
-,35
92 ,0000
Aunque realmente se trate de un análisís logft binomial, al ser dos las categorías di- 93 ,0000
ferenciadas en la variable dependiente, el programa SPSS define el modelo como "Iogit 94 ,0000
multinomial", Ello se debe a que, para cada combinación de valores de las variables in- 95 -1,9893 ,2071 -9,60 -2,40
96 ,0000 -1,58
dependientes, se asume que existe una distribución multinomial de valores de la variable
97 ,0000
dependiente y que las frecuencias a través de las combinaciones son independientes,
98 ,0000
Como el modelo saturado no muestra ser estadísticamente significativo en la predicción
de la probabilidad de Y, se procede a la obtención de un modelo de efectos principales (mo-
delo de independencia), que se adecua más a la consecución de un modelo parsimonioso,
El diseño del modelo es el siguiente: Constante + Y + Y'X, + Y'X" + Y'X" + Y'X,
Los parámetros se estiman mediante el procedimiento de máxima verosimilitud, uti-
lizando el algoritmo de Newton-Raphson. El modelo obtenido se resume en la tabla A, que
Los nueve parámetros no fijados deliberadame n t

la probabilidad de ser favorable a la re " ,?


°
mente significativos en la prediCCión de logil Y d f 'd e a muestran ser estadísllca-
Inl o como ellogantmo de la razón de
'

incluye los parámetros cuyos errores típicos se han calculado, probabilidad de no serlo: lag (P(Y ~ 1)g~~a~z~~~: de inmigrantes ilegales respecto a la
La tabla original incluye, también, los términos de las constantes (existen constantes para La slgnificatividad de los pa' t i ) ) ,
los valores de las variables independientes), pero como las constantes no se consideran dividir el parámetro estimado p~~msueerorrsosredcomIPrueb~ mediante el valor "Z", obtenido de
realmente parámetros bajo el supuesto multinomial, sus errores típicos no se calculan al no ser 7 ( e es ImaClon Por ejempl l'
3 3,7913), su valor Z empírico (11,47) se obtiene de d' "d' 3 791 I o, para e parametro
de interés en el modelo logil. En general, el modelo logit se distingue por incluir menos térmi- le valor empírico supera al teórico (1 96 IVI " " 3 ,3306 ~ 11,4679, Es-
nos que el modelo loglinear: sólo se consideran parámetros de interés aquellos que incluyan la tual: ,05), lo que implica la SignifiCati~id~dq~:t~~;~~i~~o~~e al ~Ivel de significación habi-
variable dependiente, Las constantes y cualquier parámetro que implique asociaciones sólo en- siguiente inferencia, Además, obsérvese que el ínterv /o d parametro estimado y su con-
tre variables independientes quedan excluidos de análisis posteriores, Además, sólo se estiman la estimación de dicho parámetro no inclu a e confi~nza (de 3,14 a 4,44) para
°
aquellos parámetros que no se hayan fijado en 0, Los fijados en son los parámetros elegidos la hipólesis nula de que dicho arám t ye el valor 0, ES,to Significa que puede rechazarse
para servir de "base" en la comparación, Actúan a modo de "categoria de referencia" y no figuran tervalo de confianza (3,14) se ogtiene ~~or:~ la p~blac~on s~a 0, Ellírr;/te inferior del/n-
explícitamente en el modelo al ser 0, del error de estimación por 1 96 (valor Z t s ~r a a estrmaclon del parametro el producto
La información sobre los parámetros de interés en la constitución de! modelo se recoge 3,7913 - (,3306) x (1 96) ~ 3 1433 El r 't eonco para un nrvel de Significación de ,05):
en la tabla B. Su lectura es necesaria para la interpretación de la tabla A, trario, de la suma de 'dicho p;oducio' 3'7m9'183suP(83c3,00r6d)ell(ntervalo se obtiene, por el con-
" '> , x 1,96) ~ 4,4393,
218 Análisis multivariable. Teoria y práctica en la investigación social Capitulo 2: Análisis "logit" 219

Tabla B. Correspondencia entre parámetros y los términos del diseño El modelo aditivo podría definirse, siguiendo la notación loglinear, del modo si-
guiente:
Parameter Aliased Term

73 [Y: 1,00]
74 x [Y: 2,00]
75 [Y: 1,00J' [X1 : 1,00]
76 [Y: 1,00] , [X1 : 2,00]
77 x [Y 1,00] , [X1 : 3,00J
78 x [Y: 2,00] '[X1 : 1,00J
[Y: 2,00] '[X1 : 2,00J El modelo multiplicativo se obtendría exponenciando ambos términos de la ecuación.
79 x
80 x [Y: 2,00J ' [X1 : 3,00J La interpretación de los parámetros estimados (tabla A) se hace en términos logit (el
81 [Y 1,00J' [X11 : 1,00J logaritmo de la razón de verosimilitud de ser favorable a la regularización respecto a ser
82 [Y: 1 ,OOJ ' [X11 : 2,00J contrario a la misma). Por ejemplo, el parámetro 75 expresa la relación del valor de X =
83 [Y: 1,00]' [X11 : 3,00] 1,00 con Y = 1,00. Su valor (-1,0760) indica que considerar las leyes de inmigración ,,10-
84 x [Y: 1 ,00j' [X11 : 4,00] lerantes" (X , = 1,00) disminuye el logaritmo de la razón de verosimilitud de ser favorable
85 x [Y: 2,00J ' [X11 : 1,00J a la regularización de inmigrantes ilegales (Y = 1,00) sustancialmente (exactamente en
86 x [Y: 2,00J ' [X11 : 2,00J "-1,0760), comparado con lo que se esperaría si la persona califica la legislación sobre in-
87 x [Y: 2,00] , [X11 : 3,00J
migración de "dura" (ésta es la categoría que actúa de referencia en esta variable).
88 x [Y: 2,00J ' [X11 : 4,00J
Para facilitar la interpretación de los parámetros, se procede a su transformación ex-
89 [Y: 1,00j' [X15: 1,00J
[V: 1,00]' [X15: 2,00J
ponencial: "e- 1,0760 = ,34096". De esta forma se obtiene que la reducción en la probabili-
90
x [V: 1 ,OOJ' [X15: 3,00] dad de ser favorable a la regularización de inmigrantes es del 65,9% [(,34096 - 1) x 100
91
92 x [V: 2,00J' [X15: 1,00] = -65,90], en relación con las personas que consideran las leyes de inmigración "duras".
93 x [V: 2,00] , [X15 : 2,00] Asimismo, el parámetro 95 (-1,9893), que corresponde al valor X = ,00 ("no facilitar
94 x [V: 2,00]' [X15: 3,00] la entrada de inmigrantes"), en relación con Y = 1,00 ("sí regularizarle~"), indica también
95 [V: 1,00J' [X8: ,00] reducción en el logit de ser favorable a la regulariz?ción. La reducción es inclusive lige-
96 x [V: 1,00J' [X8: 1,00j ramente superior a la del parámetro anterior. El logaritmo de la razón de verosimilitud de
97 x [V: 2,00] , [X8: ,OOJ ser favorable a la regularización respecto a no serlo disminuye en 1,9893, en las perso-
98 x [V: 2,00]' [X8 = 1,00] nas contrarias a facilitar la entrada a inmigrantes en relación con las favorables a su en-
Nota: la "x" indica un parámetro redundante (o "allased~). COinCIde con parámetros fijados a O.
trada. En términos de exponente (e- 1,9893 = ,1368), la reducción en la probabilidad de ser
favorable a la regularización es del 86,32% [(,1368 - 1) x 100 = -66,32J respecto a las per-
sonas favorables a facilitar la entrada a los inmigrantes (categoría de referencia).
La interpretación de los demás parámetros se haría de la misma manera. Todos los
Una vez comprobada la significatividad de los 9 parámetros estimados (73, 75, 76, 81, parámetros estimados (exceptuando el 73) son de signo negativo. Esta coincidencia
82, 83, 89, 90 Y95), se procede a su interpretación, lo que exige la lectura de la tabla B. En no sorprende, si se recuerda cuáles son las categorías elegidas de referencia: "estudios
esta última tabla puede observarse que los parámetros incluyen la categoría de la variable de- superiores" (4,00), "mucha simpatía hacia norleafricanos" (3,00), '1acilitar la entrada de in-
pendiente que corresponde a ser '1avorable a la regularización de inmigrantes ilegal~s" ("Y migrantes" (1,00) Y "las leyes de inmigración son duras" (3,00). Las personas cuyas
= 1,00") Y un valor concreto de una variable independiente, cada vez, excepto el parametro respuestas se clasifican en dichas categorías son, precisamente, las que más favorables
73. En la tabla B puede verse que este parámetro (73) coincide con (Y = 1,00). Significa que se muestran a la regularización de inmigrantes ilegales. Por el contrario, las personas de
su valor (3,7913) indica el promedio de 10gitY (el logaritmo de la razón de verosimilitud de ser menor nivel educativo (parámetro 81: -1,2122), aquellas que manifiestan poca simpatía
favorable a la regularización respecto de no serlo) de los diversos niveles de las variables In- hacia los norleafricanos (marroquíes ... ) (parámetro 89: -1,2456), los contrarios a facilitar
dependientes. la entrada de inmigrantes (parámetro 95: -1,9893), Y los que consideran las leyes de in-
Una de las categorías de cada variable independiente se ha fijado deliberadamente migración de tolerantes (parámetro 75: -1,0760), son los menos predispuestos a la re-
en O para que actúe como "categoría de referencia" de las demás diferenciadas en la v~­ gularización de inmigrantes ilegales.
riable. Ésta es la razón de que su parámetro no se estime. Las categorías de referencia Como en el modelo de regresión logística, X y X son las variables que muestran ma-
son: en X 3 ("duras"); X , 4 ("estudios medios y superiores"); X ,5 , 3 .("much~ simpatía"); yor relevancia en la predicción de lagit Y. 8 15

y en X8 , 1" ("facilitar la entrada


" a inmigrantes"). Estas son las categonas elegidas para la El ajuste del modelo en su conjunto es bueno, a decir por ambos estadísticos de bon-
compa ración de los logaritmos de las razones de verosimilitud. dad de ajuste chí-cuadrado -de razón de verosimilitud y de Pearson- (tabla C). La sig-
220 Análisis multivariable, Teoria y práctica en la investigación social Capflulo 2: Análisis "logit" 22]

nificatividad de sus valores empíricos supera el valor de referencia común de ,05. Esto per- concentración: 111,0690 I 561 ,4845 = ,1978. Este último coeficiente, por ejemplo, significa
mite aceptar la hipótesis nula: las frecuencias esperadas (generadas por el modelo) no di- 9ue. un 20% .de la variación en la opinión de ser favorable o contrario a la regularización de
fieren significativamente de las observadas en las celdillas de la tabla multidimensional. inmigrantes Ilegales es explicada por el modelo obtenido. No obstante, el propio programa
En consecuencia, se acepta el modelo hipotetizado porque se ajusta razonablemente bien SPSS advierte que aunque sea tentador interpretar la magnitud de estas medidas a modo de
a los datos, es dectr f logra representar adecuadamente las relaciones entre las variables. FI' en regresión lineal, esta interpretación puede resultar confusa en el modelo logit, Se cons-
tata que los coeficientes de concentración y de entropía pueden ser pequeños incluso
Tabla C. Estadísticos de bondad de ajuste cuando las variables estén fuertemente relacionadas.
Los gráficos de residuos no muestran la existencia de ningún problema grave en los
Chi-Square DF Sigo datos, como puede verse en el gráfico del modelo logit. Además, el gráfico Q-Q normal de
residuos corregidos muestra que los datos prácticamente se ajustan a la normalidad.
Ukelihood Ratio 72,8639 63 ,1853
Pearson 63,4878 63 ,4591

Modelo logit
La tabla D (tabla de análisis de dispersión) es de utilidad en la comprobación de la aso-
ciación entre la variable dependiente con la serie de variables independientes. Esta tabla
, o Gráfíco Q-Q normal de residuos corregidos
Frecuencias ,ji , , 3-.r-------------------____~
es análoga a la correspondiente al "análisis de varianza" en el análisis de regresión lineal ""
observadas ?Jt o::;IP "'tk., 2
múltiple y permite comprobar la eficacia predictiva del modelo obtenido, Mediante las me- ¿ji "'o~
iJ, OJ '"

didas de entropía de Shannon y de concentración de Gini puede subdividirse la dispersión , ,


total de la variable dependiente en: a) la dispersión explicada por el modelo; b) la dis- , ,
,/f'
persión residual o no explicada por el modelo, Esta última es análoga a la suma de cua- Frecuencias ~ O
00

drados residual en regresión lineal. esperadas ""'"ti


'l>" "
" ('.#.'" o
,JI' o~
Para cada medida (concentración y entropía), la razón de la fuente de dispersión de-
.
~ -1
bida al modelo por sus grados de libertad respecto a la residual entre sus grados de li-
bertad, se ajusta a la distribución F, con grados de libertad igual a la suma de los debidos
al modelo y la residual. é" '"" '
o ¡oJo
"q¡'2i<:t

"o o t~
..,,&

rll(lñ .,,,"
q,{f "
ea,"
. "0"
g"
, " Residuos de
desviación
~ -2

B -3-r--'---,---,---,---,---,---,-__
>-
Q ,,<b
--4 -3 -2 -1 o 2 3 4
Residuos corregidos
Tabla D. Análisis de dispersión

Source of Dispersion Entropy Concentration DF


Aparte de los efectos principales, también se comprobaron efectos de interacción, El
Due to Model
modelo de efectos de 3 no mostró significatividad estadística: la significatividad de ambos
145,5490 111,0690 8
Due to Residual 704,5275 450,4156 1543 estadísticos chi-cuadrado (de razón de verosimilitud y de Pearson) era inferior a ,05, al ser
Total 850,0765 561,4845 1551 sus valores elevados (363,9618 y 362,9784, respectivamente) en relación con los grados
de libertad (71). En cambio, el modelo de efectos de 2 sí presenta un ajuste adecuado:
Measures of Association i' de razón de verosimilitud empírico de 29,8286 para 40 grados de libertad (significati-
vldad = ,8800) Y i' de Pearson de 24,7444 para 40 grados de libertad (significatividad =
Entropy = ,1712
,9720), El coeficiente de entropía (,1965) Y el de concentración (,2186) son ambos lige-
Concentration =: ,1978
ramente superiores a los obtenidos en el modelo de sólo efectos principales. El diseño del
modelo es el siguiente:

De esta tabla puede calcularse un estadístico similar a FI', que indique la proporción de Constante + V + V'X,,'X, + V'X'5'X 1 + V'X'X + V'X 11 *X 15 + V*X 11 'X8 + V'X 15 'X 8
8 t
la dispersión total en la variable dependiente que es atribuible al modelo: las medidas de aso-
ciación de los coeficientes de entropía (,1712) Y de concentración (,1978). Estos coeficien- Pero sólo 1 de los 32 parámetros de interacción estimados mostró ser estadísti-
tes se obtienen de dividir la dispersión 'debida al modelo respecto al total. Cuando la dispersión camente significativo, al ser su valor Z empírico superior a 1,96. El parámetro
se mide por el criterio de entropía: "145,5490 / 850,0765 = ,1712. Cuando el criterio es el de en cuestión es el número 155, que corresponde a los siguientes términos de! modelo:
Capítulo 2: AnálisL, "logil" 223
222 Análisis multivariable. Teoría y práctica en la investigación social

"[Y = 1 ,00j'[X11 = 2,00r[X8 = ,OOJ". Su valor estimado es -2,6880 Y en términos ex- Data Information
ponenciales: ",,-2.6.80 = ,068". La reducción (el signo es negativo) en la probabilidad de
ser favorable a la regularización de inmigrantes es del 93,2% [(,068 - 1) x 100 = 1.951 cases are accepted.
-93,198] en las personas con estudios de EGB, FP1 o equivalentes (X,,) Y contrarios a 542 ca~es are rejected beca use of m¡ssing data.
1.951 welghted cases will be used in the analysis.
facilitar la entrada a inmigrantes (X.), comparado con las personas de estudios supe-
i 2 cells are defined.
riores o medios y favorables a facilitar la entrada a los inmigrantes. La interacción en- O structura! zeres are imposed by designo
tre estas dos variables (X" Y X,) y, concretamente, entre sus categorías respectivas 2 O sampling zeros are encountered.
y O, es la única a considerar en la modelación de la probabilidad de ser favorable a la
regularización de inmigrantes ilegales. Model and Oesign Information

Model: Mutinomial Logit


Oesign: Constant + y + Y*X15 + y"X3 + Y·X15*X3
LECTURAS COMPLEMENTARIAS
Correspondence Betwenn Parameters and Terms of the Oesign

Aldrich,1. H. YNelson, F. D. (1984). Linear probability, logit and probit models, Beverly Parameter Aliased Term
Hins, Sage.
Amemiya, T. (1981). "Qualitative response models: a survey", Journal of Economic Li- Constant for [X15 = 1,00J • [X3 = ,OOJ
2 Constant for [X15 =1,00J' [X3 = 1,00J
terature, vol. XIX: 1483-1536. 3 Constant for [X15 = 2,00J • [X3 = ,OOJ
Ato García, M. y López García, J. 1. (1996). Análisis estadCstico para datos categóricos, 4 Constan! for [X15 = 2,00J • [X3 = 1,00J
Madrid, Síntesis. 5 Constant for [X15 = 3,00J' [X3 = ,OOJ
Demaris, A. (1992). Logit modeling. Practical applications, Newbury Park, Sage. 6 Constan! for [X15 = 3,00J' [X3 = 1,00J
7 [Y=1,00J
Everitt, B. S. (1992). The analysis of contingency tables, Londres, Sage.
8 x [Y=2,00J
Hagenaars, 1. A. (1993). Loglinear models with latent variables, Newbury Park, Cali- 9 [Y = 1,00J' [X15 = 1,00J
fornia, Sage. 10 [Y = 1,OOJ' [X15 =2,00J
Hosmer, D. W. y Lemeshow, S. (1989). Applied logistic regression, Nueva York, John 11 x [Y = 1,00J' [X15 = 3,00J
12 x [Y = 2,00J • [X15 = 1,00J
Wiley & Sonso 13 x [Y = 2,00J' [X15 = 2,00J
Joven, A. J. (1995). Análisis de regresión logística, Madrid, CIS, Cuaderno Metodoló- 14 x [Y =2,00J' [X15 = 3,00J
gico n° 15. 15 [Y = 1,OOJ • [X3 = ,OOJ
Liao, T. F. (1994). Interpreting probability models. Logit, probit and other generalized 16 x [Y = 1,00]' [X3 = 1,00J
17 x [Y = 2,00J • [X3 = ,OOJ
linear models, Thousand Oaks, California, Sage.
18 x [Y = 2,00J • [X3 = 1,00J
Menard, S. W. (1995). Applied logistic regression analysis, California, Sage. 19 [Y = 1,00]' [X15 = 1,00J' [X3 = ,OOJ
Upton, G. J. (1991). "The exploratory analysis of survey data using log-linear models", 20 x [Y =1,00J' [X15 =1,OOJ' [X3 = 1,00J
The Statistician, 40: 169-182. 21 [Y = 1,OOJ • [X15 = 2,00J • [X3 = ,OOJ
22 x [Y = 1,OOJ' [X15 =2,00J' [X3 = 1,00J
23 x [Y = 1,00J' [X15 =3,00J' [X3 = ,OOJ
24 x [Y = 1,OOJ' [X15 =3,00)' [X3 = 1,00J
EJERCICIOS PROPUESTOS 25 x [Y = 2,00J' [X15 =1,00J' [X3 = ,OOJ
26 x [Y = 2,00) • [X15 = 1,00) • [X3 = 1,00J
1. Se quiere modelar la probabilidad de ser favorable a la regularización de in- 27 x [Y = 2,00)' [X15 =2,00)' [X3 = ,OOJ
28 x [Y = 2,00J' [X15 =2,00J' [X3 1,00J
migrantes ilegales sólo con dos variables: X¡ ("sexo": Omujer; 1 varón) y X15 29 x [Y =2,00J' [X15 = 3,00]' [X3 = ,00)
("simpatía hacia norteafricano": 1 poca, 2 normal y 3 mucha). Comente cada 30 x [Y = 2,00]' [X15 = 3,00)' [X3 = 1,00)
uno de los siguientes resultados (correspondientes a un modelo saturado):
224 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 2: Análisis "logit" 225

Goodness-oHit Statistic$
Chi·Square DF Sigo
2. En una investigación evaluativa del Tribunal Tutelar de Menores de Madrid (Cea
DAncona, M." A. (1992) La justicia de menores en España, Madrid, CIS, Mo-
Likelihood Ratio ,0000 O
Pearson ,0000 O nografía n.O 127) se realizaron varios análisis de regresión logística: primero, pa-
ra averiguar las características del menor que más determinan la probabilidad de
Analysis of Disperslon
imponer medidas leves o aisladas, libertad vigilada e internamiento; segundo, pa-
Source of Dispersion Entropy Concentration DF ra conocer las variables más relacionadas con la probabilidad de reincidir en con-
Due to Model 67,7010 49,9086 5 ducta delictiva. Los análisis se realizaron con el programa LIMDEP (especia-
Due to Residual 1005,3372 659,1154 1951 lizado en el análisis logit), siguiendo el procedimiento de máxima verosimilitud
Total 1073,0381 709,0240 1956 y el algoritmo de Newton-Raphson. Interprétese los signientes resnltados co-
Measures 01 Association rrespondientes a la predicción de la probabilidad de reincidir de aqnellos me-
nores que han estado en internamiento. Calcúlese además los incrementos de pro-
Entropy "" ,0631 babilidad para las variables significativas.
Concentration = ,0704
Parameter Estimates 1
Log-Ukeihood - 52,639
Constant Estimate Restricted (Slopes '" O) Lag. L. - 104,71
Chi-Squared (25)
1 4,4006 I Significance Level
104,15
,53729 E - 13
2 4,6102 Variable Coefficient
Constante Sld. Error T-ratio
3 4,6587 - 1,47391 (Sig.) Mean of X Sld. Dev. of X
4
5
4,7230
3,4812
I Sexo
Edad
-2,62542
.27760
3,459
,8170
,2265
-,426
- 3,213
(.67006)
(.00131)
1.0000
1,2590
.0000
,4394
Etnia 1,225 (,22043) 7,4398 1,6085
-,65378 ,9760
6
Asymptotic 95% CI
3,4812
I Escolarización
Tipo de hogar
,40758 E - 01
- ,14733
,6048
,1014
-,670
,067
-1,453
(.50294)
(.94627)
1,0843
1.7711
,2787
,4881
Número hermanos -,10173 (,14634) 2,8554 2.9362
Parameter Estímate SE Z-value Lower Upper .1246 -,816 (,41430) 4,7711 2,4461
Orden de nacimiento ,25857
Clase social .2273 1,138 (,25520) 3.0904 1.3699
7 1,9847 ,1871 10,61 1,62 2,35 ,27563 .2323 1,187
Ambiente barrio -,27588 (.23541) 3.1627 1.2324
8 ,0000 ,2517 -1,096
Condiciones vivienda ,14194 (.27301) 2.2229 1,1514
-1,7868 ,2305 -7,75 -2,24 -1,34 ,2601 ,546
9 Malas compañías - 1,30622 (.58525) 1.7892 1.1589
-,39 ,8176 -1,598
10 -,8146 ,2160 -3,77 -1,24 Ociosidad ,85760 (.11011) ,8735 ,4145
,5586 1,535 (,12472) 1,0120 ,5824
11 ,0000 Abandono famiiar -,28327 ,3942 -,719 (.47243) ,7711 ,7600
12 ,0000 Contra! familiar 1,03758 ,7870 1,318 (,18738) .8494 ,4209
Relación familiar ,30046
13 ,0000 Drogadicción ,4966 .605
16,1589 (,54512) .7349 ,6047
14 ,0000 262,6 ,062
Difigencias l." interv. -1,71645 (.95094) .2771 ,4878
15 ,1490 ,2635 ,57 -,37 ,67 ,5779 -2,970 (.00298) 1.5542 .8774
Delito 1. a intervención ,38147
16 ,0000 Medida 1. a intervención .2100 1,877 (.06927) 6.6084 3.9324
,53560 ,2483 2,157
17 ,0000 Delito previo interno -,26367 (.03101) 3.9217 1.8521
,2021 -1,304
18 ,0000 Difigencias previo interno 1,32957 (,19211) 6.7530 4,0173
,5133 2,590
,3289 ,11 -,61 ,68 Diligencias en interno .80508 (,00960) 2,2590 1,2883
19 ,0358 ,2248 3,582
Tiempo en internamiento -,21202 (,00034) 2.0301 1,8004
20 ,0000 ,3406 -.623
Adaptación centro interno - ,49831 (,53358) 2,2651 ,8611
21 -,0469 ,3053 - ,15 -,65 ,55 Cese internamiento ,3836 - 1,299 (.19389) 2,0663 ,6799
- ,21779 E - 01 ,8181 E - 01 -.266
22 ,0000 (.79008) 3,3012 3,4858
23 ,0000 Frequencies of actual vs. predicted outcomes
24 ,0000 Predicted outcome has the highest probability.
25 ,0000
Predicted
26 ,0000
Actual Total O
27 ,0000
28 ,0000 Tata! 166 55 111
29 ,0000 O 54 42 12
30 ,0000 1 112 13 99
Capitulo 2: Análisis "logit" 227
226 Análisis multivariable. Teoría y práctica en la investigación social

Varones Mujeres
3. 1. Brüederl y A. Diekmann (en "1"11e Log-Iogistic rate mOd)el",SOci°llogiCd'allMde- Variables
h
h ds & ResearC,VQ.,.,
to 1 24 n 02 noviembre 1995 ' 158-186 aplican e mo e a o 1977 1987 1996 1977 1987 1996
Log-logistic en la comprobación de los efectos de la educación en la tasa de ma-
Condición socioeconómica del padre
trimonio en Estados Unidos y Alemania. Algunos de sus resultados se resumen Agricultor 1,04 ,84 -,41 1,51 ,32 ,65
en la fabla a continuación. Interprétese. (4,79) (4,25) (-2;33) (5,01) (1,72) (4,10)
Empresario ,83 ,57 -,05 ,45 -,24 ,32
(4,11) (3,24) (-,36) (1,71) (-1,41) (2,69)
Estados Unidos Alemania Occidental Alemania Oriental Directivos y jefes 1,18 ,52 ,26 ,70 ,16 ,75
(4,85) (2,51) (1,95) (2,27) (,82) (5,37)
Operario cualificado ,28 ,31 -,21 ,43 -,20 ,22
Parámetro A. (1,51) (-1,92)
-,458* -1,181 * -,388* (1,87) (1,83) (-1,22) (2,02)
Constante Otros ,48 ,13 -,07 ,25 ,00 ,66
-,105* -,083* -,032*
Nivel educativo (1,38) (,43) (-,24) (,53) (,02) (2,09)
(9,79) (6,28) (2,37) Parado e inactivo ,54 ,25 -,05 ,22 -,18 ,08
(en años)
-,014* ,013 ,001 (2,51) (1,44) (-,42) (,77) (-1,12) (,70)
Cohorte de nacimiento
(3,33) (1,92) (,18) N.O de hermanos que realizan estudios
(O = 1940) Uno o más ,19 ,00 ,11 ,20 ,30 ,16
356 (1,40) (-,02) (1,44) (1,15) (3,33) (2,22)
N.o de personas 554 300 Ocupados> de 16 años -,79 -,83 -,47 -,30 -,59 -,87
1.475,9 807,7 885,8 (-3,03) (-3,59) (-2,52) (-1,13) (-2,80) (-5,12)
-Log-likelihood
324,0 120,7 212,8 Parados> de 16 años -2,15 -,85 -,47 -,04 -,62 -1,05
Ele ,476 (-2,98) (-2,71) (-1,86) (-,06) (-2,09) (-4,85)
Pseudo R 2 ,462 ,368
Miembros de la familia < de 16 años
Los valores T están entre paréntesis. Sólo se mcluyen a las mUjeres naCidas entre 1940 y 1960.
Un menor -,83 -,11 -,17 ,38 -,06 -,03
(-1,10) (-,68) (-,81) (,36) (-,37) (-,18)
:;. Significativo a un nivel del 5%. Dos y más menores -,19 ,21 -,13 ,00 ,26 ,19
(-1,46) (2,37) (-1,63) (,01) (3,04) (2,58)
Tasas de paro
4. C. Albert Verdú (en "La demanda de educación superior en ;~~a:~~)difer~n­ Paro de los universitarios ,04 ,00 ,02 ,03 ,00 ,04
cias por sexo", ICE. Mujer y Economía, febrero 1997, n.o 760, :., ana Iza (2,13) (-,09) (1,59) (1,34) (-,47) (4,12)
la demanda de edncación superior de varones y mUjeres en Espana con datos Paro jóvenes con Bach. y FP2 ,02 ,01 ,00 ,03 ,02 -,00
de la Encuesta de Población Activa del período 1977-1996. Algunos de los re- (2,73) (1,03) (,28) (3,51) (2,80) (-,62)
Constante -,92 -1,40 -,83 -,84 -1,15 -,87
sultados principales se resumen en la tabla siguiente. Interprétese. (-3,57) (-5,06) (-3,22) (-2,42) (-4,24) (-3,30)

Varones Mujeres N 1713 2210 3034 1256 2420 3621


-21og L* 3500,9 5578,3 7751,1 2534,1 6412,9 8925,5
Variables
1977 1987 1996 1977 1987 1996 1
* Es significativo al 99 por 100 para todos los años.
Los valores entre paréntesis son los estadísticos t-Student.
Situación respecto de los padres
Sin padre ,64 ,70
(2,91) (3,63)
-,05
(-,32)
,27
(,71)
-,06
(-,30)
,25
(1,95)
I Individuo de referencia: varón o mujer con padre y madre con estudios obligatorios o analfabeto I sin estu-
dios; el padre es un operario no cualificado; tiene hermanos pero ninguno realizando estudios reglados en la
-,36 ,23 -,17 ,24 -,06 ,82 semana de referencia ni ninguno menor de 16 años.
Sin madre (,82) (-,32) (3,60)
(-1,50) ( ,89) (-,68)
-,22 -,61 ,11 -,83 ,20 -,76
No es hijo (-1,76) (,79) (-2,71) 5. En la investigación de Manuel Salas Velasco (1996) "La regresión logística. Una
( -,67) (-1,95) (-,37)
,05 ,00 -,13 ,18 -,11 -,04 aplicación a la demanda de estudios universitarios" (Estadística Española, 38
Hijo único (1,12) (-1,09) (-,44)
(,42) (,00) (-1,63) (141): 193-217), se obtiene el siguiente modelo de regresión logística de la pro-
Estudios de los padres -,12 ,27 babilidad de hacer la Licenciatura en Administración y Dirección de Empresas:
Padre con estudios> obligatorios ,52 ,36 ,41 ,13
(2,97) (3,05) (4,10) (,64) (-1,06) (3,00)
Madre con estudios> obJigatori?s ,47
(2,32)
,78
(5,69)
,25
(2,37)
,60
(2,62)
,58
(4,27)
,73
(7,32) P(CARRERA = 1)]
Ln[ P(CARRERA=O) =a+fJ¡ESTMADR+fJ,DOMIC+fJ,PADRPRO
(.. ./ ... )
228 Análisis multivariable. Teoría y práctica en la invesligación social

Donde "ESTMADR" es la variable independiente "estudios de la ma-


dre" que adopta el valor 1, si la madre tiene estudios de bachIllerato o supe-
. ' y O'
nores, . 1 ducatl'vo es I'nferior'
SI su mve e
"DOMIC"
. ' es la vanable
.. . exphcatlVa
. -.
"d . ilio" que toma el valor 1 si el alumno (¡ene SU domIcIlio familIar en Gra-
na~~~apit~l, y O, en caso contrario. Por último, la variable "PADRPRO"
(profesión del padre) también ha sido .categonzada de form~ bmana. 1 SI el pa-
dre es profesional y Oen caso contrano. La mfluencla de estas vanabl~s mde-
3
pendientes en la probabilidad de elegir la Licenciatura en AdmJr;lstraclOn y DI- ANÁLISIS DE CONGLOMERADOS
rección de Empresas (LADE) se resume en esta tabla. Interpretese.

Error Estadístico Odds ratio


Variables Coeficiente Significación l de Wald
independientes estándar

-1,6390 ** ,2586 40,1571


Constante2 11,8002 3,5606
ESTMADR 1,2699 ** ,3697
,3193 12,3284 3,0678
DOMIC 1,1210 ** 3,1543 1,8835
,3565
PADRPROF ,6331 "'
Estadístico chi-cuadrado = 44,761 (p = ,0000) El análisis de conglomerados (o "cluster analysis") se ubica dentro de las técnicas
Número de observaciones 219 analíticas multivariables de clasificación o de interdependencia, al tener como objeti-
vo principal la agrupación de datos. Concretamente, la clasificación de una serie de in-
1 ** Coeficientes significativos a un nivel de significación de ,05; * coeficientes slgmÍlcatlvos a un nivel de Slgn¡- dividuos, objetos o variables en un número reducido de grupos, llamados "conglo-
fÍCación de ,10. f' 1 adre cuenta con un nivel merados". La mínima condición que se impone es que los distintos conglomerados
2 Individuo de referencia: estudiante de un pueblo cuyo padre es no-pro eSlOna y su m
educativo inferior al de bachillerato superior o equivalente. o
creados sean mutuamente excluyentes; es decir, que los casos variables que consti-
tuyan un conglomerado han de ser lo más similar posible entre sí (con respecto a un cri-
terio de selección determinado previamente) y diferente respecto a los integrantes de
los otros conglomerados.
Kaufman y Rousseeuw (1990: 1) definen esta técnica analftica como "el arte de en-
contrar grupos en los datos". Los datos pueden hacer referencia a casos (individuos,
objetos) y a variables. En ambas situaciones el proceso de análisis nO difiere. El fin úl-
timo es la consecución del principio de parsimonia: la obtención de aquella estructu-
ra de los datos más simple posible que represente agrupaciones homogéneas. Si bien
se reconoce (Hair et aL, 1992,1999), que ha de primar el equilibrio entre la definición
de las estructuras más básicas (pocos conglomerados, en confonnidad con el principio de
parsimonia) y el nivel necesario de similitud dentro de los conglomerados. Se obser-
va que la disminución del número de conglomerados suele ir acompañada de una pér-
dida no deseada de homogeneidad dentro de los conglomerados.
Aldenderfer y Blashfield (1984) resumen en cuatro los usos principales del análisis
de conglomerados:

1. El desarrollo de tipologías o clasificaciones de datos.


2. La búsqueda de esquemas conceptuales útiles para agrupar entidades (o casos).
3. La generalización de hipótesis a través de la exploración de los datos.
. . . 'n social
230 Análisis multivariable. Teoría y práctica en la UlvestlgaclO Capítulo 3: Análisis de conglomerados 231

4 La comprobación . de hlpotesls
. , ' o e l'm t ent o de determinar si los tipos
, .definidos
d d t a pertenece a las técnicas llamadas de "interdependencia": el análisis factorial explo-
. través de otros procedimientos
. tá
es n de hecho presentes en una sene e a os. ratorio. La otra, en cambio, se incluye en las técnicas multivariables de "dependencia":
el análisis discriminante.
. . . (1 "clasificación de datos") es, sin du- Del análisis discriminante le separa un hecho básico: el análisis de conglomerados
De estos cuatro usos pnnc1pales, el pnmer.o a 1 r. 'ón del análisis de con-
da el que tradicionalmente más ha caractenzado a ap ¡CaCi . t' 'ó . 1 se presenta como una técnica "exploratoria" en la clasificación de datos, mientras que
'
glomerados en la investigación ap l'Icad a, t an t o en el campo de la mves ¡gac1 n socia, . el anáHsis discriminante se define como "confirmatoria". Precisa de la creación previa,
como en las otras áreas de conoCImIento. mediante análisis exploratorio (sea factorial exploratorio, conglomerados u otra técnica
de interdependencia), de grupos para, posteriormente, derivar las reglas de clasifica-
ción.
3.1. Orígenes del análisis de conglomerados y sn relación con Además, el análisis discriminante (capítulo 4), como técnica analítica de depen-
otras técnicas multivariables dencia, diferencia entre variables dependientes e independientes (el análisis de con-
glomerados no). Su objetivo básico es estimar la relación de dependencia existente en-
d 1 ituarse a principios del siglo xx. tre una única variable dependiente (categórica) y una serie de variables independientes.
Los orígenes del análisis de conglomera os. sue. en Ss realizadas en el área de la bio-
Más concretamente, en los años tremta, .en apl!cacJOne , ifi'catoría o taxonómica: la ob- El númerO de categorías de la variable dependiente se refiere a los grupos creados gra-
, 1 b " a finalidad ernmentemente clas cias a la aplicación previa de otras técnicas analíticas. De lo que se trata es de com-
lOgia y a otamca, con un ., t 1 Se buscaba la agrupación de
tención de taxonomías de especies ammales y vege a es. función de su similaridad: los probar en qué medida los grupos diferenciados quedan bien caracterizados por las va-
distintas especies de animales y vegetales en fam!l;as, en r ser mny semejantes entre riables que los definen. Asimismo, se quiere averiguar cuál es la combinación de
pertenecientes a un mismo grupo .debían caractenzarse po variables (llamadas funciones discriminantes) que hace máxima la diferencia entre los
grupos. El conocimiento de estas variables se considera clave (en el análisis discrimi-
sí y diferentes a las otras agrupacJOnes. d el análisis de conglomerados adquie-
Pero no es hasta los años cmcuenta cuan o 1au e creciente protagonismo nante) porque contribuye a la predicción final de la probabilidad de pertenencia de un
re un mayor desarrollo. Este avance c?~re paralelo a álisi~
de la infonnática como instrumento baS1CO para el an 1
le
los datos, además de las
f guración de esta técnica
caso concreto a uno de los grupos formados. Depende de qué valores presente en las
variables independientes que forman la función discriminante.
aportaciones de distintos estadísticos que ayudaron a a con 1 En suma, mientras en el análisis de conglomerados el investigador desconoce, a
priori, la pertenencia grupal de los casos observados, en el análisis discriminante se pre-
de análisis. .ól Robert Sokal y Peter Sneath,
En 1963 se publica un libro es.crit~ por dos bl ogaos'ublicación se destaca, en la li-
cisa conocer previamente dicha pertenencia para poder derivar la regla de clasificación.
con el título Principies of Numerlcal Taxono,,:,y .. E~:, ~ra el desarrollo del análisis de
Por esta razón, ambas técnicas de análisis se presentan como complementarias. De he-
teratura especializada, por ser el "estimulo pnnclp P, claras de seres vivos para cho, es una práctica habitual comenzar realizando un análisis de conglomerados para
conglomerados. La necesidad de partir de taxonomzas la clasificación inicial de los datos en grupos. Después, dicha clasificación puede vali-
darse mecliante un análisis discriminante, que profundice en las variables que más ca-
comprender el proceso de evolucJOn. Bl hfield (1984) contabilizaron
Desde dicha fecha, 1963, hasta 1~75, Alde~der~~: y d a~onglomerados en todos los racterizan a los integrantes de cada grupo, diferenciándoles del resto. Sirva como ilus-
que el número de. a~licaciones publ!cadas de a~~~;=ba: una vez cada tres años, du-
tración la aplicación que de ambas técnicas de análisis realicé en mi tesis doctoral (Cea,
1992). Para un mismo objetivo, la descripción del menor de refonna, se aplicaron tres
campos de conocnmento aprox1madamente s~ ) En la búsqueda de explicación de
rante el período de tiempo obse~ado (doce ano~. ár's de conglomerados, dos técnicas multivariables diferentes. Primero, un análisis de conglomerados, para com-
tan llamativo crecimiento de la hteratura sobre e an 1Sl probar si son uno o varios los tipos de menores de refonna; su peso e importancia en
las razones principales que encontraron: el conjunto de la población de reforma. Segundo, un análisis discriminante, con la fi-
nalidad de comprobar si los tres grupos de menores diferenciados, gracias al análisis de
á atentes y de mayor velocidad. conglomerados, quedaban bien definidos por las variables referidas. Y, por último, un
1. La aparición de ordenadores cada vez ~ s.~ mo procedimiento ci¡mtífic:o. \0
2. La importancia fundamental de la clasiflcacl n co análisis factorial confirmatorio dirigido a corroborar los resultados alcanzados con las
técnicas multivariables precedentes. Tras su realización se dedujeron las variables que
T . d conglomerados no es la más significativamente identifican a cada grupo de menores.
No obstante, hay que puntualizar ~ue el ana 1S1S e ósito básico lo cubren
técnica analítica dirigida a la claslficaclOn. Este mIsmo pr~p I'tl'cas multivariables Pero, si las diferencias con el análisis discriminante son obvias, con el análisis
. . d d cia Dos son las técmcas ana 1 U factorial exploratorio (capítulo 5) disminuyen. Ambas técnicas multivariables son de
técnicas analítJcas de mter epen en : 1 T' s de conglomerados. na
que tradicionalmente más se han relaCIOnado con e ana ISI interdependencia y se adecuan a un mismo objetivo básico: la identificación de grupos
232 Análisis multivariable. Teoría y práctica en la investigación. social Capítulo 3: Análisis de conglomerados 233

internamente homogéneos (y heterogéneos entre sf), a partir de una seile de datos. No a emplear, sino también la solnción de conglomerados final (referida al número
obstante, difieren en uu rasgo básico: el análisis de conglomerados suele restringirse a de conglomerados a aceptar). Esto lleva a distintos autores (Manly, 1990' Hair
la búsqueda de relaciones positivas entre las variables. De hecho, se observa -Nouri- et al., _1992 y}999) a otorgar al análisis de conglomerados el calificativo de
ser
sis (1986; 1994)- que si no se toman los valores absolutos de los coeficientes de co- una tecllIca muy subJetIva".
rrelación, las variables que correlacionan negativamente con un factor no aparecen en 2. A lo müerior,. se añade la crítica de que el auálisis de conglomerados uo ofre-
el mismo conglomerado con las variables que correlacionan positivamente. Por el Con- ce -a dIferenCia del análiSiS discriminante, por ejemplo- un contraste estadístico
trario, el análisis factorial permite que las variables se hallen tanto positiva como ne- que ayude a la ~orroboración o refutación de las hipótesis de investigación. No
gativamente relacionadas con un factor. avauz.a haCia b mferencia estadística, sino que se queda en un plano meramente
El análisis de conglomerados puede, al igual que el análisis discriminante, utilizarse desc~iptiVO. Si. se qUiere proc~d~r a la inferencia habrá, en consecuencia, que
en complementariedad con el análisis factorial. El proceso de análisis puede ser el si- acudu a anáh~ls como el dlscrmunante o elfactorial confirmatorio, por ejemplo,
guiente: primero, realizar un análisis factorial exploratorio dirigido a la formación ini- en la vahdaciOn de los hallazgos del análisis de conglomerados.
cial de los grupos, especialmente, cuando existe un número elevado de variables ori-
ginales que quiere reducirse a un número bastante inferior de factores comunes O .~stas crític~s habitual~s. al ~~álisis d~ conglomerados coutribuyen a su caracteri-
componentes principales; después, los coeficientes factoriales (o "factor loadings") se zaCiOn como tecmca anah\¡ca descnptlva, ateórica y no inferencial" (Hair t 1
convierten en los datos a analizar mediante el análisis de conglomerados. 1999: 493). De ~lla se afirma incluso que carece de bases estadísticas que permi:anal~
Pese a esta ventaja notoria, autores como Manly (1990) recomiendan evitar esta mferencla estadistica (de las estimaciones muestrales a los parámetros poblaciouales),
práctica de aplicar previamente un análisis factorial exploratorio. Observan que los re- quedándose en Un plano meramente exploratono. Las soluciones tampoco sou únicas.
sultados del análisis de conglomerados difieren bastante cuando antes se ha llevado a La pertenencia al conglomerad~ depende de muchos elementos del procedimiento, pu-
cabo un análisis factorial que cuando éste no se ha realizado. diéndose obteuer muchas solUCiOnes diferentes sólo variando uno o más de estos ele-
Por el contrario, la práctica de efectuar un análisis factorial confirmatorio con pos- meutos: ,Además,. la aphcación del análisis de conglomerados siempre concluye con la
terioridad a uno de conglomerados provoca mayor aceptación, incluso llega a reco- f?rn: aciOn de vanos conglomerados, aunque los datos carezcan de una estructura "au"
mendarse su práctica con la finalidad de validar los resultados del análisis de conglo- tentlca".
merados. . A coutinuación se ofrece al lector la oportunidad de comprobar el acierto o de-
Las similitudes entre el análisis de conglomerados y el análisis factorial pueden sacle;t? de las cr[licas expuestas. Par~ ello se recomienda la lectura pormenorizada de
extenderse, finahnente, a otras técnicas analíticas de interdependencia. Sea el caso, por las pagi??S que Siguen, Junto al eJerCICiO de comparar el procedimieuto seguido en su
ejemplo, del escalamiento multidimensional, que se configura como una variedad analítica reahza~iOn con el desarrollado en otras técuicas analíticas que persiguen los mis-
multivariable análoga al análisis factorial, aunque de más reciente implantación. Con él mos obJetlvos.
comparte un mismo objetivo: la obtención de un uúmero reducido de dimensiones
que permitan caracterizar a detenninados objetos o sujetos. Sin embargo, difiere (eutre
otros aspectos) en el número de dimensiones a obteuer. Mieutras el análisis factorial no 3.2. Fases principales en Sil aplicación
impone niuguna restricción al respecto, el escalamiento multidimensional aconseja su re-
ducción al meuor número posible de dimensiones. Ello responde a condicionamientos En la materialización de un análisis de conglomerados coinciden una serie de fa-
impuestos para la representación gráfica de los resultados de la investigación. ses que pueden resumlfse en las siguientes:
Salvo esta diferencia básica, el escalamiento multidimensional se presenta, al
igual que el análisis factorial, como un procedimiento alternativo, además de COm- 1. Selecc~ón de las variables que favorezcan la agrupación de los datos. Ésta es una
plementario, para la formación de grupos, a partir de una matriz de datos. Asimismo, decislOn clave y preVia a cualquier análisis de conglomerados. Las variables fi-
el escalamiento multidimensional ofrece, igualmente, la opción exploratoria y confir- nalmente elegidas son las que deteiminan las características de "clasificación"
matoria. (aquel:as que identifican a cada conglomerado).
Por último, destacar las dos críticas más habituales al análisis de conglomerados en 2. ~lecc~on del procedImiento de conglomeración a seguir (jerárquico y/o no je-
relación a otras técnicas multivariables: rarqulCo), JUnto al algorttmo de c1asificacióu para la creación de los conglo-
merados.
1. El excesivo protagonismo dado al investigador en su aplicación. En él recae no 3. Elección de medidas de distancia y proximidad para proceder a la formación de
sólo la decisión clave de qué variables escoger, o la medida de distancialsim!laud los conglomerados. Esta elección está determinada, en gran medida, por la na-
234 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 3: Análisis de conglomerados 235

turaleza de las variables incluidas en el análisis. Si se trata de variables en su ma-


yoría nO métricas (nominales u ordinales), la elección se limita a las llamadas
"medidas de co-ocurrencia" (subapartado 3.3.4). En cambio, para las variables l." DECISIONES PREVIAS AL ANÁLISIS DE CONGLOMERADOS
métricas el abanico de posibilidades se amplía.
Además de las variables, incide el algoritmo que se haya escogido para la for-
mación de los conglomerados y el procedimiento de conglomeración a seguir.
4. Decisión sobre el número de conglomerados a constituir.
Elección de variables

'ji
~
5. Presentación e interpretación de los resultados, tanto en su forma numérica (la
tabla de aglomeración) como gráfica (habitualmente el dendograma y el gráfi-
~,...
Método de conglomeración I Medidas de distancia
I y similaridad
co de carámbanos o de témpanos).
6. Validación de los resultados del análisis. Si éstos no logran alcanzar la califica- t ~
ción de "válidos", habrá que introducir modificaciones que ayuden a su mejo-
ra. La consecuencia inmediata será la repetición de todo el proceso, comen-
Algoritmo de clasificación
~
zando con el replanteamiento de las decisiones adoptadas con anterioridad a la
ejecución del análisis. Los análisis se dan por concluidos cuando sus resultados R
logren satisfacer unos criterios mínimos de validez (apartado 3.6).
E i
Estas fases esenciales en la materialización de un análisis de conglomerados pue- 2.'
P OBTENCIÓN DE CONGLOMERADOS
den resumirse a modo de gráfico, en cuatro amplios bloques, como ilustra la figura 3.1.
1. • Decisión sobre el número adecuado de conglomerados
A

~
3.3. Los preliminares del análisis: decisiones clave
N
Para la correcta materialización del análisis de conglomerados son decisivas una se- T
rie de decisiones "clave", que el investigador ha de adoptar, en busca de la consecución 3.' INTERPRETACIÓN DE LOS RESULTADOS
E (numéricos y gráficos)
satisfactoria de sus objetivos. Estas decisiones conciernen no sólo a actuaciones com-
partidas con otros procedimientos analíticos, como es el tratamiento de los casos "sin res- A o El perfil de los conglomerados
puesta" o "missing values" (subapartado 1.3.1), sino que también incluye decisiones ex-
clusivas al análisis de conglomerados, que afectan directamente a su realización, y que R
se detallan a continuación.
t
4.' VALIDACIÓN DE LOS RESULTADOS

3.3.1. Elección de variables


/~
Una actuación tan rutinaria (en cualquier análisis), como la elección de variables,
en el análisis de conglomerados se convierte en decisiva. Dependiendo de qué varia-
¡Negativa I [Positiva I
t .¡..
bles se escojan para la ejecución del análisis, varía no sólo el número, sino también la
composición de los conglomerados.
La recomendación continuamente reiterada es limitar las variables sólo a aquellas
Introducción de
modificaciones
II Conclusión del
análisis
que sean "relevantes" a los objetivos del estudio, de acuerdo con el marco teórico de la
investigación. Éste es, no obstante, el ideal. Como Aldenderfer y Blashfield (1984: 20) Figura 3.1. Fases principales de un análisis de conglomerados.
CapituLo 3: Análisis de conglomerados 237
236 Análisis multivariable. Teoria y práctica en la investigación social

. '1 . dentro del contexto de una teoría esta- riables métricas, como "años de estudio") ejercen mayor influencia en los resultados
argumentan, "las vanables debenan e eglfse 1 1 ·[¡cación". y ello porque "la tea- del análisis. Concretamente, contribuyen más en el cálculo de las medidas de distancia
blecida explícitamente que ~e utiliza ;;~: ~;~~:~:b~e~s~ utilizar en el estudio". Aunque o de proximidad, que las variables de pequeño recorrido (o rango), indistintamente de
ría es la base para la elec~Cl~n r~~lO~ ía ue a oya la clasificación con frecuencia es- sU "relevancia" real en la diferenciación de los conglomerados.
reconocen que, en la pracuc~, la t~~r. q P a relevancia de las variables al Pro- Para evitar este problema, la solución habitual es transformar todas las variables
tá implícita, y en esta situaclOn es dlflcrl aseguratr len la importancia de la teoría como a una escala común; es decir, estandarizarlas. De hecho, la correcta realización del pro-
blema". Esto no resta, sm embargo, qu~ se mSlS a cedimiento "K-means" (una de las modalidades más aplicadas del análisis de con-
guía fundamental en la elección d~ v~nabl~:~" a la clasificación tiene, asimismo, una glomerados), por ejemplo, precisa que todas las variables hayan sido previamente es-
El escoger vanables que sean. re evan . d "at'lpI'cos" ("outliers"). Como ob- tandarizadas.
.' d' t . 1 stnnglr la presencra e El procedimiento de estandarización más común consiste en transformar cada va-
consecuencra mme la a. e re . 1 ., d iables irrelevantes aumenta la opor-
servan Hair et al. (1992 y 1~;9~, la m~ ~,~nest: ::~ónse insisle en que el investigador riable a puntuaciones Z, convirtiéndose su media aritmética en "O" y su desviación tí-
tunidad de que apar~zcan atlplcOs. o 1 diferenciar entre conglomerados. pica en "1". Para ello se divide la diferencia entre cada valor y la media de la variable
procure escoger vanables que realmented ogren forme a los objetivos de la investí- entre la desviación típica (Z = (X - X)/S). Pero también puede optarse por un pro-
El criterio principal de seleCCIón eS proce er con cedimiento alternativo: poner cada variable en un rango de "O" a "1", donde el valor
gación. . r d . 19una de las variables, pre- más pequeño es "O" y el mayor el "1" (SPSS Inc., 1997).
Después, una vez que los análisIs se han ,;.oa ,¡za a~;t~'"a al no conseguir diferenciar No obstante, existe controversia respecto a si la estandarización debe o no aplicarse
viamente considerada "relevante", se ,torna .lrre e~ considerar su eliminación del aná- de forma rutinaria en el análisis de conglomerados. Everitt (1980), por ejemplo, ad-
significativamente a los conglomerados, lo mejor sera "-rrelevantes" habrá vierte que la estandarización puede provocar la reducción de las diferencias entre gru-
., ., d . bIes que muestren ser I ,
lisis. Si se procede a la ehm,l~aclon e van~l aquellas variables que muestren "re- pos en aquellas variables que bien pueden ser las que más discriminan entre los
que repetir el proceso anahl1co completo s o con grupos. La única estandarización que admite es de las variables "intragrupales", las que
levancia" en la clasIficacIón. f d estadístico: el lograr caracteri- caractericen a cada grupo. Pero, obviamente, esta estandarización intragrupal no
La relevancia na sólo ha de entenders~ en se~~l ~esto También es prioritario que puede llevarse a cabo hasta que no se haya procedido a la clasificación en conglome-
zar a un conglomerado.co~~reto, dife:encrantdOI~vo Este ~specto es inclusive prefe- rados. Lo que complica la práctica de esta propuesta de estandarización alternativa.
la variable tenga un sIgnIfIcado IóglCOdsus an I e~ la selección de variables. Cuando las variables se encuentran medidas en una escala común, o no existen mu-
rencial al primero (el estadí~l1co) Y ha e pnmar 'ealización del análisis, "irre- chas divergencias en la cuantía de sus valores (o amplitud de sus rangos), no es ne-
En la eliminación de vanables que muestren, tr;s I~l~ actuar de forma "pautada". cesario proceder a la estandarización de las variables. En este caso, los análisis se
levancia" en la formación de conglomerados, es prebelefl "I'rrelevante" lo meJ' or es pro- realizan con las variables en su métrica original. Con ello se evita los perniciosos efec-
. . h b'e más de una vana '
Quiere esto decir, ~ue SI u I se d r dad de análisis: la eliminación de las variables tos observados en la estandarización.
ceder como es comun en cualqUier mo a ¡ 'de cada eliminación se han de repel1r
de forma secuencial. Esto supone que d~spuesé . bIes muestran ser "irrelevantes"
los análisis para comprobar, a contmuaClOn, qu vana 3.3.2. Métodos de conglomeración
tras cada eliminación. ,,- I . "d una variable puede verse afec-
Además, ha de advertirse qu~ la Irr~ evanc¡a e 1 demás incluidas en el aná- Otra decisión clave previa al análisis de conglomerados concierne al procedi-
tada por la relación colinea! que dicha ~a~able :en!: ~~~ ;: las variables muy colinea- miento que va a seguirse en la formación de los conglomerados. Esta decisión es igual-
lisis. Si la colinealidad es elevada, la ehmmaclOn . a la variable que previamente mente importante porque la composición de los conglomerados puede verse afectada
les puede provocar el efecto posmvo d~ cOdn~er(¡r, I erados en "relevante". Lo por el método seguido en su formación. Los resultados pueden no coincidir, cuando se
mostró ser "irrelevante" en la configuraclOll e os cong om ) aplican métodos de conglomeración diferentes.
que haría innecesaria su eliminación. A este respecto, son varias las opciones de conglomeración posibles, incluso pue-
1 . bIes es si analizarlas en su métrica de elegirse aplicar dos o más de ellas de fOlma combinada. De nuevo, los objetivos de
• Una segunda decisión clave respecto a as ~ana . , Esta segunda decisión ge- . investigación actúan como criterio básico en la decisión. A ellos se suma la peculiaridad
original o proceder, por el contrano, ~ su estan artzaCWl1. de la matriz de datos, principalmente, el tamaño de la muestra y las características de
nera mayor controversia qu~ la ~nteno~.. . les ue incluyen un rango ele- las variables, en especial su métrica; de ella depende la medida de distancia o de si-
Como en otros prúcedlm¡entos analrUcos, las vanab . q I 'o'n con aIras va- milaridad que se escoja para la formación de los conglomerados.
. ble W mgresos" , mclUSlve en re aCl
vado de valores (por ejemplo, la vana
Capítulo 3: Análisis de conglomerados 239
238 Análisis multivariable. Teoria y práctica en la investigación social

La decisión también pnede verse afectada por las opciones de análisis qne permita 3.3.2.1. Métodos jerárquicos
el programa informático que vaya a utilizarse. El cuadro 3.1 resume el amplio abani-
co de procedirrúentos existentes para la formación de conglomerados. Incluye tanto los Tradicionalmente éstos han sido los procedimientos más aplicados para la for- .
métodos genéricos de conglomeración como los algoritmos concretos aplicados en la mación de conglomerados (fundamentalmente los "aglomerativos"), cuando el tamaño
clasificación de las unidades (casos y/o variables). de la muestra no es elevado (o;; 200 unidades). Si la muestra supera las 200 unidades, la
"simplicidad" que caracteriza a los métodos jerárquicos se toma en "dificultad" de cálculo
y de interpretación. Los análisis se realizan a partir de una matriz de distancias, con en-
CUADRO 3.1. Métodos de conglomeración y sus algoritmos de clasificación tradas para cada par de objetos (casos o variables). Sn volnmen aumenta con el tamaño
de la muestra. Lo mismo sucede con la lectura e interpretación de los resultados
A. MÉTODOS DE CONGLOMERACIÓN JERÁRQUICOS gráficos (el dendograma y el gráfico de carámbanos).
El dendograma (o diagrama "en árbol") es -como se verá en el subapartado
A.l. Aglomerativos 3.5.2- un gráfico típico de los métodos jerárquicos de conglomeración, convirtiéndo-
• Distancias mínimas se inclusive en su expresión más farrúliar. Su visualización ayuda bastante a comprender
/11 Distancias máximas cómo se han ido formando los distintos conglomerados. Pero cuando la muestra es ma-
• Promedio entre grupos yor de 200 unidades, la magnitud del dendograma crece, llegando a ocupar varias pá-
• Promedio intragrupos ginas, lo que, en vez de ayudar, dificulta la lectura e interpretación de la solnción de
• Método Ward conglomerados. Lo mismo acontece con la otra expresión gráfica: el gráfico de ca-
• Método del centroide rámbanos (o de témpanos), que también es muy aplicado en los métodos jerárquicos
• Método de la mediana
(subapartado 3.5.2).
A.2. Divisivos Sin duda uno de los rasgos que más distingnen a los métodos jerárquicos de con-
G Método de partición binaria de Howard-Harris glomeración es el procedimiento seguido para la agrupación de los objetos. En los
Go Aplicación de algunos de los procedimientos aglomerativos. En especial, el "aglomerativos", los conglomerados se forman, primero, a partir de objetos indivi-
método de Ward y el promedio entre grupos. duales concretos y, después, de la conjuución de conglomerados. En los "divisivos" (o
de "partición"), el proceso escalonado es el inverso: del conglomerado global se pasa,
B. MÉTODOS DE CONGLOMERACIÓN NO JERÁRQUICOS también pausadamente, mediante descomposición, a conglomerados varios hasta
concluir en los objetos concretos a clasificar. Los conglomerados así creados se ca-
B.l. De "reasignación" o de "partición iterativo" racterizan por ser anidados, esto quiere decir, que cada nno de ellos puede, a su vez,
• Método K-means ser subsurrúdo por otro conglomerado más grande, en un nivel de similaridad superior.
• Quick cluster analysis Éste es uno de sus rasgos distintivos frente a los métodos no jerárquicos. En estos úl-
• Nubes dinámicas timos, la unión inicial de dos o más objetos puede variar en la solución final. Ésta no
B.2. Búsqueda de densidad
queda tan deterrrúnada por la partición inicial de los datos como sucede cuando se apli-
Aproximación tipológica (análisis modal de Wishart, método de Taxmap y
(O
can métodos jerárquicos.
método de Fortín). Cuando se conglomeran casos, una especificación mínima para proceder a nn
• Aproximación probabilística (método de combinaciones de Wolf). análisis de conglomerados jerárquico es "uua o más variables nnméricas". En cambio,
para una conglomeración de variables, "tres o más variables numéricas" (Nourisis, 1994:
B.3. Métodos directos 100). El proceder también varia según el método de conglomeración jerárquico seguido:
/11 "Block clustering" de Hartingan aglomerativo o divisivo.

A) Métodos jerárquicos aglomerativos


En este subapartado se describen únicamente las caractensticas de los métodos ge-
néricos de conglomeración. El detalle de los algoritmos concretos para la constitución Constituyen la variedad más popular de los métodos jerárquicos, por su mayor apli-
de los conglomerados se encuentra en el subapartado 3.3.3. cación y desarrollo. También se les conoce como "métodos jerárquicos ascendentes"
240 Análisis multivariable. Teoría y práctica en la investigación socíal Capitulo 3: Análisis de conglomerados 241

(Manly, 1990). En ellos la agrupación de objetos procede de forma "ascendente" o glomerado se separan del mismo, ya sea constituyendo un nuevo conglomerado, ya aña-
"aglomerativa". Primero, de objetos singulares concretos y, después, de conglomera- diéndose al conglomerado hacia el que ahora se sitúen más "próximos".
dos simples a conglomerados cada vez más complejos, hasta concluir con un único con- El proceso de división de conglomerados continúa iterativamente hasta que exis-
glomerado. tan tantos conglomerados como objetos a clasificar. La distancia que se pelmite entre
El análisis comienza con tantos conglomerados como objetos a clasificar (ya sean los integrantes de un mismo conglomerado es reducida, lo que favorece la disgregación
variables o casos). En un segundo paso, dos de los objetos se combinan en un único en cada vez mayor número de conglomerados y de menor tamaño. Cuando esto sucede
conglomerado. En el tercer paso, surge un nuevo conglomerado de la fusión, bien de se alcanza la disgregación máxima, que supone el fin del proceso.
otros dos objetos adicionales, bien de un tercer objeto que se une al conglomerado pre- Los conglomerados creados mediante métodos jerárquicos divisivos pneden ser de
viamente formado por los dos objetos. La formación de conglomerados es gradual y as- dos clases diferentes:
cendente. En cada paso se constituye un nuevo conglomerado, bien como resultado de
la unión de dos objetos que permauecían todavía aislados (sin pertenecer a ningún con- a) Monotéticos: si todos los objetos incluidos en el conglomerado tienen el mismo
glomerado), o bien por la anexión de un objeto a un conglomerado ya constituido, o valor en una variable concreta. Esta variable es la que define al conglomerado,
por la conjunción de dos conglomerados ya existentes. El proceso de conglomeración al determinar la pertenencia al conglomerado según el valor que los objetos pre-
concluye cuando se llega a un único conglomerado que reúne a todos los objetos. El senten en la misma.
dendograma permite la visualización de cómo se han ido formando los conglomerados b) Politéticos: cuando el protagonismo en la definición del conglomerado lo com-
en las distintas etapas del análisis. parten dos o más variables. La conjunción de estas variables determina la
La característica distintiva de este método de conglomeración es que una vez que pertenencia al conglomerado.
el conglomerado se ha constituido (dos objetos se han vinculado) no puede dividirse
en etapas posteriores. Al contrario, sólo puede ampliarse por la anexión de nuevos Los conglomerados poUtéticos suelen ser los más habituales. Las estrategias divi-
miembros, algunos de ellos pertenecientes a conglomerados ya existentes. sivas monotéticas se restringen, preferentemente, a datos binarios; cuando la división
Tras cada nueva agrupación, se recalculan las distancias, de acuerdo con el algo- de conglomerados se basa en la identificación de una variable que hace máxima la di-
ritmo de clasificación y la medida de di,tancia/similaridad escogida para la formación ferencia (o disimilaridad) entre los conglomerados. Uno de los criterios divisivos
de conglomerados. Cuando el análisis de conglomerados es de casos, el criterio que de- más comúnmente empleado es el estadístico chi-cuadrado, como se verá en el sub-
cide la pertenencia a los conglomerados se basa en la matriz de distancias o, en su ca- apartado 3.3.4.
so, de similaridad, entre pares de casos. Si, por el contrario, se quiere agrupar variables,
las medidas de distancia/similaridad se calculan entre pares de variables.
3.3.2.2. Métodos no jerárquicos

B) Métodos jerárquicos divisivos o de partición Otra alternativa a la formación de conglomerados la ofrecen los métodos no je-
rárquicos, también llamados de "optimización". Este último nombre responde a cómo
También se les conoce como métodos "descendentes" o "disociativos", en con- se produce la asignación de los objetos a los conglomerados. La finalidad es "optimi-
traposición a los aglomerativos. Su aplicación en la investigación social ha sido menor, zar" el criterio de selección.
en parte debido a su escasa presencia en los paquetes estadísticos iniciales. En cambio, la primera denOminación ("no jerárquicos") se debe al procedimien-
En la formación de conglomerados ahora se procede de forma inversa a la anterior. to seguido en la constitución de conglomerados: procedimientos de partición "no je-
El análisis comienza con nn único conglomerado que incluye a todos los casos o va- rárquicos".
riables observados. Después, y de forma gradual, se procede a la disgregación de ese Pero, como sucede con los métodos jerárquicos, la categoría genérica de méto-
gran conglomerado inicial, COn la excepción de aquel objeto (caso o variable) que se dos no jerárquicos engloba una amplia variedad de procedimientos en la constitución
halle más distante del promedio de los otros objetos en el conglomerado. De este mo- de los conglomerados. Si bien, en el establecimiento de una tipología básica de
do, el conglomerado inicial se divide en dos conglomerados, entre los qne se distribuyen métodos no jerárquicos existe menos consenso, entre los autores, qne en los métodos
los casos o variables. Éstos quedan ubicados en el conglomerado hacia el que estén más jerárquícos.
próximos. Una de las clasificaciones de métodos no jerárquicos más amplia es la resumida por
Tras cada escisión o división de conglomerados se vuelven a calcnlar las distancias Bisquerra (1989) en tres categorías extensas: cada una de ellas se acompaña de los al-
entre sus integrantes. Los objetos situados a mayor distancia del promedio del con- goritmos de clasificación principales.
242 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 3: Análisis de conglomerados 243

A) Métodos de reasignación un conglomerado a otro. De lo que se trata es de encontrar los objetos que per-
tenecen a la misma distribución.
Permiten que los objetos asignados a un conglomerado en una fa~e del proceso Entre los algoritmos aplicados destaca el método de las combinaciones de Wolf
sean reasignados a otro conglomerado en otra fase postenor. La condIcIón es que la
"reasignación" consiga "optimizar" el criterio de selección. . ~ ,.
C) Métodos directos
La formación de conglomerados concluye cnando no queda mngun objeto cuya re-
asignación logre optimizar el resultado. , . ., Permiten la clasificación simultánea de los individuos y de las variables. Las enti-
Aldenderfer y Blashfield (1984) llaman a estos metodos de reaslgnacLOn métodos
dades que se agrupan ya no son los casos o las variables, por separado. Por el contra-
de "partición iterativos". Parten de una partición inicial de los datos, que puede ver-
rio, se procede a su análisis conjunto, es decir, al cruce de ambas (casos por variables),
se modificada por el desplazamiento (o reasignación) de los ob!etos a otros congl?-
tal y como figura en la matriz de datos.
merados, a cuyo centroide se hallen más próximos. Esta alteraclOn en la composlclon
El algoritmo de mayor aplicación en este tercer grupo de métodos no jerárquicos
de los conglomerados acontece mediante procedimientos iterativos.
es el llamado "block clustering" de Hartingan.
Algunos de los algoritmos más conocidos dentro de estos métodos son:

1. Método "K-means" de McQueen. • AJdenderfer y Blashfield (1984) añaden otra categoría aparte que denominan mé-
2. El "quick cluster analysis" y el método de "Forgy". Ambos se agrupan bajo el todo "clumping". Este método ha alcanzado una amplia aplicación en el campo de la
nombre genérico de "métodos de centroide" (o "centros de gravedad"). lingüística, donde interesa la representación de palabras que incluyan múltiples sig-
3. El método de nubes dinámicas de Diday. IlIflcados, pero, en otras áreas de conocimiento, apenas es conocido.
El método de "c\nmping" se incluye en los métodos no jerárquicos porque no pro-
duce clasificaciones "jerárqnicas". Aunque difiere de los otros métodos (no jerárqui-
B) Métodos de búsqueda de densidad
cos) porque permite la creación de conglomerados que se superponen: un mismo ob-
jeto puede pertenecer a más de un conglomerado. Éste es el rasgo que más caracteriza
Aldenderfer y Blashfield (1984: 51) los definen comO "desarrollos natur~les del al método "dumping" y le distingue del resto de métodos de conglomeración, tanto je-
concepto que concibe al conglomerado como una región de una 'elevada' densl~ad de rárquicos como no jerárquicos.
puntos en un espacio relacionado con aquellas regiones que los rodean". Estos metodos Asimismo, se distingue por requerir el cálcnlo de una matriz de similaridad entre
"buscan", esencialmente, el espacio para "modas" naturales en los datos que repre- los casos. Los datos suelen partirse mediante métodos aleatorios en un número de con-
sentan estas áreas de elevada densidad. figuraciones de partida diferentes, de modo que cada vez se crea sólo dos grupos. Los
Los métodos de búsqueda de densidad incluyen dos aproximaciones básicas: la objetos entonces se vuelven a localizar iterativamente hasta conseguir que la función
aproximación tipológica y la probabilística. a optimizar sea estable. La finalidad es intentar "optimizar" el valor de un criterio es-
tadístico que técnicamente se refiere como nna "función de cohesÍón".
a) La aproximación tipológica puede considerarse una variante del método de dis- El problema más importante que se observa en este procedimiento de formación
tancias mínimas ("single link"). De él difiere en que ofrece reglas p~ra IIlIClar de conglomerados es que los mismos conglomerados se descubren, con frecuencia, y
nuevos conglomerados, más que unir las entidades encontradas recIentemen- de forma reiterada. Por lo que no se proporciona infoImación nueva (Aldenderfer
te a los conglomerados ya existentes. Los conglomerados se fOIman a partir de y Blashfield, 1984).
la búsqueda de aquellas zonas en las que se dé una mayor concentración de ob-
jetos. Los algoritmos más conocidos son: • Hair et al. (1992 y 1999) Se distancian de estos autores, ofreciendo otra clasifi-
cación de los métodos no jerárquicos. Aunque su clasificación es menos completa que
1. El análisis modal de Wishart. la antenormente enunCIada. Diferencia tres modalidades alternativas para la obten-
2. El método de Taxmap de Carmichael y Sneath. ción de conglomerados mediante procedimientos no jerárquicos:
3. El método de Fortín.
1. Método de umbral secuencial.
b) La aproximación probabilística. Parte del supuesto de que las variables si- 2. Método de umbral paralelo.
guen una ley de probabilidad, de acuerdo con la cual, los parámetros varían de 3. Método de optimización.
244 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 3: Análisis de conglOlnerados 245

1. Método de umbral secuencial. Una variedad del procedimiento de conglome- "métodos de reasignación" o de "partieión iterativos". Dentro de ellos puede también
ración no jerárquica que se ajusta a grandes series de datos. Se encuentra en incluirse la tipología asumida por Rair et al. (1992 y 1999).
programas como :FASTCLUS, en SAS. Estos "métodos de re asignación" han sido, dentro de los procedimientos no je-
El análisis comienza, como en cualquier procedimiento no jerárquico, rárquicos, los más aplicados en la investigación social, incluso se han convertido en su
can la indicación por parte del analista del número máximo de conglomera- referente. De modo que, cuando se comparan los métodos jerárquicos con los no je-
dos permitido. A partir de esta especificación, el programa comienza selec- rárquicos, las características a las que se hace mención corresponden, en su generali-
cionando "semillas" de conglomerado, que se emplean como conjeturas ini- dad, al proceder de los "métodos de reasignación". De las otras especificidades ape-
ciales de las medias de los conglomerados. La primera semilla es la primera nas se hace mención.
observación en la serie de datos con ningún valor "sin respuesta" ("missing
value"). La segunda semilla es la siguiente observación completa (es decir, • Como resumen de lo expuesto, cabe destacar tres diferencias básicas que separan
sin ningún valor sin respuesta), que se separa de la primera "semilla" por una a los métodos jerárquicos de los no jerárquicos:
distancia mínima específica. La opción que el programa aplica por defecto es
una distancia mínima de cero. a) En los métodos no jerárquicos el proeedimiento de fonnación de conglomerados
A la selección de un conglomerado "semilla" le sigue la asignación de comienza a partir de una partición inicial de los datos. El investigador especi-
todos los objetos que se hallen dentro de la distancia especificada previa- fica, previamente, el número máximo de conglomerados que debe haber en la
mente. Después, se selecciona otro conglomerado "semilla", con la consi- matriz de datos. Quiere esto decir que parte de una clasificación inicial de los
guiente asignación de objetos que estén en la distancia especificada. El pro- objetos, de acuerdo con algún criterio de investigación.
ceso continúa hasta que no quede ningún objeto por clasificar. A partir de esta clasificación inicial (determinada por un número concreto
Tras cada atribnción de un objeto a un conglomerado se actnalizan las de conglomerados) se produce la asignación de objetos a los conglomerados a
semillas de conglomerado, si se quiere. Ello supone el cálculo de las medias cuyo centro (o centroide, que corresponde al valor medio de las variables que
de los conglomerados después de cada asignación de Un objeto a un con- configuran el conglomerado) se hallen más próximos. A la constitución de
glomerado. los conglomerados le puede segnir un nuevo cálculo de los centroides. Para ello
2. Método de umbral paralelo. Difiere del anterior en que la selección de "se- se consideran los objetos que finalmente se asignaron a los conglomerados. Los
millas" Se hace de forma simultánea y al principio del proceso. Los objetos nuevos centroides pueden provocar el desplazamiento de objetos a otro con-
dentro de la distancia umbral se asignan, igualmente, al conglomerado "se- glomerado, si ahora el objeto se sitúa más próximo al centroide de ese nuevo
milla" más próximo. En algnnas variantes del método, cabe la opción de conglomerado.
que algún objeto qnede fuera de los conglomerados, si se halla fuera de la dis- Los centroides se recalculan cada vez que se produce una alteración en la
tancia previamente especificada desde cualquiera de las "semillas" de con- composición de los conglomerados. El proceso concluye cuando no se produ-
glomerados. ce ninguna nueva modificación en los conglomerados.
Tras las atribuciones de los objetos a los conglomerados, las distancias Este proceder, descrito de forma genérica, varía en función del algoritmo de
umbrales pueden ajustarse para incluir "más" o "menos" objetos en los con- clasificación escogido (K-means, quick cluster... ). Además, es más característi-
glomerados. co de los métodos de partición iterativos, también llamados de "reasignación".
Como ejemplo de este procedimiento no jerárquico se cita el procedi- Las otras variedades ya han sido expuestas.
miento "Quick Cluster" del programa SPSS. En él se establecen los puntos b) Si en los métodos jerárquicos la asignación de nn objeto a un conglomerado sue-
de "semilla" bien como puntos proporcionados por el usuario, o bien como le considerarse definitiva, en los métodos no jerárquicos puede ser accidental.
puntos seleccionados aleatoriamente de todas las observaciones. Continuamente se valora la pertenencia de los objetos a los conglomerados a
3. Método de optimización. El procedimiento de formación de conglomerados los qne se les ha asignado inicialmente. Esto es posible gracias a la aplicación de
se asemeja a los dos precedentes, salvo en un aspecto importante: se permite la procedimientos iterativos, de los que pueden derivarse modificaciones sustantivas
reasignación de objetos a otros conglomerados, desde el original, si con ello se sa- en la composición de los conglomerados.
tisface algún criterio de optimización global. Este proceder resuelve uno de los inconvenientes principales tradicional-
mente atribuidos a los métodos jerárquicos: una mala asignación inicial de
• De la comparación de las distintas clasificaciones propuestas de los métodos de los objetos a los conglomerados puede determinar una desacertada solución fi-
conglomeración no jerárquicos, puede concluirse el predominio de los denominados nal. Recuérdese que en los métodos jerárquicos, en especial en los aglomera-
246 Análisis multivariable. Teoria y práctica en la investigación social
Capítulo 3: Análisis de conglomerados 247

tivos, Una vez que un objeto es asignado a un conglomerado, queda definiti- 2. La sOI,ución que resulte del método jerárquico se toma como punto de partida
vamente en él. Tras la formación de nuevos conglomerados no se evalúa la per- del metodo no JerárqUICO, lo que ayuda a ajustar o precisar más la constitución
tenencia del objeto al conglomerado inicialmente asignado. En cambio, los mé- de los conglomerados obtenidos con la aplicación del método jerárquico.
todos no jerárquicos se caracterizan por lo contrario: la valoración continua de
la pertenencia de los objetos a·los conglomerados, tras cada alteración en la
composición de los mismos. CUADRO 3.2. Inconvenientes principales de los métodos jerárquicos y no jerárquicos
Pero esta valoración "continua" de la composición de los conglomerados no
logra solventar una de las deficiencias importantes generalmente atribuidas a MÉTODOS JERARQUICOS MÉTODOS NO JERARQUICOS
los métodos no jerárquicos: la derivada de una mala decisión inicial sobre el nú-
Dificultad de detenninar a priori el mejor al- Dificultad de conocer a priori el número
mero de conglomerados "real" que existe en la matriz de dato& Esto puede oca- goritmo de clasificación, cuando el investi-
sionar una errónea clasificación de los objetos (ya sean casos o variables). de conglomerados "real') existente en los
gador desconoce la estructura de la muestra. datos observados.
Por esta razón, se recomienda repetir los análisis variando, cada vez, la
especificación inicial del número máximo de conglomerados que quiere for- A menos que se empleen algoritmos espe- Formar todas las particiones posibles de la
marse. De las distintas posibilidades de clasificación existentes se escogerá ciales, es difícil operar con muestras supe- serie de datos (que se presenta como la for-
aquella que ofrezca una mejor interpretación, desde el punto de vista estadís- riores a 200 unidades porque se parte de ma más directa de descubrir la partición
tico y lógico-sustantivo. Ante todo, ha de tener sentido lógico, relacionado COn una matriz de similaridad. Al confeccionar- óptima de un~ serie de datos), iterativa-
el marco teórico de la investigación. se ésta con cada par de objetos (casos o va- mente, supone la realización de cálculos
c) Los métodos jerárquicos operan a partir de una matriz de similaridades, ya sea riables) adquiere un tamaño desorbitado, muy complejos para Un número elevado de
de casos (N x N) o de variables (p x p). En los métodos no je;árquicos se tra- confonne aumenta el tamaño de la muestra .. casos y de conglomerados, Ello dificulta su
baja, en cambio, con los datos brutos originales. Esto proporciona una ventaja En especial, cuando se clasifican casos. La puesta en práctica.
lectura de los resultados gráficos (mediante
inicial importante: el facilitar el análisis de muestras grandes (m~yores de 200 el dendograma o el gráfico de carámbanos)
unidades). Estas muestras, por el contrario, son difíciles de analizar mediante también es difícil de realizar en muestras
métodos jerárquicos, como ya se mencionó. grandes.

U na mala partición inicial de los datos no Una mala decisión inicial sobre el nÚmero
3.3.2.3. La combinación de métodos de conglomeración puede modificarse en fases posteriores del de conglomerados "real" puede resultar en
proceso de conglomeración_
una errónea clasificación de los datos.
De la lectura de los subapartados anteriores puede concluirse que cada método de
conglomeración ofrece unas ventajas, pero también presentan unos inconvenientes o Mayor predisposición a la presencia de "atí- Mayor complejidad de los análisis que le
límites importantes. El cuadro 3.2 resume los inconvenientes principales observados picos" (o outliers).
hace muy dependiente de la capacidad del
en la práctica de ambos métodos de conglomeración. ordenador que se utilice,
Estos y otros inconvenientes pueden solventarse, si se opta por combinar métod~s
jerárquicos de constitución de conglomerados con métodosno jer~rquicos, p~ra .cubm
un mismo objetivo de investigación. Una estrategia analítica pOSible es la sigUiente: Por ejemplo, puede aplicarse el procedimiento jerárquico de Ward en una fase ini-
cial del ~~~lisis. De él se obtiene información sobre el número de conglomerados, su
1. Aplicar iniciahnente un método jerárquico, con la finalidad de conocer el nú- composlclon, sus centroides y los casos atípicos. Toda esta información es de gran uti-
mero de conglomerados que se pueden formar en la matriz de datos concreta lidad I:'ara la aplicación idónea de un método no jerárquico. Concretamente, el pro-
que se analiza. . cedu:uento K-mea,:" ("~-medias"), uno de los métodos no jerárquicos más populares,
La información no se limitará a la identificación del número y la composI- precisa de la especificaCión previa no sólo del número de conglomerados, sino también
ción de los distintos conglomerados. También abarca otros aspectos de gran in- de sus centroides. Si esta información no es aleatoria, sino que se basa en un análisis
terés para un análisis posterior, como es el conocimiento de los ~entroides de I,os exhaustIVo precedente, es más factible que logre una mayor aproximación a la "rea-
conglomerados y los casos atípicos. Recuérdese que la valoraCión de estos ul- lidad". Asimismo, la detección de atípicos y su tratamiento posterior también ayuda a
timos se hace en función de su número. la mejora de la clasificación final de los datos.
248 Análisis multivariabLe. Teoría y práctica en La investigación social Capitulo 3: Análisis de conglomerados 249

En los últimos años, la aplicación conjunta de los procedimientos de Ward y K-means propuestos en el análisis de conglomerados, se ha optado por reseñar aquéllos de uso
ha llegado a convertirse incluso en "la combinación perfecta" en la investigación más común. Y, dentro de ellos, los que proporcionan criterios distintos para la for-
aplicada (Gómez Suárez, 1999: 542). mación de los conglomerados. Así, por ejemplo, en los algoritmos pertenecientes a la
conglomeración no jerárquica sólo se ha escogido uno de ellos en cada clasificación, co-
mo representación de los otros que comparten sus mismas características: 'IK-means"
3.3.3. Algoritmos de clasificación en representación de los métodos de reasignación (o de partición iterativos), el "aná-
lisis modal de Wishart" de los métodos de búsqueda de densidad y "block clustering"
Una tercera decisión clave en los preliminares del análisis de conglomerados de los llamados métodos directos. En concreto, se han seleccionado los siguientes 13
concierne al algoritmo de clasificación a aplicar. Esta decisión también es importante algoritmos de clasificación:
porque dependiendo del algoritmo elegido, varía el número y la composición de los
conglomerados. a) Distancias mínimas.
El cuadro 3.1 incluye algunos de los principales algoritmos de clasificación de los mé- b) Distancias máximas.
todos jerárquicos y de los no jerárquicos. Todos ellos persiguen el mismo objetivo bási- c) Promedio entre grupos.
co: crear conglomerados "homogéneos" pero, a su vez, muy diferentes unos de otro~.-En d) Promedio intragrupos.
términos de varianza, se trata de formar conglomerados de una elevada homogeneidad e) Método Ward.
intragrupal y, por el contrario, una elevada heterogeneidad entre los grupos. Pero la for- f) Método del centroide.
ma como se alcanza este objetivo varía en función del algoritmo escogido. g) Método de la mediana.
Por algoritmo se entiende -siguiendo la definición dada por Moliner en Diccionario h) Partición binaria.
de uso del Español (1984)- "notación propia de una forma particular de cálculo". En i) Método de Howard-Harris.
el análisis de conglomerados, en concreto, con el término algoritmo se hace referencia j) uK-means".
al procedimiento a seguir en la disposición de objetos similares en conglomerados. Los k) Análisis modal de Wishart.
procedimientos posibles son varios y, como afirma Manly (1990: 105), "no existe 1) "Block clustering".
ninguno generalmente aceptado como 'mejor"'. Es el investigador quien tiene que de-
cidir qué algoritmo aplicar ante unos objetivos específicos de investigación. La eleCCión En el cuadro 3.1 aparecen ubicados cada uno de estos algoritmos de clasificación.
del algoritmo de clasificación se ve afectada por los siguientes aspectos: Los siete primeros (hasta el método de la mediana, inclusive) pertenecen a la con-
glomeraciónjerárquica, en especial, a los procedimientos aglomerativos, si bien, tam-
a) Los objetivos del estudio. bién pueden aplicarse cuando se realiza un análisis de conglomerados jerárquico di-
b) Las características de los datos a analizar: métrica de las variables y tamaño visivo. Dos de los más habituales son el promedio entre grupos y el método de Ward.
muestral, principalmente. Los dos algoritmos siguientes (partición binaria y el método de Howard-Harris) son dos
c) El método de conglomeración elegido: jerárquico y no jerárquiw. algoritmos específicos a la jerarquización divisiva. En cambio, los tres últimos se in-
d) Los límites operativos impuestos por la capacidad del ordenador y, en especial, cluyen en la conglomeración no jerárquica. Los algoritmos comúnmente llamados
del programa estadístico utilizado al efecto. "K-means" y "Quick cluster", pertenecen a los métodos de reasignación o de partición
iterativos. El análisi, modal de Wishart constituye, por el contrario, una aproximación
De la conjunción de estos factores puede suceder que se tenga que elegir entre al- tipológica en los métodos de búsqueda de densidad. Mientras que "block clustering",
goritmos igualmente aplicables a los datos concretos que se quiere clasificar. En tal Clf- propuesto por Hartingan, se incluye como algoritmo característico de los métodos di-
cunstancia, la mejor decisión puede ser probar varios algoritmos y, a la vista de los re- rectos de formación de conglomerados mediante procedimientos no jerárquicos.
sultados, elegir. Como bien apuntan Kaufman y Rousseeuw (1990: 37), "es permlslble
probar varios algoritmos en los mismos datos, porque el análisis de conglomerados pnn-
cipalmente se utiliza como una herramienta descriptiva o exploratoria, en contraste con A) Distancias mínimas
las pruebas estadísticas que se llevan a cabo para propósitos confirmatorios o infe-
renciales" . Del inglés "single-link" (eslabón único), también conocido como del "vecino
A continuación se descrihen algunos de los algoritmos más aplicados en la inves- más próximo" ("nearest neighbour"). Fue propuesto por Sneath en 1957 (en "The
tigación social. Ante la extensión que supondría informar de "todos" los algoritmos application of computers to taxonomy",Journal ofGeneral Microbiology, 17: 201-226).
250 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 3: Análisis de conglomerados 251

Constituye uno de los procedimientos más sencillos para formar conglomerados de mismo orden relativo de los valores en la matriz de similaridad. Esta propiedad
manera jerárquica. Como su nombre expresa, los conglomerados se constituyen si- no la presentan todos los algoritmos aglomerativos. .
guiendo el criterio de "distancia mínima". De acuerdo con este criterio, los objetos que 2. Su mayor facilidad de cálculo, que se materializa en dos aspectos importantes:
se agrupan son aquellos que presentan la menor distancia entre ellos o, dicho en otros uno, la mayor rapidez en la obtención de los conglomerados; dos, la posibilidad
términos, los más semejantes. de llevarse a cabo con tamaños muestrales elevados.
Los dos primeros objetos que se combinan son los más próximos entre sí. Los otros
objetos van, uno a uno, combinándose en un nuevo conglomerado, o uniéndose a un Chatfield y Collins (1980: 227) matizan que "el método es bueno para los datos que
conglomerado ya existente, depende del conglomerado hacia el que se sitúe a menor tienen significación ordinal sólo".
distancia. Pero, como en todo proceder, también se observan desventajas. Su principal in-
La distancia existente entre el nuevo objeto y el conglomerado es respecto al ob- conveniente es su tendencia a "encadenar" conglomerados, aparentemente distintos,
jeto en el conglomerado con quien el nuevo objeto tenga una menor distancia y, por por unos cuantos puntos intermedios que unen a ambos conglomerados. De esta
consiguiente, una mayor similitud. La distancia entre dos conglomerados cuales- forma se crean grandes conglomerados alargados, cuyos puntos extremos mantienen
quiera se calcula desde sus dos puntos (objetos) más próximos, como puede verse en una gran distancia entre ellos. 0, dicho con otras palabras, que son bastante disimilares
la figura 3.2. En ella se comparan los algoritmos de distancia mínima y de distancia má- entre sí, por lo que se pierde la homogeneidad en el conglomerado. Este inconveniente
xima. se da, sobre todo, en conglomerados que están escasamente delimitados.

B) Distancias máximas

Es una alternativa opuesta a la anterior, como expresa su propia denominación:


"eslabón completo" ("complete-link"), el "vecino más alejado" ("furthest-neigh-
bour") o, simplemente, la "distancia máxima". El criterio fundamental que rige la agru-
pación de los objetos es el opuesto al anterior: la distancia entre los dos objetos más ale-
jados (y no entre los más próximos, como sucede en el algoritmo de distancias
mínimas). Para que un nuevo objeto se incluya en un conglomerado ya existente es pre-
ciso que tenga un nivel elevado de similaridad con todos los miembros de ese con-
glomerado, y no sólo con aquél hacia el que tenga una menor distancia.
Esta consideración de las distancias hacia los miembros más distantes del con-
glomerado (que supone la valoración de todos sus integrantes) supone, inevitable-
a) Distancia mínima b) Distancia máxima
mente, la aplicación de un criterio para la formación de conglomerados más riguroso
Figura 3.2. Comparación de los algoritmos de distancia mínima y distancia máxima. que el aplicado en el algoritmo de distancias mínimas. Elimina la posibilidad de en-
contrar conglomerados encadenados, al no considerarse las distancias entre sus dos in-
tegrantes más próximos, sino entre los dos más alejados. Este proceder, sin embargo,
Este proceder en la constitución de conglomerados presenta varias ventajas im- suele provocar la creación de conglomerados "hiperesféricos, relativamente com-
portantes: pactos y compuestos de casos bastante similares" (Aldenderfer y Blashfield, 1984: 39).

1. Su mayor atractivo matemático. "Es el único método de agrupación jerárqui-


ca que satisface todas las condiciones" (Chatfield y Collins, 1980: 227). C) Promedio entre grupos
"Es invariante de transformaciones monotónicas de la matriz de similaridad
y no está afectada por ataduras en los datos" (Aldenderfer y Blashfield, 1984: Los algoritmos que (para la vinculación de objetos) siguen el criterio de "prome-
38). La primera de estas propiedades se considera bastante importante. Signi- dio", ya sea entre grupos o intragrupal, fueron propuestos por Sokal y Michener en
fica que el procedimiento de creación de conglomerados no se verá afectado por 1958 (en "A statistical method of evaluating systematic relationship", University of Kan-
cualquier transformación que se haga en los datos, siempre que ésta retenga el sas Scíentific Bulletin, 38: 1409-1438). De ellos la variante más comúnmente aplicada
252 Análisis multivariaMe. Teorfa y práctica en la investigación social Capítulo 3: Análisis de conglomerados 253

d' en t re grup OS" ("average '


es precisamente la llamada " prome.lO Iinkage
. between
h d jective function", Journal o[ ¡he American Statistical Association, 58: 236-244). Su
gr~ups"), a veces' también denominada UPGMA ("Unweighted Pmr-Group Met o objetivo principal es "optimizar" la varianza mínima intragrupal (la suma de cuadra-
nsing Arithmetic Averages"). . . 'terio básico de dos intragrupal). Para este propósito, la distancia entre dos conglomerados pasa a de-
Difiere de los dos algoritmos antenores en que Impone, como cn finirse como la suma de cuadrados entre los dos conglomerados, sumados en todas las
variables.
agrupación la distancia promedio de los integrantes de un conglomer.ado resp;ctT a
los pertene¿ientes a otro conglomerado. En el cálculo de la clistancia partIcIpan
integrantes del conolomerado y no sólo un único par de mIembros ext~emos ya sean
tt
os os Calcula la media de todas las variables de cada conglomerado. Luego se procede
al cálculo de la distancia (normalmente la distancia euclídea al cuadrado) entre cada
los más próximos y~ los más alejados). Esta consideración de todos los mtegrantes del objeto y la media del conglomerado en el que está incluido. A continuación, se suman
conglomerado co'nvierte a este algoritmo de clasificación en uno de los más aplIcados. las distancias de todos los objetos. En cada paso del proceso de agrupación se trata de
De hecho, es el algoritmo que se oferta por defecto en programas tan populares como combinar aquellos dos conglomerados que provoquen el menor incremento en la su-

S~~~ aplica~,
ma total de las distancias al cuadrado dentro de los conglomerados. Esto significa que
el vez que el investigador decide qué medida de distancia se procede a ca;- se unen aquellos objetos o conglomerados que ocasionan un menor incremento de la
cular la distancia de cada objeto de un conglomerado con todos los objetos de los ~e~.as varianza intragrupal. Ésta se trata de minimizar en todo el proceso de agrupación.
conglomerados Después se calcula el promedio de todos ellos. De esta manera,. a IS- Este algoritmo provoca los mismos inconvenientes que el llamado de distancias má-
tancia entre dos. ,
conglomerados queda def'1m'd a corno e1promedio de las dIstanCias en- ximas. Es decir, tiende a generar conglomerados de forma hiperesférica y de tamaño
.
tre todos los pares de objetos. . b ro de1par p e
Un mlem tenece
r . a cada uno de .los .con- relativamente igual. Ello se debe a que están integrados, aproximadamente, con los mis-
glomerados formados. Nourisis (1986) y Bisquerra (1989) lo Ilustr~n¡on el sI~u~en~e mos objetos. A esto se añade otro problema comúnmente observado: la tendencia a
eJ' emplo- si los individuos 1 y 2 componen el conglomerado A, y los m IVId uO '- 'd Y ' combinar conglomerados con un número pequeño de observaciones (Aldenderfer y
.
el conglomerado . . entre l
B, la dIstanCIa osIcong
ad omero s A y B será el promed lO 5e las Blashfield, 1984; Hair el al., 1992 y 1999).
distancias entre los siguientes pares de casos: (1, 3), (1,4), (1,5), (2, 3), (2,4) Y(2, ). 1
Dos son los inconvenientes principales qne se observan en la aplIcaCIón de este a -
goritmo de clasificación: F) Método del centroide

1. Tiende a combinar conglomerados con varianzas p~qu~ñas. t 1 misma va La distancia se define como la habida entre los centroides grupales (o vectores de
2. Sesgo en la creación de conglomerados con aproxIma amen e a - la media grupal). Éstos se obtienen de la media de las variables en el conglomerado,
rianza (Hair et al., 1992 y 1999). de manera que, el valor del centroide se ve afectado por los cambios que acontezcan
en la composición de los conglomerados. Su valor cambia con cada variación en la con-
figuración del conglomerado.
D) Promedio intragrupal Si uu nuevo conglomerado surge de la combinación de dos conglomerados ya exis-
tentes, el nuevo centroide será la combinación ponderada de los centroides corres-
Constituye la variante del algoritmo anterior. Los conglomerados que se agrupan pondientes a los dos conglomerados individuales. Su peso será, asimismo, proporcio-
son aquéllos cuya unión presenta la menor distancia promedIO. De dos en dos se .agr~­ nal al tamaño de los conglomerados respectivos.
an los objetos en conglomerados- Después, se calcula el promedio de las dlstancJa~ e Frente a los otros algoritmos de clasificación, el método del centroide ofrece la ven-
fodos los integrantes del conglomerado, de acuerdo con la medida de dIstanCIa eleg~a. taja de ser, de los procedimientos jerárquicos, el menos afectado por la presencia de atí-
La combinación o agrupación de conglomerados se produce entre aqnellos cuya . :s- picos. Pese a ello se observan dos inconvenientes principales en su aplicación:
.
tancia promedio entre todos los mtegrantes de1cong1omerado que resulte de la umon
sea la menor posible. 1. Los últimos conglomerados que se forman suelen ser menos homogéneos que
los creados en las fases iniciales del proceso. Esto se debe a la disminución
que se produce en el valor de la distancia que permite la unión de dos conglo-
E) Método Ward merados. Esta distancia disminuye paulatinamente de un paso al siguiente.
2. Como sucede con el método Ward y el método de la mediana, el método del
También conocido como "momento central de orden dos" o '~pérdida de i~ercia mf- centroide precisa, igualmente, que los datos a clasificar sean métricos. Este re-
nima". Fue diseñado por Ward en 1963 (en "Hierarchical groupll1g to optnmze an ob- quisito limita bastante su aplicación en la investigación social, donde es habitual
Capitulo 3: Análisis de conglomerados 255
254 Análisis multivariable. Teoría y práctica en la investigación social

la resencia de variables cualitativas. Cuando esto sucede, h,abrá que elegir pre- el hecho de que los conglomerados se crean mediante la división de conglomerados de
p . I d los otros algoritmos de clasIfIcaciOn adecuados a este mayor tamaño. El procedimiento seguido es, igualmente, secuencial, aunque difiere en
fereutemente a guno e . r' " d que su aplicación no se limita a variables binarias, extendiéndose a otros tipos de va-
ti o de variables. Además, estos últimos algoritmos permIten la ap IcacI,on e
p . d'd d . 'dad En los algoritmos del centrOlde, de la medwna riables. A ello se Suma la particularidad de que el proceso de formación de conglo-
cualqUIer me 1 a e proxlml . . 1m I merados sigue el criterio fundameutal de que con cada división se logre hacer mínima
Yde Ward, sin embargo, la medida de distancia que se aplIca norma ente es a
la varianza intragrupal. Esto significa que se quiere crear conglomerados cuyos inte-
euclidea al cuadrado (subapartado 3.3.4).
grantes sean muy homogéneos entre sí y diferentes de aquellos que componen otros
conglomerados. En consecuencia, la división de conglomerados en dos (o posterior-
G) Método de la mediana
mente más) conglomerados de menor tamaño se produce sólo cuando dicha división
favorece la homogeneidad de los conglomerados.
A las características mencionadas en el párrafo ~nterior, se ~~~~:~~~fo~~~:t~e~~
que le distingue de los otros algoritmos de clasificaciOn (en,e~e~c;nglomerado no afec-
troide): cuando se aplica el método de la medwna, el tamano e J) K-means
ta al cálculo del centroide. b' .• d d' a
Tras la creación de un nuevo conglomerado, a partir de la c0111: lllaCiOn e os y Éste es el algoritmo más característico y de mayor aplicación en los métodos de
existentes el nuevo centroide (del conglomerado recién creado) es, Igualmente, l~ co~­ conglomeración no jerárquicos. Fue diseñado por McQueen en 1967 (en "Some me-
binación ~onderada de los centroides correspondientes a I~s dos ~on~~~~:~: l~s~~~ thod for classification and analysis of multivariate observations", Proceedings 5'h
dividuales iniciales. Pero, a diferencia del método del centrol e, ~n e I m ta año Es Berkeley Symposium, 1: 281-296), como un procedimiento para la clasificación total-
diana el eSO atribuido a cada conglomerado no es proporciOna a su m . mente opuesto a la conglomeración jerárquica. Este procedimiento puede resumirse
indepenlente del número de integrantes que exista en ~ada conglo::~:~~~:~~::nl~~ en cuatro pasos básicos:
Este proceder en la constitución de conglomerados avor~ce, m f t la ca~acte-
conglomerados de menor tamaño. Éstos pueden tener el nusmo e ec ~ en de com 1. El investigador especifica el número de conglomerados que deben formarse con
d 1 onglomerados de mayor numero - los datos. El valor "K" expresa dicho número (por ejemplo, K ~ 4 conglome-
rizaóón de nuevos conglomera os que os c . al t el método del
ponentes. A esta ventaja principal se suma la dIcha respec o en rados, 3, o los que se decida).
centroide, al igual que sus lllconvementes. 2. Se calculan los centroides iniciales de los conglomerados. En caso de no disponer
de esta información previa (cuando no se parte, por ejemplo, de conglomera-
dos ya constituidos mediante algún procedimiento jerárquico u otro algoritmo
H) Partición binaria de clasificación), el programa informático que se use para su realización los es-
tima iterativamente, utilizando los valores de los "K" primeros casos en el fi-
Este octavo algoritmo de clasificación se ubica en los métod~s ~erárq~cos di::¿~ chero de datos como estimaciones "provisionales" de los centroides (de las "K-
vos (o de partición). Por medio de él se pasa, de forma stcuenc~~~ d: ::no~7':'año medias" de los conglomerados; donde "K", recuérdese, expresa el número
más genéricos o globales a un pequeño número de cong omer~ . ' de conglomerados especificado por el investigador).
gracias a la "partición" o "división" de los conglomerados ongmales'd' mbre' 3. Mediante un proceso iterativo se asignan los objetos a los conglomerados a cu-
Su uso se restringe, preferentemente, a variables bin~Ylas: como m Ica su n~ : yo centro se sitúen más próximos. Para ello se calcula la distancia entre todos
"de partición binaria". Esta peculiaridad favorece su aphc~clon cuando se analizan~:_ los objetos (casos o variables) y los centroides. La medida de distancia más uti-
. • b' . "Aunque los algoritmos d1V!s!Vos generalmente son lizada en este algoritmo es la distancia euclídea.
nables en su mayona marIaS. . uede sostenerse con es-
nos eficientes que los algoritmos aglomeratrvos, lo opuesto p 4. Tras cada reasignación de los objetos a los conglomerados se vuelven a calcu-
te tipo de datos" (Chatfield y Collins, 1980: 224). lar los centroides de los conglomerados. Esto supone el cálculo de los valores
promedio para las variables que caracterizan al conglomerado, tomando en Con-
sideración los objetos ahora asignados a los conglomerados.
1) Método de Howard-Harris Los nuevos centroides pueden provocar una nueva reasignación de objetos
Otro de los algoritmos aplicados en la conglomeración jerárquica di~isi;a ~~ el ?a')
a conglomerados a cuyo centroide se encuentren más próximos. A cada modi-
ficación en la composición de los conglomerados le sigue un nuevo cálculo de
Howard-Harris. Este último comparte con el anterior (el método de partlClOn mar
Capitulo 3: Análisis de conglomerados 257
256 Análisis multivariable. Teoría y práctica en fa investigación social

los centroides, lo que puede provocar un nuevo desplazamiento de objetos a


otros conglomerados. Y, así sucesivamente, hasta que un nuevo recálculo de los
centroides no provoque ninguna alteración en la composición (volumen y ca-
racterísticas) de los conglomerados.
También puede suceder que se haya llegado al número máximo de itera-
ciones posible. En el programa SPSS, por ejemplo, el número máximo de ite-
raciones, aplicado por defecto, para actualizar los centroides mediante un pro-
cedimiento iterativo es 10. En cada una de dichas iteraciones los objetos se
asignan por turnos al centroide más cercano. Cada iteración provoca un nuevo K) Análisis modal de Wishart
cálculo de los centroides.
Al final del proceso iterativo se obtiene los centroides finales. Es factible que
P01~~~~e~~~~sa~O¡t~~:;:~~ de c~si~cadción que proporcionan una aproximación ti-
éstos no coincidan con los "iniciales", sobre todo cuando se ha producido un nú- , . usque a e ensldad, dentro de la conglomeracio'n no ,'e
mero elevado de iteraciones y, en consecuencia, de modificaciones en la com- rarquzca. -
posición de los conglomerados. " Como pue~; deducirse de su nombre, este algoritmo se distingue or buscar
le~~to~ de~sos ; es deCIr, por localizar zonas donde exista una mayor co!entración
A diferencia de los procedimientos jerárquicos, que proporcionan varias clasifi-
caciones alternativas de los datos (al considerarse diversos números de conglomera- de~.tr~ d~&u~': ~i~::e:~~~as~~~:~~:Sá~!~t~:~~:;ed~: !~:s:e~~~~~S~!'k"°:s~:~~~~
dos), K-means sólo proporciona una solución. Ésta se atiene al número de conglo- ~e ~~nto udsca una hlperesfera de R radios alrededor de cada punto. Ade~ás cuen-
merados previamente especificado por el analista. Este proceder es común a la a e numero e otros puntos dentro de esta hiperesfera. '
conglomeración no jerárquica y tiene el peligro de no ajustarse a la realidad. Por esta
razón, se recomienda que, a menos que se disponga de una clasificación previa (que re-
sulte de un análisis de conglomerados inicial, principalmente jerárquico), se prneben L) Block clustering
varias clasificaciones alternativas. Esto se puede hacer de forma automática, dejando
que el ordenador pruebe distintos valores de "K" y, finalmente, escoja el modelo más Clus~ste ú1t:mO~gOritmo de clasificación fue propuesto por Hartingan en 1975 (en
relacionado con algún criterio numérico. El investigador también puede realizar esta enng a gont ms, Nueva York, John Wiley). A diferencia de los demás al .
comprobación (de forma manual), probando varias soluciones, con diferentes valores busca la conglomeración. conjunta de individuos y de variables. Asimismo se ~~;:t:;~~
de "K". Para ello realizará el análisis de conglomerados varias veces. De las distintas ~~r1~d:~~~~~ má~.~ van~b~s cualitativas (o no métricas), preferiblemente, de me~os
agrupaciones posibles escogerá aquella que proporcione una interpretación más sig- . nas. 1 a vana le. ~uese, P<?f el contrano, continua, habría que proceder
nificativa, tanto desde la vertiente estadística como de la lógico-sustantiva. prevIamente a su transfonnaclon en variable categ6rica.

~~~~f:e~~~{~7:i~~~~c:: f~::l~~~g,?~~::~~;,(~:;~~::rr~~;~:)n~::i~::!:~:~:
K-means (o K-medias) se presenta como una opción ideal cuando se manejan ta-
maños muestrales elevados (superiores a 200 unidades). Además, ayuda a la detección
decasos atípicos, al proporcionar la distancia de cada caso al centro del conglomera- . smu ar so ~e un conjunto de vanables para cada caso. Los casos ara cada va-
do al que ha sido asignado: si se halla muy próximo o, por el contrario, está muy ale- nable pueden conSIderarse como conglomerados de variables (Bisquer~a, 1989).
jado, lo que le convierte en atípico. Éstas son dos de sus ventajas principales. A ellas
se une otra que distingue a este algoritmo de clasificación: la posibilidad de identificar,
con cierta precisión, aquellas variables que más contribuyen a la caracterización del gru- 33.4. Medidas de distancia y de similaridad
po. Esta identificación de variables "relevantes" es posible porque este procedi-
miento de conglomeración incluye el cálculo de estadísticos F univariados para cada T De ~a lectura del subapartado anterior puede concluirse que los algoritmos de cla-
SI IcaClOn operan a partIr de dos matrices de datos básicas: .
variable que compone el conglomerado.
En contra del procedimiento K-means está el no ser un algoritmo de aplicación uni- a) Una m~triz N x p (de casos por variables), donde las filas se corresponden a los
versaL Al utilizar los centroides como criterio básico que determina la pertenencia al casos y as cbolumnas a las vanable& Esto sucede cuando los casos se representan
conglomerado, y aplicar la distancia euclídea para medir la distancia que separa al ca- por sus atn utos en las variables.
so del centraide, su uso se limita a variables métricas. Asimismo, se recomienda que és-
258 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 3: Análisis de conglomerados 259

b) Una matriz de proximidad para todos los pares de objetos, ya sean casos (N x N) a) Coeficientes de correlación.
o variables (p x p). La matriz de proximidad puede ser, a su vez, de distancia o b) Medidas de distancia.
de similaridad: c) Coeficientes de asociación.
d) Medidas de similaridad probabilística.
1. De distancia, si mide 10 alejado que se hallan dos objetos, uno respecto al
otro. En la exposición de los distintos coeficientes de similaridad aquí se va a seguir la cla-
2. De similaridad, cuando se mide la similitud o semejanza existente entre sificación resumida en el cuadro 3.3. Esta clasificación responde al nivel de medición
los objetos a ser clasificados. De modo que los valores elevados indican de las variables. Se ha elegido e~te criterio por ser el que más incide en la decisión de
mayor "similitud" entre los objetos que se comparan, a diferencia de la qué medida de similaridad O distancia escoger. En cada grupo, las opciones que se ofer-
matriz de distancia, en la que son los valores bajos los que expresan "simi- tan son varias. Lo más factible es que cada una provoque Una solución de conglome-
litud" entre los objetos. ración diferente. Esto lleva a la recomendación reiterada (como sucede con los métodos
de conglomeración y los algoritmos de clasificación) de aplicar, en los mismos datos,
diversos coeficientes de similari&ld. De las distintas soluciones se escogerá aquella que
Los criterios a seguir para determinar qué objetos se combinan para formar un Con- siendo relevante, desde la vertiente estadística, proporcione una interpretación más
glomerado se basan, fundamentalmente, en alguna de estas dos matrices (de distancia acorde en relación con el marco teórico de la investigación.
o de similaridad, entre pares de objetos). Si bien, las opciones posibles son iguahnente El cuadro 3.3 incluye una selección de medidas de distancia o similaridad. Aunque
variadas. el cuadro sea extenso, hay que indicar que no logra abarcar el amplio abanico de me-
Se pnede, por ejemplo, calcular coeficientes de correlación, a partir de una matriz didas propuestas hasta la fecha.
de correlación, como forma alternativa de comprobar la "similaridad" de los objetos.
Como los valores próximos a 1,0 expresan semejanza y los situados en 0,0 disimilari-
A) Variables continuas
dad, aquellos objetos que muestren intercorrelaciones elevadas (ya sean positivas o ne-
gativas) -en la matriz de correlación- comparten patrones similares. Cuando las variables son continuas, pueden aplicarse tanto medidas de distancia
No obstante, se advierte que "las medidas de correlación se utilizan rara vez por- como de similaridad. Aunque son más habituales las primeras, en especial, la distan-
que el interés de la mayoría de las aplicaciones del análisis de conglomerados está en cia euclídea al cuadrado.
las magnitudes de los objetos, no en los patrones de los valores" (Hair et al., 1999:
502-503). A.l. Medidas de distancia
Los conglomerados que se basan en medidas de correlación suelen caracterizarse
por tener patrones similares. Los conglomerados basados en medidas de distancia tie- Los coeficientes que a continuación se exponen miden la "distancia" o "disimilaridad"
nen, en cambio, valores más parecidos para el conjunto de variables, aunque sus pa- ~ntre los ob!etos a clasific~r. Su valor siempre será positivo (di";' O), no habiendo ningún
trones sean bastante diferentes. Y, como el interés se sitúa más en las "magnitudes" que límite supenor al nusmo. SI bIen, cuanto mayor es su valor (más se distancie de O), mayor
en los "patrones", el empleo de medidas de distancia o, en su caso, de similaridad, es es la dispandad entre los dos objetos medidos (i y j). Un d .. = Oexpresa inexistencia de dis-
más predominante en el análisis de conglomerados. ta~cia entre los ~os objetos. Lo que significa que son "idénticos" o muy similares, pu-
Ambas medidas (de correlación y de distancia) se adecuan más a variables métri- dlendose descnblr cada uno dé: ellos mediante las variables referidas al otro.
cas (o cuantitativas). Para variables cualitativas (o no métricas) existen unas medidas La matriz de distancias es una matriz cuadrada, que se confecciona a modo de la
de similaridad alternativas. Para datos binarios se han propuesto "medidas de simi- siguiente:
"p" variables
laridad probabilística", COmo fueron denominadas por Sneath y Sokal (1973). Estas úl-
timas se caracterizan por calcularse a partir de datos brutos, y no de matrices de dis-
tancia-proximidad. Mediante ellas se trata, igualmente, de comprobar cuál es la "N" objetos
combinación de objetos que proporciona la mayor ganancia de información para
proceder a su fusión y consiguiente constitución de conglomerados. . ...................................... .
En resumen, desde la propuesta de Sneath y Sokal de 1973 (en Numerical Taxo· ........................................
nomy, San Francisco; W. H. Freeman) son cuatro los tipos genéricos de coeficientes de
similaridad que pueden aplicarse en el análisis de conglomerados:
260 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 3: Análisis de conglomerados 261

CUADRO 3.3. Medidas de distancia o de similaridad, según el nivel de medición


de las variables
Las filas corresponden a los objetos (o casos) mientras que en las columnas se po-
sicionan las "p" variables analizadas. En tamaños muestrales elevados, esta matriz ad-
A. VARIABLES A.1. Medidas de distancia " 1.1. Euclídea quiere Una gran magnitud, lo que difieulta su correcta lectura e interpretación.
CONTINUAS a 1.2. Euclídea al cuadrado
1.3. D2 de Mahalanobis A.l.l. Distancia euclídea
1.4. De Manhattan o "city~block"
01.5. De Chebychev Una de las medidas de distancia más populares, cuando se analizan variables
011.6. De Minkowski continuas, es la distancia euclídea. Esta medida de distancia se obtiene de la aplicación
1.7. De un poder métrico absoluto del teorema de Pitágoras. Este teorema dice que la hipotenusa al cuadrado es igual a
2.1. Correlación de Pearson
la suma de los cuadrados de los catetos, como ilustra la figura 3.4.
A.2. Medidas de similaridad G

a 2.2. Cosenos de vectores de valores

B. VARIABLES B.1. Medidas de similaridad o 1.1. De Jaccard X;i' X;2

BINARIAS 1.2. De casación o parejas simples


• 1.3. De Russel y Rao 2.' coordenada IX" _ Xi 21 .f(X:~ X i,)2 + (X" - Xi')'
.1.4. De Dice
.1.5. De Rogers y Tanimoto
_1.6. De Kulczynski 1
-1.7. De Sokal y Sneath
.1.8. De correlación punto 4 phi (~)
-1.9. De Ochiai
.. 1.10. De dispersión

B.2. Medidas de similaridad • 2.1. De Kulczynski 2 1.a coordenada


de probabilidades .2.2. De Sokal y Sneath 4
condicionales ~ 2.3. De Hamann Figura 3.4. Representación gráfica del teorema de Pitágoras

B.3. Medidas de similaridad - 3.1. Lambda de Goodman y Kruskal En el gráfico puede verse que si "x,p X,2" es un punto en el plano de coordenadas
de predicción - 3.2. D de Anderberg (Xl' X 2), correspondiente al objeto i, y "Xo' JS2" es otro punto del plano, perteneciente
· 3.3. Y de Yule al objeto j, la distancia entre ambos punios viene dada por:
·3.4. Q de Yule

BA. Medidas de disimilaridad .4.1. Euclídea binaria d" = .J(X


il - X'I)2 + (X'2 - xpl'
o distancia · 4.2. Diferencia de tamaiío
'4.3. Diferencia de patrón Siguiendo este teorema. la distancia euclídea se define como la raíz cuadrada de la
4.4. Diferencia binaria de forma suma de las diferencias cuadradas entre los valores de la variable K (XK)' para el ob-
4.5, Varianza disimilar jeto i y el objeto j. Y esto para todas las p variables que se analizan.
4.6. De Lance y WilIiarns

C. VARIABLES c.l. Medidas de similaridad 01.1. Chi-cuadrado


CUALITATIVAS ~ 1.2. Phi-cuadrado
NO BINARIAS
Donde: "d,." representa la distancia entre los casos i y j.
D. VARIABLES EN D.l. Medidas de similaridad 1.1. Coeficiente de símilaridad de "X,K" es el valor de la variable XKpara el caso i.
DIFERENTES Gower "X,/' es el valor de la variable X K para el caso j.
NIVELES DE
MEDICIÓN - Cnando las variables están estandarizadas, las variables X,K y JSK se expresarían res-
pectivamente como Z'K y ZjK.
262 Análisis multivariable. Teorla y práctica en la investigación social
Capítulo 3: Análisis de conglomerados 263

A.1.2. Distancia euclídea al cuadrado <t Tomando las unidades de medición originales de las variables:

Es la medida de distaucia empleada por defecto para datos de intervalo (Nourisis,


1994), en especial, cuando se agrupan casos. De hecho, es la medida recomendada en (45-30)' +(7 -2)'; 152 +(_5)2; 225+25= 250
los algoritmos del centroide y de Ward.
Se define como la suma de las distancias (o diferencias cuadradas) entre los valores e En unidades estandarizadas:
de la variable K, para los objetos i y j, en todas las variables analizadas.
(1,1- 0,1)' + (1,9 - 0,1)2 ; 12 + 1,8 2 = 1 + 3,24 = 4,24
d~; Í,(X iK -XwJ'
K=l
Si Se c~mpar~n ambos n:sultados, puede observarse que la variable "edad", en su ni-
Un problema importante que se detecta en la aplicación de esta medida de dis- vel de medida onglOal (en a~os), supone el 90% de la medida de distancia. Al transfor-
tancia (aunque es igualmente extensible a otras medidas) es la desigual influencia de marse en Unidades estandanzadas, su influencia se reduce al 23 6°' lo t
efecto de la e t d ' ., . . ' '0, que mues ra el
las variables, cuando éstas se hallan en diferentes unidades de medida. Las variables s an an~aclOn, de minimizar las diferencias grupales. Esto debería consi-
que incluyen valores más elevados (de mayor variabilidad) -sea el caso de la variable de~~rse cuando se este ante la decisión de tomar a las variables en sus unidades de me-
dlclon onglnales o proceder a su estandarización
ingresos, por ejemplo- contribuyen más a la medida de distancia que aquellas que in-
cluyen un menor rango de valores (como las variables edad, calificación académica u
horas de descanso, por ejemplo).
La manera más popular de resolver este problema es estandarizar las variables. La es- A.l.3. Distancia D 2 de Mahalanobis
tandarización tiene el efecto beneficioso de reducir la influencia del tamaño relativo de las
variables. Pese a ello, diversos autores (como Aldenderfer y Blashfield, 1984; Nourisis, 1986) " Propuesta p~r Mahalanob~s en 1927, aunque su divulgación se posterga a 1936 (en
advierten que la variabilidad de una medida particular puede proporcionar información On the generalIzed dIstance m stabstIcs", India: Proceedings of the National Instit _
útil. La estandarización, en cambio, puede provocar el efecto adverso de mininrizar las di- te of Sclence, 12: 49-55). u
ferencias grupales. Su aplicación se haria antes de proceder al cálculo de la distancia y, pre- . C~nstituye nna extensión de la distancia euclídea, a la que incorpora la estanda-
ferentemente, cuando el rango de una variable sea bastante superior al de otras variables, flzaClOn. Ello p~rmIte medIr las .respuestas en unidades de desviación típica, además
cuya influencia conjunta en la clasificación de objetos trata de medirse. de realizar ,los ajustes medIante mtercorrelaciones entre las variables.
En el cálculo d~ la dIstancia ahora interviene la matriz de varianza-covarianza (.l: )
que ajust~ fara las ll1tercorrelaciones entre las variables. Esto es importante por ue e~
la aplIc~clOn del anahsIs de conglomerados se ha observado (Haír et al., 1992 y'\999)
que senes bastante mterc?rrelacionadas de variables pueden, implícitamente, sobre-
ponderar un~ sene de vanables en la formación de los conglomerados. Al incluirse la
matnz de v~flanza-CovaYl~nza se trata, precisamente, de evitar esto. La distancia de Ma-
halanoblS ajusta pru:a las mtercorrelaciones y pondera todas las variables de igual ma-
Como ilustración del efecto de la estandarización en el cálculo de la distancia euclídea se to- nera, lo que la conVIerte en l~ medida de distancia más apropiada cuando las variables
ma el ejemplo dado en el manual del SPSS (1997) por su claridad expositiva. Dice lo siguiente: están ba~tant~ mtercorrelacIOnadas positiva y/o negativamente.
La dist~ncIa entre dos objetos se obtiene, mediante la medida de Mahalanobis del
Unidades originales Unidades estandarizadas producto SIgUiente: d 1,).. = (x., - x.)'''\:' -'(xí _ Xi ) ,
,L..,¡
Edad Renta Edad Renta
Juan 45 7 1,1 1,9 Donde' "
.
L -1" l' .
es a Inversa de la matnz de varianza-covarianza intragrupos
David 30 2 0,1 0,1
"x/' y''x¡'' s?n vectores de los valores de las variables para los objetos i'y j.
La variable "edad" se halla medida en años y la variable "renta mensual", en miles de dó- La pnma ( ) mdICa la matriz transpuesta.
lares. Aplicando la fórmula de la distancia euclídea al cuadrado para los dos casos (Juan y
David). respecto a las dos variables analizadas. se obtienen los valores siguientes: Asimismo, la distancia de Uu objeto al centro del grupo (centroide) viene dada por:
Capitulo 3: Análisis de conglomerados 265
264 Análisis mu.ltivariable. Teoria y práctica en la investigación social

o Su us~ se recomienda en "aquellas situaciones donde, por ejemplo, una diferencia de

1 ~n la pnmera vanable y de 3 en la segunda variable es la misma que una diferencia


de 2 en la prnnera vanable y de 2 en la segunda variable" (Kaufman y Rousseew, 1990: 13).
Su valor expresa la distancia del objeto hacia el centro (O centroide). Éste se define
en consonancia con el conjunto de variables que configuran el conglomerado Yle di- Al.S. Distancia de Chebychev
ferencian del resto. Valores D 2 muy elevados indican que el objeto al que correspon-
de el valor se halla muy distanciado del centroide del conglomerado donde se le ha cla- , Difiere de la distancia de Manhattan en que sólo considera la diferencia absoluta
sificado. De esta forma, D2 ayuda a la detección de atípicos ("outliers"): los objetos maxi,?a de los val~res de las variables. Lo que supone "ignorar mucha de la infor-
situados fuera del rango de valores esperados en una variable. maClOn dlspomble (Nounsls, 1986: B-82). Su definición es la siguiente:
La D2 de Mahalanobis es comparable a la aplicación de R2 en el análisis de re-
gresión lineal en la medición de la distancia entre objetos. Pero no todos los programas
estadísticos incluyen esta medida de distancia. Cuando esto sucede, las preferencias se
decantan por la distancia euclídea al cuadrado. Además, ambas medidas de distancia A.1.6. Distancia de Minkowski
son equivalentes, cuando las variables no están correlacionadas.
El cálculo de la D' de Mahalanobis ofrece, como ventaja, la posibilidad de estimar
fi Se conside~a ~n,~ generalización de la distancia euclídea y la de Manhattan. Se de-
la F de Fisher y utilizarla como prueba de contraste (Bisquerra, 1989). ne como la rmz. q de la suma de las diferencias absolutas a la potencia "q" entre los
valores de la vanable K para el caso "i" y el caso "j".
F = D' npnq(np + nq - v -1)
(n p + nq)(np + nq - 2)v

La F de Fisher se distribuye según la distribución F de Snedecor, siendo sus grados


de libertad "v" y '''n + n-V - 1", respectivamente. "n " y "'n " indican el número de . D01nde "q" .es un ?úmero real ~ 1. Cnando q = 2, se está ante la distancia euclídea
. p. q . P q
objetos de las poblacIOnes correspondientes. SI q = , es la distanCia de Manhattan. .

A1.4. Distancia de Manhattan o "city-block" A.l.? Distancia de un poder métrico absoluto

A diferencia de las medidas anteriores, la distancia de Manhattan considera la su- Se distingue de la distancia de Minkowski en que la raíz y la potencia a la que se
ma de las diferencias absolutas de los valores de las variables y no su cuadrado. Ello in- eleva la diferenCia entre los valores de la variable difieren.
cide en la menor ponderación de las diferencias grandes.

d¡¡ = 'LIX¡k -X¡kl


K",¡

Los requisitos matemáticos son los mismos de la función de distancia euclídea. A A2. Medidas de similaridad
decir:
En vezde emplear un coeficiente de distancia (d ..) para medir lo alejO ados que es-
a) La distancia siempre es un número positivo: di" ¿ O. tán. dos objetos .("." J ' al
i y.""") ·
ternatlvamente se puede~ aplicar un coeficiente de simi-
b) La distancia de un objeto consigo mismo es ce~o: d¡¡ = O. larl~ad (9. A,~iferencla d~, los coeficientes de distancia, los de similaridad miden la "se-
c) Simetría de la función de distancia: d .. = d ... mejanza o,la proximidad eXistente entre dos objetos. Por esta razón ahora interesa
d) Desigualdad de triángulo: ir directani'ent6'de i a j es más corto que hacer una la obtenc~on de coefiCIentes de similaridad elevados porque expresan '''similitud'' e~­
desviación sobre el objeto h: d¡¡:,> di!, + d hr tre los objetos a clasificar.
266 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 3: Análisis de conglomerados 267

Los coeficientes de similaridad típicamente tienen un rango de valores de Oa 1. El A.2.2. Cosenos de vectores de valores
1 expresa similaridad máxima, mientras que el O, inexistencia de similaridad.
Estos coeficientes cumplen las mismas condiciones que los coeficientes de distan- Un~ medida de similaridad de uso menos generalizado que el coeficiente de co-
cia. Éstas se resumen en tres principales: rrelaclOn, que Se oblIene del Siguiente cociente:
P
a) Oo> Sij o> 1
b) Sij::= Sji I.,XiKX jK
l
c) Sil = 1 Cosi} == r'il:",°k~'"jpF~~

LX;~LX:K
Sus valores se obtienen de una matriz de similaridad (N x N). Adviértase que sus K",t K",t
valores SOn los adversos a los de distancia, ya que: Sij = 1 - dij'
B) Variables binarias
A.2.1. Correlación de Pearson
El coeficiente de correlación más popular es el de Pearson, aunque igualmente pue- Las variabl~s binarias ,~on variables que incluyen sólo dos opciones de respuesta,
den aplicarse otros, como el de Spearman o el de Kendall. a modo de las SIgUIentes: a favor"-"en contra'" "sf'-"no'" "var6n"-"muj'er'" "a ~
b~d?""
- susp~n~o." E l ' de datos estas variables
n a mat~lZ " normalmente aparecen, conpro
los
El coeficiente de correlación de Pearson originariamente se define como "un mé-
todo para correlacionar variables". También se ha utilizado "en la clasificación cuan- codlgos numencos 1 o O: El codlgo 1 suele aplicarse para denotar la presencia del atri-
titativa para determinar la correlación entre casos" (Aldendener y Blashfield, 1984: 22). buto que se mide (por ejemplo, "a favor", "sí", "aprobado"). El código numérico Ose
En este contexto, este coeficiente se define del modo siguiente: atnbuye, por el contrario, a la inexistencia del atributo en cuestión ("en contra"
"no"" , suspenso")P , sea la codificación predominante existen otros,
. ero, aunque esta
proc~dlmlentosde codificación alternativos. La mayoría de los paquet~s estadísticos
pern,uten la opción de emplear otros valores integer para indicar la presencia o la au-
sen~\a del atnbuto de una variable. Recuérdese lo dicho al respecto en la creación de
vanables flcttczas, que adquieren la codificación binaria.
Las variables nominales pneden, de hecho, transformarse en biuarias. Si la variable in-
cluye más de dos categorías (por ejemplo, las variables religión, estado civil, nacionalidad),
Donde: "X;/' es el valor de la variable i para el objeto j. cabe la opcIón de convertrr cada categoría de la variable en biuaria. De esta forma la va-
"X."
J
es la media de todos los valores de las variables para el objeto j. nable "estado civil", por ejemplo, se transforma en 5 variables binarias. A decir,'

Cuando las variables están estandarizadas, el símbolo "Z" sustituye a "X" en la Categorías u opciones de respuesta
fórmula.
A diferencia de otras medidas de similaridad, el rango de valores del coeficiente de Variables Si No
correlación de Pearson va de -1,00 a +1,00. Si r" = O, la relación entre los objetos es ine-
xistente. La relación entre ellos anmenta conforme más se aproxime r ij a 1. Xl Soltero 1 O
Pero, a diferencia del análisis de regresión lineal, en el análisis de conglomerados X 2 Casado 1 O
el signo que acompaña al coeficiente de correlación ( r ) na siempre es interpretable. Se X 3 Viudo 1 O
toma el valor absoluto del coeficiente como medida de similaridad, al proporcionar el X 4 Divorciado/separado 1 O
grado de relación entre las variables. El signo sólo indica la dirección de la relación. De X, En pareja 1 O
ahí que se recomiende (Nourisis, 1994) mantener el signo sólo cuando se quieren COn-
glomerados únicamente para variables correlacionadas positivamente.
La aplicación de la correlación de Pearson es más habitual cuando se desea con- . Asimjsmo, podría decidirse dejar la variable "estado civil" en Una única variable
glomerar variables, más que casos. Para estos últimos, la distancia euclídea al cuadra- bmarza. E~:~ POdrí: ser, po: ejemplo, soltero 1, no soltero O. Las otras categorías di-
do suele presentarse como la mejor opción. ferentes a soltero quedanan, de esta forma, agrupadas en la opción "no soltero".
268 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 3: Análisis de conglomerados 269

Esta última alternativa de codificación binaria presenta, no obstante, el gran in-


y de disimilaridad), a continuación se muestra CÓmo se configura la matriz de . '1
conveniente de suponer una pérdida importante de información. Esto incide en la apli- "dad (o en su caso de distancia) para variables binarias: slml a-
cación más generalizada de la primera opción de codificación binaria, aunque suponga
una mayor complejidad en los análisis. Consiste en la transformación de toda variable Objeto j
nominal en varias variables binarias. Su número lo determina el número de categorías
1 O
que incluya la variable originaL
Respecto a las variables ordinales, el proceder más habitual es darles el tratamiento
de variables de intervalo. Su tratamiento a modo de variables nominales supone una 1 a b
pérdida de información relevante. Objeto i a+b
Por último, si se quiere analizar, de forma conjunta, variables en diferentes nive-
les de medición (métricas y no mhricas), como es práctica habitual en la investigación o e d c+d
social, se puede optar por transformar todas las variables de interés en variables bi- L-.

narias. Ello facilitaría su tratamiento conjunto. En este caso, las variables de interva- a+c a+d p
lo se transformarían en binarias. Un procedimiento a seguir sería seleccionar un valor
"central" y atribuir el código numérico Oa todo valor que se sitúe por debajo de dicho
referente; y el código 1, para los que se hallan por encima del valor "central" elegido. Los c.oeficientes propuestos para medir la similaridad en variables binarias supe-
Por ejemplo, en la variable "edad" podría elegirse como valor central (a la vista de las ran la tremtena
.. " (Aldenderfer y Blashfield, . Aute su elevado numero,
1984) ' se d escarta
frecuencias de respuesta) la edad de "30 años". Todo sujeto con edad :o; 30 años se co- una exposlclon detallad~ de cada ~no de los coeficientes existentes. Se prefiere resaItar
dificaría O, mientras que los de edad> 30 años recibirían el código 1. los m?s .aplicad?s en la Illvestlgaclón empírica, por su disponibilidad en los paquete
estadlstlcos estandares, COmo el SPSS. s
El principal inconveniente que se observa en la aplicación de la codificación binaria
en variables de intervalo es, obviamente, la pérdida de información que supone su trans-
formación. B.1. Medidas de similaridad
Otra opción alternativa para el análisis conjunto de variables en distintos nive-
les de medición es proporcionar a todas las variables el tratamiento de variables con-
tinuas. Esta actuación se adecua bastante en variables binarias simétricas, para los Ta~bién se la~ conoce como "medidas de asociación de similitud". A exce ción de
rangos que se originan de variables ordinales (de Oa 1) y para los logaritmos de las ~~ C~~flcl~ntes 1. de Kulczynski y el 3.° de Sokal y Sneath, la generalidad d~las me-
variables de razón, pero no para las variables nominales con más de dos categorías. I as e slln.z!andad al~anza un valor en el rango de Oa 1. La plena correspondencia
La razón está en que algunos códigos pueden estar bastante alejados unos de otros, entre los objetos a claSificar se logra cuando el coeficiente de similaridad se aproxima
sin que reflejen una "lejanía" intrínseca de los estados correspondientes (Kaufman al valor 1. Por el contrano, un valor próximo a Osignifica la plena divergencia de los ob-
Jetos.
y Rousseeuw, 1990).
Dada la complejidad del tratamiento conjunto de variables mezcladas, el investi-
gador deberá elegir el tratamiento conjnnto que proporcionará a dichas variables: con- B.1.1. Coeficiente de Jaccard
tinuo o binario. Para ello deberá sopesar las ventajas e inconvenientes principales de
cada alternativa de actuación. Igualmente conocido como "razón de similaridad" (Nourisis, 1994). Constitu e una
En caso de indecisión, la mejor opción puede ser ejecutar, en análisis separados, las d~ las medidas d~ slm:landad más aplicadas en variables binarias, especialme~te en
distintas alternativas de tratamiento conjunto expuestas. A la vista de los resultados, e. c~,mpode la blologla. Su rasgo más característico es que no considera las "au;en-.
se escogerá aquella opción que proporcione resultados más "significativos", analítica Clas conjuntas de la vanable en los dos objetos observados. Estas ausencias se ex-
y conceptualmente. presan con, la letr~~ "d" en la matriz de asociación correspondiente, COmo uede
verse en la tlustraclOn de la tabla anterior. El coeficiente queda entonces definido de
• Respecto a las medidas de distancia, para las variables binarias se han pro- Ia manera sIgmente:
puesto varias medidas de similaridad y de disimilaridad específicas. Estas medidas se
a
adecuan más a las características de estas variables que las medidas aplicadas en va- S; j = - - - -
riables continuas. Para facilitar la comprensión de las diversas medidas (de similaridad (a+b+c)
270 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 3: Análisis de conglomerados 271

Las co-ocurrencias positivas de la presencia del atributo de la variable que se mi- B.L5. Coeficiente de Rogers y Tanimoto
de en dos objetos (i Yj), representada por la letra "a", se divide por la suma de las si-
tuaciones en las que la presencia del atributo coincide en ambos casos ("a") o, al me- Como los coeficientes de casación y de Russel y Rao, este quinto coeficiente incluye
nos~ en uno de ellos ("b" y "e"). No se considera, por tanto, la situación de "no las ausenciaS conjuntas del atributo de la variable. Pero, su particularidad consiste en
presencia" del atributo en ambos objetos ("d"). . conceder un doble peso a las no coincidencias, representadas por las celdillas "c" y "b".
Como ya se ha indicado, este coeficiente puede tener un ,:,alo.r comprendIdo en el
rango de Oa 1. El valor 1 expresa la plena correspondencia o suuilitud entre los objetos
a clasificar, mientras que O, su divergencia. s. ~ a+d
'1 a+d+2(b+c)

B.1.2. Coeficiente de casación o de parejas simples B.1.6. Coeficiente de Kulczynski 1

Un coeficiente asimismo muy aplicado en la medición de la similaridad en ~aria­ Al igual que los coeficientes de Jaccard y de Dice, el de Kulezynski 1 no incluye la
bies binarias. Del coeficiente anterior le disringue la inclusión de la "ausencIa conJunta" a~sencza conjunta (t,~rr;,bIén lla~ada :'~oincideneias o eo-ocurrencias negativas"), in-
de una variable (como se indica en la celdilla con la letra "d" de la matriz de simila- dIcada en la celdIlla d . Se lUUlta a dlVldrr las coincidencias positivas (celdilla "a") en-
ridad). Esta ausencia conjunta se incluye tanto en el numerador como en el denomI- tre la suma de las no coincidencias (celdillas "b" y "e"). Pero, a diferencia del coefi-
nador de la ecuación. c¡ent~ de"n,;ce, no concede ~ás importancia (doble peso) a las coincidencias positivas
(celdIlla a ). Queda defImdo de la manera siguiente:

a
S .. ~-­
IJ b +c
¡
! ' El rango de valores posibles es, igualmente, de O a 1.
A diferencia de los cinco co~ficientes precedentes, el coeficiente de Kulezynski 1
puede presenta~ ~n valor supenor a 1. El valor mínimo sigue siendo, no obstante, O.
B.1.3. Coeficiente de Russel y Rao
La mdefi~lcIon. se alcanza cuando existe pleno acuerdo. Dicho en otros ténninos,
cuando no eXIste mnguna no-coincidencia. En consecnencia, b ~ O Yc ~ O.
Como el coeficiente de casación, incluye la situación de ausencia conjunta del atri-
buto de la variable en los dos objetos. Pero, a diferencia de dicho coeficiente, sólo en El progran:a SPS~, ?~r ejemplo, asigna un límite superior artificial de "9999.999",
cuando eXIste mdefImcIon o el valor del coeficiente es mayor de "1".
el denominador:
a B.L7. Coeficientes de Sokal y Sneath
S,¡ ~ a + b + e + d
Estos autores proponen cuatro coeficientes de similaridad:
2(0 + d)
B.1.4. Coeficiente de Dice o Primero: Si¡
2(a + d) + b + c
También llamado "medida de Czekanowski y Sorensen". Se asemeja al coen".". /j;"y, Se otorga doble peso a la SUma de las coincidencias negativas (celdilla "d")
ciente de Jaccard, al no considerar las ausencias conjuntas. Pero, difiere de él, al con- y positivas (celdilla "a").
ceder Un peso doble a la coincidencia positiva (celdilla "a" en la matriz de
Su definición es la siguiente: • Segundo: Si¡ ~ _-::-0;:-_-,-
a + 2(b + e)
2a
S,¡ ~ -,:---;--
2a+b+c En este segundo coeficiente, el doble peso se concede a las no coincidencias
(celdIllas "b" y "c").
272 Análisis multivariable. Teorfa y práctica en la investigación social Capítulo 3: Análisis de conglomerados 273

E.1.10. Coeficiente de dispersión


a+d
o Tercero: S. = - -
IJ b +e Coincide con el coeficiente de correlación punto 4 phi de Pearson en el numerador,
La suma de las coincidencias positivas y negativas se divide por la suma de pero no en el denominador. Éste está integrado, en el coeficiente de dispersión, por la
las no coincidencias. suma cuadrada de todas las coincidencias y las no coincidencias. También difiere en el
Al igual que el primer coeficiente de similaridad de Kulcznski, este tercer co- rango de valores, ahora va de -1 a +1. Es decir, incluye valores positivos y negativos,
eficiente de similaridad propuesto por Sokal y Sneath también puede presentar pero con interpretación similar al rcsto de coeficientes.
un valor superior a 1. El programa SPSS, por ejemplo, asigna igualmente un lí-
mite superior artificial de 999,999, cuando está indefinido o excede el valor de ad - bc
Si; ;;;:; 2
1. La indefinición ocurre cuando no existe ninguna no coincidencia. El valor nú- (a + b + C + d)
nimo, sin embargo, continúa siendo O.
ad
• Cuarto: S.. = r~==;~~-=c'~~~~~
'J ..J(a + b)(a + c)(b + d)(c + d) B.2. Medidas de similaridad de probahilidades condicionales
En realidad ésta es la quinta medida de similaridad de Sokal y Sneath. En La probabilidad de que se presenten coincidencias o divergencias se condiciona a
ella se conjugan las coincidencias con las no coincidencias. El rango de valores la existencia o de coincidencias positivas (celdilla "a") o de negativas (celdilla "d"). Tres
posibles va de Oa 1. son las medidas más comúnmente clasificadas en este segnndo bloque de medidas de
similaridad para datos binarios (Nourisis, 1986; 1994; Eisquerra, 1989).
B.1.8. Coeficiente de correlación punto 4 phi (1/1)
B.2.1. Coeficiente de similaridad de Kulczynski 2
Es la configuración, en forma binaria, del coeficiente de correlación phi de Pear-
son. Si este coeficiente se compara con la quinta medida de similaridad de Sokal y
Sneath precedente, podrá comprobarse que ambos guardan bastante sinúlitud. Tan só- alea + b) + alea + e)
Si; = 2 -
lo les diferencia que en el numerador, al producto de las coincidencias positivas y ne-
gativas, se le resta el producto de las no coincidencias en el coeficiente de correlación
punto 4 phi. Su valor oscila entre O (objetos dispares) y 1 (objetos plenamente similares).

ad -bc E.2.2. Coeficiente de similaridad de Sokal y Sneath 4


S.. = ..
'J .J(a + b)(a + c)(b + d)(c + d)
alea + b) + alea + e) + d/(b + d) + d/(c + d)
El rango de valores posibles es, asimismo, de Oa 1. El valor Oexpresa la inexistencia Si; = 4
de similitud entre los objetos.
La probabilidad condicional de una característica de un objeto está en la núsma si-
B.1.9. Coeficiente de Ochiai tuación (presencia "a" o ausencia "d") que la característica del otro objeto. La medida
es, igualmente, un promedio de ambos objetos actuando como predictores. El rango de
La alternativa binaria del coseno (para variables continuas). Su rango va de Oa 1, valores va de Oa 1.
con igual interpretación que en los demás coeficientes de similitud.
B.2.3. Coeficiente de Hamann

A diferencia de los auteriores, en el coeficiente de Hamann la probabilidad de que


una característica tenga el mismo estado en ambos objetos -quiere esto decir, presente
274 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 3: Análisis de conglomerados 275

(celdilla "a") o ausente (celdilla "d") en ambos- se resta la probabilidad de que una ca- B.3.3. Coeficiente Y de Yule
racterística tenga estados distintos en los dos objetos: presente en uno pero, en cambio,
ausente en el otro. Su valor va de -1 a + 1: Se define como la razón entre las diferencias de las raíces cuadradas de las coin-
cidencias (celdillas "a" y "d") Y las no coincidencias (celdillas "b" y "c") y la suma de
ambas raíces. Puede presentar un valor de -1 a +1.
s.. ~ .o(a_+-:d:...)--'..(b_+-:c..:..)
a+b+c+d
~ -..Iaíi -.fbC
'1
s
'1 -..Iaíi +.fbC
B.3. Medidas de similaridad de predicción
B.3A. Coeficiente Q de Yule
B.3.lo Coeficiente lambda (A) de Goodman y Kruskal
Difiere del coeficiente Yen que los productos de coincidencias y no coincidencias
Este coeficiente de predictibilidad se define, cuando se aplica al análisis de Con- no están en raíz cuadrada. Su rango también va de -1 a + 1.
glomerados, de la siguiente manera:
ad -bc
S. ~ .::.:::....--=-::.
máx(a+c,b + d) + máx(a + b,c+ d) '1 ad +bc
máx(a,b) + máx(c,d) + máx(a,c) + máx(b,d)
2(a+b+c+d) 2(a+b+c+d)
BA. Medidas de disimilaridad o distancia
Mide la reducción proporcional en el error de predicción del valor de la caracte-
rística de un objeto (presencia O ausencia), a partir del valor de otro objeto. Se presentan como la alternativa para variables binarias del hacer en las variables
Se basa, igualmente, en los valores máximos de la conjunción de las celdillas. El ran- continuas. Algunas de las medidas, como la distancia euclídea, comparten nominación
go de valores va de Oa 1. El valor 1 expresa la total predictibiJidad de la presencia o au- con las medidas de distancia para variables continuas. Pero no su definición, que
sencia de dicha caracteristica en el objeto, a partir del conocimiento del otro objeto. cambia para adecuarse a la métrica correspondiente a variables binarias. Los coefi-
Ambos son bastante similares. Por el contrario, el valor O denota inexistencia de si- cientes de disimilaridad O distancia más comúnmente aplicados son los siguientes
milaridad entre los objetos, no pudiéndose predecir la situación de una de los objetos (Nourisis, 1986, 1994; Bisquerra, 1989):
desde el conocimiento del otro objeto.
B.4.1. Distancia euclídea binaria
B.3.2. Coeficiente D de Anderberg

Es otro coeficiente de predictibilidad de la situación de un objeto respecto a una


variable concreta (presencia o ausencia), a partir de la situación de otro objeto. Di- Se obtiene de la raíz cuadrada de la suma de no coincidencias. Su valor mínimo es
cha predictibilidad es igualmente factible, si ambos objetos son "similares". Pero, a O. No tiene límite superior.
diferencia del coeficiente lambda, en el coeficiente D los dos cocientes de la ecuación En programas como el SPSS la distancia euclídea al cuadrado se aplica también por de-
no se restan, sino que se suman. El coeficiente queda definido en los términos si- fecto en datos binarios. Su rango va de Oa infinito, dada la inexisteucia de lúnite superior.
guientes:

s. ~ máx(a,b) +máx(c,d) + máx(a,c) + máx(b,d) + máx(a+c,b+d)+máx(a+b,c+d)


'1 2(a+b+c+d) 2(a+b+c+d) BA.2. Diferencia de tamaño

El rango de valores va, asimismo, de O a 1. Gnarda bastante, similitud con el coeficiente de dispersión (B.1.l0), aunque difie-
re eu el numerador. Este se halla integrado por el cuadrado de las difereucias eutre las
Capítulo 3: Análisis de conglomerados 277
276 Análisis multivariable. Teoría y práctica en la investigación social

no coincidencias. También difiere en el rango de valores que va de Ohasta infinito al b+c


d,.¡ ::::;
no haber ningún límite superior. Za + b + c

(b-c)'
d¡¡ = - - ' - - ' - - , - C) Varitibles cualitativas, no binarias
(a+b+c+d)'
Cuando las variables que se analizan para formar conglomerados son cualitativas,
BA.3. Diferencia de patrón pero no binarias, la similaridad se mide con la ayuda de dos coeficientes básicos: chi-
cuadrado y phi-cuadrado.
A diferencia del coeficiente anterior, en éste el numerador se halla integrado ex-
clusivamente por el producto de las no coincidencias. El denominador, en cambio, es
el mismo. El rango de valores va de Oal, que es el límite superior. Cl. Chi-cuadrado

bc Uno de los estadísticos de mayor aplicación en el análisis de variables cualitativas


d¡¡ = --~--:-:;­
es también de gran utilidad en el análisis de conglomerados. Aunque se introducen mo-
(a + b + e + d)' dificaciones importantes en su formulación respecto a su uso en otras técnicas analí-
ticas. Mide la distancia entre dos variables cualitativas (XA y X s ) como dependiente
de las frecuencias totales que presentan las distintas categorías de las variables. Se
BAA. Diferencia binaria de forma consideran tanto las frecuencias observadas como las esperadas. Su cálculo es el si-
guiente:
(a + b + e + d)(b + e) - (b - e)'
d. = ,
'1 (a + b + e + d)

No tiene ni límite superior ni inferior. Los valores posibles son infinitos.


Donde: "XA " y "X/' representan las frecuencias observadas en las i (i = 1, 2, 3... n)
BA.5. Varianza disimilar categorías de las variables X A y X B , respectivamente.
"E(XAY' y "E(XBY' son las frecuencias esperadas de las i categorias de las
be variables X A y X B . Téngase presente que los valores esperados son los del
d¡¡ = -4~(a-+-b-+-c-+-d") modelo de independencia de las variables X A y X B , el habido cuando am-
bas variables no se hallan relacionadas.

Su formulación se asemeja bastante al coeficiente de diferencia de patrón. Difiere Como en otros análisis estadísticos, en el análisis de conglomerados X' puede al-
en el denominador. El producto de no coincidencias se divide por cuatro veces la su- canzar un valor de O a infinito. No existe ningún límite superior. El valor O expresa si-
ma de coincidencias y no coincidencias. Tampoco coincide en el rango de va~ores po- militud. Cuanto más se aleje el valor de O, mayor es la distancia existente entre las va-
sibles. Como la distancia euclídea binaria y el coeficiente de diferencza de tamano, la va- riables consideradas.
rianza disimilar no tiene ningún límite superior. Su valor mínimo es, Igualmente, O.

BA.6. Medida de disimilaridad no métrica binaria de Lance y Williams CZ. Phi-cuadrado

También se la conoce como-coeficiente no métrico de Bray-Curtis. Difiere de. las El coeficiente phi-cuadrado se define a partir del estadístico chi-cuadrado de la ma-
cuatro últimas medidas de d¿,imilaridad en que no considera las coincidencias negallvas nera siguiente:
(celdilla "d"). El rango de valores va de O a 1.
278 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 3: Análisis de conglomerados 279

2 Ix' Cuando las variables son todas binarias, el coeficiente de similaridad de Gower es
dq" ~ ~ siendo dI/> ~ ~N idéntico al coeficiente de Jaccard (Aldenderfer y Blashfield, 1984: 31). El rango de va-
lores va de O a 1.

Donde: "N" expresa el tamaño muestral (o número de casos analizados).

Este coeficiente permite graduar mejor la distancia entre las variables, al estar el
rango de valores posibles comprendido en el intervalo de Oa 1. El valor Oexpresa si- EJEty1fLqpEEI.F'CClóiv·DEL.PFlPCElJIMIENfOlJEQOAlGL6"1EFlACt6rJ:
militud plena, mientras que el valor 1, la plena disparidad o disimilaridad entre las va- MÉTOPO,ALGORITMO YMEDIDAE)EDISTANC/AO DE SIMILARIDAD
riables medidas.

El análisis de conglomerados permite tanto la clasificación de "casos" como de "variables",


D) Variables en diferentes niveles de medición en función de su similitud. Con los mismos datos de la encuesta del CIS se han realizado dis-
tintos análisis de conglomerados de "casos" y de "variables".
A) Para la conglomeración de variables, se han aplicado distintos métodos de conglo-
En el análisis simultáneo de variables en distintos niveles de medición cabe la op-
meración jerárquica, variando el algoritmo de clasificación e incluso las variables a clasificar,
ción de proceder a su transformación a un mismo nivel de medición. Por ejemplo, ope- de acuerdo con su "relevancia". El modelo de conglomeración finalmente elegido fue el ob-
rar con variables binarias (con la pérdida consiguiente de información, ya aludida) y tenido aplicando el algoritmo de clasificación de "distancias mínimas" (o ''vinculación simple")
escoger algunas de las medidas de similaridad adecuadas a este tipo de variables. Pe- y la correlación de Pearson como medida de similaridad.
ro también cabe la opción de analizarlas, de forma conjunta, en sus distintos niveles de El método de distancias mínimas (se agrupan las variables más próximas) se eligió por
medición originales. Para dicho propósito puede aplicarse el coeficiente de Gower co- ser, de los métodos jerárquicos, el que muestra más adecuación a tamaños muestrales ele-
mo medida de similitud. vados. Recuprdese que el tamaño de la muestra total es 2.493 casos. Si bien, se decide
realizar los análisis de conglomeración sólo con la mitad de la muestra, seleccionada de for-
ma aleatoria, para posteriormente "validar" los resultados con la otra mitad. Pese a esta re-
D.1. Coeficiente de similaridad de Gower ducción considerable en el tamaño de la muestra y excluyendo, además, los "casos sin res-
puesta" en algunas de las variables incluidas en el análisis, la muestra de análisis se halla
Este coeficiente fue propuesto por Gower en 1971 (en "A general coefflCient of si- integrada por 809 casos, cantidad que supera bastante a la comúnmente referida como can-
tidad máxima "ideal" para la realización de un análisis de conglomerados jerárquico (200 uni-
milarity and sorne of its properties", Biometrics, 27: 857-872). Tiene la particularidad dades muestrales). Aunque hay que precisar que el efecto del tamaño muestral en la con-
de permitir el uso simultáneo de variables en diferentes niveles de medición, en la es- glomeración jerárquica de ''variables'' es inferior al obtenido en la clasificación de "casos". Las
timación de la similaridad. Su definición es la siguiente: dimensiones de la matriz de distancias, de las tablas del historial de conglomeración y de los
conglomerados de pertenencia, al igual que los gráficos (de témpanos y el dendograma) se
ajusta al número de variables a clasificar y no al de casos analizados, lo que facilita consi-
derablemente su lectura e interpretación.
En este ejemplo, 14 fueron las variables inicialmente analizadas: "simpatía marroqur' (X,,),
"leyes inmigración" (X,), "ideología política" (X2), "sexo" (X,), "edad" (X,), "número de inmi-
grantes" (X.), "regularizar inmigrantes" (X7 ), "entrada inmigrantes" (X.), "partido racista"
(Xg), "casar con marroquí" (X,,,), "estudios" (X 11 ), "ingresos" (X'2)' ''vecino marroqur' (X,,) e "in-
migrante delincuente" (X,.). La variable "simpatía hacía latinoamericanos" (X,) se decide ex-
Donde: "W..;' es una variable de ponderación de valor 1, si se considera válida
un~1comparación de la variable K; y O, si nO se considera. En variables bi- cluirla de los análisis por tener una colinealidad elevada con la variable X 15 ("simpatía ma-
rroqur'). Se quiere evitar el efecto distorsionador de la inclusión de variables muy colineales
narias, "W."],:" es cero, cuando la variable K no se conoce para uno o
en el proceso de conglomeración, no tanto de "variables", sino de "casos". En la conglome-
ambos obj~fos que se comparan. "W'j;' también se fija en Ocuando se tra- ración de "casos", el incluir varias variables que midan una misma dimensión aumenta la pro~
ta de conjunciones negativas. babilidad de que éstas ejerzan un mayor efecto en el proceso de agrupación.
"S'j;' es una puntuación de similaridad basada en el resultado de la Una segunda razón principal que fundamenta la elección del algoritmo de distancias mí-
comparación de la variable K en los casos "i" y ''j''. nimas es su mayor adecuación a variables "ordinales". Recuérdese que varias de las variables
280 Análisis multivariahle. Teoría y práctica en la investigación social
Capítulo 3: Análisis de conglomerados 281

que participan del análisis son ordínafes. Además, este algoritmo de clasificación se ve me-
nos afectado por las transformaciones que se realicen en la matriz de datos.
Pese a estas ventajas esenciales, el inconveniente principal del algoritmo de distancias
mínimas es su tendencia a "encadenar" conglomerados aparentemente distintos, como Se
constató en su aplicación a la clasificación de "casos".
Mediante la conglomeración de variables se quiere identificar variables "relacionadas".
El objetivo básico es analizar qué características comparten las variables para, a partir de ellas, Tabla A. Matriz de distancias
observar las diferencias entre los sujetos en sus actitudes ante la inmigración.
Para eliminar la influencia negativa de analizar variables en distintas escalas de medición, Archivo matricial de entrada
Caso
se utiliza como medida de "distancia" (en este caso de "similitud") la correlación de Pearson, simparía leyes
sexo n' regul,l(. enlrada p8rtldo casar COI)
que mide la semejanza o similitud entre dos variables. Ésta es la medida de distancia más uti-
IflIJrfOqu¡ inmigro
"" inmigro inmlgr. inmigr.
vecil10
rae/sra marroquf estudios ingresos marroq(l{
inmlgr.
delinc,
lizada en la conglomeración de variables y se calcula para todos los pares de variables. Simpatía marroqul ,296 ,048 ,174 ,316 ,276 ,284
Leyes inmigración ,296 ,275 ,510 ,213 ,108 ,395 ,304
Como se quiere medir la '1uerza" de las relaciones entre las variables, se utiliza el valor Sexo
,014 ,138 ,351 ,263 ,381 ,100 ,216 ,230 ,189 ,210
,048 ,014 ,003 ,000 ,041 ,281
absoluto de cada correlación, y no el "signo" del coeficiente (que sólo indica la "dirección" de Edad ,174
.026 ,007 ,ü16 ,001 ,065 ,014 ,088
,138 ,003 ,169 ,081 ,118
la relación entre las variables). A diferencia del análisis factorial (capítulo 5), que permite' que Núm. inmigrantes ,316 .154 ,208 ,433 ,197 ,142 ,188
,351 ,000 ,169 ,254 ,296
Regularizar inmig. ,222 ,212 ,320 ,230 ,208
las variables estén positiva o negativamente relacionadas con un factor, en el análisis de con- ,276 ,263 ,041 ,081 ,254 ,377 ,248
,345
Entrada inmigran. ,284 ,381 ,286 ,198 ,126 ,280 ,222
glomerados el "signo" del coeficiente de correlación de Pearson afecta a la creación de ,026 ,118 ,296 ,377 ,309
Partido racista ,275 ,100 ,317 ,174 ,170 ,261 ,331
,007 ,154 ,222 ,248 ,309
conglomerados: las variables que correlacionan negativamente con un conglomerado no apa- Casar oon marroq. ,510 ,216 ,016
,322 ,110 ,051 ,353 ,182
,208 ,212 ,286 ,317 ,322
recen en el mismo conglomerado que las variables que correlacionan positivamente. Ésta es Estudios .213 ,230 ,001 ,162 ,068 ,585 ,241
,433 ,320 ,198 ,174 ,110 ,162
Ingresos ,108 ,189 ,436 ,127 ,172
la razón por la que se recomienda emplear sólo los valores absolutos de los coeficientes de ,065 ,197 ,230 ,126 ,170 ,051 ,068
Vecino marroquí ,395 ,210 ,014 .436 ,046 ,087
correlación, salvo que se quiera conglomerados compuestos por variables positivamente co- ,142 ,208 ,280 ,261 ,353 ,585
Inmigrante delin, ,304 ,281 ,088 ,127 ,046 ,206
,188 ,345 ,222 ,331 ,182
rrelacionadas. ,241 ,172 ,087 ,206
El empleo de la correlación de Pearson exige que las variables sean continuas. Ello ne-
cesariamente lleva a la transformación de las variables nominales en ficticias, como se ex- Aun~ue la consideración de la variable "ideología política" (X ) ta b" .
pone en el capítulo 1. De los distintos análisis realizados, finalmente se escoge el obtenido agrupaclon de las variables en cuatro con 1 2 m len ocasionaba la
cuando se excluye la variable "ideología política" (X 2) del análisis. En este último modelo la ración se descartó por ser más "iló I ". g omerad?:, este segundo modelo de conglome-
significado "estadístico" El ,. g ca la composlclon de los conglomerados, aun teniendo
agrupación de variables resulta más "lógica" y coincide con la obtenida mediante el análisis
factorial de componentes principales (capítulO 5). Como se verá en el subapartado 3.5.1, las Con "política inmigratoria'; co";o ,:~r,,~:g!~í~:~:~o ~grUpaba varia~les rel?cionadas tanto
yes inmigra ., "" o" " " ' . la os Inmigrantes: strnpatla marroquí" "Ie-
13 variables a clasificar se agrupan en 4 conglomerados: racista" "ca clan, n. Inmlg~~n.~es ~ regulanzar Inmigrantes", "entrada inmigrantes" "partida
, sar con marroqUl, vecinO marroquP' e "inmigrante d r t " E '
• El primer conglomerado agrupa variables que expresan "simpatía" hacia los inmigrantes, ~Io;~rad~ sólo la variable "ideología política". El tercer conglom:r~~~~~I~ ia ~:r~;~~~'~e":o~'-
preferentemente marroquíes: "simpatfa marroquí", "partido racista", "casar con marroqupt , ,ua o conglomerado las vanables "edad", "estudios" e "ingresos" É t .'
de Como la elección del modelo de c I . . s e es un ejemplo
;:~~~::=~~~'::I;~7~a~~mbién "IÓ9iCO-S~~~~t~~~~d~: ~~I~~I~nhf~n~~ ~~n~:~~~~~~;b~~ t~~~:ii~~
y "vecino marroquí".
• El segundo conglomerado reúne variables principalmente relacionadas con la política
inmigratoria: "leyes inmigración", "número de inmigrantes", "regularizar inmigrantes", "en-
trada inmigrantes" e "inmigrante delincuente".
• El tercer conglomerado sólo incluye la variable "sexo". ,:~up~
I
~~~sctri~r~~c~~t~~~~~:~\~~~!~,u:1 ~a~:;~:a~~:d~~~~~;~~~~~~
IcaC/on. amo muestra, compárese la á di t
matriz .
~!~b~~
,
~~~~~e;:nfia
c a-
• El cuarto conglomerado agrupa variables sociodemográficas comúnmente vinculadas incluye la variable "ideología política" (tabla B) e SI anclas correspondiente al modelo que
con la "posición social": "ingresos", "estudios" y "edad". con e que la excluye (tabla A).
B) Respecto a la conglomeración de casos el el d t -
A esta agrupación de variables se llega a partir de la siguiente matriz de distancias (ta-
bla A), aplicando la correlación de Pearson como medida de similaridad: ~~~:c:~~~ ale?torio a la lleva a lami~ad, aPlicació~v~r~e~:n~~~:~~s~~;~"a"~: ~~nSg~~:
jerarqwca, como 'K-means" (o K medias) qu l'
De acuerdo con esta matriz, las variables más "próximas" son las que presentan Gorre~ las últimas versiones del SPSS. - , e es e mas popular y se incluye en
laciones elevadas (próximas a 1,0). Las correlaciones mayores se dan entre variables
agrupadas en el primer conglomerado. A decir, las variables X ("casar con marroquf') y X 13
'0
en 1;~~:~~;~~~~~:I~~~i~~a°'::sc~~~=:~:ón K-medi~s se d,:~ide no só~o porque está incluido
(''vecino marroquf'): r = ,585; Y X con X ("simpatía marroquf'): r = ,510. Correlaciones pró-
'0 '5 dos (lo habitual en datos de encuesta), s~~St~~~i~ne~~~~~~ a tamanos muestrales eleva-
282 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 3: Análisis de conglomerados 283

Tabla 8. Matriz de distancias 1. El tratamíento como variable continua exige la necesaria transformación de las va-
riables nominales en ficticias. Una vez hecha dicha conversión, se procede a la
Archívo matricial de entrada elección del algoritmo de clasificación. Los tres elegidos fueron los siguientes:
Caso
simpatía layes Ideología n" f(!9ular. en/rada par/ido casaf(;{J(¡ vecino inmigro
marroquf inmigro p<Jlí/iC<l
sexo
"',' inmigr. il1migr. illmigr, racisll.l mamx¡ul
estudios ingreses marroqul delinc.
., Distancias mínimas (o vinculación simple), por las razones anteriormente expues-
tas.
Simpatia marroquí ,306 ,120 ,066 ,179 ,333 ,299 ,292 ,273 ,510 ,246 ,121 ,388 ,327
Leyes inmigración ,306 ,215 ,014 ,156 ,369 ,272 ,392 ,121 ,237 ,259 ,212 ,220 ,292 • Promedio entre grupos, por ser la opción aplicada por defecto en el programa SPSS,
Ideología política ,120 ,215 ,014 ,145 ,135 ,109 ,135 ,202 ,137 ,089 ,015 ,134 ,152 y porque considera (en el cálculo de la distancia) todos los objetos y no sólo los ex-
Sexo ,066 ,014 ,014 ,003 ,023 ,053 ,024 ,003 ,027 ,017 ,052 ,009 ;103 tremos. Aunque presenta el gran inconveniente de crear conglomerados con apro-
Edad ,179 ,156 ,145 ,003 ,164 ,069 ,119 ,156 ,196 ,410 ,178 ,150 ,188
,227 ,228 ,345
ximadamente la misma varianza.
Núm. inmigrantes ,333 ,369 ,135 ,023 ,164 ,262 ,306 ,218 ,224 ,320
Regularizar lom'lg. ,299 ,272 ,109 ,053 ,069 ,262 ,371 ,268 ,293 ,211 ,117 ,278 ,214 • Método Ward porque vincula objetos a conglomerados que provocan un menor in-
Entrada inmigran. ,292 ,392 ,135 ,024 ,119 ,306 ,371 ,335 ,326 ,174 ,156 ,273 ,318 cremento de la varianza ¡ntragrupa!. Minimiza la varianza intragrupal evitando, al mis-
Partido racista ,273 ,202 ,003 ,156 ,218 ,268 ,335 ,323 ,114 ,056 ,358 ,203
,121 mo tiempo, el "encadenamiento" de conglomerados habitual en los métodos de vin-
Casar con marroq. ,510 ,237 ,137 ,027 ,196 ,224 ,293 ,326 ,323 ,166 ,064 ,599 ,24\
,211 ,114 ,166 ,439 ,135 ,170 culación (en especial, en el simple), Su principal inconveniente es la creación de
Estudios ,246 ,259 ,089 ,017 ,410 ,320 ,174
Ingresos ,121 ,212 ,015 ,052 ,178 ,227 ,117 ,156 ,056 ,064 ,439 ,044 ,060 conglomerados de tamaño similar y de forma hiperesférica, así como la combina-
Vecino marroquí ,388 ,220 ,134 ,009 ,150 ,228 ,278 ,273 ,358 ,599 ,135 ,044 ,212 ción de conglomerados con un número reducido de observaciones,
Inmlgrantedelln. ,327 ,292 ,152 ,103 ,188 ,345 ,214 ,318 ,203 ,241 ,170 ,060 ,212

En los tres algoritmos de clasificación se aplica la misma medida de distancia: la


distancia euclídea al cuadrado. Ésta es la medida de distancia aplicada por defecto
• Comprueba la "relevancia" de las variables en la diferenciación de los grupos (mediante en el algoritmo de Ward y la más utilizada en variables continuas, cuando se agrupan
la prueba de significación F), "casos". Su uso correcto exige que las variables estén estandarizadas para evitar que
• Ayuda a la identificación de "atípicos", al proporcionar la distancia de cada caso al cen- las variables de mayor variabilidad contribuyan más al cálculo de la distancia entre los
tro del conglomerado en el que se incluye. casos. Si bien, la estandarización presenta el gran inconveniente de minimizar las di-
ferencias grupales.
Pero, a diferencia de los métodos jerárquicos, precisa de la especificación previa del nú- La estandarización se recomienda cuando el rango de alguna de las variables a ana-
mero de conglomerados a formar con los datos. Esta información puede obtenerse de lizar supera bastante al de otras variables que también participan del análisis. En este
análisis precedentes (como la realización previa de un análisis de conglomerados no jerár- caso se optó por el procedimiento de estandarización habitual, que consiste en la trans-
quico, aunque sólo sea con una parte de la muestra, que señale un número de conglomerados formación de las variables a "puntuaciones Z', de manera que su media sea O y su des-
"razonable" a constituir) o a partir de razonamientos teóricos. Si no se dispone de ninguna in- viación típica 1. El rango de dos variables concretas, las variables "edad" e "ingresos"
formación al respecto, siempre cabe la opción de probar varias soluciones de conglomera- (en especial, la segunda), supera bastante al de las otras variables incorporadas al aná-
ción K-medias, variando el número de conglomerados a formar. En nuestro ejemplo, la so- lisis. Lo que necesariamente lleva a la estandarización para que todas las variables se
lución de 3 conglomerados se presenta como más "lógica" desde todas las vertientes. Los encuentren expresadas en una escala comparable. Además, la aplicación posterior del
análisis de conglomeración de casos jerárquicos realizados previamente indicaban como cla- algoritmo K-medias también obliga a la estandarización de las variables.
sificación más "idónea" aquella en la que los casos se clasifican en 3 conglomerados diferentes Como era de prever, las soluciones difieren dependiendo del algoritmo de clasifi-
de acuerdo con su actitud "declarada" ante la inmigración. Posteriormente, el análisis dis- cación que se aplique. El de vinculación simple (o distancia mínima) cumple el incon-
criminante ''valida'' el modelo de clasificación obtenido mediante el procedimiento K-medias, veniente principal generalmente atribuido a este algoritmo de clasificación: su tendencia
como se verá en el capítulo 4. a "encadenar'" conglomerados aparentemente distintos. A excepción de 3 casos -el ca-
Los resultados del análisis de conglomerados K-medias se exponen y comentan en el sub- so 129 (conglomerado 2), 282 (conglomerado 3) y el caso 352 (conglomerado 4)-, todos
apartado 3.5, dedicado a la "presentación" e "interpretación" de los resultados del análisis de los casos analizados son dasificados en el conglomerado 1, Este hecho lleva a descartar
conglomerados, A continuación se informa de los diversos análisis de conglomerados je- dicha solución de conglomeración, por no satisfacer el objetivo principal del análisis.
rárquicos aglomerativos de "casos", realízados para alcanzar un mismo objetivo básico: di- Por su parte, el algoritmo de promedio entre grupos engloba algo más de 3 de ca-
ferenciar distintos grupos homogéneos de personas de acuerdo con sus actitudes manifiestas da 4 casos en un solo conglomerado: el conglomerado 2. Por esta razón, se descarta
ante la inmigración. De manera que, una vez conocidas sus características, pueda preverse este segundo modelo de conglomeración por no adecuarse tampoco al objetivo del
qué actitud tendrán ante la inmigración. análisis,
Como las variables consideradas se hallan en distinta métrica, se prueban las dos op- La solución finalmente elegida es la obtenida mediante el método Ward, aplicando
ciones de tratamiento conjunto posib·les: su tratamiento como variables "continuas" y como asimismo la distancia euclídea al cuadrado. De acuerdo con esta medida de distancia,
variables "ficticias". coeficientes pequeños (próximos a "O") indican la presencia de conglomerados claramente
284 Análisis nwllil)oríahle. 1'eorfo y práctica en la investigación social Capitulo 3: Análisis de conglomerados 285

homogéneos (a diferencia de la correlación de Pearson), mientras que coeficientes ele- que dirímir una cuestión crucial: la referente al número de conglomerados a retener
vados informan que los casos o conglomerados que se agrupan son heterogéneos. Cuan- entre las distintas alternativas posibles de clasificación eJe los objetos eJe interés. '
to mayor sea su valor, peor. Esta medida de distancia carece de límite superior, a dife-
C~m? ya se dijo e~ la presentación de los diferentes métodos de conglomeración,
rencia de la correlación de Pearson y otras medidas de distancia (subapartado 3.3.4).
la decI~lOn sobre el numero de conglomerados a retener es previa a la ejecución de
Mediante este tercer algoritmo de clasificación se obtienen conglomerados de si-
milar tamaño y con menor varianza intragrupal, lo cual lleva a su elección como so-
cualqUIer análiSIS de conglomerados no jerárquico. En la conglomeración jerárquica,
lución de conglomeración jerárquica. En el subapartado 3.5.1 se incluye un extracto por el contrano, es ésta una cuestión a debatir en las postrimerías del análisis, una vez
de las tablas del historial de conglomeración y del conglomerado de pertenencia de que éstos han concluido. De ahí su inclusión en este apartado posterior a la exposición
este modelo de clasificación de casos. de deCISIones clave prevIO al análisis de conglomerados.
2. Por último, se prueba el tratamiento conjunto binario, aun sabiendo que presenta como
inconveniente principal la pérdida de información consecuente con la traducción de las
3.4.1. Elección del número de conglomerados
variables de intervalo, e inclusive las variables ordinales, a binarias (con los códigos 1
y O). Para dicha transformación se ha seguido el procedimiento usual descrito en el sub-
apartado 3.3.4. Para la variable continua "edad", por ejemplo, se ha seguido el proce- La finalidad de todo análisis de conglomerados es la clasificación de una serie de ob-
dimiento usual de buscar un valor central (en este caso la edad de 45 años), de manera jetos en conglomerados (o grnpos) homogéneos. Pero, ¿cuántos conglomerados Se re-
que todos los casos situados por debajo de este valor de referencia (,; 45 años) se co- quieren para describir, de forma precisa, la similitud y la diversidad en una población?
difican 0, mientras que los situados por encima (> 45 años) se codifican 1. , Para resolver esta cuestión trascendental no existe ninguna respuesta que sea co-
Se prueban, asimismo, diferentes algoritmos de clasificación, no sólo porque ello mnnmente acept~da. Sm embargo, existen distintos procedimientos alternativos que,
permite la elección de la solución más "significativa" analítica y conceptualmente, si- como en el análiSIS factorial exploratorio, se aplican para detenninar el número de con-
no también porque se quiere validar los resultados anteriores. glomerados idóneo. De éstos destacan los siguientes:
Dos han sido los algoritmos de clasificación utilizados: distancias mínimas y dis-
tancias máximas (o vinculación completa). Este último difiere del anterior en que calcula a) Segnir algún criterio teórico que fundamente la elección de un número de con-
la distancia entre dos conglomerados como la distancia entre sus dos casos más dis- glomerados específico, aunque hay que tener presente que la clasificación pro-
tantes. Normalmente crea conglomerados más compactos que la vinculación simple. pnesta a priori no siempre es coincidente con la sugerida tras la realización de los
El número de conglomerados posibles se fija, igualmente, entre 2 yA. También
análisis. Por esta razón, se recomienda no ceñirse a nn número detenninado de
se prueban distintas soluciones de conglomerados variando además las medidas de
distancia. Tres fueron las medidas de distancia elegidas: correlación punto 4 phi, dis- conglomerados, sino probar diferentes soluciones de clasificación con números
tancia euclídea binaria y la distancia Jaccard, que es una de las más aplicadas en da- de conglomerados varios. y, después, elegir aquella solución que tenga un mayor
°
tos binarios. En todas ellas el valor expresa inexistencia de similitud entre los casos, significado teórico y estadístico. Este proceder es muy habitnal en la conglome-
ración no jerárquica, como se dijo en el subapartado 3.3.2.
mientras el valor 1 la plena correspondencia o similitud entre ellos, a excepción de la
distancia euclídea binaria que carece de limite superior. El modelo aplicando la b) En la conglomeración jerárquica además se puede aplicar criterios similares a
medida de distancia euclldea binaria se descartó por diferir bastante de las anterio- los ntilizados en el análisis factorial exploratorio, en la decisión del número de
res clasificaciones. En cambio, los obtenidos aplicando las medidas de correlación pun- factores a retener. Si en el análisis factorial (capítulo 5) los autovalores son los
to 4 y la distancia Jaccard guardaban bastante similitud. No obstante, se prima la so- protagonistas, en el análisis de conglomerados jerárquico lo son los coeficientes
lución de conglomeración obtenida aplicando el algoritmo de Ward y la distancia de conglomeración. Llámense "coeficientes de fusión o amalgamiento" (Al-
euclídea cuadrada, por suponer menor pérdida de información y proporcionar una cla- denderfer y Blashfield (1984) o "coeficientes de aglomeración" (Hair et al., 1992;
sificación más "lógica" de los casos. A ella se hará referencia en páginas posteriores, 1999), mdlcan el valor nnmérico (medida de distancia o similitud) que propicia
cuando se interpreten los resultados de los análisis realizados.
la nnión de objetos (casos o variables) para formar conglomerados.
Se trata de observar grandes "variaciones" en los valores de los coeficien-
tes, como indicativo del número de conglomerados a retener. Cuando se apli-
3.4. La obtención de conglomerados c~n medidas de distancia (como la distancia euclídea al cuadrado), las varia-
CIones han de ser un fuerte "aumento" en la cnantía de los coeficientes, al pasar
A la elección de la medida de similaridad o de distancia le sigue la obtención de la de Un número concreto de conglomerados al inmediato superior (de 3 a 4
solución de conglomerados, en conformidad con las diversas decisiones adoptadas. A conglomerados, por ejemplo). En cambio, si se utilizan medidas de similitud (co-
decir, el método de conglomeración, el algoritmo de clasificación y la medida de si- mo, por ejemplo, la correlación de Pearson), las variaciones han de ser una fuer-
milaridad o distancia. Pero antes de proceder a la interpretación de los resultados, hay te "disminución" en la magnitud del coeficiente. La unión de dos conglomerados
286 Análisis multivariable. Teoría y práctica en la investigación sociaL
Capítulo 3: Análisis de conglomerados 287

muy diferentes coincide con coeficientes elevados (medida de distancia) o Tabla A


bajos (medida de similitud), concretamente, con un incremento porcentual Número de Coet;ciente de Diferenc;a de Cambio porcentual en el
considerable en el coeficiente respecto al nivel siguiente. conglomerados conglomeración coeficientes coeficiente del nivel siguiente
En consecuencia, la solución "idónea" del número de conglomerados es, de
acuerdo con este segundo criterio de decisión, la correspondiente al número 10 1.975,104 66,810 3,4
de conglomerados previo al "salto" (o variación) apreciable en el valor del co- 9· 2.041,914 68,644 3,4
8 2.110,558 80,191
eficiente de conglomeración. Ello se debe a que los "saltos" acontecen cuando 7
3,8
2.190,749 93,524 4,3
dos conglomerados con relativa disimilaridad (o heterogeneidad) se unen. La 6 2.284,273 109,087 4,8
dificultad está en decidir cuál de los "saltos" se considera relevante como in- 5 2.393,360 169,517 7,1
dicador de que se ha alcanzado el número correcto de conglomerados, de 4 2.562,877 180,940 7,1
manera especial, cuando se observan varios "saltos". Esto puede introducir nue- 3 2.743,817 234,563 8,5
2 2.978,380
vamente "subjetividad" en la decisión del número de conglomerados a formar. 573,620 19,3
1 3.552,000 -
Crítica que acompaña, en general, a los métodos de conglomeración jerárqui- -
ca, como se expuso en el subapartado 3.3.2.
Tabla B
Número de Coeficiente de Diferencia de Cambio porcentual en el
conglomerados conglomeración coeficientes coeficiente del nivel siguiente
10 26,152 ,003 ,01
9 26,155 1,250 4,8
8 27,405 2,490 9,1
7 29,895 1,390
Para ilustrar la aplicación de los coeficientes de conglomeración en la decisión del número 4,6
6 31,285 3,097
de conglomerados a formar, se toman los coeficientes obtenidos mediante el algoritmo de 9,9
5 34,382 1,319
Ward y la medida de distancia euclídea al cuadrado correspondiente al a~álisis de conglo- 3,8
4 35,701 ,263
merados jerárquico aglomerativo que fue finalmente aceptado como el mas adecuado para ,7
3 35,964 5,350 14,9
la clasificación de los "casos", de acuerdo con su actitud ante la inmigración. Los valores que 2 41,314 8,499 20,6
figuran a continuación (tabla A) se han extractado de la tabla del historial de c~~glomeración 1 49,813 - -
respectiva. Corresponden a las 10 últimas etapas del proceso de conglomeraclon, cuando el
número de conglomerados se reduce hasta uno en la última etapa.
A la vista de las variaciones en el valor de los coeficientes puede concluirse que la so- En la conglomeración de ''variables'', al emplearse una medida de similitud (la correlación
lución de 3 conglomerados puede ser la correcta, al haberse observado sólo un "salto" apre- de Pearson), las vanaclones en los coeficientes han de ser contrarias a las producidas cuan-
ciable en el valor del coeficiente. El reducir el número de conglomerados a 2 supone el ma- do se aplican medidas de distancia: coeficientes de correlación "elevados" expresan agru-
yor aumento en la magnitud del coeficiente (19,3%), que pasa de ser 2.743,817 a 2.978,380. pación de variable~ "similares:' o muy próximas, mientras que co",licientes próximos a cero
Dicho incremento signITica que se unen dos conglomerados muy diferentes, si se pasa de.3 Significan que se vinculan variables muy heterogéneas.
a 2 conglomerados. Por esta razón, se escoge la solución de 3 conglomerados como la mas En el subapartado 3.5.1 figura la tabla del historial de conglomeración correspondiente
"idónea". Se puede proceder a la clasificación de los encuestados en 3 grupos diferentes, de al modelo de conglomerados de variables, aplicando el algoritmo de distancias mínimas
acuerdo con sus actitudes manifiestas ante la inmigración. y la correlación de Pearson, como medida de similitud de las variables. Extráctese de di-
Aunque se descartó la solución de conglomeración obtenida mediante el algoritmo pro- cha tabla los coeficientes de conglomeración e indíquese cuántos conglomerados deberían
medio inter-grupos por producir, al igual que la vinculación simple, conglomerados "en~a­ seleccionarse como solución más "idónea" en la clasificación de las variables. Téngase
denados", la tabla B extracta los coeficientes de conglomeración correspondientes a las diez presente que la lectura de dichos coeficientes y sus variaciones porcentuales ha de
últimas etapas para compararlos con los incluidos en la tabla A. Estos coeficientes se han ob- hacerse de forma inversa a la anteriormente expuesta, al expresar "similitud" y no "dis-
tenido, igualmente, aplicando la medida de distancia euclídea al cuadrado. Como pued~ ~pre­ tancia". Aquí se avanza que el "salto" más apreciable se produce cuando se pasa de 2
ciarse en la comparación de las variaciones porcentuales, la solución de la claSlflcaClon de (coeficiente de correlación igual a ,317) a 1 conglomerado (siendo su coeficiente igual a
los encuestados en 3 grupos. en consonancia con su actitud ante la inmigración, muestra ser, ,088), lo que lleva a conceder más protagonismo a criterios lógico-sustantivos en la de-
igualmente, la más idónea. cisión del número de conglomerados a constituir. Como se verá en la tabla de conglo-
I
I Capítulo 3: Análisis de conglomerados 289
288 Análisis multívariable. Teoría y práctica en la investigación social !

ación de las 13 variables en 4 con- En él puede observarse cómo la pendiente decreciente comienza a "allanarse" a par-
merado de pertenenóa (~uba~artadod351 ~ la ~'~:iU9~ificado" de las variables. tir de 3 conglomerados, y más a partir de 5. Nuevamente se apunta a la solución de 3 con-
glomerados es la mas "Ioglca ,cons! eran o e glomerados como una c!asiflcación "idónea" de los casos analizados.

S1S d
áli' glomerados se pue-
e) Como en el análisis factorial exploratorio, en eldan' I d e ~~nn del num'ero' de con- d) En programas específicos del análisis de conglomerados, como el CLUSTAN,
d' ., ayu e a a eC1S10
de elaborar un gráfico de se ~mentaclOn que f ' entes de conglomeración con el se ofrece además un procedimiento alternativo de selección de conglomerados
glomerados a retener. En el figuran ~s ct~e ~~ interpretación del gráfico es la propuesto por Wishart en 1982 (en Supplement, CLUSTAN user manual, 3.° edi-
número de conglOl;lerado correspon en . 5 5 2)' uu marcado "allananúento" tion: Program Library Unit, Edinburgh University) y que Aldenderfer y Blash-
núsma qne en el analis1sfactonal (snbapartado . . ' gl rados "l'dóneo" field (1984) consideran "óptimo". Parte del procedimiento llamado "stopping
. d' f d número de con ome .
~e la pendiente se toma como 1m 1ca '~O . eft xión de la trayectoria de caída de la rule", 1", propuesto por Mojena en 1977 (en "Hierarchical grouping methods
Este viene determmado por e puuto e m e .enza a nivelarse and stopping rules: an evaluation", Computer ¡oumal, 20: 359-363), que esta-
pendiente del gráfico: cu~~do l~ pendi;.nte ~::~:~~:~s ~C;:ando medidas d~ blece como partición óptima del número de conglomerados aquella que satis-
Adviértase que la d1SpOS1Clon de os coe 1c1en. s formen una pen- face la desigualdad signiente: Z. + ,> Z + Ksz (siendo "Z" el valor del coeficiente
similitud ha de ser opuesta a la descrita, si se qUler~ que¿:;';'':~~nte aunque se tra- de fusión y "Z¡ + 1" el correspbndiente a la etapa "j + 1" del proceso de con-
diente descendente. En caso contrari~ la~ndi~n ::~: trayectoria de la pendiente. glomeración; y "Ksz" la desviación típica respecto al coeficiente de fUsión). Lo que
ta igualmente de observar un punto el eX1 n com arte las mis- Wishart añade es la comprobación de la signijicatividad estadística de la apli-
Este criterio de selección del número de conglo:.erad~~ión ~n el análisis cación de la regla de Mojena, mediante el estadístico "t" con "n - 2" grados de
mas crítica~ pronunciadals cobnt;a el ttyie:l ::bj:ti~7s:oaque introduce en la libertad (donde "n" es el número total de coeficientes de fusión). Pero, des-
factorial. Pnnc1palmente, a ar 1 rane a graciadamente, esta comprobación no está incluida en todos los paquetes es-
decisión del número de conglomerados a retener. tadísticos, lo que dificulta su aplicación.
e) A estos criterios hay que añadir la información dada por uno de los gráficos más
característicos de la conglomeración jerárquica: el dendograma (que se describe
~E'JEMPLO DiqRÁFI9CJD€SEÓ;MENTAdJ()N.\ en el subapartado 3.5.2).

. . d I s coeficientes que figuran en la tabla


El siguiente gráfico ha Sido elaborado a part"s e ~ frece como opción gráfica, a dife- 3.5. Presentación de los resnltados y su interpretación
A del ejemplo anterior. Aunque ~I programa sp; .~~ o ~alizarlo manualmente para ilustrar
rencía del análisis factorial que SI lo mcluye, h~ ec: 1,0 r de conglomerados. En el análisis de conglomerados los resultados se presentan de forma gráfica y
su uso como criterio alternativo en la selecclOn de numero
mediante tablas de resultados. En el análisis de conglomerados jerárquico las tablas de
resultados comunes son el historial de conglomeración y el conglomerado de pertenencia,
Coeficiente de 3.552,000 • núentras que las tablas de centros de conglomerados (iniciales y finales) y ANOVA ca-
conglomeración racterizan a los métodos de conglomeración no jerárquica. Los gráficos típicos de la con-
glomeración jerárquica son el dendograma y el gráfico de témpanos. En los métodos de
2.978,380 •
2.743,817 • conglomeración no jerárquica destacan, en cambio, los que representan la ubicación
2.562,877
2.393,360
• • de cada conglomerado y sus centros respectivos. A continuación se exponen las pre-
2.284,273 • • sentaciones numéricas y gráficas más características de cada método de conglomeración .
2.190,749 • •
2.110,556 •
2.041,914
1.975,104
3.5.1. Las tablas de resultados

5 6 7 8 9 10 Como procedimientos de conglomeración diferentes, las tablas de resultados di-


2 3 4
Número de conglomerados
fieren cuando se aplica un método jerárquico O uno no jerárquico. Para facilitar su com-
290 Análisis multivariable. Teoria y práctica en la investigación social Capítulo 3: Análisis de conglomerados 291

prensión, se ha decidido su presentación aparte, diferenciando las tablas de resultado jo el cabecero genérico de "etapa en la que el conglomerado aparece por pri-
según el método de conglomeración aplicado. mera vez". Una observación que nunca se ha unido antes a un conglomerado
tendrá un valor O en estas columnas. Esta información es de utilidad en la
identificación de observaciones "únicas" que se unen tarde al proceso de con-
3S1.1. Métodos de conglomeración jerárquicos glomeración (en los últimos pasos del análisis). Estas observaciones "únicas"
pueden ser, a su vez, potenciales' atípicos (o "outliers"), como se verá en el su-
A) Historial de conglomeración bapartado 3.5.3.
• La última columna ("próxima etapa") señala la etapa siguiente en la que el con-
El historial de conglomeración es una tabla de resultados básica en la conglome- glomerado que acaba de formarse se agrupará con otro conglomerado u obje-
ración jerárquica, dirigida a la descripción del proceso de convergencia de los objetos to. Recuérdese que en la conglomeración jerárquica (aglomerativa) paulatina-
(casos o variables) y a la selección del número de conglomerados idóneo para su cla- mente se va de más a menos conglomerados, mediante la integración de nuevos
sificación. Adopta la forma de una tabla o cuadro que resume el proceso de consti- objetos o la fusión de conglomerados ya existentes.
tución de los conglomerados e incluye la información siguiente:

• En la primera columna ("etapa") figuran numeradas las distintas etapas del aná-
lisis, desde la primera hasta la última. En general, habrá tantas etapas como ca- fEJEMFú56f=RISTÓRIALiJi= COfiGibMERAd/6Ni +---------
,,', 0_';' " ., ' " ',,' ." '_ '_ , , _ ' ,'_ "",_,,_. ," ,',_

sos menos uno (si se clasifican casos) o variables menos uno (cuando la con-
glomeración es de variables). Por esta razón, su exposición e interpretación sólo La tabla A corresponde al historial de conglomeración de la clasificación de variables
es viable cuando los objetos (casos o variables) a clasificar son de tamaño re- realizada. Aunque son 809 los casos finalmente analizados, la dimensionalidad de la tabla es
ducido. La recomendación usual es que no superen las 200 unidades. Por enci- pequeña porque hace referencia a "variables" y no a "casos". Como son 13 las variables a cla-
ma de este referente, las descripciones del análisis, tanto numéricas como grá- sificar, el número de etapas se reduce a 12. Recuérdese que siempre es el número total de
ficas, adquieren elevadas dimensiones que dificultan su lectura e interpretación. objetos que quiere agruparse menos 1. La pequeña dimensión de la tabla facilita bastante su
• A continuación figuran dos columnas que indican los dos objetos o, en su caso, lectura e interpretación. Por el contrario, en la clasificación de "casos" (tabla B) la tabla ad-
quiere una dimensión tan desorbitada que, aun restringiendo los análisis a la mitad de la mues-
conglomerados que se combinan en cada etapa. tra de análisis (297 casos válidos), ocupa siete páginas de la salida de ordenador, al incluir
• La columna con el cabecero de "coeficiente" informa del valor de la medida de 296 "etapas". Por esta razón, la tabla B sólo es un extracto de la salida original que incluye
distancia o similitud escogida en la clasificación de los objetos. Mediante este va- sólo los datos correspondientes a las 10 primeras etapas y las 10 últimas, para que puedan
lor se cuantifica la homogeneidad o heterogeneidad de los conglomerados que compararse las historias de conglomeración correspondientes a "casos" y a "variables".
se combinan en cada fase del análisis. Cuando se aplican medidas de distancia, Los números que figuran en.la tabla A corresponden al número de la variable que es asig-
valores pequeños (próximos a "O") expresan que los objetos (o conglomerados) nado por el programa, en consonancia con su disposición en el archivo matricial de entrada
que se combinan son bastante homogéneos. En cambio, coeficientes con valo- (la matriz de distancia). Si se observa la matriz de distancia (ejemplo del subapartado
res elevados informan de lo contrario: de la agrupación de objetos o conglo- 3.3.4), puede constatarse que el número 9 designa a la variable "casar con marroqur' (X )
merados bastante disimilares. . yel número 12 a la variable ''vecino marroqur' (X,,). Ambas variables hacen referencia explíc1l:,
Cuando se utilizan medidas de similitud, la interpretación de los coeficien- a un colectivo concreto de inmigrantes: los "marroquíes". De las j 3 variables analizadas, éstas
tes es contraria a la anterior: valores elevados expresan "homogeneidad", son precisamente las dos más relacionadas, al ser su coeficiente de correlación de Pearson el
más elevado de los incluidos en la matriz de distancias: r = ,585 (subapartado 3.3.4).
mientras que valores bajos indican "heterogeneidad" de los conglomerados.
Como éstas son las dos variables primeramente agrupadas, en las columnas quinta y sex-
El valor de los coeficientes depende no sólo de la medida de distancia o si- ta, que informan de la "etapa en la que el conglomerado aparece por primera vez", figuran ce-
militud empleada, también afecta el algoritmo de clasificación elegido, como se ros. La "próxima etapa" en la que se unirá una nueva variable a este primer conglomerado
demostró en el ejemplo del subapartado 3.4.1. En dicho ejemplo se expuso el uso constituido es la etapa 2, a decir por la columna séptima en la etapa 1. La variable en cues-
de los coeficientes como guía principal en la decisión del número de conglo- tión es la que figura en primer lugar (1) en el archivo matricial de entrada: la variable "simpatía
merados a formar para representar adecuadamente los datos. marroqur' (X,s)' la tercera y última variable que hace referencia expresa al colectivo específico
o Después se añaden dos columnas con información referente al "paso ante- de inmigrantes marroquíes. En la matriz de distancias puede igualmente observarse que la
rior" en el que cada uno de los dos conglomerados, combinados en dicho paso, correlación entre X15 y X,o es igual a r = ,510. Este valor es, asimismo, el que aparece en la
aparecen por primera vez. A ello se debe que estas dos columnas aparezcan ba- columna "coeficientes" en la etapa 2.
292 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 3: Análisis de congloJ1urados 293

Tabla A. G/asdicación de variables mero 6 ("regularizar inmigrantes", X,)_ Esta variable hace también referencia a aspectos re-
-- lacionados con la "política inmigratoria" f lo que hace que su vinculación con !as dos variables
Etapa en /a que el precedentes (la número 2 y 7) sea "Iógica"_
Gong/omerado conglomerado aparece Obsérvese que en la etapa 6, el coeficiente que figura no es el mismo que el registrado
que se combina por primera vez entre las variables 2 y 6 en la matriz de distancias, Ahora el número 2 designa un con-
Etapa Coeficientes Próxima
glomerado y no una variable concreta, Por lo que, el "coeficiente" es el promedio de las co-
Gong/om. Gong/am. Gong/am. Gong/om. etapa
rrelaciones de Pearson de las tres variables que componen este segundo conglomerado
1 2 1 2
(que hace referencia explícita a cuestiones relacionadas con la "política inmigratoria") en
O 2 la etapa 6,
1 9 12 ,585 O
1 ,510 O 1 7 En la etapa 8 se suma una nueva variable a este segundo conglomerado, Se trata de la
2 9
3 10 11 ,436 O O 4 variable número 5 ("número de inmigrantes", X,), En la etapa 9 se añade a este mismo con-
4 4 10 ,433 O 3 10 glomerado una nueva variable, la número 13 ("inmigrante delincuente", X 14 ),
5 2 7 ,381 O O 6 En cambio, la etapa 10 informa de la unión de dos conglomerados: el número 2 (ante-
6 2 6 ,377 5 O 8 riormente descrito y que vamos a llamar "política inmigratoria") y el número 4, Este tercer con-
7 1 8 ,353 2 O 11 glomerado fue inicialmente constituido en la etapa 3, tras la unión de las variables número 10
9
8 2 5 ,351 6 O
("estudios", Xll ) y 11 ("ingresos", X , .>- En la etapa 4 se suma una tercera variable, la número
9 2 13 ,345 8 O 10
11 4 ("edad", X4 )- El número de esta tercera variable (el 4) es el que pasa a designar a este ter-
10 2 4 ,320 9 4
10 12 cer conglomerado,
11 1 2 ,317 7
11 O O La única variable que no queda agrupada con otras variables en un conglomerado
12 1 3 ,088
concreto es la variable número 3 ("sexo", X3 ), Esta variable forma un conglomerado aparte,
Por esta razón, esta variable aparece por primera vez en la última etapa (la número 12), cuan-
do se forma un único conglomerado tras la combinación de los anteriores, a los que se aña-
de la variable número 3 (que constituye ella sola un conglomerado),
Hay que advertir que el programa SPSS utiliza el número asignado al, primer objeto c:>n En las etapas 10, 11 Y 12 se combinan conglomerados, mientras que las etapas
el que se forma el conglomerado para nombrar al conglomerado en cueslion, Por esta razon, precedentes describen la constitución de los conglomerados mediante la agrupación de va-
este primer conglomerado, integrado en las dos primeras etapas por tre~, varlabl,e~, que In- riables "similares", En primer lugar, en la etapa 10, se combinan los conglomerados de-
dican "simpatía" hacia los marroquíes (ya sea directamente -grado de s,mpa;,a - o Indi- signados con el número 2 (aquí llamado "política inmigratoria") y el 4 (que incluye variables
rectamente -preocupación por un futuro "matrimonio" de un hijo con un marroqUl o por tener relacionadas con la "posición social": "estudios", "ingresos" y "edad"), De los 4 conglo-
como ''vecinos'' a una familia de marroquíes-) se registra inicialmente con el numero 9, la Pri- merados se pasa a 3, tras la combinación de los conglomerados 2 y 4, En la etapa 11 se
mera variable que se agrupa, Pero, posteriormente, el conglomerado constituido pasa a de- agrupa el conglomerado 1 (llamado genéricamente "simpatía hacia inmigrantes") con el 2
signarse con el número 1, Éste es el número que corresponde a la primera variable ("simpatía ("política inmigratoria"), En consecuencia, sólo quedan dos conglomerados en dicha eta-
marroquF') que se añade al primer conglomerado fruto de la unión de las variables X '0 y X ,3, pa, En la etapa 12 y última sólo queda un conglomerado, al fusionarse el gran conglo-
La siguiente etapa en la que se sumará una nueva variable a dicho conglomerado es la merado anteriormente descrito con el conglomerado número 3 (que sólo está integrado por
etapa 7, En ella se incorpora la variable número 8: "partido racista" (Xg ), Obsérvese que en la variable número 3: "sexo"), En la tabla conglomerado de pertenencia se constata,
esta etapa (la séptima) no coincide el coeficiente ,353 con el registrado en la matnz de diS- nuevamente, la clasificación "clara" de las 13 variables en 4 conglomerados diferentes, co-
tancias, Ello se debe a que se ha sumado una cuarta variable a un conglomerado. ya com- mo después se verá.
puesto por tres variables, El coeficiente de conglomeración es el promedio de las distanCias La interpretación de la tabla B es similar a la realizada respecto a la tabla A Si bien, ad-
(o correlaciones) de todas las variables que conforman el c~mponente" , viértase que los números que figuran en cada etapa designando a los conglomerados aho-
En la fila correspondiente a la etapa 7 se informa, ademas, que la vanable nu;oero 1 se ra corresponden a "casos" y no a ''variables'', Salvo esta puntualización, la interpretación del
combinó por primera vez en la etapa 2 y que la "próxima etapa" en la que se sumara una nue- historial de conglomeración es igual a la anterior, aunque los coeficientes que incluye miden
va variable es la etapa 11, Pero, adviértase que ahora no se trata de una variable que se su- distancia y no similitud entre los casos, En concreto, corresponden a la medida de distancia
ma a un conglomerado, sino de la fusión de dos conglome~ados en la ?tapa 11: el llamado euclídea al cuadrado, aplicada con el método Ward. Valores bajos (próximos a "O") expresan
1 (anteriormente descrito) y el designado con el número 2_ Este es el numero q~e nombra a homogeneidad entre los casos o conglomerados, mientras que valores elevados indican he-
otro conglomerado que fue primeramente constituido en la etapa 5, tras la Unlon de las v?- terogeneidad (los casos o conglomerados que se combinan son "disimilares" o heterogéneos),
riables número 2 ("leyes de inmigración", X,) y 7 ("entrada inmigrantes", X,), La c~rrelaclon Aunque esta tabla sea un extracto de la original, inténtese su interpretación, a modo de la efec-
entre estas dos variables (r = ,381) es inferior a la de las variables que forman el primer co~­ tuada respecto a la tabla A,
glomerado, En la etapa "6" se suma una nueva variable a dicho conglomerado: la variable nu-
Capítulo 3: AnáLisis de conglomerados 297
296 Análisis multivariable. Teorfa y práctica en la investigación social

3.5.1.2. Métodos de conglomeración no jerárquicos


Para la clasificación de "casos", también se solicitó el rango de soluciones de 2 a 4 con-
glomerados. Al ser los "casos" los objetos a clasificar, la tabla adquiere una gran dimensión. En la conglomeración no jerárquica se desestima toda información relativa al
Por lo que sólo se expone un extracto de la misma (tabla B). Para que el lector pueda nue- número de conglomerados creados en cada etapa, al no seguirse un proceso de for-
vamente observar cómo la solución de conglomerados se ve afectada por el algoritmo de cla- mación de conglomerados gradual. El interés no está en comprobar cuántos conglo-
sificación y la medida de distancia o similitud, la tabla B incluye extractos de las tablas de con- merados pueden constituirse, sino en analizar, pormenorizadamente, la composición
glomerados de pertenencia para el rango de 2 a 4 conglomerados en tres de los
de los conglomerados previamente definidos. En la variedad analítica más popular den-
procedimientos probados. tro de los métodos no jerárquicos, la llamada "K-means" (o K-medias), las tablas de re-
Primero figura la solución finalmente aceptada: la obtenida aplicando el rMtodo Ward. Se-
gundo, la correspondiente al algoritmo de distancias mínimas (o vinculaclon Simple). Y, ter- sultados fundamentales son las siguientes:
cero, la obtenida con el método de promedio inter-grupos. En las tres modalidades se apli-
có la misma medida de distancia: la euclídea al cuadrado. De esta forma puede comprobarse,
igualmente, el efecto del algoritmo de clasificación. Obsérvese que se ~umple la crítica c~­ A) Tablas de los centros de los conglomerados
múnmente pronunciada contra los algoritmos de distancias ("mínimas"), e Incluso de promediO
intergrupos, de formar conglomerados "encadenados". Además, recuérdese q~e la solución En el procedimiento K-medias se obtiene información, por separado, de los cen-
de 3 conglomerados era la más idónea para la clasificación de "casos", a deCir por los coe- tros de los conglomerados (o centroides) "iniciales" y los "finales" y de la distancia ha-
ficientes de conglomeración. bida entre ellos. Lo más probable es que los centroides iniciales y finales no coincidan,
sobre todo, cuantas más iteraciones se hayan realizado hasta la solución finaL Re-
Tabla B. Conglomerados de pertenencía en distintas soluciones posibles de conglomerados cuérdese que los centroides o centros de los conglomerados son, simplemente, la me-
dia de las variables para los casos que forman el conglomerado. Su valor depende de
Método Ward Distancias mfnimas Promedio intergrupos la composición de los mismos.
Casos El análisis se inicia a pmtir de una composición de los conglomerados concreta: los
4congl. 3congl. 2 cong/. 4 congl. 3congl. 2congl. 4 congl. 3 congl. 2congl. centros iniciales de los conglomerados. Ésta se obtiene bien tras la realización de un
1 1 1 1 análisis previo (normalmente un análisis de conglomerados jerárquico) o bien ha sido
1: Caso 16 1 1 1 1 1
2: Caso 48 2 2 2 1 1 1 2 2 2 estimada por el programa una vez especificado el número de conglomerados que se de-
3: Caso 72 3 2 2 1 1 1 2 2 2 sea formar. En este último caso, es el propio programa quien estima iterativamente los
4: Gasa 87 1 1 1 1 1 1 2 2 2 centros iniciales de los conglomerados. Para ello utiliza los "K" primeros casos del fi-
1 1 1 1 2 2 2
5: Caso 94 4 3 chero de datos como estimaciones "provisionales" de los centroides iniciales (siendo
6: Caso 104 2 2 2 1 1 1 2 2 2
1 1 1
"K" el número de conglomerados indicado).
7: Caso 109 1 1 1 1 1 1
8: Caso 116 3 2 2 1 1 1 2 2 2 Los objetos se asignan, siguiendo un proceso iterativo, a los conglomerados hacia
9: Caso 129 1 1 1 2 2 1 1 1 1 cuyo centroide se sitúen más próximos. Tras cada reasignación, se recalculan los cen-
10: Caso 141 4 3 1 1 1 1 2 2 2 tros de los conglomerados, considerando las características de los objetos ahora asig-
11: Caso 164 2 2 2 1 1 1 2 2 2 nados a cada conglomerado. Éstos no tienen por qué coincidir, necesariamente, con los
12: Caso 171 4 3 1 1 1 1 2 2 2
2 2 2
objetos inicialmente asignados al conglomerado.
13: Caso 188 3 2 2 1 1 1
14: Caso 191 2 1 1 1 2 2 2 Cada nueva reasignación provoca un nuevo cálculo de la distancia entre los objetos
2 2
15: Caso 234 3 2 2 1 1 1 2 2 2 y los nuevos centroides. La medida de distancia utilizada es la euclídea. El proceso con-
16: Caso 242 4 3 1 1 1 1 2 2 2 cluye cuando se ha llegado al criterio de convergencia, que hace referencia a la pro-
17: Caso 246 2 2 2 1 1 1 2 2 2 porción de modificaciones que se han producido. El investigador suele determinarlo
18: Caso 256 2 2 2 1 1 1 2 2 2
2 2
al principio del análisis. La condición que se impone es que el criterio de convergencia
19: Caso 257 3 2 2 1 1 1 2
1 1 1 2 2 2 fijado sea superior a Oe inferior a l.
20: Caso 265 3 2 2
................. ... ... ... .. . ... ... ... ." ... Por último, indicar que la interpretación de los conglomerados, atendiendo a sus
centroides, es más sencilla cuando las variables no están estandarizadas (expresadas en
" Esta tabla extracta la clasificación de los primeros 20 casos de la muestra de análisis. su unidad de medida original) que cuando lo están (en unidades de desviación típica).
*.. La medida de distancia aplicada en los tres algoritmos de clasificación es la euclídea al cuadrado. No obstante, ha de insistirse en que la correcta realización de K-medias exige que las
298 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 3: Análisis de conglomerados 299

variables hayan sido previamente estandarizadas. Excepto cuando las variables come Tabla B. Centros de los conglomerados finales
partan una misma escala de medida o no exista mucha disparidad entre sus rangos; es
decir, que incluyan un número similar de valores. Conglomerado

1 2 3

Puntuac.: simpatía marroquí -,07100 - 1,07887 ,39915


Puntuac.: leyes inmigración - ,24637 -,75394 ,54050
Puntuac.: sexo - ,13882 ,23784 ,05351
Puntuac.: edad ,62919 ,23539 -,67026
Puntuac.: núm. inmigrantes ,33460 ,60549 ,52554
Puntuac.: regularizar inmigrante -,06827 -,84117 ,41497
Puntuac.: entrada inmigrante ,04485 ,93063 -,34354
Para la realización del análisis de conglomerados K-medias se decide que los centros
Puntuac.: partido racista ,06268 ,77813 - ,31330
iniciales de los conglomerados sean estimados iterativamente por el programa (SPSS). En Puntuac.: casar con marroquf - ,08016 1,56400 - ,40302
su estimación se emplean los "K" primeros casos en el fichero de datos como estimacio- Puntuac.: estudios - ,64826 -,23629 ,60673
nes "provisionales" de los centroides. Como los análisis de conglomerados jerárquicos he- Puntuac.: vecino marroquí -,26942 2,01062 -,31847
chos con anterioridad concluían que la clasificación de los casos, en relación a su actitud Puntuac.: ideología política ,11977 ,39017 - ,17369
Puntuac.: ingresos - ,42680 -,12941 ,54231
declarada ante la inmigración, en tres grupos es la más adecuada, se especifica que el nú-
Puntuac.: inmigrante delincuente ,39976 ,66489 -,52084
mero de conglomerados a formar sea 3 (K; 3). A continuación se exponen juntas las ta-
blas de los centros de conglomerados iniciales (tabla A) y finaJes (tabla B), para facilitar la
comparación de ambas configuraciones de los conglomerados. Recuérdese que los cen- Como todas las variables se hallan tipificadas (expresadas en la misma unidad de me-
tros de los conglomerados se hallan definidos por los valores promedios de las variables dida: puntuaciones Z), su interpretación se hace en términos de unidades de desviación tí-
en los casos que componen el conglomerado. Sus valores obviamente se alteran tras ca- pica por encima (signo positivo) o por debajo (signo negativo) de la media. La media de una
da modificación en la composición de los conglomerados. Los siguientes datos corres- variable tipificada o normalizada es siempre O y su desviación típica 1, .
ponden a la muestra de análisis. Las variables están tipificadas para evitar el efecto dis- De la comparación de las tablas A y B puede concluirse que los centros de los conglo-
torsionador que supone la inclusión de las variables "ingresos" y "edad", fundamentalmente, merados finales difieren bastante de los iniciaJes. Esta divergencia es normal porque se han
al tener un rango de valores muy superior al del resto de variables. producido varias modificaciones en los casos que componen cada conglomerado. La tabla
C detalla el historial de las iteraciones,

Tabla A. Centros iniciales de los conglomerados Tabla C. Historial de iteracioneSS

Conglomerado Cambio en Jos centros


de los conglomerados
1 2 3
Iteración t 2 3
Puntuac.: simpatía marroquí -2,18611 -2,18611 -,35302
Puntuac.: leyes inmigración -1,63676 2,22651 1,26070 1 4,872 9,032 4,037
Puntuac.: sexo -,96277 1,03825 1,03825 2 ,702 ,519 2,862
Puntuac.: edad 1,05182 -1,09959 - ,60311 3 ,426 ,274 ,504
Puntuac.: núm. inmigrantes 1,23176 1,23176 -,35958 4 9,277 E -02 5,317 E - 02 7,420 E -02
Puntuac.: regularizar inmigrante ,56676 - 1,76361 ,56676
Puntuac.: entrada inmigrante 1,73368 3,31970 -1,43838 a Covergencia alcanzada debido a un cambio en la distancia nulo o pequeño. la
Puntuac.: partido racista 1,01157 4,52535 - ,74532 distancia máxima en la que ha cambiado cada centro es 4,655 E - 02. La ite-
Puntuac.: casar con marroquí 2,30546 2,30546 - ,66661 ración actual es 4. La distancia mfnlma entre los centros ¡nleales es 10,151.
Puntuac.: estudios - ,95759 - ,12358 2,37843
Puntuac.: vecino marroquí -,39717 4,06515 - ,39717
Puntuac.: ideología polftica ,16690 -,85375 Aunque el programa SPSS aplica por defecto un número máximo de iteraciones de 10,
,16690
Puntuac.: ingresos -,65560 6,94657 6,94657 su número se ha reducido a 4, al especificarse como criterio de convergencia el valor ,02. Sig-
Puntuac.: inmi9r~nte delincue,nte ,86559 ,86559 -1,15475 nifica que el proceso de iteración concluye cuando no se obtiene ninguna modificación en los
centroides superior al 2% de la distancia más pequeña entre cualquiera de los centros de
los conglomerados iniciales.
Capítulo 3: Análisis de conglomerados 301
300 Análisis multivariable. Teoría y práctica en la investigación social

De la interpretación de los centros de los conglomerados finales (tabla B) se concluye la san que su presencia incremente la "delincuencia" en España (signo negativo). Entre sus ca-
existencia de 3 grupos diferentes de españoles de acuerdo a su actitud declarada ante la '~­ racterísticas sociodemográficas destaca el tener un nivel de "ingresos" superior a la media,
migración. Los grupos más polares son los perten;,cientes al c?nglon:erado 2 (los ma~ al igual que su nivel de "estudios". Son preferentemente jóvenes, en proporciones similares
"reacios" a la inmigración) y al conglomerado 3 (los mas ''favorables ). Los InclUidos en el con de varones que de mujeres. Respecto a su "ideología política" se ubican más a la izquierda.
glomerado 1 se sitúan entre ambos extremos. El conglomerado 1 reúne al 40,1% de los 1.229 Recuérdese que la escala aplicada iba desde 01 (extrema izquierda) a 10 (extrema derecha).
casos válidos que componen la muestra de análisis (exactamente, 493 casos); el conglo- Para seguir la interpretación de la composición de cada conglomerado, se recomienda releer
merado 2, a 165 casos (el 13,4% de la muestra de análisis); y el conglomerado 3 agrupa ca- la descripción de las variables expuesta en el capítulo 1.
si a la mitad de la muestra (571 casos que suponen el 46,5% de la muestra) .. , Por el contrario, el grupo menos populoso es el que forma el conglomerado 2: los "contrarios"
La configuración de los conglomerados obtenida en la muestra de vaf¡dacJOn (1.256 ca- a la inmigración. Se distinguen por ser los que menos manifiestan "simpatía" hacia los marro-
sos) coincide con la extraída en la muestra de análisis, como puede verse en la tabla D, ~al­ quíes (se sitúan a 1,08 Y 1,27 unidades de desviación típica por debajo de la media en la mues-
va alguna divergencia en los valores "exactos" de los centroides. El conglomerado 1 reune tra de análisis y de validación, respectivamente) y, consecuentemente, son a los que más pre-
a 516 casos (41,1%), el conglomerado 2 a 116 casos (9,2%) Y el conglomerado 3 a 624 ca- ocupa un futuro "matrimonio" o tener como "vecinos" a inmigrantes marroquíes. Consideran que
el aumento de los inmigrantes favorece el incremento de la "delincuencia" en España y califi-
sos (49,7%) de los 1.256 casos de la muestra de validación.
can muy positivo el auge de los "partidos de ideología racista". Su consideración del "número
de inmigrantes" se sitúa por encima de la media. Son contrarios a la "regularización" de los in-
Tabla D. Centros de los conglomerados finales migrantes ilegales y favorables a prohibirles la "entrada" en nuestro país. Califican las "leyes de
inmigración" de muy "tolerantes". Respecto a sus características sociodemográficas, se dis-
Congfomerado tinguen por tener un nivel de "estudios" y de "ingresos" por debajo de la media (inferior al de los
componentes del conglomerado 3). Su "edad" media supera a la de los integrantes del con-
1 2 3
glomerado 3, aunque es inferior a la de los clasificados en el conglomerado 1. Predominan los
- ,21947 - 1,26956 ,41504 "varones" y, en general, las personas de "ideología política" de "derechas".
Puntuac.: simpatía marroquí
Puntuac.: leyes inmigración -,38826 -,76972 ,41341 Por último, los integrantes del conglomerado 1, que agrupa a cuatro de cada diez en-
-,12126 ,10674 ,02171 cuestados, se sitúan entre ambos extremos, en cuanto a su actitud ante la inmigración.
Puntuac.: sexo
,48722 ,32279 - ,47192
Puntuac.: edad
-,53871
Respecto a su perfil sociodemográfico, se distinguen por ser los que menor nivel de "in-
Puntuac.: núm. inmigrantes ,51249 ,72610
-,81762 ,41469 gresos" y de "estudios" presentan y, en consonancia, los de más "edad". Es un colectivo
Puntuac.: regularizar inmigrante -,31324
,27232 ,82738 - ,42245 integrado sobre todo por "mujeres" y por personas de "derechas".
Puntuac.: entrada inmigrante
,21763 ,93986 - ,29126
Puntuac.: partido racista
,07441 1,74436 - ,40331
Puntuac.: casar con marroquí
- ,55937 -,25991 ,50262
Puntuac.: estudios De los centroides también se ofrece información relativa a las distancias entre los
- ,22834 2,81465 -,32508
Puntuac.: vecino marroquí
,22377 ,22662 -,19137 centroides finales. Esta información permite conocer qué conglomerados se sitúan más
Puntuac.: ideología palmea
-,36695 ,01537 ,35722
Puntuac.: ingresos alejados y cuáles más próximos.
,53849 ,68024 -,58816
Puntuac.: inmigrante delincuente

En suma casi la mitad de los encuestados pueden clasificarse como ''favorables'' a la in- EJEMPLODEtABLA DEOISTANCIASENi-RE LOSCENTROS
migración (co~glomerado 3), de acuerdo con sus respuestas a los ítems analizados. Atendiendo DECONGLOMERAPOSFINALES f-------
a la descripción de las 14 variables (descritas en el capítulo 1), puede observars~ que el G?n-
glomerado 3 agrupa a los sujetos que más "simpatía" manifiestan ante los marroqUl:;'s (se Sltua?,
por encima de la media) y, en consecuencia, a los que menos preocupa un Muro matnmo~,o Una vez constituidos los conglomerados, se comprueba las "distancias" (euclídeas)
de un hijo con un marroquí o tener como "vecinos" a una familia de marroqUl~s. Son contranos entre los pares de los centros de los conglomerados finales. Ello permite conocer lo "sepa-
al auge de los "partidos" de ideología "racista" (valor negativo) y, por el contrano, favorables a la rado" que están los distintos conglomerados: cuáles se sitúan más "próximos" y cuáles más
"regularización" de los inmigrantes ilegales (signo positivo) y a facilitarles la "~ntrada"; El signo "distantes", Se quieren conglomerados muy "alejados" unos respecto de otros, e integrados
negativo de esta segunda variable ("entrada inmigrante") es consonante con como esta medida. por casos bastante "próximos" al centro del conglomerado. La siguiente tabla incluye las dis-
el valor más bajo, 1, corresponde a facilitar la entrada a trabajadores Inmigrantes; el 2 solo a aque- tancias entre los centros de los conglomerados finales. En ella puede observarse que los dos
llos que tengan un contrato de trabajo; 3, dificultad su entrada y 4 prohlbl~la." " " conglomerados más "distantes" son, obviamente, los conglomerados 2 y 3 (4,750). Re-
Los integrantes del componente 3 también se caractenzan por cons;derar duras las le- cuérdese que éstos eran los dos conglomerados "polares": el conglomerado 2 agrupa a los
yes de inmigración" y "pocos" los inmigrantes existentes en nuestro pals. Además, no plen- más "reacios" a la inmigración, mientras los integrantes del conglomerado 3 se presentan co-
302 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 3: Análisis de conglomerados 303

mo los más "favorables" a la misma. El conglomerado 1 se sitúa entre ambos, al estar inte- el contrario, que las medias de dicha variable apenas difieren entre los conglomerados.
grado por personas con una actitud "intermedia" ante la inmigración. De acuerdo con las dis- Esto significa que no consigue diferenciar a los conglomerados. Hecho que la convierte
tancias entre los centros de los conglomerados linales, el conglomerado 1 se halla más pró- en candidata a ser descartada en la descripción de las características que definen a los
ximo al conglomerado 3 (2,718), los "favorables" a la inmigración, que respecto al conglomerados. En cambio, las variables que presenten un valor F elevado participan
conglomerado 2 (3,441), los más "reacios o contrarios" a la misma. Quiere esto decir, que sus en la interpretación y posterior etiquetamiento de los conglomerados creados, al diferir
características medias coinciden más con las que definen al conglomerado 3 que las que per- bastante sus medias entre los conglomerados.
filan al conglomerado 2. Se insiste en que los centros de los conglomerados hacen referencia
a las medias de las variables de los casos que forman el conglomerado.

Distancias entre los centros de /05 conglomerados finales

Conglomerado 1 2 3

1 3,441 2,718
2 3,441 4,750
3
La tabla ANOVA obtenida en la muestra de análisis (prácticamente coincidente con la ex-
2,718 4,750
traída en la muestra de validación) se expone a continuación. Obsérvese que todas las 14 va-
riables analizadas muestran ser "relevantes" en la diferenciación de los conglomerados, a de-
cir por las pruebas F realizadas. Las razones de sus medias cuadráticas entre conglomerados
("conglomerados") y las intra conglomerados ("erro(') resultan en valores elevados de F, que
B) TablaANOVA llevan a corroborar la "significatividad:' de la contribución de todas las variables a la dife-
renciación de los tres grupos de personas en cuanto a su actitud ante la inmigración.
En el análisis de conglomerados no jerárquico K-medias, la adecuación de las va- Asimismo, obsérvese que los grados de libertad entre los conglomerados son, en todas
riables en la configuración y diferenciación de los grupos se comprueba realizando un las variables, 2 (gl = K - 1 = 3 - 1), mientras que los grados de libertad dentro de los con-
análisis de la varianza univariable (ANOVA). Mediante éste se comprueba la signi- glomerados ("erro(') difieren en cada variable (gl = N - K). Ello se debe a que se ha activa-
ficatividad de la contribución de cada variable a la diferenciación entre los grupos. do la opción "excluir casos (valores perdidos) según pareja" de variables para aprovechar al
Como en cualquier análisis univariable de la varianza, la tabla ANOVA incluye in- máximo los datos posibles.
formación relativa a las "medias cuadráticas" (que indican variabilidad de las variables).
TablaANOVA
Pero, difiere en que las "medias cuadráticas" que se comparan son las ~'entre con-
glomerados" (en la columna etiquetada "conglomerado" o "cluster") y la "intra Conglomerado Error
conglomerado" o dentro del conglomerado (en la columna etiquetada "error"). Am-
bas "medias cuadráticas" figuran acompañadas por sus grados de libertad. En el caso Media Media F Sigo
gl gl
cuadrática cuadrática
de la "entre conglomerados", los grados de libertad son iguales al número de con-
glomerados menos uno (gl = K - 1); en la "media cuadrática intra conglomerado", al Puntuac.: simpatía marroquí 129,218 2 ,761 1.072 169,727 ,000
número de casos válidos menos el número de conglomerados (gl = N - K). Puntuac.: leyes inmigración 103,139 2 ,816 826 126,404 ,000
Puntuac.: sexo 10,234 2 ,985 1.226 10,385 ,000
Del cadente entre ambas "medias cuadráticas" se obtiene el estadístico F, que apa- Puntuac.: edad 229,954 2 ,605 1.226 380,236 ,000
rece acompañado de su significatividad. Si bien, se insiste en que el uso de este esta- Puntuac.: núm. inmigrantes 117,394 2 ,763 1.033 153,939 ,000
Puntuac.: regularizar inmigrante 94,641 2 ,743 1.063 127,304 ,000
dístico de comprobación en el análisis de conglomerados se adecua a fines descripti- Puntuac.: entrada inmigrante 100,344 2 ,771 1.123 130,123 ,000
vos y no inferenciales. Los conglomerados se forman siguiendo el criterio principal de Puntuac.: partido racista 70,547 2 ,853 1.113 82,700 ,000
Puntuac.: casar con marroquí 241,370 2 ,569 1.189 424,059 ,000
que sean máximas las diferencias entre los objetos de conglomerados distintos. Los ni- Puntuac.: estudios 196,861 2 ,675 1.134 291,773 ,000
veles de significatividad no se hallan corregidos por esto, lo que limita su aplicación Puntuac.: vecino marroquí 369,874 2 ,395 1.213 936,435 ,000
Puntuac.: ideología política 18,851 2 ,915 896 20,594 ,000
usual como prueba de hipótesis. A decir, la contrastación de la hipótesis nula de Puntuac.: ingresos 93,611 2 1,033 898 90,620 ,000
que las medias de los conglomerados (o centroides) sean iguales. Puntuac.: inmigrante delincuente 131,220 2 ,748 1.028 175,457 ,000
El estadístico F se utiliza para, conocer qué medias de las variables son las que más Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para
difieren entre los conglomerados: aquéllas a las que correspondan un valor F más ele- maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que
no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados sean iguales.
vado y un nivel de significación bajo (usualmente,'; ,05). Un valor Fbajo indica, por
304 Análisis multivariable. Teorfa y práctica en la investigación social Capitulo 3: Análisis de ¿·onglomerados 305

C) Tabla resumen 3.5.2. Las representaciones gráficas


Por último, puede confeccionarse una tabla resumen que incluya, para cada caso,
el conglomerado al que fue finalmente asignado. A ello se añade la distancia euclídea Como sucede con los resultados numéricos, las representaciones gráficas también
(preferente en este algoritmo de clasificación) entre el caso y el centro del conglo- difieren atendiendo al método de conglomeración aplicado para la clasificación de los
merado empleado en la clasificación del caso. Esta información es de utilidad en la objetos. En el análisis de conglomerados jerárquico dos son los gráficos estrella: el den-
identificación de los casos que se encuentran alejados de sus respectivos centroides (los dograma y el gráfico de témpanos. En la conglomeración no jerárquica destacan, en
atípicos). Su lejanía les convierte en casos no representativos de los conglomerados a cambio, los gráficos de pertenencia al conglomerado por distancia desde los centroides
los que han sido asignados. En cambio, la información relativa a la pertenencia del ca- y los que representan los casos por vadables representativas desde los conglomerados
so al conglomerado resulta relevante para la "validación" posterior de la clasificación de variables. Para estos últimos se escogen variables que muestren ser representativas
obtenida mediante el análisis de conglomerados, acudiendo a otros procedimientos ana- de los conglomerados formados: aquéllas a las que correspondan valores F elevados.
líticos. En el ejemplo aquí ilustrado, los análisis se validaron además realizando ex pro- Cualquiera de estos dos últimos gráficos cumple la función de ayudar a visualizar la ho-
feso un análisis discriminante (capítulo 4), que partió de la configuración de los tres con- mogeneidad de los conglomerados.
glomerados obtenida con la aplicación del algoritmo de clasificación K-medias. El
procedimiento seguido se detalla en el susodicho capítulo.
A) El dendograma

~'. ·EJEMPUJ PETABLADé~E~TENiNCJAGRIJPALI-I--------- El dendograma (o diagrama en árbol) es la expresión gráfica que mejor repre-
senta la estructura jerárquica implícita eu los procedimientos de conglomeración je-
Debido al elevado tamaño muestral, aun considerando sólo la muestra de análisis
(1.229 casos), a continuación figura un extracto de la tabla de pertenencia a los conglome-
rárquica. Muestra qué objetos (casos o variables) componen cada conglomerado, có-
rados. En ella figura la ubicación de los veinte primeros casos que componen la muestra de mo se van uniendo los diversos conglomerados y la distancia a la que se unen. Es
análisis (elegidos aleatoriamente) y los cinco últimos. Los situados a mayor distancia del cen- decir, ofrece, en forma gráfica, la información contenida en el historial de conglo-
troide del conglomerado en el que han sido ubicados son pOSibles "atípicos". meración.
No obstante, hay que precisar que los valores de distancia dispuestos en el gráfico
Número de caso Conglomerado Distancia (normalmente en la parte supedor, si la disposición es horizontal) no se corresponden
con los valores de distanr:ia reales, Están reescalados a números comprendidos en el
2 3 3,029
3 1 2.594 rango de Oa 25. Para conocer la distancia "real" a la que se combinan los objetos y los
4 1 1.574 conglomerados hay 9ue observar la tabla del historial de conglomeración, que contiene
5 1 2,610
6 1 2,229 dicha información.'
7 1 2,516 Asimismo, hay que destacar que, cuando se aplica el algoritmo de clasificación de
8 3 3,133
9 1 2,249 distancias máximas (o vinculación completa), el coeficiente de distancia que se mues-
12 3 3,792
15 1 2,214 tra para la última etapa es la mayor distancia entre un miembro de un conglomerado
16 2 4,211 y un integrante de otro, al menos en el programa SPSS.
18 2 2,284
19 3 1,842 La disposición del dendograma puede ser horizontal o vertical. Es vertical,
20 1 2,351 cuando las "ramas" del árbol se sitúan en el fondo y las "raíces" en la parte de arri-
21 1 2,663
22 3 2,422 ba, lo que determina que su lectura sea ascendente. Los valores de distancia se ubi-
26 2 2,883 can en el margen izquierdo o' derecho del gráfico. En las salidas de ordenador es-
29 2 2,384
30 3 2,980 tándares es muy habitnal, sin embargo, la impresión horizontal del dendograma. Las
33 1 3,250
"ramas" del árbol se disponen a la izquierda y los valores de distancia en la parte su-
2485 3 2,078 perior del gráfico. Su lectura es horizontal, de izquierda a derecha. Para evitar que
2486 3 2,327
2488 3 3.814 las ramas del árbol se crucen, los objetos a clasificar suelen posicionarse juntos. Su
2489 3 1,870 orden de aparición no coincide, por tanto, con el otorgado antes de proceder a los
2493 3 2,837
análisis.
306 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 3: Análisis de conglomerados 307

~ EJI="MPl-op~DENP0(3RAMA·.·1~- - - - - - - - - - - - - - - cuatro conglomerados. Obsérvese que la variable X, no se halla vinculada a ninguna otra va-
riable, sino que ella sola constituye un conglomerado. En el valor de distancia máximo (rees-
calado al valor 25) se produce la solución de un único conglomerado que resulta de la unión de
Dada la gran dimensionalidad del dendograma correspondiente a la clasificación de "ca- dicha variable (X" "sexd'), que difiere bastante de las demás (al haberse unido al resto al final
sos" (mediante el procedimiento de conglomeración no jerárquico aglomerativo utilizando el del proceso de conglomeración, en el valor de distancia máximo), al gran conglomerado obtenido
método Ward y la distancia euclídea al cuadrado), se ha optado por exponer sólo el den- de la agrupación de los otros tres conglomerados. Nuevamente se insiste en la conveniencia
dograma del modelo de clasificación de ''variables'' (mediante el algoritmo de vinculación sim- de leer dicho gráfico en conjunción con el historial de conglomeración.
ple, utilizando la correlación de Pearson como medida de similitud entre las variables). Pa- Por último, señalar que la diferencia entre los cuatro conglomerados en los que
ra facilitar la interpretación del dendograma, se recomienda releer la tabla del historial de pueden agruparse las 13 variables es amplia según indica el dendograma: su unión se pro-
conglomeración de dicho modelo de clasificación (subapartado 3.5.1). duce a niveles de distancia (reescalados) elevados. Además, la unión final de todos los
conglomerados en un único conglomerado se da en el último valor posible: el 25. Todo lo
Desdrogram usin simple linkage cual indica diferencias considerables entre los conglomerados formados.

Rescaled Olstance Cluster Combine

CASE O 5 10 15 20 25 B) Diagrama de témpanos


Label N.o I I I I I I
X10 9 El nombre de este gráfico, témpanos O carámbanos (del inglés "icicle"), le viene
X13 12 ~ I de la fOTIlla que adopta. Ésta se asemeja a una fila de carámbanos, o estalactitas de hie-
X15
I lo, que cuelgan de los aleros de los tejados cuando ha nevado.
X9 8 Como el dendograma, el gráfico de témpanos puede disponerse de manera hori-
X11 10 zontal y vertical. La opción horizontal suele preferirse cuando los objetos a clasificar
X12 11 I son muchos y existe dificultad para su representación en una única página. Salvo en es-
X4 4 1
ta situación, la disposición habitual del gráfico es la vertical.
X1 2 En las colunmas se representan los objetos a clasificar. Éstos se identifican bien por
X8 7 1
una etiqueta o bien por el número secuencial que se les asignó en el fichero de datos. En
X7
X6
X14
6
5
13
1-1- las filas se localizan los distintos pasos habidos en la conglomeración jerárquica realizada.
Para seguir la secuencia de pasos correctamente, el gráfico se lee, como sucede con
el dendograma vertical, de abajo a arriba. La primera fila (en la parte superior del grá-
X3 3
fico) incluye un único conglomerado. Éste se halla integrado por todos los objetos que
se quiere clasificar. En cambio, en la última fila habrá tantos conglomerados como ob-
jetos. Dada su irrelevancia para el análisis, esta última fila, que corresponde al paso O
La disposición del dendograma ilustrado es "horizontar', siendo su lectura transversal, de
del análisis, no siempre aparece dibujada en el gráfico.
izquierda a derecha. Las variables están dispuestas no por orden de entrada para la reali-
zación del análisis, sino por "similitud". Las variables que acaban agrupándose en un mismo
conglomerado aparecen juntas para evitar que las ramas del dendograma se crucen.
Como se ha dicho, la medida de distancia que figura en la parte de arriba del gráfico se
encuentra reescalada al rango de valores de O a 25. Las líneas verticales indican la forma-
ción de un conglomerado y la posición de la línea en la escala la distancia a la que los con-
glomerados se unieron: la distancia más pequeña ha sido la 1 y la más elevada 25. Pero,
aunque las distancias estén reescaladas, adviértase que la razón de dichas distancias es
la misma que la razón de las distancias originales. En la representación del proceso de formación de los conglomerados de ''variables'', de
Las variables que primero se unen son las más correlacionadas entre sí: X10 ("casar con ma- cómo se combinan las variables en conglomerados en cada iteración del proceso analítico,
rroque') y X 13 ("vecino marroqur'), con;o ya se vio en el historial de conglomeración. Lo que aña- también se realizó un diagrama de témpanos. La opción escogida fue la ''vertical'' porque el
de el dendograma es la visualización gráfica del proceso de formación de los conglomerados; número de objetos a clasificar (variables) no era elevado y favorecía esta disposición. El grá-
cómo se van uniendo, primero, variables y después conglomerados hasta la solución final de fico obtenido fue el siguiente:
308 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 3: Análisis de conglomerados 309

~ERTENENCIA A~ CONGLOMERADO
de témpanos vertical
EJEMPLO DE GRÁFICO DE
Caso n __

2e 2
e :3
ID
2C 10

'.
~
u
,S "'
2e 'E"
'"
e
'o
.~
'3
o-

~E
'3
g
o-
lti
Número de W .S 'E"
.Q> %l
O-
o
'"E
u
:s
"'"
cong/amer. 'O
2C E'"
'" ro
.~ ."'" ."E
,Q> '0

'" E
C
O e
eID 8
"'o "'
.Q .S 'O O O
U
rom ~"- ,,
O
x
ID
en
"'
i"
.s'"
'O
~
w
-g
'O
w
'E"
,Q>

.s
É
,~

z
."
'"
ID
a:
e'"
w
"' ID
>-
ID
~
'"
C
'o
>
ID
'"
ü
E
i'i5
U
OC
m'O
o
-' Q. <D'O
'O'"
6 ,
1/).2
ID:!::
o 8 ~
1 X X X X X X X X X X X X X X X X X X X X X X X X X 'Om B
X X X X X X X X X 0-'1
2 X X X X X X X X X X X X X X X m u
4
3 X X X X X X X X X X X X X X X X X X X X X X X '"
U'OID

4 X X X X X X X X X X X X X X X X X X X X X X W
'O
5 X X X X X X X X X X X X X X X X X X X X X
6 X X X X X X X X X X X X X X X X X X X X C
'"
.¡¡
2
7 X X X X X X X X X
X
X X
X
X
X
X
X
X
X
X
X
X
X
X X
X X
X
X
'"
.~
8 X X X X X X X X O
9 X X X X X X X X X X X X X X X X X O
10 X X X X X X X X X X X X X X X X
11 X X X X X X X X X X X X X X X ,5 1,0 1,5 2,0 2,5 3,0 3,5
12 X X X X X X X X X X X X X X
Número inicial de casos

Este gráfico resume los pasos habidos en la formación de los conglomerados: 12, al ser 13
Este gráfico de dispersión representa los casos teniendo en cuenta su pertenencia al con-
las variables que quiere agruparse, Obsérvese que la disposición del gráfico es contraria a la
glomerado y su distancia del centro del conglomerado al que ha sido asignado, Muestra gran
que presenta la tabla del historial de conglomeración. En el diagrama de témpanos las filas re-
utilidad en la identificación de atípicos, de casos que se sitúan bastante distanciados de los
presentan el número de conglomerados y no la etapa de conglomeración, La primera fila incluye
centr~s de sus conglomerados, no siendo representativos de los mismos, En él puede
todas las variables formando un único conglomerado, mientras en la última (la 12) son 12 los
apreciarse que en el conglomerado 3 es donde más casos no se ajustan al perfil que define
conglomerados existentes: uno agrupa a las dos variables más correlacionadas ("casar con ma-
dicho conglomerado, al no coincidir con sus características medias, En el conglomerado 2 la
rroqur' y ''vecino marroqur') y los 11 restantes están integrados sólo por una variable,
presenci~ de atípícos es más evidente (su distancia respecto al centroíde es mayor), si bien
El diagrama de témpanos puede considerarse un diagrama de "síntesis" que, sin em-'
su cuanlla es menor. Aunque existan casos bastante distanciados del centro del conglo-
bargo, no logra ofrecer toda la información contenida en la tabla del historial de conglo-
merado, su número es inferior al habido en el conglomerado 3, En cambio, en el con-
meración. Para su interpretación se recomienda, igualmente, revisar el historial de con-
glomerado 1 las disimilaridades entre sus integrantes es menos apreciable,
glomeración,

3.53. La detección de atípicos


C) Gráficos de pertenencia al conglomerado
A lo largo del presente capítulo se ha hecho referencia al posible efecto distor-
En el análisis de conglomerados no jerárquico, los gráficos de interés no atienden a la
cionador de los atípicos y cómo puede detectarse su presencia, Véase, por ejemplo, lo
descripción de los conglomerados que se constituyen en cada etapa, sino a la composición
referente a atípicos potenciales en el historial de conglomeración y en el subapartado
de dichos conglomerados, Las opciones gráficas más habituales son los gráficos de per-
anterior. En la conglomeración jerárquica los atípicos suelen coincidir con aquellos ob-
tenencia al conglomerado por distancias desde los centroides y aquellos que representan
Jetos que se unen tarde al proceso de conglomeración (en la tabla del historial de con-
los casos por variables representativas desde los conglomerados de variables, Para estos
glomeración y en sus expresiones gráficas, como el dendograma, por ejemplo, cuando
últimos se escogen variables que muestren ser representativas de los conglomerados sur-
se visualice una "rama" qne se une al resto casi al final del proceso de agrupación), En
gIdos; aquellas a las que correspondan valores F elevados, Cualquiera de estos gráficos
la conglomeración no jerárquica, los atípicos coinciden con objetos (casos o variables)
cumple la función de ayudar a visualizar la homogeneidad de los conglomerados.
310 Análisis multivariable. Teoría y práctica en la investigaci6n social Capitulo 3: Análisis de conglomerados 311

situados a bastante distancia de los centros de los conglomerados a los que han sido análisis de conglomerados, la utilidad de esta última fase analítica se halla, al igual que
asignados. la configuración de los perfiles, sujeta a debate.
A la detección común de atípicos (todo aquel que exceda el valor estandarizado de Autores como Rair et al. (1999: 528) reivindican la necesidad de su realización. En
+3,0 o se halle por debajo de -3,0) en el análisis de conglomerados se añade, para el su opinión "es esencial que el investigador lleve a cabo todos los tests para confirmar
mismo objetivo, la utilización del estadístico D 2 de Mahalanobis. Cualquier observa- la validez de la solución cluster aja vez.que asegura que la solución cluster tiene sig-
ción que presente una puntuación extrema en este estadístico se convierte en atípico nificación práctica, Los investigadores que minimizan o se saltan este paso se exponen
potencial, que puede distorsionar la verdadera estructura de los datos. De ahí la al riesgo de aceptar una solución que se especifica sólo para la muestra y tiene una ge-
conveniencia de evaluar su incidencia en los resultados del análisis, antes de proseguir neralización limitada o incluso reducida cuando se utiliza más allá de la mera des-
con su interpretación. cripción de los datos sobre las variables de obtención de conglomerados".
Para no rednndar en aspectos ya tratados con anterioridad, se remite a la lectura de Aldenderfer y Blashfield (1984) destacan cinco técnicas posibles para validar
los capítulos anteriores. En especial, del subapartado 1.5.4, que trata de los procedimientos una solución de análisis de conglomerados:
habituales para la detección de atípicos, así como de los remedios más comunes.

A) La correlación "cophenetic"
3.5.4. El perfil de los conglomerados
Fue originariamente propuesta por Sokal y Rohfl en 1962 (en "The comparison of
A la obtención de los conglomerados le sigue el análisis de los perfiles de los con- dendograms by objective methods", Taxon, 11: 33-40) y ha llegado a convertirse en el
glomerados. Trata de la descripción de las características que más diferencian o principal procedimiento de validación defendido por los taxonomistas numéricos.
discriminan a los diversos conglomerados surgidos del análisis. Este conocimiento (el Se define como la correlación entre los valores de la matriz de similaridad original
perfil del conglomerado) es de gran ntilidad para la posterior predicción de la perte- y los valores de la matriz de similaridad resultante del análisis, Ambos tipos de valo-
nencia de nn determinado objeto a un conglomerado concreto. res no siempre coinciden en número, Lo habitual es que el número de valores únicos
El perfil de los conglomerados puede lograrse mediante la aplicación combinada en la matriz de similaridad final sea inferior al número de valores únicos en la matriz
del análisis de conglomerados con el análisis discriminante. Primero, se lleva a cabo nn de similaridad original. Ello revierte negativamente en que la cantidad de información
análisis de conglomerados para la clasificación de los objetos en conglomerados. Los contenida en ambas matrices sea bastante diferente,
conglomerados qne resultan del análisis pasan, en nna fase posterior, a ser analizados Su uso, no obstante, se limita a la conglomeración jerárquica. La finalidad princi-
con detenimiento mediante la realización de un análisis discriminante en la misma se- pal es comprobar si la solución de conglomerados jerárquica (representada, por
rie de datos. Los conglomerados actúan de variables dependientes y las variables que ejemplo, mediante un dendograma) logra plasmar el modelo de similaridades entre los
ayudarán a perfilar las características .de los conglomerados (variables sociodemo- objetos,
gráficas, económicas u otras analizadas) como variables independientes. Lo usual es uti-
lizar variables no incluidas en la solución de conglomerados. El procedimiento seguido
se expone en el capítulo 4, dedicado al análisis discriminante. En él se ejemplifica el uso B) Tests de significatividad en las variables utilizadas
combinado de ambas técnicas analíticas multivariables, a partir de la clasificacióu de en la creación de conglomerados
"casos" obtenida mediante le procedimiento de conglomeración no jerárquica K-
medias (o "K-means"), Consiste en aplicar un análisis multivariable de la varianza (MANOVA) en el con-
junto de variables empleadas en la creación de los conglomerados. También puede
realizarse un análisis de la varianza por separado, en cada una de las variables anali-
3.6. Validación de los resnltados zadas (ANOVA). Cualquiera de estas dos actuaciones ayuda a conocer la significati-
. vidad de las variables que caracterizan a los conglomerados. El mismo objetivo pue-
La validación de los resultados es una tarea que no debe descuidarse en cualquier de, sin embargo, alcanzarse recurriendo a otras técnicas analíticas, como el análisis
procedimiento analítico, Se sitúa en las postrimerías del análisis y previo a su con- discriminante, por ejemplo,
clusión, A la obtención de los conglomerados y de sus perfiles, le sigue la comproba- A diferencia de la correlación "cophenetic", esta segunda técnica de validación es
ción de su significatividad y posihilidades de inferencia a la población a la que perte- de uso generalizado. Puede llevarse a efecto en toda la variedad de procedimientos de
nece la muestra ana1izada, Pero, dado el carácter "exploratorio" y, a veces, ateórico, del conglomeración existente.
312 Anúlisis multivariable. Teoría y práctica en la investigación social Capítulo 3: Análisis de conglomerados 313

C) Tests de signijicatividad en variables no empleadas para la formación Para facilitar la comparación, pueden aplicarse procedimientos de partición ite-
de los conglomerados rativos, como por ejemplo K-medias. Este algoritmo de clasificación posibilita la
comparación de los valores F cn todas las variables analizadas.
Esta tercera técnica, también llamada de "validación externa", se propone como Los resultados también pueden compararse con la ayuda de gráficos que retraten
uno de los mejores procedimientos para validar la solución del análisis de conglome- la propuesta de clasificación que resulta de los análisis.
rados. Consiste en la realización de pruebas de significatividad que comparen los con-
glomerados en variables que no se han utilizado en la generación de la solución de o Entroncando con esta quinta técnica de validación propuesta por Aldenderfer
conglomerados. Este proceder coincide con la modalidad llamada "validez de criterio", y Blashfield (1984) en el análisis de conglomerados, está la aproximación de uso ge-
propuesta por Carmines y Zeller (1979) para todo procedimiento de medición. Su po- neralizado en cualquier modalidad analítica (y es uno de los seguidos en la ejem-
der descansa en la comprobación de la generabilidad de una solución de conglome- plificación de la realización de esta técnica analítica). Consiste en dividir la mues-
rados contra "criterios relevantes". La dificultad está, precisamente, en cómo definir tra en dos submuestras. Ambas se analizan por separado para, después, comparar
la serie de criterios externos "relevantes" para que sirvan de referente en la contras- sus resultados. Este procedimiento se ve limitado, no obstante, por el tamaño de la
tación de la clasificación obtenida mediante el análisis de conglomerados. muestra. Exige que el tamaño de la muestra original sea elevado para que su divi-
sión en dos submuestras (ya sea a la mitad o al 60 y 40%, por ejemplo) no repercuta
negativamente en la pérdida de significatividad estadística de los resultados del aná-
D) Replicación
lisis.
La replicación hace referencia a lo que comúnmente se entiende por fiabilidad. Es
• En resumen, existen varios procedimientos para comprobar la validez y
decir, "la capacidad de obtener resultados consistentes en mediciones sucesivas del mis-
consistencia (o fiabilidad) de los resultados de un análisis de conglomerados. A ve-
mo fenómeno" (Jacob, 1994: 363).
ces no serán todos ellos factibles, como sucede con la correlación "cophenetic" (cuan-
En el análisis de conglomerados la replicación consiste en comprobar la consistencia
do la conglomeración es no jerárquica) o la división de la muestra en dos sub-
interna de la solución de conglomerados. Para ello se aplica el mismo procedimiento de
muestras (si el tamaño muestral original es pequeño), por ejemplo. Pero para la
análisis a diferentes muestras extraídas de la misma población. La finalidad es demostrar
generabilidad de las situaciones el investigador puede elegir entre varias de las op-
la generabilidad de la clasificación obtenida mediante el análisis de conglomerados. Se
ciones posibles. Además, hay que insistir en la conveniencia de aplicar distintas téc-
quiere mostrar que aparecen los mismos conglomerados en distintas subseries de datos,
nicas de validación; ya sea repitiendo los mismos análisis en otras muestras, ya ana-
cuando se aplica el mismo método de conglomeración. Si las soluciones no coinciden, la
lizando la misma muestra mediante otro método de conglomeración (utilizar
clasificación se considera no estable. Esto significa su pérdida de validez y posterior uti-
primero uno jerárquico para, posteriormente, validarlo mediante uno no jerár-
lidad, lo que puede llevar a rechazar la solución del análisis de conglomerados.
quico), o ya acudiendo a otra técnica analítica multivariable con la que analizar la
Por el contrario, si se obtiene la misma solución de conglomerados en análisis re-
misma serie de datos. En especial, el análisis discriminante y el análisis factorial con-
petidos, puede significar que tiene generabilidad. Si bien, se advierte que una repli-
firmatorio. Ambas técnicas analíticas se presentan como "confirmatorias" y "ex-
cación exitosa no garantiza la validez de la solución. Se recomienda que, antes de lle-
plicativas", y no como meramente "exploratorias", como sucede con el análisis de
gar a dicha conclusión, la solución de conglomerados se compruebe, asimismo,
conglomerados, favoreciendo la "inferencia" y posibilidades de generalización de
mediante otros procedimientos alternativos.
los resultados del estudio. Ambas técnicas se explican en capítulos posteriores, a cu-
ya lectura se remite. Asimismo, para obtener mayor información sobre distintos pro-
E) Procedimientos de Monte Carla cedimientos de comprobación de la validez y fiabilidad, se aconseja leer Carmines
y Zeller (1973), Cea D'Ancona (1996) o De Vaus (1990).
Esta última técnica para comprobar la validez de la solución de conglomerados ha
tenido menor aplicación que las precedentes. Consiste en la aplicación de procedi-
mientos de Monte Cario. Primero, se generan números aleatorios con el objetivo de LECTURAS COMPLEMENTARiAS
crear una serie de datos con características generales que casen con las globales de los
datos originales. A continuación, se emplea el mismo método de conglomeración tan- Aldenderfer, M. S. y Blashfield, R. K. (1984). Cluster analysis, Beverly Hills, Sage.
to en los datos "reales" como en los "artificiales" creados al efecto. Después se com- Bailey, K. D. (1994). Typologies and taxonomies: an inlroduclion lO classification
paran ambas soluciones. techniques, Thousand Oaks, California, Sage.
314 Análisis multivariable. Teoría y práctica en la investigación social
CapituLo 3: Análisis de conglomerados 315

Everitt, B. S. (1980). Cluster analysis, Nueva York, Halster. Distancias entre los centros de
Fernández Santana, O. (1991). "El análisis de cluster: aplicación, interpretación y va- los conglomerados finales
lidación", Papers, 37: 65-76.
Hair, J. F., Anderson, R. E., Tathan, R. L. Y Black, W. C. (1999). Análisis multivariante, Conglomerado 1 2 3
5.< edición, Madrid, PrenticeHall,pp. 491-546.
Martínez Ramos, E. (1984). "Aspectos teóricos del análisis de cluster y aplicación 1 21,668 41,802
2 21,668 20,139
a la caracterización del electorado potencial de un partido", en Sánchez Ca- 3 41,802 20,139
rdón, J. J (ed.), Introducción a las técnicas de análisis multivariable aplicadas a
las ciencias sociales, Madrid, CIS (Centro de Investigaciones Sociológicas), pp.
165-208.

TablaANOVA
EJERCICIOS PROPUESTOS Conglomerado Error

Media F Sig.
1. La exclusión de la variable "ingresos" puede llevar a desconsiderar la ne- cuadrática gl Media
gl
cuadrática
cesidad de tipificar las variables para realizar un análisis de conglomerados
K-medias. Para comprobarlo, con la misma base de datos se repiten los Simpatía marroquí 56,214 2 7,412 1.102 7,585 ,001
Leyes inmigración 9,201 2
análisis, con la mitad de la muestra total, excluyendo la variable "ingre- Ideología política
1,078 860 8,535 ,000
29,537 2 3,723 920
sos" y analizando, primero, variables sin estandarizar (A). Compárense Sexo 7,934 ,000
,996 2 ,249 1.255 4,004
Edad ,018
los resultados siguientes con los expuestos en el subapartado 3.5.1.2. Asi- 178.398,600 2 38,352 1.255 4.651,641 ,000
Núm. inmigrantes 6,694
mismo, compárense con la clasificación obtenida utilizando variables es- Regularizar inmigrante
2 ,386 1.062 17,324 ,000
,943 2 ,188 1.097
tandarizadas (B). Entrada inmigrante 3,381 2
5,015 ,007
,405 1.164 8,354 ,000
Partido racista 1,625 2 ,329 1.115 4,940 ,007
Casar con marroquí 18,209 2
A) Clasificación de casos con variables no estandarizadas ,995 1.211 18,304 ,000
Estudios 190,468 2 1,131 1.141 168,449 ,000
Vecino marroquÍ 4,321 2 ,458 1.242 9,425 ,000
Inmigrante delincuente 4,316 2 ,238 1.092 18,143 ,000
Centros de los conglomerados finales

Conglomerado

1 2 3

Simpatía marroquí 6,35 5,77 5,63 Número de casos en cada conglomerado


Leyes inmigración
Ideología política
Sexo
2,82
4,43
,53
2,58
4,65
,47
2,47
5,09
,44
II Congiomerado 1
2
536,000
407,000
Edad 27,53 49,16 69,29
Núm. inmigrantes
Regularizar inmigrante
2,09
,79
2,27
,73
2,36
,69
I
I
Válidos
3 316,000
1.259,000
Perdidos ,000
Entrada inmigrante 1,85 1,93 2,04
Partido racista 1,38 1,41 1,51
Casar con marroquí 1,49 1,72 1,92 1;:
Estudios 2,76 1,82 1,37
Vecino marroquí 1,20 1,27 1,41
Inmigrante delincuente ,48 ,59 ,71
316 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 3: Análisis de conglomerados 3] 7

B) Clasificación de casos con variables estandarizadas Número de casos en cada conglomerado


Centros de los conglomerados finales
Conglomerado J 34,000
2 403,000
Conglomerado 3 722,000
Válidos 1259,000
1 ~"
2 3
Perdidos ,000
Puntuac.: simpatía marroquí -1,08625 - ,41673 ,42250
Puntuac.: leyes inmigración - ,86411 - ,59638 ,44676 .
Puntuac.: sexo ,11241 -,09666 ,05160
Puntuac.: edad ,39479 ,42831 -,30472
Puntuac.: núm. inmigrantes ,61075 ,60196 -,47938 2. Siguiendo la recomendación de Fernández Santana (1991) de no incluir datos
Puntuac.: regularizar inmigrante - ,72789 - ,62936 ,42202 sociodemográficos juntamente con opiniones u otros ítems de naturaleza psi-
Puntuac.: entrada inmigrante ,77207 ,51332 -,37481 cológica (para realizar un correcto análisis de conglomerados), se repite la cla-
Puntuac.: partido racista ,51404 ,40280 -,29830 sificación de "variables" excluyendo las variables sociodemográficas. Inter-
Puntuac.: casar con marroquí 1,71412 ,17625 -,41013
Puntuac.: estudios - ,35882 -,50574 ,33880 prétense los resultados siguientes, obtenidos de la aplicación del procedimiento
Puntuac.: vecino marroquí 2,63627 - ,21542 -,32664 de conglomeración jerárquica de vinculación simple (o distancia mínima). La
Puntuac.: ideología polftica ,46186 ,25763 - ,24680 medida de distancia utilizada es la correlación de Pearson. Compárense los re-
Puntuac.: inmigrante delincuente ,53973 ,53283 - ,39912 sultados con los incluidos en el subapartado 3.5.1. Además, señálese el núme-
ro de conglomerados que debería formarse. Justifíquese la respuesta.
Distancias entre los centros de
los conglomerados finales

Conglomerado 1 2 3 Matriz de distancia


1 3,349 4,913
Archivo matricial de entrada
2 3,349 2,846 Caso
3 4,913 2,846 ~'¡'npatrn leyes latino-
" ""
marroquf inmigro americano fnmigr.
regular.
inmigro
en/rada
inmigro
partido casar vecin.o inmigr.
racista marroqu{ marroquf delin.c.

Anova Simpatía marroquí ,337 ,525 ,311 ,302 ,295 ,240 ,470 ,329 ,323
Leyes inmigración ,337 ,201 ,380 ,341 ,413 ,107 ,311 ,322 ,322
Conglomerado Error Simpatía latinoamer. ,525 ,201 ,169 ,188 ,259 ,185 ,221 ,213 ,204
Núm. inmigrantes .311 ,380 ,169 ,315 ,299 ,183 ,290 ,223 ,352
F Sig. Regularizar inmigrante ,302 ,341 ,188
Media Media ,315 ,421 ,235 ,286 ,280 ,251
gl gl Entrada inmigrante ,295 ,413 ,259
cuadrática cuadrática ,299 ,421 ,289 ,354 ,265 ,309
Partido racista ,240 ,107 ,185 ,183 ,235 ,289 ,302 ,291 ,138
Puntuac.: simpatía marroquí ,725 Ll02 216,242 ,000 Casar con marroquí ,470 ,311 ,221 ,290 ,286
156,833 2 ,354 ,302 ,606 ,292
Puntuac.: leyes inmigración ,716 860 185,752 ,000 Vecino marroquí ,329 ,322 ,213 ,223 ,280
133,038 2 ,265 ,291 ,606 ,206
Puntuac.: sexo 3,613 2 ,997 1255 3,625 ,027 Inmigrante delincuente ,323 ,322 ,204 ,352 ,251 ,309 ,138 ,292 ,206
Puntuac.: edad 80,868 2 ,853 1255 94,805 ,000
Puntuac.: núm. inmigrantes 152,955 2 ,722 1.062 211,728 ,000
Puntuac.: regularizar inmigrante 155,154 2 ,748 1.097 207,431 ,000
Puntuac.: entrada inmigrante 132,708 2 ,805 U64 164,904 ,000
Puntuac.: partido racista 71,641 2 ,896 U15 79,954 ,000
Puntuac.: casar con marroquí 254,573 2 ,585 1221 434,803 ,000
Puntuac.: estudios 90,861 2 ,859 U41 105,722 ,000
Puntuac.: vecino marroquí 488,793 2 ,243 1242 2"014,551 ,000
Puntuac.: ideología política 37,042 2 ,906 920 40,897 ,000
Puntuac.: inmigrante delincuente 116,577 2 ,790 1.092 147,612 ,000
318 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 3: Análisis de conglomerados 319

Vinculación simple
Diagrama de témpanos vertical

Historial de conglomeración Caso

o
o
Etapa en la que el El ¡j •
Conglomerado conglomerado aparece "
o •
¡;¡, .~
u
o lJo ¡j o '8
'S
que se combina por primera vez Número de
~ • S ~ '8 ~
o ¡j ~
ti .~ • ~
5 o
~
Etapa
Conglom. Conglom.
Coeficientes
Conglom. Conglom.
Próxima
etapa
conglomerados
.~
o
~

l!l
o
e
·t
.S
.S
ro
.S

"
.¡¡N
¡;¡,
'8
.S
~
S
o
S
o
o
u
j
,g
S
~
~
~
1 2 1 2 ,!j>
E • "B
~ .~ • •o.
S
.s 'o
z Ji" ~
~

~ >
~
u
~
Vi
S
1 8 9 O O 3 Vi
,606
2 1 3 ,525 O O 3 I X X X X X X X X X X X X X X X X X X X
3 1 8 ,470 2 1 7 2 X X X X X X X X X X X X X X X X X X
3 X X X X X X X
4 5 6 ,421 O O 5 X X X X X X X X X X
4 X X X X X X X
5 2 5 ,413 O 4 6 X X X X X X X X X
5 X X X X X X
6 2 4 ,380 5 O 7 X X X X X X X X X
6 X X X
7 1 2 ,354 3 6 8 7 X X X
X X X X X x x x x
X X
X X
8 1 10 ,352 7 O 9 8 X X
X X XXX X X x
9 1 7 ,302 8 O O 9 X X
X
X
X X X x x x x x X
X X X X x x x x

Dendograma

Conglomerado de pertenencia Desdrogram usin simple linkage

4 3 2 Resca!ed Distance Cluster Combine


Caso conglomerados conglomerados conglomerados CASE O 5 10 15 20 25
label N,o I I I I I I
Simpatía marroquí 1 1 1
Leyes inmigración 2 1 1 X10 8
Simpatía latinoamericano 1 1 1 X13 9 J I
Núm. inmigrantes
Regularizar inmigrante
2
2
1
1
1
1
X15 r
Entrada inmigrante 2 1 1 X5 3 I
Partido racista 3 2 2 X7 5
Casar con marroquí
Vecino marroquí
1
1
1
1
1
1
X8 6 l
_____________I __ ~
X1 2
Inmigrante delincuente 4 3 1
X6 4
X14 10
X9 7

3, En la investigación de Baró Llinas, 1. et al. (1999) '~grupaciones de las comu-


nidades autónomas según distribución de la ocupación para el año 1997" (Re-
vista del Ministerio de Trabajo y Asuntos Sociales, 16: 117-130), se obtuvo una
'1
320 Anáhs'¿~ l11Ulrivariable. Teoría y próclÍca en la investigación social i
clasificación de las distintas comnnidades antónomas, de acuerdo con las va-
riables edad, sector económico, nivel de estudios, categoría profesIOnal, sexo:
tipo de contrato. Analícense las distancias euclídeas de cada comumdad auto-
noma respecto a la media de España.

Comunidades Autónomas Distancia euclídea


4
7,930265
ANÁLISIS DISCRIMINANTE
Andalucía
Aragón 4,745556
Asturias 6,822812
Baleares 5,195898
Canarias 4,718522
Cantabria 5,327134
Castilla-La Mancha 6,655783
Castilla y León 3,667722
Cataluña 5,754900
C. Valenciana 4,053136
Extremadura 10,815473 El análisis djscriminante pertenece al grupo de técnicas analíticas multivariables de
Galícia 4,911625 "dependencia". Analiza la relación existente entre una única variable dependiente (no
Madrid 7,923963
métrica o categórica) con varias independientes (preferiblemente métricas). Su uso no
Murcia 4,274389
6,958548
se limita sólo a la explicación y a la predicción sino que también se extiende a la cla-
Navarra sificación. Se presenta como una técnica de clasificación "corroboratoria" (o confir-
País Vasco 7,089011
5,085058 matoria), a diferencia del análisis de conglomerados o el análisis factorial explorato-
La Rioja
rio, que tienen un carácter eminentemente exploratorio. Trata de la asignación de
objetos a grupos. Los objetos pueden ser personas, familias, países, animales, plantas
o cualquier cosa que se quiera clasificar en grupos. Pero a diferencia del análisis de con-
glomerados y demás técnicas multivariables exploratorias, se precisa que los grupos ha-
yan sido previamente configurados por la mediación de alguna o varias de las técnicas
exploratorias de clasificación (como las anteriormente referidas). En concreto, sus ob-
jetivos principales pueden resumirse en los siguientes:

1. Comprobar si una determinada agrupación de objetos es correcta y si queda


adecuadamente caracterizada por las variables que definen a cada grupo. Ello
supone determinar la contribución de cada variable a la clasificación "correc-
ta" de cada integrante del grupo.
2. Averiguar cuál es la combinación de variables predictoras o independientes (lla-
mada función discriminante) que hace máxima la diferenciación entre los grupos.
3. Predecir la probabilidad de pertenencia de un objeto concreto a uno de los gru-
pos diferenciados, a partir de los valores que presente en las variables predic-
toras analizadas. Para este propósito de "clasificación" es fundamental el co-
nocimiento previo de las variables que más "discriminan" o diferencian entre
los grupos.
322 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 4: Análisis discriminante 323

El número de categorías en que está medida la variable dependiente (recuérdese que


ésta ha de ser categórica) detennina el número de grupos. Si la variable dependiente só- Pese a sus coincidencias, ambas técnicas analíticas multivariables difieren en tres
rasgos esenCiales:
lo incluye dos categorías (por ejemplo, aprobado-suspenso, votante de partidos nacio-
nalistas-votante de partidos no nacionalistas, reincidente en conducta delictiva-no rein- a) En el ~nálisis discriminante la variable dependiente es categórica (o no 't'-
cidente ),el análisis discriminante es dedos grupos. Cnando consta de tres categorías, el ca), al Igual que en regresión logística. Por el contrario, en regresiónlinea7~~;_
análisis es de tres grupos y así sucesivamente. En general, se habla de análisis discrimi- tIple se eXIge que la~anable dependiente sea continua o (métrica).
nante múltiple cuando el número de grupos es superior a dos. En esta situación (de tres b) Más que a la p~edlcclon del valor de la variable dependiente (eje central del aná-
o más grupos), el investigador puede elegir entre dos opciones: o examinar todos los gru- IlSl~ de regreslO~) a partIr de una combinación de variables independientes el
pos o centrarse únicamente en los dos grupos extremos. Si esta última es la opción ele- anahsls dlscnmlnante se orienta a la clasificación de los objetos en uno de los
gida, se está ante un análisis discriminante de dos grupos, qne representan extremos po- grupos, referIdos como vanable dependiente.
lares. Cuando se elige la primera opción, el análisis discriminante es múltiple. c) Como en regresión logística, e? d análisis discriminante se calcula la razón de
aClertos como una medIda de eXlto en la predicción de la variable dependien-
te (en este caso entendIda como clasificación de grupos) a diferencia de la re-
4.1. Orígenes del análisis discriminante y su relación con otras técnicas greslónlmeal múltiple. '
multivariables
C~n el análisis de la varianza le une un mísmo interés: el análisis de las diferencias
Los orígenes del análisis discriminante tradicionalmente se relacionán con la ac- grupa es a partir ,de una serie de .~ariables. Ambas técnicas analíticas com arten
tnación de Físher en el esclarecimiento de taxonomías tradicionales en el área de la bio- unos JlJlsmos e~t~dls(¡cos en la medIC10n de dichas diferencias (lambda de Wilks, rdzón F)
logía y de la antropología física, como sn clasificación de flores del género iris, por ejem- y supuestos baslcos (como el de homocedasticidad o igualdad de las matrices de va-
plo. Destaca su publicación de 1936, "The use of multiple measurements in taxonomic nanza-cov~na~za en todos los grupos). Pese a sus semejanzas, ambas técnicas de
problems" (en Annals of Eugenics, 7: 179-188), como pionera en la aplicación del aná- dependencIa difIeren en aspectos fundamentales. En el análisis discriminante los
lisis discriminante. grupos ~e forman en función del número de categorías que comprende la única vari~ble
En el campo de las ciencias sociales merecen mención especial las aplicaciones rea- dependle~te que partIcIpa en los análisis. El análisis de la varianza incluye, por el con-
lizadas desde la pedagogía y psicología por Tatsuoka y Tiedeman de 1954 ("Discri- t~ano, vanas vanables dependientes que han de ser métricas (no categóricas) y que ac-
minant analysis", Review of Educational Research, 24: 402-420). Estos autores indagan tuan como predlctores. Las variables independientes suelen ser no métricas y nOr-
en las variables que más caracterizan y discriminan a los estudiantes exitosos de ,:~~ent~ se r~fle;en como tratamientos. Además, son las variables independientes las
aqnellos que fracasan, como paso previo a admitir un programa educativo concreto_ q eCI en e numero d,e grupos. Su uso se adecua bastante a los diseños 'experi-
También merece especial mención el estudio de Klecka de 1973 ("The c1ientele of mentales, a la compro~aclon de los efectos de distintos tratamientos. Su finalidad rin-
Australian pro·ties: new perspectives through discriminant analysis", Politics, 7: 301-308). cIPbal1 eSdla deter:rnnaclOn de la existencia de diferencias en los valores medios de la~ va-
En él, el análisis discrimínante se aplica al estudio del voto: al conocimiento de qué va- na es ependlentes, en cada grupo de tratamiento.
riables inciden más en la decisión de a qué partido político votar; cnáles discriminan ~n. ~.uma, la actuación de las distintas variables (dependientes e inde endientes) en
o diferencian más a los votantes de nn partido respecto de los otros. A Klecka también el anah~s dlScnmmante y de varianza difiere. Mientras el análisis discri!nante trata de
se debe nna de las primeras y mejores monografías sobre el análisis discriminante, que compro ar SI las vanables mdependientes pueden combinarse para predecir de manera
data de 1980 (Discriminant Analysis, Sage). üab~e, la pe~ tenen~Ia grupal, en el análisis de la varianza la pertenencia gr~pal se rela-
El análisis discriminante comparte, en su configuración, rasgos comunes con CIona con dIferenCIas en valores de una serie combinada de variables dependo t
Además amb t , . 1" len es.
otras técnicas multivariables de dependencia. Principalmente, el análisis de regresión , as eC~Icas ana Itlcas pueden concebirse como complementarias
múltiple, el análisis de varianza y el análisis de correlación canónica. ;o~o s~cede con el anahSlS de conglomerados o el análisis factorial exploratorio ei
Con el análisis de regresión múltiple comparte una misma estructura (en forma de o~~ ;SIS ; va~,anza puede aplicarse, en el proceso de análisis, en primer lugar co~ el
ecuación lineal) e interpretación de los coeficientes, además de la búsqneda de nna Je IVO, e ,o. tener la formación de grupos. Una vez que éstos se han constit~do se
combinación lineal de dos o más variables independientes métricas que logre mejor des- acudeal an,alisls dlScrtmmante para identificar las variables que más influyen en la ~a­
cribir y predecir el valor que adoptará una única variable dependiente. Ambos modelos ~acten(zaclOn de los grupos, así como la naturaleza de las dimensiones en las que di-
(el de regresión múltiple y el discriminante) son aditivos, lo qne dificnlta, en principio, eren aquellas que más discriminan entre los grupos).
la existencia de efectos interactivos entre las variables independientes o predictoras. U~a tercera técmca multivariable de dependencia que puede relacionarse con el
anáhsls dISCnJlJlnante es el análisis de correlación canónica. La semejanza entre ambas
324 Análisis multivariable. Teoría y práctica en la investigación. social Capilulo 4: Análisis discriminante 325

técnicas analíticas se evidencia en la fase de derivación de las funciones discrimi- Los diversos grupos diferenciados pueden tener tamaños muestrales desiguales.
nantes. Estas funciones reciben, precisamente, el calificativo de "canónicas", en refe- Cuando esto acontece, es preciso, igualmente, que el grupo de menor tamaño muestral
rencia a su similitud con el hacer del análisis de correlación canónica. Ambas técnicas tenga un número de casos elevado) al menos tres veces superior al número de variables
multivariables de dependencia persiguen la obtención de combinaciones lineales de va- predictoras incluidas en el análisis. La no satisfacción de esta proporción revierte ne-
riables. En el análisis discriminante, únicamente de variables independientes. En el aná- gativamente en la validez estadinica de los resultados del análisis.
lisis de correlación canónica las combinaciones son, en cambio, de variables inde- Otro aspecto a considerar, en la decisión sobre el tamaño de la muestra, es el pro-
pendientes y de dependientes. El grado de relación entre la serie de variables cedimiento que piensa seguirse en la validación de las funciones discriminantes deri-
canónicas (de variables dependientes y de independientes) se mide mediante el coe- vadas en la clasificación de los grupos. Como se expone en el apartado 4.8, el proce-
ficiente de correlación canónica; sn significatividad, mediante la razón F. Ambos es- dimiento de validación más practicado supone, como en regresión logística, la división
tadísticos también se utilizan en el análisis discriminante para comprobar la rele- de la muestra total en dos submuestras. Una se convierte en la "muestra de análisis",
vancia de las funciones discriminantes; como se verá en el apartado 4.5. la otra en la "muestra de validación". La muestra de análisis se utiliza para derivar las
En ambas técnicas analíticas, la contribución de cada variable concreta a la combi- funciones discriminantes; la muestra de validación sólo para comprobar la clasificación
nación linea! de variables se comprueba, al igua! que en el análisis factorial, mediante los realizada a partir de las funciones discriminantes derivadas.
factores de carga ("loadings"). Llámense estos "factor loading", en el análisis factorial; Este proceder exige, inevitablemente, que el tamaño de la muestra total sea sufi-
"canonicalloadings", en el análisis de correlación canónica y "discriminant loadings", en ciente para permitir su división en dos porciones similares: ya sea a la mitad (en
el análisis discriminante. En todos ellos, un valor igualo superior a ",30" significa que la igual proporción en ambas submuestras), ya sea destinando el 60% de la muestra total
influencia de la variable en la combinación de variables es relevante (en el análisis fac- a la muestra de análisis y el 40% restante a la muestra de validación, o ya mediante otras
torial es en la dimensión latente o factor). La contribución de cada variable puede proporciones que el investigador elija. Indistintamente de la proporción que represente
también cuantificarse con la utilización de coeficientes estandarizados (o "pesos"), si bien la muestra de análisis, se precisa que ésta tenga un tamaño suficiente que garantice la
estos últimos presentan mayor inestabilidad en las tres técnicas analíticas referidas. estabilidad de los coeficientes discriminantes. Por esta razón, la práctica de este pro-
El proceso de derivación de funciones discriminantes también se asemeja a la cedimiento de validación exige un elevado tamaño muestra!.
obtención de factores comunes o componente principales, en el análisis factorial, o de Otros procedimientos de validación de uso común, como el método Jackknife, son
variables canónicas, en el análisis de correlación canónica. Las primeras funciones, co- igualmente sensibles a tamaños muestrales pequeños, como se verá en el apartado 4.8.
mo los primeros factores, se caracterizan por ser las que mayor porcentaje de varianza
logran explicar. A lo que se añade la particularidad de ser funciones "ortogonales" (en
el análisis factorial pueden ser "oblicuas", como se verá en el capítulo 5) y de precisar B) Las variables "discriminantes" han de ser métricas y la dependiente categórica
la rotación para facilitar su interpretación.
El detalle de estas y otras interrelaciones entre los análisis multivariables referidos Por variable "discriminante" se entiende aquella utilizada en la diferenciación de
se verá en las páginas siguientes, donde se hará referencia a aspectos comunes en el de- los grupos. Estas variables, que actúan como variables independientes (o predictoras),
sarrollo del análisis discriminante con otros procedimientos analíticos. han de ser métricas, para permitir el cálculo de las medias y de las varianzas grupales.
En caso contrario, habrá que proceder a su traducción a variables ficticias, si quiere ob-
tenerse funciones discriminantes óptimas.
4.2. Supuestos básicos del análisis discriminaute La variable dependiente ha de ser, en cambio, categórica. El número de categorías
que incluye se corresponde con el número de grupos diferenciados en la clasificación.
El uso adecuado del análisis discriminante exige, como en todo procedimiento ana- Si la variable es dicotómica (varón-mujer; aprobado-suspenso; ocupado-en paro), el
lítico, el cumplimiento de una serie de supuestos básicos, mnchos de ellos compartidos análisis discriminante es de dos grupos. Cuando incluye más de dos categorías (variable
con otras técnicas afines. De estos supuestos son de destacar los siguientes: politómica, como por ejemplo las variables: estado civil, clase social, ideología políti-
ca, nacionalidad ... ), el análisis discriminante es múltiple. Salvo que se opte (como se di-
A) Tamaño muestral elevado jo en la introducción al capítulo) por un análisis discriminante de extremos polares: dos
únicos grupos que corresponden a las categorías extremas.
El análisis discriminante exige, como el análisis de regresión, una proporción Cuando la variable dependiente no es categórica, hay que proceder a su transfor-
mínima de 20 casos por cada variable independiente introducida en el análisis. Ello ayu- mación en "categórica" creando categorías artificiales. Por ejemplo~ una variable continua,
da a la significatividad estadística del modelo que resulte de los análisis. como la variable "número de horas que por ténnino medio se ve la televisión a! día" pue-
326 Amílisis multivariable. Teoría y práctica en la investigación social Capítulo 4: Análisis discriminante 327

de transformarse en una variable tricotómica, que incluya tres categorías a modo de las cide, directamente, eu la magnitud de las diferencias entre las distribuciones que se
siguientes: "teleadicto", aquellos que por término medio ven la televisión durante más de comparan: el estadístico que se calcula con los datos de la muestra (F, t, X2 u otro), y la
3 horas al día; "televidente medio", si sólo la ve de 1 a 3 horas al día, por término medio; correspondiente distribución de probabilidad teórica para dicho estadístico. El valor
y "televidente ocasional", si la ve de forma esporádica o menos de 1 hora al dí~... . "empírico" ha de superar al "teórico" para que los resultados del análisis sean signi-
Respecto a las variables hay que añadir un aspecto que distingue al anallSls dIS- ficativos estadísticamente y, en consecuencia, inferibles a la población a la que per-
criminante de otras técnicas analíticas. El análisis discriminante no precisa de la es- tenece la muestra. La violación del supuesto de normalidad puede distorsionar la prác-
tandarización previa de las variables, antes de comenzar los análisis. Ello se debe a que tica de cualquier prueba de significatividad.
esta técnica muestra estar menos afectada que las anteriormente expuestas (como el La forma más sencilla de comprobar el supuesto de normalidad consiste en ana-
análisis de conglomerados K-medias) por las unidades de medición de las variables in- lizar, por separado, cada variable predictora. Después, mediante gráficos de resi-
dividuales. Sus resultados apenas difieren, empleándose variables estandarizadas y no duos, puede comprobarse el grado de cumplimiento conjunto de la normalidad mul-
estandarizadas. tivariable. Para no redundar en estos y otros aspectos ya referidos con anterioridad, se
remite al lector interesado a la relectura de lo expuesto al respecto en capítulos pre-
cedentes, en especial, al subapartado 1.1.6.
C) Ausencia de multicolinealidad entre las variables independientes A lo dicho sólo insistir en la conveniencia de que el tamaño de la muestra sea ele-
vado (en relación con el número de variables independientes), ya que favorece la pre-
Como en regresión, la adecuada realización del análisis discriminante exige que rnn- sencia de normalidad multivariable. El no cumplimiento del supuesto de normalidad
guna variable predictora sea una combinación lineal de otras variables mdependIen- puede llevar a la aplicación de otra técnica analítica que no exija este supuesto. Sea el
tes. La existencia de variables independientes (o predictoras) muy correlacIOnadas en- caso de la regresión logística, por ejemplo.
tre sí revierte negativamente en el modelo, en su pérdida de significatividad.
La inclusión de variables que presenten un grado de colinealidad elevado apenas
añade poder explicativo al modelo. No contiene ninguna información nueva, más allá E) Homocedasticidad o igualdad de las matrices de covarianza en cada grupo
de la aportada por las variables con las que se encuentre muy correlacionadas (co-
rrelaciones superiores a ",80" o incluso inferior, desde ",60" (véase al respecto lo dI- El na cumplimiento del supuesto de homocedasticidad impide la medición del efec-
cho en los subapartados 1.1.8. y 2.1.2). Se quiere evitar información "redundante" en to específico de las variables "discriminantes" o predictoras. Concretamente, si la ma-
la explicación de la variabilidad de la variable dependiente. triz de covarianza intra-grupal no es la misma para todos los grupos, "las funciones dis-
El seguir un procedimiento de análisis secuencial protege de la inclusión de va- criminantes canórncas pueden no proporcionar separación máxima entre los grupos y
riables predictoras colineales. El procedimiento seguido guarda bastante SlOlllItud con las probabilidades de pertenencia grupal serán distorsionadas" (Klecka, 1980: 61).
el hacer en el análisis de regresión, como se verá en el subapartado 4.5.3. A lo dicho en el subapartado 1.1.7 (del capítulo de regresión múltiple) hay que aña-
dir el texl M de Box, de gran aplicación en el análisis de la varianza, que también es de
gran utilidad en el análisis discriminante en la detección del supuesto de homocedas-
D) Normalidad multivariada ticidad. Este test de la igualdad de las matrices de covarianzas grupales se basa en los
determinantes de las matrices de covarianza grupal. Fue inicialmente propuesto por
Además de no ser colineales, a las variables predictoras se las exige que se ajusten Barlett en 1947. En 1949, Box lo desarrolla, aproximándolo a una distribución F. Su va-
a la distribuci6n normal. Ello se precisa para aplicar las pruebas de significatividad y lor se obtiene de la aplicación de la fórmula siguiente:
el cálculo de las probabilidades de perteneucia al grupo. Estas probabilidades se cal-
culan, esencialmente, a partir de la distribución chi-cuadrado, que necesita que las va-
riables implicadas se ajusten a una distribución normal. En caso contrario, no se ob-
tendrían probabilidades de pertenencia al grupo adecuadas. En algunos casos, "las M de Barlett-Box
probabilidades para algunos grupos se exagerarían, mientras que las probabilidades pa-
ra otros grupos se subestimarían"(Klecka, 1980: 61). Sea como fuere, habría imprecisión
en la estimación de las probabilidades de pertenencia grupal. Donde: "Sg" es una estimación de la matriz de covarianza correspondiente a la celda
Lo mismo acontece con las pruebas de significatividad, imprescindibles en todo " ~ W
g-esIma "'"'g , de modo que: Sg = - - ' -J
análisis de datos muestrales. El grado de cumplimiento del supuesto de normalidad in- .
ng - .
328 Análisis multivariable. Teorfa y práctica en la investigación social Capftulo 4: Análisis discriminante 329

"S" es una estimación de la matriz de covarianza global L A diferencia de! análisis de conglomerados, ahora no se exige que las variables estén es-
tandarizadas. La estandarización no afecta a los resultados esenciales del análisis discri-
G G
minante. Sólo a los estadísticos univariables descriptivos de los grupos (media y desviación
típica), cuyo válor se halla muy relacionado con la unidad de medición de las variables, ade-
I, W, I, (n, - I)S,
más de todo lo influido por la unidad de medición de las variables (los coeficientes de las fun-
S = ~ = ~g","l,--_ _ __ Análogamente, S~
n-g n-g ciones discriminantes "no estandarizados", pero no a los "estandarizad'6~", que son de ma-
yor utilidad en el análisis discriminante). Lo que sí afecta a los resultados del análisis
discriminante es el cumplimiento de sus supuestos básicos.
Habrá heterocedasticidad (o desigualdad de las matrices de covarianza) cuando el Como lo que se quiere es validar los resultados del análisis de conglomerados K-medias,
numerador (que incluye los determinantes de las estimaciones de la matriz de Cova- se parte de la misma división aleatoria de la muestra total en dos submuestras (de análisis
rianzas para cada grnpo) sea muy superior al denollÚnador (que recoge el deterllÚnante y de validación) y de la misma composición inicial de los grupos. Recuérdese que en el aná-
de la estimación global de la matriz de covarianzas). lisis de conglomerados K-medias, la división "aleatoria" de la muestra total (2.493 casos) en
"Desgraciadamente el estadístico M no tiene una distribución exacta. Se han ob- dos submuestras resultó en la siguiente composición de los grupos (tabla A):
tenido, sin embargo, aproximaciones a las distribuciones F por Box y i.'- por Barlett. De
Tabla A. Composición de la muestra de análisis y la muestra de validación
las dos aproximaciones en general es mejor la primera" (Uriel, 1995: 236).
En el programa SPSS, la probabilidad de significación del estadístico M se basa en Muestra de análisis Muestra de validación
una transformación de F. De modo que una probabilidad pequeña puede llevar a re-
chazar la hipótesis nula de que las matrices de covarianza intragrupales sean iguales. Grupos Casos Porcentaje Grupos Casos Porcentaje
Aunque, como advierte Nourisis (1986: B-31), "cuando los tamaños muestrales en los
grupos son grandes, la probabilidad de significación puede ser pequeña incluso si las 1 493 40,1 1 516 41,1
2 165 13,4 2 116 9.2
matrices de covarianza grupales no son demasiado similares". 571
3 46,5 3 624 49,7
Asimismo se observa que la prueba M de Box es sensible, además de a tamaños Total 1.229 49.3 Total 1.256 50,4
mnestrales grandes, a salidas de la normalidad multivariada. Cuando esto sucede, pue-
de concluirse que las matrices de covarianza intragrupales sou desiguales, cuando real-
mente no lo Son.
Si se constata la existencia de heterocedasticidad, cumpliéndose en cambio el supuesto En el subapartado 3.5.1.2 se describe el perfil de cada uno de estos grupos. El análisis
K-medias concluye con la constatación del poder discriminatorio "significativo" en la dife-
de normalidad multivariada, se puede optar a aplicar la función discriminante cuadráti-
renciación de los tres grupos de las 14 variables analizadas (tabla ANOVA), en ambas sub-
ca, con preferencia a la lineal. Esta elección sólo es posible, cuando el tamaño de la mues- muestras. Con el análisis discriminante se quiere comprobar si dichas conclusiones son real-
tra es elevado. "En tamaños muestrales pequeños la regla cuadrática puede actuar bas- mente ciertas.
tante pobremente" (Nourisis, 1986: B-31). Por esta razón, la elección será aplicar la Respecto a la comprobación del supuesto de homocedasticidad (o igualdad de las ma-
función discriminante lineal. Además, recuérdese que en tamaños muestrales pequeños trices de covarianza grupales), se aplica la prueba M de Box sobre la igualdad de las matrices
es más probable la violación del supuesto dc normalidad multivariada. de covarianza. Los resultados en la muestra de análisis figuran en las tablas B y C.

Tabla B. Logaritmo de Jos determinantes Tabla C. Resultados de la prueba


EJEMPLO DE APUCACIÓNDEL CONTRASTE"M"DEBOX i;ON
Logaritmo del M de Box 530,334
EL XNAI./S/S DISCRIMINANTE Número inicial de casos Rango determinante F Aprox. 5,606
gil 90
La bondad de la clasificación de los sujetos en 3 grupos, obtenida mediante el análisis de 1 9 -4,095 gl2 80.150,852
2 9 -1,996 Sigo ,000
conglomerados K-medias (capítulo 3), quiere validarse mediante un análisis discriminante. Pa- 3 -7,075
9
ra ello se utiliza la asignación de cada sujeto a los conglomerados como una nueva variable, Intra-grupos combinada 9 -3,908 Contrasta la hipótesis nula de que las
que se emplea para la formación de los grupos. S" trata de comprobar si dicha clasificación matrices de covarianza pob!aciona!es
en 3 grupos es correcta y cuáles son realmente las variables que más diferencian a los com- Los rangos y logaritmos naturales de los determinantes impre- son iguales.
ponentes de cada grupo. sos son los de las matrices de covarianza de los grupos.
330 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 4: Análisis discriminante 331

Mediante esta prueba se comprueba la hipótesis nula de que las matrices de covarian- lítico. Por esta razón se recomienda la relectura de lo dicho al respecto en los capítu-
zas en los tres grupos son iguales frente a la hipótesis alternativa que indica que dichas ma- los precedentes.
trices difieren.
Primero, se ofrecen los logaritmos naturales de los determinantes de las matrices de co-
varianza de los respectivos grupos, por separado, y la intra-grupos combinada. El rango coin-
4.3. Fases principales en sn aplicación
cide con el número de variables independientes que conforman el modelo discriminante '~i­
nal", por haber mostrado poder discriminatorio "significativo" en la diferenciación de los
grupos. Aquí es 9 porque, como después se verá, son 9 las variables independientes "sig- En la ejecución del análisis discriminante convergen, al igual que en los demás pro-
nificativas" en el modelo. En general, se exige que el rango mínimo sea 5 para que la matriz cedimientos analíticos, una serie de actuaciones consecutivas. El análisis comienza con
sea "no singular'. Cuando un grupo no cumple este rango mínimo, el programa sólo calcu- la preparación de los datos para el análisis. Concluye con la comprobación de la vali-
la el logaritmo del determinante de la matriz de covarianza intragrupal de los grupos que sí la dez del modelo explicativo de las diferencias grupales que resulta de los análisis. En
cumplen. concreto, las actuaciones implicadas en su materialización pueden sintetizarse en las
El logaritmo del determinante indica qué matrices de covarianza de los tres grupos difieren siguientes:
más. En la muestra de análisis, los logaritmos de los determinantes de las distintas matrices
de covarianza de los grupos son bastante diferentes. El correspondiente a la matriz de co- 1. La preparación de los datos para el análisis. Comprende la comprobación de su
varianza intra-grupos combinada es -3,908. En los grupos, el valor más alto corresponde al
adecuación para la realización de los análisis. Entre las actuaciones que se in-
grupo 3 (-7,075) Yel más bajo al grupo 2 (-1,996). Para el grupo 1, el logaritmo del deter-
cluyen en esta etapa destacan las siguientes:
minante de la matriz de covarianza grupal se sitúa entre ambos valores y ligeramente por en-
cima de la intragrupos combinada: -4,095. Ante esta disparidad en los logaritmos de los de-
terminantes de las matrices de covarianza en los distintos grupos, no sorprende el elevado La elección de las variables predictoras a utilizar para la discriminación de los
valor M de Box: 530,334. Dicho valor se obtiene aplicando las fórmulas anteriormente des- grupos. La elección de las variables se realiza en consonancia con el mode-
critas. Su significatividad se comprueba mediante la razón F (5,606), con 90 y 80150,85 gra- lo explicativo tomado de partida.
dos de libertad. Como la significatividad es ,000, se rechaza la hipótesis nula de que las ma- - La selección de casos, cuyas características se van a estudiar. En esta decisión
trices de covarianza poblacionales sean iguales. interviene no sólo el tratamiento que se decida dar a los casos "sin res-
De estos resultados se concluye que el supuesto de homocedasticldad, a decir por los puesta", sino también el procedimiento que va a seguirse en la validación de
resultados de la prueba M de Box, no se cumple: las matrices de covarianza poblacionales las funciones discriminantes.
en los distintos grupos difieren. En busca de una explicación a dicho incumplimiento "ines- - La comprobación del grado de cumplimiento de los supuestos básicos ne-
perado", destaca la advertencia de Nourisis (1994: 37) de que, "cuando los tamaños mues-
cesarios para una correcta realización del análisis discriminante.
trales en los grupos son grandes, la probabilidad de significación puede ser pequeña in-
cluso si las matrices de covarianza grupales no son demasiado disimilares". Esto lleva a Análisis, por separado, de la propiedad de cada una de las variables inde-
cuestionar la utilidad y validez de la prueba M de Box, por no permitir la obtención de una pendientes elegidas para la diferenciación de los grupos. Para este propósi-
respuesta concluyente, debido al efecto negativo que en ella ejerce el tamaño de la mues- to se comprueban las posibles interrelaciones existentes entre ellas dentro de
tra analizada: cuantos más sean los casos analizados, menos concluyentes son los re- cada grupo diferenciado a priori y en la muestra en general, mediante las ma-
sultados de la prueba. También afecta el incumplimiento del supuesto de normalidad, aun- trices de correlación y las matrices de varianzas-covarianzas. A ello se suma
que éste sea leve, y la presencia de atípicos, que pueden asimismo distorsionar las el cálculo de las medias y desviaciones típicas de cada variable en cada uno de
estimaciones de la prueba M de Box. Todo ello deberá valorarse en la interpretación de los grupos y en la muestra total. Además de las pruebas de significación per-
los resultados de la prueba, antes de concluir que los datos incumplen el supuesto de ho- tinentes para constatar que las medias grupales de cada una de las variables
mocedastlcidad_ predictoras difieren, realmente, entre los grupos tomados de partida en la cla-
sificación de los casos. Ello lleva al cálculo de las razones F univariadas y del
estadístico opuesto, llamado lambda de Wilks o estadístico U.

• A los cinco supuestos expuestos, hay que añadir la necesidad de detectar y con- 2. A la comprobación del poder discriminatorio de cada variable predictora, por
trolar los casos atípicos (o "outliers"). El análisis discriminante es bastante sensible a separado, le sigue, necesariamente, el análisis de la influencia conjunta de to-
ellos, como las demás técnicas analíticas, así como al tratamiento de los casos "sin res- 1
as las variables independientes elegidas en la diferenciación entre los grupos.
puesta" (o "missing data"), por su efecto distorsionador en los resultados del análisis. Esta es la fase en la que comienza el análisis discriminante propiamente
La detección y tratamiento de estos casos es similar en cualquier procedimiento ana- dicho.
332 Análisis rnultivariahle. Teoría y práctica en fa investigación social Capitulo 4: Análisis discriminante 333

Arranca con la estimación de las funciones discriminantes, para lo cual pue- minan te. Se trata de interpretar la contribución relativa de las variables
de seguirse un procedimiento de cálculo del análisis discriminante simultáneo discriminantes en relación Con su función.
o, por el contrario, uno secuencial o por pasos. Depende, principalmente, de la - Los coeficientes de estructura discriminantes ("discriminant loadings") para to-
finalidad del análisis. De manera especial, si se está interesado en la serie entera das las variables predictoras. Éstos miden la correlación lineal simple entre ca-
de variables predictoras, indistintamente de su poder discriminatorio; o, por el da variable independiente y cada función discriminante, por lo que reflejan la
contrario, si se busca la selección de aquellas variables independientes que mues- varianza que comparten las variables con cada función. Se calculan a partir de
tren una contribución significativa a la diferenciación de los grupos. las matrices de correlación intergrupal y de los coeficientes estandarizados.
Cualquiera que sea el procedimiento elegido en la materialización del - Los valores F parciales para comprobar la significatividad del poder discri-
análisis discriminante, esta fase del análisis incluye distintas actuaciones que con- minatorio relativo de las variables independientes.
ducen a la estimación de las funciones discriminantes; es decir, de combinaciones
lineales de variables predictoras que contribuyen a la diferenciación de los gru- También se examinan las medias grupales (o centroides) de cada grnpo res-
pos. Abarca: pecto a las funciones discriminantes. Mediante ellas se cuantifica la distancia a
la que se encuentran los grupos respecto de las dimensiones que se comprneban.
- La derivación de los coeficientes de las funciones discriminantes. A partir de las medias grupales se perfilan las características de los grupos di-
La comprobación de la significatividad de las funciones. ferenciados. Para ello se consideran las variables predictoras que han mostra-
- La obtención de las puntuaciones discriminantes. do mayor discriminación entre los grupos.
Como síntesis del efecto discriminante total de cada variable predictora, a
3. Una vez constatada que las funciones discriminantes son estadísticamente sig- través de las funciones discriminantes, se calcula el índice de potencialidad. És-
nificativas, se procede a la clasificación de los casos analizados en los grupos di- te se obtiene multiplicando los cuadrados de los coeficientes de estructura
ferenciados. Para ello se consideran los valores que presentan los casos en las ("discriminant loadings") por los autovalores (o "eigenvalues") relativos en ca-
variables predictoras que confOlman las funciones discriminantes, al mostrar in- da variable predictora.
fluencia significativa en la diferenciación de los grupos. En suma, de lo que se Para facilitar la interpretación de las funciones discriminantes se reco-
trata es de evaluar la adecuación predictiva de las funciones discriminantes. Es- mienda, al igual que en el análisis factorial exploratorio, proceder previamen-
to supone actuaciones como las siguientes: te a la rotación de las funciones discriminantes. La rotación siempre ayuda a la
interpretación, al suponer la distribución de la varianza, preservando la es-
La determinación de la puntuación de corte óptima. tructura original de la solución discriminante.
- La obtención de las matrices de clasificación. 5. La última fase del análisis se dedica a la comprobación de la validez del modelo
La decisión de los criterios a seguir en la valoración del éxito de la clasificación. discriminante obtenido, ya sea mediante un procedimiento de validación cru-
zada u otro, resumidos en el apartado 4.8. En caso de constatarse su "invalidez",
4. A la clasificación de los casos en los grupos diferenciados a priori, le sigue la in- habrá que volver a la primera fase del análisis, a replantear todo el análisis. Si,
terpretación del modelo discriminante que resulta de los análisis. Al igual que en por el contrario, el modelo discriminante muestra ser "válido", puede proce-
otros procedimientos analíticos, la interpretación no se restringe, únicamente, a los derse al perfilado de las diferencias grupales.
resultados estadísticos. Incluye también la interpretación de los gráficos ilustrativos
de la taxonomía realizada. Sea el caso, por ejemplo, de los gráficos que representan La figura 4.1 resume las diversas actuaciones que comprende un análisis discri-
los centroides grupales, los "loadings" disc'liminantes, los mapas territoriales, los his- minante usual.
togramas de puntuaciones discriminantes o el diagrama conjunto de dispersión to-
tal de todos los casos de acuerdo con las funciones obtenidas.
Respecto a la vertiente estadística de la interpretación, se trata, primero, de 4.4. Los preliminares del análisis
determinar la importancia relativa de cada variable independiente en la dife-
renciación de los grupos. Para ello se analizan los siguientes estadísticos: La consecución de un "buen" análisis discriminante está condicionada a los pre-
liminares del análisis; a las decisiones adoptadas en la preparación de los datos. Las ac-
- Los pesos o coeficientes estandarizados de las funciones discriminantes de las tuaciones incluidas en esta fase del análisis se integran en dos grandes apartados: las
variables que han mostrado poder discriminatorio en cada función discri- decisiones clave y el análisis univariable de las diferencias grupales.
334 Análisis multivariable. Teoría y práctica en la investigaci6n social Capitulo 4: Análisis discriminante 335

4.4.1. Decisiones clave


l." PREPARACIÓN DE LOS DATOS PARA EL ANÁLISIS
.. Elección de las variables predictorias Antes de proceder al análisis discriminante propiamente dicho, se han de adoptar una
.. Selección de los casos a analizar
.. Comprobación de los supuestos básicos del análisis discriminante. . . . serie de decisiones clave que incluyen aspectos varios. De ellas destacan las siguientes:
.. Análisis univariable de la distribución de las variables en los grupos dtferenClados a prlon

't'
A) Elección de variables predictoras
r-~ ESTIMACIÓN DE LAS FUNCIONES DISCRIMINANTES
2."
Se elegirán aquellas variables que se crean relevantes en la diferenciación grupal.
Análisis discriminante simultáneo
I I Análisis discriminante secuencial
I Ésta es una decisión clave porque las variables elegidas determinarán la clasificación
posterior de los casos en los grupos diferenciados (en consonancia con las categorías
de la variable dependiente). Para ello se parte de una clasificación inicial. En la mayoría de
.. Derivación de los coeficientes de las funciones discriminantes
.. Significatividad de las funciones las situaciones esta clasificación deriva de la aplicación anterior de otra técnica analítica
.. Obtención de las puntuaciones discriminantes multivariable: ya sea un análisis de conglomerados, factorial exploratorio, escala-
R 't' miento multidimensional, o cualquier análisis que proporcione una agrupación de los
3." EVALUACIÓN DE LA ADECUACIÓN PREDICTIVA DE LAS FUNCIONES datos. Los grupos han de caracterizarse por ser internamente homogéneos, pero muy
E DISCRIMINANTES heterogéneos unos respecto de otros.
.. Determinación de la puntuación de corte óptima
p • Obtención de las matrices de clasificación
.. Aplicación de criterios varios para valorar el éxito de la clasificación
L B) Selección de los casos a analizar
y
A
4.' INTERPRETACIÓN DEL MODELO DISCRIMINANTE La decisión relativa al número de casos se halla condicionada a aspectos tan dis-
N tintos como las características y proporción de los casos "sin respuesta", o el proce-

T
I Rotación de las funciones discriminantes I dimiento elegido en la validación de las funciones discriminantes.

E ESTADíSTICOS: GRÁFICOS: Los casos "sin respuesta". Antes de decidir qué tratamiento se les va a dar (su
.. Determinar la importancia relativa de cada • Centroides grupales eliminación de los análisis o la imputación), deberá realizarse su cuantificación
A variable independiente en la diferenciación de .. "Loadings" discriminantes (calcularqué proporción representan en el total de la muestra) y analizarlas ca-
los grupos mediante: • Mapas territoriales
* Pesos discriminantes estandarizados o Histogramas de puntuaciones dis- racterísticas de los casos "sin respuesta" en varias de las variables elegidas pa-
R
:\< Correlaciones de estructura discriminantes criminantes ra la diferenciación de los grupos (si difieren de aquellos casos que sí propor-
:1< Valores Fparcíales o Diagramas de dispersión total de cionan información en las variables de interés).
o Examen de las medias grupales en relación todos los casos para las funciones
con cada función discriminante obtenidas. Como ya se dijo en el subapartad<l 1.3.1, cuando los casos "sin respuesta" re-
o Cálculo de los fudices de potencialidad presentan una Ilúnima proporción en el total de la muestra, su eliminación de los
análisis puede ser una solución óptima. Pero únicamente cuando su eliminación
y no suponga una reducción en el tamaño de la muestra que haga peligrar la va-
5.° VALIDACIÓN DEL MODELO DISCRIMINANTE lidez estadística de los resultados del estudio.
o Procedimientos de validación alternativos I El análisis previo del perfil socio demográfico de los casos "sin respuesta" es
I siempre necesario. Ayuda en la decisión de qué remedio adoptar. Si el perfil de
r los casos "sin respuesta" difiere del que presentan los casos "con respuesta", la
Nol I Sí I eliminación de losprimeros de los análisis puede suponer la obtención de re-
I Perfilado de las diferencias grupales ¡ sultados sesgados, además de la reduccióu en el tamaño muestra!.
Si la proporción de casos "sin respuesta" es considerable, una opción al-
Figura 4.1. Fases principales de un análisis discriminante. ternativa es eliminar de los análisis aquellas variables predictoras que presenten
336 Análisis multivariable. Teoría y práctica en la investigación socia! Capitulo 4: Análisis discriminante 337

una proporción considerable de casos "sin respuesta". La condición es que de las variables, a partir de criterios teóricos o, simplemente, de preferencia, no ajus-
estas variables no muestren ser cruciales en la diferenciación de los grupos. tados a los criterios estadísticos. Cuando es éste el procedimiento analítico seguido se
Las ventajas e inconvenientes de la imputación ya se han mencionado en los está ante una tercera modalidad de análisis discriminante. Tabachnick y Fidell (1989)
capítulos precedentes. lo llaman "análisis de función discriminante jerárquica". Pero esta variedad analítica
- El procedimiento para validar las funciones discriminantes. Otra decisión previa no es muy habitual en la investigación aplicada, más regida por criterios estadísticos.
a la ejecución del análisis discriminante concierne a la validación de las funciones En la decisión de qué modalidad de análisis discriminante realizar interviene
discriminantes. Ésta redunda en decisiones clave como la relativa a los casos a . sobre todo, la finalidad última que se persiga con el análisis:. '
someter a análisis.
Si se piensa aplicar alguno de los procedimientos de validación cruzada, ha- - Si se está interesado en la serie entera de variables predictoras, sin valorar su po-
brá que proceder a la distribución, de forma aleatoria, de la muestra total en dos der discriminatorio, la opción será efectuar un análisis discriminante simultáneo.
submuestras: una, destinada al auálisis, a la obtención de las funciones discrimi- Si, por el contrario, se prefiere calcular las funciones discriminantes can uua se-
nantes; y otra a la validación de las funciones obtenidas (véase apartado 4.8). rie reducida de variables predictoras, en consonancia con su poder discrimina-
A este respecto, habrá que concretar qué porción de la muestra total se des- torio, la elección óptima será la aplicación de un análisis discriminante secuen-
tina a cada submuestra (análisis y validación). Puede decidirse destinar a cada cial (o por pasos)_
submuestra la misma proporción de casos (50, aproximadamente, a cada una) o,
por el contrario, adjudicar una mayor proporción a la muestra de análisis. Esta A estas decisiones "clave" hay que añadir las referidas al incumplimiento de su-
última opción se recomienda, de manera especial, cnando la muestra total no es puestos básicos para el análisis discriminante. Reléase el apartado 4.2.
elevada y sea preciso adjudicar más casos a la muestra de análisis para, de esta
forma, alcanzar la debida proporción de casos por variables predictoras que exi-
ge la adecuada derivación de las funciones discriminantes (véase apartado 4.2). 4.4.2. Análisis univariable de las diferencias grupales
Por ejemplo, el 60% de la muestra total se destina a la muestra de análisis y el
40% a la muestra de validación. Las proporciones pueden ser varias con la Antes de realizar el análisis discriminante propiamente dicho, conviene efectuar un
condición que no pongan en peligro la validez estadística de los análisis. análisis, por separado, de cada variable predictora cuya influencia en la caracterización
y diferenciación de los grupos quiere medirse. En el análisis discriminante la práctica
habitual es comenzar con un análisis descriptivo univariable de las medias grupales (de
C) Modalidad de análisis discriminante a aplicar cada variable predictora), junto a sus desviaciones típica, en cada uno de los grupos dis-
tinguidos (en consonancia con las categorías de la variable dependiente). El objetivo
El análisis discriminante puede hacerse de forma directa (o simultánea) y se- es comprobar si existen diferencias grupales en cada una de las variables indepen-
cuencialmente (o por pasos). El análisis discriminante directo O simultáneo calcula las dientes elegidas, por separado. Es decir, si los valores medios de dichas variables
funciones discriminantes canónicas considerando la serie entera de las variables pre- varían entre los grupos definidos a priori. Se destacan las variables cuyas medias di-
dictaras elegidas, indistintamente de su poder discriminatorio. En cambio, en el aná- fieren más de un grupo a otro. Asimismo, Se toma nota de aquellas variables predic-
lisis discriminante secuencial o por pasos las variables predictoras participan en la ob- toras que apenas provocan variación entre los grupos.
tención de las funciones discriminantes, de acuerdo con el poder discriminatorio que Como en todo análisis de medias aritméticas, su interpretación se realiza consi-
muestren. La selección de las variables es secuencial, a modo del proceso seguido en derando las desviaciones típicas respecto a dichas medias; la mayor o menor dispersión
el análisis de regresión secuencial. En cada paso se va incorporando una nueva variable de los valores alrededor de la media. Desviaciones típicas elevadas expresan hetero-
explicativa al modelo discriminante. El orden de entrada está determinado por crite- geneidad en el grupo respecto a la variable considerada. En esta circunstancia la
rios estadísticos que gradúan el poder discriminatorio de las variables. Al mismo media no es representativa, al no agrupar a muchos casos en torno a ella. En conse-
tiempo, se controla el grado de colinealidad de cada variable predictora con aquellas cuencia, interesan desviaciones típicas pequeñas porque indican homogeneidad grupal
que ya se han incluido, en pasos anteriores, en el modelo discriminante. El detalle de respecto a dicha variable. La media es representativa.
esta modalidad de análisis discriminante se eucuentra en el subapartado 4.5.3. En la in,terpretación de la media hay que advertir una excepción: cuando la variable
No obstante, hay ocasiones culas que el investigador decide no seguir criterios es- es ficticia. Estas se codifican de forma binaria (O y 1), lo que favorece su tratamiento
tadísticos en la determinacióu del orden de entrada de las variables predictoras en el como variable métrica. Sin embargo, la interpretación de la media en este tipo de va-
cálculo de las funciones discriminantes. Él mismo es quien decide el orden de entrada riables no coincide con la realizada en variables métricas. La media de las variables fic-
Capitulo 4,' Análisis discriminante 339
338 Análisis multivariable. Teoría y práctica en la investigación social

Tabla A. Estadísticos de grupo


licias expresa la proporción de casos con el valor 1. Así, por ejemplo, la media de la va:
riable sexo de 0,489 significa que el 48,9% de los casos en el grupo X son varones (SI Medias grupales Desviaciones tfpicas
Variables
éste es el atributo que se ha codificado 1 Y las mujeres O). 1 2 3 Tota! 1 2 3 Total

Simpatía marroquí 5,164 2,623 7,223 5,889 2,512 2,482 2,397 2,884
Leyes inmigración 2,276 2,019 3,290 2,779 ,929 1,060 1,130 1,094
EJEMPLO DE ANÁL/SISUNIVAFiI,4BLE DEMEDIAS y DESVIACIONES Ideología política 5,017 5,377 4,021 4,539 1,920 2,141 1,831 1,939
Sexo ,543 .641 ,528 ,550 ,500 ,484 ,521 ,498
TíPICAS EN LA DIFERENCIACiÓN bE GRUPOS
Edad 52,543 46,585 32,139 40,793 15,939 17,858 16,481 16,580
N. <> inmigrantes 2.448 2,547 1,865 2,152 ,539 ,552 ,599 ,615
El análisis arranca de la composición inicial de los grupos obtenida mediante el análisis Regularizar inmigrante ,741 ,415 ,964 ,812 ,419 ,457 ,387 ,391
de conglomerados K-medias. Como el análisis discriminante no precisa, a diferencia del aná- Entrada inmigrante 1,974 2.415 1,622 1,851 ,572 ,689 ,617 ,614
lisis K-medias de la estandarización de las variables (la unidad de medición de las variables Partido racista 1,465 2,113 1,212 1,425 ,595 ,619 ,563 ,587
no afecta a su~ resultados), los análisis se van a realizar con variables no estandarizadas. Las Casar con marroquí 1,595 3,454 1,249 1.682 ,854 ,742 ,695 1,029
variables son las mismas que las incluidas en el análisis de conglomerados. Asimismo, no se Estudios 1,560 1,698 2,958 2,326 ,994 ,992 1,031 1,218
Ingresos 117.241,8 152.830,7 220.337,3 177.417,6 111.906,9 139.800,9 153.710,3 141.932,3
considera la variable "simpatía hacia latinoamericanos" para evitar los efectos negatlvo.s de
Vecino marroquí 1,129 2,774 1,083 1,345 ,637 .954 ,776 ,748
la colinealidad elevada. Recuérdese que esta variable está muy correlacionada con la vanable
Inmigrante delincuente ,750 ,887 ,285 .522 ,435 ,390 ,453 ,500
"simpatia marroqui' (r ~ ,593). .
En la muestra de análisis (1.229 casos), la descripción de los grupos, atendiendo a los N. <> inicial de casos 116 53 193 362 123 362
116 53
valores de la media y la desviación típica, se resume en la tabla A Como se va a proceder,
a su vez, a la aplicación de un procedimiento de validación cruzada, los casos "válidos" fi~ales
en esta submuestra se reducen a 362. Éstos son los casos que participan en la denvaclon de
las funciones discriminantes. Los "excluidos" lo son porque al menos una variable discrimi- tacan por establecer más diferencias entre los tres grupos son las siguientes: "simpatía ma-
nante está perdida. Pero, adviértase que su exclusión es sólo para la derivación de las fun- rroqur' (5,16,2,62, 7,22), "edad" (52,54, 46,59, 32,14), "regularizar inmigrantes" (,74,,42, ,96),
ciones discriminantes. Una vez que éstas han sido derivadas, todos los casosde la ,:,uestra "ingresos" (117.242, 152.831, 220.337) e "inmigrante delincuente" (,75, ,89, ,29). Otras
de análisis (los 1.229 casos) participan en la "clasificación"; en la comprobaclon del eXlto de ocho variables destacan por diferenciar, sobre todo, los dos grupos más polares, el dos (los
la clasificación hecha gracias a las funciones discriminantes. En la tabla A puede observar- "contrarios" a la inmigración) y el tres (los ''favorables''). Son las variables "leyes inmigración"
se que la distribución de los casos "válidos" en los tres grupos se asemeja bastante a la ob- (2,28,2,02,3,29), "ideologia política" (5,02, 5,38, 4,02), "sexo" (,54, ,64, ,53), "n.o de inmi-
tenida mediante el análisis de conglomerados K-medias (capítulo 3). El grupo 3 (los "favo- grantes" (2,45, 2,55, 1,87), "entrada de inmigrantes" (1,97, 2,41. 1,62), "partido racista"
rables" a la inmigración) es el más populoso y el 2 (los "contrarios") el men?s. .'. (1,47,2,11, 1,21), "casar con marroqur' (1,60, 3,45, 1,25), ''vecino marroqui' (1,13,2,77, 1,08).
. El objetivo es comprobar si las variables independientes utilizadas en la dlferenclaclon en- La variable restante, "estudios", también difiere aunque mayormente entre el grupo uno (los
tre los grupos realmente "discriminan" entre ellos. La comprobación se hace, inicialmente, de intermedios) y el tres (los favorables a la inmigración): 1 ,56, 1,70 Y 2,96, respectivamente.
cada variable independiente por separado y en cada grupo. Los estadisticos utilizados son Se esperaba que los grupos más diferenciados fuesen el segundo y el tercero, a decir
la media (como estadístico representativo de tendencia central) y la desviación típica (como por el perfil trazado inicialmente mediante el análisis de conglomerados K-medias. Ahora
medida de dispersión). Para que las variables muestren "poder discriminat~ri~", al menos a corresponde comprobar si el análisis conjunto de las variables corrobora el poder discrimi-
nivel univariable sus medias aritméticas deben diferir en los tres grupos. ASimismo, las des- natorio observado en ellas por separado.
viaciones lípica; no han de ser elevadas para que las medias sean representativas. Intere- En la interpretación de la media de las variables ficffcias ("sexo", "regularizar inmigrantes" e
san desviaciones lípicas pequeñas porque indican homogeneidad en el grupo respecto a la "inmigrante delincuente"), téngase presente que el valor de la media que figura en la tabla A in-
variable analizada. dica la proporción de casos con el valor 1. En "sexo", los varones (54% en ell.o grupo, 64% en
La tabla A proporciona una primera aproximación a la configuración de los grupos Y a la el 2.° grupo y 53% en el 3.° grupo); en la variable "regularizar inmigrantes", los favorables a di-
contribución de las variables a su diferenciación. De las comparaciones de las medias y des- cha regularización (74% en el 1." grupo, 42% en el 2." grupo y 96% en el 3.° grupo); yen la va-
viaciones típicas de cada variable en cada grupo se extraen las variables cuyas ,;,edias di- riable llamada "inmigrante delincuente" la proporción corresponde a los casos que sí consideran
ferencian entre los grupos sin haber grandes variaciones en sus deSViaCIones .tlpIC~S r~~­ que la inmigración aumenta la delincuencia (75% en el 1: grupo, 89% en el 2: grupo y 28,5%
pectivas. Si las desviaciones típicas varian "bastante" entre los grupos, es un pnmer IndiCIO en el 3." grupo). Para la interpretación de las medias en las otras once variables considérese có-
de incumplimiento del supuesto de igualdad de las varianzas (homocedast1cldad). mo se hallan medidas. La descripción completa de estas variables se ofrece en el capítulo 1.
Respecto a las medias grupales, puede concluirse que todas las variables "pare~en" di- Respecto a las desviaciones típicas, también se aprecian variaciones entre los grupos
ferenciar entre los tres grupos, al no coincidir sus valores. Las cinco variables que mas des- aunque, a diferencia de la media, no interesa que las divergencias sean importantes porque
340 Análisis multivariable. Teoria y práctica en la investigación social Capítulo 4: Análisis discriminanrr' 341

indican incumplimiento del supuesto de homocedasticidad. En la mayoría de las variables las


"divergencias" son pequeñas (como en!a variab!e "sexo", "estudios", "leyes inmigración", "sim-
patía marroquf', "edad" o "n." inmigrantes"). Pero, en otras variables ("ingresos", por ejemplo)
o en otros términos: F = I~I
!as divergencias son más llamativas. Para su interpretación téngase también presente la uni-
dad de medición de las variables ("ingresos" en pesetas, "edad" en años ... ) y que su valor tam- Donde: "IBI" es el determinante de la matriz de covarianza entre los grupos.
bién se ve muy afectado por la presencia de atípicos, que pueden hacer que la media no sea Cuanto mayor sea su valor, más separación hay entre los grupos.
representativa en la configuración del grupo. "1 wl" es el determinante de la matriz de eovarianza intragrupaL Un va-
Las diferencias apreciadas entre las desviaciones típicas (tabla A) indican cierto in- lor pequeño expresa que los grupos diferenciados son, en sí mismos,
cumplimiento del supuesto de homocedasticidad, aunque no severo. muy homogéneos.

Los grados de libertad entre los grupos es igual al número de grupos menos 1
• Para comprobar la significatividad de las diferencias grupales de acuerdo con las (gl,n", = g - 1); mientras que los grados de libertad intragrupos se obtienen de la
medias de las variables predictoras en los grupos, se realiza un análisis univariable de diferencia entre el número total de casos analizados menos el número de grupos
la varianza. Mediante los estadísticos lambda de Wilks (también llamado estadístico U (glintm = N - g). De acuerdo con estos grados de libertad, y para un nivel de significa-
o criterio de máxima probabilidad) y la razón F univariada se comprueba la signifi- ción concreto (los habituales son a = ,05 y a = ,01), se procede al contraste de hipótesis.
catividad de las diferencias grupales en las medias de cada variable predictora, por se- SI d valor F empírico (el obtenido en la muestra) supera al teórico correspondiente (de-
parado. La hipótesis nula se formula en los términos siguientes: no existen diferencias fmldo en la tabla de F), se rechaza la hipótesis nula (de inexistencia de diferencias gru-
significativas en las medias grupales en dicha variable. pales), al nivel de significación elegido. Esto significa que existen diferencias en las me-
Cuando las variables independientes se analizan de forma individnal, el estadístico dias de las variables referidas entre los distintos grupos, lo que suele suceder en
lambda de Wilks se define como la razón de la variabilidad intragrupal (o suma de cua- valores Funivariados elevados. Cuanto mayor es el valor de la razón F, mejor porque
drados intragrupos, "W") respecto a la variabilidad total (o snma de cuadrados total, "T"), Implrca dIferencIas grupales. La variable medida muestra poder discriminatorio, al di-
ferir el valor de su media entre los grupos.
Iwl Cuando san dos los grupos fijados a priori, la razón F univariada equivale al
A= l1T cuadrado del valor "t" correspondiente.

Advierte que lambda (A) es la raZÓn de los determinantes de ambas matrices (W


y 7). Su valor va de 0,0 y 1,0. Un lambda igual a 1,0 indica qne la variable en cuestión
no es de utilidad en la diferenciación de los grupos. El valor de su media no difiere en- EJEIvIPLODECON/PBOE3ACIÓNá/fLA iGUALDAD DELASMEDIAS·
tre los distintos grupos formados. Por el contrario, un valor lambda igual a 0,0 significa GRUPALr=SMEDIANTE LAMBDA DE WILKSYRAZÓNFUNIVARIADO
que sí existen diferencias en los valores de las medias grupales. La variabilidad dentro
de los grupos, respecto a dicha variable, es pequeña en relación con la variabilidad to-
taL En el análisis discriminante interesan, por tanto, valores de lambda próximos a 0,0, Para comprobar si "realmente" las medias de las variables independientes difieren entre
Como indicativos de diferencias grupales. Las variables predictoras respectivas mues- los tres grupos, en el plano analítico univariable, se acude a dos estadísticos principales que
tran poder "discriminatorio" entre los grupos, tomadas de forma aislada. Es decir, sin comprueban la igualdad de las medias grupales: lambda de Wilks (o estadístico U) y razón
considerar sn relación con otras variables predictoras. Recuérdese que este estadísti- F (tomado del análisis de la varianza univariable: ANOVA), calculado a partir de la [J2 de Ma-
halanobis. De la aplicación de ambos estadísticos se obtienen los datos recogidos en la ta-
co aquí se emplea en el análisis univariable del poder discriminatorio de cada variable blaA.
por separado: si su valor difiere en los distintos grupos. La variable "sexo" es la única que no contribuye "significativamente" a la diferenciación
La razón F univariada de Fisher se define en sentido inverso al estadístico lamb- de los tres grupos. Su valor lambda prácticamente es la unidad (,994) y su valor Fes muy ba-
da de Wilks. Mide la variabílídad de las medias grupales entre los grupos relacionán- jo (1,085), siendo su significatividad de ,339, para 2 y 359 grados de libertad. Ambos valores
dola con la existente dentro de los grupos. indican la inexistencia de diferencias grupales respecto a la variable "sexo".
La contribución de las otras trece variables a la diferenciación entre los grupos sí mues-
F = Suma de cuadrados entre los grupos I grados de libertad entre los grupos tra ser significativa, al apreciarse diferencias entre sus medias en los tres grupos. La variaM
ble que más contribuye a la diferenciación grupal es "vecino marroquf', al tener el valor lamb-
Suma de cuadrados dentro de los grupos I grados libertad intragrupos da más bajo (,372) y .el valor F más elevado (303,454). Le sigue la variable "casar con
342 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 4: AnáLis¿" discriminante 343

Tabla A. Pruebas de igualdad de las medias de los grupos análisis. Una variable predictora que presente un valor lambda bajo y, consiguiente-
Lambda
mente, una razón F elevada (todo lo cual significa que las diferencias entre los grupos
F gil gl2 Sigo en relación a la media de dicha variable es significativa), puede dejar de ser relevan-
de Wilks
te en la diferenciación de los grupos cuando sn influencia se analiza junto a otras va-
Simpatía marroquí ,677 ,,' 85,596 2 359 ,000 riables predictoras. Especialmente, si su grado de colinealidad con una o varias variables
Leyes inmigración ,745 61,570 2 359 ,000
Ideología política ,915 16,706 2 359 ,000
predictoras es elevado (a semejanza de lo que sucede en los análisis de regresión). La
Sexo ,994 1,085 2 359 ,339 colinealidad puede preverse mediante la observación previa de la matriz de correlación.
Edad ,675 86,391 2 359 ,000 Su estudio también se incluye en esta fase del análisis.
Núm. inmigrantes ,749 60,216 2 359 ,000 La matriz de correlación intragrupo se obtiene promediando las matrices de co-
Regularizar inmigrante ,758 57,343 2 359 ,000
Entrada inmigrante 359 ,000
varianza correspondientes a cada grupo (WA , W B , W c ... ). Mediante ella se comprue-
,788 48,176 2
Partido racista ,727 67,483 2 359 ,000 ba el grado de interdependencia entre las variables predictoras, considerado de utili-
Casar con marroquí ,468 203,712 2 359 ,000 dad en la medición del grado de colinealidad de las variables.
Estudios ,690 80,718 2 359 ,000 Asimismo, puede calcularse una matriz de covarianzas-varianzas o una matriz de
Ingresos ,889 22,425 2 359 ,000
Vecino marroquí 359 ,000
correlación total. En ellas no se diferencia entre los grupos, sino que se analiza la mues-
,372 303,454 2
Inmigrante delincuente ,735 64,682 2 359 ,000 tra total, hecho que incide en que sus resultados no coincidan con los obtenidos en la
matriz intragrupal correspondiente.
La matriz de covarianza total puede obtenerse de la división de cada elemento de
la matriz simétrica cuadrada T (de sumas totales de cuadrados y productos cruzados)
marroqur' (lambda; ,468 Y F; 203,712) y, a mayor distancia, las variables "edad" (lambda por el número total de casos en todos los grupos menos uno (N -1). La matriz de co-
; ,675, F; 86,391), "simpatía marroque' (lambda; ,677, F; 85,596) Y"estudios" (lambda; rrelación total se presenta, no obstante, como más idónea para conocer el grado de re-
,690, F; 80,718). La contribución de las otras variables a la diferenciación entre los grupos, lación entre dos variables. Principalmente, porque sus valores se encuentran estan-
aunque sea bastante significativa, es pequeña en magnitud. Los valores lambda son elevados darizados (varían de -1,0 a + 1,0).
mientras que las razones F son bajas., En especial, las variables "ideología política" (lambda
; ,915, F; 16,706) e "ingresos" (lambda; ,889, F; 22,425). Compárense estos resultados La matriz de correlación total también puede calcularse a partir de la matriz T. Pa-
con los obtenidos en la comparación de las medias y desviaciones típicas de las variables in- ra lo cual se divide cada elemento de la matriz T por la raíz cuadrada del producto de
dependientes en los tres grupos. Esta comparación ayuda además en la comprobación de en- los dos elementos de la diagonal que caen en la misma fila y columna de la matriz.
tre qué grupos difieren más los valores de las medias de las variables: entre los grupos 2 y
3,1 Y 3 o 1 Y 2.
Obsérvese que en todas las variables los grados de libertad de F son 2 (g - 1 ; 3 - 1) Y
359 (N g; 362 - 3).
La falta de significatividad de la variable "sexo" en la diferenciación entre los grupos
no es, sin embargo, una razón suficiente para eliminarla de los análisis. Asimismo, la sig-
nificatividad estadística de las trece variables restantes no es suficiente para concluir que
dichas variables "realmente" discriminen entre los grupos. El análisis hasta ahora realizado Como la matriz de correlación muestra mayor idoneidad para conocer el grado de interco-
se queda en el plano univariable. No considera las "intercorrelaciones" entre las variables rrelación de las variables, se decide extractar la susodicha matriz de la salida original. Además,
independientes. Esta información es clave en cualquier análisis multivariable y puede lle- sus valores son más fáciles de interpretar, al estar comprendidos en el rango de -1 ,0 a + 1,0.
var a "incluir" o "excluir" variables del modelo discriminante, dependiendo de su correla- Compárese esta matriz con la incluida en el capítulo 1 (subapartado 1.3.2), integra-
ción con las demás variables predictoras. da por las mismas variables a excepción de Xs ("simpatía hacia latinoamericano"), que se
ha decidido excluir del análisis discriminante por problemas de colinealidad. De la com-
paración de ambas matrices puede concluirse que sus valores obviamente difieren, al tra-
tarse de matrices distintas. En la matriz de correlación intragrupallas correlaciones son
Pero, hay que insistir que mediante ambos estadísticos (A y F) se comprueba el po- muy bajas. La más alta es ,292 y corresponde a la correlación de la variable "ingresos"
der discriminatorio de cada varjable predictora por separado. Su poder discriminatorio (X,2) con "estudios" (X ,, ). La interdependencia entre las variables independientes es le-
obviamente varía cuando las variables predictoras se analizan de forma conjunta. La ve, no previéndose problemas de colinealidad.
variación es mayor cuanto más interrelación exista entre las variables incluidas en el
344 Análisis multivariable. Teoría y práctica en la investigación sodaL
Capitulo 4: Análisis discriminante 345

Matriz de correlaciones
mera función agrupa aquellas variables predictoras cuyos valores más diferencian en-
X" X, X, X, X, X, X, X, X9 XlO Xl1 X" X13 X" tre los integrantes de los distintos grupos. La segunda función es, asimismo, la segun-
1- da combinación de variables diferentes que más discrimina entre los grupos. Com-
X" 1,000 ,063 ,042 -,073 -,017 -,109 ,116 -,081 -,116 -,283 ,053 -,006 -,119 -,084 prende asociaciones de variables no incluidas en la primera función, al tratarse de
X, 1,000 -,152 -,075 ,061 -,145 ,128 -,261 ,001 ,044 ,057 ,114 ,029 -,088
funciones ortogonales. Es decir, de funciones no relacionadas entre sí. La tercera
X, 1,000 ,072 ,002 ,072 ,002 ,020 ,074 -,024 ,041 ,122 -,072 ,110
X, 1,000 ,066 -,064 -,133 ,011 -,009 -,097 ,007 ,116 -,023 ',137 función se define de forma similar a la anterior. Ha de cumplir la condición de no es-
X, 1,000 -,083 ,173 -,061 -,057 ,035 -,175 ,022 ,065 ,004 tar correlacionada (ser ortogonal) con las dos funciones precedentes. Y así hasta al-
X, 1,000 -,130 ,157 ,094 ,033 -,157 -,116 ,068 ,105 canzar el llúmero máximo de funciones posibles: "p" o "g -1"; la cantidad más pequeña.
X, 1,000 -,187 -,131 ,042 ,009 -,044 -,081 -,038 Como se verá en el capítulo 5, el procedimiento de derivación de funciones dis-
X, 1,000 ,146 ,115 -,054 -,095 ,027 ,149 criminantes se asemeja bastante a la extracción de factores en el análisis factorial ("no
X9 1,000 ,031 ,105 ,037 ,158 ,110
XlO 1,000 ,026 ,034 ,203 -,007
rotado"). El primer factor extractado es aquel que explica la mayor cantidad de va-
Xl1 (000 ,292 -,116 ,037 rianza en la serie de variables. El segundo factor explica la máxima porción posible de
X" 1,000 ,016 ,098 varianza de la que queda sin explicar por el primer factor. Y así, consecutivamente, has-
X13 1,000 ,026 ta extraer todos los factores posibles. Lo mismo acontece en el análisis de correlación
X" 1,000 canónica. En él, las funciones canónicas se estiman siguiendo el mismo procedimien-
o
. )'" X . "! ., ". X ."ldeo!ogla
s Inmlgraclon
X js: "simpatía hacia norteafricano (marroqUl ... , ". eye. .
. -. '.
,X .. "sexo,
t ,,: X~' "entrada inmigrantes'"3X : "par~
"
poht!ca to del análisis factorial "no rotado" y el análisis discriminante. Aunque trata de explicar
X . "edad'" X . "número de inmigrantes"; X7: "regularizar a mmlgran es, s' '" X ',,'! . la máxima cantidad posible de la relación entre las dos series de variables (indepen-
tid~ rac¡st~»; 10: "casar con marroquí"; X'1: "estudios"; X'2: "ingresos"; X'3: "vecino marroqUl; 14: mml-
X dientes y dependientes), y no la relación existente dentro de una única serie de va-
grante delincuente",
riables. Cada par de combinaciones de variables es "ortogonalmente" independiente
de las combinaciones anteriormente derivadas de la misma serie de datos. El primer
El conocimiento de qué variables predictoras realm~nte "discriminan" entre los par alcanza la máxima intercorrelación entre las dos series de variables. Los pares su-
grupos lleva, necesariameute, a la derivación de las funCIOnes dlSCrlmmantes. cesivos de combinaciones de variables se basan en la varianza residual. Esto afecta a
que las correlaciones canónicas cada vez sean más pequeñas, conforme van extra-
yéndose más funciones canónicas.
4.5. Estimación de las fnnciones di~criminantes canónicas Las funciones discriminantes que realmente "discriminan" entre los grupos suelen
ser las dos primeras. Las últimas funciones (cuando existan más de dos) apenas pro-
Por función discriminante canónica se entiende aquella combi.n~ción "lin~a1:' de '.'p'~ porcionan información adicional sobre la diferenciación entre los grupos. Esto lleva a
variables predictoras que más discriminan entr~ los grupos deflmdos ~ prIOri, Se tra_ autores como Tabachnick y Piden (1989: 508) a recomendar que estas últimas funciones
ta de combinaciones "lineales" distintas de vanables predlctoras eleglda~ para la di sean "mejor ignoradas".
ferenciación entre los grupos. El adjetivo "canónic~" se aphca ~orsu slmdltud con el La fonnulación de las funciones discriminantes propuesta por Fisher guarda bastan-
hacer en el análisis de correlación canónica. Una tecmca de anahSlsmultlvan~ble d~ te similitud con la ecuación de regresión lineal múltiple: Y = bo + bIX + b X + ... + bpX '
dependencia que tiene por finalidad principal la obtención de combmaczones lmeales I 2 z p
A partir de dicha combinación lineal de variables predictoras se procede a la asigna-
de cada serie de variables (tanto dependientes como independientes), de forma que setn ción de los casos a los grupos delimitados a priori, en función de la puntuación dis-
máximas las correlaciones entre ellas. El grado de re:ación ~ntre ~ sene de vanab e~ criminante obtenida. De este modo, la función discriminante canónica adopta la si-
canónicas se mide mediante el coeficiente de correlaclOn cano?,ca. ste tambIén ~e ~m_ guiente expresión matemática para las p variables predictoras:
plea en el análisis discriminante para medir el grado de relaclOn entre cada funcLOn 1S
criminante y los grupos, como se verá en el subapartado 4.~.1. . co-
Respecto al número de funciones discriminantes, en teona pueden haber tantas
mo variables predictoras o número total de grupos menos uno (~ -.1). CualqUIera ~~~
sea la cantidad más pequeña, es el número máximo de funcLOnes umcas que pueden Donde: "fkm " es el valor (puntuación) en la función discriminante canónica para el
caso "m" en el grupo "k".
rivarse. '
La contribución de la serie de . .. f' l t . f adas a la.
funciones dlscrzmznantes ma men c es 1m "Xikm" es el valor en la variable discriminante Xi para el caso "m" en el gru-
diferenciación entre los grupos es de orden decreciente, Quiere esto deClf, que la prz- po "k".
346 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 4: Análisis discriminante 347

"u¡" son los coeficientes que producen las características deseadas en la entre los grupos. Para ello se divide la suma de cuadrados entre grupos entre la suma
función (Klecka, 1980: 15). de cuadrados dentro del grupo, para cada júnción.
A partir de esta ecuación se calculan las puntuaciones discriminantes, dando valores
a las distintas variables predictoras incluidas en la función por su contribución a la se- íL. = Suma de cuadrados entre los grupos B
paración de los grupos. Las puntuaciones discriminantes se obtienen, en consecuencia, de , Suma de cuadrados intragrupos = -w-
la multiplicación del valor original para un caso en cada variable por el coeficiente dis-
criminante obtenido en dicha variable. Se suman todos los productos y se añade el tér- Los autovalores que resultan de este cociente presentan tres rasgos característicos:
mino constante (u o)' que resulta del ajuste para las medias grupales. De esta forma, las
l. Siempre son valores positivos: íL. ¿ O.
puntuaciones discriminantes se corresponden con los valores obtenidos al proyectar ca-
da punto del espacio p-dimensional de las variables originales sobre el eje discriminante. 2. Son ~rtogonales: cada uno de ell~s incluye una combinación lineal de variables
La puntuación discriminante para cada caso concreto representa, en suma, la posición de predlCtoras dlstmta a la de los autovalores precedentes.
ese caso a lo largo del eje discriminante definido mediante dicha fnnción. 3. Se hallan ordenados de mayor a menor 1 > 1 > 1 >" .
1 d di ' " . ~'1 "2 "'3 ... /l.s' en consonanCia con
En el análisis discriminante se calcula, como en el análisis de conglomerados, los cen- e po er scnmmatono de cada función. A la primera función le corresponde el
traides (o medias grupales), como estadístico que resume la posición de un grupo respecto n:ay~r ~utovalor. Ofrece aquella combinación lineal de variables que más logra
a las variables que lo definen. Los coeficientes discriminantes (o coeficientes "u") en cada dlsc.nmmar entre los grupos. A la última función le corresponde, por el con-
función se derivan para que sean máximas las diferencias entre las medias grupales. Para trano, el menor autoval~r, al.ser su poder discriminatorio muy pequeño. Nor-
la segunda función y posteriores se añade, además, la condición de que sus valores se ha- malmente es dieZ veces mfenor al de la primera función.
llen incorrelacionados con los obtenidos en las funciones precedentes. Se trata de funciones
La SUma total de los autovalores indica la cantidad total de varianza de la variable
incorrelacionadas u ortogonales. En su estimación se sigue el criterio propuesto por Físher
dependl~nte que qneda exphcada por las funciones discriminantes conjuntamente
en 1936 (en "The utilization of múltiple measurements in taxonomic problems", en Anna/s
of Eugenics, 7: 179-188) de maximizar la variabilidad o varianza entre grupos, en relación
,~bs~rvese.la SImilitud que guarda, en este aspecto, el análisis discriminante con'el
ana ISIS actonal, a cuya lectura se remite (capítulo 5).
con la varianza intragrupal. Siguiendo este procedimiento se obtienen grupos bien deli-
mitados: muy separados unos respecto de otros (elevada variabilidad entre los grupos) pe-
ro, en cambio, muy homogéneos en su composición (poca variabilidad dentro de los B) Porcentaje de varianza
grupos). Este criterio básico rige el cálculo de los coeficientes discriminantes.
. Para facilitar la interpretación de los autovalores, cuya cuantía no es directamen-
te mterpretable, se procede a su transformación porcentual. Se calcula el porcenta' e
4.5.1. Determinación del número de funciones discriminantes y su significatividad de vananza qne cada autovalor representa en el total de la solución discriminante P;_
Una cosa es el número máximo de funciones discriminantes que puede haber y otra ra ello se suman todos los autovalores y se calcula el porcentaje relativo de varianza' que
cada uno representa.
su sigrúficatividad, tanto estadística como sustantiva. En relación al número de funciones
ya se ha dicho que el número máximo viene determinado por el número de variables pre"
dictoras ("p") y el número de grupos menos uno ("g - 1"), cualquiera que sea la cantidad C) Correlación canónica
más pequeña. Si, por ejemplo, el número de grupos fijados a priori es 3 (g = 3) y el número
de variables predictoras a analizar es 8 (p = 8), el número máximo de funciones discri- La relevancia de las funciones en la discriminación entre los grupos también puede
minantes canónicas que pueden calcularse es 2 (g - 1 = 3 - 1 = 2). m~dlfSe ~culando la correlación canónica correspondiente a cada función. La correla-
Respecto a la relevancia de las funciones en la discriminación entre los grupos, és- clOn canomca se obtiene de la raíz cuadrada del cociente del autovalor de la función en-
ta se comprueba mediante la conjunción de los estadísticos siguientes: tre la suma de uno y dIcho autovalor.

A) Autovalores

Para cada función discriminante se calcula su raíz característica o autovalor ("eigen-


value"). La finalidad es comprobar la efectividad de cada júnción en la discriminación Donde: "i" denota la función discriminante canónica correspondiente.
348 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 4: Análisis discriminante 349

Tabla A. Autovalores
La correlación canónica se utiliza en el análisis de correlación canónica para me-
dir el grado de relación entre la serie de variables canónicas (dependientes e inde- ,---- ----
Corre/ación
pendientes). Su cuadrado representa el porcentaje de varianza de una combinación de FunGÍón Autovalor % de varianza % acumulado
canónica
variables dependientes canónicas que es explicada por una combinación de variables --
independientes. 1 3,314 a 76.2 76,2 .876
2 1,036a 23,8 100,0 ,713
En el análisis discriminante, el coeficiente de correlación canónica actua como me-
dida de asociación, que mide el grado de relación existente entre los grupos y cada fun-
a Se han empleado las 2 primeras funciones discriminantes canónicas en el análisis.
ción discriminante. Como coeficiente de conelación, el rango de valores va de 0,0 a 1,0.
Un coeficiente de correlación canónica ignal a 0,0 significa qne no existe relación
entre la función y los grupos. No logra diferenciar entre ellos. Por el contrario, un va- Los autovalores, como es habitual, están dispuestos en orden decreciente: de mayor a
lor próximo a 1,0 expresa la existencia de nna relación perfecta. La función es relevante menor. A la primera función discriminante le corresponde el mayor autovalor(3,314), mien-
tras a la segunda función uno tres veces inferior al de la primera (1,036). La primera función
porque incluye una combinación lineal de variables predictoras que logra discriminar en-
está compuesta por la combinación lineal de variables que más logra diferenciar entre los gru-
tre los grupos. Adviértase que, a diferencia del coeficiente de correlación r de Pearson, el
pos. En términos de varianza, su poder explicativo se traduce a un 76,2% de la variablilidad
coeficiente de correlación canónica siempre es un valor positivo. de la variable dependiente (la diferencia grupal obtenida con las dos funciones discriminantes
Asimismo, téngase presente que los coeficientes de correlación canónica, a diferencia derivadas) que es explicada por la primera función. Esta cantidad resulta de dividir el auto-
de los autovalores, necesariamente no se hallan ordenados en sentido decreciente (de ma- valorcorrespondiente a la primera función por la suma total de autovalores (que indica la can-
yor a menor). Annque las correlaciones canónicas que figuran en el ejemplo a continuación tidad total de varianza de ia variable dependiente que queda explicada por las funciones dis-
sigan un orden decreciente, esto no siempre es así. A la primera función no le tiene por criminantes conjuntamente): 3.314/4,350 = ,7618. Esta cantidad se multiplica por 100
qué colTesponder la correlación canónica más elevada, aunque presente el mayor auto- para que quede expresada en términos porcentuales.
valor. Puede darse la situación que la primera función se halle débilmente relacionada con La segunda función explica el 23,8% de la variabilidad de la variable dependiente restante.
los grupos (un bajo coeficiente de correlación canónica), auuque sea la que mayor por- Está integrada por la combinación de otra serie de variables independientes que ha de ser di-
centaje de varianza explique. Una cosa es la utilidad de la función en la explicación de las ferente (ortogona~ a aquella que forma la primera función discriminante. Esta segunda
combinación lineal de variables predictoras resulta, como es usual, menos relevante en la dis-
diferencias grupales (medida por la correlación canónica) y otra su relevancia en térmi-
criminación grupal.
nos de varianza. De ahí la necesidad de calcular este coeficiente para comprobar la uti-
Una vez constatada la mayor "relevancia", en términos de varianza (autovalores), de la
lidad de las funciones en la discriminación entre los grupos. Si los grnpos apenas difieren primera función a la diferenciación grupal, procede la comprobación de la utilidad de las fun-
en la combinación de variables que conforman la función, la correlación canónica será pe- ciones en la explicación de las diferencias grupales mediante el cálculo de la correlación ca-
queña. Ello lleva a cuestionar su ntilidad (de la función) en la búsqueda de las caracte- nónica. En el análisis discriminante los coeficientes de correlación canónica cuantifican la "uti-
rísticas que más separan a los grupos definidos a priori. Su cuadrado representa la pro- lidad" de las funciones discriminantes en la diferenciación grupal. Su valor siempre es
porción que cada función explica de la varianza de Y (la diferenciación entre los grupos). positivo y, aunque en los datos aquí analizados se encuentre también dispuesto en orden de-
creciente, esto no siempre sucede, a diferencia de los autovalores.
Ambas funciones discriminantes presentan correlaciones elevadas, próximas a 1,0, en
especial la primera función, lo que significa que ambas son útiles en la diferenciación grupal,
al haber mucha relación entre las funciones y los grupos. Para la primera función, la corre-
EJEMPLO DE DETERMINACiÓN DEL NÚMERO QEFUNCIQNES lación es ,876; para la segunda función, ,713. Ambos valores se han obtenido de la raíz cua-
(JISCfllMINANTES drada del cociente del autovalor respectivo y la suma de dicho autovalor más 1. O sea,

3,314 = 87647 1,036 = 7133


Como son 3 los grupos diferenciados y 14 las variables predictoras incluidas en el 1+3,314 ' 1+1,036 '
análisis, el número máximo de funciones discriminantes es 2 (g - 1 = 3 - 1), al ser ésta la can-
tidad más pequeña. Pero, una cosa es el número máximo de funciones posibles y otra el nú-
mero de funciones que realmente logran diferenciar a los grupos. Para lo cual se acude a los Elevando ambas correlaciones canónicas al cuadrado, se obtiene que la primera fun-
autovalores y a medidas basadas en ellos: el porcentaje de varianza explicada y la correla- ción discriminante explica el 76,8% (= 0,87652 x 100) de la varianza total de Y, y la se-
ción canónica. En la encuesta aquí analizada, y para la muestra de análísis, los resultados fue- gunda función el 50,8% (= 0,7132 X 100) de la varianza de Y no explicada por la 1. a fun-
ción (23,2%). En suma, con las dos funciones discriminantes derivadas se logra explicar
ron los siguientes (tabla A):
Capfculo 4: Análisis discriminante 351
350 Análisis multivariable. Teoría y práctica en la investigación sodal

el 76,8% + (50,8% x 0,232) = 76,8% + 11,8% = 88,6% de la varianza total de la variable 1,0 coincide con auto valores, porcentajes de varianza y correlaciones canónicas bajas.
dependiente (la diferenciación entre los tres grupos de personas atendiendo ,a sus actitudes Todo lo cual indica que la combinación de variables que conforma dicha función no lo-
ante la inmigración). Ambas funciones, en especial la primera, son muy utlles en la dis- gra diferenciar entre los grupos. Los centroides no difieren.
criminación entre los tres grupos. La significatividad de lambda (como medida de discriminación residual) puede
comprobarse con las distribuciones F (al igual que en el análisis univariable referido en
el subapartado 4.4.2) y chi-cuadrado, Ambas distribuciones permiten comprobar la
• Cualquiera de los tres estadísticos mencionados (autovalores, porc.ent~je de probabilidad de que las diferencias en las medias grupales observadas en la muestra se
varianza relativo y coeficiente de correlación canónica) mide el grado de dls~nmma­ deban a errores de muestreo. Ésta es la hipótesis nula. Supone la no posibilidad de in-
ción que las funciones discriminantes logran establecer entre los grupos defInIdos. Pe- ferencia de los resultados muestrales a la población a la que pertenece la muestra,
ro, como la generalidad de las investigaciones se basan en datos muestrales (recuérdese
que las muestras han de ser "aleatorias"), el ,siguiente pa~o es comprobar l~ ~rgnifr­
catividad de las funciones derivadas. En el ana]¡sls dlscnmmante la srgnifrcatrvrdad se B) Chi-cuadrado
comprueba mediante los estadísticos lambda de Wilks, chi-cuadrado Yyz de Hotellmg.
En 1947 (en "Multivariate analysis", 1. Roy. Statistic Soc. 9: 176-197) Barlett pro-
puso una aproximación de X2 (que llamó V) para ayudar en la determinación de
A) Lambda de Wilks cuántas funciones discriminantes retener, en consonancia con su significatividad.
En el análisis concreto de la discriminación residual, primero se calcula el valor de
Mediante este estadístico (también llamado estadístico U) se co~pru~ba la ~ig­ chi-cuadrado correspondiente a la situación previa a la derivación de alguna función dis-
nificatividad estadística de las funcíones discriminantes, a~~llZa?do la. dlscnffiln~~lón criminante (k = O). Para este propósito se aplica la siguiente fórmula de chi-cuadrado:
residual" en el sistema previo a la derivaCión de la funcron dlScrrmrnant~. Por diS-
criminación residual" comúnmente se entiende "la capacidad de las vanables para
discriminar entre los grupos más allá de la información que ha sido ext:a~tada por las x' = -[N - (p ; q) - 1}Og, Ak
funciones calculadas previamente" (KIecka, 1980: 38). De manera que, umcamente tIe-
ne algún sentido lógico seguir derivando funciones dis~ri",;inantes, cuando la dlscn-
minación residual es de cierta cuantía, Si, por el contrano, esta resulta ser demaSiado Los grados de libertad son, para la primera función, "p (g -1)", siendo "p" el nú-
pequeña, habrá que reconsiderar la derivación de funcíones posteriores.. mero de variables predictoras que han mostrado poder discriminatorio significativo en
En la medición de la discriminación residual, lambda se calcula a partir de los au- la diferenciación entre los grupos y "g" el número de grupos. Tras eliminar la prime-
tovalores (o raíces características) mediante la fónnula siguiente: ra función, los grados de libertad para X2 pasan a ser iguales a "p - 1 ".
Si el valor de X2 empírico supera al teórico correspondiente, a unos grados de li-
A= tI_+1_Ai
¡:k+ll
bertad y un IÚvel de significación específico, puede rechazarse la hipótesis nula de igual-
dad de medias grupales, Esto supone que las diferencias observadas en la muestra pue-
den inferirse a la población. La combinación de variables que compone la función
discriminante tiene un efecto significativo en la diferenciación grupaL
Donde: "Ái' representa el autovalor de cada función,
Los valores i' se calculan antes de derivar alguna función (k = O), después de calcular
"k" es el número de funciones derivadas. la primera fuución (k = 1), la segunda (k =2), hasta llegar al total de funciones a estimar.
Cuando, después de derivar algunafuncíón (la primera, segunda u otra), se obtiene que
Se trata de la multiplicación (n) de los términos referidos en la ecuación. Valores la discriminación residual no es significativa (el valor X2 empírico es bajo e inferior al teó-
pequeños de lambda (próximos a 0,0) expresan qu~ las funCIOnes provocan mucha va- rico, siendo su significación superior al valor usual ,05), procede no continuar esti-
riabilidad entre los grupos y, en cambio, poca vanabilidad dentro de los grupos. Valores mando funcíones discriminantes. Toda la infonnación significativa sobre las diferencias
próximos a 1,0 se obtienen cuando la media de las p~ntuacrones drscrrmrnantes es la grupales ha quedado absorbida por las funcíones previamente derivadas, El añadir
misma en todos los grupos y no existe, por tanto, vanabJl¡dad entre ellos. ., más funciones no lograría una mayor explicación de las diferencias grupales.
Un valor lambda próximo a 1,0 advierte de la convelÚencla de no denvar la func~on, En resumen, se derivan funciones discriminantes sólo cuando la discriminación re-
al no quedar apenas discriminación residual por explicar. La relacióu entre la ft:ncron y sidual sea significativa. De no ser así, se da por concluida la extracción de funcíones,
los grupos es estadíxticamente espuria. Esta situación de valores de lambda proxlmos a
Capítu.lo 4: Análisis discriminante 353
352 Análisis multivariable. Teoría y práctica en la investigación sociaL

El valor lambda para el contraste de las funciones 1 a la 2 (,114) significa que sólo el
pasándose a la interpretación de aquellas funciones que hayan mostrado ser estadís-
11,4% de la varianza de la variable dependiente (diferenciación entre los grupos) "no" es
ticamente significativas. explicada por las funciones discriminantes como se vio en el ejemplo anterior. Con ambas
funciones se ha alcanzado una discriminación casi "perfecta". Las funciones provocan mu~
cha variabilidad entre los grupos y, en cambio, poca variabilidad entre sus integrantes. Me-
C) T2 de Hotelling
diante X2 se comprueba la probabilidad de que las diferencias en las medias grupales ob-
servadas en la muestra se deban a errores de muestreo. Al ser el valor x2empírico igual a
La hipótesis nula de igualdad de medias grupales (I-lo: 11, '" J1z ~ ",) y la hi~ótesis 771,401 Y los grados de libertad 18 (p (g - 1) = 9 (3 - 1) = 18), dado que las variables pre-
alternativa de desigualdad pueden también comprobarse medIante otros estadlstlcos dictaras que finalmente han mostrado ser relevantes en la diferenciación grupal ("p") son
como la 1 2 de Hotelling (aplicado en el análisis de la varianza), 9, siendo la significación igual a ,000, se rechaza la hipótesis nula, Ésta afirma que las fun-
Para el caso de dos grupos, la 12 de I-lotelling se define como: ciones discriminantes no logran diferenciar entre los grupos, siendo sus centroides igua-
les, Su rechazo significa que sí existen diferencias bastante significativas entre los cen-
troides de los tres grupos diferenciados respecto a su actitud ante la inmigración.
Una vez que se ha obtenido la primera función, procede el cálculo de un segundo valor
lambda: ,491, Este valor indica que la segunda función también es de utilidad en la diferen-
Donde: "S" denota la matriz de covarianza muestraL ciación entre los tres grupos porque aún queda discriminación residual suficiente para justificar
la extracción de la segunda función. Su utilidad también es estadísticamente significativa
En el contraste de hipótesis, la J2 de Hotelling actúa como la F de Snedecor con "p"
(p ~ ,000), Las diferencias observadas en las medias grupales en la muestra de análisis no
y "nI + n -- p - 1" grados de libertad, La prueba de significatividad medIante este es- se deben a errores de muestreo, sino que pueden inferirse al conjunto del universo al que per-
2
tadístico se realiza de forma similar a la X2 de Bartlel/, tenece la muestra, El valor X2 empírico es igual a 252,414, siendo su significatividad ,000, pa-
ra 8 grados de libertad (p - g = 9 - 1), Estos valores indican que ambas funciones son "sig-
nificativas" en la diferenciación entre los grupos.
El valor lambda para el contraste de las funciones "1 a 2" (,114) se obtiene de los auto-
valores correspondientes a ambas funciones. Es decir,
E.JEMPLdbE COfv1PROF3AClÓNOE.I-A·"SIGNIFICATlVIDAD" .

~(
DELAS FUNCIONES DISCRIMINANTES ..
A 1 )( 1 ) = 11385
II + 3,314 II + 1,036 '
Para comprobar la "significatividad" es!adística de las funciones dis,crimina~tes derivada,s,
se calcula el estadístico lambda de Wilks, Este ahora se aphca al anahsls de la dlscnmlnaclon Como este valor de la discriminación residual se encuentra próximo a O, indica la exis-
residual" (la no proporcionada por las funciones discriminantes precedentes) en el sistema pre- tencia de una elevada diferenciación entre los grupos, Suscentroides respectivos están muy
vio a la estimación de la funcIón discriminante, Los resultados se ofrecen en la tabla A. separados unos de otros, mientras que la varianza intragrupal es muy pequeña. Su valor ex-
presa la conveniencia de derivar una primera función, cuya combinación de variables logre
Tabla A Lambda de Wilks explicar, en gran medida, las diferencias grupales observadas,
Después de obtener la primera función (que es, asimismo, la más importante), lo habi-
Contraste de Lambda tual es que quede poca discriminación residual, Para averiguar si queda suficiente discri-
las funciones de Wilks Chí~cuadrado gl Sig, minación residual que pueda justificar la derivación de una segunda función, se vuelve a cal-
cular lambda para esta nueva situación: una vez que se ha eliminado de los cálculos la
1 a la 2 ,114 771,401 18 ,000
,000 primera función.
2 ,491 252,414 8

A= 1 ~ ,4912
1 + 1,036
En esta tabla, el contraste de las funciones, etiquetado 1 a la 2 (en otros programas se
llama O) comprueba la hipótesis nula que las medias grupales (o centroides) de las dos fun-
dones discriminantes no difieren en los tres grupos, mediante el contraste X2. En ca~bl0, el Aunque este segundo valor lambda es ligeramente superior al anterior, todavía que-
contraste de las funciOnes llamado 2 comprueba la significación de la segunda funclon, una da discriminación residual suficiente para justificar la extracción de una segunda función
vez derivada la primera función. discriminante. La reducción en la discriminación residual ha sido importante, aunque no
354 Análisis multivariable. TeorÍa y práctica en La investigación social Capitulo 4: Análisis discriminante 355

elevada. Recuérdese que el porcentaje de varianza correspondiente a la segunda función suma de una desviación en una variable multiplicado por la desviación en la otra. Es
es 23,8% de la varianza total de Y. En términos de correlación canónica, se traduce a ,713, decir, la correlación (o covariación) entre las dos variables.
cuyo cuadrado indica que la segunda función explica el 50,8% de la varia~zaresidual de Las puntuaciones discriminantes se calculan a partir de los coeficientes no estanda-
Y, la "no" explicada por la primera función (23,2%). La segunda comblnaclon lineal de va- rizados (Jos coeficientes "u"). Éstos se interpretan de forma similar a como se hace en
riables predictoras que forman la segunda función también es de utilidad en la diferen-
regresión. Su valor para una variable concreta depende, asimismo, de las otras varial:Jles
ciación grupal, aunque en menor proporción que la primera función. Exactamente ,expli-
incluidas en la función. El signo es, no obstante, arbitrario. "Los coeficientes negativos
ca el 11,8% de la varianza de Y (la diferenciación grupal).
de unas variables podrían ser igualmente positivos si los signos de los otros coeficientes
fuesen inversos" (Nourisis, 1986; 1994). De ahí que se recomiende mirar en los grupos
de variables que tengan coeficientes de signos diferentes para detenninar qué valores de
4.5.2. Derivación de los coeficientes de la función discriminante las variables resultan en valores de función pequeños y grandes.
En el análisis discriminante, al igual que en regresión, no se debe tampoco inter-
Los coeficientes de la función discriminante se estiman siguiendo el criterio an- pretar la magnitud de los coeficientes como un indicador de la importancia relativa de
teriormente referido de maximizar la varianza entre grupos en relación con la varianza la variable en la función discriminante. Su valor, a menos que esté estandarizado, se ve
intragrupal. Se calcula el cociente entre ambas varianzas, lo cual exige el cálculo de la afectado por la urúdad de medición de las variables respectivas. Por esta razón, los coe-
matriz de sumas totales de cuadrados y productos cuadrados ( T) Y la matnz de pro- ficientes discriminantes no estandarizados sólo se emplean para el cálculo de las pun-
ductos cruzados y sumas de cuadrados intragrupos (W ). De la diferencia entre ambas tuaciones discriminantes.
matrices se obtiene la matriz de productos cuadrados y sumas de cuadrados entre gru- Si se desea conocer la importancia relativa de cada variable en la función, habrá
pos (B ): B = T - W. Esta matriz indica lo diferente que son los grupos constituidos a que proceder a la estandarización de los coeficientes. Es decir, a su transformación en
priori. . coeficientes beta ([3), también conocidos como coeficientes "e".
En todos los casos se trata de matrices cnadradas (que tienen igual número de fi- En el análisis discriminante, los coeficientes estandarizados pueden obtenerse a par-
las que de columnas) y simétricas (los elementos situados por encimay por debajo de tir de los coeficientes no estandarizados mediante la siguiente transfonnación:
la diagonal de la matriz son iguales). Sus valores se obtienen de las slgmentes expre-
siones:
~;;
[3 . --u. - - -
N-g
.¿.. '" I 1

t ii = L L (X ikm - X¡ .. )(X jkm - Xi .. )


k=lm",l
, ", Donde: "W .."es la suma de cuadrados intragrupo de la variable i.
W;j = .:¿.:¿ (X;km - X;k)(X jkm - X jk ) "g"" es el n~mero de grupos.
k"'lm"'l
"N" el número total de casos.
Donde: "g" es el número de grupos.
"n/' el número de casos en el grupo '\k", Al ser un coeficiente estandarizado, el rango de valores va de 0,0 a 1,0 unidades
"X',k m "el valor de la variable i para el caso "m" en el grupo "k". de desviación típica. Su interpretación es análoga a la de los coeficientes [3 en re-
gresión lineal. Expresa la cantidad de cambio (en unidades de desviación típica) en
"x.,k. "el valor medio de la variable i para todos los casos en el grupo "k". la posición de un caso en cada función discriminante canónica, si su puntuación
"x.,.. " el valor medio de la variable i para todos los casos (media total). en la variable correspondiente cambia en una unidad de desviación típica. Se utili-
"X·f .. " el valor medio de la variable j para todos los casos. zan como referentes de la contribución de la variable a la función discriminante. La
"x.fk. "el valor medio de la variable j para aquellos casos en el grupo suma de los cuadrados de los coeficientes estandarizados de la función discriminante
"k" (Klecka, 1980). es igual a la unidad.
Para determinar la naturaleza de las funciones discriminantes que diferencian a los
Cuando i = j , los dos términos son lo mismo. En esta situación se está elevando al grupos (en función de las variables que muestren mayor poder discriminante), habrá
cuadrado la desviación, obteniéndose, de esta forma, los elementos de la diagonal de que proceder, asimismo, al cálculo de los coeficientes de estructura. También conocidos
la matriz: la suma de las desviaciones cuadradas desde la media. Lo que indica cómo como "discriminant loadings", por su similitud con Jos "factor loadings" del análisis fac-
se extienden los casos sobre una única variable. En cambio, cuando i '" j, se obtíene la torial.
356 Análisis multivariable. TeoFÍu y práctica en la investigación social Capitulo 4: Análisis discriminante 357

En el análisis discriminante, los coeficientes de estructura se pueden calcular mul-


tiplicando los coeficientes estandarizados de la función discriminante canónica de EJEMPLO DE COEFICIENTES DE LA FUNCION DISCRIMINANTE: NO
cada variable en cada función por su correlación correspondiente, de la variable con ESTANDARIZADOS, ESTANDARIZJjDOS y COEFICIENTES DE ESTRUCTURA
la función: S.¡ = [3.l x rt.. Su valor expresa la correlación de las variables predictoras• '"
con las funciones discriminantes. Cuanto más se aproxime a ±1,0, mayor es la relaclOn
entre la variable y la función. Esto quiere decir, que ambas (la variable y la función) En la muestra de análisis, 9 son las variables que muestran poder discriminatorio esta~
dísticamente significativo en la diferenciación grupal. La participación de cada una de estas
llevan casi la misma información. En cambio, un coeficiente de estructura próximo a 0,0
variables en las funciones discriminantes se muestra en las tablas siguientes. La tabla A re-
indica inexistencia de relación entre la variable y la función. coge los coeficientes no üpificados de las funciones discriminantes canónicas sólo de las va-
A diferencia de los coeficientes estandarizados, los coeficientes de estructura se em- riables que han mostrado ser estadísticamente relevantes en la diferenciación entre los gru-
plean como indicadores de la importancia relativa de cada variable en cada función. Su pos. Estos coeficientes, en cada función, se han obtenido siguiendo el criterio de Fisher de
valor no se ve afectado por las interrelaciones existentes entre las variables predictoras, maximizar la varianza entre los grupos en relación con la varianza intragrupal. Se busca aque M

al tratarse de correlaciones bivariables simples. Por el contrario, los coeficientes es- lIa combinación de variables predictoras que aumente las diferencias entre las medias gru-
tandarizados sí están afectados por las demás variables que participan en la función; pales. Para la segunda función, se añade una segunda condición: sus valores han de estar
por el grado de colinealidad existente entre ellas. Por esta razón, se ha de ser doble- incorrelacionados con los obtenidos en la primera función, al tratarse de funcíones ortogonales.
mente precavido en la interpretación de los coeficientes de función discriminante ca-
nónica. Tabla A. Coeficientes de las funciones canónicas discriminantes
Un coeficiente estandarizado bajo (próximo a 0,0) puede deberse a que la variable
correspondiente se encuentra muy correlacionada con otra variable también incluida Función
en la función. Pero, las variables colineales no siempre muestran coeficientes estan- 1 2
darizados inferiores a los que obtendrian, si se hubiese ineIuido una de las variables en
la función (al compartir la misma función discriminante). También, pueden presentar Leyes inmigración -,269 ,201
coeficientes elevados (próximos a 1,0), aunque de signo opuesto. Esto sucede cuando Edad ,018 -,040
Núm. inmigrantes ,192 - ,483
la contribución de una de las variables colineales es parcialmente cancelada por la con- Regularizar inmigrante -,737 ,302
tribución contraria de la otra variable predictora. De ahí la conveniencia de compro- Partido racista ,432 - ,107
bar las interrelaciones entre las variables predietoras en la función, previo a la inter- Casar con marroquí .684 ,210
pretación de sus coeficientes estandarizados. Éstas pueden afectar tanto a la magnitud Estudios ,191 ,359
Vecino marroquí ,988 1,351
como al signo del coeficiente. Inmigrante delincuente ,521 -,564
Por el contrario, los coeficientes de estructura no se hallan afectados por la coli- (Constante) -2,743 -,699
nealidad entre las variables predietoras, hecho que repercute en la interpretación
unívoca de sus coeficientes. De ellos se afirma que son "una guía mejor al significado Coeficientes no tipificados.
de las funciones discriminantes canónicas que los coeficientes estandarizados" (Klec-
ka, 1980: 34). Los coeficientes no tipificados se asemejan a los e"eficientes "b" en el análisis de re-
Como en el análisis factorial, los coeficientes de estructura han de ser ~ ,30, para que gresión lineal. Igualmente, son los que intervienen en la elaboración de la ecuación lineal que,
puedan considerarse significativos. Las variables que presentan coeficientes supe- en el análisis discriminante, lleva al cálculo de las puntuaciones discriminantes dando valo-
riores a dicha cuantía tienen una relación relevante con la función discriminante. res a las distintas variables predietoras que participan en la función discriminante por su con-
Además, en el análisis discriminante, al igual que en el análisis factorial, las variables tribución a la separación de los grupos. Para la primera función la ecuación serra: -2,743
que presentan coeficientes de estructura más elevados son las que más influyen en la de- - ,269X, + ,018X4 + ,192X6 - ,737X7 + ,432Xg + ,684X lO - ,191X + ,988X13 + ,521X ,4 . Pa-
cisión del nombre a asignar a la función respectiva. ra la segunda función: -,699 + ,201X, - ,040X4 - ,483X6 + ,302X " 7 - ,107X g + ,210X lO +
Como medida de correlación, los coeficientes de estructura pueden elevarse al cua- ,359X + 1,351X '3 ,564X ,4 ·
La" utilidad de los coeficientes no estandarizados se restringe a la obtención de las
drado. De esta forma se obtiene la proporción de varianza de la variable predictora que puntuaciones discriminantes. Como en regresión lineal, su magnitud no debe interpretarse co-
es explicada por la función discriminante. Por ejemplo, un coeficiente de estructura de mo un indicador de la importancia relativa de la variable en la función dIscriminante. Ello se
",643" en la variable X, significa que el 41,3% (,6432 = ,413) de la varianza de la va- debe a que su valor está afectado por la unidad de medición de las variables, lo cual impo-
riable X s es explicada por la función discriminante. sibilita la comparación entre ellos.
358 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 4: Análisis discriminante 359

Para conocer la importancia relativa de cada variable en cada funcíón hay, como en re- decir, su correlación absoluta más grande con una de las dos funciones discriminantes. Ade~
gresión, que proceder a la estandarizacíón de los coeficientes, a su transformación en uni- más, las variables figuran ordenadas por el tamaño de su correJací6n. Recuérdese que, co-
dades tipificadas. Véase la tabla B. mo sucede en el análisis factorial con los '1actor loadings", en el análisis discriminante sólo
se consideran significativos los coeficientes de estructura'?:: ,30.
" ".

Tabla B, Coeficientes . estandarizados de las funciones Tabla C. Matriz de estructura


discriminantes canónícas

Función
Función

1 2 1 2

Leyes inmigración -,255 ,191 Vecino marroquí ,649* ,535


Edad -,545 Casar con marroquí ,566' ,268
,252
Núm. inmigrantes Partido racista ,335' ,053
,103 -,258
Regularizar inmigrante -,252 Regularizar inmigrante - ,310' ,043
,103
Partido racista ,217 -,054 Simpatía marroquía - ,305' -,008
Casar con marroquí ,148 Inmigrante delincuente ,293* -,270
.483 ,274
Estudios -,193 ,364 Leyes inmigración - ,283'
Vecino marroquí ,618 Entrada inmigrantea ,258' - ,106
.452
Inmigrante delincuente -,242 Edad ,252 - ,511'
,224
Estudios -,279 ,429*
Núm. inmigrantes ,272 - ,294'
Ingresosa -,027 ,130'
Ideología políticaa ,035 -,112'
Los coeficientes estandarizados son un mejor referente para conocer la contribución de
Sexoa ,032 -,106*
las distintas variables "relevantes" a la función discriminante. Su interpretación es análoga a
los coeficientes beta en regresión. Su valor representa la contribución relativa de la variable Correlaciones ¡ntra·grupo combinadas entre las variables discriminantes y
a la función en unidades de desviación típica: por cada cambio en una unidad de desviación las funciones discriminantes canónicas tipificadas. Variables ordenadas por
típica en la variable independiente, cuánto varía la función discriminante canónica. El signo el tamaño de la correlación con la función.
sólo denota si la contribución de la variable es pOSitiva o negativa. En la tabla B puede ob- " Mayor correlación absoluta entre cada variable y cualquier función discri·
minante.
servarse que las dos valiables que más contribuyen al poder discriminatorio de la primera fun- a Esta variable no se emplea en el análisis.
ción son "casar con marroqur' (,483) y "vecino marroquí" (,452). Las que muestran ser
más irrelevantes son las variables "n.O de inmigrantes" (,103) y "estudios" (-,193). En la se-
gunda función, la influencia de la variable "vecino marroqur' es superior (,618), seguida de la En esta última tabla la letra "a" indica que la variable no ha intervenido en la derivación
variable "edad" (-,545). Las dos variables más irrelevantes son "partido racista" (-,054) y "re- de las funciones discriminantes. En ella puede observarse que las variables que más dife-
gularizar inmigrante" (,103). rencian entre los tres grupos, y cuya combinación forma la primera función discriminante, es-
Pero hay que ser precavidos en la interpretación de los coeficientes estandarizados. Su tán relacionadas con la política inmigratoria y con la simpatía mostrada hacia un colectivo con-
valor está afectado por la correlación de la variable con las otras incluidas en la función (co- creto de inmigrantes: los marroquíes. En concreto, las variables son: Olvecino marroquf'
linealidad). Esto lleva a seguir la recomendación de Klecka (1980) de interpretar preferen- (,649), "casar con marroqur' (,566), "partido racista" (,335), "regularizar inmigrante" (-,310),
temente los coeficientes de estructura. Al tratarse de correlaciones bivariables, el valor de es- "simpatía marroqur' (-,305), "inmigrante delincuente" (,293), "leyes inmigración" (-,283) y"en-
tos últimos coeficientes no se halla afectado por las interrelaciones de las variables. Su valor trada inmigrantes" (,258). Si bien, ni la variable "simpatía marroqur' ni "entrada inmigrante" in-
expresa la correlación de las variables predictoras con las funciones discriminantes. Cuan- tervinieron en la estimación de las funciones discriminantes.
to más se aproxime a ±1,0 (valor máximo posible), mayor es la relación de la variable con la En cambio, las variables referidas a características sociodemográficas ("edad", "estudios",
función. "ingresos", "ideología política" y "sexo") están más correlacionadas con la segunda función.
la tabla C incluye los coeficientes de estructura (también llamados "discriminant loadings"). A estas variables se suma la variable "n.o inmigrantes". Pero, ni la variable "ingresos" ni las
Obsérvese que, a diferencia de las tablas A y B (de los coeficientes de las funciones discri- variables "ideología política" y "sexo" mostraron ser "significativas" en la diferenciación entre
minantes canónicas), la tabla correspondíente a la matriz de estructura incluye todas las va- los grupos. Lo que determinó su exclusión de la derivación de las funciones discriminantes.
riables independientes que han participado en el análisis, indistintamente de su poder dis- Si se elevan al cuadrado los coeficientes de estructura se obtienen las proporciones de
eliminatorio. En cada valiable, un asterisco acompaña al coeficiente de estructura mayor. Es varianza de las variables independientes que es explicada por la función discriminante. Por
360 Análisis multivariable. Teoría y práctica en La investigación socia! Capitulo 4: Análisis discriminante 361

ejemplo, ,649 2 = ,421. Significa que el 42,1% de la varianza de la variable "vecino marroquí" de cumplir los requisitos de incorporación al modelo fijados antes de comenzar los aná-
es explicada por la primera función discriminante. La proporción de su varianza que es ex- lisis. Como en el procedimiento "backward", la incorporación de una nueva variable
plicada por la segunda función se reduce a un 28,6% (,5352 = ,286). .., ,. nunca es definitiva. Depende de su correlación con variables que entren con poste-
La contribución de las variables a las funciones incide también en la declslon de que etiqueta rioridad; de si proporciona información compartida con otras variables que muestran
poner a la ¡unóón discriminante. Depende de las variables que estén más c?rrelaCionadas. con mayor poder discriminatorio entre los grupos (mayores diferencias en los valores de
ella. Compárese la composición de las funciones discriminantes extra Ida de la matriz de sus medias grupales).
estructura (tabla C) con la proporcionada por los coeficientes estandarizados de I~S En la elección de variables, que conformarán cada función discriminante, se com-
funciones discriminantes canónicas (tabla S). Podrá observarse que la conflguraclon binan diversos criterios de selección:
de las funciones difiere siendo menos nítida a decir por los coeficientes estandarizados.
La segunda funóón in~luye más variables no relacionadas con caract~rístic?s s?Ciode-
mográficas, además de la variable "n.O inmigrantes". Por ejemplo, las vana~les vecino m?-
rroquí" e "inmigrante delincuente". En la comparación de ambas tablas tengase tamblen A) Lambda de Wilks
presente la matriz de correlaciones de las variables independientes porque ayuda a
comprobar por qué finalmente unas variables quedan más definidas en una funCión que Al considerar tanto las diferencias entre los grupos como la homogeneidad dentro
en la otra en la matriz de estructura. de ellos (los casos se agrupan en torno a su centroide), el estadístico lambda de Wilks
muestra ser de gran valía como criterio de selección de variables "discriminantes". En
cada paso se selecciona aquella variable cuyo valor lambda sea menor. Lo que significa
qne su media difiere entre los grupos y, al mismo tiempo, ocasiona una elevada cohesi-
4.5.3. El procedimiento secuencial o por pasos vidad entre los integrantes del mismo grupo.

El análisis discriminante puede realizarse, al igual que el de regresión, de una so-


la vez o mediante algún procedimiento secuencial de selección de variables predlctoras: B) La razón F parcial
iuclusión secuencial de variable "hacia delante" ("forward"), elulllnaClóu progresiva
de variables "hacia atrás" ("backward") y el procedimiento "paso a paso': C:stepwise") de Una regla de decisión inversa a la anterior la proporciona la razón F parcial. Su valor,
inclusión y eliminación de variables. Cualquiera de estos tres procedimientos ¡terat;- junto a su significatividad, actúan como criterios de entrada o de eliminación de variables.
vos es de gran utilidad cuando coinciden dos situaciones: una, se analiza un elevado nu- Se define como la razón de la variabilidad entre los grupos a la variabilidad intragrupal.
mero de variables potencialmente discriminantcs; dos, el inve.stigad?r no, está seguro Interesan valores elevados porque se corresponden con variables que provocan gran-
de que todas las variables predictoras sean necesarias en la dlscflf'.unaclOn. des divergencias entre los grupos. La probabilidad de que el poder discriminatorio de
Mediante los procedimientos secuenciales se busca la selecclOn de aquellas va- la variable sea estadísticamente significativo es mayor.
liables independientes qne muestren mayor poder discriminatorio; que provoquen ma- La significatividad depende de la correlación existente entre las variables inde-
yores diferencias en las medias grupales (o centroides) de los grupos de partida. De su pendientes, además del tamaño muestral. Concretamente, de la proporción de casos
práctica resulta la eliminación de las variables que presenten un grado elevado de c~­ por variables predictoras.
linealidad al ser su contribución única insnficiente. El interés está en la conseCUClOn Antes de proceder a la derivación de las funciones discriminantes, en el análisis se-
de un mo'delo discriminante parsimonioso, compuesto por una serie de variables cuencial se precisa fijar un valor F mínimo para entrar o introducir ("F-to·enter") y un
que consigan, conjnntamente, una discriminación entre los grupos tan bnena como SI valor F máximo para salir o eliminar ("F-to-remove"). Se impone la condición que el va-
se emplease la totalidad de variables predictoras. lor F mínimo para entrar sea superior al valor F máximo para salir. De lo contrario, una
La opción de inclusión y eliminación de variables paso a~aso ("stepwise") s.e pre- misma variable puede estar continuamente entrando y saliendo del modelo discrimi-
senta como la más idónea al combinar los cntenos de selecclOn de vanables aphcados nante. En el programa SPSS el valor F mínimo para introducir se fija, por defecto, en
en el procedimiento "fo~ward" con los de eliminación del procedimient~ "back- 3,84. El valor F máximo para eliminar es, salvo que se especifique otro valor, 2,71. To-
ward". El análisis comienza con la elección de la variable predictora que más diferencIe da variable que presente un valor F de salida inferior al valor F máximo para salir fi-
entre los grupos. En el paso siguiente, se empareja esta primera variable con las res- jado es eliminada del modelo discriminante.
tantes. El objetivo es escoger una segunda variable en importancia en la dlscnnunaclón Respecto a la significatividad, ésta varía con los grados de libertad del nnmerador
grupal y, al mismo tiempo, con escasa correlación con la introducida en el pnmer pa· y del denominador de F. Los niveles de significación de cada F parcial también se fi-
so. En pasos sucesivos se van incorporando terceras y cuartas vanables. Todas ellas han jan con antelación a los análisis. Para el valor F mínimo para introducir, el nivel de sig-
362 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 4: Análisis discriminante 363

nificación aplicado, por defecto, es el convencional de 0,05. Para que una variable se La generalidad de los programas estadísticos ofrece, junto al valor de tolerancia el
incorpore al modelo discriminante ha de presentar un valor F elevado (superior a 3,84) valor de tolerancla mínima. Este último corresponde a la tolerancia más pequeña d~ la
y significativo (S: ,05). Los grados de libertad asociados al valor F de entrada son, res- vanable
" S1 ésta se mtroduce
. fmalmente en el modelo discriminante . En sucacuos-
'lIó
pectivamente, "g -1" Y "N - P - g - 1". lo mterv1enen las vanables incluidas en el modelo. Por esta razón en el paso O l _
El estadístico F para eliminar se aplica, por el contrario, para medir lasignificati- .
1or d e to1eranCla ,. d " e va
'" mlnzma . e '
todas las
. asimismo 1 000,a1no h a-
variables predictoras es"~
vidad de la disminución en la discriminación entre los grupos, si la variable que ha si- ber tod aV1a mnguna vanable incluida en el modelo.
do elegida en pasos precedentes resulta posteriormente eliminada del modelo. El ni-
vel de significación atribuido al valor F máximo para eliminar es superior: 0,10. Por
encima de este valor, la variable se convierte en candidata para ser expulsada del mo- D) D2 de Mahalanobis
delo, al perder significatividad. Los grados de libertad asociados al valor F de salidiJ son,
respectivamente, '~g - 1)~ Y "N - P - g". Esta medida de dista~cia, también aplicada en el análisis de conglomerados, fue
En el último paso del proceso de selección de variables puede aplicarse el esta- propuesta por Mahalanobls en 1963 (en "On the generalized distance in statistics" P _
dístico F de salida para ordenar las variables conforme a su poder discriminatorio. La c:e~in,g~ of the Nation~llnstit;"te of Science, India, 12: 49-55). Constituye una ~e~~­
variable que presente el valor F más elevado será la variable que más contribuya a la rahzaclOn. de la dIstanCIa euclldea que conSIdera la matriz de covarianzas intragrupal.
diferenciación entre los grupos. Así, sucesivamente, hasta llegar a la variable que ten- MIde la dIstanCIa entre los dos grupos más próximos, entre sus centroides respectivos.
ga el valor F más pequeño, aunque igualmente significativo. En caso contrario, no po- SI A Y B son dos grupos cualesqUIera, la D2 de Mahalanobis se obtiene mediante la si-
dría permanecer en el modelo. El orden establecido conforme a este criterio no tiene gUIente fórmula:
por qué coincidir con el inicialmente determinado mediante el estadístico razón F un;-
variado (subapartado 4.4.2). Este último no considera las interrelaciones existentes en-
tre las variables predictoras.
El análisis concluye cuando se ha alcanzado el número máximo de iteracciones fi-
jadas con anterioridad al análisis, o bien, cuando no quede ninguna variable cuyo va-
lor F de entrada supere al correspondiente valor F mínimo para introducir. Donde: "X iA" es la media de la variable i en el grupo A.
"X iB" es la media de la variable i en el grupo B.
"X}A" Y "X j8 " SOn las medias de la variable j en los grupos A y B.
e) Tolerancia
"X¡/" es la inversa de la matriz de covarianza intragrupal.
Otro requisito mínimo que debe satisfacer una variable para participar en la de- "N" el número total de casos.
rivación de funciones discriminantes se refiere a la tolerancia. Como en regresión, la "gn el número de grupos.
tolerancia mide la colinealidad o correlación existente entre las variables predictoras. "p" el número de variables predictoras en el modelo discriminante (in-
Se define como "1- RI", siendo "Rr" la correlación múltiple cnadrada (o coeficiente cluyendo la actual).
de determinación) entre la variable independiente i y las demás variables explicativas
ya introducidas en el modelo discriminante (las seleccionadas hasta el momento). Atendiend? a esta medida de distancia, la variable elegida para la derivación de las
Interesa que el valor de tolerancia sea elevado (próximo a 1,0), para que la variable funcwnes dlScnmznantes será aquella que presente un valor D2 más elevado. Lo que si _
pueda incluirse en el modelo. En caso contrario, tolerancia próxima a 0,0, se está an- mfica que provoca una mayor separación o diferenciación entre los grupos, como es de d~­
te una variable qne es una combinación de una o varias variables ya introducidas, lo sear. Para ello se calcula la dist~ncia habida entre cada dos centroides, de todos los pares
que elimina su posibilidad de entrada al modelo, al no ofrecer una contribnción úni- de grupos, respecto a cada vanable. A cada grupo se le da la misma ponderación.
ca mínima en la discriminación entre los grupos.
Un valor de tolerancia mínimo aplicado, por defecto, en la mayoría de los pa-
quetes estadísticos es 0,001. Las variables cuya tolerancia sea inferior a este valor que- E) VdeRao
dan excluidas del análisis. Aqviértase que en el primer paso el valor de tolerancia
siempre es 1,0. Ello se debe a que todavía no se ha introducido ninguna variable en En 1952 (en Advanced statistical methods in biometric research, Nueva York
el modelo. John Wlley) Rao propone una modificación a la medida de distancia D2 de Mahala:
CapÉtulo 4: Análisis discr;'11inante 365
364 Anúlüis multivariable. Teoría y práctica en la in vestigación social

nobis, con el objetivo de obtener uua medida de separación grupal. Esta medida recibe ficiente de determinación) entre la scrie de variables discriminantes en el modelo y una
el nombre de V de Rao. Con posterioridad, también se la conoce como la traza de Law- variable ficticia, que identifica al par de grupos correspondiente. Esta variable actúa
ley-Hotelling, por las modificaciones que estos dos autores introdujeron en la mi~ma.
como variable dependiente y está codificada de forma binaria (O y 1), dependiendo de
La medida de distancia V de Rao mide también la separacIón entre los centrO/des, si el caso pertenece al grupo A o al B.
pero respecto al gran centroide ponderado por el tamaño del grupo.. En esto difiere de Mediante "1 - R~B" se obtiene la proporción de varianza de la variable depen-
la D2 de Mahalanobis, que mide la distaucia habida entre los centrO/des de los dos gru- diente (la variable ficticia) que queda sin explicar por las variables discriminantes has-
pos más próximos, sin eonceder una mayor importancia a uno de los grupos con res- ta entonces incluidas en el modelo. Se añaden variables siempre que logren minimizar
la varianza residual (considerando todos los pares de grupos).
pecto al otro. La V de Rao se define de la manera siguiente:
o La combinación de los cinco criterios destacados decide qué variable predicto-
ra participará con otras en la fonnación de las funciones discriminantes. La primera va-
riable elegida será aqnella que muestre un mayor poder discriminatorio: un menor
valor lambda y, a su vez, un valor más elevado en F, D2 o V, y que más logre minimi-
zar la varianza residual. La incorporación de variables posteriores se ve asimismo afec-
Donde: "n/ es el tamaño de la muestra en el grupo k. tada por la correlación que presente con variables ya introducidas en el modelo (to-
"X ;/' la media de la variable i en el grupo k. lerancia), además de la divergencia que provoque en las medias grnpales.
"X ,." la media de la variable i para todos los grupos combinados.

La V de Rao es una medida de la separación entre los centroides y n? tanto de la


cohesividad del grnpo. Las variables se eligen de acuerdo con la separacIón que pro-
voquen de los centroides grnpales. Por esta razón, interesan valores. de V elevados. EJ,EMPLO DESELECCIÓNDEVI'.RIABLES.fJ/SCRlMINANTES
Cuanto mayor sea V, más poder discriminante tiene la vanable predlctora. . MEDIANTE UN PROCEDIMIENTO SECUENCIAl..
En tamaños muestrales elevado, la distribución muestral de la V de Rao se asemeja
a una distribución chi-cuadrado con "p(g -1)" grados de libertad (sie~do "p" el nÚ- Como el número de variables potencialmente discriminantes es elevado (14 variables in-
mero de variables discriminantes añadidas hasta ese paso), 10 que perm!le comprobar dependientes), se ha preferido aplicar un procedimiento iterativo secuencial de inclusión y eli-
sn significatividad, con la ayuda del estadístico de comprobación chi-cuadrado. Me- minación de variables predictoras, de acuerdo con su poder discriminante. Se quiere que el mo-
diante X2 se comprueba la hipótesis de que la incorporación de una nueva vanable al delo incluya sólo aquellas variables independientes cuya contribución a la diferenciación entre
modelo discriminante realmente provoca una disminución en la V de Rao. SI del los grupos sea estadísticamente significativa. Son varios los criterios que pueden seguirse en
contraste del valor empírico con el teórico (de X2) resulta qne el cambIO ,en V, debIdo la selección de variables predictoras. Los más presentes en la mayoría de los programas es-
a la adición de la nueva variable, no es significativo, la vanable en cuestlOn fmalmente tadísticos son: lambda de Wilks, [J2 de Mahalanobis, razón F, V de Rao y minimizar la varian-
no se añade al modelo discriminante. No mejora la separación global de los centroides. za residual. Se han probado estos cinco criterios alternativos de selección de variables, si bien
Al contrario su inclusión en el modelo repercute de forma negativa en la disminución la solución final corresponde a la obtenida con la aplicación del estadístico lambda de Wilks (el
de la separación global de los centroides. De acuerdo con este criterio, sólo se incorpora aplicado por defecto en el programa SPSS). A continuación se detalla la solución alcanzada me-
diante cada criterio para que puedan realizarse comparaciones entre ellas.
al modelo aquella variable que contribuya a la separación entre los grupos; aquclla cu-
yo valor V sea estadísticamente significativo. A) Lambda de Wilks

La tabla A muestra las variables que conforman el modelo discriminante aplicando el es-
F) Minimizar la varianza residual tadístico lambda de Wilks en la selección de variables. Las variables figuran ordenadas se-
gún el paso en que fueron incorporadas al modelo.
Un último criterio a destacar en la selección de variables discriminantes atiende a La variable elegida en cada paso es aquella que cumple la doble condición de tener el va-
la proporción de varianza residual, aquella no explicada para todos los pares de g¡;u- lor lambda más pequeño (próximo a O) y el valor F más elevado. Ambos requisitos se rela-
pos. La varianza no explicada (para cada par de grupos A y B) es, Gomo ,en regreslon, cionan con variables cuyas medias difieren bastante en los tres grupos provocando, a su vez,
igual a "1 _ R 2 " "R2 "es el cuadrado del coeficiente de correlaCIón multlple (o coe- una elevada cohesividad intra-grupal (es decir, entre los integrantes de un mismo grupo).
AB' AS
366 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 4: Análisis discriminante 367

criminatorjo: su medía difiere ~~stante entre los tres grupos diferenciados y, al mismo tiem-
Tabla A. Varíables introducidasleliminadaEf-l·b,C,d
po, provoca una elevada coheslvldad entre los integrantes de cada grupo. La segunda variable
en entrar es "edad", por las razones anteriormente dadas: tener el valor lambda más bajo
Lambda de Wilks
(,257) y el valor F para introducir más alto (80,235).
Introducidas
F exacta . El proceso de incorporación secuencial de variables concluye en el paso 9, debido a que
Paso
Estadístico g/1 g/2 g/3 ninguna de las vanables candidatas a formar parte del modelo discriminante presenta un va-
Estadistico g/1 g/2 Sigo
lor F para mtroducir superior al aplicado por defecto en el programa SPSS: 3,84. Los grados
de libertad aSOCiados al valor F para introducir son "g -1" Y "N - P - g -1".
1 Vecino 359,000 ,000 . Ad~más, obsérvese que aún en el paso 9, los valores de tolerancia son elevados. El
,372 1 2 359,000 303,454 2
marroquí ,000
Edad ,257 2 2 359,000 174,341 4 716,000 mas baJO es ,853 y corr~sponde a la variable "entrada inmigrante". Un valor muy alejado
2
3 Casar con del refe.rente d~ colmealidad muy Importante: ,20. Lo que significa que la variabilidad que
3 2 359,000 143,837 6 714,000 ,000
marroquí ,205 estas CirlCO va~,ables comparten con las variables incluidas en el modelo en pasos pre-
4 Leyes 712,000 ,000 cedentes es mmlma.
inmigración ,168 4 2 359,000 127,986 8
2 359,000 113,397 10 710,000 ,000
5 Estudios ,148 5
6 Inmigrante 708,000 ,000 Tabla B. Varíables no incluidas en el análisis
,133 6 2 359,000 102,877 12
delincuente
7 Regularizar 706,000 ,000
,123 7 2 359,000 93,187 14 Tolerancia Fpara Lambda
inmigrante Paso Tolerancia
8 Núm. mínima introducir de Wilks
2 359,000 84,105 16 704,000 ,000
inmigrantes ,118 8
2 359,000 76,589 18 702,000 ,000
9 Partido racista ,114 9 O simpatía marroquí 1,000 1,000 85,596 ,677
En cada paso se introduce la variable que minimiza la lambda de WUks global.
leyes inmigración 1,000 1,000 61,570 ,745
a El número máximo de pasos es 28. ideología política 1,000 1,000 16,706 ,915
b La F parcial mínima para entrar es 3,84. sexo 1,000 1,000 1,085 ,994
o la F parcial máxima para eliminar es 2,71.
edad 1,000 1,000 86,391 ,675
d El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.
n.o inmigrantes 1,000 1,000 60,216 ,749
regularizar inmigrante 1,000 1,000 57,343 ,758
entrada inmigrante 1,000 1,000 48,176· ,788
En la misma tabla se informa que el valor F mínimo para introducir una variable aplica- partidO racista 1,000 1,000 67,483 ,727
do es 3,84 (significatividad" ,05) Yel valor Fparcial máximo para eliminares 2,71. Ambos re- casar con marroquí 1,000 1,000 203,712 ,468
quisitos F son los aplicados por defecto en el programa. estudios 1,000 1,000 80,718 ,690
Obsérvese que en el paso 1 los valores de lambda de Wilks y F para la variable prime- ingresos 1,000 1,000 22,425 ,889
ramente elegida (''vecino marroquf') coinciden con los obtenidos en la comprobación de la vecino marroquí 1,000 1,000 303,454 ,372
igualdad de las medias grupales mediante lambda y la razón F univariado (subapartado 4.4.2). inmigrante delincuente 1,000 1,000 64,682 ,735
Ello se debe a que en el paso 1 sólo hay una variable formando el modelo discriminante, lo
que elimina la influencia de la colinealidad. Ésta, en cambio, afecta a los valores posteriores 1 simpatía marroquí ,986 ,986 37,068 ,308
de lambda y F, que obviamente varian respecto a los obtenidos en la exploración del efec- leyes inmigración ,999 ,999 49,447 ,291
ideología política ,995 ,995 15,463 ,342
to discriminante de cada variable predictora por separado, sexo ,999 ,999 ,787 ,370
Respecto a lambda de Wilks obsérvese que su valor disminuye en cada paso, al igual que edad ,996 ,996 80,235 ,257
el valor del estadístico F. Esta tendencia descendente de ambos valores en cada paso es ló- n.o inmigrantes ,995 ,995 45,066 ,297
gica porque la incorporación de nuevas variables al modelo suele repercutir en incrementos regularizar inmigrante ,993 ,993 23,738 ,328
de multicolinealidad. entrada inmigrante ,999 ,999 24,377 ,327
Los grados de libertad que acompañan al estadístico lambda, en cada paso, son iguales partido racista ,975 ,975 17,286 ,339
a "p" (número de variables predictoras en el modelo en dicho paso), "g -1" (número de gru- casar con marroquí ,959 ,959 49,091 ,292
pos menos uno) y "N - g" (362 - 3 = 359). estudios ,986 ,986 68,576 ,269
En la tabla B pueden comprobarse las razones que llevan a la selección de las variables ingresos 1,000 1,000 21,763 ,331
en cada paso, La primera variable en entrar (paso O) es "vecino marroque' por ser la que pre- inmigrante delincuente ,999 ,999 47,596 ,294
senta el valor lambda de Wílks más bajo (,372) Y el valor F para introducir más elevado
( .. ./... )
(303,454). Ambos valores indican que la susodicha variable tiene un importante poder dis-
368 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 4: Análisis discriminante 369

Paso

2 simpatía marroquí
leyes inmigración
ideología política
Tolerancia

,986
,996
,995
mínima

,982
,992
,991
-
Tolerancia Fpara
introducir

27,657
41,119
11,622
--1
Lambda
de Wilks

,222
,209
,241
Paso

6 simpatía marroquí
ideOlogía política
sexo
TolerancIa

,901
,961
,963
Tolerancia
mínima

,883
,937
,941
Fpara
introducir

4,702
2,984
Lambda
De Wilks

,129
,131
1,875 ,131
sexo ,995 ,991 ,830 ,255 n. o inmigrantes ,932 ,922 9,961 ,126
n. o inmigrantes ,988 ,988 39,389 ,210 regularizar inmigrante ,943 ,931 13,664 ,123
regularizar inmigrante ,962 ,962 30,307 ,219 entrada inmigrante ,894 ,894 1,650 ,132
entrada inmigrante ,995 ,992 22,770 ,228 partido racista ,947 ,914 10,246 ,126
partido racista ,971 ,970 17,213 ,234 ingresos ,890 ,866 3,791 ,130
casar con marroquí ,958 ,956 44,979 ,205
estudios ,958 ,958 32,502 ,217 7 simpatía marroquí ,888 ,877 2,923 ,121
ingresos ,999 ,995 16,298 ,235 ideología política ,960 ,927 2,948 ,121
inmigrante delincuente ,999 ,995 33,882 ,216 sexo ,945 ,923 2,299 ,122
n.o inmigrantes ,923 ,922 7,946 ,118
3 simpatía marroquf ,916 ,890 14,935 ,189 entrada inmigrante ,872 ,872 ,552 ,123
leyes inmigración ,994 ,955 38,882 ,168 partido racista ,935 ,908 7,303 ,118
ideología política ,995 ,951 10,210 ,194 ingresos ,885 ,865 4,472 ,120
sexo ,986 ,949 1,779 ,203
n. oinmigrantes ,987 ,951 36,187 ,170 8 simpatía marroquí ,885 ,876 2,257 ,116
regularizar inmigrante ,958 ,945 29,259 ,176 ideología política ,957 ,920 2,556 ,116
entrada inmigrante ,982 ,946 15,036 ,189 sexo ,937 ,916 1,615 ,117
partido racista ,971 ,932 14,372 ,190 entrada inmigrante ,866 ,866 ,505 ,118
estudios ,955 ,943 32,927 ,173 partido racista ,929 ,907 6,369 ,114
ingresos ,998 ,955 16,216 ,188 ingresos ,880 ,848 3,492 ,116
inmigrante delincuente ,999 ,955 31,226 ,174
9 simpatía marroquí ,878 ,876 1,716 ,113
4 simpatía marroquf ,910 ,887 9,351 ,160 ideología política ,952 ,902 1,941 ,113
ideología política ,972 ,951 4,478 ,164 sexo ,936 ,905 1,586 ,113
sexo ,980 ,949 1,661 ,167 entrada inmigrante ,853 ,853 ,280 ,114
n.o inmigrantes ,967 ,950 22,509 ,149 ingresos ,880 ,835 3,332 ,112
regularizar inmigrante ,944 ,944 18,204 ,153
entrada inmigrante ,913 ,913 4,507 ,164
partido racista ,971 ,931 12,009 ,158
estudios ,951 ,942 23,923 ,148 La tabla e ofrece los valores lambda de Wilks y F para eliminar, además de la tolerancia
ingresos ,986 ,955 9,579 ,160 de las variables que en cada paso forman el modelo discriminante. La colinealidad entre las
inmigrante delincuente ,991 ,954 20,942 ,150 9 variables predictoras que finalmente forman el modelo discriminante es mínima; si bien, la
disminución de los valores lambda y F para eliminar de un paso a otro se debe a la correlación
5 simpatía marroquf ,908 ,884 7,103 ,143 de las variables en el modelo con la variable recién incorporada. Cuanto más pequeña sea
ideología política ,970 ,939 4,863 ,144 dicha correlación, menor es la variación en ambos estadísticos. Al aumentar el número de va-
sexo ,980 ,942 1,506 ,147 riables en el modelo, lo normal es que la eo/inealidad aumente (disminuyendo el valor de to-
n. o inmigrantes ,842 ,926 14,148 ,137 lerancia). Pero, en este modelo las disminuciones en los valores de tolerancia de un paso a
regularizar inmigrante ,944 ,932 16,048 ,136
otro son mínimas, debido a la escasa eolinealidad entre las variables predictoras. Recuérdese
entrada inmigrante ,911 ,911 3,441 ,145
,137
que la tolerancia mfnima indica la tolerancia más pequeña de la variable si ésta fuese final-
partido racista ,957 ,914 14,265
2,589 ,146 mente introducida en el modelo discriminante.
ingresos ,898 ,866
inmigrante delincuente ,989 ,941 20,535 ,133 Por último, obsérvese que en cada paso el valor lambda de la variable recién incorporada
coincide con el valor que presentaba la variable ya introducida en el modelo en el paso an-
terior. Esto puede constatarse, comparando los valores lambda de Wilks de las tablas B y C.
( .. / ... ) Asimismo, el estadístico F para eliminar para la variable que entra (tabla C) coincide con el
370 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 4: Análisis discriminante 371

Tabla C. Valores en el análisis


valor F para introducir (tabla B) que dicha variable presentaba en el paso previo. Ambos es-
tadísticos lambda de Wilks y F para eliminar muestran tener especial utilidad en la descrip-
Fpara Lambda
Paso Tolerancia ción de lo que sucederia si la variable fuese finalmente eliminada del modelo permaneciendo
elim;nar de Wi/ks las demás variables.
1 vecino marroquí 1,000 303,454 Además, téngase presente que el valor de significación atribuido al valor F máximo pa-
ra eíiminar es superior a ,10. Los grados de libertad varían de un paso a otro, siendo iguales
2 vecino marroquí ,996 291,865 ,675 a "g -1" Y '~N - P - g".
edad ,996 80,235 ,372
3 vecino marroquí ,956 108,746 ,330 B) [J2 de Mahalanobis
edad ,995 75,494 ,292
casar con marroquí ,958 44,979 ,257
La aplicación de la medida da distancia [J2 de Mahalanobis como criterio principal de selección
4 vecino marroquí ,955 106,446 ,269 de variables predictoras lleva a la selección final de las mismas 9 variables (tabla O): "edad", "ca-
edad ,992 67,524 ,232
casar con marroquí ,957 42,694 ,209 sar con marroquf', "n.o inmigrantes", "leyes inmigración", <¡estudios", "inmigrante delincuente", "re-
leyes inmigración ,994 38,882 ,205 gularizar inmigrante", "partido racista" y ''vecino marroqur'. Pero, tras un proceso secuencial de
11 pasos, al eliminarse (en el paso 9) la variable que primero fue elegida (paso 1): "simpatía ma-
5 vecino marroquí ,942 106,064 ,237
edad ,962 39,132 ,181 rroqur'. El orden de incorporación de las variables también difiere respecto al procedimiento an-
casar con marroquí ,954 43,185 ,184 terior· Por ejemplo, la variable ''vecino marroqur', que fue la primera variable seleccionada
leyes inmigración ,989 29,609 ,173 empleando el estadístico lambda de Wilks, es la última en incorporarse al modelo cuando se con-
estudios ,951 23,923 ,168 sidera la medida de distancia [J2 de Mahalanobis. Compárese la tabla O con la A.
6 vecino marroquí ,941 104,019 ,211
edad ,962 33,886 ,158
casar con marroquí ,954 41,390 ,164 Tabla D. Variables introducídas/eJiminadaSJ,b,c,d
leyes inmigración ,981 21,233 ,149
estudios ,949 23,502 ,150 Mín. o cuadrado
inmigrante delincuente ,989 20,535 ,148 Paso Introducidas Eliminadas F exacta
7 vecino marroquí ,931 93,681 ,189
edad ,933 38,224 ,150 Estadístico Entre grupos Estadístico gl1 g/2 Sigo
casar con marroquí ,952 41,220 ,152 1 Simpatía
leyes inmigración ,968 15,388 ,134 marroquí· ,748 1 y3 54,221
2 Edad 1 359,000 1,233 E-12
estudios ,948 21,564 ,138 1,346 1 y2 24,421 2 358,000 1,142E-10
inmigrante delincuente ,988 18,084 ,136 3 Casar con
marroquí 2,979 1 Y3
regularizar inmigrante ,943 13,664 ,133 4 71,553 3 357,000 ,000
Núm.
inmigrantes 4,264 ly3
8 vecino marroquí ,930 93,821 ,181 5 Leyes
76,583 4 356,000 ,000
edad ,924 40,002 ,145 inmigración 5,233 1 y3 74,977 5 355,000 1,827 E-53
casar con marroquí ,950 40,229 ,145 6 Estudios 6,017 1y3 71,647
7 6 354,000 3,762 E-58
leyes inmigración ,955 12,268 ,126 Inmigrante
estudios ,922 15,427 ,128 delincuente 6,831 1y3 69,521 7 353,000 1,252E-62
8 Regularizar
inmigrante delincuente ,978 14,717 ,128 inmigrante 7,214 ly3 64,057 8 352,000
regularizar inmigrante ,935 11,598 ,126 9 Simpatía 4,183E-64
núm. inmigrantes ,923 7,946 ,123 marroquí 7,075 1y3 72,004
10 7 353,000 3,486 E - 64
Partido
9 vecino marroquí ,907 81,909 ,167 racista 7,259 1y3 64,461 8 352,000 2,186 E -64
edad ,924 39,723 ,140 11 Vecino
casar con marroquí ,950 38,786 ,139 marroquí 7,423 1 Y3 58,429 9 351,000 1,797E-64
leyes inmigración ,955 12,243 ,122
estudios ,907 16,803 ,125 En cada paso se introduce la variable que maximiza la distancia de Mahalanobis enlre los grupos más cercanos.
inmigrante delincuente ,970 12,482 ,122 j¡El número máximo de pasos es 28.
regularizar inmigrante ,925 9,244 ,120 b la F parcial mínima para entrar es 3,84.

núm. inmigrantes 7,007 e la F parcial máxima para eliminar es 2,71.


,917 ,118
partido racista d El nivel de F, !a tolerancia o el VIN son inSuficientes para continuar los cálculos
,929 6,369 ,118
Capitulo 4: Análisis discriminante 373
372 Arl.álisis muflivariable. Teoría y práctica erl la investigación socia!

,..----_. --
De acuerdo con este criterio, la variable que primeramente es seleccionada es "simpa- Tolerancia Fpara Mín. O Entre
Paso Tolerancía
tía marroqur' por cumplir el requisito de tener el valor [J2 de Mahalanobis más elevado. Es- mínima introducir cuadrado grupos
to significa que es la variable que más diferencia a los grupos, concretamente, a los dos gru-
------- ""-------
1 leyes inmigración ,996 ,996 38,768 1,182 1 Y2
pos más cercanos. En este caso, los grupos 1 y 3 que son, asimismo, los que mayor
ideología política ,998 ,998 13,938 1,076 1 Y3
número de casos agrupan. La composición de los grupos ya se describió en el capítulo 3 (en sexo ,995 ,995 ,236 ,750 1 Y3
el análisis de conglomerados K-medias). edad 1,000 1,000 68,865 1,346 1y2
En la tabla E (variables no incluidas en el análisis) puede comprobarse los crttenos seguidos n.o inmigrantes ,988 ,988 35,192 1,145 1y2
en la selección de variables para la derivación de las funciones discriminantes, Obsérvese que regularizar inmigrante ,987 ,987 28,999 1,056 1 Y3
los valores [J2 mínimo de la tabla D coinciden con los que las variables presentaban en el pa- entrada inmigrante ,993 ,993 26,036 1,081 1 Y3
so previo en la tabla E y que determinó su selección: valor [J2 más alto entre aquellas variables partido racista ,987 ,987 36,248 ,914 1 Y3
casar con marroquf ,920 ,920 114,084 ,814 1 y3
que cumplen además la condición de tener un valor F para introducir superior. ,997 57,617 1,177
estudios ,997 1 Y2
Si se compara la tabla E con la tabla B, puede observarse la plena coincidencia lógica de ingresos 1,000 1,000 18,812 1,207 1y2
los valores de tolerancia y F para introducir. Lo único que añade la tabla E son los valores [J2 vecino marroquí ,986 ,986 214,634 ,748 1 Y3
mínimos, la distancia mínima entre los centroides de los dos grupos más próximos, respecto inmigrante dellncuente ,993 ,993 38,818 1,193 1y2
a cada variable. En cada paso entra la variable que muestre la mayor distancia [J2, que no tie- -
ne por qué coincidir con el valor F para introducir más elevado. 2 leyes inmigración ,992 ,992 33,899 1,378 1y2
En este segundo criterio de selección de variables se prima la distancia mínima entre los ideología política ,998 ,998 10,749 1,404 1 Y2
sexo ,990 ,990 ,567 1,369 1y2
dos grupos más cercanos, aunque se exige, asimismo, la condición que la variable cumpla n, o inmigrantes ,981 32,477 1,347
,981 1 Y2
el requisito de presentar un valor F para introducir superior al fijado: usualmente 3,84. Dicho regularizar inmigrante ,956 ,956 35,490 1,939 1 Y2
valor se vincula a un poder discriminatorio "significativo". Ésta es la razón que lleva a la eli- entrada inmigrante ,990 ,990 25,543 1,830 1y2
minación de la variable "simpatía marroquí" en el paso 9. Su valor F para introducir desciende partido racista ,983 ,983 36,441 2,667 1y2
de 85,596 (en el paso O), que posibilita su incorporación al modelo, a 2,495 (en el paso 9), lo casar con marroquf ,919 ,919 112,044 2,979 1 Y3
que determinó su exclusión del modelo, al dejar de ser significativa su contribución a la di- estudios ,967 ,967 28,410 1,360 1y2
ingresos ,999 ,999 14,740 1,419 1 Y2
ferenciación grupal. vecino marroquí ,982 ,982 214,306 2,945 1y3
inmigrante delincuente ,993 ,993 29,191 1,400 1y2

Tabla E. Variables no incluidas en el análisis 3 leyes inmigración ,988 ,914 33,324 4,253 1 Y3
ideología política ,998 ,919 9,374 3,305 1y3
Mín. O Entre sexo ,975 ,904 2,227 2,990 1y3
Tolerancia Fpara
Paso Tolerancia grupos n,o inmigrantes ,981 ,910 30,157 4,264 1y3
mínima introducir cuadrado
regularizar inmigrante ,951 ,903 31,628 3,695 1 Y3
entrada inmigrante ,980 ,910 14,099 3,405 1 Y3
O simpatía marroquí 1,000 1,000 85,596 ,748 1 Y3
partido racista ,983 ,908 23,597 3,225 1y3
leyes inmigración 1,000 1,000 61,570 ,074 1 Y2 4,200 1y3
estudios ,965 ,916 28,559
ideología pOlítica 1,000 1,000 16,706 ,037 1 Y2 ,998 ,918 14,898 3,642 1y3
ingresos
sexo 1,000 1,000 1,085 ,001 1 Y3 vecino marroquí ,951 ,890 104,759 2,997 1 Y3
edad 1,000 1,000 86,391 ,190 1 Y2 inmigrante delincuente ,992 ,912 27,120 4,011 1 y3
n.o inmigrantes 1,000 1,000 60,216 ,034 1 Y2
regularizar inmigrante 1,000 1,000 57,343 ,424 1 Y3 4 leyes inmigración ,970 ,906 22,229 5,233 1y3
entrada inmigrante 1,000 1,000 48,176 ,416 1 Y3 ideología política ,992 ,908 6,142 4,498 1y3
partido racista 1,000 1,000 67,483 ,254 1 Y3 sexo ,970 ,898 2,224 4,264 1 Y3
casar con marroquí 1,000 1,000 203,712 ,240 1 Y3 regularizar inmigrante ,940 ,895 24,096 4,795 1 Y3
estudios 1,000 1,000 80,718 ,018 1y2 entrada inmigrante ,959 ,908 8,305 4,507 1 Y3
ingresos 1,000 1,000 22,425 ,070 1y2 partido racista ,977 ,900 20,014 4,431 1y3
1,000 1,000 303,454 ,010 1 Y3 estudios ,937 ,908 17,064 5,120 1 Y3
vecino marroquí
1,000 64,682 ,101 1 Y2 ingresos ,985 ,909 9,107 4,736 1 Y3
inmigrante delincuente 1,000
vecino marroquí ,948 ,890 103,727 4,305 1 Y3
.
( .. J ... ) inmigrante delincuente ,982 ,904 18,978 5,090 1 Y3

( .. J ... )
374 Análisis multivaríable. Teorfa y práctica en la investigación social Capitulo 4: Análisis discriminante 375

Tolerancia Fpara Mín. O Entre I Toferancia Fpara Mín. O Entre


Paso Tolerancia Paso Toleranc;a
mínima introducir cuadrado grupos mínima introducír cuadrado grupos

5 ideología politica ,971 ,903 2,935 5,350 ly3 11 simpatía marroquí ,878 ,876 1,716 7,544 1 Y3
sexo ,965 ,895 2,011 5,244 ly3 ideología política ,952 ,902 1,941 7,486
'1,( 1 Y3
regularizar inmigrante ,931 ,893 18,665 . 5,639 ly3 ,936 ,905 1,586 7,488 ly3
sexo
entrada inmigrante ,901 ,901 3,173 5,299 ly3 ,853 ,853 ,280 7,425
entrada inmigrante 1 Y3
partido racista ,977 ,896 19,395 5,418 1 Y3 ,880 ,835 3,332 7,658 1 Y3
ingresos
estudios ,935 ,904 13,897 6,017 1 Y3
ingresos ,976 ,906 6,263 5,586 ly3
vecino marroquf ,947 ,887 103,214 5,263 ly3
inmigrante delincuente ,978 ,901 14,460 5,943 ly3 La tabla F resume la configuración del modelo discriminante en cada paso. Obsérvese
que los valores de tolerancia y F para eliminar coinciden con los incluidos en la tabla C.
6 ideología política ,967 ,902 3,478 6,176 1 Y3
sexo ,964 ,894 1,972 6,025 1 Y3
ly3 Tabla F. Variables en el análisis
regularizar inmigrante ,931 ,891 17,711 6,412
entrada inmigrante ,899 ,899 2,771 6,069 ly3
partido racista ,963 ,893 21,331 6,308 ly3 Fpara Mín. O
Paso Tolerancia Entre grupos
ingresos ,897 ,859 2,341 6,144 ly3 eliminar cuadrado
vecino marroquí ,936 ,884 103,675 6,089 ly3
inmigrante delincuente ,974 ,899 15,199 6,831 ly3 1 simpatía marroquí 1,000 85,596

ly3 2 simpatía marroquí 1,000 68,125 ,190 ly2


7 ideología política ,958 ,896 2,098 6,930
sexo 2,066 6,873 1 Y3
edad 1,000 68,865 ,748 1 Y3
,948 ,890
regularizar inmigrante ,931 ,886 16,353 7,214 ly3 3 simpatía marroquí ,920 17,496 2,422 1 y3
entrada inmigrante ,886 ,886 1,639 6,844 ly3 edad ,999 67,216 ,814 1 Y3
partido racista ,955 ,889 18,286 7,043 ly3 casar con marroquí ,919 112,044 1,346 1 Y2
ingresos ,887 ,858 3,271 7,037 1 Y3
vecino marroquí ,936 ,882 102,349 6,916 ly3 4 simpatía marroquí ,910 10,710 3,875 1 Y3
edad ,991 64,573 1,820 1 Y3
8 ideología política ,958 ,883 2,147 7,321 ly3 casar con marroquí ,919 108,661 1,347 1 Y2
sexo ,931 ,880 1,854 7,299 1 Y3 núm. inmigrantes ,981 30,157 2,979 1 Y3
entrada inmigrante ,866 ,866 ,493 7,214 1 Y3
partido racista ,944 ,879 13,764 7,371 1 Y3 5 simpatía marroquí ,906 7,616 4,921 1 Y3
ingresos ,881 ,858 3,742 7,469 ly3 edad ,989 61,290 2,641 1 Y3
vecino marroquí ,928 ,876 93,206 7,336 1 Y3 casar con marroquí ,915 108,717 1,378 1 Y2
núm. inmigrantes ,963 19,236 4,253 1 Y3
9 Simpatía marroquí ,886 ,886 2,495 7,214 ly3 leyes inmigración ,970 22,229 4,264 1 Y3
ideología política ,961 ,922 1,922 7,169 1 Y3 6 simpatía marroquí ,904 6,328 5,747 ly3
sexo ,937 ,917 1,695 7,142 ly3 edad ,952 39,960 4,034 ly3
entrada inmigrante ,866 ,866 ,488 7,075 1 Y3 casar con marroquí ,913 109,057 1,395 1 Y2
partido racista ,952 ,918 14,638 7,259 1 Y3 núm, inmigrantes ,937 12,088 5,326 1 Y3
ingresos ,881 ,859 3,734 7,326 1 Y3 leyes inmigración ,969 18,965 5,120 ly3
vecino marroquí ,930 ,922 93,821 7,186 1 Y3 estudios ,935 13,897 5,233 1 Y3
10 simpatía marroqui ,879 ,879 1,708 7,371 1 Y3· 7 simpatía marroquí ,899 4,442 6,630 ly3
ideología política ,958 ,916 1,362 7,338 ly3 edad ,951 35,514 4,920 1 Y3
sexo ,937 ,911 1,763 7,320 1 Y3 casar con marroquí ,912 107,453 1,438 ly2
entrada inmigrante ,854 ,854 ,094 7,260 ly3 núm. inmigrantes ,928 8,617 6,285 ly3
ingresos ,881 ,850 3,677 7,508 ly3 leyes inmigración ,964 14,721 6,057 1 Y3
vecino marroquí ,.907 ,907 81,909 7,423 1 Y3 estudios ,931 14,635 5,943 ly3
inmigrante delincuente ,974 15,199 6,017 1 Y3
(.../. .. )
(.. ./... )
Capítulo 4: Análisis discriminante 377
376 Análisis multivariable. Teoría y práctica en la investigación social

,.-- eliminada en el paso 10, por disminuir su valor F para introducir (que se sitúa por debajo del
F para Mfn O referente mínimo de 3,84: exactamente, 2,201), se decide que la tabla incluya los valores F
Paso Tolerancia Entre grupos
eliminar cuadrado para introducir, además de los F mínJi'nos y entre grupos, Ello permite comprobar qué moti-
¡-- -- vó la elección y/o eliminación de las variables,
8 simpatía marroquí ,886 2,495 7,075 1 Y3
edad ,927 38,259 5,071 1 Y3
,908 104,436 2,010 1 Y2 Tabla G. Aplicación del criterio razón F más pequeña
casar con marroquf
n." inmigrantes ,921 7,021 6,750 1 Y3
Variables no Incluidas en el análisis Variables en el análisis
leyes inmigración ,955 11,208 6,545 1 Y3
estudios ,931 13,736 6,338 1 Y3 Fpara Entre F para Entre
inmigrante delincuente ,973 13,865 6,412 1y3 Paso Mln. F Paso Mln. F
introducir grupos elíminar grupos
regularizar inmigrante ,931 16,353 6,831 1 Y3 ---
O simpatía marroquí 85,596 41,467 1 Y2
9 edad ,927 39,501 4,900 1 Y3
leyes inmigración 61,570 2,680 1 Y2
casar con marroquí ,993 137,328 1,092 1Y2
ideología política 16,706 1,363 1y2
n." inmigrantes ,925 7,691 6,574 1y3
sexo 1,085 ,062 1 Y3
leyes inmigración ,957 11,966 6,377 1 Y3
edad 86,391 6,920 1 Y2
estudios ,933 14,564 6,165 1 Y3
n." inmigrantes 60,216 1,248 1 Y2
inmigrante delincuente ,979 15,227 6,218 1 Y3
regularizar inmigrante 57,343 30,724 1 y3
regularizar inmigrante ,944 18,490 6,630 1y3
entrada inmigrante 48,176 23,693 1 Y2
1 Y3 partido racista 67,483 18,414 1 Y3
10 edad ,927 39,234 5,069
2,405 1 Y2 casar con marroquí 203,712 17,394 1 Y3
casar con marroquí ,992 114,770
6,813 1 Y3 estudios 80,718 ,671 1 Y2
n." inmigrantes ,918 6,955
1 Y3 ingresos 22,425 2,559 1y2
leyes inmigración ,956 12,035 6,540
1 Y3 vecino marroquí 303,454 ,747 1 Y3
estudios ,922 15,909 6,268
1y3 inmigrante delincuente 64,682 3,681 1 Y2
inmigrante delincuente ,970 12,547 6,484
regularizar inmigrante ,931 13,055 6,885 1y3
1y3 1 leyes inmigración 38,768 21,438 1 Y2 1 Simpatía 85,596
partido racista ,952 14,638 7,075
ideología política 13,938 21,706 1 Y2 marroquí
39,723 5,170 1 Y3 sexo ,236 20,935 1y2
11 edad ,924
38,786 7,102 1 Y3 edad 68,865 24,421 1 Y2
casar con marroquí ,950
,917 7,007 6,963 1y3 n." inmigrantes 35,192 20,762 1 Y2
n." inmigrantes
12,243 6,733 1 Y3 regularizar inmigrante 28,999 33,402 1 y2
leyes inmigración ,955
16,803 6,345 , 1 Y3 entrada inmigrante 26,036 30,148 1y2
estudios ,907
12,482 6,639 1y3 partido racista 36,248 33,008 1 Y3
inmigrante delincuente ,970
7,011 1 Y3 casar con marroquí 114,084 29,392 1 Y3
regularizar inmigrante ,925 9,244
6,369 7,186 1 Y3 estudios 57,617 21,350 1 y2
partido racista ,929
81,909 7,259 1y3 ingresos 18,812 21,888 1 y2
vecino marroquí ,907
-- vecino marroquí 214,634 27,035 1 Y3
inmigrante delincuente 38,818 21,631 1y2

e) Razón F más pequeña 2 leyes inmigración 29,519 22,335 1 y2 2 Simpatía 53,812 30,724 , Y3
ideología polftica 12,177 22,875 1y2 marroquí
La aplicación del criterio razón F más pequeña lleva a la selección (para la derivación de sexo ,330 22,208 1 Y2 Regularizar 28,999 41,467 1 y2
las funciones discriminantes) de las mismas 9 variables, aunque en distinto orden, En cada edad 76,504 23,378 1 Y2 inmig.
n." inmigrantes 27,367 22,217 1 Y2
paso se elige la variable que presente un valor F mínimo más alto para los pares de grupos.
entrada inmigrante 15,197 26,283 1y2
Recuérdese que al definirse la razón F como la razón de la variabilidad entre los grupos a la partido racista 25,635 28,193 1 Y3
variabilidad intragrupal, cuánto mayor sea su valor, más probable es que el poder discrimi- casar COn marroquí 108,976 27,524 1 Y3
natorio de la variable sea estadísticamente significativo. Para no extendernos demasiado, se estudios 53,253 22,667 1 Y2
ha decidido extractar sólo los datos no coincidentes con los obtenidos en los otros criterios. ingresos 18,948 22,800 'y 2
La tabla G agrupa los datos principales de las tablas "variables no incluidas en el análisis" y vecino marroquí 187,575 25,403 1 Y3
"variables en el análisis". Como la variable "simpatía marroquf', la primera en ser elegida, fue inmigrante delincuente 33,303 22,715 1 Y2
(,l..,)
378 Análisis multivariable. Ieoria y práctica en la investigación social Capitulo 4: Análisis discriminante 379

--
Variables no incluidas en el análisis Variables en e( análisis Variables no incluidas en el análisis Variables en el análisis

Entre Fpara Entre Fpara Entre Fpara Entre


F para. Paso Mín F Paso M{n. F Paso Mín. F
Paso M{n. F eliminar grupos
introducir grupos introducir grupos eliminar grupos

28,748- 27,324 1y2 3 SimpaUa 37,753 21,774 1y3 7 ideologí¡;i política .3,424 45,773 1 Y3 7 Simpatía 4,948 56,624 1 Y3
3 !eyes inmigración
ideología politica 9,635 26,415 1 Y3 marroquf sexo 2,178 45,276 1y3 marroquf
,266 21,242 1 Y3 Regularizar 18,760 33,008 1 Y3 n. o inmigrantes 14,831 51,997 1Y3 Regularizar 11,976 54,149 1 Y3
sexO
edad 75,987 27,831 1y2 inmig. entrada inmigrante ,971 44,988 1y3 inmig.
24,853 27,278 1 Y2 Partido 25,635 33,402 1 Y2 estudios 21,896 55,604 1y3 Partido 7,085 57,333 1y3
n. o inmigrantes
entrada inmigrante 10,111 24,670 1 Y3 racista ingresos 10,049 49,694 1 Y3 racista
casar con marroquí 95,001 22,672 1y3 inmigrante delincuente 14,007 51,453 1y3 Edad 69,166 26,722 1y3
estudios 56,071 27,225 1 Y2 Casar 32,335 58,282 1y3
ingresos 19,057 27,495 1 Y2 marroquí
vecino marroquí 154,934 21,225 1y3 Leyes 23,747 46,850 1 Y3
inmigrante delincuente 28,566 27,266 1 Y2 inmigración
Vecino 80,589 56,135 1 Y2
23,321 22,300 1 Y2 4 Simpatía 27,324 28,331 1 Y2 marroquí
4 leyes inmigración
ideo!ogía política 6,729 22,367 1 Y2 marroquí
1,141 22,242 1 Y2 Regularizar 24,422 32,165 1 Y2 8 ideología política 3,607 50,511 1 Y3 8 Simpatía 3,312 61,636 1y3
sexo
n.o inmigrantes 21,531 22,311 1 Y2 inmig. sexo 1,677 49,691 1Y3 marroquf
9,118 23,645 1 Y2 Partido 25,321 23,378 1Y2 n." inmigrantes 8,616 53,543 1 Y3 Regularizar 10,303 59,256 1 y3
entrada inmigrante
casar con marroquí 93,213 55,284 1 Y3 racista entrada inmigrante ,546 49,406 1 Y3 inmig.
25,846 22,207 1 Y2 Edad 75,987 28,193 1 Y3 ingresos 3,069 50,828 1y3 Partido 8,923 60,120 1 Y3
estudios
ingresos 15,091 22,480 1 Y2 inmigrante delincuente 13,802 55,978 1y3 racista
vecino marroquí 155,960 54,974 1 Y3 Edad 41,593 42,125 1 Y3
inmigrante delincuente 19,506 22,278 1 Y2 Casar 32,874 61,796 1 Y3
marroquí
23,640 56,135 1 y2 5 Simpatía 7,412 63,215 1 Y3 Leyes 18,373 54,072 1Y3
5 leyes inmigración
ideología política 6,381 49,375 1y3 marroquf inmigración
1,941 46,447 1 Y3 Regularizar 23,590 57,923 1Y3 Vecino 82,100 48,007 1 Y2
sexo
n.o inmigrantes 21,075 55.891 1 Y2 inmig. marroquí
4,787 48,501 1Y3 Partido 15,886 66,362 1y3 Estudios 21,896 51,159 1Y3
entrada inmigrante
estudios 26,101 55,796 1 Y2 racista
15,274 54,995 1 Y3 Edad 74,358 22,672 1 Y3 9 ideología política 2,381 50,909 1Y3 9 Simpatía 2,201 61,832 1y3
ingresos
80,593 46,850 1y3 Casar 93,213 27,831 sexo 2,481 51,079 1y3 marroquí
vecino marroquí
19,243 55,943 1 Y2 marroquí 1y2 n.O inmigrantes 6,495 53,285 1y3 Regularizar 9,421 59,336 1Y3
inmigrante delincuente
entrada inmigrante ,221 50,238 1y3 inmig.
2,797 48,089 1y2 6 Simpatía 4,958 67,417 1 Y3 ingresos 4,165 52,263 1y3 Partido 6,551 60,875 1y3
6 ideología política
sexo 2,245 48,623 1 Y2 marroquí racista
14,448 48,158 1y2 Regularizar 16,201 62,975 1 Y2 Edad 36,856 44,833 1y3
n.o inmigrantes
entrada inmigrante ,883 48,037 1y2 inmig. Casar 32,811 61,251 1Y3
20,622 48,007 1 Y2 Partido 15,551 59,531 1Y2 marroquí
estudios
ingresos 10,151 48,077 1y2 racista Leyes 14,092 56,080 1y3
80,589 51,159 1Y3 Edad 67,851 31,973 1Y3 inmigración
vecino marroquí
14,093 48,109 1 Y2 Casar 93,469 22,300 1 Y2 Vecino 81,871 42,004 1y2
inmigrante delincuente
marroquí marroquí
Leyes 23,640 55,284 1y3 Estudios 21,662 51,453 1 y3
inmigración Inmigrante 13,802 55,604 1y3
delincuente
(.../. ..)
( .. .I... )
380 Análisis multivariahle. Teoría y práctica en la investigación social
Capítulo 4: Análisis (iI:'icriminante 381

'"'~
Variables no incluidas en el análisis Variables en el análisis ~a~o, ~s g~ados de libertad son 2, al ser "P(g _ 1) = 1 3 _ 1 _ ".
([3 1]- 4), Y aSI sucesivamente. . ( ) - 2, en el segundo paso, son
F para Entre Fpara
Paso Mín, F Paso Mín F
introducir grupos eliminar grupos
- Tabla H Va,c;~;".< introduc'd
I as¡¡e l'Iminadasa.b,c,d,e
10 simpatía marroquí 2,201 55,978 1 Y3 10 Regularizar 10,657 65,848 1 Y3
ideología política 2,196 55,450 1 Y3 inmig.
67,855 Paso VdeRao
sexo 2,203 55,577 1 Y3 Partido 7,303 1 Y3 Introducidas Cambio en V
n." inmigrantes
entrada inmigrante
7,007
,219
58,429
54,806
1 Y3
1 Y3
racista
Edad 38,045 49,613 1 Y3
Estadísüco gl Sig. aprox. Estadístico
'-_.-
1 Sigo
ingresos 4,194 57,044 1 Y3 Casar 39,482 67,255 1 Y3 Vecino marroquí 606,908
2 Casar con marroquí 2 ,000
marroquí 850,514 606,908 ,000
1 y3 3 Edad 4 ,000
Leyes 15,059 62,330
1011,107 243,605 ,000
4 Leyes inmigración 6 ,000
inmigración 1172,144 160,594 ,000
Vecino 82,041 48,116 1 y2 5 Regularizar inmigrante 8 ,000 161,036
6 1278,361 10 ,000
marroquí Jnmigrante delincuente ,000 106,218
7 1373,747 12 ,000
Estudios 23,177 56,829 1 Y3 Estudios ,000 95,386
8 1469,179 14 ,000
Inmigrante 15,018 61,636 1 y3 Partido racista ,000 95,432
1527,664 16 ,000
delincuente 9 Núm. inmigrantes ,000 58,485
_.- 1561,787 18 ,000
E d ,000 34,124 ,000
n ca a paso se intrOduce la variable u
11 simpatía marroquí 1,716 53,285 1 Y3 11 Regularizar 9,244 62,254 1 Y3 a El número máximo de as q e produce el mayor aumento en la V de Aao.
ideología política 1,941 52,879 1y3 inmíg. bL . P 05 es 28. o

e a F pare.fal mínima para entrar es 3,84.


sexo 1,586 52,889 1 Y3 Partido 6,369 63,814 1 Y3 dLa F parcIal máxima para eliminar es 2 71
entrada inmigrante ,280 52,449 1 y3 racista La". de Aao mínima para entrar es O' .
ingresos 3,332 54,093 1 Y3 Edad 39,723 45,911 1 Y3 cEJnrveldeFfatl' .
, o erancla o el VIN son insuficientes para continuar los cálculos.
Casar 38,786 63,068 1 Y3
marroquí
Leyes 12,243 59,786 1 Y3
inmigración .. "Nuevamente se extracta la tabla corres on . ".
Vecino 81,909 42,184 1 Y2 liSIS para que pueda constatarse qué deter~nó 1~ente a las vanabl?s no incluidas en el aná-
marroquí en la estimación de las funciones discriminantes eJecClon de la vanable para su participación
Estudios 16,803 56,344 1y3
Inmigrante 12,482 58,954 1 y3
delincuente
Núm.lnmig. 7,007 61,832 1 Y3 Tabla I Variables no meIUfd.as en el anáHsis

Paso Tolerancia
Tolerancia Fpara Vde
mínima intrOducir Rao
O simpatía marroquí
1,000 1,000
leyes inmigración 85,596 171,193
1,000 1,000
O) VdeRao ideología política 61,570 123,139
sexo 1,000 1,000 16,706 33,412
edad 1,000 1,000 1,085 2,171
Mediante V de Rao (o traza de Law/ey-Hotelling) puede también medirse la separación 1,000 1,000
n. o inmigrantes 86,391 172,781
entre las medias grupales, pero respecto al gran centroide por el tamaño del grupo. A dife· regularizar inmigrante
1,000 1,000 60,216
1,000 120,432
rencia de los estadísticos anteriores, éste mide la separación entre los centroides y no la entrada inmigrante 1,000 57,343
1,000 114,686
cohesividad del grupo. Su aplicación lleva a la elección de la variable que presente un valor partido racista 1,000 48,176
1,000 96,352
V de Rao más elevado. La tabla H extracta las variables que fueron seleccionadas en cada casar con marroquí 1,000 67,483 134,966
estudios 1,000 1,000
paso, su valor V de Rao y su significatividad. 203,712 407,423
ingresos 1,000 1,000
Como el tamaño de la muestra es elevado, la significatividad de V se comprueba mediante 80,718 161,436
1,000 1,000
la distribución X2 con "p(g - 1)" grados de libertad. Obsérvese que los grados de libertad vecino marroquí 22,425 44,849
1,000 1,000
lógicamente difieren en cada paso, tras añadirse una nueva variable al modelo. En el primer inmigrante delincuente 303,454 606,908
1,000 1,000 64,682 129,365

( .. ./... )
382 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 4: Análisis discriminante 383

Tolerancia Fpara Vde Tolerancia


Paso Tolerancia Paso Tolerancia Fpara Vde
mínima introducir Rao mínima introducir Rao
1 simpatía marroquí ,986 ,986 37,068 723,391 5 simpatía marroquí ,896 ,881 6,108 1.308,006
leyes inmigración ,999 ,999 49,447 740,016 ideología política ,972 ,940
\ 4,278 1.308,473
ideología política ;995 ;995 15,463 656,963 sexo ,962 ,926 1.,838 1.285,317
sexo
edad
,999
,996
,999
,996
,787
80,235
611,087
770,867 I
!
n." inmigrantes
entrada inmigrante
,957
,890
,935
,890
18,030
1,924
1.352,719
1.291,456
n.o inmigrantes ,995 ,995 45,066 709,904 partido racista ,959 ,924 8,265 1.337,264
regularizar inmigrante ,993 ,993 23,738 688,662 estudio ,950 ,932 21,688 1.365,116
entrada inmigrante ,999 ,999 24,377 692,691 ingresos ,982 ,941 10,317 1.322,135
partido racista ,975 ,975 17,286 673,685 inmigrante delincuente ,991 ,944 18,198 1.373,747
casar con marroquí ,959 ,959 49,091 850,514
estudios ,986 ,986 68,576 748,174 6 simpatía marroquí ,891 ,880 4,165 1.395,805
ingresos 1,000 1,000 21,763 653,232 ideología política ,962 ,939 2,675 1.394,968
inmigrante delincuente ,999 ,999 47,596 727,810 sexo ,945 ,926 2,856 1.384,157
n.o inmigrantes ,949 ,935 13,823 1.434,824
2 simpatía marroquí ,916 ,891 20,854 908,810 entrada inmigrante ,875 ,875 ,756 1.379,827
leyes inmigración ,998 ,957 45,863 995,418 partida racista ,948 ,924 5,778 1.419,580
ideología política ,995 ,954 13,380 902,459 estudios ,948 ,931 21,564 1.469,179
sexo ,991 ,950 1,876 862,915 ingresas ,971 ,940 12,293 1.432,622
edad ,995 ,956 75,494 1.011,107
n. o inmigrantes ,995 ,955 40,501 949,804 7 simpatía marroquí ,888 ,877 2,923 1.486,894
regularizar inmigrante ,990 ,951 22,759 949,114 ideología política ,960 ,927 2,948 1.493,232
entrada inmigrante ,987 ,947 15,435 909,832 sexo ,945 ,923
I n.O inmigrantes
2,299 1.478,406
partido racista ,975 ,936 14,054 917,501 I ,923 ,922 7,946 1.508,671
estudios ,984 ,944 67,533 1.000,703 ! entrada inmigrante ,872 ,872 ,552 1.473,750
ingresas ,999 ,958 21,290 900,486 partido racista ,935 ,908 7,303 1.527,664
inmigrante delincuente ,999 ,958 43,120 974,566 ingresos ,885 ,865 4,472 1.494,501
3 simpatía marroquí ,916 ,890 14,935 1.068,806 8 simpatía marroquí ,881 ,876 2,201 1.540,630
leyes inmigración ,994 ,955 38,882 1.172,144 ideología política ,955 ,903 2,196 1.546,414
ideología política ,995 ,951 10,210 1.062,093 sexo ,944 ,908 2,203 1.536,552
sexo ,986 ,949 1,779 1.022,510 n.o inmigrantes ,917 ,907 7,007 1.561,787
n.o inmigrantes ,987 ,951 36,187 1.134,017 entrada inmigrante ,858 ,858 ,219 1.529,297
regularizar inmigrante ,958 ,945 29,259 1.149,004 ingresos ,885 ,853 4,194 1.551,907
entrada inmigrante ,982 ,946 15,036 1.080,849
partido racista ,971 ,932 14,372 1.087,792 9 simpatía marroquí ,878 ,876 1,716 1.572,530
estudios ,955 ,943 32,927 1.116,539 ideología pOlítica ,952 ,902 1,941 1.578,861
ingresos ,998 ,955 16,216 1.064,806 sexo ,936 ,905 1,586 1.568,459
inmigrante delincuente ,999 ,955 31,226 1.134,495 entrada inmigrante ,853 ,853 ,280 1.563,399
ingresos ,880 ,835 3,332 1.582,196
4 simpatía marroquí ,910 ,887 9,351 1.215,755
ideología política ,972 ,951 4,478 1.200,775
sexo ,980 ,949 1,661 1.180,936 E) Varianza residual
n.o inmigrantes ,967 ,950 22,509 1.261,337
regularizar inmigrante ,944 ,944 18,204 1.278,361
entrada inmigrante 4,507 1.199,451 Un último criterio considera la proporción de la varianza "residual"; aquélla no explicada
,913 ,913
partido racista ,971 ,931 12,009 1.248,833 par? todos los pares de grupos. La variable elegida es la que más logra reducir la varianza
estudios ,951 ,942 23,923 1.261,971 residual para todos los pares de grupos con la condición de presentar un valor F para in-
ingresos ,986 ,955 9,579 1.208,661 traducir superior al fijado (normalmente, 3,84).
inmigrante delincuente ,991 ,954 20,942 1.272,654 En la tabla J puede ver~e que el proceso de selección de variables concluye en el paso
9, al no quedar ninguna variable con un valor F mínimo para introducir superior a 3,84.
(.. ./... )
Capitulo 4: Análisis discriminante 385
384 Análisis multivariahle. Teoria y práct.ica en la investigación social

,- - --
Varíanza
Tabla J. Variables no incluidas en el análisis Tolerancia Fpara
Paso Tolerancia
------ -- mínima introducir residual
----~-----
Toferancia Fpara Varianza ~----

Paso Toferancia mínima introducir residual 3 simpatla marroquí ,981 ,981 19,268 ,890
ideología política ,972 ,972 5,217 ,933
- - 1,000 85,596 2,138 sexo ,989 ,987 ,999 ,947
simpatía marroquí 1,000
° leyes inmigración
ideología política
1,000
1,000
1,000
1,000
61,570
16,706
2,448
2,806
2,977
n.o inmigrantes
regularizar inmigrante
,967
,947
,967
,947
24,237
18,496
,873
,891
1,000 1,000 1,085 entrada inmigrante ,929 ,929 9,142 ,921
sexo 86,391 2,378 partido racista ,971 ,969 14,296 ,906
1,000 1,000
edad 60,216 2,472 casar con marroquí ,957 ,955 42,694 ,848
n. o inmigrantes 1,000 1,000
1,000 57,343 2,326 estudios ,953 ,953 23,430 ,876
regularizar inmigrante 1,000
1,000 48,176 2,421 ingresos ,987 ,983 9,497 ,917
entrada inmigrante 1,000
1,000 67,483 2,200 inmigrante delincuente ,991 ,988 22,533 ,878
partido racista 1,000
1,000 203,712 1,601
casar con marroquí 1,000
1,000 80,718 2,395 4 simpatía marroquí ,91O ,887 9,351 ,818
estudios 1,000
1,000 22,425 2,795 ideología política ,972 ,951 4,478 ,835
ingresos 1,000
1,000 303,454 1,460 sexo ,98O ,949 1,661 ,844
vecino marroquí 1,000
1,000 64,682 2,420 n. o inmigrantes ,967 ,95O 22,509 ,78O
inmigrante delincuente 1,000
regularizar inmigrante ,944 ,944 18,204 ,794
,986 37,068 1,274 entrada inmigrante ,913 ,913 4,507 ,834
1 simpatía marroquí ,986
,999 49,447 1,211 partido racista ,971 ,931 12,009 ,813
leyes inmigración ,999
,995 15,463 1,376 estudios ,951 ,942 23,923 ,777
ideología política ,995
,999 ,787 1,457 ingresos ,986 ,955 9,579 ,817
sexo ,999
,996 80,235 1,090 inmigrante delincuente ,991 ,954 20,942 ,784
edad ,996
,995 45,066 1,220
n.o inmigrantes ,995
,993 23,738 1,340 5 simpatía marroquí ,908 ,884 7,103 ,757
regularizar inmigrante ,993
,999 24,377 1,339 ideología política ,97O ,939 4,863 ,764
entrada inmigrante ,999
,975 17,286 1,378 sexo ,98O ,942 1,506 ,774
partido racista ,975
,959 49,091 1,307 n. oinmigrantes ,942 ,926 14,148 ,738
casar con marroquí ,959
,986 68,576 1,127 regularizar inmigrante ,944 ,932 16,048 ,734
estudios ,986
1,000 21,763 1,327 entrada inmigrante ,911 ,911 3,441 ,768
ingresos 1,000
,999 47,596 1,215 partido racista ,957 ,914 14,265 ,739
inmigrante delincuente ,999
ingresos ,898 ,866 2,589 ,769
,982 27,657 ,995 inmigrante delincuente ,989 ,941 20,535 ,722
2 simpatía marroquf ,986
,992 41,119 ,95O
leyes inmigración ,996
,991 11,622 1,048 6 simpatía marroquí ,901 ,883 4,702 ,709
ideología política ,995
,991 ,83O 1,087 ideología política ,961 ,937 2,984 ,714
sexo ,995
,988 39,389 ,952 sexo ,963 ,941 1,875 ,718
n.o inmigrantes ,988
,962 30,307 ,985 n. oinmigrantes ,932 ,922 9,961 ,697
regularizar inmigrante ,962
,992 22,770 1,011 regularizar inmigrante ,943 ,931 13,664 ,688
entrada inmigrante ,995
,970 17,213 1,031 entrada inmigrante ,894 ,894 1,650 ,718
partido racista ,971
,956 44,979 ,977 partido racista ,947 ,914 10,246 ,696
casar con marroquí ,958
,958 32,502 ,971 ingresos ,89O ,866 3,791 ,712
estudios ,958
,995 16,298 1,025
ingresos ,999
,995 33,882 ,97O 7 simpatía marroquí ,888 ,877 2,923 ,680
inmigrante delincuente ,999
ideología política ,960 ,927 2,948 ,681
(.. / ... ) sexo ,945 ,923 2,299 ,683
n.O inmigrantes ,923 ,922 7,946 ,669
entrada inmigrante ,872 ,872 ,552 ,687
partido racista ,935 ,908 7,303 ,67O
ingresos ,885 ,865 4,472 ,677
(.. ./... )
386 Análisis multivariable. Teorfa y práctica en la investigación social Capitalo 4: Análisis discriminante 387

Tolerancia Fpara Vadanza Tabla L. Comparaciones de grupos por paresfl,b,c.d,eJ,9Ai


Paso Toleranda
mínima Introducir residual
Paso Número inicial de casos 1 2 3
8 simpatía marroquí ,885 ,876 2,257 ,664
ideología política ,957 ,920 2,556 ,663
1 1 F 470,686 ,747
sexo ,937 ,916 1,615 ,666
entrada inmigrante ,866 ,866 ,505 ,668 Sigo ,000 ,388
partido racista ,929 ,907 6,369 ,654 2 F 470,686 568,798
ingresos ,880 ,848 3,492 ,661 Sigo ,000 ,000

9 simpatía marroquí ,878 ,876 1,716 ,650 3 F ,747 568,798


ideología política ,952 ,902 1,941 ,650 Sigo ,388 ,000
sexo ,936 ,905 1,586 ,651 2 1 242,820 80,596
F
entrada inmigrante ,853 ,853 ,280 ,654 Sigo ,000 ,000
ingresos ,880 ,835 3,332 ,646
2 F 242,820 297,564
Sigo ,000 ,000
3 F 80,586 297,564
Sigo ,000 ,000
El resumen del proceso de selección de variables mediante el criterio de varianza resi-
dual se resume en la tabla K. 3 1 F 207,575 58,338
Sigo ,000 ,000
Tabla K. Vadables introducidaslelimlnadasfl,b,c,d 2 F 207,575 277,320
Sigo ,000 ,000
Varianza
Paso Introducidas 3 F 58,338 277,320
residual
Sigo ,000 ,000
1 Vecino marroquí 1,460 4 1 F 156,757 68,764
2 Edad 1,090 Sigo ,000 ,000
3 Leyes inmigración ,950
4 Casar con marroquí ,848 2 F 156,757 233,547
5 Estudios ,777 Sigo ,000 ,000
6 Inmigrante delincuente ,722 3 F 68,764 233,547
7 Regularizar inmigrante ,688 Sigo ,000 ,000
8 N. inmigrantes
<) ,669
9 Partido racista ,654 5 1 F 126,058 71,789
Sigo ,000 ,000
En cada paso se introduce la variable que minimiza la suma de la varia- 2 190,497
F 126,058
ción no explicada de todos los pares de grupos.
a El número máximo de pasos es 28.
Sigo ,000 ,000
b La F parcial mínima para entrar es 3,84.
3 F 71,789 190,497
e La F parcial máxima para eliminar es 2,71.
Sigo ,000 ,000
d El nivel de F, la tolerancia o el VIN son insuficientes para continuar
los cálculos. 6 1 F 104,985 72,373
Sigo ,000 ,000
2 F 104,985 168,645
el En resumen, los cinco criterios empleados en la selección de variables, en función de Sigo ,000 ,000
su poder "discriminante", coinciden en extractar las mismas "9" variables (aunque no en su 72,373
3 F 168,645
orden de incorporación al modelo discriminante), como las más estadísticamente significa- Sigo ,000 ,000
tivas en la diferenciación entre los tres grupos. Las variables son las siguientes: "vecino ma-
rroquí", "edad", "casar con marroquí", "leyes inmigración", "estudios", "inmigrante delin- ( .. .I... )
388 AnálisL, multivariable. Teoría y práctica en la investigación social
Capüulo 4: Análisis discriminal11e 389

~-
2 3 Para cada par de grupos, el estadístico F es proporcional a la D 2 de Mahalanobis
1
Paso Número inicial de casos
¡--.-------------------- -- -- (también a la T2 .de Hotelling), lo que permite su utilización como una medida de la distancia
entre cada par de grupos. La tabla L describe las comparaciones de los grupos por pares, me-
F 91,719 67,855
7 1
Sigo ,000 ,000 diante el estadístico F, en el proceso secuencial que resulta de la aplicación del criterio lamb-
155,447 da de Wilks. La comparación final (paso 9) coincide plenamente con la obtenida con la apli-
2 F 91,719
,000 ,000 cación de los otros cuatro criterios de selección de variables. Ello se debe a que la
Sigo
comparación final de los grupos por pares se hace con la combinación de las mismas nue-
F 67,855 155,447 ve variables. En cambio, en los pasos precedentes las combinaciones de variables difieren
3
Sigo ,000 ,000
en los cinco criterios de selección de variables, no coincidiendo las comparaciones de los gru-
F 80,296 63,814 pos por pares. La magnitud de F difiere, si bien se insiste en que las divergencias más sig-
8 1 ,000
Sigo ,000 nificativas ocurren entre los grupos 2 y 3.
80,296 136,780 En el modelo final (paso 9) se constata que los dos grupos más próximos son el 1 y el 3,
2 F
Sigo ,000 ,000 al ser su valor F correspondiente el más pequeño (58,429). En cambio, los dos grupos más
distanciados son el2 y el 3, cuya comparación resulta en el valor Fmás elevado (126,447).
F 63,814 136,780
3
,000 Todos los valores F son estadísticamente significativos.
Sigo ,000
Por último, indicar que las distancias entre las medias puede, además, verse en el grá-
F 72,534 58,429 fico de las funciones discriminantes canónicas (subapartado 4.7.2).
9 1 ,000
Sigo ,000

F 72,534 126,447
2 ,000
Sigo ,000

3 F 58,429 126,447 4,6_ Evaluacióu de la capacidad predictiva de las funciones discriminan les
Sigo ,000 ,000
Tras la estimación de las funciones discriminantes y sus coeficientes, sigue la fase
a 1, 359 grados de libertad para el paso 1.
b 2,358 grados de libertad para el paso 2.
de evaluación de la capacidad predictiva de las funciones discriminantes. Esta fase, tam-
e 3,357 grados de libertad para el paso 3. bién crucial, incluye actuaciones varias. Desde la determinación de la puntuación de
d 4, 356 grados de libertad para el paso 4. corte óptima para la asignación de los casos a los grupos definidos y la posterior ela-
e 5, 355 grados de "bertad para el paso 5.
I 6, 354 grados de libertad para el paso 6.
boración de la matriz de clasificación (como en el análisis de regresión logística, por
9 7,353 grados de libertad para el paso 7. ejemplo), hasta la determinación de los criterios que van a seguirse en la valoración del
h 8, 352 grados de libertad para el paso 8.
i 9, 351 grados de libertad para el paso 9.
éxito de la clasificación. En los siguientes subapartados se exponen cada una de las ac-
tuaciones referidas.

cuente", "regularizar inmigrantes", "n.O inmigrantes" Y "partido racista". Éstas son la: varíable~
que más diferencian a los tres grupos de personas, sobre todo a los dos grupos mas polares. 4.6.1. La matriz de clasificación
el grupo" 2" (los "reacios" a la inmigración) y el "3" (los '1avorables" a la misma). Presentan
un valor lambda de Wilks bajo, coincidente con un valor F, D 2 o Vel~vado y, ~I. mismo !lem- Antes de proceder a la confección de la matriz de clasificación, corresponde la ta-
po, logran minimizar la varianza residual. Tras cada incorporación, la.Jntrodu~clon de nuevas rea previa de determinar la puntuación de corte óptima para, posteriormente, proce-
variables se ve afectada, además, por la correlación que presente dicha variable con las ya der a la clasificación de los casos en los grupos definidos.
incorporadas al modelo (colínealídad) y no sólo por la divergencia que provoque en las me- Por puntuación de corte óptima (también referida como puntuación z) se entiende
dias grupales. De ahí la necesidad de comprobar, en cada paso, los valores de toleranCia Y
aquella puntuación que actúa como criterio de decisión para asiguar cada caso concreto
tolerancia mínima de cada variable.
a cada grupo. La asignación depende de la puntuación discriminante que corresponda a
En el análisis secuencial se indica, asimismo, las diferencias entre las. medías de }a~
<)
dicho caso. Ésta se calcula con los valores que el caso presenta en la combinación de va-
variables canónicas para cada par de grupos en cada paso. Para ello se aplica el estadlstl- riables que conforma la función discriminante. La puntuación así obtenida se compara con
ca F, que ayuda a describir qué grupos son más diferentes, atendiendo a las variables que la puntuación de corte óptima. Si es superior a dicha puntuación, el sujeto quedará cla-
intervienen en la derivación de las funciones discriminantes en cada paso. sificado en uno de los grupos diferenciados; si es inferior, en el grupo contrario.
390 Análisis rnuLtivariable. Teoría y práctica en la investigación social Capítulo 4: Análisis discriminante 391

Para cada dos grupos se calcula una puntuación de corte óptima; si bien, los cálcnlos
difieren, dependiendo del tamaño de los grupos, y de que tengan un mismo número de
2
D (X IG k ) = (N - g)ff W;¡l(X¡ - X¡k)(X
;"'l J"l
j
- X jk
)

casos o no.

- En grupos de igual'tamaño, la puntuación de corte óptima es el promedio de los Siendo "D2(XIGk )" la distancia cuadrada desde el punto X (un ca~o concreto al
centroides de ambos grupos: centroide del grupo k).

El caso queda finalmente clasificado en aquel grupo en el que presenta una dis-
z= tancia D2 me.nor. Esto quiere decir que comparte más las características que definen
el ?erfil, de dicho grupo y menos las de los otros grupos. "Si la distancia con el grupo
Donde: "2A " y "28" representan los centroides de los grupos A y B, res- mas proximo es grande, los perfiles pueden casar bastante pobremente, pero son
una mejor casación que para ningún otro grupo" (Klecka, 1980: 44).
pectivamente. . .
- En grupos de tamaño desigual, la puntuación de corte óptIma se defme como el r
. Como D~ comparte las llÚsmas propiedades que el estadístico con "p" grados de
promedio ponderado (por el tamaño muestral de cada grupo) de los centrOldes hbertad, la dIstanc~a puede. transfonnarse en "unidades chi-cuadrado" (KJecka, 1980).
Esta transformaclOn pennlte comprobar la significatividad de la probabilidad de que
de cada grupo:
un caso cualquiera que se ha localizado lejos del centroide de un grupo en realidad per-
tenezca a dicho grupo (Pr [X IGd o P[D > dlG = g]).
Los casos pueden tener una probabilidad elevada de pertenecer a un grupo, a más
de uno o ? mnguno'2depende de cuál sea su puntuación discriminante. Aplicando la me-
dida de distanCia D ,el caso se aSIgna al grupo a cuyo centroide se halle más próximo.
La fmaltdad ~s comprobar si ?icha asignación es correcta e, implícitamente, el poder
Donde: "NA" Y"N8" son los tamaños muestrales de los grupos A y B.
de c1aslÍlCaclOn o de predIccIon del modelo discriminante. Existen distintas clases de
probabilidades:
La aplicación de estas fórmulas (que pueden adaptarse a un número de grupos su-
perior a dos y de tamaños desiguales) exige que las distribuciones en ambos grupos ~e a) Probabilidad "a priori" P(Gk ). Hace referencia al grupo donde se ubican los ca-
encuentren normalmente distribuidas. Los casos que obtengan una puntuaczon dIS- SOs antes de conocerse su puntuación discriminante. Como cada caso sólo per-
criminante inferior a la puntuación de corte óptima se clasificarán en lel grupo A, tene~e a uno de los grupos diferenciados, la suma de todas las probabilidades
mientras aquéllos cuyas puntuaciones superen a la de corte óptima, quedarán clasifi- previas (tantas como casos analizados) es la unidad.
cados en el grupo B. b) Probabilidad "a posteriori" P( G,/ X). Expresa la probabilidad de que un caso
Calculada la puntuación de corte óptima, se procede a la clasificación de los casos X pertenezca al grupo k, pero después de conocerse su puntuación discrimi-
en los grupos, en consonancia con su puntuación discriminante. Esta última puntuación nante. Tomando las puntuaciones discriminantes normalizadas de cada indivi-
se utiliza para predecir el grupo al que un caso concreto pertenece con mayor pro- duo (Z,), conociendo su probabilidad "a priori" y aplicando el teorema de Ba-
babilidad. Para ello se aplican diversos criterios de clasificación que ayudan a com- yes, puede calcularse la probabilidad de pertenencia de un caso al grupo k.
probar el poder predictivo del modelo discriminante obtenido.. ..
Los criterios de clasificación,más seguidos son aquellos que Illiden la dIstancIa de
cada caso a cada centroide: Un caso quedará clasificado en el grupo hacia cuyo cen- P(G I Z) = peZ I Gk)P(Gk )
k
traide se sitúe más próximo. !P(Z I Gk)P(Gk)
Entre las medidas de distancia más aplicadas destaca la D2 de Mahalanobis, ya de- ¡",l
finida en el subapartado 4.5.3. Considera la dispersión de las variables y las relaciones
existentes entre ellas, al introducir en su ecuación la inversa de la matnz de covananzas Esta última probabilidad actúa COmo "regla de decisión" para clasificar cada caso
intragrupos. En este contexto la D2 de M ahalanobis se define mediante la siguiente en el grupo cuyo perfil se asemeje más al suyo. Para ello se consideran los valores que
ecuación, que asume que los distintos grupos formados tienen iguales matrices de co- dIcho caso presente en la serie de variables que forman la función discriminante. De
varianza. cada grupo se obtiene la probabilidad de pertenencia de cada individno al mismo. Pe-
Capítulo 4: Análisis discriminante 393
392 Análisis multivariable, Teoría y práctica en la investigación social

ro el caso quedará finalmente asignado al grupo hacia el que su probabilidad de "" g]) ,-aunque autores c~mo ,~riel (1995: 306) afirman que esta última probabilidad "no tiene un
~teres espeCial ~n el ana"sls - y de la distancia de Mahalanobis al cuadrado hasta el centroide
pertenencia "a posteriori n sea mayor. Esto equivale a decir que pertenecerá al grupo
. n los datos onglnales, e~tas distancias se basan en las fundones canónicas y en los datos va~
a cuyo centroide se sitúe más próximo. "dados en las observaCiones. Como los casos quedan finalmente clasificados en el gru o
Se trata, asimismo, de probabilidades condicionales P(Z/ G k ) porque la pertenencia
del caso al grupO se halla condicionada a la información disponible: su puntuación dis-
respecto al cual pr~sente
una menor distancia 0', esta medida de distancia puede ayudar a~a
Idenllflcaclon de atlplCos: casos cuyo valor O' respecto a la media grupal sea elevado.
criminante y el grupo de pertenencia "a priori". El conocimiento de la probabilidad "a En los casos seleCCionados en la tabla A, el número 16 es el que presenta el mayor va-
priori" puede contribuir a reducir la probabilidad de una mala clasificación posterior, es- ~r O' (8,571) Y el caso 54, la menor distancia (,019). Valores de distancia pequeños informan
pecialmente, cuando los perfiles de los grupos no difieren mucho. Lo cual puede provocar e la ple~a cOincidencia del caso con el perfil que define al grupo al que ha sido asignado co-
que muchos casos tengan una probabilidad elevada de pertenecer a más de un grupo. mo el mas prob~ble de pertenecer. En cambio, valores elevados se presentan cuando no ca-
Para calcular la probabilidad condicional P(Z/ G k ) se asume que el caso pertene- san las caractenstlcas del caso y las del grupo. El caso 16, por ejemplo, ha sido correctamente
ce a un grupo concreto (probabilidad "a priori"). A continnación, se estima la perte- ~~Slflcado por las funCIones dIscriminantes, al coincidir su grupo real (2) con el pronostica-

nencia al grupo, a partir de su puntuación discriminante. El conocimiento de todas eS- (2). Sin embargo, sus características no coinciden plenamente con el perfil que define a
los Integrantes del grupo 2. Lo que le convierte en un posible atípico. Si bien, casa más con los
tas probabilidades es necesario para la elaboración de la tabla de clasificación, como
Integrantes de dicho grupo que con los pertenecientes a los otros dos grupos. Su probabili-
se ilustra en el ejemplo siguiente. dad de pertenecer al grupo 2 (P[G = g/D = d]) es plena (1,000)

Tabla A EstU d·o


I S por casos

{iJEMPLODE TAi3LA DE CLASIFICACIÓ;]'------------ Grupo mayor Segundo grupo mayor Puntuaciones


disCfÍminantes
Num.de
..,an'ables G<v"" Oislene. d Dislene. de
Para ejemplificar una tabla de clasificación se ha solicitado (por problemas de espacio) Mehala- Mal1ala·
predicloffis real
un extracto de los primeros 30 casos que forman la muestra de análisis. Recuérdese que és- con valor, Grupo P(O;:.dI G"g) P(G"'!} I noblsal Grupo P(G"'gl noblsal Fundón Función
Núm. de caso perdidos pronostico O~) cuadrado O",d} cuadrado 1 2
ta se encuentra integrada aproximadamente por la mitad de los sujetos que componen la gl has/a el has/a el
P
muestra total elegidos al azar. Por esta razón los números de los casos de la tabla A no son centroide cen/roide

consecutivos. Original 2 2 3 3 .634 2 ,647 ,912 1 ,153 3,320 -,928 -,284


En la tabla A puede observarse que, a excepción de los casos 33 y 35, en los veintiocho 3 4 1 1 ,297 2 ,999 2,430 3 ,001 17,230 ,803 -2,975
4 4 1 1 ,578 2 .gn 1,095 3 ,023 9,575 -,154 -2,286
restantes el grupo pronosticado (aplicando las funciones discriminantes estimada) coincide 5 2 1 1 ,364 2 ,525 2,020 3 ,475 3,238 -,925 -1,177
con el grupo real donde el caso fue originariamente clasificado. Dicha coincidencia mayori- 6 3 1 1 ,653 2 ,788 ,852 3 ,212 4,501 -,447 -1,347
7 6 1 1 ,409 2 ,963 1,789 3 ,023 10,242 1,579 -,706
taria se constata en la validación cruzada, si bien, en esta última a las dos excepciones an- 8 1 3 3 ,604 2 ,853 1,008 1 ,147 3,509 -1,076 -,394
teriores se suma el caso 21. Éste estaba originariamente clasificado en el grupo 1, pero tras 9 4 1 1 ,4 76 2 .997 1,483 3 ,003 14,455 .655 -2,656
12 3 3 ,299 2 ,898 2,415 1 ,101 5,759 ,157 ,927
la aplicación de los coeficientes de /a función de clasificación queda asignado al grupo 3. 15 4 1 1 ,666 2 ,877 ,813 3 ,123 5,757 -,413 -1,536
En general, los casos se clasifican en el grupo cuyas características o perfil más se ase- 16 2 2 ,014 2 1,000 8,571 1 .000 50,732 6,589 2,019
18 1 2 2 ,511 2 1,000 1,343 1 .000 25,071 4,993 ,694
meje al suyo. Un asterisco acompañando al número de grupo pronosticada indica que dicho 19 1 3 3 ,834 2 ,996 .364 1 ,004 10.213 -1,352 1,173
caso ha sido mal clasificado. Su predicción difiere bastante de la verdadera pertenencia gru- 20 1 1 ,971 2 ,928 ,059 3 ,072 5,193 ,269 -1,315
21 1 1 ,517 2 ,518 1,320 3 ,482 2,484 -,317 -,615
pal. El número total de casos mal clasificados en la muestra puede obtenerse contando los 22 3 3 ,663 2 ,861 ,823 1 ,139 3,455 -,601 ,067
casos cuyo grupo pronosticado difiere del real. 26 3 2 2 ,313 2 ,875 2,231 1 ,120 7,869 2,533 ,448
29 3 2 2 ,577 2 ,999 1,100 1 ,001 16,576 4,231 ,105
Adviértase que en el proceso de clasificación de los caSOS se diferencia dos grupos pro- 30 3 3 3 ,742 2 ,894 ,598 1 ,106 3,847 -,765 ,072
nosticados: el mayor (aquel en el que cada caso es más probable de pertenecer, en con- 33 3 1 3·' ,306 2 ,50S 2,365 I ,492 1,410 -,348 -,592
35 3 2 1'· ,585 2 .979 1.074 3 .018 10,122 1,406 -1,009
formidad con la función de clasificación discriminante aplicada) y el segundo grupo mayor (o 36 3 3 3 ,959 2 ,973 .083 I ,027 6,205 -1,075 ,501
segundo más probable de pertenecer). Como existen dos funciones discriminantes, la cla- 38 1 1 1 ,674 2 ,990 )90 3 ,009 11,231 1,357 -1,398
39 4 1 1 ,592 2 ,829 1,048 3 ,171 5,219 -,548 -1,567
sificación de los casos se hace con los valores de ambas funciones. 42 1 I ,887 2 ,867 ,239 3 ,133 5,001 ,158 -1,076
Previo al grupo mayor pronosticado, la tabla A informa del grupo real de pertenencia del 43 2 1 1 .308 2 ,996 2,356 2 ,003 12,507 1,954 -1,845
3 .580 1,089 I ,119 4,068
caso y del número de variables predictoras con valores perdidos ("sin respuesta") para cada
caso. Esta última columna aparece en blanco cuando no presenta valores sín respuesta.
"'"
51 1
3
3
3
3
3
,925
.851
2
2
2
,881
.990
,996
,1$6
,323
1
1
.010
.004
8,289
10,392
-,326
-1.719
-1,900
.401
.417
,733
Respecto al grupo mayor, se informa del grupo pronosticado, de la probabilidad posterior de 54 1 1 ,990 2 ,951 ,019 3 ,049 6,962 ,491 -1,315

pertenencia a dicho grupo (P [G = g/D = dI), de la probabilidad condicionada al grupo (P [D > d/G ( .. .I...)
394 Análisis multivariable. Tt::orfa y práctica en la investigación social
Capítulo 4: Análisis discriminante 395

Grupo mayor Segundo grupo mayor Puntuaciones bla A puede observarse que los valores "p" más bajos en dicha probabilidad (P[D>d/G ; gJ)
discriminan/es
Num.de
coinciden con los casos que presentan una distancia D' de Mahalanobis más alta (los casos
Dislanc. de
variables Grupo Dislanc. d
Mahala-
16, 12,3 o 43, por ejemplo). En cambio, valores de distancia D' bajos, próximos a O, coinciden
prediclora,s feal Mahala-
con valores de probabilidad muy elevados (como en los casos 54, 20 Y 36).
Núm. decaS{)
con valor.
perdidos
Grupo
pronostico
P(D>dI G",y) P(G"'f}/
D"")
nobls al
cuadrado
Grupo P(G",gl
ff-;d)
nabisal
,.cuadrado ,
Función FunciÓn
2 En general, cuando los perfiles de los grupos no difieren mucho, existen muchos casos
p ,1 has/a al has/a e!
cen/roide cenlroide con una próbabilidad elevada de pertenecer a más de un grupo. Esta situación no se presenta
en el ejemplo aquí ilustrado,
Validación
,
2 , , ,149 9 ,826 13,306
14,182
1
,, ,174
,001
15,403
29,026 La tabla S contiene los coeficientes de la función de clasificación para cada grupo, ne-
cfUzada~ 1 1 ,116 9 ,999

,,,
4 1 1 ,899 9 ,976 4,184 ,024 12.582 cesarios para la asignación de los casos a los grupos (grupo pronosticado). Estos coeficientes
5 1 1 .812 9 ,506 5,245 ,494 6,307
6 1 1 ,984 9 ,783 2,374 ,217 5,958 sólo se han calculado para las nueve variables que han mostrado poder discriminatorio sig-
nificativo entre los tres grupos.
7
8 ,
1
,
1 ,108
,400
9
9
,955
,839
14,432
9,418
,
1
,026
,161
22,655
11,703
9
12 ,
1
,
1 ,255
,005
9
9
,997
,872
11.303
23,804 1
,
,003
,127
24,240
26,636 Tabla B. Coeficientes de la función de clasificación
15 1 1 ,985 9 ,873 2,354 ,127 7,231
16 2 2 ,209 9 1.000 12,081 1 ,000 54,873
18
19 ,
2
,,
2 ,826
,918
9
9
1,000
,996
5,100
3,897
,
1
1
,000
,004
,078
28,667
13,709
13,672
Número inicial de casos
20 1 ,563 9 ,922 7,714
1 2
21
22 ,
1
,'" ,441
,846
9
9
;513
,855
8,954
4,868
1
1
,487
,145
8,043
7,394
Leyes inmigración
3
26 2 2 ,266 9 ,831 11,150 1 ,161 15,995 2,632 2,222
Edad 3,530
29
30 ,
2
,
2 ,059
,331
9
9
,999
,883
16,375
10,246
1
1
,001
,117
31,073
13,274 Núm. inmigrantes
,311 ,272 ,197
33 1 ," ,198 9 ,555 12,278
,
1 ,445 11,705
Regularizar inmigrante
10,432 9,859 9,105
35
38 ,
2
,
1" ,210
,997
9
9
,981
,972
12,065
1,476 1
,018
,028
21,075
7,561 Partido racista
6,521
4,409
4,757
5,623
8,477
38
39
1
1
1
1
,375
,827
9
9
,989
,819
9,698
5,078 ,,
3 ,009
,181
20,030
9,112
Casar con marroquí
Estudios
1,779 4,668
3,403
,956
42 1 1 ,586 9 ,855 7,489 ,145 12,060 2,834 3,096
Vecino marroquí 3,909
43
46 ,,
1
,
1 ,227
,414
9
9
,995
,870
11,770
9,253
2
1
,004
,130
21,472
12,028 Inmigrante delincuente
3,562
2,469
10,411 4,492
48
51 , ,,
3 ,990
,540
9
9
,990
,996
2,108
7,942
1

,
1
,010
,004
10,200
17,964
(Constante) -37,284
2,820
-56,367
,378
-33,100
54 1 ,135 9 ,944 13,670 ,056 20,341
Funciones discriminantes lineales de Fisher.
Para los datos onginalas, la dlstancla?e ~ahalano~s ~a d'slancia de Mahalanobis al cuadrado se basa en las observaclonas.
! cuadrado se basa en las funcionas canónicas.

Para los dalos validados mediante validaCión cruza a, I ifica mediante las funciones deriva-
•• Caso mal clasificado. . '1 d I análisis. En la validación cruzada, cada caso se clas
3 La validación cruzada solo se aplica a os casos e
das a partir del resto de fos casos. Como en regresión, Se añade la constante, que resulta del ajuste de las medias grupa-
les. Estos coeficientes se han calculado para que sea máxima la distancia entre los tres gru-
pos. En su estimación sólo han intervenido los casos válidos ("con respuesta").
b Td d de pertenecer al grupo mayor (P[G; g/O; De acuerdo con los datos que figuran en la tabla S, en el grupo 1 la estimación de la fun-
Excepto los casos 5, 21 Y 33, la pro abll a 16 y 18' Y casi plena en los casos 3, 9, ción de clasificación para los casos atiende a los coeficientes siguientes: "2,632 leyes inmi-
d]) pronosticado es muy elevada, Total:n los ca~~~ilidades 'permiten valorar la importancia gración +,311 edad +10,432 n.o inmigrantes +6,521 regularizar inmigrante +4,409 partido ra-
19,20,29,35,36,38,.43,48,51 Y 54. stas pr~Tdad de ertenecer al segundo grupo ma- cista + 1,779 casar con marroquí +2,834 estudios +3,562 vecino marroquí +2,469 inmigrante
de la clasificación erronea. Su su~a a la prob~ I ;obabilicfades P(G ; g/O; d), puede con- delincuente -37,284".
yor es la unidad. De la comparaclon de amba, ps los casos 5, 21 Y 33), que tienen casI la En los otros dos grupos, la estimación de la función de clasificación se hace de la mis-
cluirse que salvo en las tres excepciones refenda ( o 't',cado que al segundo, lo que ha- ma manera. Obsérvese, además, que excepto en la constante, todos los coeficientes san de
.. . al primer grupo pron s
misma probablltdad de pertenencia . " de los veintisiete casos restantes mues- signo positivo. Para cad" caso, en cada grupo, se multiplica cada coeficiente por el valor de la
ce que su clasificación sea menos clara, la aSlgnaclon er al grupo mayor es muy elevada, ha- variable correspondiente. Después, se suman todos los productos y se añade la constante.
tra una elevada idoneidad: la probablltdad de pe:~~~~cer al segundo grupo pronosticado. De esta forma se obtiene la puntuación de clasificación para el caso "m" en el grupo "k" (fkm)'
ciendo prácticamente nula la proba~llldad d~ p robab17idad condicional, puede comprobarse El caso queda finalmente asignado al grupo donde su puntuación de clasificación sea mayor,
Mediante P(D > d/G ; g), tarpblen llama a Pasos localizados lejos del centroide del gru- éste se convierte en el grupo pronosticado.
la significatividad de la probablltdad de que ~s Cite pertenezcan a dicho grupo. En la ta- La probabilidad previa de pertenecer al grupo 1 es del 32,1%; al grupo 2, del 14,6%; yal
po primeramente pronosticado (grupo mayo,) rea men grupo 3, del 53,3%.
396 Análisis multivariable. Teoría y práClica en la investigación socia!
Capitulo 4: Análisis discrim.inante 397

Las puntuaciones discriminantes figuran en las dos últimas columnas de la tabla A. todos los casos excepto .el caso que se clasifica. Quiere esto decir que, cada vez se elimina el
Como son dos las funciones díscriminantes, hay una para cada función. Representan la efecto de .~n c~~o. Pero Incluso en este supuesto de valídación cruzada, la proporción de éxito
posición de cada caso en el eje discriminante definido para dicha función. La puntuación de la c1aslflcaclon es muy elevada, del 88,5%: (446 + 115 + 527) 11.229 = ,8853.
se da para los datos originales y no para los datos validados mediante la validación cru-
zada.
Tabla A Resultados de la calsificaclónB,b
r---
Un mayor detalle de la adecuación del procedimiento de clasificación lo pro-
Grupo de pertenencía pronosticado
porciona la matriz de clasificación. A veces también llamada "matriz de confusión". Co-
mo en el análisis de regresión logística, la matriz de clasificación informa de la pro- Número inic;al
1 2 3 Total
porción de casos que han quedado COlTectamente clasificados, al coincidir su grupo real de casos
con el pronosticado mediante el modelo discriminante obtenido. Estos casos figuran Original Recuento 1 459 2 32 493
en la diagonal de la matriz de clasificación. A esta información se añade la proporción 2 39 119 7 165
de casos mal clasificados, aquellos que han quedado asignados a un grupo distinto al 3 38 1 532 571
que origiuariamente pertenecen. Estos casos "mal" clasificados se sitúan fuera de la dia- % 1 93,1 A 6,5 100,0
gonal. 2 23,6 72,1 4,2 100,0
3 6,7 ,2 93,2 100,0
Validación cruzadac Recuento 1 446 4 43 493
2 43 115 7 165
3
·f-I-----------
43 1 527
~
571
EJEIv1PLODEMA TRIZDECLASIFICACION % 1 90,5 ,8 8,7 100,0
2 26,1 69,7 4,2 100,0
3 7,5 ,2 92,3 100,0
El éxito de la clasificación realizada puede comprobarse calculando la proporción de ca- ,
sos que han sido correctamente clasificados mediante las funciones discriminantes, al b Ctas~f~cados correctamente el 90,3% de los casos agrupados originales.
e ~aSlf:~ad~~ correctame~te el 88,~% de los casos agrupados validados mediante validación cruzada
coincidir el grupo de pertenencia real con el pronosticado. Esta información se considera pri-
mordial en la determinación de la capacidad predictiva de las funciones discriminantes. La ta- me~~~I:~~;f~~~~~~:s ~~~:a~:!,I~C~a~¡~o~e~~:~~ ~~ I~~~~s~~s~n la validación cruzada, cada caso' se clasifica
bla A incluye los resultados de clasificación para la muestra de análisis. En ella puede ob-
seNarse que el porcentaje de casos correctamente clasificados llega a ser del 90,3% de los
casos agrupados originales. Este porcentaje se obtiene de sumar los casos que figuran en
la diagonal principal de la tabla A (coincide el grupo de pertenencia real con el pronosticado), Como además se decidió aplicar el procedimiento de validación que consiste en dividir
dividiéndolo por el número total de casos: (459 + 119 + 532) 11.229 = ,9032. al ,azar la muestra total en dos submuestras (de análisis y de validación), los resultados tam-
Los casos perteneCientes a los grupos 1 y 3 fueron los mejor clasificados: 93,1% Y 93,2%, bien se co~trastan con los obtenidos en la muestra destinada a la validación del modelo dis-
respectivamente. En el grupo 2 el porcentaje de aciertos es inferior. Se reduce a casi tres de criminante. 1.256 casos. Los resultados de la clasificación en dicha submuestra figuran en la
cada cuatro casos originariamente clasificados como "contrarios a la inmigración" (72,1% de los tabla B.
165 pertenecientes al grupo 2 en la muestra de análisis). En la muestra. de validación el éxito de la clasificación fue igualmente sustancial: del 91%
Como el utilizar los mismos casos para estimar los coeficientes discriminantes y para en la muestra ongmal y del 90% en la validación cruzada. Además, en la muestra de validación
clasificar los casos puede producir una valoración demasiado "exitosa" de la clasificación se corroboran los resultados del análisis discriminante hecho en la muestra de análisis Las
lograda con las funciones discriminantes, el programa SPSS proporciona los resultados de n:1sn:a:: nu~~e variables y en el mismo orden mostraron nuevamente ser significativas ~n la
la clasificación para la muestra original y para la validación cruzada. Normalmente, resulta dlscrlmlnaclon de los tres,grupos. Si bien, la primera función logra explicar el 79,6% de la va-
conveniente emplear una muestra para calcular las funciones de clasificación y otra rianza y la segunda funclon el 20,4%, restante. Recuérdese que en la muestra de análisis el
muestra distinta, aunque extraida de la misma población, para estimar la proporción de ca- porcentaje de varianza explicada por la primera función fue sensiblemente inferior (76 2%) (~u-
sos mal clasificados. ~a~~~&l~ , •
El método de validtJción cruzada que aplica el programa SPSS consiste en dejar uno fuera. D~ nu~vo ~on los Casos pertenecientes al grupo 2 los peor clasificados, aunque en una
Cada caso se clasifica en un grupo, según las funciones de clasificación calculadas, considerando magnitud Inferior a la muestra de análisis (véase tabla B).
398 Análisis multivariable. Teorfa y práClica en la investigación social
Capítulo 4: Análisis discriminante 399

Tabla B. Resultados de la ca/siffcacíórfi· b


No obstante, hay que advertir que el cálculo del porcentaje "casual" se hace de es-
ta forma cuando todos los grupos son de igual tamaño; es decir, todos tienen el mismo
Grupo de pertenencia pronosticado
número de casos. Esta situación de igualdad de tamaño muestral en todos los grupos
Número inicial no es muy frecuente en la práctica de la investigación social. Lo habitual es que cada
1 2 3 Total
de casos grupo mclllya un número de casos diferente. Cuando ésta es la situación, la clasifica-
ción "casual" puede determinarse a partir del grupo de mayor tamaño muestral. El cri-
Original Recuento 1 461 2 53 516
2 17 98 1 116
terio que se sigue es el llamado "criterio de casualidad máxima" (Klecka, 1980; Hair
3 40 O 584 624 et al. 1992,1999). Se calcula el porcentaje de casos que representa el grupo de mayor
tamaño respecto a la muestra total. Si, por ejemplo, la muestra total está compuesta de
% 1 89,3 ,4 10,3 100,0
1.200 unidades y en el grupo de mayor tamaño hay 740 unidades, la probabilidad "ca-
2 14,7 84,5 ,9 100,0
3 6,4 ,0 93,6 100,0 sual" (siguiendo el criterio de casualidad máxima) es: 740 /1.200 = 0,617. Este valor se
convierte en el referente en la valoración del porcentaje global de casos correctamente
Validación Recuento 1 456 2 58 516 clasificados. Dicho porcentaje ha de ser mayor de 61,7% para que pueda considerar-
cruzadac 2 17 97 2 116
3 46 O 578 624 se exitosa la clasificación realizada mediante las funciones discriminantes.
Pero, ¿cuánto más ha de ser superior el porcentaje global de casos correctamente
% 1 88,4 ,4 11,2 100,0 clasificados del porcentaje que se esperaría por "casualidad"? Lo deseable es que el
2 14,7 83,6 1,7 100,0
7,4 ,O 92,6 100,0
porcentaje globa! de aciertos sea superior al menos en un 25% a! que se alcanzaría por
3
mera casualidad. Si el porcentaje "casual" fuese, por ejemplo, del 50%, el porcentaje
a Clasificados correctamente e191,O% de los casos agrupados originales. global de aciertos ha de ser superior a! 62,5% para poderse concluir que la clasificación
b Clasificados correctamente el 90,0% de los casos agrupados validados mediante validación cruzada. realizada ha sido un éxito. Para un porcentaje "casual" del 61,7%, el porcentaje glo-
e La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica
mediante las funciones derivadas a partir del resto de los casos. bal de aciertos ha de ser superior al 77,1 %. En caso contrario, no se puede afirmar que
la clasificación obtenida logre explicar las diferencias grupales en mayor proporción
que lo obtenido por mera "casualidad".
Cuando los grupos son de tamaño desigual, puede aplicarse otro criterio alterna-
4.6.2. Criterios para valorar el éxito de la clasificación tivo. Se trata del llamado "criterio de oportunidad proporcional" (Hair et al., 1992;
1999). Este último criterio no se restringe sólo al número de casos incluidos en el gru-
El porcentaje global de casos correctamente clasificados suele tomarse como in- po de mayor tamaño. En él participan todos los grupos:
dicador del éxito de la clasificación. Aunque, para valorar correctamente dicho por-
centaje, hay que contrastarlo con el "porcentaje esperado" de clasificacióu correcta, si C pm = p' + (1 _ p)'
la asignación se hubiese realizado al azar. Es decir, el porcentaje que podría clasificarse
correctamente por casnalidad, sin la ayuda de la función discriminante. Este por-
centaje "casual" se obtiene del cociente entre uno y el número de grupos ("g"): Siendo: "p" la proporción de casos en el grupo 1.
"1 - p" la proporción de casos en el grupo 2.

Este criterio de casualidad u oportunidad proporcional se aplica, preferentemen-


te, cuando se sigue un procedimiento de validación de las funciones discriminantes que
consiste en la división de la muestra total en dos submuestras: una, la muestra de "aná-
Esta cantidad está determinada por el número de grupos. A medida que éstos an- lisis"; y dos, la muestra de "validación". Además, se recomienda que las proporciones
mentan en número, disminuye el porcentaje "casual". ASÍ, por ejemplo, cuando exis- se calculen en la muestra no empleada para derivar las funciones discriminantes (en la
ten dos grupos, el porcentaje de clasificados correctamente por "casualidad" es el 50%; muestra de validación), si quiere tomarse dicha proporción como indicador de la
para tres grupos, desciende a 33%; y para cuatro grupos, hasta el 25%. Para que la cla- efectividad de las funciones discriminantes en la clasificación.
sificación pueda considerarse 'exitosa se exige que el porcentaje total de casos co- Una medida estandarizada de la mejora, indistintamente del número de grupos exis-
rrectamente clasificados sea superior al porcentaje "casual". tente, la ofrece el estadístico de error "tau" (Klecka, 1980). Al igual que los criterios an-
Capítulo 4: Análisis discrirnínante 401
400 Análisis multivariabLe. Teoría y práctica en la investigación social

teriores, éste también considera el número de casos que estarían correctamente clasifi- n~uest~a,se incrementa l~ probabilidad de que la clasificación sea estadísticamente sig-
cado por asignación aleatoria a los grupos, en proporción a las probabilidades previas: mfIcatIva). Por esta razon, es convemente no limitarse exclusivamente a pruebas de
sIgmfIcatIvId~d bas~das en la dIstnbucIón X2, sino complementarlas con otras ycom-
K pIObar en que medIda sus resultados coinciden.
nc - LP/l; . Un estadístico ~:ternativo en la comprobación de la significatividad del procedi-
¡",l
tau = m;ento de c!asIficacIon es el est~dístico "t". En el análisis discriminante, y para este pro-
pOSItO concreto, se defme medIante el cociente siguiente:

t = P- ' 5
Donde: "n/' es el número de casos correctamente clasificados. ~' 5(1;;,~}
"p," es la probabilidad previa de pertenencia grupal. Si los grupos han de
tratarse de igual manera, todas las probabilidades previas se fijan en "lIg"
(siendo "g" el número de grupos habidos).
Donde: "p" es la proporción de casos correctamente clasificados.
"N" el tamaño muestral global.
El rango de valores posibles de tau va de 0,0 (que expresa inexistencia de mejora)
a 1,0. Este último valor indica que se ha alcanzado una clasificación muy buena con las La aplicación de este estadístico de comprobación se halla, no obstante, limitada
variables de discriminación. Mediante las funciones discriminantes derivadas se ha lo- a ~n analrsIs dIscnmmante de dos grupos y de igual tamaño. Para un análisis discri-
grado reducir en un 100% los errores que se esperarían mediante la asignación alea- mmante de tres o. más grupos y en aquellos de distinto tamaño grupal hay que acudir
toria. También pueden darse valores de tau negativos. Estos expresan inexistencia de a otros procedImIentos alternativos.
diferencias grupales.
La comprobación del poder discriminatorio de la matriz de clasificación, con res-
pecto a la que se hubiera obtenido por mera casualidad, también puede hacerse con la
ayuda del estadístico Q de Press. En él se relaciona el número de clasificaciones co-
,< ...•..••.• , . . < _ / . . .....'. . . •. < . <
_ . . . EJEN/PLOPEAPLICACIONDEiCF1ITERlOSALTERNATIV()S
rrectas con el tamaño muestral total y el número de grupos habidos: ENLAVALQRACl9N:9EiL.ÉXITODELlNACi!·SIFICA.Cf()N ..••....¡ - - - - - -

Q=[N-(nx g )]'
Par~ valorar de forma más precisa el éxito de la clasificación, se procede a la realización
N(g -1) de los calculas siguientes a partir de la matriz de clasificación (subapartado 4.6.1):

Donde: "N" es el tamaño de la muestra total. A. El porcentaje esperado de clasificación correcta, si la asignación se hubiese realizado
"n" el número de observaciones correctamente clasificadas. ~I azar: .el porcentaje "casual". Al ser los tres grupos diferenciados de distinto tama-

"g" el número de grupos. no, el calculo del porcentaje de casos que podrían clasificarse correctamente por ca-
su~J¡dad, Sin la ayuda de las funciones discriminantes, sigue el "criterio de casualidad
maxlma".
El valor empírico de Q, obtenido mediante dicha fórmula, se compara con el co-
Como '". muestra de análisis total está compuesta por 1.229 casos y el grupo de
rrespondiente valor teórico. Para lo cual se toma la distribución i'- con 1 grado de li- mayor tamano (el grupo 3) está integrado por 571 casos, la probabilidad casual (apli-
bertad y un determinado nivel de significación (,05, ,01 u otro). Si el valor Q empírico cando el cnteno de casualidad máxima) es: 571 / 1.229 = ,4646. Éste es el valor que
excede al correspondiente valor X2 teórico, puede concluirse que la clasificación realizada se t?ma como. referente en la valoración del éxito de la clasificación. La clasificación
es significativa estadísticamente. Es decir, es significativamente mejor que la obteni- ;,eahza~~ medlant8.las fu,!cí~nes discriminantes ha de alcanzar un "éxito" superior al
da por mera casualidad. Los resultados son inferibles al universo o población del que 46,4610 (porcentaje que indica los casos correctamente clasificados por casualidad).
procede la muestra. Recuerdese que en la muestra de análisis original los casos correctamente clasificados
Hay que insistir, sin embargo, en la conveniencia de aplicar más de un criterio en superan bastante ~icho porcentaje: el 90,3% de los casos agrupados originales. Es-
la valoración del éxÍto de la clasificación. Recuérdese qne la distribnción X2 se halla te porce~tale se sltua muy por encima de la cantidad mínima comúnmente tomada de
positivamente afectada por el tamaño muestral (conforme aumenta el tamaño de la referencia de un 25% mayor del porcentaje obtenido por mera casualidad (en este ca-
402 Análisis multivariable. Teoría y práctica en la investigación sociaL CapituLo 4: Análisis discriminante 403

so el referente está en 58,1%: un 25% por encima de 46,46%). Lo que vuelve a co- Como era de esperar, por el elevado tamaño muestral, el valor Q es muy alto. Se
rroborar el éxito de la clasificación mediante las funciones discriminantes. sitúa a gran distancia del correspondiente valor teórico, a un nivel de significación in-
B. El criterio de casualidad proporcional. Este segundo criterio no se restringe al número cluso del ,01: 6,635 (distribución X2 con un grado de libertad). Su resultado permite
de casos incluidos en el grupo de mayor tamaño, como sucede en el criterio de ca- concluir que la clasificación realizada tiene significación estadística. Es mejor que la
sualidad máxima (el porcentaje de aciertos si los casos se asignan al grupo con la ma- obtenida por mera casualidad.
yor probabilidad de ocurrenCia). El cálculo de la casualidad proporcional supone ele-
var al cuadrado la proporción que representa cada grupo respecto a la muestra El cálculo del estadístico t se ha descartado por tratarse de un análisis discriminan-
total: te de tres grupos y de tamaño desigual.

Cpro =pi + pi + pj = ,401 2 + ,1342 + ,4652 = ,395


4.7. Interpretación de los resultados
Pero, cuando se ha procedido a la división aleatoria de la muestra total en dos
submuestras (de análisis y de validación), como procedimiento de validación de las
funciones discriminantes, se recomienda calcular las proporciones de casualidad Comprobada la significatividad y el poder discriminatorio de las funciones dis-
proporcional en la muestra de validación (la no utilizada en la estimación de las fun- criminantes, corresponde la interpretación de los resultados. Básicamente, la inter-
ciones discriminantes). Ello favorece que dicha proporción se convierta en un in- pretación incluye:
dicador útil en la comprobación de la efectividad de las funciones discriminantes
para la clasificación de los casos. En la muestra de validación, la casualidad a) La descripción de las funciones discriminantes, destacando el poder discrimi-
proporcional es: natorio de las variables que la forman. Para ello se acude a tres estadísticos prin-
cipales:

- Los coeficientes estandarizados de las funciones discriminantes canónicas.


Se constata que el porcentaje requerido es incluso superior en la muestra de va- Las correlaciones de estructura discriminantes.
lidación que en la muestra de análisis. Pero, aún utilizándose el calculado en la mues-
tra de validación, el porcentaje de aciertos es del 90,3% en la muestra de análisis y Los valores F parcial es.
del 91,0% en la muestra de validación. Cantidades ambas que superan bastante al re-
ferente de casualidad proporcional (42,4%). De nuevo se corrobora el éxito de la cla- b) El examen de las medias grupales (o centroides) en relación con las funciones dis-
sificación mediante las funciones discriminantes derivadas. criminantes. La finalidad es obtener una visión global de las diferencias grupales
C. Cálculo de tau para comprobar qué porcentaje de error logra reducirse con la apli- respecto a las funciones obtenidas. La representación gráfica del modelo dis-
cación de las funcione,s discriminantes respecto al que se esperaría con la asignación criminante es de gran utilidad para este propósito.
aleatoria. En la muestra de análisis original su valor es el siguiente:
En el análisis discriminante, como en el análisis factorial, previo a la interpretación
resulta conveniente la rotación, en este caso de las funciones discriminantes. La rota-
n, - tp¡n¡ 1.110 - [(,401)(493) + (,134)(165) + (,465)(571)] ción (como se verá en el capítulo 5) ocasiona una redistribución de la varianza que fa-
tau = ----'-'-'--- = =,8399 cilita la interpretación de las funciones discriminantes. Los ejes de las funciones dis-
N _ !,p¡n¡ 1.229 - [(,401)(493) + (,134)(165) + (,465)(571)] criminantes se desplazan a una posición más significativa. Esto incide en que los
¡"'1 valores absolutos de los pesos o coeficientes discriminantes estandarizados y los co-
rrespondientes a los "discriminant Ioadings" o correlaciones de estructura discriminante
Los errores esperados mediante la asignación aleatoria logran reducirse en un se sitúen (tras la rotación) próximos a los valores extremos (0,0 y 1,0).
84% con el uso de las funciones discriminantes. La rotación fuerza a las variables predictoras a definirse más en una función dis-
criminante que en otra, con lo que se obtiene una mayor diferenciación entre las fun-
D. El estadístico Q de Press ciones discriminantes. Éstas logran, de este modo, un perfil más definido, integrado
por variables que se han decantado preferentemente por una función. La aportación
[N - (n x g)]2 [1.229 - (1.110 x 3)]2 de la variable a la función aumenta y ello sin alterar la estructura global del mode-
Q= = = 1.795 85 lo discriminante. El poder discriminatorio total del modelo no varía, ni la posición
N(g - 1) 1.229(3 - 1) ,
404 Anúlis¿" multivariable. Teoría y próctica en La investigación sociaL Capítulo 4: Análisis discriminante 405

relativa de los grupos. Lo que queda más definida es la aportación relativa de cada "factor loadings" (subapartado 5.6.2). El rango de valores va de -1,0 a +1,0. Cuanto
variable a la diferenciación entre los grupos. La rotación y sus distintas variedades más se aproxime el valor a ±1,0, mayor es la contribución de la variable a la función.
se trata en el subapartado 5.6.1, a cuya lectura se remite. Aquí sólo indicar que en el En general se considera relevante todo valor 2: ,30, indistintamente de su signo. Como
análisis discriminante el procedimiento de rotación más aplicado es varimax por ser su cuantía expresa la correlación lineal existente entre cada variable independiente y
la variedad más relacionada con la finalidad principal del análisis: la obtención de cada función discriminante, también se les Barna ('correlaciones de estructura)) (o
funciones discriminantes que maximicen las diferencias entre los grup6s definidos a correlaciones intra-grupo combinadas entre las variables y las funciones discrimi-
priori. nantes canónicas tipificadas). Su cuadrado proporciona el porcentaje de varianza
que la variable independiente comparte con la función discriminante. Y, como en el
análisis factorial, el conocimiento del peso relativo de cada variable en cada función
4.7.1. Las tablas de resultados ayuda en la búsqueda de un nombre para la función, si se desea. Los datos de la ma-
triz de estructura ya se describieron en el subapartado 4.5.2.
Las tablas de resultados incluyen, como su nombre indica, los resultados principales Los valores F parciales igualmente se aplican en el análisis discriminante para gra-
del análisis discriminante. Primero aparece la matriz de tranóformación, tras haberse duar el poder discriminatorio relativo de las variables, además d" su significatividad.
realizado la rotación (preferentemente mediante el procedimiento varimax). En esta Cuanto más elevado sea su valor, mayor es el poder discriminante de la variable y más
matriz destaca el porcentaje de varianza explicada de la variable dependiente que aho- probable es que sea significativo estadísticamente. El protagonismo de este estadístico
ra corresponde a cada función. es, no obstante, mayor cuando se aplica un procedimiento de selección de variables in-
Después, sigue la información referente a la relacióu que existe entre cada varia- dependientes secuencial, como se expuso en el subapartado 4.5.3.
ble independiente con las funciones discriminantes. Esta información es de interés pa- Los índices de potencialidad ofrecen nna medida alternativa de resumen de la con-
ra conocer qué combinación de variables forma cada función discriminante y cuál es tribución de cada variable en cada función discriminante. Aunque su valor absoluto no
su contribución a la función. tiene ningún significado real, permite conocer la posición relativa de cada variable en
Los pesos O coeficientes estandarizados de las funciones discriminantes canónicas cada función (Hair et al., 1992; 1999). Ello se debe a que en su cálculo intervienen los
se dan sólo para las variables independientes que hayan mostrado poder discrimina- coeficientes de estructura discriminantes O "discriminant loadings" (que cuantifican la
torio significativo en alguna función discriminante. Estos coeficientes discriminantes ya aportación de cada variable en cada función) y los autovalores relativos (que expresan
fueron descritos en el subapartado 4.5.2. Sólo insistir en que de ellos se interpreta tan- la contribución relativa de la función a la solución global). Estos autovalores relativos
to su cuantía como su signo. Su interpretación es similar a los coeficientes beta en el de las funciones discriminantes se obtienen dividiendo el autovalor correspondiente a
análisis de regresión lineal. la función discriminante entre la suma total de los autovalores de todas las funciones
discriminantes significativas.
Su cuantía expresa la contribnción relativa de cada variable con poder discri- En cada función discriminante significativa se calcula un índice de potencialidad pa-
minatorio en cada función. Al tratarse de coeficientes estandarizados, el rango ra cada variable independiente. Para lo cual se multiplica el cuadrado del coeficiente
de valores va de -1,0 a +1,0. Cuanto más se aproxime el valor a ±1,0, mayor es de estructura de la variable en la función por el autovalor relativo correspondiente a la
la contribución de la variable a la diferenciación entre los grupos. Un coeficiente función.
bajo, próximo a 0,0, puede deberse bien a que la aportación de la variable a la
discriminación es ItÚnima, bien a que se halla muy relacionada con otra (u
otras) variables predictoras incluidas en el modelo discriminante (multicolinea- Potencialidad de la variable i Autovalor relativo de la
en una función := (Coeficiente de estructuraf x función discriminante
lidad).
El signo (positivo o negativo) muestra la dirección de la relación de la variable
con la función: positiva o negativa.
Siendo el autovalor relativo de la función = autovalor de la función / suma de to-
La contribución de cada variable independiente en cada función discriminante tam- dos los autovalores de las funciones discriminantes significativas.
bién puede cnantificarse con los "discriminant loadings" O coeficientes de estructura. Es- Si se suman todos los índices de potencialidad de cada variable en todas las fun-
tos coeficientes suelen ser menos estables que los pesos discriminantes y, a diferencia ciones discriminantes, se obtiene el índice de potencialidad compuesto. Como medida
de estos últimos, se calculan para todas las variables independientes, hayan o no de síntesis, este último índice representa el efecto discriminatorio total de cada variable
mostrado relevancia en la diferenciación grupal. Se interpretan de forma análoga a los en el conjunto de las funciones discriminantes significativas.
Capítulo 4: Análisis discriminante 407
406 Análisis multivariable. Teoría y práctica en la investigación social

marraque' (,2612) Y "edad" (,1106). Las variables menos importanles son, en cambio, las tres
EJEMPLO DEíNDICES DEPQTENCIALlDAD SIMPLES y COMPUESTOS siguientes: "sexo" (,0035), "ideología política" (,00389) e "ingresos" (,0046).
La aportación de las variables sigue, en general, siendo mayor en la función 1 que res-
pecto a la función 2, a decir por los índices de potencialidad simples.
. , . d' cr."minantes canónicas y los coe-
Como los coeficientes estandanzados de las ¡uncIOnes fS 1
ficientes de estructura ya se describieron en el subapartado 4.5.2, al igual que el ~sdode los
. '1 t oner el cálculo de los In Ices de
valores F parciales (en el subapartado 4,5.3), so o res a exp . . ., d I
, . , . b'
potencialidad simples y compuestos. Estos tam len con I. tr'buyen a la cuantlflcaclon e a con- Una vez que se conocen las variables predictoras que forman cada función dis-
tribución de cada variable en cada función discriminante. . J'd d t criminante y la aportación de cada una de ellas a la diferenciación entre los grupos, se
Cuando el programa estadístico no proporcione los valores de potencia la, es os ~a- puede proceder a perfilar las características de los grupos. El conocimiento de las me-
. . d d d I eficiente de estructura de la vana- dias grupales de cada variable en cada función ayuda en el trazado del perfil grupal.
lores pueden calcularse multiplicando el cua ra o e ca . I '1 I
.. d'Iscrtmman
ble por el autovalor relativo de la funclon .. te respect'lva . La tabla ,A. Ilustra e ca cu o Respecto a las medias grupales, que representan la media de las puntuaciones dis-
de los índices de potencialidad simples y compuestos en el ejemplo aqUl Ilustrado. criminantes de todos los casos clasificados en cada grupo en las variables que les de-
finen, interesa conocer su valor respecto a cada función. Ello permite descubrir entre
Tabla A Cálculo de los índices de potencialidad
qué grupos diferencia la combinación lineal de variables que forman cada funci6n dis-
Función discriminante 2
Función discriminante 1 criminante.
Cuadrado índice índice
Cuadrado índice coel. de coel. de Autovalor potencia potencia
Variables Coel. de coel. de Autovalor potencía relativd' simple/'
reJativcr simpleb estruc!. estruct. comp.c
estruct. estruct.
,535 ,2862 ,2383 ,0682 ,3891
Vecino ,649 ,4212 ,7618 ,3209
marroquí ,2383 ,0171 ,2612
Casar con ,7618 ,2441 ,268 ,0718
,566 ,3204
marroquí ,2383 ,0007 ,0862
Partido racista ,335 ,1122 ,7618 ,0855 ,053 ,0028
,0018 ,2383 ,0004 ,0736
Regularizar ,0961 ,7618 ,0732 ,043
-.310 Una vez medida la aportación de cada variable en cada función, procede comprobar en-
inmigrante ,000004 ,0709
Simpatía -,305 ,0930 ,7618 ,0709 -,008 ,00006 ,2383 tre qué grupos discrimina cada función. Para ello se calculan las medias grupales (o cen-
marroquí
,2383 ,0174 ,0828 troides) respeclo a cada función (tabla A).
Inmigrante ,0858 ,7618 ,0654 -,270 ,0729
,293
delincuente ,0179 ,0789
,0610 ,274 ,0751 ,2383 Tabla A. Funciones en los centroides de los grupos
Leyes -,283 ,0801 ,7618
inmigración ,0027 ,0534
-,106 ,0112 ,2383
Entrada ,258 ,0666 ,7618 ,0507 Función
inmigrante ,0622 ,1106
-,511 ,2611 ,2383
Edad ,252 ,0635 ,7618 ,0484 ,0438 ,1031 Número inicial de casos
,429 ,1840 ,2383
Estudios -,279 ,0778 ,7618 ,0593 ,0206 ,0770
,0564 -,294 ,0864 ,2383 1 2
N.O inmigrantes ,272 ,0740 ,7618 ,0040 ,0046
,0006 ,130 ,0169 .2383
Ingresos -,027 ,0007 ,7618 ,00299 ,0039
,0009 -,112 ,0125 ,2383
Ideología ,035 ,0012 ,7618
politica ,0027 ,0035 1 ,470 -1,453
,0008 -,106 ,0112 ,2383
Sexo ,032 ,0010 ,7618
2 3,908 1,102
< d' ·d· d por la suma de los auto va/ores de t07 3 -1,356 ,570
a Elautova/orrelativoesetautovalordelafuncióndiscrimmante ¡V~(l 0 1036)- 7618 Para la función 2".
das las funciones significativas. para la función 1 es igual a: 3,314 3!31 4 +, ·d- d .
1,036/(3,314 + 1,036) =: ,2382. La suma de los dos autovalores relativos es la Un! a . Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los
b '{alor de potencialidad de la variable j en la función. .. . /"d d simples de cada variable en grupos.
Indice de potenCialidad compuesto: la suma de todos los mdICes de potencia l a .
ambas funciones.

La comparación de los centroides permite conocer entre qué grupos diferencia cada
I I variables que más dis- combinación lineal de variables que forma cada función discriminante. Respecto a la fun-
De acuerdo con el índice de potencialidad compuesto, as res d I la in-
. . . . ( . . d r su actitud declara a an e ción 1, el centroide para el grupo 1 es ,470; para el grupo 2, 3,908; Y para el grupo 3,
cnmtnan entre los tres grupos de SUjetos diferencia o~ po. "' 3891 "casar con
migración) son, por orden de importancia, las vanables: 'vectno marroqul (, ), -1,356. Esto significa que la primera función, compuesta por la combinación de variables
408 Análisis mu/úvariable, Teoría y práctico en la inve-'i'ligaóón social
Capfut!o 4: Análisis discriminante 409

que más contribuye a la diferenciación grupal (subapartado 4.5.2), diferencia al grupo 3 correspondie?tes ~ la transformación de las variables y los centroides grupales para su
respecto a los grupos 1 y 2. En cambio, la función 2 distingue al grupo 1 (cuyo centroide representaclOn graflca en vectores.
en dicha función es -1,453) de los grupos 2 (1,102) Y 3 (,570).

. .

4.7.2. Representaciones gráficas - EJEMPLO DE TRANSFORMACIÓNDE VARIABLES Y.CENTROIDES


. PARA SU REPRESENTACIÓN GRÁFICA EN FORMA DE VECTORES
. '. .
Existen distintas opciones gráficas para representar la solución del análisis discri-
minante. Entre las opciones más populares destacan el gráfico de sectores, los mapas te-
. Los cen/roides de losdistinto~ grupos pueden representarse en un gráfico de ejes car-
rritoriales, el diagrama de dispersión total y el histograma de puntuaciones discrinúnantes. tes¡an~s donde cada funclOn dlscnmmante se sitúa en Un eje cartesiano, a modo del gráfico
A. En el se representan los. ~entroides de los tres grupos (subapartado 4.7.1) en el espacio
discriminante. La comparaclon de sus valores respectivos muestra la distancia de los grupos
A) Gráfico de vectores respecto a la dlmenmon que se comprueba, además de indicar entre qué grupos diferencia
cada función dlscrlmmante obtenrda. La figura A muestra que la combinación lineal de va-
Cuando existen sólo dos funciones discriminantes, una opción sencilla para ilustrar el nables q~e forma la función discriminante 1 diferencia al grupo 3 respecto a los grupos 1 y 2.
modelo discriminante la ofre~e el gráfico de vectores. En él se representan las variables La tunclan dlscrlmmante 2 distingue, en cambio, al grupo 1 respecto a los grupos 3 y 2.
"discriminantes" (en forma de vectores) y los centroides de cada grupo en un gráfico de
ejes cartesianos, donde cada eje corresponde a una de las funciones discriminantes. Función 2
El gráfico inclnye tanto los centroides grupales como el "gran centroide" (o "cen-
3
troide global"). Este último es la media global qne, al estar los centroides expresados
en puntuaciones Z, es igual a O. Los centroides grupales se representan respecto al 2
"gran centroide", como el número de nnidades de desviación típica en que cada gru-
'" centroide
po se sitúa lejos del "centroide global". grupo 2 (3,908, 1,102)
centroide grupo 3 (-1 ,35::.6,,:::,::57:.:0~)-::-~---:-_l-_ __
Desde el "gran centroide" se dibuja una flecha para cada una de las variables dis-
3 -2 -1 2--3- Función 1
criminantes. La longitud de la flecha indica la importancia relativa de la variable en la di- -1
ferenciación entre los grupos. Para la transformación de las variables en vectores se mul- * centroide grupo 1 (,470, -1.453)
tiplica el coeficiente de estructura de la variable (preferiblemente "rotado") en la -2
función por la razón F univariada dc la variable (que mide la significatividad de la va-
riable en la diferenciación entre los grupos). Las variables que no hayan mostrado un po- -3
der discriminatorio significativo no se representan en el espacio discriminante "reduci-
do". Se dice que el espacio discriminante es "reducido" -véase Hair el al. (1992; 1999)-
Figura A. Gráfico de los centroides grupales en el espacio discriminante.
porque sólo incluye nna parte de la variabilidad de las funciones discriminantes.
Para que los centroides pnedan representarse adecuadamente en el mismo gráfi- . Para la representación de las variables en el espacio discriminante reducido (porque só-
co, también se procede, previamente, a su "estiramiento". Ello exige multiplicar cada lo Incluye la, vanablhdad explicada por las funciones que se han derivado), puede seguirse la
centroide grupal por el valor F aproximado que corresponde a la función. Estos valores aproxlmaclon considerada más adecuada de "extender los vectores" (Halr et al., 1992;
F aproximados se obtienen del siguiente producto: 1999) .. La~ vanables se transforman en vectores, cuya longitud indica su contribución a la di-
ferenclaclon de los grupos. Dicha transformación lleva a la obtención de las coordenadas del
Autovalor Tamaño muestra de análisis - Número de grupos espacIo discriminante ,:,ultlplrcando el coefi~iente de estructura (preferiblemente rotado)
x de la vanable por su ;azon F umvanada. Los calculos figuran en la tabla A. En dicha tabla pue-
de la función Número de grupos - 1
de obser;arse que solo se c~lculan las coordenadas correspondientes a las variables que con-
tnbuyen significativamente a la diferenciación de los grupos. También incluye los cálculos
El ejemplo que sigue a contínuación incluye, además del gráfico de los centroides
de !~s coo~denadas del espacio discriminante reducido de los centroides para su represen-
grupales y de las variables discriminantes, los datos necesarios para sn realización: los taclon conjunta en el mismo gráfico.
410 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 4: Análisis discriminante 411

Tabla. A. Transformación de las variables y de los centroides grupales para Su representación

¡--:riableS
conjunta en el espado discriminante reducido

Funcfói11
-
Coeficientes de estructuréF

Función 2
Razón F univariada b
Coordenadas del espacio
discriminantec

Función 1 Función 2
r- Fundón 2

200 (
180,
160
~
*
centroide grupo 2
X13 vecino marroquí ,649* ,535 303,454 196,94 162,35
140 X"
X4 edad ,252 -,511~ 86,391 21,77 -44,15
X10 casar con marroquí ,566* ,268 203,712 115,30 54,59 120
X1 leyes de inmigración -,283* ,274 61,570 -17,42 16,87 * centroide grupo 3 100
X l1 estudios -,279 ,429' 80,718 -22,52 34,62
18,95 -17.46 80
~4 inmigrante delinc. ,293' -,270 64,682
X7 regularizar inmigrante -,310' ,043 57,343 -17,78 2,47
Xij n. <> inmigrantes ,272 -,294~ 60,216 16,38 -17,70
Xg partido racista ,335~ ,053 67,483 22,61 3,58
.:c,. X,
Coordenadas del espacio -180 -140 -100 -60
Centros de los grupos Valor F aproximadod discriminante<' -200 -160 -120 -80 60 100 140 180
40 80 120 160 200 Función 1
Grupo
Función 2
X"
Función 1 Función 2 Función 1 Función 2 Función 1 -40
-60
X,
1 ,470 -1,453 594,863 185,96 279,59 -270,20
-60
2 3,908 1,102 594,863 185,96 2324,72 204,93
3 -1,356 ,570 594,863 185,96 -806,63 106,0 -100
-120
a Coeficientes de estructura tomados de la matriz de estructura (SUbapartado 4.5.2). -140
b Razones F univadadas de las pruebas de igualdad de las medias de los grupos (SUbapartado 4.4.2). -160
e Las coordenadas de cada variable en cada función se han obtenido multiplicando el coeficiente de estructura -180
de cada variable (en cada función) por la razón F univariada correspondiente. -200
d Los valores F aproximados para cada función discriminante se obtienen del producto siguiente:

*
Autovalor
de la función
x Tamaño muestra de análisis - Número de grupos
Número de grupos - 1 ( centroide grupo 1

362-3 362-3
Para la función 1: 3,314 x - - - - = 594,863. Para la función 2: 1,036 x - - - = 185,96. Figura B, Gráfico de vectores de atributos extendidos en el espacio discriminante reducido.
3-1 3-1
Las coordenadas del espacio discriminante se calculan multiplicando los centros de los grupos de cada fun-
ción por su valor F aproximado. Para el grupo 1, por ejemplo, la coordenada del espacio discriminante de la
función 1 es igual a ,470 x 594,863 = 279,59.
d Lo.s ~~c;ores tambié~ indican los grupos que presentan las medias más elevadas en ca-
a varia e s¡gnlficativa. Así, puede observarse que las variables X (la situada más ró-
;,ma) ~ centrolde; del grupo) y X10, seguidas a distancia de la variable X. (no incluida en el ~rá-
'3
A partir de la tabla A se obtiene la figura B, que incluye tanto los centroides como las ICO, eflnen mas a los Integrantes del grupo 2 Las variables X X Y X t' _
a lo . b d I ' 4' 14 6 carac erizan mas
variables que han mostrado relevancia en la diferenciación de los grupos. Como la longitud s mlem ros ~ grupo .1. al ser sus medias más elevadas en dicho grupo. Mientras que el
de los vectores expresa la importancia relativa de las variables en la discriminación, pue- grupo 3 qued~ mas defl~l~o por las variables X" X y Xl' Si bien, los vectores de estas úl-
timas seis variables se sltua~, a diferencia de los dos primeros, a bastante distancia de los
'1
de concluirse que las variables X 13 ("vecino marroque') y X ("casar con marroquí"), se-
'0
guidas a distancia por las variables X 4 ("edad") y X ("estudios"), son las que más dis- centras de sus grupos respectivos (grupo 1 y 3), siendo su contribución a la diferenciación gru-
criminan entre los tres grupos diferenciados. "En cambio, es mínimo, aunque pal menor.
estadísticamente significativo. el efecto en la diferenciación grupal de las variables X 7 ("re- La ligura B muestra de nuevo que la primera función (la combinación lineal de variables
gularizar inmigrante") y _Xg ("partido racista"), como muestra la pequeña longitud de sus vec- que mas diSCrimina entre los grupos) diferencia a los integrantes del grupo 3 respecto a los
tores respectivos (figura B). Adviértase que la figura sólo incluye las seis variables miembros de los grupos 1 y 2. La función 2, por el contrario, distingue a los integrantes del
más "discriminantes' para evitar problemas de solapamiento en los vectores de menor lon- grupo 1 de los otros dos.
gitud.
412 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 4: Análisis discriminante 41.3

B) Los mapas territoriales Mapa territorial


Discriminante canónica
Función 2
Las puntuaciones discriminantes de cada caso observado y los centroides grupales -6,0 -4,0 -2,0 ,o 2,0 4,0 6,0
pueden también representarse de forma conjunta mediante un mapa territorial. En es- .L

te gráfico, las líneas rectas que separan los grupos representan las líneas fronterizas que 6,0 l' , I I
32
, , I_

separan cada "territorio" grupal. Los casos se identifican mediante su número grupal. 32
Cuando varios casos caen en la misma localización, sólo se imprime el símbolo del úl- 32
32
timo caso.
32
Todo caso que se ubique fuera de los límites de su grupo estará mal clasificado. Por 32
está razón, cuantos más casos caigan fuera del territorio de su grupo original, más dé- 4,0
+ + -1- 32
32
+ +
bil es la discriminación realizada por las funciones discriminantes.
32
Este gráfico también muestra mayor adecuación a la situación de una o dos fun- 32
ciones discriminantes. La existencia de más de dos funciones complica su represen- 32
tación gráfica. 32
2,0 -1- + -1- 32 +
32 +
32
C) Diagrama de dispersión total 32
• 331 122 •
311 112
Una tercera alternativa gráfica en la visualización de la disposición de los gru-
pos y sus respectivos centroides la ofrece el diagrama de dispersión total. En él, el eje
,o + + + 331
3311
+'2
12 +
3311 122
de abscisas representa la primera función y el eje de ordenadas la segunda, si son dos
3311 112
las funCÍones derivadas. Situación ésta que igualmente facilita la realización del grá-
fico.
3311
3311
• 12
12
-2,0
+ 1'"
331
+ + 12j-
122
3311
112
3311
12
3311

~ TERRITORlA~
12
3311
EJf'MPLO DE MAPA 122
-4,0 - 311
331
-1- + + + 112
12
3311
12
El gráfico a continuación corresponde al mapa territorial de los tres grupos diferenciados 3311
12
respecto a las dos funciones discriminantes. El mapa delimita en el plano de las dps funciones 3311
3311 1
las áreas que se asignan a cada grupo. Las áreas quedan definidas por los números que iden-
tifican al grupo. Éstos representan las fronteras entre los grupos. A la derecha del número 2 -6,0-:," I I
se ubican los integrantes del grupo 2; a la izquierda del número 3, los pertenecientes a dicho ~-+--~--~---~~--~
-6,0 -4,0
I
-2,0 ,O 2,0
grupo; y entre ambos se localiza el grupo 1. Lo que significa que los grupos polares son el2 4,0 6,0
Función discriminante canónica 1
(los "reacios" a la inmigración) y el 3 (los '~avorables"). Los integrantes del grupo 1 se sitúan
entre ambos extremos. . Símbolos usados en el mapa territorial
El gráfico muestra que ambas funciones discriminantes contribuyen a la separación de Símbolo Grupo "E"'tig"u"e"'ta"--_ __
los grupos. En él también puede verse que los valores de cada caso en ambas funciones son 1 1
importantes para su clasificación. Por ejemplo, un caso con un valor de +2,0 en la función dis- 2 2
criminante canónica 1 .$erá clasific;:ado en el grupo 1, si su valor en la función 2 es negativo. 3 3
Si es positivo, queda asignado al grupo 2. Indica un centroide de grupo
Capítulo 4: Análisis discriminante 415
414 Análisis multivariable. Teoría y práctica en la investigación social

pos en la solución discriminante), que indican el grupo en el que están clasificados. Las
ales mediante un asterisco, o un
"d
filas de números debajo del eje de abscisas expresan a qué puntuaciones grupales se
En él también se representan los centrol es grup, d' te (1 2 3) Ca-
dI' e 'dentifica al grupo correspon ¡en ,,' asignan los casos. Esto permite comprobar qué casos clasificados en un grupo caen en
cuadrado acompañado e numero qu 1 de dis ersión el solapamiento también
mo en el mapa terntonal, en el diagrama P de se está ante una dé- la región de clasificación del otro grupo: todo aquel que se encuentre en el espacio de-
d d e aproximan Cuando esto suce , limitado del otro grupo en esa última fila referida por debajo del eje de abscisas. En ca-
puede verse cuan o os grupos s . d' te las funciones. discriminantes ob-
bí! clasificacÍón de los casOS en los grupos me lan da gráfico también se indican los centroides grupales respectivos.
tenidas. La realización de un histograma conjunto de todos los grupos permite comprobar
los solapamientos entre los grupos. Cuando éstos existan, el gráfico está indicando que
se han producido errores de clasificación en el grupo donde exista solapamiento.
Recuérdese que esta información también la ofrecen los otros dos últimos gráficos
(principales en las últimas versiones del programa SPSS) , Lo cual hace que no sea ne-
cesaria la realización del histograma, cuando previamente ya se han realizado los otros
gráficos.
Funciones discriminantes canónicas
6
4.8. Validación del modelo discriminante
4 t:t "","O ea
080 0
o o Aunque en el subapartado 4.6.3 se resumen los criterios principales aplicados
oooo<t:c,;;,'t
2 oo-."",~,ooo ~ a <b en la valoración del éxito de la clasificación, a partir de las funciones discriminantes ca-
n6nicas derivadas, queda hacer mención de los distintos procedimientos fundamentales
o Número inicial de casos
en la comprobación de la validez del modelo discriminante. De interés prioritario en
cualquier análisis de datos muestrales.
, Cenlroldes de grupo
-Q En el análisis discriminante tres son los procedimientos de validaci6n que se
o 3 aplican con mayor asiduidad: la división de la muestra en dos submuestras, el método
••
"
e
:g
-4 o 2 "Jackknife" y el método U (o de validación cruzada).
e • 1
o
~
-B 8
-Q O 2 4 6
-4
A) La divisi6n de la muestra en dos submuestras
Func n 1

Un procedimiento de validación estándar en cualquier procedimiento analítico con-


I 'ento entre los grupos 1 Y2. Lo que
En el gráfico puede observarse ~~ mayor so ap~m~si nadas al grupo 2 respecto a los siste en la división de la muestra total en dos submuestras. Una se refiere como
de nuevo constata la p~lOr claslflcaclon ~e :os casa onfig~ración del grupo 2 también que- muestra de análisis, porque es la utilizada para derivar las funciones discriminantes. La
integrantes de los demas grupoS. Ademas, a peor c 'd otra, la muestra de validación se destina sólo a la comprobación de la validez de los re-
da evidenciada por la mayor dispersión respecto a su central e. sultados del análisis realizado, atendiendo al porcentaje de casos correctamente cla-
sificados en esta segunda submuestra u otro criterio que se estime relevante para pro-
pósitos evaluativos.
A este procedimiento principal de validación se ha hecho mención a lo largo de es-
D) Histograma de puntuaciones discriminantes te capítulo. Aquí sólo destacar que este procedimiento sólo puede aplicarse cuando el
tamaño muestral lo permita. Tamaños muestrales pequeños limitau la posibilidad
Ésta es otra alternativa gráfica que permite visu~li~ar la diSPoSic~~~ade 10Sog;:~::: de su práctica porque redundaría negativamente en la significatividad de los estadís-
su densidad y la distribucÍón. d~las ~untuac;;::~I~:;~~~~:~'!~sa discri~:antes es- ticos estimados.
liza un histograma. En el eje ~ a . ~Cl~~S. a 1) En el eje de ordenadas, las frecuencias. Cuando el tamaño muestrallo permita, la decisión crucial será qué proporción
tandarizadas (de media O Ydesvlac!O~ IplC (1' 2 3 dependiendo del número de gru- de la muestra total destinar para cada finalidad: asignar la misma proporción a ca-
Los casos se representan mediante numeros , , .. '
\
I
416 Análisis rnulrivaríable. Teoría y prácric{/ en. la investigación social
Capitulo 4: Análisis discriminante 417

da submuestra 0, por el contrario, destinar un mayor número de casos a una sub- malidad multivariable para que e ·bl ,. ,.
muestra (generalmente la muestra de análisis) con prcferencia a la otra: un 60% pa- · o ·b·j·d d d s" a pOSI e su practICa. Practica que se halla limitada
,a la d ISp 111 II a el programa ji 'f ..
ra la muestra de análisis y el 400/0 restante para la muestra de validación, u otras pro- incluido e t d 1 m or~~ ICO que se utilice, al no estar lamentablemente
n o os os paquetes estadlstlcos.
porciones que se elijan. La única consideración que se impone es que la muestra de
análisis reúna el tamaño muestral suficiente para asegurar la estabilidad de los co-
eficientes.
lLECTURAS COMPlLEMENTARIAS

B) Método "Jaclelenife" GOl~~~~, M. YDillon, W. R. (1978). Discrete discriminant anaZysis, Nueva York, John
Al igual que el método U (o de validación cruzada), el método "Jaclelenife" consiste Haii !·¡¿¡:ónndeMrsodn,.Rd· pE., Tathan, R. L. Y Black, W. C. (1999). Análisis multivariante
en la clasificaci ón de cada observación desde los resultados obtenidos para todas . , al!, reutlce Hall: 491-546. '
las observaciones, a excepción de la que va a clasificarse. Esto se conoce normalmente Hu~rtYh' C· 1. (19 84). "Issues in the use and interpretation of disCliminant analysis"
syc o Ioglca z B. ulletm, 95: 156-171. '
como el procedimiento de "dejar nno fuera". La función discriminante se calcula
repetidamente en N - 1 casos, eliminando una observación cada vez. De manera Jen(~~~, ~J;ampson," p. (1985). "Stepwi,se discriminant analysis", en Dixon, W. 1.
que el caso a clasificar en el grupo más próximo no ha participado en la derivación de Klecka·
,
W.R. (1P.9·8S0ta).tlDStlcal software, Los Angeles, U niversity of Califoruia Press.
lscnmmant analysls, Beverly Hills, Sage.
las funciones discriminantes.
El método "laclelenife" suele aplicarse en la comprobación de la estabilidad de los LMach~nbruch, p. A. (1975). Discriminant analysis, Nueva York Hafner Press
artmez Ramos . ,E. (1984) . "Fun dament os d i··
e análiSIS ·'
discriminante .
y su aplicación
coeficientes discriminantes. Su nso correcto exige, no obstante, qne se cumpla el sn-
e~ un ,estudIO ekctoral", en Sánchez Carrión, 1. 1. (ed.), Introducción a las técnicas
puesto de normalidad multivariable (Dillon y Goldstein, 1984). Además requiere
que la muestra total sea elevada, al menos tres veces mayor que el número de varia- teanalwsmultlvan~bZe ~plLcadas a las ciencias sociales, Madrid, CIS (Centro de
nvestrgaclOnes SocIOlógicas): 139-164
bles predictoras. Aunque también se sugiere la ratio de cinco casos por cada variable Tabachnick B G YFidell L S (1989) u... ..
independiente (Hair et al., 1999). ·f: ... , . :. . smg multLVanate statistics, 2.' ed., Northrid-
C l
ge, a I orma, Harper Collms Publishers.
Respecto a su práctica, se ha observado que el número de clasificaciones "co-
rrectas", alcanzadas con la aplicación de este método, es ligeramente inferior a la ob-
tenida con el procedimiento de validación anterior (Manly, 1990).
EJERCICIOS PROPUESTOS

C) Método U (o de validación cruzada) 1. En la misma muestra de análisis (1.229 casos) se repite el análisis discriminante
pero redUCiendo la~ vanables mdependientes a siete. Interprétense los resultado~
Este último procedimiento de validación fue originariamente propuesto por La- sigUientes y comparense con los expuestos a lo largo del capítulo.
chenbruch en 1967 (en "An almost unbiased method of obtaining confidence intervals
for the probability of misclassification in discriminant analysis", Biometrics, 23: 639- Pruebas de igualdad de las medias de los grupos
645). También se asienta en el principio de "dejar a uno fuera", lo que ha contribuido
Lambda
a coufundirlo con el procedimiento" Jackknife". de Wilks F g/J gl2 Sigo
Con este método se comprueba la adecuación de la clasificación en general, para
lo cual se extrae una observación cada vez. Se estima la función discriminante consi- Leyes ínmigración ,749 79,103 2 473
Edad ,000
derando todos los casos exceptuando al eliminado (en ese momento). Después se pro- ,657 123,305 2 473 ,000
Casar con marroquí ,503 233,909
cede a la clasificación de la observación extraída en uno de los grupos, hacia el que se Estudios
2 473 ,000
,681 110,647 2
sitúe más próximo de acuerdo con sus características. Este proceso se repite hasta que VeCino marroquí 473 ,000
,376 392,989 2 473
todas las observaciones hayan sido clasificadas. Ingresos ,000
,883 31,407 2 473
Comparte con los dos procedimientos de validación precedentes la exigencia de Sexo ,000
,993 1,671 2 473
Ideología política ,189
que el tamaño muestral sea elevado. Asimismo ha de cumplirse el supuesto de nor- ,927 18,743 2 473 ,000
418 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 4: Análisis discriminante 419

Variables inlroducidas!eliminadasa.b,(~d
Autovalores
Lambda de Wilks
Función Autovalor % de varianza % acumulado Correlación
Paso Introducidas Fexacta canónica
Estadístico gil gI2 gl3 1
Estadistica gil gl2 Sigo 2,628' 74,5
2 74,5 ,851
,900' 25,5 100,0 ,688
1 Vecino
a SehanempIeado las 2 pnmeras f
marroquí ,376 1 2 473,000 392,989 2 473,000 ,000 unclones d ' .
lscnmmantes canónicas en el an"" .
:a.uSIS.
2 Edad ,252 2 2 473,000 234,098 4 944,000 ,000
3 Leyes
inmigración ,208 3 2 473,000 187,105 6 942,000 ,000 Lambda de Wilks
4 Casar con
marroquí ,177 4 2 473,000 161,725 8 940,000 ,000
Constraste de Lambda
5 Estudios ,152 5 2 473,000 147,046 10 938,000 ,000 las funciones de Wilks Chi-cuadrado gl Sigo
6 Ideología
política ,148 6 2 473,000 125,005 12 936,000 ,000 1 a la 2 ,145 907,447 14 ,000
7 Ingresos ,145 7 2 473,000 108,461 14 934,000 ,000 2 ,526 301,723 6 ,000
En cada paso se introduce la variable que minimiza la lambda de Wilks global. Coeficientes de las funciones canÓnicas
a El número máximo de pasos es 16.
discriminantes
b La F parcial mínima para entrar es 3,84.
<; La F parcial máxima para eliminar es 2,71.

d El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.


Función
Funciones en los centroides de los grupos
1 2
Función
Matriz de estructura Leyes inmigración -,353 ,290 Número inicial
Edad ,011 de casos
-,046 1 2
Casar Con marroquí ,649 ,042
Función Estudios - ,179 ,443 1 ,175 -1,370
Vecino marroquí 1,389 2
1 2 1,077 3,603 ,810
Ingresos ,000 3
,000 -1,121 ,604
Ideología política ,104 -,049
Vecino marroquí ,755* ,427 (Constante) - 2,362 - 1,452 Functones discriminantes canónicas no tipificad
Casar con marroquÍ ,607* ,153 evaluadas en las medias de los grupos. as
Leyes inmigración - ,313* ,292
Coeficientes estandarizados de las CoefiCIentes no tipificados.
Ideología política ,160* -,117
funciones discriminantes canónicas
Sexoa -,060* -,035
Edad ,247 -,633* Coeficientes de la función de clasificación
Estudios -,270 ,554* Función
Ingresos -,122 ,323* Número ínícial de casos
1 2
1 2
Correlaciones intra-grupo combinadas entre las 3
variables discriminantes y las funciones discrimi- Leyes inmigración -,328 ,270 Leyes inmigración 2,782 2,205
nantes canónicas tipificadas. Variables ordenadas Edad ,149 - ,619 Edad 3,811
,295 ,232
por el tamaño de la correlación con la función. Casar con marroquí ,469 ,030 Casar con marroquí ,189
* Mayor correlación absoluta entre cada variable y 1,821 4,137
Estudios -,182 ,449 Estudios 1,063
cualquier función discriminante. 2,120 2,472
Vecino marroq uf ,641 ,497 Vecino marroquí 3,226
11 Esta variable no se emplea en el análisis.
4,642 11,754
Ingresos -,099 ,163 Ingresos 4,969
Ideología política ,195 -,092 -2,98 E-06 -2,85E-06
Ideología política 1,643 6,276 E-07
(Constante) 1,895 1,411
-21,980 -39,877 21,143
Funciones discrlmin antes lmeales de FJsher.
42O Análisis mullivonable.
, Teor[a y p ráccica en fa invesrigación social

,- - ---!'~r~.' w','"' ""


Número inícial de casos Previas ¡---
os gr upos

No
------
Casos utilizados
en el análisis
r Paso

4 vecino marroquí
ing~~sos .
-
-- -
Tolerancia

,926
-1-
Tolerancia
mínima
Capúulo 4: Análisis discriminante

Fpara
introducir
M{¡¡_ D
cuadrado
~-
Entre
grupos
421

Ponderados ,926 142,396


ponderados Sexo ,901 ,881 5,253
3,575 ly3
--- ideología política ,982 ,966 3,202
5,365 1y3
1 ,321 153 153,000 ,979 ,965 5,225
5 vecino marroquí 5,234 Iy3
2 ,149 71 71,000 5,369 1y3
3 ,529 252 252,000 ingresos ,921 ,921
Total 476,000 sexo ,890 143,972 5,396
1,000 476 ,880 1y3
,981 4,306 5,556
,964 1y3
6 vecino marroquí 3,135 5,380
,919 1y3
sexo ,870
Variables no inclui das en el análi<;is ,971 143,458 5,577
,880 2,901 ly3
7 sexo 5,560 ly3
Paso Tolerancia
Tolerancia Fpara Mín. D Entre I ,970 ,870
mínima introducir cuadrado grupos 2,715 5,581 ly3
O leyes inmigración 1,000 1,000 79,103 ,191 1y2
Resultados de la clasific aci6n b ,c
edad 1,000 1,000 123,305 ,283 1y2
casar con marroquí 1,000 1,000 233,909 ,235 1y3
estudios 1,000 1,000 110,647 ,080 ly2 Grupo de pertenencia pronO~'ticado
vecino marroquí 1,000 1,000 392,989 ,018 1 Y3 Número inidal
ingresos 1,000 1,000 31,407 ,082 ly2 de casos j Total
sexo 1,000 1,000 1,671 ,005 ly3 2 3
Original
ideología política 1,000 1,000 18,743 ,085 ly2 Recuento
1 424
2 4 65
1 leyes inmigración , ,997 ,997 63,928 ,451 ly2 32 121 493
3 56 12
casar con marroqUl ,997 ,997 214,178 2,619 ly3 1 165
% 514 571
estudios ,973 ,973 51,658 ,322 ly2 1
86,0 ,8
vecino marroquí ,992 ,992 379,499 2,465 ly3 2 13,2
19,4 73,3 100,0
ingresos 1,000 1,000 20,307 ,363 ly2 3 7,3
Validación cruzada á Recuento 9,8 ,2 100,0
sexo 1,000 1,000 1,698 ,354 ly2 90,0 100,0
ideología política 1,000 1,000 14,245 ,368 ly2 1 421
2 4 68
33 118 493
2 leyes inmigración 3 58 14
,996 ,994 49,486 3,782 ly3 1 165
estudios ,971 ,969 49,408 4,124 ly3 % 512 571
1 85,4
vecino marroquí ,935 ,935 147,083 2,630 ly3 2 ,8
20,0 13,8 100,0
ingresos ,998 ,995 20,553 3,271 ly3 3 71,5 8,5
sexo ,990 ,987 3,932 2,622 ly3 10,2 ,2 100,0
89,7 100,0
ideología política 1,000 ,997 9,711 2,814 1y3 , te
Lalas
validación
funcionescruzada sóloa Se
derivadas aplica
partir delaresto
los casOS delcasos.
de los anáUsis. En la validación cruzada, Cada caso se elas;[Jea median_
' Clasificados eo"cctamente el 86,2% de los e",os agrupados odginales_
3 leyes inmigració~n ,995 ,966 39,563 5,216 ly3
e ClasJf;eados eo"ectamente el 85,5% de los caSos ageupados validados madiante validación cruzada.
vecino marroqUl ,926 ,926 145,074 4,174 ly3
ingresos ,906 ,881 5,370 4,332 1y3
sexo ,989 ,969 4,053 4,124 1y3
ideología política ,996 ,966 10,639 4,396 L~~ __ L En la investigación de Cea DAncona, M.a A (1992)_ La justicia de Menores
- I --
CJ··) en España (Madrid, Centro de Investigaciones SOciOlógicas, Colección Mo-
nografías "- o 127), se realizó, en primer lugar, Un análisis de conglomerados
para comprobar si existen distintos tipos de menores delincuentes oficiales,
422 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 4: Alzálisis discriminante 423

su peso e importancia en el conjunto de la población juzgada en los tribunales


de menores. De él se obtuvo una clasificación de tres grupos bien delimita- Coeficientes estandarizados
dos de menores. Dicha clasificación fne, posteriormente, validada mediante Variable de las funciones discriminantes Coeficientes de estructura
nn análisis discriminante con el programa estadístico BMDP7M. La infor-
Función] Función 2
mación se obtuvo de 715 expedientes incoados por el Tribunal de Menores Función 1 Función 2
de Madrid en 1975, 1977, 1979,1981 Y 1983. Interprétense los resultados si- Sexo
Edad ,06607 ,11982
guientes: -,07840 ,02485 -,08042
Etnia ,04334 -,04963
Clase social ,54624 -,37021 ,11407
,05703 ,32158 -,48079
Analfabetismo (padre) ,00396 ,05934
-,03042 ,19167 ,02384
F para introducir Estadístico Grados de Analfabetismo (madre) -,09245
Paso Variable F aproximado ,03562 -,23052 ,16845
o eliminar U libertad Alcoholismo (padre) ,06210
-,05858 -,06909 -,09248
Amblente barrio -,01425
Vivienda -,02852 ,04036 -,10342
1 Profesión padre 2487,0264 ,1252 2487,026 2 712 -,01814 -,01382 ,24183
Condiciones vivienda ,77583 -,03189
2 Vivienda 299,9373 ,0679 1008,615 4 1422 -,02462 ,58340
Conducta -,15616 -,02841
3 Etnia 57,9044 ,0584 742,731 6 1420 ,01174 -,16421
Fuga -,08433 ,15874
4 Condiciones vivienda 15,7290 ,0559 572,360 8 1418 -,01357 -,12728
Abandono -,17342 -,06453
5 Profesión madre 9,0358 ,0545 464,836 10 1416 -,03154 -,15104
Delito ,05503 -,04768
6 Fuga del hogar 4.8425 ,0538 390,261 12 1414 -,02683 ,00148
Drogadicción -,05758 -,03912
7 Clase social 4,8036 ,0531 336,986 14 1412 ,01768 -,03967
Profesión (padre) ,24318 ,01143
8 Edad 3,7719 ,0525 296,486 16 1410 ,79700 ,15264
ProfeSIón (madre) ,01558 ,00187
9 Drogadicción 3,1181 ,0520 264,678 18 1408 -,01199 ,18691
Situación laboral (padre) -,13591 -,03270
10 Tipo de delito 3,3486 ,0515 239,336 20 1406 ,04342 -,19170
,17412 ,17485
11 Conducta 3,5474 ,0510 218,686 22 1404 ,14396
12 Sexo 2,4117 ,0507 201,065 24 1402
13 Ambiente barrio 1,7844 ,0504 185,942 26 1400 FunClOnes en los Centroides de los grupos
14 Abandono (padres) 1,5518 ,0502 172,907 28 1398 Comparaciones de pares de grupos
15 Analfabetismo madre 1,6855 ,0500 161,650 30 1396 Grupo Función 1 Función 2
16 Situación laboral padre 1,2315 ,0498 151,674 32 1394
Grupo 1 Grupo 2
17 Analfabetismo padre 3,8188 ,0492 143,551 34 1392 1 2,16869 ,99318
18 Alcoholismo (padre) 1,1288 ,0491 135,663 36 1390 2 Grupo 1
-3,58945 -,05634 267,13
3 2,48807 Grupo 2 47,37
-2,02414 204,83

M a trtz
. d e C1asificación
Porcentaje Correlación Funciones Lambda Grados de Significac.
Funciones Autovalores
varianza canónica eliminadas de Wilks x' libertad
Grupo Porcentaje Número de casos clasificados en grupos
1 8,19614 ,94406 2120,48 36 ,000 correcto
87,09 O ,0491 1
2 1,21533 12,91 ,74068 1 ,4514 559,57 17 ,000 2 3
Original 1 98,7 295
2 100,0 2 2
3 O 277
97,8 2 O
Total 99,0 1 136
297 280 138
Clasificación 1 98,3 294
Jackknife 2 2
100,0 O 3
3 96,4 277 O
Total 3 2
98,6 297 134
281 137
Capítulo 4: Análisis discríminanle 425
424 Análisis multivariable. Teoría y práctica en la investigación social

[
3. En la investigación de García Llamas, José Lnis (1986): "El análisis discrimi- Coeficientes estandarizados Coeficienl<~s de estructura
nante y su utilización en la predicción del rendimiento académico" (Revista de de las funciones discriminantes rotados
Educación, 280: 229-251) se hizo uso del análisis discriminante para conocer la Variable
Función 1 Funci6n2 Función 1 Función 2
incidencia en el rendimiento académico de una serie de variables relacionadas -
con la carrera que cursa el alumno, los medios y técnicas empleadas para la pre- Consulta·s al profesor-tutor -,09648 ,06543 ,78939 -,15222
paración de las distintas asignaturas. Se quiere identificar qué variables con- Opinión de la carrera ,10673 -,12085 ,58151 ,46626
tribuyen de manera más significativa a la diferenciación de los grupOS de Medios utilizados ,12962 -,60401 ,17190 ,13361
alumnos. La muestra estaba integrada por 2.107 alumnos de Ciencias de la Edu- Tiempo de estudio -,63097 -,23670 ..,14244 ,63253
Recursos materiales -,01111 -,17332 ,14502 ,62205
cación de la UNED. Interprétense los resultados siguientes: Autovaloración personal -,63905 ,56605 ,11238 ,43728
Relacionar distintas materias -,31569 -,46281 ,04137 ,13223

- Grupo Función 1 Funci6n2


Rendimiento Rendimiento Rendimiento Total ¡--------i-
Variables bajo medio Alto -,43740 -,08673
Rendimiento bajo
Rendimiento medio ,14822 -,08723
2,744 2,855 2,993 2,840
Consultas al profesor~tutor Rendimiento alto ,56874 ,30406
2,289 2,353 2,294
Opinión de la carrera 2,267
2,407 2,347 2,482 2,402
Medios utilizados 2,604 2,120
1,818 2,167
Tiempo de estudio 2,590 2,374 Coeficientes de la funció n d e eIaSl'filcaCLOn
. , (.1e 1':'
"lS h er
Recursos materiales 2,279 2,351
3,136 3,317 3,050
Autovaloración personal 2,829 Rendimiento Rendimiento Rendimiento
2,583 2,827 2,610 Variables
Relacionar distintas materias de estudio 2,515 bajo medio alto

Consultas al profesor~tutor 1,13787 1,14382 1,14697


Opinión de la carrera 1,11952 1,11056 1,10761
Medios utilizados 1,30518 1,27975 1,29035
F Significatividad Tiempo de estudio ,89381 1,11932 1,15670
Variables Lambda Wilks
Recursos materiales -1,98924 -1,75290 ,11842
1,2324 ,0987 Autovaloración personal 1,50852 1,57787 1,60783
Consultas al profesor-tutor ,99258 Relacionar distintas materias de estudio 1,31059 1,32181 1,35616
,99872 ,3984 ,6716
Opinión de la carrera ,2170 Constante -2,20044 -2,22298 -2,25479
,99510 1,1532
Medios utilizados ,0000
,92020 2,2697
Tiempo de estudio ,0247
,98817 1,3725
Recursos materiales ,0000
,91895 2,2743
Autovaloración personal ,0010 Grupo Grupo de probabilidad Grupode2.o Puntuaci6n
Relacionar distintas materias de estudio ,97790 1,7027 Alumno
actual más alta P(X/O) prO/X) Probab. prO/X) discriminante

2 3 3 ,2791 ,6764 2 ,2555 2,1141 ,7091


4 1 3 ,2816 ,4040 1 ,3090 -,2694 1,6575
5 1 1 ,4520 ,4965 2 ,3671 -,6614 -1,3270
9 2 1 ,8250 ,3741 2 ,3334 -,3409 ,5259
Grados de 17 2 2 ,8337 ,3904 1 ,3643 -,0270 --,6640
Porcentaje Correlación Funciones Lambda Significac.
Funciones Autovalores de Wilks
x' libertad 38 3 1 ,6512 ,4461 2 ,3785 -,4260 -1,0129
varianza canónica eliminadas 57 1 3 ,3372 ,4236 2 ,4098 1,3928 -,9186
106,66 14 ,0000 99 2 2 ,4296 ,4316 3 ,3383 ,9289 -1,1267
,17617 94,58 ,3870151 O ,841721
1 6,219 6 ,3992 121 3 2 ,3147 ,4481 1 ,2993 ,5436 -1,5556
,01010 5,42 ,0999796 1 ,990004
2 137 1 1 ,1512 ,6934 2 ,2519 1,8744 1,3954
-..,..----

5
ANÁLISIS FACTORIAL

La denominación genérica de "análisis factorial" agrupa diversos procedimientos


de análisis multivariable que analizan la relación mutua (o de "interdependencia") en-
tre varias variables. Como el análisis de conglomerados, el análisis factorial Pí'rtene-
ce a la clasificación de técnicas de análisis multivariable de interdependencia. No dis-
tingue entre variables dependientes e independientes. Su finalidad principal no es el
análisis de relaciones causales, sino la l'l!\rupación de variables, en función de la va-
riabilidad que cada variable comparte c()n Otras variables. Concretamente, dos son sus
objetivos fundamentales:

1. Analizar la correlación existente en una serie de variables, con el propósito de


descubrii si comparten alguna estructura latente (ho directamente observable).
Se busca la síntesis de la información proporcionada por "p" variables
observadas (o indicadores), con la menor pérdida posible de información, en un
número inferior de "k" variables no observadas (factores comunes o compo-
nentes principales, depende de la variedad analítica que se realice). Esta serie
menor de variables latente/ha de caracterizarse por aglutinar variables empíc
ricas que estén bastante correlacionadas entre sí y escasamente correlaciopadas
con aquellas variables empíricas que conforman otra estructura latente '(o di-
mensión del concepto que se analice). La "no correlación" entre grupos de va-
riables es una propiedad importante. Significa que los indicadores miden "di-
mensiones" diferentes en los datos.
La obtención de un modelo factorial se fundamenta en dos principios bá-
sicos comunes a otros procedimientos analíticos: parsimonia e interpretabilidad.
De acuerdo con el principio de parsimonia, la solución factorial ha de ser
sencilla, compuesta por el menor número posible de factores o componentes. A
428 Análisis muüivariahle, Teoría y prácrica en la investigación social
Capítulo 5: Aná/isís factorial 429

este principio básico se suma la necesidad de que los factores extraídos sean es- firmación de los conglomerados (o agrupaciones de objetos muy similares entre sí y dis-
tadísticamente significativos y susceptibles de interpretación sustantiva .. tl~tos de otros grupos) obtcmdos mediante el análisis de conglomerados. Para este pro-
2. La obtención de puntuaciones factoriales, variables típicas o, en su caso, vanables posltose emplea preferentemente la variante del análisis factorial "confirmatoria". Es-
sucedáneas, para cada factor. Éstas actuarán en representación de los factores ta vanedad del análisis factorial se expone en el capítulo 6, por su configuración
o componentes en análisis posteriores. slmdar con el modelado de ecuaciones estructurales.
Este segundo objetivo, a diferencia del anterior, sólo se cumple cuando el plan Respecto al análisis discriminante, ya se dijo en el capítulo anterior que es una técnica
de análisis de una investigación no concluye con la obtención de un modelo fac- confinnatona, no exploratoria. El análisis discriminante necesita de Una configuración ini-
torial. Al contrario, la obtención del modelo factorial constituye un paso previo cral delos datos clasificados en grupos Esta clasificación inicial puede obtenerse mcdiante
a la aplicación de otras técnicas analíticas multivariables, como el análisis de re- la rea!rzación de un análisis de conglomerados u otra técnica multivariable de interde-
gresión múltiple, el análisis discriminante o el análisis de varianza, entre otros. pende~cia, como el análisis factOlial exploratorio. Además, en la exposición del análisis
dlSCnnUl1ante conturuamente se han destacado aspectos comunes en la realización de am-
bos procedimientos analíticos, a cuya relectura se remite (capítulo 4).
5.1. Orígenes del análisis faelorial y su rel"ción <on otras técnicas multñvariabDes El análisis factorial t?mbién puede ser la antesala al análisis de regresión múltiple,
en la comprobacIón y busqneda de solUCIón ante la existeucia de una elevada multi-.
Los antecedentes inmediatos del análisis factorial se remontan a una publicación colinealidad (correlación elevada entre una serie de variables independientes). El aná-
de Karl Pearson de 1901 ("On lines and planes of closest fit to systems of points in spa- lisIs factonal ayuda a la agrupación de variables muy correlacionadas entre sí eu un nú-
ce", Phil., May, 2: 559-572). En esta publicación se hace la primera propuesta del pro- mero menor de factores o componentes no correlacionados. En esta situación el
cedimiento de análisis de "componentes principales". En 1904 Karl Spearman publi- ~nálisis de regresión se realizará no con las variables independientes originales muy ~o­
CÓ un artículo can el título "General intelligence objectively determined and measured"
hneales, suro con las variables "típicas", sncedáneos de variables o puntuaciones fac-
(en la revista American Journal of Psychology, 15: 201-293) que trata sobre la cova- tonales que resultan de la aplicación de un análisis factorial exploratorio. Este proceder
riación entre variables Spearman parte de la hipótesis de qne las distintas medidas de se expone en el apartado 5.8, dedicado a las puntuaciones factoriales.
inteligencia pueden smtetizarse en un factor general (llamado "factor G"), común a to- Por último, en el análisis de correlación canónica también puedcn utilizarse factores
das las medidas, y un cierto número de factores específicos asociados a unas cuantas o ;:omponentes principales en sustitución de las variables originales. La correlación ca-
medidas: capacidad de análisis verbal, capacidad de análisis matemático y capacidad nOllIca es (como se ha mencionado en el capítulo anterior) una técnica multivariable
de integración espacial. Para ello observa las correlaciones entre las distintas pun- de dependencia que permite comprobar la existencia de interrelación entre una serie de
tuaciones de tests de varios tipos. Advierte que muchas de las correlaciones observadas valiables dependientes y otra serie de variables independientes. Se busca la obtención
pueden explicarse mediante un modelo más simple. de combinaciones lineales de cada serie de variables (dependientes e independientes)
Pero fue en 1933, de la mano de Hotelling, cuando se describen los métodos de cálcnlo que maXImIcen las Correlaciones entre las variables.
específicos al análisis de componentes principales (" Analysis of a complex of statisti- Cuando se realiza un análisis factorial previo a la ejecución de un análisis de co-
cal variables into principal components", Journal of Educational Psychology, 24: rrelación canónica, existen dos aproximaciones posibles:
417-441; 498-520). En 1947 Thurstone (en Múlliple factor analysis, The Umverslty of
Chicago Press) incorpora al análisis factorial el álgebra matricial para el análisis de l~s a) Efectuar un análisis factorial en cada una de las dos series de variables y sustituir
correlaciones. A partir de entonces se suceden las publicaciones sobre el anáhsls las dos series de variables originales por los factores o componentes. Siguiendo
factorial en cualquiera de sus variantes. Al igual que el resto de técnicas analíticas mul- este procedimiento se gana en simplicidad, al tener menos coeficientes canó-
tivariables, su uso se amplía con la llegada de los ordenadores. nicos que interpretar.
En los capítulos precedentes se ha hecho mención de la relación del análisis facto- b) Realizar Un único análisis factorial en la serie total de variables. Esta segunda
rial con otras técnicas multivariables. En especial, con el análisis de regresión múltiple, opcIón permIte comprobar cuáles son los factores o componentes que mejor re-
el análisis discriminante y el análisis de conglomerados. Con las dos últimas técnicas ana- fleJan la estructura de los datos en cada una de las series de variables.
líticas comparte un mismo propósito: la agrupación de objetos (casos o variables). Si bien
se recomienda su uso complementario, con el análisis de conglomerados en una fase pos-
5.2. !La variedad de modelos factoriales: tipologías
terior, y con el análisis discrimin.ante, como paso previo a su ejecución.
El uso complementario deÍ análisis factorial con el análisis de conglomerados La denominación genérica de análisis factorial reúne una variedad de procedi-
cumple una función confirmatoria. Su aplicación se dirige a la corroboración O con- mientos analíticos que tienen un objetivo COmún: sintetizar la información contenida
430 Análisis multivariable. Teuría y práctica en la investigación social Capitulo 5: Análisis factorial 431

.en una serie de variables empíricas (u observadas) en un número inferior de variables potético de la estructura común latente en los datos analizados. Hasta la fecha ésta ha
latentes. El abanico de posibilidades es el siguiente: sido la aplicación más frecuente del análisis factorial: "explorar" las dimensiones la-
tentes en los datos más que "confirmarlas",
La explicación del análisis factorial realizada en el presente capítulo se limita ex-
A) Análisis de componentes principales-análisis de factor común cJusivam~nte al análisis factorial exploratorio. El análisis factorial confirmatorio se expone
en el capitulo6, de,dicado al modelado de ecuaciones estructurales. La decisión de pos-
El análisis de componentes principales. (ACP) se caracteriza por analizar la varianza, . tergar la exphcaciOn de esta vanedad analítica al capítulo siguiente se fundamenta en
total del conjunto de variables observadas. De ellas trata de detenninar las dimensiones la necesidad de conocer, previamente, la técnica del modelado de ecuación estructu-
básicas (o "componentes") que las definen. En el análisis de factor común (AFe) el es- ral para comp~e,:der el anális!s f.actorial confirmatorio. Como se verá en el capítulo 6,
tudio de las interrelaciones entre las variables se restringe, en cambio, a la varianza co- ambos procedimrentos de anahsis tienen elementos comunes, tanto en su formulación
mún. Es decir, a la búsqueda de un número reducido de "factores" que expresen lo que como en su desarrollo, razón que justifica su exposición conjunta.
es "común" al conjunto de variables observadas. .
En el análisis de factor común suelen diferenciarse distintos procedimientos de ex-
tracción de factores (que se exponen en el subapartado 5.5.1): C) Análisis factorial R-análisis factorial Q

Análisis de factor principal o de ejes principales. . En 1985 Cornrey propone la distinción entre el análisis factoria! tipo R y el análisis fac-
Máxima verosimilitud. tonal tipO Q. El pnmero se caracteriza por tener como objetivo principal la identiñcación
_ Mínimos cuadrados generalizados y no ponderados. de un número reducido de dimensiones latentes en un conjunto de variables. Ésta es la
Factorización alfa. modalidad d~ análisis factorial más usual. En cambio, el análisis factorial Q se ocupa de
- Factorización imagen. I~s mterre!aciOnes entre casos, no entre variables. Ha tenido gran aplicación en psicolo-
gra y demas CienCias de la conducta en la elaboración de tipologías de sujetos. Se trata de
B) Análisis factorial exploratorio-análisis factorial confirmatorio un procedimiento d~ cJasiñcación similar a! análisis de conglomerados. Ambos persiguen un
ffilSn;O objetivo bási,,?: la clasiñcación de un conjunto de individuos u objetos (países, mu-
La distinción entre análisis factorial "exploratorio" y "confirmatorio" depende de mCipios, partidos polítiCOS, colegíos. .. ) en un número reducido de grupos mutuamente ex-
la finalidad del análisis y del conocimiento previo que el investigador tenga de la reali- cJuyentes. Los grupos han de estar formados por casos lo más similares posible entre sí y
dIferentes de los mtegrantes de los otros grupos. Pero, como se verá en la lectura com-
dad que analice. parada de amba~ técnicas analíticas, existen amplias diferencias entre ellas.
Cuando el investigador no parte de una configuración previa de "factores", sino
que, precisamente, realiza un análisis factorial para obtene~ un número minimo. de "fac- En gener~,l"t?illÍlÍ~isd" congl()m"racl0~.se presenta como.ul1 ~nálisismás rígid();
tores" que sinteticen la información aportada por un conjunto amplio de vanables, el ql,l~ no perffilte que un mismoc!"so pertenezca a más de un grupo.. En el análisis fac~
análisis factorial es exploratorio. Si, por el contrario, se parte de un modelo previO so- tonal Q, p,?r el contrario, un mismo caso puede tener un peso importante en más de
bre la estructura latente en los datos y lo que se desea es "confirmar" o negar la es- un factor. Este es uno de los inconvenientes más frecuentemente señalado en el aná-
tructura latente hipotetizada (y no explorar las dimensiones latentes), el análisis fac- lisis factorial Q. DiIlon y Goldstein (1984: 43) añaden otra limitación importante: "Las
torial es confirmatorio. Su aplicación se dirige a la "coufirmación". De ahí le viene el correlaciones tipo Q eliminan diferencias atribu.ibles tanto a la media como a la dis-
nombre. Se quiere "confirmar" los factores hipotetizados en un modelo propuesto a persión de los individuos". De manera que, dos individuos que muestren un mismo or-
priori, a partir de una teoría, de generalizaciones empíricas o de la estructura latente den de puntuaciones de rango y espacio relacionado correlacionarán bastante sin con-
siderar cualquier diferencia en los niveles de la media o dispersión, cuando en' realidad
que el investigador espera encontrar en los datos. .. . ,
El análisis factorial confirmatorio es una técnica de mayor sofrstrcacion, que sue- las diferencias de medias y varianzas entre individuos adquieren especial importancia
le emplearse en fases avanzadas del proceso de investigación. Generalmente: tras la en cualquier agrupación de individuos.
aplicación de otras técnicas estadísticas que proporcionen el modelo de par:ida. En A estas d~)S ~ariedades del análisis factorial se suman otras, aunque de menor apli-
cambio, el análisis factorial exploratorio se aplica en las primeras fases del analisis, en caCión: el analiSiS factonal tIpo S, 1; P y O. Estas variedades difieren en la dimensión
el estadio "exploratorio", cuan,do se quiere agrupar variables muy correlaCionadas, ~o­ temporal que se considere, en la unidad de análisis, los índices de asociación y en la des-
mo un fin en sí mismo, o como un paso previo y necesario a la aplicación de otras te~­ cripción de los factores en términos de variables u ocasiones (véase Dillon y Goldstein
1984; Bisquerra, 1989). '
nicas analíticas multivariables. De su práctica resulta la obtención de un modelo hi-
432 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 5: Anáüsisfaclnrial 433

D) Análisis factorial métrico-análisis factorial no métrico feriar de "k" variables latentes (o no observadas). Mediante estas últimas se quiere re~
ducir la dimensionalidad de la serie de variables originales, pero conservando la ma;
La concepción tradicional del análisis factorial ha sido "métrica" debido a que en su yor parte de la información proporcionada por las variables observadas. A las varia-
cálculo intervienen estadísticos como la media y la varianza, que exigen que las variables bles no observadas se las denomina "componentes".
sean métricas (de intervalo o de razón). Para valiables no métricas existen otras técnicas En principio, pueden extraerse tantos "componentes" como variables observa-
multivariables de interdependencia que permiten alcanzar objetivos similares al aná- das. De esta forma se lograría explicar toda la variabilidad de las variables origina-
lisis factorial y se adecuan más a este tipo de variables. Sea el caso, por ejen,plo, del les: la suma de las varianzas de todos los componentes sería igual a la suma de las va-
análisis de correspondencias o el escalamiento multidimensional "no" métrico. rianzas de las variables origiuales. Aunque no se habría alcanzado el objetivo
. En los últimos años, sin embargo, han ido apareciendo programas, como el PRIN- reduccionista intrínseco a esta técnica analítica, al haber un componente por cada in-
CALS, que permiten la obtención de un modelo factorial no métrico. Además, las va- dicador. De lo qu", se tqta es de explicar la mayor proporción de .varianza total de
riables cnalitativas pueden convertirse en variables ficticia" lo que permite además apli- las variables observadas con el menor número de componentes posible. Los prime-
car el llamado análisis factorial "booleano". Éste difiere del análisis factolial clásico (o ros componentes suelen caracterizarse por extraer la mayor proporción de varian-'
métrico) en una serie de aspectos que, siguiendo a Bisquerra (1989: 335-336), se re- za de las variables originales. Los componentes se hallan dispuestos en orden de-
sumen en los siguientes: creciente. El primero se caracteriza por ser el que más cantidad de varianza de las
variables originales extracta, mientras el último componente apenas explica varia-
1. En el análisis factorial booleano se aplica el cálculo del álgebra de Boole. De ahí bilidad, siendo su tamaño considerablemente inferior. El investigador deberá, en con-
le viene su denominación. secuencia, decidir con cuántos "componentes" se quedará para representar la in-
2. Las puntuaciones factoriales en el análisis factorial métrico suelen resultar de formación incluida en la matriz de datos original.
la combinación de las variables que presentan saturaciones o coeficientes fac- Asimismo, se precisa que los componentes sean perpendiculareSf, Quiere esto de-
toriales ("factor loadings") elevados en los factores respectivos. En cambio, en cir, que no estén correlacionados entre sí. La "no correlación" entre los componentes
el análisis factorial booleano cada caso tiene nna pnntuación de 1, si tiene se convierte en una propiedad importante porque supone que los componentes miden
una respnesta positiva (distinta de O) para cualquiera de las variables domi- "dimensiones" diferentes en los datos. Por el contrario, las variables observad~s han
nantes en el factor. Cnando las saturaciones de las variables en los factores son de estar correlacionadas entre sí para que puedan sintetizarseen un número reducid() de
0, la puntuación individual también es O. componentes qne agrupen a las variables más correlacionadas (y facilite su utilizacióu
3. En el análisis factorial booleano una variable puede tener saturación de 1 en en análisis posteriores). Si la correlación entre las variables originales fuese nula, el nú-
más de un factor. En el análisis factorial métrico se intenta (siguiendo el prin- mero de componentes coincidiría exactamente con el número de variables originales,
cipio de estructura simple, que lleva a la rotación de factores) que cada varia- con lo que no se habría alcanzado el objetivo principal del análisis.
ble sature fundamentalmente en un factor. Lo que fuerza a que su presencia en Cada componente principal se expresa como función de las "p" variables obser- '
los demás factores sea mínima. vadas correlacionadas entre sí, que ponderan en dicho componente, mediante las ecua- .
4. Respecto a la bondad de ajuste, en el análisis factorial booleano ésta se comprueba ciones siguientes:
comparando las respuestas binarias observadas con las estimadas a partir de la
multiplicación de las saturaciones por el número de puntuaciones. Se consideran CP1 = A.ll X 1 + Á:!2X2 + ... + A.1pX p
tanto las discrepancias positivas (el número de veces que la puntuación observada CP2 = A.zIXl + ÁzzX2 + ... + J..,pXp
es 1) como las negativas (cuando la puntuación observada es O, siendo el valor es-
timado 1). En el análisis factorial tradicional (métrico) se aplican otros criterios
de bondad de ajnste que se resumen en el apartado 5.7.

Para evitar la influencia indebida que las unidades originales de medición de lasvac
5.2.1. El análisis de componentes principales riables observadas pueden ejercer en la ponderación de los componentes, generalmente
se procede a la estandarización de las variables originales previo a la extracción del mo-
El análisis de componentes principales (ACP) constituye una variedad de análisis delo de componentes pfincipales. SiJas varia.bles estuviesen estandarizadas, la letra "Z"
multivariable de interdependenci"a cuyo objetivo principal es la búsqueda de combina- sustituirá a "X" en las ecuaciones. La letra "íL" representa los pesos o coeficientes de
ciones de "1''' variables observadas (o indicadores) en un número sustancialmente in- saturación de los distintos indicadores en cada componente principal.
Capítulo 5: Análisis factorial 435
434 Análisis multivariable. Teoría y práctica en la investigación social

El modelo definido por ecuaciones puede representarse de forma gráfica. La figura comunalidad) y varianza específica. La comunalidad de cada variable (h~ ex-
5.1 incluye la definición gráfica de un modelo de componentes pnnclp,ales fonnado por presa la porción de la varianza total de la variable Xi que es compartida con las,
tres componentes y cinco variables originales o indicadores. Estas ulllmas (estanda- p ~ 1 variables observadas restantes. La varianza específica (e) es, por el con-
rizadas "Z" o no estandarizadas "X") se representan mediante un cuadrado, mientras trario, la porción de la varianza total de la variable que nO es explicada por los
que los componentes (o variables latentes) figuran enun círculo. "factores comunes". Si la variable Xi se halla estandarizada, como es usual, su va-
rianza total es 1: Var X.1 = 1 = h12 + e·.I De lo que se deduce que e.1 = 1 - h ¡'2
En suma, el objetivo fundamental del AFCes maximizar no la varianza tota},
sino la comunalidadtotal, a partir de un número inferior de factores latentes (que
resumen la infonnación contenida en un número superior de variables observadas).
Son los factores comunes los que contribuyen a la covariación de los indicadores.
2. La diferencia básica anterior entre ACP y AFC repercute en el punto de pa¡;'
tida de ambos análisis: la matriz de correlaci6n. En ACP, la diagonal de la ma-
triz está integrada por unos, dado que se trata de explicar la varianza total de las
variables. En AFC, que analiza la covariación o varianza compartida, en ladia·.
gonal de lamatriz figuran las comunalidades. Su valor es igual a laco~r;;l'aa61
múltiple cuadrada de caciit'vanable con las demás variables del análisis, o la co-
Figura 5.1. Representación de un modelo de componentes principales. rrelación absoluta más alta en una fila de la matriz de corretación (véase su-
bapartado 5.4.3). El procedimiento seguido en la extracción de las dimensiones
latentes (factores o componentes) es, no obstante, muy similar en ambas va-
El procedimiento seguido en la extracción de un modelo ~e componentes princi- riedades analíticas de reducción de datos, como se verá en el apartado 5.5.
pales se trata en el apartado 5.5, junto al modelo de factor comun. Aunq~e alg~nos au- 3. En ACP los componentes principales se explican en función de las variables ob-
tores, como Dillon y Goldstein (1984: 24), lo consideran "un mét?do de ldentl!.lcar las servadas, determinándose los pesos o saturaciones de cada variable en cada
dimensiones factoriales de los datos y nO como un modelo estadlstlco formal : En su componente. En AFC las variables observadas o irdic;adoresson, por el con-
opinión, e! análisis de componentes principales "esencialmente toma l?s datos e mtenta trario, las que actúan a modo de variables dependientes en la ecuación lineaL
determinar las dimensiones que definen su varianza total". En las pagmas sIgUientes Éstas se explican por variables no observadas: factores comunes y únicos. Re'
se da al lector oportunidad de valorar dichas afirmaciones. cuérdese que en AFC se diferencia entre varianza común y varianza especifica,
a diferencia de ACP, donde no se hace dicba segregación de la varianza.

5.2.2. El análisis de factor común Como en ACp, el modelo analítico de AFC se asemeja a una ecuación de regresión
múltiple. Cada variable observada Xi se expresa mediante una combinación lineal de
El análisis de factor común (AFC) es otra técnica analítica n:ultivariable de in- un número pequeño de factores comunes latentes y un factor único, también latente. Es-
terdependencia igualmente aplicada a la medición de conceptos teoneos. Comparte el tos últimos representan la parte de la varianza de la variable observada que "no" es ex-
mismo objetivo básico de! ACP: la <!!?§~rlps\(jn<leJlllc;qnjuntode'ép"v~riabl~s ob' plicada por los factores comunes. La elección de la letra "e" para denotar al factor úni-
serva,das (o indicadores) en térnúnos de un número mfenor de f~c;ore_s (q zndlCeS!. Es- co procede de su consideración como "término de error". Se asume que son
tos últimos se obtienen de la agrupación de los indicadores correlacionados entre SI, que independientes, lo que quiere decir que no se hallan correlacionados entre sí (unos fac-
representan una misma dimensión del concepto que se mide. Es!os mdlcadore.s tores únicos con otros únicos) ni tampoco con los factores comunes. Algebraicamen-
corresponden a las variables que presentan un coeficiente faetonal mas elevado en dI: te, el modelo de AFC puede representarse mediante las ecuaciones siguientes:
cho factor. No obstante, existen tres diferencias básicas que dlstmguen a AFC de ACP.
XI = íLllFI + íL:t2 F2 + ... + íL:tKFi< + el
1. En ACP se considera la varianza total de la serie de variables observadasbEl X 2 = A.,lFI + A.,2 F2 + ... + A.,KFK + e2
propósito es maximizar la proporción total de la varianza explicada. En cam 10,
.AFC está más' orientado· al análisis de la covananza,no de la vananza. En es-
ta última modalidad amilítíca ia varianza se descompone en varianza común (o
Capitulo 5: Análisis factorial 437
436 Análisis m.ulrivariahle. Teoría y práctica en la investigación social

. d01=
. (1 , 2 ... , P) , el modelo se resumen en: En paquetes estadísticos como, por ejemplo, el SPSS, ambos análisis figuran bajo
Para cada variable Xi' SIen el mismo cabecero de "análisis factorial". Específicamente ACP se incluye en los pro-
cedimientos de extracción factorial. Esto pnede llevar a su consideración errónea co-
k
Xi = :L Ai¡F¡ + ei
i"'¡
mo análisis factorial ("común").
En la decisión de qué modalidad aplicar, ACP o AFC, intervienen aspectos varios,
como los objetivos de investigación y/o el conocimiento previo que se tenga de la va-
"ít " las saturaciones o coe- rianza de las variables. El modelo ACP muestra mayor adecuación cnando se está in-.;
Donde "k" representa el número de factores comunes Y . ij ., d 1 f
. ." 1 d' s") Estos últimos cuantifican la relaclon e os ac- teresado en predecir y determinar el número mínimo de factores ne(esarips Pilyaex"
fIClentes factonales (o factor oa mg. 1d . 11 del modelo se intenta que es- plicar la mayor proporción de varianza posible en la serie original de variables!
b bies con cada mdlcador En e esano o
tores no o serva . - en los distintos factores comunes. observadas. También se adecua a la situación de conocimiento previo de qne la varianzai
tos coeficientes sean o muy elevados o muy pequenos, , 1 b rtado 5 5 1) 1 a especifica representa una proporción peqneña de la varianza total de las variables, Si
Lo que lleva a la rotación del modelo factorial (como s~ vera :~l; eS~t:~;retable'p~si'bl~, no se dispone de este conocimiento, y si se tiene como objetivo principallaidentifi,
fInalidad es alcanzar un modelo factonal que s~a lo ma~ seno de factores. Si las variables cación de las dimensiones latentes de las variables, la elección apropiada será efectuar
en el que cada indicador se relaelOne con un numero mmlm h b' 1
~ 1 letra HZ" como es a ltua. unAFC.
están estandarizadas, se representanan con a ,
En la práctica, ambas variedades analíticas pneden aplicarse de manera conjunta.
d f t 'n compuesto por 3 factores Pnede realizarse un ACP como paso previo a un AFC, con el propósito de determinar
El gráfico correspondiente a un model~ e ac or comu ,
la dimensionalidad del espacio factorial común. Cuando esto sucede, el análisis de AFC
comunes Y 5 indicadores se incluye en la fIgnra 5.2.
parte de los componentes principales derivados del ACP. Éstos se ntilizan como los fac-
tores originales, factores "no rotados" (Manly, 1990). Posteriormente se procederá a
la rotación factorial y a la obtención del modelo AFC.

5.3. La obtención de nn modelo factorial explorativo: fases principales

La consecnción de un modelo factorial exploratorio snpone el cumplimiento de nna


serie de fases principales. Éstas pueden resumirse en cinco:

1. La fase previa de preparación de los datos para el análisis. Comprende la


comprobación de los supuestos básicos para nna correcta aplicación del análi-
sis factorial. A ello se snma una serie de decisiones clave. Desde la elección de
c, ez e3 e4 variables hasta qué matriz emplear: la matriz de covarianzas o la de correla-
dones. Esta decisión está bastante determinada por las características de las va-
Figura 5.2. Representación de un modelo de factor común. riables incluidas en el análisis. Si el investigador ha decidido proceder a la es,
tandarización de las variables, con el objetivo de garantizar su equivalenciá
inicial previo a la realización de los análisis (el cálcnlo de los pesos o coeficientes
Si se comparan los modelos matemáticos de AFC y ACP, i;~~~;:"da~a~~~a:x~;~::~ factoriales en las estructuras latentes, sean factores comnnes o componen-
5.1 y 5.2, se verá que ambos difieren. En ACP I~S va:xap~~~:;~dic~dores como función tes), la matriz elegida será la matriz de correlaciones. En cambio, si prefiere que
en función de los indicadores. Lo que n? ~qU1va e a AFC las variables participen en los análisis en su unidad de medición original"sne-
de variables latentes (factor común Y ¿¡mco), co,n: o sucede en I . ismasáreaS. de le recomendarse la matriz de covarianzas.
Pese a sus diferencias, ambos modelos anahtrcos comparen t .. ~sd·m. . d' lo's va;
.' .. 1 d imilares Esto suce e cuan o ; 2. La extracción de los factores o com.ponentes iniciales. Esta fase incluye dos de-
aplicación. Incluso pueden alcanzarseEe.sllta, (~s~........... d' . ~ .de van'ables En ca- cisiones clave para la obtención de los modelos factoriales. Primero, el proce-
. .. . . 1 .ste un eleva o numero . .
lores de comunalldad se aproXlman a o eXl ... ...... .... .... " ( " a O) o dim.iento a segnir en la extracción de factores: componentes principales, ejes
ario especialmente cuaildo las comunalidades son peqneñas proXllnas ,
so contr , principales, mínimos cnadrados nO ponderados, mínimos cuadrados generali-
varían considerablemente, los modelos ACP y AFC d'f' llel en bastante .
438 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 5: Análisis factorial 439

zados, máxima verosimilitud, alfa e imagen. Segundo, los criterios a adoptar so-
bre el número de factores a retener en el modelo factorial: el criterio de raíz la-
1.' PREPARACIÓN DE LOS DATOS PARA EL ANÁLISIS
tente o autovalor, el porcentaje de varianza explicada, de caída, la significati-
vidad estadística y la interpretabilidad. Q Comprobación de los supuestos básicos del análisis factorial
3. La obtención de la matriz factorial y su interpretación. El modelo factorial ad- .. Elección de las variables predictorias
." Elección de la matriz de -datos: matriz de covarianzas y matriz de correlaciones
quiere su forma en la matriz factorial. Ésta incluye los pesos o saturaciones de
las variables observadas en cada uno de los factores o componentes no obser-
vados (estructura latente). Para facilitar su interpretación normalmente se
procede a la rotación de los ejes factoriales. La ro/ación pnede ser ortogonal (va-
T
rimax, quartimax y equimax) u oblicua (oblimin -quartimin, covarimin-, obli- 2.' LA EXTRACCIÓN DE LOS FAcrORES O COMPONENTES INICIALES
max y promax). Depende de la correlación pennltida entre los factores o lo que .. Procedimientos de extracción factorial
el investigador prevea en función de las variables incluidas en el análisis. R .. Criterios de selección del número de factores
4. La evaluación del modelo factorial, desde la vertiente estadística y la lógica-sus- E
tantiva. En caso afirmativo se puede dar por concluido el análisis o proceder, si
se quiere, al cálculo de las puntuaciones factoriales. En caso negativo, habría que
P
L
A
l
volver a las fases previas del análisis para comprobar a qué se debe su no 3.'
N LA OBTENCIÓN DE LA MAlRIZFACTORIAL YSU INTERPRETACIÓN
adecuación y adoptar alguna medida al respecto.
T .. La rotación de factores: ortogonal u oblicua
5. El cálculo de las puntuaciones factoriales (para cada caso). Esta fase, a diferencia
E
de las precedentes, no es imprescindible para la consecución de un modelo fac-
~
A
torial exploratorio. Sólo cuando los resultados del análisis factorial van a ser ob-
R
jeto de análisis mediante otras técnicas de análisis multivariable (regresión múl-
tiple, análisis discriminante, factorial confirmatorio u otro). 4.' EVALUACIÓN DEL MODELO FAcrORIAL OBTENIDO

La figura 5.3. recoge estas cinco fases esenciales en un análisis factorial exploratorio
en forma de gráfico. En las páginas siguientes se detalla cada uno de los integrantes de
un análisis factorial.
/~
I l
~I
Negativa Positiva CONCLUSIÓN

~
DEL ANÁLISIS

Introducción de
5.4. Preparación de los datos para el análisis modificaciones

Como en todo procedimiento analítico, la antesala del análisis factorial exploratorio


es la comprobación de la pertinencia de optar por esta modalidad analítica para cubrir 4.' CÁLCULO DE PUNTUACIONES
los objetivos de investigación. Se comprueba su adecuación tanto respecto a los ob- FACTORIALES
jetivos de estudio como a las características de los datos que se quiere analizar. Ello lle-
va a verificar el cumplimiento de los supuestos básicos para la correcta realización del
Figura 5.3. Fases esenciales de un análisis factorial exploratorio.
análisis factorial.

A) Tamaño muestral elevado


5.4.1. Los supuestos básicos y decisiones clave
El análisis factorial, como técnica de análisis multivariable, exige que el tamaño
Los supuestos básicos que garantizan el correcto desarrollo del análisis factorial ex-
muestral sea elevado. Las muestras pequeñas están más predispuestas a estimaciones
ploratorio (tradicional) cabe resumirlos en cuatro: de los coeficientes de correlación infiables. Pero, ¿cuál es el tamaño mínimo reco-
440 Análisis multivariable. Teoría y práctica ellla investigación social Capitulo 5: Análisis factorial 441

mendado? Comrey (1973a) propone una escala mucstral guía que va desde 50 casos gase present~ que este supuesto, al igual que el anterior, sólo se exige para la realización
(que se considera un tamaño muestral "muy pobre") hasta 1.000 (que representa un de un análISIS factonal métrico. En los no métricos dicho supuesto se relaja.
tamaño muestral "excelente"). Entre ambos extremos se sitúan los tamaños muestrales
de 1.00 ("pobres"), 200 ("justo"), 300 ("bueno") y 500 ("muy bueno"). En suma, entre
200 y 300 casos se sitúa el tamaño mínimo recomendado para un desarrollo adecuado D) Correlación entre las variables
del análisis factorial. Pero, como sucede en otros procedimientos analíticos expuestos,
lo más preciso es considerar el tamaño muestral en relación con el núm~ro de varia- A ,diferencia de otros análisis multivariables, COmo regresión o discriminante, en
bles a analizar. Tabachnick y Fidell (1989) proponen, como regla, que eXista almeno~ los anahslsfactonales la multicolinealidad no es un problema. Al contrario, se demanda>
5 casos por variable. Éste sería el mínimo. Cuanto más se supere esta proporción, me- la eXistencia de c~r:elación entre las variables. Los análisis son pertinentes sólo cuan:
jor porque ayuda a la obtención de estimaciones muestrales estables. do eXiste correl~clOn entre las vanables: al menos <: ,30. Si de la inspección de la ma-
tnz de correlaclOn R se observa que ninguna o muy pocas correlaciones superan el va-
lor 0,30, se debería desconsiderar la aplicación de un análisis factorial. Las variables
B) Normalidad multivariable apenas están correlacionadas. Por lo que, no tiene sentido la búsqueda de estructuras
latentes (llámense factores comunes o componentes principales), que agrupan a va-
Todas las variables observadas y sus combinaciones lineales han de estar distribuidas nables observadas (o mdlcadores), correlacionadas entre sí, que expresan una misma
normalmente. Aunque ACP y AFC se emplean con una finalidad eminentemente dImenSión del concepto que se mida. En cambio, a medida que aumenta la correlación
descriptiva (sintetizar las relaciones entre un conjunto amplio de variabks), loque no entre l?s mdlcadores (desde 0,30 hasta 1,0), se incrementa la probabilidad de que su
demanda el cumplimiento obligatorio del supuesto de normalidad, su eXlstencra favQ- contemdo (vananza) pueda smtetlzarse en un número bastante inferior de factores o
rece la obtención de un modelo factorial más preciso. Máxime cuando se recurre a la m- componentes. Si bien, hay que advertir que la existencia de correlación elevada entre
ferencia estadística para la determinación·elel número de factores a retener. El recur- pares de variables, por separado, no siempre garantiza la existencia de factores· como
so a procedimientos de extracción habituales en AFC, como los llamados "máxim¡¡¡ se verá en el subapartado 5.4.3, dedicado a la matriz de correlación. '
verosimilitud" (ML) o "minimos(;l1ad!~ggs::,!'xige elcUII)Rlimielltºdel~llPll"s:o de nor-.
malidad multivariable. En ACP, este segundo supuesto noes un reqmsJtobaslco para . • ~demás d,ecomprobar estos cuatro supuestos mínimos, antes de proceder a la
su ejecución, aunque la asimetría severa puede distorsionar los resultados. eJeCUClOn del analrsls factonal, se deberán adoptar algunas decisiones importantes. En-
En el subapartado 1.1.6 se resumen los procedimientos más seguidos en la detec- tre ellas la refenda al tratamrento de los casos sin respuesta: si incluirlos o eliminarlos
ción del supuesto de normalidad, junto a los remedios más aplicados ante su mcum- del análisis. Sobre este particular, se actúa siguiendo las pautas resumidas en capítu-
plimiento. La salida de la normalidad se relaciona con estimaciones sesgadas de es- los precedentes. En especlal, el subapartado 1.3.1, donde se ofrece Una información más
tadísticos como la media, la desviación típica, la correlación o la covananza, por detallada del tratamiento de los casos sin respuesta.
ejemplo. De ahí la exigencia de introducir alguna transformación en las variables que Otra decisión clave conciernc a la estandarización de las variables observadas. An-
se distancian de la normalidad para evitar su incidencia negativa en los resultados del tes de comenzar los análisis, ha de decidirse si las variables van a analizarse en su uni-
análisis. Para no redundar en temas ya tratados, se rcmite a la relectura del susodicho dad original de medición o, por el contrario, va a procederse a su estandarización. Co-
subapartado. mo ya se ha mencionado CO~. anterioridad, la estandarización es una buena opción
porque favorece la comparabilidad de las variables. En el análisis factorial en concreto
es la opción más practicada. Previo a la realización del auálisis, se estand~rizan las va:
C) Linealidad riables observadas, dividiendo cada una de ellas por su desviación típica estimada. De
esta forma se evita la incidencia desigual de la unidad de medición de las variables
La normalidad multivariable lleva a un tercer supuesto básico: la linealidad. Las n';~ Las variables muy hetcrogénas (con elevada varianza) logran mayores pesos en el fa~­
laciones entre pares de variables han de ser lineales. En caso contrario, se estaría igual- tor o componente que las ho~ogéneas (aquellas con escasa variabilidad). La cuantía de
mente ante un análisis sesgado. la vananza depende de la umdad de medida de la variable. Si se compara, por ejemplo,
Asimismo, se asume que las relaciones entre las variables observadas y los factores la lll:rdenCla de la vanable "ingresos" (medida en pesetas) con la variable "edad" (medida
latentes, representadas en un sistema de ecuaciones, ha de ser también lineal. El cum- en anos), lo normal es que la varianza de la primera variablc supere a la segunda, re-
plimiento de este supuesto suele realizarse con la ayuda de los gráficos referidos en el per~utlendo ~n el modelo factonal; e mcluso la varianza de la misma variable "ingresos"
subapartado 1.1.4, donde también se indican remedios ante la "no linealidad". Pero, tén- sera mayor, Sl se halla medida en pesetas que cuando está en dólares o en euros.
CapítuLo 5: Análísis faaorial 443
442 Análisis multivariable. Teoría y práctica en la investigación ~ocial

. I dan transformadas a unidades de Las comunalidades h¡ (para X;, siendo i = 1,2,3 ... , p) son las correlaciones múlti-
Con la estandarización de las vanab es, que que T' De esta forma
ples cuadradas de cada variable Con el resto de las variables en el análisis. Su valor ab-
desviación típica, se las sitúa en un plano de 19~ald~d I~~teci~!:~: ~~s~ariables de dis-
se posibilita el tratamiento conjunto y comparatlvo e a m soluto es el más elevado en cada fila de la matriz de correlaciones. Los "r." son los coe"!
. "
ficientes de correlación producto-momento de Pearson usuales, que se calculan para.
tinto grado de heterogeneidad. . " . ' l ' t' "in ut" (de entrada) . cada par de indicadores (subapartado 1.3.2). La matriz de correlaciones en ACP sería
La estandarización tiene su repercuslon mmedl~.a ~n a ~~ ~or decide que las va-
igual salvo en la diagonal, donde figura 1 en vez de " h¡".
a elegir para la obtención de un modelo facton.al. le mves :g:erá de covarianzas. La
riables se analicen en su umdad de medIcIón ongmal, la matnz . Calculada la matriz de correlación, se procede, en primer lugar, a su inspección vi-
matriz de correlación supone que las variables estén estandanzadas. sual. La finalidad es comprobar si las variables se hallan relacionadas, y en qué grado.
El investigador espera encontrar correlaciones elevadas entre las variables, dado
que el objetivo principal del análisis es la agrupación de variables que comparten una
5.4.2. La matriz de covarianzas misma estructura latente. La correlación mínima propuesta nonnalmente es 0,30. Si la
~. , 'lares con varianzas: mayoría de las correlaciones en la matriz no excede este valor, se debería reconside-
QIa1)>i0lasv~;i~bles obs~rvadas se .en;uentran. en metnc¡~ siA,cp ~ AFC a partii rar la pertinencia del análisis factoria!. Con correlaciones pequeñas (inferiores en mag-
a enas divergentes' en cuantla; una declslon apropiada es rea iZa . nitud a 0,30) es improbable que las variables compartan suficiente varianza común pa-
P........ . .•.. ' "'. L' rt' c· a de esta matriz se cuestlOna, cuando se ana-
de la matnz de covarzanzas·
... ..... .... .'. a pe
dif men
ntes1Su elección llevana
'a d un mo e1ofacton.a!, e·u- ra constituir un factor. Por el contrario, cuando las correlaciones exceden el valor
!izan variables de vananzas muy ere . . or aquellas va- mínimo de 0,30 (mejor cuanto más próximas se sitúen del valor máximo de 1,0) pue-
yos primeros factores .o compouentes estarían
b d I
iutegrados precIsamente P .
ariables de menor vananza,
lo que de, a partir de la matriz de correlaciones, preverse que las variables correlacionadas en-
riables de mayor vanauza, eu menosca o e as v ., I enor uso de tre sí pueden componer una misma dimensión latente.

f::da~:~~~~::;~:~:~~i:~I~~~ ~~ ::~~~;:~:I~t~~!~~::~:L~~~~~:. ~~!n;


rrollado en términos de varianzas-covananzas. La mayona (
~~~~ tandari'
No obstante, hay que enfatizar que se está en el plano de la conjetura, no en la ple-
na certeza. Correlaciones bivariables elevadas no siempre garantizan la existencia de
factores. "Es posible que las correlaciones sean entre sólo dos variables y que no re-
Iler, 1978a" 1978b' DiUon y Goldstein, 1984; Dnnteman, 1989) aconscpeJ~llla es AF'C" flejen procesos latentes que estén simultáneamente afectando varias variables" (Ta-
. d l'ó tantoenA como en .
zadón y el empleo consiguiente de la mlltnz e corre ael. n, bachnick y FideIl, 1989: 604). De ahí la recomendación de examinar matrices de
, .
correlaciones parciales.
En las 1)latrices de correlaciones parciales, ]as correlaciones se ajusfan a pares para los';
5.4.3. La matriz de correlación efectos de ¡as demás variables. Si las variables c;;mparten factores comunes, los coeficientes
. bl .. a! la matriz de datos de correlacii;n parCial entre pares de variables deberían ser pequeños (próximos a 0,0), al
Cuaudo se procede a la estandarización de las vana es ongm es, l ' R( x
. f matriz de corre aClOnes p haberse elimínado los efectos lineales de las demás variables o, lo que es igua!, al haberse
brutos (N x p' de casos x vanables) se trans onna en u n a . d
p), iutegrada por las distintas correlacionese~tre ca.da par ~e vanab~: ~~!:~a:~~ to- controlado la varianza común. Estos coeficientes de correlación parcial se toman como in-
. En ACP, la diagonal principal de l~m!\!nz está,uüegra" flor un fua la varianza co- dicadores de la fuerza de la relación entre las variables. Pero, a diferencia de los coefi-
da la variabilidad de las variables. En AFCJ como unrcamente s~ ana de variables, fasi; cientes de correlación no parciales, ahora interesan CO!<ficientes muy bajos.porque denotan
to
mún la porción de varianza que cada vanable comparte ~on e res . d l''a:' la presencia de factores. Se consideran estÍnlaciones de correlación entre factores únicos
, . 1 d' 1prmclpal de la matnz e corre y, como es de esperar, la varianza única se desea que sea escasa para que pueda procederse
. d r dades analíticas'
o'.
comunalidades de cada vanable forman a... l,l1g()na.. ....... b
'dones. Ésta es la primera diferencia importante e?tre a~ aS~~ri;~e correlaCión re: a la agrupación de variables (correlacionadas) de una misma dirección latente.
En AFC lO), 1)la~riz cl~sqrrelaciofle"s~el~r"feI1r¡;ecom,?m .... . ' - 1 Para comprobar el grado de intercorrelación entre las variables y la presencia de
"R-" "R*" en vez de R Adopta la forma SIgUIente, con as
""'-' .,-- -' , . ' ..• ' : ..... " - ' ,. ','o , , ' ,,'
una estructura común latente, existen unos estadísticos que se suman a los coefi-
ducida denotándose por o,· . .
comu;alidades en la diagonal principaL cientes de correlación. Los de uso más común son:

h: rn .......... r"
A) El determinante de la matriz de correlación
r 1z h~ .......... rzp
R=
.... ,., ............... . Un valor del determinaIl!,'\cj~Jªmatriz.d"q:)ff"lación pró"ij11o a "O,O"expresa la
existen~iª d~lgtercorrelaciones mUY.,el"Y.¡ld.a§entre las variables. En esta situación, el
Capitulo 5: A ncílisis factorial 445
'reor,'" y práctica en la investigación socia!
444 Análisü' multivariable. J' .

. binaciones lineales de variables Como en todo contraste de hipótesis, la obtención de un valor;t elevado, superior
análisis factorial es pertinente, al poderse obteneI com a su correspondiente valor teórico (definido por los grados de libertad y el nivel de sig-
correlacionadas. nificación elegido), supone el rechazo de la hipótesis nula. La matriz. de correlación no
se corresponde con la matriz identidad. El análisis factorial es pertinente. En caso con-
trario, habría que optar por otra técnica de análisis.
B) La prueba de la esfericidad de Bar/ett
da a determinar si existe relación sig-
En 1950 Barlett propone una prueb~ que r':?e~a eS de utilidad en el análisis factorial, C) indice KMO (Kaiser-Meyer-Olkin)
nificativa entre las v~ables analizadas. Esta ~ante ella se ¡;omprueba la correspondencif;
al Igual que en el anahsls de la vananza. M:e¡I., "","'" " é d ue por matnz ,denll- Kaiser propone en 1970 (en "A second-generation little jiffy", Psychometrika, 35:
" 1 atnz ldenudad, Recu r ese q
de la matriz de corre1aCIOn con a m . "";;í rinci al, (que expresa la correlación de 401-415) un índice que compara las correlaciones observadas con sus correspondien-
dad Se entiende aquella matrIZ cuya dlagon p p . t s el resto de los términos' tes correlaciones parciales. La finalidad es determinar la propiedad de hacer un aná-
. . ) t' f mada por unos nuen ra '
Cada variable consIgO mIsma es.a. ort d sta matnz : . "al' a 1 (IRI - 1 Adviértase lisis factorial. El índice, cuyas siglas recoge la primera letra del nombre de sus pro-
es IgU - .
de la matriz son ceros. I.:il detefliunan e ele" se repi-ésenú entre dos barras). motores (KMO: Kaiser, Meyer y Olkin) se define en su aplicación a variables múltiples
que el determinante de la matnz de corre aCIOn mediante la siguiente ecuación:

1O O
1 .. O]
O
Matriz identidad = 1 = R = O O : O

\O O . 1
Donde: "ri/' es el coeficiente de correlación simple entre las variables i y j.
. . 1 1 hi ótesis nula (aquella que se esper~r~~
En la prueba de eójerzcldad de Bar ett a p. R =l' R=1. Significa que la mat~ "Si/' es el coeficiente de correlación parcial entre las variables i y j.
chazar) se formula en los térmmos SIgUIent~s"dHo .I Id' L~S variables nO están correl'!,
" onde con la matnz 1 entld a . , De los sumatorios se excluyen los coeficientes de correlación (simple o parcial) de
de coqe1aCLOn se corresp ,-,-~~'--;' ., es el de una nube de puntos cuya
cionac!as. El gráfico que correspo:r~e a esta sItuacIOn la o uesta: H : IRI " 1; R ,,1. Su una variable consigo misma.
forma se ajusta a una esfera. La hlpotesls alte~na:.,;, es de l~ matriz identidad. Existe co- El rango de valores va de 0,0 a 1,0. Interesan valores elevados (próximos a 1,0) por-
aceptación supone que la matnz de correla~LOn , ~ ~~:s El determinante de la matriz di- qne indican la existencia de intercorrelación entre las variables. La suma de los coeficientes
rrelación (de mayor o menor grado) entre as vana . análisis factorial. de correlación es relativamente grande comparada con la suma de los coeficientes de co-
fiere de 1. Todo lo cual indica que puede realiz~se u~ determinante de la matriz de co- rrelación parcial. El análisis factorial es posible. Valores de KMO inferiores a 0,50 sUc
En la prueba de esfericidad de Barlett se.ut IZa e 1 d t TIUll'ante de la matriz de ponen, por el contrario, la no adecnación del análisisfastgrlaJ, al haber poca correla-
d como estImador d e e el . ción entre las variables. Se obtendría un modelo factorial con tantos factores o
rrelación de la muestra o b serva a 1 t alizada Su aplicación eXIge el
" bl" 1 e pertenece a mues ra an . componentes como nÚmero de variables observadas. Con lo que no se alcalIZaría el ob-
correlaclon de la po aClon a a qu . d i ' . bl ya referido en el subapartado 5.4.L
cumplimiento del supuesto d: n:>rrnalzda mu úva~~a ~istribución chi-cuadrado, c0[11,9 jetivo fundamental del análisis factorial: la síntesis de una serie de variables empíricas
Para el contraste de _hlp~,tesd'1S ~,e ,~e~ur:e erO de variables efI la matriz de corre- en un número inferior de factores o componentes.
(P2 _ p) grados de lIbertad, sren o P e !lum .- ,._,,----- ' , Para mayor exactitud, Kaiser propone en 1974 (en "An index of factorial simpli-
lación. city", Psychometrika, 39: 31-36) la siguiente interpretación de valores KMO: 0,90, ma-
ravillosos o muy bueno; 0,80, meritorio; 0,70, medio o normal; 0,60, mediocre; 0,50, des-
2 _
B = X - -[N
_
1
_
J \\
6(2p1+ 5)
lnR preciable o bajo; y un valor < 0,50, totalmente inaceptable.
La mayoría de los programas estadísticos ofrecen el Índice KMO global (para el
conjunto de variables), calculado mediante la fórmula anterior. Pero también se
,. - te de la matriz de correlación. ofrece el valor KMO para variables individuales. Este segundo índice KMO individual
Donde: "lnIRI" eS el logaritmo nepenano del deteruunan se calcula mediante la siguiente ecuación:
"N" el número de individuos en la muestra.
Cap{tulo 5: Análisis factorial 447
446 ArtáliSis multivariable. Teoría y prácti.ca en la investigación social

influencia del resto de las variables. Sus valores son altos (próximos a 1,0), cuando las
variables comparten variabilidad.
En la matriz de correlación anti-imagen se observan las distintas correlaciones entre
las variables (fuera de la diagonal principal). Cuando estas correlaciones se aproximan a
0,0, se deduce que puede aplicarse un análisis factorial. La existencia de una elevada pro-
porción de coeficientes elevados (próximos a 1,0) desaconsejan su aplicación.
Es la suma de los cuadrados de los coeficientes de correlación entre una variable
concreta y todas las demás dividido por la suma de este valor y el sumatono de I~S ~oe­
ficientes de correlación parcial cuadrado. Pero, a diferencia del índice KMO glo, ~' ~n F) El coeficiente de correlación múltiple cuadrado (Rf)
el individual no se considera la correlación de la vari~ble consigo mism~. De ahi e ter-
. o '" ~]." En el programa SPSS los valores KMO mdividuales se obtlen~ndela,!')!';;! Una última medida del grado de relación entre las variables lo proporciona elcoe)
mm ir '. . . ' . • . ' 1 d I atflZ Toda va'
. . . .
nable que presente un v or. '-al-'" KMO m' fen' or a °
triz de correlación anti-imagen. Figuran en la diagonal ~nncip~ e a m d:d
50 debena
. ' . . . consIderarse can
.. :
1 ato a ser,
ficiente de correlación múltiple cuadrado (RJ).Las correlaciones múltiples cuadradas
han de ser elevadas, de lo contrario, se plantearía la desestimación del análisis de las
eliminado delanáÜsis factorial..La eliminación de una varIablesupoM un nuevo variables con bajos coeficientes de correlación múltiple cuadrado. Antes de proceder
cálculo del índice KMO, debido a que éste se ve afectado p~r la e]¡mmación de la va¡ a la desestimación de estas variables se aconseja comprobar sus correspondientes va-
riable Los valores KMO individuales, para las variables no elinuna?~~ cao:;blan aligua lores de comunalidad y coeficientes factoriales. Es decir, no quedarse únicamente por
que ei índice KMO global, cuando se elimina una variable del ana]¡sis. Veanse los da- lo dicho por esta medida ele correlación.
tos del ejemplo siguiente. Los valores de los coeficientes de correlación múltiple cuadrado coinCiden con las'
c,?,!,unalidades "inidales" de cada variable, salvo cuando las dimensionesiiliente,is~'!
éxt;¡¡eil medÚmte componentes principales.,E;' ACP las comunalidades iniciales son 1,0,
D) Medida de adecuación de la muestra (MSA) al no diferenciarse a priori entre varianza común y especifica (o única). A ello se suma
que en la estimación de las comunalidades iniciales se consideran "todos los compo-
Esta medida de adecuación muestral (MSA i: "Measure of Sampling Adequancy") nentes pósibles". Éstos igualan al número de variables empíricas. En la estimación de
se calcula para cada vana . diVI'dual, de founa similar al índice KMO
. ble m . mdiVIdual.
. 1 Se com-
I laS.comunalidtldeijJpster~ores ya no sucede así. Éste es un aspecto clave que distingue
ara ara cada variable por separado, un coeficiente de correlación Sl!;'P e con e co- al ACP de AFC. En AFC las estimaciones iniciales de comunalidad sí reflejan varianza
~es~!ndiente coeficiente de correlación parcial. Para cada variable la founula es la SI- común: la proporción de la varianza total de Xi que es explicada por la regresión en las
guiente: "p - 1" variables restantes. Dicho con otras palabras, con correlaciones múltiples
cuadradas de caela variable observada Xi' que actúa a modo de variable dependiente,
siendo las "p - 1" variables restantes las independientes.
Diversos programas estadísticos, como SPSS, muestran estos coeficientes de co-
rrelación múltiple cuadrado para cada variable en una columna de la tabla de comu-
nalidad o incluida en la tabla de estadísticos iniciales. La comunalidad se comentan,
además;eñ el apartado 5.6.
índice KMO en MSA. se excluyen de los sumatorios los casoS en que
Como en el " . l ' bl s adecuada
i = j. Asimismo, interesan valores próximos a 1,0. Indican que a vana e e .
para su inclusión en un análisis factorial. Encambio, valores próximos a 0,0 aconsejan
la desestimación de la variable para el anáhsis.

E) Correlación anti-imagen (AlC) Las mismas 14 variables utilizadas en el análisis de conglomerados jerárquico de vin-
culación simple (capítulo3) vuelven a analizarse mediante distintos procedimientos factoriales,
Es el negativo del !X'"ficiellte!desorr~la9?,?pW:si!'-J.J?e.modo ~ue interes,,:: ~:o:,:~ en busca de su validación. Si bien, se parte de que puede haber discrepancias entre los dis-
AIC bajos para que J?uec!aEealiz,,:_~s,,_!:'rr.~l!.a!!~lsJact,~iaJ, Recuerdese que I s d I tintos modelos, principalmente, debido a que el análisis de conglomerados realizado es "je-
lacioneSparciales lñiden la correlación entre dos vanables cuando se ha ehmma o a
Capitulo 5: Análisis factorial 449
448 Análisis multivariable, Teoría y práctica en la inve,s·tigaci6n social

rárquico", lo que lleva a la agrupación de las variables por "etapas", en. función de la correlación La correcta realización de esta prueba exige el cumplimiento del supuesto de normalidad muf-
existente entre ellas. En el análisis factorial, por el contrario, las relaCIones entre todas las va~ tivarible.
riables se analizan simultáneamente. No obstante, a lo largo del presente capítulo podrá com- El valor x" aproximado obtenido es 3.270,734, con 91 grados de libertad. Recuérdese que
probarse la similitud de la agrupación de las variables obtenída en los distintos procedimientos los grados de libertad son iguales a 1/2 (p2 - p) ~ 1/2 (142 - 14) ~ 91. Al ser el nivel de sig-
analíticos, pudiéndose reafirmar el modelo de agrupación de las variables que resulta del aná- nificación asociado pequeño (el valor X2 empírico supera bastante al correspondiente valor
lisis de conglomerados. Para su constatación, se recomienda comparar los resultados de los teórico), se rechaza la Ho incluso a un nivel de significación de ,001. La matriz de correlación
no coincide con la matriz identidad. El análisis factorial es posible al haber correlación sufi-
distintos análisis: conglomerados (capítulo 3) y factorial.. '.
Como las variables analizadas son las mismas que se han Ido observando mediante dis- ciente entre las variables.
tintos procedimientos analíticos, no se va a repetir información ya proporcionada en los ca-
pitulas precedentes (es el caso, por ejemplo, de la matriz de correlaciones, ya expuesta en e) El índice KMO (Kaiser-Meyer-Olkin)
el capítulo 1). Los datos que van a comentarse en el presente cap(tul~ se limitan a lo espe-
cIfico del análisis factorial, como lo correspondiente a la comprobaclon d~1 grado de rnter- Este índice global compara las magnitudes de los coeficientes de correlación observa-
correlación entre las variables y la presencia de una estructura latente comun que permita la dos con los coeficientes de correlación parcial. Al ser el valor obtenido ,821 (valor que Kai-
obtención de un modelo factorial. ser calificaría de "meritorio"), significa que puede realizarse un análisis factorial porque las
En el subapartado 1.3.2 figura la matriz de correlaciones de las 14 variables de interés, correlaciones entre pares de variables pueden explicarse por otras variables.
a las que se añade una variable ahora excluida para que los resultados pueda~, comp~rarse Respecto a los valores KMO individuales, éstos figuran en la diagonal principal de la ma-
con los obtenidos en el análisis de conglomerados. Se trata de la vanable X5 ( slmpatlaha- triz de correlación anti-imagen respectiva (tabla A).
cia latinoamericano"), que fue eliminada para evitar problemas de colmealidad en la aplica- Como todas las variables presentan un valor KMO superior a ,50 (el valor KMO más ba-
ción posterior del análisis discriminante. . jo es ,545, que corresponde a la variable "sexo", y el más alto es ,895, en la variable "inmi-
En la matriz de correlaciones puede comprobarse que, aunque las correlaCiones no son grante delincuente"), no es necesario eliminar ninguna variable antes de realizar el análisis
en general muy elevadas -la más alta se da entre las va~iables X'3 ("~:cino n;arroquP') y "~1O factorial. Todas las variables muestran ser idóneas para participar en el análisis.
("casar con marroqur'): r ~ ,573; seguida de la correlaclon entre X'5 ( slmpatla mar;oqur ) y Además, en la matriz de correlación anli-imagen obsérvese que los coeficientes obtenidos
X" ("casar con marroqur'): r ~ ,476-, son muchas las que superan el referente mmlmo de son, en su mayoría, valores próximos a 0,0. Lo que nuevamente indica la adecuación de los
±,30, que indica la posibilidad de encontrar una estr.uctura .Iatente en los datos, que permita datos para la realización del análisis factorial. Recuérdese que la correlación anti-imagen (AIC)
la síntesis de las 14 variables observadas en un numero mfenor de vanables latentes (lIa- se define como el negativo del coeficiente de correlación parcial (que mide la correlación en-
mense factores comunes o componentes). Aunque, hay que advertir que la existencia de tre dos variables, una vez eliminada la influencia del resto de las variables). Cuanto más ba-
correlaciones elevadas entre pares de variables (como se registra en la matriz de correla- jo sea su valor, más varianza comparten las variables.
ciones) no siempre garantiza la existencia de dimensiones latentes Hn los datos. Para
constatarlo hay que proceder a la realización del análisis factonal, que eXige que previamente D) Coeficientes de correlación múltiple cuadrados
se haya comprobado la existencia de interrelaciones mínimas entre las vanables que permita
su realización. A tal fin, se calcula: Los coeficientes de correlación múltiple cuadrados se obtienen para el análisis de factor
común, al diferenciarse entre varianza común y especffica. En la salida SPSS (versión
A) El determinante de la matriz de correlaciones 10.0) figuran en la tabla de comunalidades, en la columna correspondiente a las comunalida-
des íniciales. La tabla B corresponde al método de factorización de ejes principales. De ella só-
El valor obtenido es ,07667, un valor próximo a 0,0, que indica la existencia de inter- lo interesa ahora las comunalidades "iniciales", que son independientes del método de ex-
correlaciones muy elevadas entre las variables. Como el valor en realidad obtenido no es tracción de factores comunes utilizado.
exactamente O, puede afirmarse que sí existen intercorrelaciones, aUr:<lue n? dem~s~ado ele~ Las comunalidades iniciales se corresponde con valores R'f (coeficientes de correlación
vadas entre las variables. Ello permite la realización del análisis factonal. EXiste sufiCiente va- múltiple cuadrados) que se obtienen de regresionar las demás variables respecto de la que
rianza común de las variables que ayude a su agrupación u obtención de combinaciones !I- se calcula su comunalidad inicial. Es como si se realizase un análisis de regresión tomando,
neales de variables "correlacionadas". la variable en cuestión como la dependiente y el resto como las independientes. En ACP la
comunalidad inicial no es de Interés, al ser siempre 1,0, debido a que no se diferencia entre
varianza "común" y "específica", como se hace en AFe.
B) La prueba de la esfericidad de Bar/letl En AFC, la comuna/idad inicial dice la proporción de varianza de la variable que es ex-
plicada por las demás variables que participan del análisis. Interesan valores elevados, pró-
Mediante ella se comprueba la Ho de ~ue la matriz de correlaciones es una matr:z
ximos a 1,0, porque indican que la variable es "adecuada" para incluirse en el análisis factorial.
identidad (en tal caso, las variables no estanan correlaCionadas) frente a la H,. que niega a
Por el contrario, valores próximos a 0,0 pueden llevar a considerar su eliminación del análi-
existencia de dicha correspondencia (lo que favorece la realización de un anallsls factonal).
450 Análisis multivariable. Teorfa y práctica en la investigación social Capítulo 5: Análisis factorial 451

Tabla A Matriz de correlación anti-imagen viene comprobar la solución factorial que resulta de su inclusión en el análisis. En cambio, las
variables "casar con marroquí" (Ff' = ,429), "vecino marroquí" (Ff' = ,368) Y "estudios" (Ff' =
X, X, X, X, X, X, X X, X" X" X" X" X" ,351) son las tres variables cuya variabilidad puede prevenirse más por el conjunto de las va-
x"
-,009 ,119 -,069 ,054 ,044 ,269 ,031 ,029 ,125 ,056 riables consideradas.
X" ,873a -,107 -,008 ,052 ,038
-,000 ,159 -,076 ,194 -,037 ,017 -,032 -,057 ,092 En general, las comunalidades iniciales son bajas. Ninguna variable llega a sobrepasar, e
X, ,873'" ,107 ,033 -,002 -,050
,012 -,021 -,113 -,032 -,012 -,104
X, ,793'" ,048 -,091 '-,053
-,030 -,063
incluso obtener, 'Ia mitad de sO varianza determinada por el resto de variables. Además, se ad·
-,018 ,075 -,089 -,086
X, ;545a ,017 ,038 ,027 -,031
vierte que, como las comunalidades iniciales se distancian del valor ideal de 1,0, se prevé que
,750a ,031 -,041 ,000 -,077 ,336 ,116 -,023 -,096
X, ,000
-,047 -,025 ,093 ,110 ,002 -,151 la solución de factor común (en este caso de factorización de ejes principales) diferirá de la al-
X, ,878'" ,098 -,043
,885a ,226 ,047 ,045 -,063 -,013 ,055 ,078 canzada mediante ACP. Las comunalidades de "extracción" se explican en el apartado 5.6.
X, -,1.25 -,058 -,010 ,057 -,042 -,118
X, ,864
,884'" -,041 ,045 ,007 -,118 -,033
X, ,776a -,009 -,066 -,436 -,082
X" ,719 a -,361 -,016 ,052
X" ,708'" ,005 -,012 5.5. La extracción de factores comunes o componentes principales
X" ,790'" ,006
X" ,B9Sa
X" Una vez comprobado que el análisis factorial puede llevarse a efecto con las va-
a Medida de adecuación muestral . ~ ,. ¡ off "(P39)" X . ~
riables de interés y que se cumplen los supuestos necesarios para su correcta realiza-
.. X "simpatía hacia norteafricano (marroquLt (P201); X{. "leyes inmigradon (P16); X:>.: ~deolog a p ,,1 Ica . '. 3' se;, ción, la segunda fase del proceso de análisis corresponde a la extracción de factores o
xii (P41); X : "edad" (P42); >\,: "número de inmigrantes" (P11); X7: ~regu!a~~ar a ¡~m,i,grantes~. (Pl~~i. X8: enl~~da In~lgra,~tes.
(P21); X : "partido racista~ (P3?); X : "casar con marroquí" (P30e); Xli: estudiOS (P43a), XI:>" Ingresos (P52), X13• 've componentes, depende de la modalídad de análisis factorial que se elija. Esta fase in-
g lO
cino marroquí" (PS06); X14: "inmigrante delincuente" (P2904). cluye también decisiones clave. En este caso referidas al método de extracción de fac-
tores a seguir, además de los criterios a seguir en la determinación del número de factores
sis porque no comparte suficiente varianza con otras variables que permita su agrupación en que compondrán el modelo factoriaL Ambos aspectos son relevantes en la resolución
una misma dimensión latente. del análisis y merecen uu tratamiento detallado,
Tabla B. Comunalidades

Inicial Extracción 5.5.1, Procedimientos de extracción factorial

simpatía marroqu í ,316 ,380


,251 ,332 Los distintos programas estadísticos ofrecen una amplia variedad de métodos
leyes inmigración
ideología política 8,422E-02 ,335 para la extracción de factores. Los más habituales Son los siguientes:
sexo 3,300E·02 3,429E-02
edad ',234 ,335
a) Componentes principales
n.!;> inmigrantes .246 ,304
,232 ,312 b) Ejes principales o factor principal
regularizar inmigrante
entrada inmigrante ,286 ,393 c) Máxima verosimilitud
partido racista ,140 ,155 d) Mínimos cuadrados no ponderados o generalizados
casar con marroquí ,429 ,687
e) Factorización alfa
estudios ,351 ,611
,264 ,400 f) Factorización imagen
ingresos
vecino marroquí ,368 ,483
inmigrante delincuente ,221 ,270 Exceptuando el primer procedimiento (que supone la realización de un ACP), los cin-
co restantes se aplican en la consecución de un modelo analítico AFe Dillon y Goldstein
Método de extracción: Fadorización de ejes principales.
(1984: 73) destacan dos procedimientos, el llamado "factor principal", junto al de "máxima
verosimilitud", corno "los más ampliamente utilizados y estudiados. El primer método es el
En la tabla B puede observarse que hay tres variables \,sexd', "ideología política" y"par- más antiguo de los dos y frecuentemente se confunde con el análisis de componentes
tido racista"), en especial las dos primeras, cuya variabilidad apenas s~ ve afectada por el res- principales. El segundo método es el único para la extracción factorial que corrientemen-
to de variables incluidas en el análi.sis (el 3%, el 8% y el 14% de su vananza, respectivamente, te proporciona una base estadística razonable para comprobar la adecuación del modelo ana-
es explicada por las alias variables). Puede considerarse su eliminación, aunque antes con· lítico de factor común básico", Para poder valorar estas afirmaciones, se remite al lector a
452 Análisis multivariable. Teoría y práctica en la investigación social
Capftulo 5: A nált:\"is factoriaL 453

la lectura de los rasgos definitorios de cada uno de los procedimientos de extracción factorial
ta ~atriz se caracteriza por estar corn uesta de las.' . .. .
que a continuación se detallan, nalzdad de cada variable Es!' p , estllnaclOnes mlclales de la com,,-
" ' -- as comunalzdades se d ' d'
to IteratIvo con las correlaciones m 'It' I " en van me Jante un procedimien-
, ' u Ip es cuadradas de cad ' bl
A) Componentes principales mas vana bies empíricas emplead' a vana e con todas las de-
, ' as como valores de partida d l' ' ,,
como algontmo en la estimación d i ' - , e a mteracclon, Es decir,
A . e os tactores comunes
A las características definitorias de ACP resumidas en el subapartado 5.2,1 hay que partIr de la matriz de correlación reducida' .
añadir algunas consideraciones relacionadas con el procedimiento de extracción de res La condición que se I'mpone ' se procede a la extraccIón de facto-
es que sea máx I "
componentes principales, comunalidad totaL Primero se elig l ' b Ima a contnbuclón de cada factor a la
ACp, al igual que AFC, trata de la combinación lineal de una serie de variables em- ciones de los datos es máxima D e e éeJe so re el cual la variabilidad de las proyec-
'"
bIhdad . , espu s, se escoge el segu d '
píricas correlacionadas en una serie de variables latentes (no observadas) no correlacio- reSIdual (o restante) de l ' n o eje en el que la varia-
a proyeccIón sea m" y' ,
nadas, que reciben el nombre de componentes principales, Pero ambos modelos analíticos ('Una regla a considerar es extractar faet 1 aXlma., aS1, suceSIvamente.
difieren en el estudio que hacen de la varianza de las variables, En ACP se analiza toda la se aproxime a la comunalidad total" (Ull or~ ;~staque la Suma de los autovalores
varianza, no sólo la compartida como hace AFC De los componentes se pide que extracten programas estadísticos generan coefjcienlte~l~ y t o 1stem, 1984: 74), La mayoría de los
la mayor proporción de varianza de la serie original de datos, El primer componente prin- que la contribución de cada facto I ac ona es (A,) para cada factor de manera
cipal está integrado por aquella combinación lineal de vadables que explica la mayor can- En suma, este segundo métodroad'eaecx,otmuna!,ddad total sea la mayor posible,
, , 1es en que factoriza la com
prmclpa l'd d
raCClOn e factores d'f' Ilele , d e componentes
tidad de varianza en la muestra analizada, El segundo componente reúne la combinación , una I a total que obv' "
lineal de variables que explica la mayor proporción de varianza residual (la que queda sin nanza total. Por esta razón no so d ,lamente, es mfenor a la va-
explicar por el primer componente pdncipal), con la condición de que no esté correla- salida de ACP sea superior'al obterprden e ql Ue el valor de la comunalidad total en una
m o en a extraccIón defi t " ,
cionada COn la primera combinación de variables que forman el primer componente, Los se observa que los coeficientes factoriales (o "f ' ac ~r prIncLJ)al. ASImismo,
componentes posteriores también han de ser ortogonales (no correlacionados entre sí) y este segundo procedimiento depe d d'f actor loadmgs ) calculados mediante
" n en, a 1 erencIa de comp
secuencialmente explican cada vez menos proporción de varianza residuaL numero de factores extraídos, onen t es " ,
prInCIpales, del
En principio, en ACP pueden extractarse tantos componentes como variables ob- Además, como el análisis factorial de e'es ' , ' ,
servadas, Pero, si se quiere que el modelo analítico cumpla los objetivos de parsimo- reducida (o a¡'ustada) las comunal'd d J prInCIpales parte de la matnz de correlación
, ' I a es que componen di 1"
nia y simplicidad, deberá contener un número de componentes inferior al de variables conSIderablemente inferiores a 1 O E , s u agona pnnclpal pueden ser
valores negativos a diferencia de ACP. An
" n consecuencIa , a pOSl, ad de obtener auto-
cabe I 'biJi'd
observada~, Su número lo decide el porcentaje de valianza de las variables empílicas
que logren explicar, además de otras consideraciones resumidas en el subapartado 5.5.2, es incluirlos en I~s análisis junto a lo' f tte estos autovalores negativos el proceder habitual
'"
L as d uerencras " s ac ores a ellos relacionados
Por último; añadir que ACP puede aplicarse de forma aislada o en conjunción con destacadas entre ACP el " ' , " ,
AFC Varios autores (como Tabachnick y Fidell, 1989; o Afifi y Clark, 1990) reco- cuanto más se distancien los valores de y !'dandalidsls de factor prinCIpal se agudizan
, , " comuna I a e 1 O Sila !'d
miendan la aplicación de ACP como paso previo a AFC Este proceder favorece Xlman en maQllJtud a la unidad la d' t ' " s comuna I ades se apro-
b , 18 anCla entre ambos di'"
que el investigador disponga de información previa sobre valianza compartida, número acontece cuando el número de faet mo e os se mmUUlza, Lo mismo
, , ores extractados mediante el d"
de factores y su naturaleza, que será de interés para indagaciones posteriores, prinCIpal se aproxima al número de·van' bl ' ' proce umento de eje
, a es empmcas ("p") E b ' ,
!Jenen resultados similares realizando ACP ,' , , n am as SItuaCIones se ob-
y un analisls de factor principal.
B) Ejes principales o factor principal
C) Máxima verosimilitud
"En términos de métodos de extracción de factores iniciales, la solución de factor
principal iterativa es el método empleado con más frecuencia por los cientificos sociales,
Este tercer procedimiento de ·extracció f . ' "
los principales usumos del análisis factorial" (Afifi y Clark, 1990: 408), De hecho, "la años cuarenta, de la mano de Lawiey De lo~d actonal, llene su desarrollo inicial en los
mayoría de los tratamientos de análisis factorial identifican el modelo de factor común damentales: , o s antenores difiere en dos aspectos fun-
mediante un procedimiento de factorización de eje principal" (Kim y Mueller, 1978b:
21),
1. Req uiere que las "p" variables e "
A diferencia de ACp, ahora sólo se analiza la varianza común o compartida, lo que Ni ACP ni el método defiact mpmclas cumplan el supuesto de normalidad
incide en el empleo de la matriz de correlación reducida, La diagonal principal de es- or prll'lC/papreCIsa ' . '" .
puesto, Hecho que incide en qu' l' , d' , n, para su eJecuclOn, de este su-
e e pToce lmIento de máxima verosimilitud se
454 Análisis multivariable. Teoria y práctica en la investigación social Capitulo 5: Análisis factorial 455

convierta en una opción deseable, sólo cuando se esté ante distribuciones 1. La probabilidad de producir la matriz de correlación observada.
normales. 2. La correlación canónica entre los k factores y las p variables empíricas.
2. El cumplimiento del supuesto de normalidad permite la inferencia estadística: 3. El determmante de la matnz de correlación parcial.
las pruebas de hipótesis y la estimación de los parámetros pob}aclOnales (m-
tervalos de confianza), a partir de las estimaciones muestrales. Esta e~ su prm- Dependiend~ de qué aspecto se prime, scestará ante una u otra variedad del pro-
cipal ventaja frente a los demás procedimientos de extraccIón factonaL cedimIento de max¡ma veros¡m¡[¡tud: la factorización canónica de Rao o actuaciones di-
Para ello se aplica una prueba de chi-cuadrado propuesto por Barletl en ngldas a IUcrementar los d~t,erminantes de la matriz de correlación parcial residual.
1954, con "1/2 [(P - k)2 - P - k]" grados de libertad (sier:do "p': el número de . De nuevo, la con~ecuciOn de un modelo factorial resulta del empleo de Un algo-
variables empíricas y "k" el número de factores). MedIante dIcha prueba se ntmo lteratLVO. Ademas, las correlacIones se ponderan por el inverso de la varianza úni-
comprueba si el modelo factorial obtenido en la muest~a logra la confIgura- ca de las vanables, obteméndose un modelo factorial distinto del alcanzado median-
ción exaCta de los parámetros poblacionáles. Es decir, SI puede generalizarse te otros procedimientos.
a la población a la que pertenece la muestra. Para este propósito se comparan Aunque también se consideran las correlaciones múltiples cuadradas como esti-
las correlaciones calculadas en la muestra con las reproducIdas a partir de los maCiOnes de las comunalidades iniciales, dichas estimaciones de comunalidad suelen
coeficientes factoriales de cada variable empírica en cada factor del modelo ser mfenores a las alcanzadas mediante otros métodos factoriales. Las varianzas úni-
factoriaL . cas (tratadas como varianzas de "cuasi-error") serán más elevadas. Los factores co-
La hipótesis nula afirma que se ha logrado extractar toda lá, var:anza po- mun~~ suelen exp~lC~r una proporción inferior de la varianza entre todas las variables
blacional mediante los factores obtenidos en la muestra. La hlpotesls alterna- empmcas. Y, por Ultlr:'0' los pesos o coeficientes factoriales serán, en general, más ele-
tiva es la negación de la anterior. Si a un nivel de probabilidad e~pecífico (díg~se vados en aquellos mdlcadores (o variables empíricas) de mayor comunalidad y por tan-
del usual a = ,05 o el más restrictivo a = ,01), el valor i! empmco resulta sIg- to, de menor varianza única. '
nificativo (superior al correspondiente valor X2 teórico), se rechaza la hipóte- En resumen, el análisis factorial de máxima verosimilitud permite, frente a otros pro-
sis nula. Lo cual significa que las predicciones a partIr del modelo con los cedImIentos factonales, comprobar la bondad de ajuste de un modelo factorial concre-
factores extractados no son buenas estimaciones de las correlacIOnes observadas to a una matriz ,muestral de varianza o de correlación. En su contra está la necesidad de
entre las variables. Se debería incrementar el número de factores en el mode- especifIcar el numero de factores a extractar. Este hecho incide en su mayor adecuación
lo para lograr reproducir adecuadamente las correlaciones entre las variables a la vanedad factonal confirmatoria, aunque no restringe su aplicación a la exploratoria.
originales. Esto suele ocurrir cuando en la matriz residual aún queda vananza
significativa no explicada por algún factor.
D) Mínimos cuadrados 'lO ponderados y generalizados
En este método factorial es habitual incrementar el número de factores hasta al-
canzar un buen ajuste del modelo a los datos, a un nivel de significación;:' ,05. Este. pro- . Los procedimientos factoriales de mínimos cuadrados tuvieron un desarrollo ini-
ceder se convierte en su peor crítica: el confiar únicamente en la ~rueba d~ slgmf¡ca- CIal e~, los añossesenta. Primero, de la mano de Comrey, en un artículo publicado en
tividad puede llevar a la consecución de un modelo de factor comun con mas factores 1962 ( The rnmlmum resIdual method offuctor analysis", Psychological Reports) y, pos-
de los deseables. Esto es más probable que suceda en tamaños muestrales elevados, que ten~rmente, .con la ap~rtación de Harman y Jones de 1966 (WIhe factor analysis by mi-
suelen ir acompañados de valores X2 significativos. En palabras de Klm y Mueller mmlzmg reslduals (MImes)", Psychometrika, 31: 351-368).
(1978b: 42), "la aplicación del método ha mostrado que para muestras grandes co~ mu- Su ac;uación se dirig~ a min~núzar la correlación residual (de ahí le viene su de-
chas variables el número de factores retenidos tiende a ser mucho mayor que el numero n~rnmaC1on de Miures: resIduo rnmuno), después de haber extractado un número deter-
de factores que el investigador desea aceptar". Ante e~lo se recomienda (~arman, mmado de factores y de asegurar el grado de ajuste entre las correlaciones cuadradas
1976) no confiar exclusivamente en el test X2. Sólo debena cons:derarse ei,numero de obse~adas .en la muestra y las reproducidas mediante el modelo factorial. Se analizan
factores obtenidos mediante la prueba X2 como referente del uumero máXImo de fac- las diferenCias entre ambas matrices, o se estudia la que mejor reproduzca la matriz de
tores a extractar. Únicamente se retendrán aquellos factores que sean interpretables covarzanzas ongmal (SI el modelo de factor común se ha obtenido a partir de la matriz
teórica y sustantivamente. Preferiblemente, después de la rotación de la matriz factorial, de vananzas-covarianzas).
como se verá en el subapartado 5.6.1. . L?s ~nálisis comienzan con la hipótesis de un único factor común para, a conti-
El objetivo principal del método de máxima verosimilitudes.encontrar aquella con- nU~:lOn, Ir aumentando el número de faclores hipotéticos hasta que se alcance una so-
figuración exacta de los parámetros poblacionales que maXImIce: luclOn satrsfactona: cuando los factores logren explicar la mayoría de las correlaciones
Capitulo 5: Análisis factorial 457
456 A nálísis multivariable, Teoría y práctica en la investigación social

aplica ninguna prueba de signifícativídacl al modo usual, como se hace en los métodos
observadas. Tambwn " ste mediante la prueba X2, Como
"' se comprueba la b on d a d de alu. de rnáxima verosimilitud y de m[nirnos cuadrados. Se considera que el análisis incluye
en el procedimiento de máxima verosimilitud. , d d bá' . la población de individuos y no una muestra de ellos. La lógica es, por tanto, opuesta
La extracción factorial de mínimos cuadrados incluye dos vane a es SIcas. al resto de los métodos factoriales.
En la factorización alfa se busca maximizar la generalidad de los factores. Los pe-
,
1. Mmimos cuadrados no ponderados. onSlS e en
C .t la obtención de una, matriz
. fac-
sos o coeficientes factoriales se determinan de manera que los factores comunes ex-
. , . f
tonal para un número especIfIco de actores, e . d manera que sea mlmma la su-
traídos tengan correlaciones máximas con los factores comunes correspondientes,
ma de las diferencias al cuadrado entre los elementos (excluyendo los que c~m- que se asume existen en el universo.
.' 1 . ) d las matnces de correlacIón Con el método de máxima verosimilitud comparte la particularidad de que las es-
ponen la diagonal pnnclpal de . adma trlfZ t e s extractados. Mediante este
observada y la reproducIda a partlr e los ,ac ore . , timaciones factoriales son independientes de la escala de medición. Pero, difiere de él
. .
procednniento factonal suelen alcanzarse result a dos similares al anáhsls de, fac- (al igual que de otros procedimientos factoriales) en que proporciona un coeficiente
. 1 ' comunalidades. Compruebese
lor o ejes principales, cuando se tIenen as rmsmas factorial (A.i) más elevado a las variables con menor comunalidad.
en los ejemplos del subapartado 5,6.2. , . . Tt d en la fac- Las comunalidades para cada variable no resultan de la suma de los coeficientes
Como en los análisis de factor principal y de maJama verOSlml 1 u .' 1 . d 1 factoriales al cuadrado (A.p en cada factor común. Igualmente, los autovalores no se ob-
torización de mínimos cuadrados nO ponderados las estima ClOnes mlCla es e as tienen de la suma de los coeficientes factoriales al cuadrado de todas las variables en
comunalidades coinciden con las correlaciones múltiples cuadradas de cada va- cada factor común. En la factorización alfa las comunalidades se estiman mediante pro-
.
nable .
con las demás vanables observa d as. D es pués, se procede
. .' a sud reestrma-
1 ~r ,. cedimientos iterativos que maximizan el coeficiente alfa para los factores.
ción considerando el modelo factorial obtenido en las fases mlclales e ana lSlS. El coeficiente alfa es una medida derivada en psicometría para comprobar la fia-
Por lo que nuevamente se está ante una estimación iterativa de las comuna- bilidad (o capacidad de obtener resultados consistentes en una medición) de una
, , .... fi . 1 (A.) de cada vanable em-
lidades. Se calculan los pesos o COejlClentes actona es ij puntuación tomada en una variedad de situaciones. Mide la consistencia interna de las
pírica en cada factor común para, a parllr e es . d tos valores , calcular
. , nuevas
. co-
. variables empíricas (de forma global e individual), en la configuración de una misma
. . . 1 El oceso de estlmaclÓU lterallva
munalidades que reemplacen a las lUlCla es. " pI' . ' dimensión de un concepto teórico. Se calcula a partir de la matriz de varianzas-cova-
. bserven vanaClones en los va-
de las comunalidades prosIgue hasta que no se o , . rianzas. Su rango de valores posibles va de 0,00 (infiabilidad) y 1,00 (fiabilidad per-
lores de las comunalidades en las dos últimas iteraciones (de la ultIma respec- fecta). Un valor a igual o superior a 0,80 indica que la medida es fiable.
to a las calculadas en el paso precedente). 1 d' 'ento an
, .
2. Mln/mos cuadrados genera l'Iza dos. A unque comparte con e . proce
. Iml
'1 . -
. genenco
terior el mismo criteno ,. d e exlIaCClOn
. " factorial , dIfIere .de e preclsa-
,. d F) Factorización imagen
mente porque pondera las correlaciones inversamente po; la vananza und,ca e
· de las vanables con eleva a va-
las variables. De manera que, a las correlaClones. 1 . Recibe este nombre ("imagen") por la peculiaridad del procedimiento de análisis.
rianza única se les da un peso factorial inferior al obtemdo por las corre aclO- En él se distribuye, entre los factores comunes, la varianza de cada variable observa-
¡, ,;' nes de las variables con baja varianza única. da que es "reflejada" por el resto de las variables consideradas. La parte común de
cada variable (aquella que puede predecirse mediante la combinación lineal de las de-
más variables en la serie) se llama la "imagen de la variable". Su cuadrado equivale a
E) Factorización alfa la comunalidad de una variable corno se define en AFC: la correlación múltiple cna-
común o como una estrategia drada entre una variable y el resto. En cambio, la parte única de la variable, la no pre-
"Puede verse o como uua variante del mode1o de f actor . decible mediante la combinación lineal de las demás variables, recibe el nombre de "an-
alternativa" (Kim y Mueller 1978b: 11). Su desarrollo plincipallo alcanza con ~(alSer y
ti-imagen". Su cuadrado equivale a la varianza única.
Caffrey en 1965 ("Alpha fac¡or analysis", psychometrika), en indagaciones en e campo
. . , d b' factores comunes conslst en- En este procedimiento factorial el principio que rige la extracción de factores es el
de la pSlcometria. En concreto, en el mteres por escu nr ., . bl ) de la covarianza de las estimaciones de cada variable regresionada en las demás va-
.
tes cuando se tornan muestras repetIdas d e una mlsm
. a poblaclOn (de .vana es.f i '
.. ," d t .ón factonal en la acton- riables; o sea, corno si se efectuase un análisis de regresión lineal de dicha variable con-
A dIferencIa de los demas procedImIentos e ex racC! . .' d siderando el resto de las variables. En consecuencia, interesa la parte de la varianza de
., . . . d I ' verso de vanables. En los e-
zaClOn alfa las vanab,les se consIderan una muestra e um . 1 cada variable que es compartida con las otras variables. De ahí su clasificación dentro
. d . d' .d os no de varIables, a asu-
más métodos factoriales se analíza una muestra e m IVI u , ',. , de los procedimientos de AFC.
, . P t " 'n en la fiactonzaclO n alfa no se
mirse que estas constituyen el umverso. ,or eS a lazO , .

Capitulo 5: Análisis factorial 459


'"eorl'o y !)ráctica en la investigación social
458 Análisis multivariable . .I I

a) Autovalores (o varianza total explicada por cada factor)


. .d d de ofrecer una solución matemáticamente b) Porcentaje de varianza total atribuible a cada factor
Con ACP comparte .la partlculan a l ' . al de la matriz de correlación. Pero,
única al existir valores fiJos en la dlagona pnnchlP 'Integrada por las comunalidades c) El gráfico de sedimentación (o "scree test")
, FC 1 d' o al de la matnz se al1 a , . d) Significatividad
como en todo A "a lag n. . 1 t de las correlaciones mu]tlples cua-
de cada variable. Estas se obllenen, Ig~a m:.~. e, . de los otros .procedimientos de fac- e) Interpretabilidad
dradas de cada variable con el resto. SI len ~.~r: s nO cambian' es decir, no son re-
tor común en que los valores de las comuna 1 a/ s Éste es el ~exo que le une con Estos cinco criterios suelen valorarse conjuutamente, y no de fonna aislada. La de-
estl'mados iterativamente, SinO que permanece~ .'lo. cisión sobre el número de factores normalmente se fundamenta en la convergencia de la
. T ente umcas. mayorfa de ellos. En los paquetes estadísticos al uso esta infonnación se da en una tabla
ACP: el ofrecer solucIOnes matema lcam l' . guna prueba de significatividad.
. ",' n tampOco se ap Ica mn . inicial, posterior a las matrices de partida (de correlaciones o de varianzas-covarianzas),
En la factorzzaclon lmage . bl a la población de individuos. Aun-
Se considera que se abarca a! universo de vana e~ Yconforme aumenta el número de y anterior a la matriz factorial. En el programa SPSS la tabla es como se ilustra en el ejem-
que sus estimaciones logran mayor ~onslstencl . bl plo. En versiones anteriores del SPSs, en la tabla aparecían las comunalidades iniciales pa-
casos analizados Yse incrementa el numero de vana es. .' . ra cada variable (l,OQO en ACP y las correlaciones múltiples a! cuadrado de cada variable
. al' de los seis procedimientos de extracción factonal refendos respecto a las demás en AFe). En las últimas versiones de SPSS (versión 7.5 y posteriores)
• Mediante cu qUIera . . d . los valores de comunalidad se recogen en una tabla propia. Ésta incluye las comunalidades
eral alcanzar resultados SImilares cuan o.
se pue d e n , en gen , iniciales y las resultantes de la extracción factoriaL También se ofrece una tabla de esta-
dísticos descriptivos univariados que muestra el número de observaciones válidas, junto
a) Aumenta el número de caso~ Yde variables en el análisis. a la media y desviación típica de cada una de las variables observadas. Esta última in-
b) Las comunalidades se aproximan a 1,00. formación no es específica a! análisis factorial, sino compartida con otras técnicas analí-
. t o rocedimiento factorial adquiere ticas como el análisis de regresión. Por esta razón se decide no volver a extractarla en el
En ambas situaciones la eleCCión de u~o u o ~o fa propuesta de Gorsuch (1974)-, texto, sino remitir al lector interesado al subapartado 1.3.2 para su observación.
menor importancia. De manera especlal-slgu:;on 30 y las comunalidades son mayores Una tabla que sí es específica del análisis factorial es la relativa a la varianza total
cuando el número de variables supera en cuan la a explicada por cada factor o componente. Incluye los autovalores iniciales y las sumas
de 0,40. de las saturaciones al cuadrado de la extracción previo y posterior a la rotación de los
ejes factoriales. De cada uno de ellos se ofrece el porcentaje de la varianza y el acu-
mulado para cada factor o componente. La información relativa a los autovalores ini-
5.5.2. Criterios de selección del número de factores ciales protagoniza la decisión del número de factores o componentes a extractar,
,.. .al concierne al número de factores comunes como se expone seguidamente,
Otra decisión clave en el analisls facto~ d 1 f ctorial Del modelo se quiere que
o componentes principales.a retener ~n e mo e o oade cov~rianza (AFC) de los datos
explique la mayor proporcIón de varzanza (A~) za cuando el número de factores A) Autovalores
analizados. Este objetivo indudablemente se a c;n do de esta manera no se logra la
iguala al de variables observadas. AunJue, Plroc~ :ación contenida en una serie am- El criterio más seguido en la determinación del número de factores responde a! "au-
· l' dad básica del análisis: la reducclOn d e a Jll o
fina , tovalor" de cada factor o componente. Por autovalor ("eigenvalue") se entiende la can"']
I " f . d factores o componentes.
plia de variables en un numero m enor e. 1 y rsimonioso Ha de contener un lidad de varianza explicada por cada factor común o componente principal. También se
De un modelo factorial se pide que sea Slmp e pa s correla~iones habidas entre le llama "raíz caracterfstica o latente". Su tamaño describe la dispersión de los datos en"
. uficiente para expllcar l a ,
número balo de factores, pero s . R 1 ff (1989: 307) proponen que el nU- un espacio multivariable que inclnye un eje para cada variable observada.,.su suma equi-
las variables observadas. Autores como Frel y ':' o 1 'tad del número de indica- vale, en ACp, a! número de variables empíricas y su producto al determinante de la ma-
mero de factores no sea ~\en ningún caso supenor a a mI triz de correlación. En el ejemplo siguiente puede verse cómo se disponen (en la tabla
dores". ., . ue sean significativos e interpretables. de varianza total) en orden decreciente: de mayor a menor tamaño, Al primer factor le
Pero de los factores tamblen se ~xIge ¿la decisión del número de factores qne corresponde el autovalor de mayor cuantía y al último factor el de menor.
Todos estos aspectos han de consIderarse e t I s criterios más seguidos pueden re- El empleo de los aatovalores como criterio de extracción del númerO de factores
compondrán el modelo factonaL Concretamen e, o fue propuesto por Kaiser en varios artículos de 1958 ("The varimax criterion tor
sumirse en cinco:
Capitulo 5: Análisis factorial 461
460 Análisis multivariable. Teorfa y práctica. en la investigación social

. En la literatura también existen pro uesla d ' ..,


analytic rotation in factor analysis", psychometrika, 23) y 1959 ("111e application of y fIable. Para Hair el al. (1992: 237) ~uand s e eU,ando este cnt~no es mas operativo
electronic computers to factor analysis", American Psychological Association) , Su apli- prendido entre 20 y 50 "En c d' d O el numero de vana bIes se halla com-
. asos on e el n' d .
existe la tendencia de que mediante este r c dum~ro e vanables es in!erior a 20
cación varía si el modelo básico es ACP o AFC. servador. de fa, Clores' cuando se halla' IP °d e lmlento se extracte un numero con-
En ACP"el punto de corte se fija en 1,00. Todo componente que presente un au-; , n Ullp lca as más d 50 . b
tovalor ~1,00 formará parte del modelo factorial. De él se excluirán aquellos com- se extraigan demasiados factores" P . 'D b h' e vana les no es inusual que
ponentes cuyo autovalor sea inferior a 1,00, porque ni siquiera logran explicar la va- autovalor es "razonable si el nú' ala d a ac. mck y Fidell (1989: 635) el criterio de
rianza de una variable. Recuérdese que en ACP se analiza la varianza total de una muestral es grande" Cu~ndo cOl'nIllcledreo e vbanables es 40 o menos, y s,i el tamaño
. . ' n am os supuestos l ' d
variable, sin diferenciar entre varianza comlin y específica. Las variables suelen estar termmado sIguiendo este criterio se á 1 ' e numero e factores de-
estandarizadas, siendo su varianza total igual a 1. Lasuma de los autovalores de todas') brestimando o subestimando el ' r e ,corlrecto. En caso contrario, se estará o so-
, numero rea de tacto
e~
, 1 .
las variabl,es observadas será, por tanto, igual al número total de variables Ysu pro- como en otras cuestiones, existen o ¡niones d' res a, ser!e de datos. En ésta,
,.medio Jgual a 1,00. De ahí que sea éste el valor de ref"réncia adoptado. Además, ca- es usual, se impondrá en esta POlé~ica. Ispares. La pracllca mvestigadora, como
da autovalor puede expresarse como una proporción de esta suma. Según estimacio-
nes de Tabachnick YFidell (1989: 635), "el número de componentes con autovalores
mayores de 1 suele estar en algún lugar entre el número de variables dividido por 3 y B) Porcentaje de la varianza total atribuible a cada factor
el número de variables dividido por 5 (por ejemplo, 20 variables deberían producir en-
tre 7 y 4 componentes con autovalores mayores de 1)". Un criterio alternativo y equivalente al an e . "c " •
En AFC interesa sólo la varianza común de las variables, hecho que revierte en tal que es explicada por cada factor c ' t nor es el pOrc'<I\raje de la varianza to-;
la determinación del punto de corte que decide qué factores comunes formarán el división de cada autovalor por la varia~z~~:t~ c~mponente pnnclpal. Se obtiene de la '
modelo factorial. En AFCcada autovalor indica la proporción de varianzaextra~!a,2a; de la diagonal principal de la matrrz'- d
1 '
l' .sta es Igual a la suma de los elementos
e corre aCIón En ACP la v . l'
por el factor común en relación con la varianza "común"total de las valiables. Su slj'- a numero total de variables' en AFC 1 . , ananza tota es Igual
ma expresa la -varianza común total de las variables: Esta, obviamente, no será da variable. Pero más que ~¡ porcent' ~ da suma de las comunalidades iniciales de ca-
T . aje e vananza explicada po d f
igual al número total de variables, a diferencia' de ACP. Su valor será tanto más ba- Cl lCO, rntí'resa el porcentaje acumulado de va . r ca a, actor espe-
jo cuanto menos varianza compartan las variables analizadas. Asimismo, el punto de el porcentaje de varianza que lograría r nanza de fa~tores sucesIVos,Este expresa
corte nO será 1,00, sino un valor inferior. El interés no está en explicar la varianza to-, componente y los precedentes. exp Icarse con la mcorporación de ese factor o
tal de una variable, sino sólo la compartida con otras variables. El punto de corte se'; A diferencia del criterio de autovalor en ' .
obtiene del promedio de las estimaciones de las comunalidades iniciales de todas las \ corte absoluto que determine el número de este no s~ ha .establecldo ningún punto de
delo factorial. El procedimiento . factores a Ulclurr, o desconsiderar, en el mo-
variables;
También puede seguirse la recomendación de Harman (1976) de parar la extrac- porción de la varianza total es :':;'~~~:~:eClerta ~rbltr~1ed~d ~nla decisión de qué pro-
ción del número de factores antes de qne la suma acumulada de los autovalores decisión normalmente depende d para epr e anadlr factores al modelo. La
exceda la suma de las comunalidades estimadas. Estas comunalidades figuran en la dia- mero de variables originales la' :m~t ~tacan Batista y Martínez (1989: 53) de: el nú-
gonal principal de la matriz de correlación reducida R. Además se encuentran en la ta- e.stadística de los factores y,'sobre ~o~: d~~ ~~~ correlaclOnes de R, la significatividad
bla de comunalidades, que incluye las "iniciales" y las resultantes de la "extracción" fac- tlgador posea de las variables consider~das. OCIUllento y expenencla que el inves-

de varianza mínimos para tomar com~ ef propuestas de porcentajes acumulados


torial. No obstante, se han pronunciado al u n a s ' .
El criterio del autovalor se considera "sencillo" (Kim y Mueller, 19878b: 43) y sue-
le funcionar bien. Normalmente proporciona resnltados consistentes con las expectati- que como mínimo se explique con factore r ,erentes. AflfI y C1ark (1990) proponen
vas del investigador. Pese a ello, existen voces criticas a la aplicación única de este criterio. et al. (1992; 1999) diferenci~n entre c' s suce~,Idvos, el,80<lb de la varianza total. Hair
". . lenelas uras' y CIenCIas . 1 P
Afifi y Clark (1990) afirman que los autovalores están sujetos a 'grandes variaciones mnes-
trales, al ser estimaciones de varianza de cada factor o componente, Por su parte, Dun- menos explicar el 95% de la varianz: t~~ t
CIenCIas duras" sugieren que la ext a .ó f ' sOCIa es. ara las
ac:onal no concluya hasta que se logre al
timo factor explique sólo una e ueña a con.?S factores retenidos, o hasta que el úl-
teman (1989: 22) alerta -en referencia a ACP, pero también extensible a AFC- del pe-
ligro de "desconsiderar componentes principales que, aunque pequeños, pueden ser ciales" el porcentaje mínimo ~e~iend:~~p~rcI~~O~m~n~s del 5%). En las "ciencias so-
importantes", si se aplica rígidamente el cliterio de Kaiser. Esto sucede cuando una o más cluso menos. Esta apreciable reducció s a e o e a v.ana.~a total y, a veces) in-
variables no quedan suficientemente bien representadas por los componentes o facto- precisión" de la información que u 1 n IPorcentual la JustIfIcan por la "menor
s e e ana lzarse en las ciencias sociales.
res con autovalores más elevados Ysí, en cambio, por aquellos más bajos.
462 Análísis multivariable. Teoría y práctica en la investigación social
Capítulo 5: Análisis factorial 463

presenten un au/ovalor igual a 1. Del componente se pide que explique más variabilidad que la
EJEMPLODE APLICACiÓN DE CRITERIOSDE VARIAN,'i"A .... .. correspondiente a una varjable. Recuérdese que el autovalor indica la cantidad de varianza to~
(AUtÓVALQRES; €N/ADECISIÓN DEL NÚMEFiO DE FACTORES· tal explicada por cada componente principal. Como las variables están expresadas en su for-
COMUNES O DE CÓMPONENTESPRINCIPALES A EX7;RAC;TAR
'. ;'. ,-:' >" ,',' -., - -' ,'o • :'_ ',,; •
ma estandarizada (para simplificar la información y, sobre todo, para evitar la influencia inde-
bida de las unidades de medición en la ponderación de los componentes), su varianza es 1. Al
ser 14 las variables analizadas, la varianza total es 14. Puede constatarse que la suma de to-
En la salida del programa SPSS, los au/ovalores "iniciales" figuran en la tabla conjunta dos los autovalores de la tabla es igual al número de variables. Exactamente, 3,619 + 1,665 +
llamada "varianza total explicada", junto a las sumas de las saturaciones al ?u~drado prevIo 1,114 + ... + ,404 = 13,999 (14). Asimismo, el producto de todos los autovalores (3,619 Xl ,665
y posterior a la rotación factorial. La tabla siguiente corresponde al proc~dlmlento d~ com- Xl, 114 x ... x ,404) es igual al determinante de la matriz de correlación: ,07667.
ponentes principales, la variedad analítica factorial más popular y de más laGlI reahzaclon. He- Los auto valores figuran ordenados por su tamaño. El primer componente se halla inte-
cuérdese que una práctica usual en la investigación social es realizar un AGP para determinar grado por la combinación lineal de variables que más varianza explica: 3,619. Respecto a la
en cuántas dimensiones latentes pueden agruparse las variables de Interes. Despues, pue- variabilidad total (13,999), se traduce a un 25,85% de varianza explicada (3,619/13,999 x
de realizarse un AFC conociendo ya el número de factores a extractar.. .. 100). En cambio, el último componente apenas extracta varianza de las variables originales:
Las tablas de "varianza total explicada" en AFC proporcíOl;an la misma mformaclon so- ,404; que, en relación Con la varianza total, tan sólo representa el 2,9%. En general, los au-
bre los autovalores iniciales (la variabilidad previa a la extracclon factonal) qu: en AC~. Por tovalores de los últimos factores o componentes se aproximan a cero, cuando las correla-
esta razón se evita su exposición repetida. En lo que difieren es en nombrar 1actores y no ciones entre las variables son muy elevadas. Esta situación no se da en este ejemplo. Las co-
"componentes" y, obviamente, en las sumas de las saturaciones al cuadrado .. Pero, co~o en rrelaciones son leves, a excepción de cuatro variables, a decir por sus comunalidades
la decisión sobre el número de factores o componentes a retener el protagonista comun s?n "iniciales", como se vio en el subapartado 5.4.3.
los au/ovalores, la exposición se limita a su intervención en esta fase del proceso de anah- La tabla corrobora asimismo la afirmación de Tabachnick y Fidell (1989) de que en
siso Lo referido a las sumas de las saturaciones se posterga al apartado 5.6. En dicho ACP el número de componentes con au/ovalores mayores de 1 suele ser un número COm-
apartado si se ejemplifican distintos métodos de extracción factorial, al constatarse dlf?ren- prendido entre el número total de variables dividido entre 3 y dividido entre 5. En este ca-
cias en sus resultados. En general, los distintos procedimientos factonales van a descnblrse so, 14 / 3 = 4,667 Y 14 / 5 = 2,8. Entre 5 y 3 componentes estaría la decisión. En realidad,
sólo cuando sus resultados no coincidan con ACP. son 4 los componentes a extractar porque presentan autovalores mayores o iguales a 1.
El primer componente explica el 25,85% de la varianza total de las variables mientras que
Varíanza total explicada el cuarto componente sólo explica el 7,25%. En total, con la combinación de las 14 va-
riables en 4 componentes logra explicarse el 52,95% de la varianza (porcentaje acumu-
Autovalores iniciales Sumas de las saturaciones Suma de las saturaciones lado, que indica el porcentaje de varianza atribuible a un factor o componente y a aque-
ar cuadrado de la extracción al cuadrado de la rotación
llos que le preceden en la tabla). Este porcentaje es importante en magnitud, aunque
Campan.
% deJa % % de la % %deJa % ligeramente inferior al mínimo ideal en las ciencias sociales: el 60% de la varianza total.
Total varianza acumulado Total varianza acumulado Total varianza acumulado Si bien, distintos autores (Hair et al., 1992; 1999) reconocen que la "menor precisión" de
la información en las ciencias sociales influye en que se acepten soluciones factoriales que
1 3,619 25,849 25,849 3,619 25,849 25,849 2,416 17,260 17,260
2 1,665 11.891 37,740 1,665 11,891 37,740 2.046 14,611 3i ,871 logren explicar incluso un menor porcentaje de varianza que el aquí obtenido. Explicar el
3 1,114 7.958 45,698 1,114 7,958 45,698 1,861 13,290 45,162 60% de la varianza total supone incrementar a 5 el número de componentes. Pero antes
4 1,015 7,253 52,951 1,015 7,253 52,951 1,090 7,789 52,951 de aumentar el número de componentes, hay que valorar otros criterios que después Se
5 ,950 6,786 59,737
6
exponen. Aqui sólo se señala que el componente 5 presenta un au/ovalor próximo a 1
,868 6,199 65.936
7 ,752 5,372 71.308
(,950), permitiendo su incorporación al modelo factorial.
8 ,736 5,259 76,567
9 ,673 4,805 81,373
10 ,600 4,283 85,656
11 .574 4,103 89,758
12 .559 3,994 93,752 C) El gráfico de sedimentación (o "seree test")
13 ,470 3.361 97,113
14 ,404 2,887 100,000
.. .. . En 1966 Catell propone (en "The scree test for the number of factors", Multivaria-
Método de extracc¡on: Anahsls de componentes pnnclpales .
te Behavioral Researeh, 1: 245-276) el empleo de un gráfico, que denomina"scree", en
la decisión de cuántos factores incluir en Un modelo factorial. Eneste'gráfico se repr'i'
La tabla recoge tantos componentes principales como variables, aunque se quiere reducir sentall j(jsqutovalores correspondientes a cada factor en el eje vertical, y los factores o)
sensiblemente su número. En ACP el criterio más aplicado es que los componentes al menos
componentes, en su orden de extracción, en el eje horizontal. De
la conjunción de cada
464 Anán~'is multivariable. Teoría y práctica en. la investigación social Capitulo 5: An.álisis factorial 465

factor con su correspondieute auto valor resulta una curva decreciente que conecta Este gráfico, también llamado de la "varianza total asociada a cada factor", intervie-
puntos sucesivos. La curva siempre es decreciente, en consonancia con la disposición de ne igualmente en la decisión del número de componentes o factores a retener. Lo indica
el punto de inflexión de la curva descendente, donde ésta comienza a nivelarse. La ni~
los autovalores. Al primer factor o componente siempre le corresponde el autovalor más
velación empieza a producirse, en este ejemplo, en el punto correspondiente al autova-
elevado, mientras que el último factor se caracteriza por tener el de menor cuantía. /or del tercer componente (1,114), muy próximo al autovalor del componente cuatro
Catell escoge el término, aplicado en geología, "scree" (traducido al castellano como (1,015). Esto si.gnifica que la aplicación de la prueba de "desmoronamiento" (o "scree test")
"desmoronamiento", "escombros" ... ) por ía semejanza del gráfico a los escombros que se lleva a la soluclon de agrupar las 14 variables en 3 componentes principales. En contra de
forman al pie, o en la parte inferior, de una pendiente de una montaña rocosa. Los au- la afirmación de Hair et al. (1992; 1999), su aplicación en los datos aquí analizados no in-
tovalores grandes forman el "acantilado" y los pequeños los "escombros" o cascotes. crementa el número de componentes, sino lo reduce.
De acuerdo con este critelio, el número de factores o componentes está delimitado
por el P1.lnto de inflexión de la trayectoria de caída de la pendiente, Es decir, cuando
la pendiente descendiente comienza a nivelarse. Catel! sugiere que se tomen todos
aquellos factores o componentes situados antes del punto de inflexión. Este tercer criterio de selección de factoresysccalifi~adonegativamente de "arbi-
En la práctica, la aplicación de este criterio supone la incorporación al modelo fac- trario" y "subjetivo". Kaiser (1970) lo considera "ambiguo" además de "subjetivo'" Es-
torial de 1 y, a veces, incluso 2 o 3 factores más de los seleccionados siguiendo exclu- tos calificativos se deben al hecho de que puede haber más de una interpretación de
sivamente el criterio de los autovalores (Hair et al., 1992; 1999). la trayectoria de caída, e, incluso la misma consideración de la pendiente como "pro-
nunciada" o "no pronunciada" puede ser "arbitraria". Dillon y Goldstein (1984)
comparten estas críticas y advierten, además, de algunas complicaciones que pueden
suscitar la práctica de este criterio, aparentemente sencillo. Puede que no haya ningún
punto de inflexión claro u obvio, en cuyo caso esta prueba no sería concluyente. Pero,
también, puede darse la situación contraria: la existencia de varios puntos de inflexión
(por ejemplo, en la primera mitad de los autovalores), que provoquen indecisión
El recurso al gráfico de sedimentación adquiere mayor relevancia cuando varios auto- sobre cuál de los puntos de inflexión refleja el número correcto de factores que com-
va/ores se aproximan a 1, como sucede en el ejemplo presente, y quiere comprobarse si se pondrán el modelo factorial.
pueden extractar menos componentes o factores de los inicialmente elegidos siguiendo el cri- En caso de duda, la recomendación usual es efecluar varios análisis factoriales es-
terio de los autova/ores. pecificando, cada vez, un número de factores diferentes. Si los residuos (que figuran en
la matriz de correlación residual) son pequeños, el análisis factorial realizado se con-
sidera bueno. La presencia de varios residuos moderados (de ,05 o ,10) o grandes
Gráfico de sedimentación (> ,10) sugiere la necesidad de incorporar otro factor más al modelo analítico (Ta-
4,,-------------------------------------- bachnick y Fidel!, 1989).
La aplicación del criterio de desmoronamiento mejora, no obstante, cuando con-
fluyen varios elementos: tamaño muestral elevado, altas comunalidades y coeficientes
3- factoriales próximos a 1 en varias variables en cada factor o componente (Gorsuch,
1983). Cuando coinciden estas situaciones, es más probable que su aplicación resulte
menos "ambigua" y, en consecuencia, más clara.
2-

D) Significatividad
~ 1- El criterio de signifícatividad estadística sólo se aplica cuando el procedimiento fac-
>
o torial es de máxima verosimilitud o de mínimos cuadrados. Como ya se dijo en el su-
~ O_~-Y--~-.---r--'--'
, "
__-r--.--,--,---r--'--~
bapartado 5.5.1, ambos procedimientos de extracción factorial aplican, para comprobar
la significatividad del modelo, la prueba de contraste chí-cuadrado con "1/2 [(p - k)2
1 2 3 4 5' 6 7 8 9 10 11 12 13 14
- p -- k]" grados de libertad. Su uso suele relacionarse con la obtención de un núme-
Número de componente
Capitulo 5: Análisis factorial 467
466 Análisis multivariable. Teoría y práctica en la investigación social

ro de factores superior al indicado por otros criterios. De manera especia~, c~ando el " Método de extracción Chi-cuadrado g.l. Sigo
tamaño de la muestra es elevado y se incluyen muchas variables en el anallSls
También se puede hacer uso del test de Barlett, en la evaluación de l~s factores, de Máxima verosimilitud 91,942 41 ,000
Mínimos cuadrados generalizados 89,328 41 ,000
manera conjunta y por separado. El procedimiento es simtlar al descnto e~ el sub-
apartado 5.4.3. La hipótesis nula (Ho) niega la existencia de factores en la sene de da- * Lcis grados de libertad son ¡guales a 1/2 ([p- k]Z_ p-k):::: 1/2 ((14-4J2_14-4) =: 41.
tos analizada mientras que la alternativa (H¡) la afIrma. Para dicho contraste de hl-
, , "1/2 (P2 )"
pótesis se acude, asimismo, a la distribución chi-cuadrado, pero con - p
grados de libertad. . ' . datos. Especialmente, en muestras grand¡ls como la presente (2.492 casos), debido a que
Como complemento de las pruebas de significació~ refendas se propone el cnteno el valor X2 es directamente proporcional al tamaño muestra!. También afecta el número de
de "significatividad sustantiva" (Kim y Mueller, 1978b). Este se aplica con postenond~d a variables que el modelo incluya. En suma, puede llevar a ir incrementando el número
la significatividad estadística. Una vez que se ha comprobado que losfa~tores ext;mdos de factores a extraer hasta alcanzar un ajuste razonablemente bueno (p> ,05), que lle-
son estadísticamente significativos, puede procederse a aumentar o a dlsnunmr el numero ve a la aceptación de Ho' Pero, como ya se ha dichO antes, en la decisión de incremen-
de factores para, de esta forma, asegurarse que tiene el número mímmo de factores que tar el número de factores también intervienen criterios anteriormente descritos, además
es compatible con sus datos. El incremento del número de factores sue~e produCIrse SIlos de la llamada significatividad "sustantiva". La solución factorial ante todo ha de tener sig-
datos se desvían significativamente del modelo asurmdo. La dismmUClOn sucede, en cam- nificado lógico que facilite su· interpretación. Esto lleva, necesariamente, a la lectura de la
matriz factorial, preferiblemente la "rotada". A la vista de la composición de cada factor pue-
bio, cuando el modelo inicial se acepta como adecuado.
de decidirse su inclusión o exclusión del modelo fina!.

E) Interpretabilidad

La prueba de bondad de ajuste X2 se realiza cuando el procedimi,~nto de :,xtracción de A diferencia del criterio de significatividad, el de interpretabilidad se aplica en to-
factores es "máxima verosimilitud" y "mínimos cuadrados generalizados. Ademas, su uso eXI- da la variedad de procedimientos factoriales. Una vez que se ha decidido el número de
ge el cumplimiento del supuesto de normalidad multivariable, siendo senSible Incluso a leves componentes o factores que compondrán el modelo factorial, y antes de proseguir con
incumplimientos de dicho supuesto. Se aplica una vez obtenida la matriz factonal (apartado los análisis, debe comprobarse si los factores extractados tienen significado sustantivo.
5.6) y previo a la rotación de los ejes factoriales . Mediante ella se comprueba la adecuaCión De los factores se pide, ante todo, que sean interpretables, que tengan significado ló-
del modelo factorial en la identificación de las dimenSiones latentes de I.as vanables. SI con gico desde alguna perspectiva teórica. En caso contrario, debería replantearse su in-
¡ :
el número de factores comunes extraídos logran explicarse las correlaCiones de la sene de corporación al modelo factorial.
variables observadas. . Este último criterio de selección de factores concierne a la capacidad de asignar un
En ambos procedimientos factoriales se llega a una agrupación similar de las 14 vana- significado a los factores. Complementa a los criterios anteriores e, incluso, puede pro-
bies en 4 factores comunes, como se verá en el apartado 5.6. Igualm?nte, se logr~ un por-
vocar el replanteamiento del modelo factorial en su conjunto. El modelo factorial ha
centaje acumulado de varianza explicada similar: 40,376% en ,!"axlma veroSImIlitud y
40,651% en mínimos cuadrados generalizados. Ambos porcentajes son Infenores a los
de ser interpretable desde alguna perspectiva teórica, además de parsimonioso. Los fac-
tores carentes de significado sustantivo conforman una estructura latente sin un nexo
obtenidos en ACP: 52,951%. . .
Respecto a la prueba X2 , ésta resulta bastante significativa en ambos procedlmlentosfac- de unión lógico entre las variables empíricas que 10 integran (aunque su correlación o
toriales (p < ,0005). La significatividad del estadístico X2 lleva al rechazo de Ho ' que afl;ma covarianza sea elevada).
que "se ha logrado extractar toda la varianza poblacional mediante los 4 factores extra Idos La composición de cada factor, junto con la variabilidad explicada, se ofrece en la
de la muestra analizada". El rechazo de dicha hipótesis lleva, en consecuencia, a conSiderar matriz factorial. A partir de sus componentes (preferiblemente de la matriz rotada) se
la conveniencia de incrementar el número de factores para, de esta forma, poder reprodUCir procede a la lectura e interpretación del modelo factorial. Si se observa que un factor
adecuadamente las correlaciones entre las variables observadas. A decir por laprueba, las ha quedado pobremente definido al incluir sólo una variable con un peso o coeficiente
predicciones del modelo con 4 factores comunes "no" son muy buenas estimaciones de di- factorial bajo, puede considerarse la exclusión del factor del modelo analítico y repetir
chas correlaciones. : , los análisis sin dicho factor. Lo mismo puede acontecer cuando el factor carezca de in-
La aplicación de la prueba X2 confirma su principal crítica: el llevar a modelos con mas terpretación lógica por la entidad de las variables que lo forman.
factores comunes de los deseables con la finalidad de mejorar el ajuste del modelo a los
468 Análisis multivariable. Teoria y práctica en la investígación socia!
Capitulo 5: Análisis factorial 469

5.6. La matriz factorial y su interpretación La


.
suma de los ()J.)
1),
para cada
/
variable en todos los factores o componentes pro-
porclOna su comunalidad (h~. Esta expresa la proporción de la varianza de cada va-
Elegido el procedimiento de extracción factorial y el número de factore: que riable Xi que es explicada por los factores o componentes en el modelo. En la matriz
formarán el modelo analítico, se procede al cálculo de la matnz factonal (tamblen lla- factorial del ejemplo se obtiene que el 84,1 % de la varianza de la variable Xl queda ex-
mada "pattern matrix"). Para ello se parte de la matriz de correlación, o la de varianza- plicada por los dos factores juntos. Si a 1 (la varianza total de la variable estandarizada)
covarianza, dependiendo de cuál haya sido la seleccionada. .. . la comunalidad, se obtiene la proporción de varianza específica (u.' = 1 - Hf!.
se le resta ,
La matriz factorial básica contiene los factores o componentes y las vanables Es declr, la proporción de varianza de cada variable que la solución factorial no logra
empmcas o indicadores que los integran. Los factores o componentes suelen estar ublcados explicar. El modelo de dos factores comunes del ejemplo logra explicar una proporción
en las columnas de la matriz. Las variables empíricas se sitúan en las filas. Además se considerable de la varianza de las variables, salvo en las variables X 3 y X 4 .
incluyen los pesos o coeficientes factoriales Ai¡ ("factor Joadings". ~n AFC y "component En general, valores de comunalidad bajos (próximos a 0,0) expresan que la
loadings" en ACP). Estos coeficientes tienen una interpretaclOn análoga a los coef~­ variable no ha quedado bien definida por el modelo factorial. Esto puede deberse a
cientes de regresión estandarizados. Recuérdese que en ACP los componentes pnn- la exclusión en el modelo de un factor (o componente) de gran relevancia en la ex-
cipales se explican en función de las variable~ ()bservadas, mientras en AFC cada va,:. ': plicación del fenómeno que se analiza; o bien, a que la variable tiene una baja
riable empírica actúa como la dependienteén la ecuación lineal y los k factores' proporción de varianza común con otras variables. Lo que revierte en una mayor
comnnes como las independientes o predictoras. cuantía de varianza única.
Cuando los factorés'o componentes'no se hallan correlacionados entre sí (quiere
esto decir qne son OItogonales) y las variables empíricas están estandarizadas, ~omo es
usual, los. pesos o coeficientes factoriales equivalen a correJac!On~s de cada vanable Xi' . EJEtv1PLOOE MATRIZ FACTORIAL "NO ROTADA"
con cada factor ocomponente j ..En esta situación de incorrelaclón de estructuras la-
tentes,la m;triz factorial coincide con la de estructura. Esta última mc!uye las corre-
laciones entre variables y factores.
El cuadrado de los coeficientes factoriales (AP se interpr~ta de for?,a análoga a~ Variables Factor 1 Factor 2 Comunalidad (hf') Especificidad (uf)
cuadrado de los coeficientes de correlación: proporción de vananza exphcada de la va,- X, 0,725(a)' 0,562 0,841 (b) 0,159 (e)
riable Xi por cada factor (AFe) o proporción de varianza expli~ada de los componentes
a partir de las variables que lo integran (ACP). En el ejemplo rlustrado a contmuaclón, X, 0,648 -0,739' 0,966 0,034
el coeficiente factorial de la variable X en el factor 1 es igual a 0,725. Elevado al cua-
X, 0,545* -0,432 0,484 0,516
drado (0,7252 = ,53), Ymultiplicado poi 100, significa que el 53% dela varianza de la
variable Xi es explicada por el factor 1. Lo mismo se haría con todos los coeflclentes X4 0,487 -0,526* 0,514 0,486
factoriales de cada variable en los factores del modelo, lo que ayuda en la valoraclón
de lo bien que el modelo factorial describe a las variables observadas. X5 0,798' 0,354 0,762 0,238
Los autovalores ("eigenval!le~") para casIafactor se obtienen de la suma de los cua-
Autovalores
. drados de los coeficientes factoriales ()J.) de cada variable empmca en ese factor. Expresan (suma de cuadrados) 2,12(d) 1,45 3,57 1,43
t;
la cantidad de la varianza total en los datos qne representa cada factor. "Como 1a vananza
.
total explicada por un componente o factor es igual a la suma de cuadrados de los coe- % varianza total 42,4 (e) 29,0 71,4 (1) 28,6
ficientes para la columna correspondiente, los coeficientes de componentes pnnclpales se-
% varianza común 59,4 (g) 40,6
rán más altos, en general, que los coeficientes de factor común" (Dunteman, 1989: 62).
De la división de cada autovalor entre la varianza total y multiplicada por 100 se cal- * Factor en el que más satura las variables.
cula el porcentaje de varianza explicada por cada factor. Cuando los factores o com- (a) Al1 : coeficiente factorial de la variable X, en el factor 1. Es la correlación de dicha variable
ponentes no se hallan correlacionados, puede conocerse la varianza total exphcada por con el factor 1: A~, = 0,7252 = 0,526. La proporción de la varianza de la variable X, ex-
el modelo factorial de la suma de los distintos autovalores. Tomando los datos del eJem- plicada por el factor 1.
plo, se observa que el modelo factorial compuesto por dos factores comunes logra ex- ,
plicar el 71,4% de la varianza total de las cinco variables empíricas. Como es usual, el (b) ii¡: comunalidaddelavariable X, = LA;,
,., = 0,725' +0,562' = 0,841. Porción
primer factor explica el mayor porcentaje de varianza. Exactamente, el 42,4%. de la varianza de la variable X, explicada por los factores comunes.
470 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 5: Análisis factorial 471

(c) tJ,: especificidad de la variable X , = 1 - 0,841 = 0,159. Proporción de la varianza de principales serán considerablemente más grandes que los correspondientes a AFC
(Dunteman, 1989).
la variable X, no explicada por los factores comunes.
(d) Autovalorpara el factor 1 =
p
L .1.;, = 0,725 2
+ 0,6482 + 0,545 2 + 0,487 2 + 0,798
2
= 2,12
. EJEMPLO DE MATRIZ DE CORRELACIÓN REPROtJ(jCID,4,
¡",1

(e) % de varianza entre todas las variables que es explicada por el factor 1 =
Autovalor 1 p Xi 00 = (2,12/5) X 100 = 42,4. Para ilustrar lo dicho sobre la matriz de correlaciones reproducidas (tabla A), se selecciona
(f) % de varianza entre todas las variables que es explicada por los dos factores = la correspondiente al ACP. Además, se añade la tabla de comunalidades (tabla B) para que
(3,57/5) X 100 = 71,4. pueda constatarse que la diagonal de la susodicha matriz está formada por las estimaciones
(g) Varianza entre todas las variables que es explicada por el factor 1 como un porcentaje de la comunalidad después de haberse producido la "extracción" factorial.
de la que es explicada por todos los factores =
; :
:l
(t, .1.;,/t,h¡') x 100 = (2,12/3,57) x 100 = 59,4 x" X, x2
Tabla A Matriz de correlaciones reproducidas
X, X, x, X, X, X, X" X" X" X" X"
X" ,531 b ,302 -,061 -,083 -,132 -,279 ,352 -,370 -,296 -,588 ,130 ,052 -,570 -,306
X, ,465b -,249 -,133 -,132 -,426 ,426 -,465 -,248 -,221 ,216 ,166 -,189 -,419
La matriz factorial del ejemplo incluye los integrantes básicos: las variables em- X, ,766b -,287 ,089 ,214 -,123 ,197 ,318 ,119 ,013 ,127 ,060 ,210
píricas, los factores y los coeficientes factoriales. A éstos seañaden las comunalidades, X, ,448b -,282 ,058 -,194 ,177 -,087 -,055 ,186 ,114 -,028 ,093
las especificidades, los autovalores y los porcentajes de varianza explicada por la so- X, ,507° ,231 -,092 ,102 ,136 ,181 -,554 -,488 ,153 ,168
X, ,4170 -,385 ,418 ,232 ,216 -,320 -,266 ,183 ,395
lución factorial. En la mayoría de los paquetes estadísticos, como el programa SPSS, X, b
,421 -,449 -,224 -,281 ,176 ,136 -,258 -,389
estos últimos valores figuran en tablas aparte de la matriz factorial: los autovalores y X, ,484 ,261 ,301 -,179 -,128 ,272 ,422
X, ,274b ,352 -,099 -,013 ,319 ,239
los porcentajes de varianza explicados por la solución factorial en la tabla "varianza to- ,731° -,115 -,004 ,708 ,249
X"
tal explicada", las comunalidades en una tabla que reúne las comunalidades "iniciales" X" ,673° ,630 -,089 -,242
X" ,619b ,010 -,189
y las posteriores a la "extracción" factorial. Ello facilita la comparación entre ambas ,691 b ,219
comunalidades. De interés, sobre todo en AFC, donde las comunalidades iniciales ex- X"
X" ,385b
presan varianza común. Indican la correlación múltiple cuadrada de cada variable ob- Residuo 11
servada Xi (que actúa a modo de variable dependiente) respecto a las "p - 1" variables
X" 000 -,054 ,032 ,019 -,017 -,070 ,076 ,081 ,113 ,010 ,005 ,174 ,038
restantes (las independientes o predictoras); es decir, la proporción de la varianza to- X, ,068 ,099 ,003 ,089 -,140 ,097 ,106 -,025 -,032 -,010 -,038 ,129
tal en Xi que es explicada por las demás variables. X, ,256 ,029 -,074 ,012 -,060 -,148 ,028 -,064 -,090 ,057 -,061
Las comunalidades finales suelen diferir, en cuantía, de las iniciales. Tanto en ii X, ,225 -,086 ,155 -,131 ,108 ,030 -,105 -,006 ,054 -,038
X, -,090 ,003 ,015 -,004 -,019 ,113 ,198 -,028 ,033
ACP como AFC, sus valores corresponden a las correlaciones múltiples cuadradas de ji X, ,102 -,143 -,049 ,017 ,066 ,044 ,011 -,078
cada variable Xi (la dependiente), pero ahora respecto a los factores actuando como X, ,060 ,025 ,015 -,001 -,018 ,009 ,121
X, -,003 -,010 ,025 -,011 -,006 -,113
las variables independientes en una ecuación de regresión múltiple. Representan la pro- X, -,113 -,028 -,056 -,058 -,060
porción de la varianza de cada variable que logra predecirse por la estructura latente. X" ,000 -,019 -,136 ,021
Estas comunalidades suelen estimarse median!;: p~gc"dilrl.ientg~ it"r<\tivos, de ajuste I X" -,159 -,006
-,051
,038
,071
X"
continUO entre las matrices de correlación observada y la reproducida. X" -,011
La matriz de correlación reproducida contiene, en su diagonal principal, las estima- X"
ciones de comunalidad a partir de la suma de los cuadrados de los coeficientes factoria-
Método de extracción: Análisis de componentes principales.
les en los factores retenidos para cada fila de la matriz factoriaL A partir de esta matriz se a Los residuos se calculan entre las correlaciones observadas y las reproducidas. Hay 46 (50"/,,) de residuos no redundantes
procede a un nuevo análisis factorial, que genera nuevas estimaciones de comunali- con valores absolutos> ,05.
/) ComunaUdades reproducidas .
dad. El procedimiento concluye cuando convergen las matrices de coeficientes factoriales. .. X1s"simpalfa hacia norteafricano (marroquL.r; Xl "leyes inm¡graci6n~· X:t "ideología politica'" X "sexo'" X "edad"' X "n··
Por último, hay que adverÍir que, cuando las comunalidades son pequeñas (pró- rner~ "(e~~lariz~r !nm¡grantes"~,X8 "e~.tra~a
de in,mi?:ante;"; X7 a inmig;antes"; Xg "partido raci~ta*; X10 "d:ts:r con m~rr~qu~';
X 11 estudIos, X j2 lOgresos) X 13 veclOO marroqUl ; X t4 'mmlgrante delincuente",
ximas a 0,0) y/o varían considerablemente, los coeficientes factoriales de componentes
472 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 5: Análisis factorial 473

Obsérvese, que .!?fl, la rJ)atri,z, qe "c.C?rrelac~ones reproducidas se ~ñ~den los resídu0tf~, En el variables han de saturar básicamente en un factor. Quiere esto decir que sus coeficien-
análisis factorial éstos 'se definen' como la diferencia ,f3ntre el coeficiente de correlaclon ob.~ tes factoriales han de ser elevados en un solo factor o componente y bajos en el resto. Un
servado y el reproducido o estimado desde el modelo Obt~~ido. Por ejemplo, el res~?uo de la coeficiente factorial próximo a 0,0 indica inexistencia de relación entre la variable empírica
variable "leyes de inmigración" (X , ) respecto ala vanable. slmpatla haclamarroqul (X ,.,) es y el factor, Un valor elevado (positivo o negativo), cercano a 1,0, expresa lo contrario.
igual a ,000; valor nulo porque ambas correlaciones cOinciden. En la matnz de correlacIones El principio de "estructura simple" fue propuesto por llmrstone en 1947 (Múlti-
(subapartado 1.3.2) puede comprobarse que la correlación observada entre ambas vanables
es ,302. Este valor coincide con la correlación reproducida (,302) -tabla A-: La menor com- ple Factor Analysis, Chicago University Press). En el análisis factorial booleano este
cidencia entre ambas correlaciones se produce precisamente en las dos vanables ,~ue, ~ de- principio no es tan exigido. Una variable puede tener un coeficiente factorial elevado
cir por sus comunalidades, menor varianza comparten con el resto de. las vanables. sexo (X3) (próximo a 1,0) en más de un factor, lo cual elimina la necesidad de efectuar una ro-
e "ideologla política" (X2 ). La correlación observada entre ambas vanables es -,031, mientras tación factorial. Salvo esta excepción, en la generalidad de los análisis factoriales se de-
que la reproducida es -,287. Su residuo es igual a ,256 (-,031 [-,287]). Le sigue la. ?orre- manda el principio de "estructura simple", Éste incluye los supuestos siguientes:
lación entre las variables "sexo" y "edad": correlación observada ~ -,058; correlaclon re-
producida = -,282; residuo = ,225. a) Cada factor o componente ha de tener unos pocos coeficientes factoriales
Tabla B. Comunalidades elevados y los demás próximos a cero,
b) Cada variable empírica ha de presentar un coeficiente factorial elevado sólo en
Inicial Extracción un factor.
e) Los factores o componentes no han de tener la misma distribución. Deben mos-
Simpatía marroquí 1,000 ,531
Leyes inmigración 1,000 ,465 trar un modelo diferente de coeficientes factoriales elevados y bajos.
Ideología política 1,000 ,766
Sexo 1,000 ,448 Tanto en ACP como en AFC lo habitual es que el primer factor sea un factor general,
Edad 1,000 ,507 que agrupe la mayOlia de las variables observadas, Casi todas ellas presentan coeficientes
N." inmigrantes 1,000 ,417 factoriales elevados en dicho factor, lo que determina que éste sea el factor que mayor
Regularizar inmigrante 1,000 ,421
1,000 ,484 proporción de varianza explique, Los factores o componentes siguientes explican cada
Entrada inmigrante
Partido racista 1,000 ,274 vez menor variabilidad. Esto guarda relación con el decreciente número de variables con
Casar con marroquí 1,000 ,731 coeficientes elevados, Además, estos factores también suelen caracterizarse por ser
Estudios 1,000 ,673 bipolares. Es decir, por incluir coeficientes factoriales positivos y negativos.
Ingresos 1,000 ,619
1,000 ,691 Si el investigador busca "simplificar" la estructura factorial, tendrá que proceder a la
Vecino marroquí
Inmigrante delincuente 1,000 ,385 rotación de la matriz factorial. r.,a rotación consiste en girar los ejes factoriales para que,
éstos se aproximen a las variables empíricas. La finalidad es facilitar la interpretación de
Método de extracción: Análisis de componentes principales. la matriz factorial, forzando a las variables a definirse más en una dimensión latente, con
preferencia a otras. De esta manera se obtiene una mayor diferenciación entre los fadores
En la tabla A se dice que la mitad de los residuos son "no redund".ntes", al ser su ~~- . que logran un perfil más defmido. El número de factores o componentes se mantiene i"l',
lar absoluto superior a ,05. Como"n la mayoría de los análisis e.stadlst~cos, en el anal!, . mutable, al igual que el porcentaje de varianza total explicada por el modelo factorial ini-.,
sis factorial interesa que los residuos sean bajos porque indica que el aJu,ste del mod~lo ~ialy las comunalídades de las variables. Lo que varía es la composición de los factores,'
es bUEÚio. En caso contrario, debería reconsiderarse el modelo. Para mas InformaClon, al cambiar los coeficientes factoríales de cada variable en cada factor. Esto también alte"
véase el apartado 5.7. ra la proporción de variabilidad explicada por cada factor. No se olvide que con la rota:
ción se redistribuye la varianza entre todos los factores, .

5.6.1. La rotación defactores

La matriz factorial muestra la relación habida entre las variables y los factores o. com- EJEMPLO DE MATRIZ FACTORIAL "ROTADA"
ponentes, pero su interpretación no suele ser sencilla, Es frecuente que vanas vanables
presenten coeficientes factoriales elevados en más de un factor, cuando lo que mteresa Para ilustrar en qué consiste la "rotación" factorial, a continuación se incluye la repre~

es que la mayor parte de su variabilidad quede explicada por un solo facto; y no por va- sentación gráfica y la matriz factorial "rotada" que corresponde al primer ejemplo expuesto a
rios. Esto lleva al desarrollo del principio de "estructura Simple", segun el cual las principio del apartado 5.6.
474 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 5: Análisis faclOrial 475

a) El gráfico (figura A) incluye la representación de los coeficientes factoriales en una se- b) Los paquetes estadísticos ofrecen también otros gráficos para la solución factorial ro-
rie de coordenadas cuyos ejes lo forman los dos factores del modelo. Los coeficientes tada, cuyas coordenadas se corresponden con los coeficientes factoriales para la ma-
factoriales se representan en los ejes respectivos, tomando las puntuaciones obtenidas triz factorial rotada. En dicho gráfico de coeficientes factoriales tras la rotación (en es-
en cada factor. De la intersección de ambas puntuaciones se obtiene la posición de te caso ortogonal varimax), puede igualmente comprobarse el éxito de la rotación
las variables empíricas respecto de los ejes factoriales. hecha.
Este gráfico difiere de los convencionales en que cada punto representa una va- .En la figura B puede observarse la existencia de dos conglomerados de variables
riable y los ejes su factor común o componente principal. En los gráficos convencio- situados en los extremos de los ejes factoriales. El conglomerada que componen las
nales, los puntos representan casos individuales y cada eje una variable. Estos variables X2 ' X3 y X4 se sitúa en el extremo positivo del factor 1, mientras que el con-
gráficos corresponden al análisis de variables. Cuando se está interesado en el glomerado integrado por las variables X , y X5 se ubica en el extremo positivo del fac-
análisis de casos, son los casos (y no las variables) los que se representan en los ejes tor 2. Todo lo cual expresa que con la rotación ortogonal se ha alcanzado una es-
factoriales. Las coordenadas de cada caso vienen dadas por sus correspondientes tructura "simple". Las variables han quedado localizadas al final de cada eje, al
puntuaciones factoriales. presentar coeficientes factoriales elevados en sólo un factor. Ninguna se sitúa en el
Con la rotación de los ejes factoriales (en el sentido de las agujas del reloj) se per- origen (0,0), lo que indicaría, por el contrario, la existencia de bajos coeficientes fac-
sigue la aproximación de los ejes a los indicadores. Estos nuevos ejes se seleccionan toriales en ambos factores. Cuando esto sucede, significa que las variables no están
para que atraviesen los conglomerados de los puntos que representan a los distintos asociadas a ningún factor.
indicadores. El gráfico a continuación ilustra cómo se procede en la rotación ortogonal. En general, una hilera de puntos a lo largo de los ejes factoriales indica que el fac-
Adviértase que el nuevo eje, que representa al factor rotado 1 atraviesa el conglo- tor no ha quedado claramente definido por las variables que en él saturan. Asimismo,
merado compuesto por las variables empíricas X2 ' X3 y X4 • El eje para el factor 2 se si los conglomerados de variables se hubiesen situado a medio camino entre los dos
aproxima a las variables X, y X5 • Ambos ejes son perpendiculares entre sí, como es ejes factoriales, significa que se precisa realizar una rotación oblicua, porque los ejes
característico de la rotación ortogonal. Este procedimiento de rotación, como después factoriales se encuentran correlacionados entre sí. Esta localización de los conglo-
se verá, se asienta en el supuesto de inexistencia de correlación entre los factores. merados de variables también puede deberse a la presencia de otro factor que habría
Como se trata de ejes no correlacionados, la distancia entre ellos ha de ser de que incorporar al modelo factorial. En ambas situaciones el investigador deberá in-
90°, tanto antes como después de la rotación. Tras la rotación lo que se obtiene es una troducir modificaciones y realizar de nuevo los análisis.
mejor definición de los factores.
1,0

Factor 2 no roturado Xs
0,5
-1,0 Factor 2 roturado
X3
1,0
-1,0 '" 0,0 X2
~al X4
u.
-0,5 -0,5 0,5 -0,5

x,
-1,0
Factor 1 -1,0 -0,5 0,0 0,5 1,0
no roturado
-1,0 -0,5 0,5 1,0 Factor 1
X3
-0,5 -0,5 0,5 Figura 8. Gráfico de coeficientes factoriales tras la rotación ortogonal varimax.
X4 X2
c) La matriz factorial rotada. Si se compara con la obtenida antes de la rotación, pueden
-1,0 -1,0 1,0 advertirse las diferencias en la solución factorial antes y después de la rotación. La es-
Factor 1 roturado tructura factorial incluida en la matriz no rotada está menos definida que la alcanza-
da tras la rotación. Si antes de la rotación, la mayoría de las variables empíricas pre-
Figura A. sentan coeficientes factoriales elevados (todos superiores a 0,30) en el factor 1,
476 AnálisL'i multivariable. Teoría y práctica en la investigación social Capítulo 5: Análisis factorial 477

después de la rotación dos variables (X, y X 5 ) quedan más definidos en el factor 2. El ejemplo anterior corresponde a un procedimiento específico de rotación: la ro-
Sus coeficientes factoriales en el factor 1 dejan de ser significativos (inferiores a 0,30). tación ortogonal y, dentro de ella, a la variedad más popular llamada "varimax". Pe-
Asimismo, se observa una alteración notoria en la composición de los factores. ro, aunque ésta sea la opción más popular, no quiere decir que sea la única posible. En
Las variables que presentan un mayor peso o coeficiente factorial, prevía a la rotación,
el cuadro 5.1 se resumen los principales procedimientos de rotación. Se diferencia cn-
en el factor 1 son X, ,x;,
Y X5 . Después de la rotación ortogonal, el factor 1 queda cla- tre rotación "ortogonal" y la "oblicua".
ramente configurado por las variables X2 , X3 y X4 • La ponderación de estas variables
en el factor 2 es escasa. De manera especial, la variable X2 ' con un coeficiente en el
factor 2 de 0,072. El factor 2 queda definido por las variables X, y X5 , solución nada CUADRO 5.1. Procedimientos de rotación factorial
coincidente con la configuración previa a la rotación factorial. Con la rotación se ha lo-
grado una mayor definición y diferenciación entre los factores, al forzarse a los indi- A. ROTACIÓN ORTOGONAL:
cadores a definirse más por un factor que por otro. 1. Varimax
2. Quartimax
Tabla A. Matriz factorial rotada por el procedimiento ortogonal varimax 3. Equamax

Variables Factor 1 Factor 2 Comunalidad (hf) Especificidad (uf) B. ROTACIÓN OBLICUA:


1. Oblimin
X, 0,167 0,902 • 0,841 0,159 2. Quartimin
3. Biquartimin o covarimin
X, 0,980 • 0,072 0,966 0,034
4. Oblimax
X3 0,659 • 0,224 0,484 0,516 5. Promax

X4 0,709 '" -0,108 0,514 0,486

X5 0,258 0,834 • 0,762 0,238 A) Rotación ortogonal


Autovalores
(suma de cuadrados) 1,576 3,57 1,43
Parte del supuesto de incorrelación entre las dimensiones latentes. Todo factor co-
1,992
mún o componente principal es independiente de los demás, lo quc determina que los
010 varianza total 39,8 31,5 71,4 28,6 ejes factoriales se mantengan perpendiculares entre sí, formando un ángulo de 90°. Es-
. ta variedad genérica incluye los tres procedimientos principales siguientes:
% varianza común 55,8 44,2
'" Factor en el que más satura las variables.
A.1. Varimax

De la comparación entre ambas matrices factoriales también puede constatarse la va- Es el procedimiento de rotación factorial ortogonal más empleado y el que se apli-
riación en varianza explicada por cada factor. Si antes de la rotación el factor 1 presentaba ca, por defecto, en la mayoría de los programas estadísticos. Fue propuesto por Kaiser
un autovalorde 2,12, que suponía el 42,4% del total de varianza explicada (71,4%), después en 1958 (en "The varimax criterion for analytic rotation in factor analysis", Psycho-
de la rotación su autovalor desciende a 1,992, que traducido a varianza explicada se queda metrika, 23: 187-200). Su finalidad es. simplificar la estructura Jactorial m'\Ximizando la
en el 39,8%. Este descenso en varianza del factor 1 es consecuencia de una mayor defini-
varianza de los coeficientes factoriales cuadrados (A,~) para cada factor. De ahí le vie-
ción del factor 2 tras la rotación. Este factor queda claramente configurado por sólo dos va-
riables (X, y X5 ), aunque con una saturación muy elevada: X5 con un coeficiente factorial de ne el nombre "varimax", acorde con su objetivo principal: que la VARIanza se MA-
0,834 y X, de 0,902. Este factor pasa de explicar el 29% de la varianza total al 31,5%. XImice para ayudar a la interpretación de los factores.
En suma, la rotación ha ocasionado una redistribución de la varianza total entre los fac- La simplificación máxima se alcanza cuando en cada columna de la matriz facto-
tores, sin alterar la proporción total de varianza explicada por el modelo de dos factores. rial (donde se sitúan los factores) existen sólo unos y ceros (coeficientes factoriales muy
Tampoco se han modificado las comunalidades; es decir, la proporción de la variabilidad elevados en unas variables y muy bajos en el resto).
de cada variable empírica que explica el modelo factorial de dos factores comunes. En la aplicación de la rotación valimax pueden emplearse coeficientes factoriales "bru-
tos" o "normalizados". Lo habitual es utilizar coeficientes factoriales "normalizados" (o
r:

478 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 5: Análisis factorial 479

estandarizados) para equilibrar la int1uencia de variables con distintas comunalidades en ejes factoriales no SOn perpendiculares, pudiendo estar separados por un ángulo inferior
la solución factorial. Para ello se aplica el criterio de normalización de Kaiser que consiste a 90°.. El coseno del ángulo,;:lUestra la correlación entre los dos ejes factoriales que se
en ajustar los coeficientes factoriales dividiendo, cada uno, por la raíz cuadrada de la co- relaCIOnan. La cor:~IderacIOn de dImensIones latentes interrelacionadas comporta,
munalidad de la variable correspondiente. 0, igualmente, dividiendo cada coeficiente fac- un,a mayor co:uplej1dad en la mterpretación de la solución factorial, aunque <,sta sea'
torial cuadrado por la comunalidad de la variable respectiva. teonca y empmcamente más realista.
La aplicación de los coeficientes factoriales normalizados proporciona a cada La ?orreIación mutua entre los factores introduce modificaciones importantes en
variable empírica igual peso en la rotación. De esta forma se evita que aquellas va- la matnz factonaL En pnmer lugar, los coeficientes factoriales no pueden ya inter-
riables con comunalidades más elevadas int1uyan más en la solución factorial fi;,al. pretarse como coeÜcIentes de correl~ción simple, como sucede en la rotación ortogonal,
Cuando se aplique este criterio, se está ante una rotación varimax normalizada. E~t~l smo sólo como coeÜcIentes de regreSIón de cada variable empírica X. en función de fac-
se muestra muy adecuada cuando las variables presentan comunalidades muy dispa. tores mutuamente relacionados. De la matriz factorial no rotada d~rivan dos matrices'
res (elevadas en unas variables y muy bajas en otras) ..' diferentes: l~ matnz de los coeficient~s factoriales (o la "matriZ de configuración": "pat-
tern matrrx ) y la matnz de correlacIOnes entre los factores y las varial:Jles .(la "matriz
de estructura": "structure matrix"). En la rotación ortogonal ambas matrices coinciden
A. 2. Quartimax en la oblicua difierer:. Además, las correlaciones entre las variables empíricas (in di:
cadores) y las dImenSIones latentes pueden estar int1adas por el solapamiento entre los
En vez de simplificar las colu;nnas de la matriz factorial (como sucede en la ro- factores o componentes. Las variables pueden correlacionar con unos factores direc-
tación varimax), busca la simplificación de las filas (varialJles) de la matriZ! Esto lleva tamente y con otros indirectamente, a través de su correlación con otro factor a él co-
a maximizar la varianza de los coeficientes factoriales cuadrados para cada vanable: Ca- rrelacionado.
da variable deberá tener una correlación elevada en unos pocos factores y baj a en el . Para conocer el grado de ?o~relación entre los factores o componentes, la gene-
resto, de manera que sea núnimo el número de factores necesarios para explicar su va- rabdad de los programas estadIstIcoS <;>frecen una matriZ de correlaciones entre Jos fac-
riabilidad. tore,s ("factor correlation matrix"). Esta permite comprobar el grado de ¡ntercorre-
Analíticamente quartimax es más sencillo que varimax. Si bien, varimax ofrece lacIOn ,entre los factores: Información de interés en la decisión de qué modalidad de
una separación más clara de los factores (Kim y Mueller, 1978b; Dillon y Goldstein, 1984; rotacIOn aplIcar con la fmalrdad de mejorar la solución factorial.
Hair et al., 1992; 1999). En quardmax muchas variables pueden presentar coeficientes fac- Lainterrelación entre los factores también altera la interpretación de las co-
toriales elevados en un mismo factor, al buscar la simplificación de las filas. En cada fi- muna/¡dades de las vanables y de la proporción de varianza explicada por cada fac-
la debe haber sólo un coeficiente factorial elevado, el resto ha de situarse próximo a ce- tor. Las comuna/¡dades no comcIden con la suma de los coeficientes factoriales al
ro. Esto puede provocar el efecto no deseado de que muchas variables presenten cuadrado de cada variable en cada factor o componente. Tampoco la proporción de
coeficientes factoriales elevados en un mismo factor. Habrfa un único factor general in- vananza exphcada por el factor se obtiene a partir de la suma de los coeficientes
tegrado por la mayoría de las variables que ponderan mayoritariamente en este factor. cuadrados de las variables que saturan en dicha dimensión latente. Los factores
e~tán correlaCIonados, lo que entorpece la interpretación de la suma de los coefi-
CIentes factonales cuadrados rotados oblicuamente en términos de proporción de
A.3. Equimax vananza.
La rotación oblicua incluye igualmente una amplia variedad de alternativas. Éstas
Este tercer procedimiento de rotación ortogonal se presenta como una síntesis de pueden smtetrzarse en las siguientes:
los dos anterior~s. Busca tanto la simplificación de las filas (variables) como de las co-
lumnas (factores) de la matriZ factorial. Pese a ello no ha tenido el desarrollo esperado,
siendo de los tres procedimientos de rotación el menos aplicado en la práctica. B.1. Oblimin

Es uno ~e los procedimientos de rotación oblicua más populares, al estar incluido


B) Rotación oblicua en la mayon~ de los programas estadísticos, como el SPSS. Suele aplicarse con coefi-
cIentes factonales normalizados, obtenidos de la división del coeficiente factorial al cua-
Mllestra mayor ~decuación a situaciones muy habituales de interrelación entre di- ,i drado por la raíz cuadrada de la comunalidad de la variable respectiva.
mensiones latentes. Al permitirse la correlación entre los factores o componentes, los Este procedImIento de rotación resulta de la combinación de dos criterios:
480 Anállsú' multivariable. Teoría y prácrica en la investigación social
Capitulo 5: Análisis factorial 48.1

Quarlimin: que se asemeja al q uartimax en la rotación ortogonal. Minimiza la su- munalidad y los autovalores se da en tablas a a
ma de los productos de los coeficientes factoriales y produce factores de mayor "varianza total explicada" (subapartado 5 5 2f te. Los autovalores en la tabla común llamada
oblicuidad. expuesta en el segundo ejemplo del ap~rt'ad'o ;.~comUnaIJdades en una tabla específica ya
Covarimin: minimiza la covarianza de los coeficientes factoriales cuadrados. Tien- En la matnz no rotada (tabla A) se observa un
de a generar factores menos oblicuos y, como los dos criterios anteriores, tam- nentes, al haber 8 variables (de las 14 l' a estructura poco definída de los compo-
bién suele utilizar coeficientes factoriales normalizados. más de un componente. Se toma el refere~~: Izadas) ~on saturacIOnes "significativas" en
nos un 9% (,302 = ,09) de la varianza de la va' ~~s habitual de Aij ¿ ,30. Supone que al me-
Dicho referente puede incluso red~cirse Ii la e ha quedado explicada por el componente.
B.2. Oblimax bapartado 5.6.2, dado el elevado tamaño ~~~s~:~te a las cantidades expuestas en el su-
Por ejemplo) la variable "casar con marro uí" .,
con tres componentes: 1 (,639), 3 (,442) 2 (3 q presenta u~a correlaclon significativa
Se presenta como un criterio alternativo al quartimin (el equivalente oblicuo del en cambio, negativa y más leve (-133) EY t' 3?1)' Su correlaclon con el componente 4 es
quartimax). Persigue la simplificación de la estrnctura factorial, aumentando (maxi- dera es " ' , política" (815) '
Ideologla .'d n es '
e u.timo componente Ia vana . bl ' pon-'
e que mas
mizando) el número de coeficientes factoriales elevados y bajos. En cambio, disminuye sencia de las dernás variabl~s e~ ::t~u~lt~ a distanCia por la variable "sexo" (-,394). La pre-
los de rango medio. rio, el componente 1 se presenta mo componente no es significativa. Por el contra-
saturan significativamente (A ¿ 30>,1~~~~e e~.~s~~, ~omo un componente "general". En él
la variable "sexo". Lo que con~uerda con ~a '. ~ e as vanables, con la única excepción de
B.3. Promax bapartado 5.5.2. a In ormaclón de los autovalores dada en el su-

Es uno de los procedimientos de rotación oblicua más novedosos, incorporándo-


se a las últimas versiones de programas como el SPSS. Se caracteriza por conseguir la Tabla A Matriz de componen tesa
solución oblicua aplicando algunas funciones de la solución ortogonal, como la matriz
"target": aquella que el investigador tiene en mente o cree que existe. Componente

"La razón detrás de la rotación promax es que las soluciones ortogonales suelen 1 2 3 4
aproximarse a la solución oblicua, y reduciendo los coeficientes más pequeños a coefi- casar con marroquí
cientes de casi cero, se puede obtener una matriz target de estructura simple razona- ,639 ,330 ,442
simpatía marroquí -,626 -,273 -,133
blemente buena. Entonces, encontrando los factores oblicuos que mejor ajusten entrada inmigrante ,618 -,163 ,193
vecino marroquí ,113 -,298 2,78E-03
(aplicando el criterio de minimos cuadrados) a esta matriz larget, se obtiene la solución ,589 ,341
leyes inmigración -,586 ,439 -,189
oblicua deseada" (Kim y Mueller, 1978b: 40-41). n.o inmigrantes -2,02E-02 ,336 8,51 E-02
Este tercer criterio de rotación oblicua suele utilizarse cuando se quiere compro- ,582 -,123 -,243
inmigrante delincuente ,571 1,20E-02 6,367E-02
bar la congruencia de una estructura factorial con otra que se conoce. regularizar inmigrante -,570 -,238 4,811 E-02
.

partido racista 9,74E-02 ,285 7,394E-02


ingresos
,449 ,138 ,106
-,329 ,690 ,206
estudios
-,452 7,246E-03 ,184
edad ,674 8,15E-02 9,128E-02
sexo
,388 -,536 ,261
EJEMPLODE DlstiNTOSPROCJEDIMIENWSDE HOTACIÓN 9,040E-03 ,279 3,929E'02
ideología política -,464 -,394
ORT9GONALYDBLlCUA EN ACP' . . ,301 ,110 1,85E-03 ,815
Método de extracción: Análisis de componentes pnnc!pa!es.
a 4 compOnentes extraídos.
Para que pueda mejor comprenderse la lógica de la rotación, se decide aplicar las dis-
tintas opciones de rotación a un mismo método de extracción factorial: el análisis de com H

ponentes principales. Los métodos de factor común se ejemplifican en el apartado 5.8.


Primero, se expone la matriz de componentes "no rotada" (tabla A). Punto de referencia Previo a la rotación factorial el primer co
para comprobar la mejora lograda con la rotación. En la salida original del programa SPSS saturaciones al cuadrado tras la ~xtracción fac:;.~n~;~/r~senta un autovalor (suma de las
(versión 10.0) dicha matriz incluye únicamente las variables, los componentes extractados y a 3,619, que supone un 25,85% de varianza e~a ii~a + -,626)2 + ,6182 + '.. + ,301 2) igual
las saturaciones o coeficientes factoriales ("component loadings"). La información sobre co- ponente explica el 11,89% de la varianz I ~ da (3,619/14 x 100). El segundo com-
a, a ser a suma de sus saturaciones igual a 1,665.
482 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 5: Análisis factorial 483

El tercer componente presenta un autovalorigual a 1,114, que se traduce a un 7,96% de la


varianza total explicada. Por último, el componente 4 es el que menor cantidad de varianza Tabla B. Matriz de componentes rotadosa
explica: 1,015, es decir, el 7,25%. Recuérdese que la agrupación de las 14 variables en 4 com-
ponentes principales logra explicar el 52,95% de la varianza total (véase la tabla "varianza to- Componente
! i
tal explicada" en el subapartado 5.5.2). 1 2 3 4
, , AdViértase que en ACP, a diferencia de AFC, las medidas de varianza "iniciales" y
"posteriores" a la extracción factorial no varían. Pero sí tras producirse la "rotación", como des- reyes inmigración ,660
; i -,110 9,350E-02 -9,15E-02
pués se verá. entrada inmigrante ,659 ,217 -4,25E-02 2,200E-02
regularizar inmigrante -,610
Respecto a las comunalidades, ya se vio, en el apartado 5.6, que al ser un ACP, las co- . -,210 5,204E-02 5,012E-02
n. o inmigrantes ,579
munalidades "iniciales" son siempre igual a 1,0. Las de interés son las posteriores a la "ex- ,111 -,246 9,453E-02
inmigrante delincuente ,576
tracción" factorial. Éstas se obtienen de la suma de las saturaciones al cuadrado de la variable ,160 -,146 7,861E-02
casar con marroquí ,177
en el conjunto de los componentes extractados. Su valor expresa la proporción de varianza ,830 -5,54E-02 8,724E-02
vecino marroquí ,141 ,818 -3,41E-02 2,472E-02
de las variables respectivas que logra explicarse mediante la conjunción de los componen- simpatía marroquí -,351 -,636
partido racista 4,038E-02 4,251E-02
tes. Las tres variables cuya variabilidad logra ser mejor explicada son "ideología política" (h? ,275 ,332 -3, 32E-02
estudios ,295
= ,766 = ,301 2 + ,110' + [-,001847]' + ,8152), "casar con marroqur' (tí) = ,731 = ,639' + ,3302 ingresos
-,207 -4,00E-02 ,793 -9,31 E-03
+ ,4422+ [-,133]2) Y "vecino marroqur' ("tí) = ,691 = ,589' + ,341' + ,439' + [-,189]'). En cam- edad
-,173 6,978E-02 ,754 ,122
bio, sólo el 27,4% de la varianza de la variable "partido racista" ha quedado explicada por la 5,780E-02 ,143 -,675
ideología política ,276 ,168
solución de cuatro componentes principales y el 38,5% de la variable "inmigrante delincuente". sexo
4,828E-03 9,794E-02 ,825
,325 -6,25E-02 ,310
En estas dos últimas variables la mayor parte de su varianza queda sin explicar (especifici- ,493
dad): el 72,6% y el 61,5%, respectivamente. Método
.
..
de extra~.clon. ..
Anahsls de componentes princIpales .
En busca de una mejor definición de los componentes se prueban distintos procedi- Metodo de rotacJon: Normalización varimax con Kaiser
mientos de rotación. Primero, se aplica la variedad más usual, varimax (tabla B), que per- a La rotaclón ha convergido en 6 iteraciones. .
sigue maximizar las saturaciones de una variable en un componente y minimizarla en el res-
to. Para evitar la desigual influencia de variables con diferentes comunalidades, se aplica
"ideología política" finalmente no se incluyese en dicho análisis por la
además el criterio de normalización de Kaiser. Tras seis iteraciones (aunque se fijó el nú- dicho capítulo. s razones expuestas en
mero máximo de iteraciones utilizadas por defecto en el programa SPSS: 25. Éstos son los Tras la rotación ni las comunalid d . I .
pasos que puede seguir el algoritmo para realizar la rotación) se obtiene la matriz incluida (52,95%) varían. Lo'que' b' ~ esm e porcentaje global de la varianza total explicada
en la tabla B. saturaciones de las v . SI cam la es a vananza explicada por cada componente, al variar las
Si previo a la rotación ocho variables presentan coeficientes "significativos" en más de un varianza que ocasiO~~a~~: ~~r~:: ~~~pone~te: La rotación produce una redistribución de la
componente, tras la rotación ottogonal varimax el número de variables que ponderan en más con el aumento consiguiente en los dem _ a vanabllidad explicada por el primer componente,
de un componente se reduce a dos: las variables "sexo" (con Á,.;:, ± ,30 en tres componen- de 3 619 a 2 416 (un 1726% d i ' as componentes. El componente 1 pasa de un autova/or
tes) y "simpatía marroquf' (en dos componentes). Las doce vari~bles restantes quedan c\a- de I~ varian~ total' el c~m ~ne~ta vananza total); el componente 2, de 1,665 a 2,046 (14,61%
,,¡mente definidas en un componente. La definición perfecta se produce cuando la variable a 1,090 (7 79%). 0éase la~abla ~'v'
de de 1,114a 1,861 (el 13,29%); yelcomponente 4, de 1,015
presenta un coeficiente muy elevado (próximo a 1,00) en un componente y muy bajo (próximo '. . e ananza total explicada" en subapartado 5.5.2.
a ,00) en el resto. com~~~:~~~~,,:I~~~~~;~t~~~o~:;::'~~ión patr.a tdransformar los e,oeficientes de la matriz de
El primer componente principal queda más definido por la combinación lineal de cinco va- . a ma nz e transformaClon de los componentes.
riables relacionadas con la "política inmigratoria": "leyes inmigración", "entrada inmigrantes",
"regularizar inmigrantes", "número de inmigrantes" e "inmigrante delincuente".
Tabla C. Matriz de transformación de las componentes
El segundo componente por cuatro indicadores usuales de "simpatía" hacia los inmi-
grantes" (en concreto, hacia los "marroquíes"): "casar con marroquí", "vecino marroqur', "sim- Componente 1 2 3 4
patía marroquP' y "partido racista".
El tercer componente por variables sociodemográficas relacionadas con la "posición so- 1 ,720 ,576
2 -,351 ,163
cial": "estudios", "ingresos" y "edad". En especial, las dos primeras. ,084 ,440 ,894
3 -,686 -,003
El cuarto componente por dos variables que muestran estar relacionadas: "ideología po- ,636 -,247 ,253
4 ,059 -,265
lítica" y "sexo". ,128 ,954
Si se compara la presente agrupación de variables con la obtenida mediante el análisis ..
Método de extra?:Jón. Anahsls de componentes pnnclpales .
de conglomerados (capítulo 3), puede constatarse que ambas coinciden, aunque la variable Método de rotacJon: Normalización varimax con Kaiser.
Capítulo 5: Análisis factorial 485
484 Análisis multivaríable. Teoría y práctica en la invesrigación social

Después se prueban otros procedimientos de.~otación


ortogonal: ;.::=~~: ~:~I~~?a~ Tabla E Matriz de componentes rotadosa

equamax (tabla E). Quartimax busca la simPlif¡Ca~On d~ las ~~:~~~;: que s;lvo la variable Componente
columnas. Si se compara la tabla D con la tabla , pue e o en el 2) el resto de las va- --
"partido racista" (que queda más definida en el comb'0nente 1d~~entos de'rotación ortogonal. 1 2 3 4
riables saturan en los mismos component:s ~~ a~ os proc~ ! com anente aumenta a
El número de variables con coeficientes sIgnificatIvos en mas de un P entr'áda inmigrante ,640 ,251 -6,68E-02 7,918E-02
tres: "sexo", "simpatía marroquí" y "partido racista". leyes inmigración -,640 -,143 ,117 -,146
regularizar inmigrante -,597 -,244 7,497E-02 -3,31E-03
n." inmigrantes ,554 ,138 -,267 ,143
inmigrante delincuente ,553 ,188 -,167 ,128
Tabla D Matriz de componentes rotadot?
casar con marroquí ,120 ,835 -6,16E-02 ,122
- vecino marroquí 9,077E-02 ,824 -3,94E-02 5,601 E-02
Componente
simpatía marroquí -,315 -,655 5,382E-02 -1,03E-03
4 partido racista ,230 ,338 -4,15E-02 ,324
1 2 3
estudios -,174 --4,89E-02 ,800 -2,93E-02
9,97E-03 1,27E-02 ingresos -,157 5,869E-02 ,761 ,107
,681 ,141 edad 1,134E-02 ,140 -,675 ,178
entrada inmigrante 6,164E-02 -5,73E-02
-,675 -3,59E-02 ideología política ,214 -3,95E-03 9,300E-02 ,844
leyes inmigración 2,152E-02 8,236E-02
regularizar inmigrante -,628 -,140 sexo ,376 -2,98E-02 ,295 -,468
4,496E-02 -,218 6,317E-02
n. o inmigrantes ,603 4,768E-02
9,423E-02 -,118
inmigrante delincuente ,600 ,278 MétOdo de extracción: AnáHsis de componentes principales.
,300 -2,02E-02
partido racista ,326 6,956E-02 Método de rotación: Normalización equamax con Kaiser.
,805 --4,41 E-02
casar con marroquí ,275 9,159E-03 a La rotación ha convergido en 6 iteraciones.
,798 -2,43E-02
vecino marroquí ,234 6,641E-02
-,592 2,078E-02
simpatía marroquí -,419 7,208E-03
-1,52E-02 ,782
estudios -,248 ,135
9,054E-02 ,745
ingresos -,194 ,159 Por último, se comprueba si distintos procedimientos de rotación oblicua logran una mayor
,136 -,671
edad ,114 ,811 definición de las variables en los componentes. Se parte de la hipótesis de que los componentes
-2,21 E-02 ,170
ideología política ,310 -,505 pueden estar intercorrelacionados_ Primero, se prueba el procedimiento de rotación oblicua más
-,100 ,328
sexo ,276
popular, oblimin, y después el procedimiento promax. Éstas son las dos opciones de rolación
oblicua dadas en el programa SPSS. Las tablas F ("matriz de configuración'') y G ("matriz de es-
Método de extracción: Análisis de componentes princIpales.
Método de rotación: Normalización quartimax con Kaiser. tructura") corresponden a la rotación oblicua oblimin, con el crrrerio de normalización de Kaiser,
a La rotación ha convergido en 6 iteraciones.
Recuérdese que en la rolación oblicua ambas matrices varían, a diferencia de la rotación or-
togonal. Como el procedimiento oblimin permite controlar la extensión de la "oblicuidad" mediante
delta ("8'), éste se fija en O, siguiendo la recomendación de Harman (1976) de que delta sea O.
-- - ax pero sí la pro- La oblicuidad es mayor cuando delta es O y menor cuando es negativo,
Las comunalidades no varían respecto a la soIUC¡Ó~ de rotacIO~e~a:l;ter~ción producida La matriz de estructura (tabla G) muestra las correlaciones entre las variables y los com-
porción de varianza explicada por G~da comp?n~nte, d~~~~;;: J:~ varianza total, aumenta ponentes, Se obtiene multiplicando la matriz de configuración por la matriz de correlaciones de
en su composición. Aunque contInua explican ose e , entes que ven disminuida los componentes. Recuérdese que una característica que distingue a la rotación oblicua es que,
la aportación del componente 1 en detrimento de los otros compon , al permitir que los componentes estén intercorrelacionados, los coeficientes dejan de ser simples
su aportación a la varianza total explicada .. , rovoca en cambio, una coeficientes de correlación de la variable con el componente, sino coeficientes de regresión de
La aplicación del procedimiento de. rotaclon equamax (tabl~e~ ~áS e ~itativa. El primer cada variable empírica respecto a los componentes que están mutuamente relacionados,
redistribución de la varianza total explicada por los componeln 2205)' ei componente 2 el De la comparación de las matrices con las obtenidas con la rotación ortogonal puede con-
componente explica el 15,75% de la varianza (autovaloflgua a , t 4
18304°;' (1 1(33) cluirse que la composición de los componentes principales no difiere, en general, de los mo-
15,31% (2,143); el componente 3, el 13,59% (1,903); Y el cO;~eol~e~O~b¡neación lin;al de va: delos precedentes; si bien, ha logrado una definición más clara de los componentes, al ha-
Si se comparan la tabla E con la D y la B, puede obs"rvarse max se asemeja en general, ber menos variables que saturen de forma significativa en más de un componente. La
riables que forman cada compone~te en la soluclon equa enta a cuatro las ~ariables con diferencia principal es el intercambio en la composición de los componentes 2 (ahora ca-
más a la obtenida mediante la rotaclon vanmax. Aun,~ue ~,u~deOIOgía política" "simpatía ma- racterizado por la combinación de las variables "estudios", "ingresos" y "edad") y 3 ("casar con
coeficientes significativos en más de un componente. sexo, 1 ' marroquí", "vecino marroqur', "simpatía marroquí" y "partido racista'').
rroqur' y "partido racista"_
Capitulo 5: Análisis factorial 487
486 Análisis multivariable. Teoria y práctica en la investigación social

Tabla F. Matriz de confíguraciórr La interrelación de los componentes también altera la interpretación de las comuna/idades,
cuyo valor no coincide con la suma de las saturaciones al cuadrado de la variable en cada
Componente componente. La divergencia es mayor, cuanto más correlacionados estén los componentes.
Para constatarlo, calcúlense las comunalidades y compárense con las expuestas en el
3 4
1 2 apartado 5.6, que son las proporcionadas por el programa para todo ACP, indistintamente del
9,55E-02 método de rotación aplicado.
-,661 4,666E-02 8,862E'03
leyes inmigración ,113 1,834E-02 Las correlaciones de los componentes aparecen en la tabla H. Dicha matriz no coincide con
,644 5,982E-03
entrada inmigrante -,119 5,669E-02 la matriz identidad (caracterizada por tener la diagonal principal integrada por unos y el resto por
regularizar inmigrante -,596 1,140E-02
-,206 2,171 E-03 8,480E-02 ceros), aunque las correlaciones no son elevadas. Ello explica la poca variación en la composición
n. o inmigrantes ,563 7,125E-02
,557 -,103 5,938E-02 de los componentes respecto a la rotación ortogonal. Los componentes más correlacionados son
inmigrante delincuente 1,333E-02 4,728E-02
-,142 ,794 el1 y el3 (,380) y los menos el1 con el4 (,07455). Estos dos úliimos componentes son casi or-
estudios ,115 ,168
-,140 ,770 togonales al estar escasamente correlacionados. El solapamiento en la varianza de ambos es
ingresos ,116 ,109
-3,74E-02 -,667 casi nula (,07455' ~ ,0056 ~ 5,6%) mientras que el solapamiento en la varianza de los componentes
edad ,858 1,085E-02
-1,36E-02 -1,69E-03
casar con marroquí ,857 -5,12E-02 1 y 3 alcanza el 14,44% (,380'). Adviértase que en la mayoría de las situaciones la inexistencia
-4,43E-02 1,352E-02
vecino marroquí -,626 9,649E-02 de correlación entre los componentes es una propiedad deseable porque supone que los
-,223 -6,26E-03
simpatía marroquí ,287 ,275 componentes extraídos realmente miden dimensiones diferentes en los datos.
,198 1,610E-02
partido racista -,104 ,856
,261 ,168
ideología política -8,24E-02 -,463 Tabla H. Matriz de Gorrelaciones de los componentes
,408 ,301
sexO
Componente 1 2 3 4
Método de extracción: Análisis de componentes princIpales.
Método de rotación: Normalizacíón oblimin con Kaiser.
1 1,000 -,159 ,380 7,455E-02
aLa rotación ha convergido en 8 iteraciones. -,159
2 1,000 -,130 -,151
Tabla G. Matriz de estructura 3 ,380 -,130 1,000 ,186
4 7,455E-02 -,151 ,186 1,000
Componente
Método de extracción: Análisis de componentes principales.
2 3 4 Método de rotación: Normalización oblimin con Kaiser.
1
8,633E-02 La escasa correlación de los componentes puede llevar a reconsiderar la conveniencia
,687 -,114 ,360
entrada inmigrante -,266 -,150 de proceder a la rotación oblicua. Se prueba la rotación promax, obteniéndose correlaciones
-,673 ,165
leyes inmigración -,337 -1,16E-02 ligeramente superiores entre los componentes. La más elevada (tabla 1) se da entre los com-
-,639 ,113
regularizar inmigrante ,259 ,158 ponentes 1 y 2 (,418) Y la más baja entre los componentes 1 y 4 (,113). Ello se debe a que
n. o inmigrantes ,603 -,309
-,210 ,298 ,139 mediante la rotación promax se obtiene una composición similar de los componentes a la con-
inmigrante delincuente ,602 -8,07E-02
-,260 ,808 -,135 seguida mediante los procedimientos ortogonales. El componente 2 está mayoritariamente
estudios -7,00E-03 6,298E-02
-,207 ,752 integrado por la combinación lineal de las cuatro variables que miden "simpatía" hacia los in-
ingresos ,209 ,229
,121 -,693 migrantes y el componente 3 por los indicadores de "posición social". Si se comparan las ta-
edad ,855 ,169
,314 -,112 blas J y K con las correspondientes a la rotación oblimin (tablas F y G) se observará que am-
casar con marroquí ,829 ,102
vecino marroquí ,276 -8,29E-02
9,597E-02 -,693 -3,55E-02 bos componentes están intercambiados en ambas soluciones factoriales.
simpatía marroquí -,453 ,340
-9,40E-02 ,411
partido racista ,324 ,831 Tabla l. Matriz de correlaciones de los componentes
1,055E-02 ,133
ideología política ,259 -,493
,295 ,317 -5.22E-02
sexo Componente 1 2 3 4
Método de extracción: Análisis de componentes principales. 1 1,000 ,418 -,187 ,113
Método de rotación: Normalización oblimin con Kaiser. 2 ,418 1,000 -,145 ,198
. l' d las sumas de los cuadrados 3 -,187 -,145 1,000 -,142
Al permitirse que los componentes esten corre aCiana os, .' d I 4 ,113 ,198 -,142 1,000
de las saturaciones no se pueden añadir para obtener ~ ~arianz: ~~~~;! ~~~::~I~O~p~~~~~~
cedimientos de rotación ortogonales. Sólo se mforma e os au o t 4 _ l' 227 Método de extracción: Análisis de componentes principales.
1 ~ 2,822, componente 2 2,030, componente 3 ~ 2,618 Y componen e - , . Método de rotación: Normalización promax con Kaiser.
Capítulo 5: An.álisis factorial 489
488 Análisis multivariable. Teoría y práctica en la investigación social

• Con cualquiera dc los procedimientos de rotación puede cubrirse el objetivo de


Tabla J. Matriz de configuraciórr lograr un modelo factorial ajustado al principio de estructura "simple", integrado por
---- ._._._. dimensiones latentes claramente definidas mediante los indicadores utilizados. Si
Componente
bien, la rotación ortogonal, en general, y el procedimiento varimax, en particular, son
2 3 4 los más aplicados en la investigación empírica. Y ello pese a que la rotación oblicua se
1
8,83E-02
ajusta más a situaciones babituales de dimensiones latentes "interrelacionadas".
-,675 4,205E-02 3,795E-02
leyes inmigración 1,581 E-02 1,075E-02 El éxito de los procedimientos de rotación ortogonal en gran parte se debe a su am-
entrada inmigrante ,659 8,098E-02
-,611 -9,05E-02 1,893E-03 6,372E-02 plia difusión en la generalidad de los programas estadísticos. También ha contribuido
regularizar inmigrante 8,036E-02
,573 -2,74E-02 -,199 su mayor sencillez de realización y de interpretación. Mientras en la rotación ortogonal
n. <> inmigrantes -9,55E-02 6,586E-02
inmigrante delincuente ,569 3,086E-02
-5,05E-02
el modelo factorial se obtiene de la interpretación de la matriz factorial, en la rotación
-3,81 E-02 ,858 2,006E-02
vecino marroquí 5,008E-03 1,154E-02 oblicua se precisa conocer las matrices factoriales, de estructura y la de correlación en-
-7,68E-03 ,856
casar con marroquí -1,49E-02 9,907E-02 tre factores. Además, la sola interpretación de la matriz factorial es más compleja, al
-,235 -,615
simpatía marroquí 2,002E-02 ,273 estar sus datos referidos a factores o componentes interrelacionados.
,200 ,275
partido racista ,793 4,123E-02
estudios -,140 2,578E-02
,163
A las ventajas destacadas de la rotación ortogonal hay que añadir su mayor ade-
,126 ,769
ingresos -,140 ,117 cuación, cuando el análisis factorial se aplica como paso previo a otros análisis multi-
,112 -,668
-4,41 E-02
edad
-,121 ;167 ,853 variables. Sirva de ejemplo su aplicación para eliminar la multicolinealidad en análisis co-
ideología política ,254 -,472
,426 -9,66E-02 ,308 mo el de regresión. Para este propósito se precisa obtener dimensiones latentes
sexo
ortogonales (no correlacionadas), que agrupen a indicadores muy correlacionados entre
Método de extracción: Análisis de componentes pnnclpales. sí. Lo mismo sucede cuando se quiere formar grupos (de sujetos o variables) muy
Método de rotación: Normalización promax con Kaiser. cohesionados entre sí y diferentes de los otros grupos. En estas situaciones la rotación or-
a La rotación ha convergido en 6 iteraciones.
togonal se convierte en la mejor opcióu, al adecuarse a los propósitos del análisis. En cam-
bio, la rotación oblicua se adecua más cuando "el analista simplemente está interesado
en obtener constructos o dimensiones teóricamente significativos" porque, como afirman
Tabla K Matriz de estructura Hair et al. (1992: 234-235), "es teórica y empíricamente más realista".
En situaciones de indecisión en la elección del procedimiento de rotación, lo
Componente
más conveniente es seguir la recomendación, destacada por Tabachnick y Fidell
2 3 4 (1989: 637), de "solicitar la rotación oblicua con el número deseado. de factores y ob,
1
servar las correlaciones entre los factores. Si éstas exceden de ,30, existe un 10% (o
,120 9,884E-02
entrada inmigrante ,691 ,357 más) de solapamiento en la varianza entre los factores. Esta varianza se considera su- .
,170 -,161
-,674 -,263 ficiente para garantizar la rotación oblicua, a menoS que existan razones apremiantes
leyes inmigración ,120 -2,34E-02
-,642 -,334
regularizar inmigrante -,314 ,168 para la rotación ortogonal".
,608 ,257
n.<> inmigrantes -,216 ,150
inmigrante delincuente ,607 ,296 Este proceder convierte a la observación de la matriz de correlación factorial en cla-
-,120 ,180
,351 ,855 ve en la decisión de qué modalidad de rotación realizar. Si esta matriz coincide con la
casar con marroquí -9,02E-02 ,113
,311 ,829 matriz identidad, significa que los factores no se hallan correlacionados entre sí, lo que
vecino marroquí ,104 -4,72E-02
-,478 -,691
simpatía marroquí -9,61E-02 ,347 favorece el uso de la rotación ortogonal. Por el contrario, cuando las correlaciones en-
,342 ,410
partido racista ,810 -8,23E-02
-,273 -,140 tre los factores son ;o: ,30, la rotación oblicua se convierte en la opción deseable en la
estudios ,754 6,265E-02
-,212 -1,16E-02 consecución de una estructura factorial más ajustada a la realidad observada.
ingresos -,693 ,229
,141 ,214
edad 1,580E-02 ,834
,269 ,130
ideología política ,310 -,487
,275 -5,66E-02
sexo 5.6.2. Lectura e interpretación de la matriz factorial
Método de extracción: Anális'ls de componentes princIpales.
Método de rotación: Normalización promax con Kaiser. De la matriz factorial (preferiblemente la rotada) se obtiene la configuración del
modelo factorial: las variables empíricas que conforman cada dimensión latente. Es-
490 Análisis multivariable. Teoria y práctica en la investigación social Gapitulo 5: Análisis factorial 491

ta información la dan los pesos o coeficientes factoriales (los "factor loadings" o En resumen, los incrementos en el tamaño de la muestra y en el número de va-
"component loadings") de cada variable empírica en cada factor o compon~~te. La riables empíricas repercuten, directamente, en un ligero descenso en la cmintíá del
magnitud de dicho coeficiente es lo que define la composición de cada dlmenslOn, que coeficiente factorial para que se juzgue "significativo". Por el contrario el au-
agrupa a las variables que ponderan en ella. Normalmente las variables empíricas se mento del nún;ero de factores supone un incremento en la magnitud de lo~ coefi-
integran en aquella dimensión latente en la que mayor coeficiente factorial presenten. CIentes en los ulbmos factores para que puedan considerarse "significativos". Sólo
Pero la asignación de variables empíricas (o indicadores) a factores o componentes ni se valora la cuantía del coeficiente para conocer el grado de relación de la variable
es siempre sencilla, ni se halla libre de' polémica. empírica con la dimensión latente. Los signos se interpretan como en cualquier co-~
Primero, ha de decidirse a partir de qué valor el coeficiente factorial se considera efICiente, de correlaCión: Indican la dirección de la relación entre el indicador y la
"significativo". 0, dicho en otros ténninos, qué cantidad mínima de la vananza de una dln;enslOn latente. El signo positivo expresa que la relación es positiva: ambas
variable ha de ser explicada por un factor o componente. La propuesta más compar- vanables, la observada y la latente, avanzan en la misma dirección' el aumento o dis-
tida es tomar como valor mínimo ± ,30. Todo coeficiente factorial? ± ,45 se estinia n:inución del valor de una de ellas provoca el aumento o dismin;ción de la otra. El
"significativo" y a partir de ± ,50, como "muy significativo'~: Cuanto más se aproxime el signo negativo expresa, en cambio, que la relación es negativa: al aumento de una
coeficiente factorial a 1,00, mayor es la relación de la variable con el factor. Comrey variable le sigue una disminución en el valor de la otra, en la cuantía expresa en el
(1973) califica a los coeficientes? ± ,70 (50% de varianza que se superpone) de "ex- coefICiente, y, a la mversa, la disminución de una de ellas supone el aumento de la
celentes"; los? ± ,63 (40% de varianza) de "muy buenos";? ± ,55 (30% de vananza) otra.
"bueno";? ± ,45 (20% de varianza) "justo"; y? ± ,32 (10% de varianza) "pobre", aun- .. Es habitual qu~ una misma dimensión latente incluya coeficientes factoriales po-
que suficiente. Tabachnick y Fidell (1989) sólo señalan "como regla" interpretar las va- Slllvos en unas vanables y negativos en otras. Cuando esto sucede, se dice que el fac-
riables con coeficientes factoriales? ± ,30. tor o componente es "bipolar?'.
En tamaños muestrales superiores a 100 casos, estos referentes pueden reducirse: En Una vez decidida la cuantía mínima para que el coeficiente factorial sea "signifi-
muestras inferiores deben, en cambio, aumentarse. Pero, en la decisión de qué punto de cativo", se procede a la lectura comparativa de los coeficientes factoriales de cada va-
corte adoptar en la valoración de un coeficiente factorial como "significativo" no sólo in- riable en cada factor. Para cada variable se destaca (subrayándolo, rodeándolo con un
terviene el tamaño muestra!. También ha de considerarse el número de variables empí- círculo, poniendo un asterisco, o como se quiera) el coeficiente de mayor magnitud en
ricas. El aumento del número de variables, al igual que el incremento del tamaño mues- valor absoluto. SI algnna de las variables empíricas no presenta riingún coeficientefac,
tral, pennite rebajar la cuantía ntinima del coeficiente para considerarlo "significativo". torial que sea "significativo", puede considerarse su elintinación del modelo faaoriaÚ'
Hair el al. (1992: 239-240) incluyen ambos aspectos en su propuesta: Est~ decisión sude adoptarse cuando la variable presenta, además, una baja comu-'
nahdad o se conSidera melevante para los objetivos de investigación (Tabachnick y Fi-
- Para tamaños muestrales ? 50 casos, los coeficientes factoriales? ± ,30 son "sig- dell, 1989). El adoptar esta decisión conlleva la repetición de los análisis, excluyendo
nificativos"; ~ ± ,40, "importantes'~; y;? ± ,50, "muy significativos". las van~bles elil~llnadas: Salvo qu~ el investigador decida, deliberadamente, interpretar
- Para tamaños muestrales de 100 casos, se recomiendan coeficientes factoriales
~ b matnz factor:al onglr:al (que mcluye variables con coeficientes factoriales no sig-
? ± ,19 Y'? ± ,26 para niveles de significación de ,05 y ,01, respectivamente. Si la mflcatlvos), sm mtroduclr mnguna modificación; es decir, ignorando aquellas variables
muestra es de 200 casos, los coeficientes recomendados son ligeramente infe- con coeficrentes factoriales no significativos.
riores: ? ± ,14y? ± ,18: Cuando la muestra es superior a 300 casos, los coefi- Para facilitarla interpre~~ción de los factores se puede proceder, en tercer lugar,
cientes factoriales de referencia descienden aún más: ? ± ,11y? ± ,15 para los a agrupa: las vanables empmcas con coeficientes factoriales elevados para cada fac-
niveles de significación de ,05 y ,01. t?r. El slgmflcado sustantivo de Un factor lo dan las variables con mayor coefi-
- Si se considera además el número de variables y de factores o componentes, los ciente faetona!. Se debe buscar qué significado "común" comparten estas variables
coeficientes factoriales de referencia también varían. El pasar del primer factor para, posteriormen,te, asignar un nombre o etiqueta al factor. La etiqueIJJ ha de reflejar
a los posteriores ha de suponer, igualmente, un incremento del nivel aceptable el slgmflcado comun de las vanables que ponderan en el factor. Obviamente, las va-
para que el coeficiente se considere "si¡puficativo". Así, por ejemplo, para. ~n ta- nables con mayor coeficiente factorial serán las que más influyan en el nombre del
maño muestral de 100 unidades y un nivel de significación de ,05, un coefic!ente factor.
factorial significativo en el factor número 5, con 20 variables empíricas, es? ± Esta es la fase del análisis factorial de mayor "subjetivismo". El investigador es li-
,216; pero, con 50 variables empíricas, desciende ligeramente a? ± ,202. Para el bre de asignar el nombre que q~iera al componente o factor. La única condición que
factor décimó, con 20 variables, el coeficiente mínimo necesario aumenta a ? ± se Impone es que la etlqueta elegida reneje y sintetice el contenido "común" de las va-
,261; y con 50 variables desciende a? ± ,214. riables que ponderen en dicha dimensión latente.
Capitulo 5: Aná.lisis factorial 493
492 Análisis multivariable. Teoria y práctica en la investigación social

tares (el coeficiente más elevado es ,161 Y corresponde al factor 3); y dos, la variable "par-

-1. EJEMPLO DE INTERPRETACIÓN DE DISTINTOS MODELOS AFG . J tido racista") con coeficientes algo más elevados, pero también inferiores al referente ha-
bitual (± ,30).
En busca de una explicación, se analizan las comunalidades (expuestas en el sub-
d 'b' I soluciones de factor común (AFC). Pa- apartado 5.4.3). En AFC, las comunalidades "iniciales" difieren de 1,0, al analizarse sólo la
Expuestos los mod.elos ACP, queda escn "o~:IO final obtenido tras aplicar el procedi- varianza ,común de cada variable y no la total como en ACP. Sus estimaciones de las co-
ra abreviar la exposlclon, solo se Interpreta,el m lar' varimax La tabla A corresponde a la munalidades iniciales son, en cada variable, R2 múltiple que resulta de regresionar el resto
miento de rotación de los ejes facton?leS mas pOPu¡ 'tor principal Éste es el método de ex- de las variables con la considerada. En la susodicha tabla puede comprobarse que la variable
matriz de factores rotados para el m?todo de eje o ~~o al de má~ima verosimilitud (Kim y "casar con marroquP' es, de las 14 consideradas, la que mayor proporción de su varianza lo-
tracción factorial de mayor aplicaclon e~/Fg j~ 1990) Como su realización ha sido pos- gra ser explicada por la combinación de las 13 variables restantes (,429 = 42,9% de su va-
4
Mueller, 1978b; Dillon y Goldsteln: 1984, A II Yd ar ; actar dimens'lones latentes (ahora lIa- rianza). Le sigue la variable "vecino marroquí" (,368) y "estudios" (,351). Por el contrario, las
terior a ACP, se ha seguido el mlsmo.cnteno e ex r laciones de una serie de variables ob- variables "ideología política" (,08422) y "sexo" (,033) apenas tienen varianza compartida con
madas "factores comu~es") que expliquen las c~r;e AFC se diferencia entre varianza las demás variables. El conocimiento del valor de las otras variables no ayuda a su predic-
servadas. Como se dijo en el subapartado 5. . , en da ueda definida por la conjunción ción. Recuérdese que en el análisis de conglomerados (capítulo 3) la variable "ideología po-
común y específica, de modo que cada v~nablebobserv~ m~elo sencillo e interpretable. Lo lítica" fue la última en unirse a la agrupación de las variables en conglomerados; la variable
de factores "comunes" Y "únicos". Tambl.e~lse US~:c~ne con el menor número de factores "sexo", la penúltima.
que lleva a la rotación para que cada vana e se re
Como las comunalidades "iniciales" se distancian de 1,00, se prevé que la solución de fac-
posible. torización de ejes principales difiera de la obtenida con ACP.
Tras la "extracción" factorial se vuelven a estimar las comunalidades considerando
Tabla A Matriz de factores rotadoS<> ahora los coeficientes factoriales. Las nuevas estimaciones de las comunalídades reemplazan
a las antiguas y prosigue el proceso iterativo de estimación de los factores comunes. Éste con-
Factor cluye cuando apenas cambian las estimaciones de comunalidad.
3 4 Como se preveía, tras la extracción factorial, las comunalidades finales también difieren
1 2
de las obtenidas en ACP. Los resultados confirman la tendencia habitual a conseguir co-
1,61E-02 5,744E-02 munalidades en general inferiores en la factorización de ejes principales respecto a ACP. La
,593 ,196
entrada inmigrante 7,588E-02 -,116 razón está en que sólo se factoriza la varianza "común".
-,541 -,143
leyes inmigración 2,934E-02 -1,31E-02
-,523 -,192 Tras la extracción factorial las comunalidades indican la proporción de la varianza de las
regularizar inmigrante -,182 7,120E-02
,497 ,136 variables que puede ser explicada por los factores comunes. El valor 1,00 expresa que toda
n.o inmigrantes -,127 ,136
,451 ,180 la varianza de la variable logra ser explicada por los factores comunes; el valor ,00, que su
inmigrante delincuente -5,80E-02 ,156
,266 ,238 variabilidad no se consigue explicar. La varianza "no" explicada por los factores comunes se
partido racista -5,12E,02 8,784E-02
,214 ,794
casar con marroquí -2,51 E-02 4,879E-02 atribuye al componente "único" o varianza "específica" de la variable.
,223 ,656
vecino marroquí 2,121E-02 -3,54E-02 La nula comunalidad de la variable "sexo" (véase la tabla B del ejemplo del subaparta-
-,385 -,479
simpatía marroquí ,741 1,698E-02 do 5.4.3) lleva a considerar la necesidad de eliminarla de los análisis y volver a estimar el mo-
-,244 --4,14E-02
estudios ,565 ,155
-,232 4,845E-02 delo factorial, en busca de su mejora. Máxime cuando dicha variable no presenta ningún coe-
ingresos -,536 ,143
,107 ,123 ficiente factorial "significativo" en alguno de los factores comunes. Además, su relevancia para
edad ,161 -3,01E,02
8,615E-02 1,068E-03 los objetivos del estudio es escasa.
sexo -2,83E-02 ,549
,162 8,049E-02 También puede considerarse la eliminación de la variable "partido racista", con coeficientes
ideología política
algo superiores, pero igualmente no significativos. Asimismo, su comunalidad tras la "ex~
Método de extracción: Factorización del eje principal. tracción" es baja: sólo el 15,5% de su varianza queda explicada por los cuatro factores co-
Método de rotación: Norma!1zación varimax con Kaiser.
munes. Pese a ello, su eliminación no es tan evidente, a diferencia de la variable "sexo", al
a La rotación ha convergido en 6 iteraciones.
haber quedado muy definida en un factor: el factor 4, con un coeficiente factorial de ,549 (ta-
bla A), que supone el 30,1% (,5492) de su variabilidad. En general, se recomienda valorar la
.' I 't . de normalización de Kaiser y han eliminación de las variables cuya comunalidad sea inferior a ,50 porque su variabilidad no que-
En la rotación se ha aphcado, Igualmente, e en ?no n la obtenida mediante ACP con da suficientemente explicada por el modelo factorial. Si su valor es inferior a ,30, la eliminación
convergido 6 iteraciones. SI se compara esta sOI~clon c~e que la composición de los lac- de la variable se convierte en imperiosa.
Ia rotación varimax (subapartado 5.6.1), pued~ o servarCiones evidentes: una, la variable La tabla B ofrece los datos de varianza total explicada por la factorización de ejes prin-
tares es similar a la de los c~mponentes con oSlexce~i ativo en alguno de los cuatro fac- cipales. El porcentaje de varianza total explicada por la conjunción de los cuatro factores co-
"sexo" que no presenta ningun coeficiente faetona slgnl c
I
Capítulo 5: Análisis factorial 495
494 Análisis multivariable. Teoría y práctica en la investigación social

Tabla D. Matriz de factores rotadot/l


munes (35,937%) es bastante inferior al obtenido en ACP (52,951%). Compárense los por-
centajes de varianza de las dos métodos factoriales. Factor

1 2 3 4
T.a bla B Varianza toJal explicada
entrada inmigrante ,599 ,186 -2,24E-02 2,245E-02
Sumas de las saturaciones Suma de las saturaciones leyes inmigración -,547 -,141 8,037E-02 -7,79E-02
Autovalores inidales al cuadrado de la extracción el cuadrado de la rotación regularizar inmigrante -,526 -,179 4,674E-02 -8,40E-03
n. o inmigrantes ,495 ,132 -,186 4,206E-02
Factor % Total %dela %
inmigrante delincuente ,456 ,186 -,131 5,530E-02
Total % de la % Total %dela
acumulado varianza acumulado
varianza acumulado varianza partido racista ,283 ,227 -6,55E-02 ,105
13,154 13,154 casar con marroquí ,225 ,809 -5,68E-02 4,767E-02
21,588 21,588 1,842
3,619 25,849 25,849 3,022 24,008 vecino marroquí ,239 ,638 -3,23E-02 2,895E-02
1 8,122 29,709 1,520 10,854
2 1,665 11,891 37,740 1,137 8,904 32,912 simpatía marroquí -,390 -,474 3,749E-02 -1,39E-02
3,864 33,574 1,247
3 1,114 7,958 45,698 ,541 3,024 35,937 estudios -,231 -2,68E-02 ,769 1,792E-02
,331 2,363 35,937 ,423
4 1,015 7,253 52,951 -,214
ingresos 6,269E-02 ,550 9,OOOE-02
5 ,950 6,786 59,737
edad ,114 ,125 -,529 7,109E-02
6 ,868 6,199 65,936
71,308 sexo 9,529E-02 -1,80E-02 ,153 -4,OOE-02
7 ,752 5,372
,736 5,259 76,567 ideología política ,166 7,487E-02 -3,76E-02 ,982
8
9 ,673 4,805 81,373
10 ,600 4,283 85,656 Método de extracción: Máxima verosimilitud.
11 ,574 4,103 89,758 Método de rotación: Normalización varimax con Kaiser.
12 ,559 3,994 93,752 a La rotación ha convergido en 6 iteraciones.
13 ,470 3,361 97,113
14 ,404 2,887 100,000
..
.. FactonzaClon de ejes pnnclpales .
Método de extracC10n:
Para abreviar la exposición de los resultados sólo se informa de las matrices factoriales
rotadas de los cuatro métodos de factorización restantes: mínimos cuadrados generalizados
(tabla E), mínimos cuadrados no ponderados (tabla F), factorización alfa (tabla G) e imagen
La aplicación del método de máxima verosimilitud logra .el~var h~sta 40,376 el por- (tabla H). Compárense los cuatro modelos factoriales y calcúlense las comunalidades y el por-
centaje de varianza total explicada (tabla C) con una composlClon similar en sus factore: centaje de la varianza total explicada por cada factor. Excepto en la factorización alfa, que se
(tabla O), Como en ACP, la proporción de varianza explicada en cada factor se obtle?e d distingue porque ni las comunalidades ni los autovalores son exactamente la suma de los coe-
la suma de las saturaciones al cuadrado de todas las variables. De nuevo, .Ias correlaciones ficientes factoriales al cuadrado, En cambio, la factorización imagen se diferencia porque las
son ponderadas por el inverso de la varianza única de las variables mediante un proceso comunalidades no varían, al "no" ser iterativamente reestimadas,
iterativo. El considerar que se analiza a la población de individuos y/o variables también afecta
a que en la factorización alfa no se realicen pruebas de significación, a diferencia de má-
xima verosimilitud y mínimos cuadrados generalizados. Asimismo, a diferencia del méto-
do de máxima verosimilitud, en la factorización alfa es frecuente que las variables con me-
Tabla G Varianza total explícada
nor comunalidad obtengan coeficientes factoriales más elevados que mediante otros
Suma de las 'saturaciones métodos factoriales como máxima verosimilitud. Para comprobar dichas afirmaciones se
Sumas de las saturaciones
al cuadrado de la extracción el cuadrado de la rotación proporcionan las comunalidades (tabla 1) y la varianza total explicada (tabla J) mediante la
Factor factorización alfa.
% Total % de la %
Total %defa Como muestra de la similitud de la agrupación de variables, compárense los gráficos de
varianza acumulada
varianza acumulado
saturaciones en el espacio rotado de ACP (figura A) y AFC de ejes principales (figura B), En
8,592 1,876 13,400 13,400 ambos gráficos las coordenadas se corresponden con los pesos o coeficientes factoriales de
1 1,203 8,592
28,124 1,502 10,731 24,131
2 2,735 19,532
33,196
la solución obtenida tras la rotación varimax. Estos gráficos 3-0 son la ilustración usual cuan-
8,081 36,205 1,269 9,065
3 1,131 40,376 do son tres o más los componentes o factores ex1raídos. En nuestro caso son cuatro. El grá-
,584 4,171 40,376 1,005 7,181
4 fico incluye los coeficientes de los tres primeros componentes (ACP) o factores comunes
Método de extracción: Maxlma veroSImIlitud. (AFC). La disposición de las variables en el espacio rotado es muy similar y son varias las va-
Capítulo 5: Análisis factorial 497
496 Análisis multivariable. Teoría y práctica en la investigación social

Tabla G. Matriz de factores rotadosB


Tabla E. Matriz de factores rotados<'
Factor
Factor

4 1 2 3 4
1 2 3

-4,81 E-02 2,677E-02 inmigrant~" ,594 , 191 -4,53E-02 5,082E-02


,606 ,189 leyes inmigración -,529 -,123 ,104 -7,98E-02
entrada inmigrante ,106 -8,43E-02
-,543 -,146 regularizar inmigrante -,509 -,185 5,29E-02 -1,75E-02
leyes inmigración 7,158E-02 -1,42E-02
-,521 -,185 inmigrante delincuente ,507 ,143 -,111 5,830E-02
regularizar inmigrante -,211 5,017E-02
n.o inmigrantes ,489 ,138 n. o inmigrantes ,455 ,144 -,243 9,117E-02
,191 -,151 6,206E-02
inmigrante delincuente ,450 ,109 partido racista ,279 ,239 -4,95E-02 ,116
,278 ,231 -7,36E-02
partido racista 5,119E-02 casar con maroquí ,205 ,804 -9,45E-02 8,424E-02
,214 ,813 -5,46E-02
casar con marroquí 3,194E-02 vecino marroquí ,248 ,665 -1,64E-02 3,016E-02
,230 ,644 -3,40E-02
vecino marroquí -1,83E-02 simpatía marroquí -,420 -,449 1,503E-02 -3,25E-03
-,382 -,479 5,037E-02
simpatía marroquí -3,73E-03 estudios -,237 -4,30E-02 ,718 2,256E-02
-,188 -4,16E-02 ,776
estudios 7,419E-02 ingresos -,158 3,336E-02 ,646 8,312E-02
-,184 5,301 E-02 ,570
ingresos 8,569E-02 edad ,140 ,105 -,457 7,188E-02
8,118E-02 ,136 -,536
edad -4,31 E-02 sexo ,109 -4,05E-03 ,174 -5,42E-02
,105 -1,96E-02 ,149
sexo ,984 ideología política ,165 8,517E-02 -3,47E-02 ,740
,156 7,628E-02 -1,99E-02
ideología política
.- .,
Metodo de extracclon: Factonzaclon alfa .
Método de extracción: Mínimos cuadrados generalizados. Método de rotación: Normalización varimax con Kaiser.
Método de rotación: Normalización varimax con Kaiser. a La rotación ha convergido. en 5 iteraciones.
a La rotación ha convergido en 6 iteraciones.

Tabla H. Matriz de factores rotadofil


Tabla F. Matriz de factores rotados<'
Factor
Factor

4 1 2 3 4
1 2 3
2,553E-02 casar con marroquí ,574 ,219 -4,17E-02 3,064E-02
,599 ,189 -1,98E-02
entrada inmigrante -7,41 E-02 vecino marroquí ,539 ,189 -2,81E-02 2,008E-02
-,545 -,142 8,011 E-02
leyes inmigración -6,86E-03 simpatía marroquí -,457 -,292 4,519E-02 -6,41E-03
-,523 -,183 3,555E-02
regularizar inmigrante 4,159E-02 partido racista ,261 ,217 -6,15E-02 6,135E-02
,499 ,134 -,186
n. o inmigrantes 6,135E-02 entrada inmigrante ,281 ,419 -7,18E-02 1,793E-02
,461 ,183 -,128
inmigrante delincuente ,100 leyes inmigración -,236 -,403 ,107 -2,25E-02
,275 ,242 -5,88E-02
partido racista 4,556E-02 n.o inmigrantes ,216 ,380 -184 1,144E-02
,224 ,800 -5,16E-02
casar con marroquí 2,636E-02 regularizar inmigrante -,260 -,378 7,323E-02 1,530E-03
,233 ,649 -2,58E-02
vecino marroquí -1,32E-02 inmigrante delincuente ,244 ,354 -,135 5,058E-02
-,392 -,473 2,453E-02
simpatía marroquí 1,940E-02 ideología política ,145 ,167 -2,00E-02 ,120
-,235 -3,77E-02 ,762
estudios 8,935E-02 estudios ~,65E-02 -,218 ,495 -2,00E-03
-,214 5,666E-02 ,556
ingresos 7,101 E-02 ingresos -2,29E-03 -,180 ,436 4,238E-02
,119 ,128 -,521
edad ,161 -3,39E-02 edad ,128 ,132 -,400 5,239E-02
8,913E-02 -2,81 E-03 1,336E-02 5,488E-02 ,123 -6,06E-03
sexo
ideología política ,164 8,005E-02 -3,80E-02 ,982 _sexo
..

Metodo de extracción: Factorización imagen.


Método de extracción: Mínimos cuadrados no ponderados. Método de rotación: Norma!1zación varlmax con Kaiser.
Método de rotación: N~rmallzación v;arimax con Kaiser. a La rotación ha convergido en 8 iteraciones.
il. La rotación ha convergido en 6 iteraciones.
'TI

498 Análisis multivariable. Teoría y práctica en la investigación social


Capitulo 5: Análisis factorial 499

Tabla l. Comunalidades

Extracción

Simpatía marroquí ,378


leyes inmigración ,313
ideología política ,583 ;5
sexo 4,497E-02 ingresos
Componente 2 esttldios
edad ,244 D
n° inmigrantes ,295
regularizar inmigrante ,296
entrada inmigrante ,394
partido racista ,151
casar con marroquí ,704
estudios ,575
ingresos ,451
vecino marroquí ,50S
inmigrante delincuente ,294 ~-~--.5
Componente 1 Componente 3
Método de extracción: Factorización alfa.
Figura A. Gráfico de componentes en espacio rotado.

Tabla J. Varianza total explicada

Suma de las saturaciones Suma de las saturaciones


al cuadrado de la extracción al cuadrado de la rotación
Factor
% de la % % de la % Factor 2
Total varianza acumulado Total varianza acumulado

1 3,006 21,473 21,473 1,854 13,241 13,241


2 1,030 7,357 28,830 1,495 10,679 23,920
3 ,631 4,510 33,340 1,273 9,090 33,010
4 ,559 3,991 37,331 ,605 4,321 37,331

Método de extracción: Factorización alfa.

Factor 1

Figura B. Gráfico de saturaciones factorial rotado.


riables que convergen en un mismo punto. Su disposición por encima o por debajo del pun-
to 0,0 depende de la correlación de la variable con el componente o factor: positiva (por en-
cima) o negativa (por debajo). El ideal es que las variables se agrupen al final de los ejes o
en su intersección. Ello significa que se ha alcanzado la finalidad perseguida con la rotación:
la obtención de una "estructura simple". Pero, una interpretación gráfica más detallada exi- 5.7. La evaluacióu del modelo factorial
ge gráficos de cada dos componentes o factores por separado, como el incluido en el
ejemplo del subapartado 5.6.1. Aunque con dichos gráficos se pierde la visión de conjunto, , En"la evaluación del modelo factorial no sólo interviene la "significatividad esta-
la representación a modo de síntesis del modelo. Por esta razón, se ha optado por los grá- dlStJ~~ , a seme¡anz~, de las ?emás variedades analíticas. También se valora la "signi-
ficos 3-0. ficatlVldad sustantiva . Esta ultuna es genérica a todo modelo factorial. Hace referencia
a la obtención de un modelo estadístico qne tenga significado "sustantivo". Esto
500 Análisis multivariable. Teoría y práctica en la inveslÍgaóón social Capírulo 5.' Análisis factorial 501

quiere decir que el modelo sea interpretable desde alguna perspectiva teórica; que ten- 5.8. lLas ¡¡",ntnadones factoriales
ga sentido lógico. En cambio, la "significatividad estadística" elel modelo se valora en
unos modelos factoriales concretos: de máxima verosimilitud y de mínimos cuadrados El análisis factorial no siempre concluye con la interpretación del modelo analítico
y la asignación posterior de "etiquetas" a las dimensiones latentes, puede proseguir con
generalizados.
Como se dijo en el subapartado 5.5.2, la aplicación del contraste chi-cuadrad 9 exi- el cálc~lo de las puntuaciones factoriales. Esto acontece, por ejemplo, cuando se quiere,
ge el cumplimiento del supuesto de normalidad multivariable. Además, su valor se ve a partir de los resultados factoriales, aplicar otras técnicas analíticas multivariables
muy afectado por el tamaño muestral. A medida que aumenta el tamaño de la mues- (como regresión múltiple, el análisis discriminante o el de conglomerados). En ellas las .
tra, se incrementa la probabilidad de que el contraste de hipótesis mediante X2 resul- puntuaciones factoriales actuarán como vaJ:iables, en representación de los valores de los
te "significativo La no "significatividad estadística" a un nivel de significación su-
l
'. l
factores o componentes. Pero, ¿qué se entiende por puntuaciones factoriales?
ficientemente bajo (:0:,05, al menos), lleva a replantear todo el modelo analítico, a su Las puntuaciones factoriales pueden definirse Como medidas compuestas de cada
modificación y posterior repetición de los análisis. Puede, por ejemplo, que la no factor común o componente principaL Informan de la posición de cada caso concreto
"significatividad" se deba a la no consideración de un factor relevante, lo que puede (variables, individuos, países, municipios, universidades... ) en cada factor o componente.
provocar que se decida añadir un nuevo factor al modelo factorial. Esto revierte ne- Hay tantas puntuaciones como factores para cada caso.
gativamente en una pérdida de parsimonia. En la matriz factorial (preferiblemente la rotada) puede extraerse, de cada factor,
El efecto negativo del contrate X2 en tamaños muestra les elevados incide en su des- una varIable que lo represente en análisis estadísticos posteriores. Esta variable "típi-
consideración como criterio principal en la evaluación del modelo factorial. En la ma- ca" suele coincidir con la que presenta el mayor coeficiente factorial en dicho factor. Jo-
yoría de las situaciones la comprobación de la adecuación del modelo factorial, a los lliffe (1986) propone que sea aquella de mayor coeficiente factorial entre las que pre-
datos empíricos, se restringe al contraste de las diferencias entre las correlaciones ob- sentan un valor "A;" ,70". Cuando existen dos o más variables que comparten un
servadas en la muestra con las estimadas a partir del modelo factorial obtenido. Estas n;i~mo coeficiente elevado, la elección de la variable "típica" depende, además, del sig-
diferencias de correlaciones (observadas y estimadas) son los residuos. Su magnitud se mücado sustanllvo de las varIables. La variable elegida suele coincidir con aquella que
utiliza para afirmar o negar la adecuación del modelo. El modelo factorial se considera mejor representa, desde la vertiente lógico-sustantiva, la dimensión latente identificada.
válido cuando los residuos son pequeños, porque significa que el ajuste del modelo a Al investigador también se le ofrece otra posibilidad: el cálculo de variables "su-
los datos es bueno. Por el contrario, residuos ~ ,05 indican que el modelo factorial derivado cedáneas". Especialmente, cuando es difícil la elección de una única variable en re-
no refleja la variabilidad de los datos observados, ante lo cual habría que proceder a presentación del factor. En la obtención de variables "sucedáneas" participan todas las
su reconsideración. variables con coeficientes factoriales elevados en el mismo factor. De ellas se calcula su
La mayoría de los programas estadísticos proporciona información de los residuos total o promedio como representación del factor. Aunque, como advierten Hair et al.
en la matriz de correlación residual. Ésta se obtiene de la diferencia entre las matrices (1992; 1999), la obtención de variables sucedáneas ("surrogate variate") únicamente es
de correlación observada y la reproducida. desde los factores extractados, como se ilus- posible cuando se realiza una rotación ortogonal. Ésta garantiza qne los factores
l
tró en el segundo ejemplo del apartado 5.6. Lo que el investigador debe decidir es a sean "ortogonales es decir, incorrelacionados entre sí. Lo que concuerda con la fi-
';

partir de qué valor el residuo es "grande" o "pequeño". El valor adoptado con mayor nalidad principal perseguida con la realización de Un análisis factorial previo a la eje-
frecuencia como referente es 0,05: El residuo se considera "pequeño", cuando sn cuan- cución de otras técnicas analíticas multivariables (de dependencia o de interdepen-
tía es inferior a dicha cantidad. Asimismo, se deja a juicio del investigador la concre- dencia). Por ejemplo, el buen desarrollo de un análisis de regresión múltiple exige, como
ción del porcentaje máximo de residuos "elevados" que llevan a la aceptación o, en su se vio en el capítulo 1, ausencia de multicolinealidad entre las variables predictoras. Si,
caso, rechazo del modelo factorial. en vez de emplear la serie amplia de variables originales, el investigador decide re-
Por último, añadir que en la variedad factorial llamada "análisis factorial boolea- emplazarlas por un número inferior de variables compuestas, obtenidas del modelo fac-
no" el ajuste del modelo se mide, igualmente, comparando las respuestas binarias ob- torial, estas nuevas variables no deberán, asimismo, estar correlacionadas entre ellas.
servadas con las estimadas. El número total de discrepancias se obtiene de la suma de Por esta razón se demanda que los ejes factoriales se roten "ortogonalmente".
las diferencias de cada puntuación original Xij respecto de sus correspondientes valores Si, por el contrario, se desea que, en representación de cada dimensión latente, in-
estimados Xij (Bisquerra, 1989: 344): tervengan todas las variables que ponderan en ella con un coeficiente factorial signi-
ficativo, se tendrá que proceder al cálculo de las puntuaciones factoriales.
Una manera sencilla de obtener puntuaciones factoriales consiste en sumar los pro-
ductos de cada coeficiente factorial que satura en el factor por el valor de la variable
en cada caso. Al estar las variables estandarizadas (Z,), se evita que aquellas de mayor
502 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 5: Análisis factorial 503

heterogeneidad contribuyan más en el cálculo de las puntuaciones factoriales. Así, en te último puede resultar la obtención de puntuaciones factoriales correlacio-
el ejemplo ilustrado en el apartado 5.6 de un modelo factorial de dos factores y cinco nadas, aunque los factores sean ortogonales. Ésta es una de las razones que ha-
variables empíricas, las puntuaciones factoriales, a partir de la matriz factorial rotada cen que esta opción sea deseable, cuando se busca la obtención de puntuacio-
son, para cada caso, la suma de los productos del coeficiente por el valor estandarizado nes factoriales "no" correlacionadas.
de la variable que satura significativamente en el factor: factor 1 = 0,980 Z2 + 0,659 Z3 b) Método Bar/elt. Aplica el procedinriento de máxima verosimilitud, que exige que
+ 0,709 Z4; factor 2 = 0,902 Z1 + 0,834 Z5' Este cálculo de las puntuaciones factoriales los factores se ajusten a una distribución -normal.
se considera "selectivo" porque únicamente incluye las variables que definen al factor,
al saturar significativamente en éL Las puntuaciones indican la ubicación espacial de En ACP, con cualquiera de los tres procedinrientos mencionados, se obtienen las oús-
cada unidad de análisis (caso o variable) en cada factor. Permiten conocer su dispo- mas puntuaciones factoriales .. 'puntuaciones que no se consideran ~'estimadas" sino
sición, si coincide o se distancia de la generalidad de las unidades analizadas. "exactas". En AFC, por el contrario, "no es posible ninguna solución exacta para l~s fac-
En el análisis factorial booleano cada caso tiene la puntuación factorial de 1, si pre- tores". En todo caso se está ante "estimaciones" (Dillon y Goldstein, 1984; Nourisis, 1994).
senta una saturación distinta de cero en cualquiera de las variables en el factor. En ca-
so contrario, su puntuación será O.
La mayoría de los programas estadísticos convencionales ofrece otras opciones pa-
ra calcular puntuaciones factoriales, La opción más habitual es el llamado "procedh
miento de regresión". Supone el cálculo de una serie de ecuaciones de regresión
múltiple; una por cada dimensión latente. En cada ecuación, los factores o componentes Para la obtención de las puntuaciones factoriales se ha utilizado el procedimiento más
usual y aplicado por defecto en el programa SPSS: el procedimiento de regresión. En él, los
actúan como la variable dependiente y los indicadores o variables empíricas como las factores o componentes actúan como variable dependiente (en cada ecuación lineal) y las va-
independientes. De la intercorrelación de cada variable con su correspondiente coe- nables observadas como las independientes. Las tablas A y B corresponden a las matrices
ficiente factorial (preferiblemente "rotado") resulta una serie de coeficientes de re- de los coeficientes por los que se multiplican, en cada caso, los valores de las variables (es-
gresión parciales. En el análisis factorial, estos coeficientes se denooúnan coeficientes ta?danzadas) para el cálculo de la.s puntuaciones en ACP (tabla A) y AFC (tabla B). La op-
de puntuaciones factoriales. Su interpretación es análoga a los coeficientes de regresión clan elegida de AFC es ejes prmclpales por ser el método más popular.
parcial estandarizados. Recuérdese que las variables se prefieren estandarizadas.
Tabla A. Matriz de coeficientes para el cálculo de las puntuaciones en las componentes

Fk¡ = :t
¡",1
Wk,Z,¡ Componente
1 2 3 4
Donde: "Z .." es el valor estandarizado de la variable i en el caso j.
"W./' es el coefic. de la puntuación factorial para el factor K y la variable i. simpatía marroquí -,027 -,315 -,025 ,117
leyes inmigración -,330 ,115 -,039 -,030
Estos coeficientes de puntuaciones factoriales para cada variable en cada factor se ex-o, ideología política ,114 -,137 ,133 ,778
sexo ,279 -,087 ,202 -,476
traen de la matriz de coeficientes de puntuaciones factoriales. Cada uno de ellos se' edad -,108 ,059 -,378 ,115
multiplica por el valor estandarizado de la variable en el factor. Se suman los productos n.o inmigrantes ,263 -,095 -,060 ,031
y se obtiene la puntuación factorial para cada caso. regularizar inmigrante -,290 ,027 -,051 ,109
Como las variables están estandarizadas, la puntuación media para cada dimensión entrada inmigrante ,312 -,041 ,067 -,043
partido racista ,043 ,115 ,034 ,237
latente es igual a O. Por esta razón, las puntuaciones negativas (las inferiores a O) se in- casar con marroquí -,136 ,476 ,000 ,003
terpretan como puntuaciones bajas, situadas por debajo de la media. estudios ,000 ,036 ,435 ,046
Además del procedimiento de regresión, suelen ofertarse otros dos métodos alter- ingresos -,024 ,086 ,424 ,158
nativos para calcular puntuaciones factoriales, aunque de uso más restringido. Se trata del: vecino marroquí -,147 ,484 ,005 -,053
inmigrante delincuente ,262 -,061 -,003 ,017

a) Método de Anderson-Rubin. Se caracteriza por proporcionar puntuaciones Método de extraccíón: Análisis de componentes princípales,
factoriales no correlacionadas, aunque los factores originales estén correla- Método de rotacíón: Normalizacíón varimax con Kaiser.
cionados, lo cual no siempre sucede con el procedimiento de regresión. De es- Puntuacíones de componentes.
504 A.nálisis m.ultivariable. Teoría y práctica en la investigación social Capítulo 5: Análisis factorial 505

Tabla A. Matriz de coeficientes para el cálculo de las puntuaciones factoría/es La detección concreta de los atípicos puede además realizarse mediante el listado
-- de los ~asos extremos, con puntuaciones factoriales superiores a ± 2,0, e incluso mayor,
Factor a' semejanza de otros procedimientos analíticos.

2 3 4
1 --"------
-,128 -,048 ,046
simpatía marroquí -,116 EJE,MP/.,ODE DHECCIÓNDE ATíPICOS MEDIANTE
,057 -,038 -,047
leyes inmigración -,236
-,040 -,008 ,510 U)SGRÁFICOS
,'., . ' DEPUNTUACIONESFACTORIA/.,ES
- .' . ':,'
ideo!ogfa política ,011 - - '. ", ; -, ,,','

-,001 ,064 -,029


sexo ,048
,026 -,240 ,135
edad -,062 Para ilustrar el uso de los gráficos de puntuaciones factoriales en la identificación de atí-
-,042 -,017 ,014
n.o inmigrantes ,197
-0,65 ,052 picos,~~ han seleccionado los gráficos para los factores obtenidos mediante ACP. Se incluyen
regularizar inmígrante -,228 ,022
,300 -,044 ,082 -,020 dos graflcos que Ilustran dos formas distintas. El gráfico para el par integrado por los com-
entrada inmigrante ,085
partido racista ,053 ,035 ,007 ponentes 3 y 4 (figura B) se ajusta a la forma habitual de una nube de puntos circular. Por el
,611 -,020 ,005 contrario, el gráfico de las puntuaciones para los componentes 1 y 2 (figura A) presenta una
casar con marroquí -,130
,028 ,541 ,040
estudios -,023
,171 nube de puntos más elíptica. En ambos gráficos, todo punto por encima del referente usual
-,070 ,050 ,259
ingresos
,014 -,032 de ±2,O se considera un posible "atípico". Por encima de ±3,O, el atípico es más evidente.
vecino marroquí -,024 ,296
-,025 ,000 ,067
inmigrante delincuente ,161
5
4
Método de extración: Factorización del eje principal.
Método de rotación: Normalización varimax c~n Kaiser. 4 , , ,
~

00
'w , ,, , " ~

00
3
, '",, ~

• ."
~3 ro 2
e e
ro a oo " ro
dU u 00
.1! 2
5.8.1. Su contribución en la detección de atípicos N "
."
1

1
~ ~
o
O , ,
Las puntuaciones factoriales cumplen otras funciones en el análisis factorial. Des-
u
00 " u
00

~
O 0-1
taca su utilidad en la detección de atípicos, en la búsqueda de conglomerados y, en ge- 13

neral, para comprender la estructura de los datos. ., "


••
0:-1
(!) "" "
o: -2
(!)
w w
Los atípicos se identifican con variables de escasa correlaclOn mull!ple c?adrada con o: -2 o: -·3
las demás variables y que presentan, asimismo, coeficientes factonales proxunos a ce- -3 -2 -1 O 2 3 -2 -1 O 2 3 4 5
ro en todos los factores. Los gráficos de puntuaciones factoriales para cada par defac- REGR factor score 1 for analysis 1 REGR factor score 3 for analysis 1
tores ayudan a la detección de estos atípicos. En dichos gráficos, las puntuaClo~e~ factonales Figura A. Gráfíco de puntuaciones factoriales. Figura B. Gráfico de puntuaciones factoriales.
se sitúan en los ejes y los puntos representan los casos concretos. Los aUplcos COlllCI-
den con los puntos que se ubican en los extremos del gráfico, como ¡justra el ejemplo
a continuación.
Como las puntuaciones factoriales se hallan estandati~adas, se considera atípico to-
do aquel que supere el valor 2,0, indistintamente de su signo (pOSIl!VO o nega:IVo). El LECTUR.AS COMPLEMENTAR.IAS
valor de referencia puede incluso elevarse a 2,5 o 3,0, depende del tamano de la
muestra. Cuando el signo es positivo, significa que el caso se sitúa a más de dos um- Batista Foguet, 1. M. (1984). "Componentes principales y análisis factorial (exploratorio
dades de desviación típica por encima de la media. Si es negativo, que está a más de dos y confirmatorio)", en Sánchez Camón, 1. 1. (ed.): Introducción a las técnicas de aná-
unidades de desviación típica por debajo de la media. lisis multivariable aplicadas a las ciencias sociales, Madrid, CIS (Centro de Inves-
Cuando la rotación de los ejes factoriales ha sido ortogonal, la nube de puntos tigaciones Sociológicas): 23-74.
suele adoptar una forma circuiar. Dicha forma se convierte en elipse, si la rotación es Calvo Gómez, F. (1992). "Análisis factorial y las puntuaciones factoriales calculadas por
el método selectivo", Estudios de Deusto, 40 (1): 71-95.
oblicua.
506 AnáLLl,ds multivc¿riable. Teorfa y práctica en la investigación social
Capitulo 5: Análisis factorial 507

Comrey, A. L. (1985). Manual de análisis factorial, Madrid, Cátedra. 4'01------_ _ _ _ _ _~


Dunteman, G. H. (1989). Principal components analysis, NewbUJY Park, California, Sage. 3,5
Femández Santana, 1. O. (1988). "Comprensión y manejo del análisis factorial", Revista
3,0
Internacional de Sociología, 46 (1): 7-35.
Gorsuch, R. L. (1983). Factor analysis, Hillsdale, N. 1, Erlbaum. 2,5
Gorsuch, R. L. (1990). "Common factor analysis versus component analysis: SOme well 2,0
and little known facts", Multivariate Behavioral Research, 25: 33-39.
1,5
Jolliffe, I. T. (1986). Principal component analysis, Nueva York, Springer-Verlag.
Kim,1. y Mueller, Ch.W. (1978). Factor analysis: statistical methods and practical issues, 1,0
Beverly Hills, Sage .Si• ,5
Velicer, W. F. y Jackson, D. N. (1990). "Component analysis versus commoo factor ¡;
analysis: sorne issues on selecting an appropiate procedure", Multivariate Behavioral ~
<t:
o'O+--:;-:r--r-Y-":-T-'-'--'-_,,-...j
123456789 10 11 12 13
Research, 25: 1-28. Número de componente
Yela, M. (1997). La técnica del análisis factorial. Un método de investigación en psi-
cología y pedagogía, Madrid, Biblioteca Nueva. Gráfico de sedimentación

KM O Y prueba de Bartlett
EJERCICIOS PROPUESTOS
Medida de adecuación muestraJ de
Kai~er-Meyer-Olkin
1. En la misma muestra se vuelve a realizar un análisis de componentes principales ,821
excluyendo la variable "ideología política". Interprétense los resultados si- Prueba de esfericidad Chi-cuadrado
guientes y compárense con los expuestos a lo largo del capítulo. Además, cal- de Bartlett aproximado 3.159,521
cúlense las comunalidades. gl 78
sig. ,000
Varianza total explicada

Autovalores iniciales Sumas de las saturaciones Suma de Las saturaciones Matriz de componentesa
al cuadrqdo de la extracción el cUfldrado de la rotación
Compon. Componente
% de la % % de la % % deja %
Total varianza acumulado Total varianza acumulado Total varianza acumulado
1 2 3
1 3,552 27,322 27,322 3,552 27,322 27,322 2,304 17,725 17,725 casar con marroquí
2 1,659 12,765 40,086 1,659 12,765 40,086 2,150 16,540 34,265
,640 ,341 ,442
simpatía marroquí -,630
3 1,114 8,570 48,656 1,114 8,570 48,656 1,871 14,391 48,656 -,287 -,162
entrada inmigrante ,620
4 ,957 7,363 56,019 ,121 -,299
vecino marroquí ,592
5 ,874 6,724 62,743 ,354 ,438
n,o inmigrantes ,584
6 ,770 5,921 68,664 -,117 -,243
7 ,749 leyes inmigración -,583
5,762 74,426 -2,24E-02 ,336
a ,690 5,304 79,730 regularizar inmigrante -,574 -,108 ,285
9 ,619 4,765 84,494 inmigrante delincuente ,570 -7,94E-03
partido racista -,238
10 ,581 4,472 88,966 ,442 ,136
ingresos ,106
11 ,560 4,304 93,270 -,343 ,678 7,543E-03
12 ,470 3,619 96,890 estudios -,460 ,667 -8,14E-02
13 ,404 3,110 100,000 edad ,388 -,538 ,261
sexo 1,207E-02
Método de extracción: Análisis de componentes pr¡ncipales.
,286 ,464
..
!'1étodo de extraccIón. AnálISIS de componentes principales.
3 componentes extraídos
Capítulo 5: Análisis factorial 509
508 Análisis multivariable. Teoría y práctica en la investigación social

Matriz de configuración(/.
Matriz de componentes rotados(/.
~ .. -- Factor
Componente
1 2 3
2 3
1
cas~r con UHUI0I..}UI 8,538E-03 -8,70E-03
,246 -3,53E-02 veCinO marroquí ,649 2,254E-02 ~7,52E-02
entrada inmigrante ,653
-,153 9,852E-02 simpatía marroquí -,435 -1,37E-02 ,283
leyes inmigración -,648
-,220 3,429E-02 estudios 5,927E-02 ,774 ,177
regularizar inmigrante -,610
,149 -,249 ingresos ,144 ,548 ,200
n.o inmigrantes ,573
,194 -,149 edad 8,903E-02 -,515 -5,OlE-02
inmigrante delincuente ,567
,152 ,833 -6,00E-02 sexo -3,53E-02 ,157 -,120
casar con marroquí -2,99E-02
,122 ,807 entrada inmigrante 7,481E-02 2,372E-02 -,596
vecino marroquí 2,459E-02
-,341 -,624 leyes inmigración -3,74E-02 3,935E-02 ,547
simpatía marroquí -7,22E-02
,241 ,402 regularizar inmigrante -8,llE-02 7,662E-03 ,514
partido racista ,783
-,223 -2,67E-02 n,o inmigrantes 3,162E-02 -,151 -,484
estudios ,724
-,205 ,107 inmigrante delincuente ,101 -9,21E-02 -,434
ingresos -,693
5,228E-02 ,157 partido racista ,189 3,27E-02 -,239
edad ,381
,357 -,157
sexo Método de extra?Clón: Máxima verosimilitud.
Método de extracción: Análisis de componentes principales.
~etodo d:-,
rotacIón: No~ma1ización oblimin con Kaiser.
La rotaclOn ha convergldo en 18 iteraciones.
Método de rotación: Normalización varimax con Kaiser.
a La rotación ha convergido en 6 iteraciones. Matriz de estructura
Factor

1 2 3
Comunalidades
Extracción cas~r con marroquí ,844 -,128 -,383
Inicial
veClDO marroquí ,679 -9,42E-02 -,361
,316 ,377 simpatía marroquí -,560 ,104 ,475
simpatía marroquí
,243 ,328 estudios -,143 ,794 ,281
leyes inmigración
3,078E-02 3,180E-02 ingresos -3,25E-02 ,559 ,228
sexo ,303 edad ,194 -,538 -,177
edad ,227
,244 ,298 sexo -7,00E-03 ,142 -7,74E-02
n.o inmigrantes
,232 ,309 entrada inmigrante ,337 -8,92E-02 -,625
regularizar inmigrante
,286 ,395 leyes inmigración -,288 ,138 ,570
entrada inmigrante
,129 ,139 regularizar inmigrante -,312 ,108 ,551
partido racista
,428 ,712 n.O inmigrantes ,272 -,238 -,524
casar con marroquí
,351 ,655 inmigrante delincuente ,310 -,182 -,495
estudios ,347
,256 partido racista ,301 ,104 ,329
ingresos ,465
vecino marroquí ,368
,263 Método de extra?Clón: Máxlma verosimilitud.
inmigrante delincuente ,219 Metodo de rotacIón: Normalización oblimin con Kaiser.

Método de extracción: Máxima verosimilitud.


Prueba de la bondad de ajuste

Chí-cuadrado gl Sigo
90,679 42 ,000
Capítulo 5: Análisis factorial 511
'a y lJráctica en fa investigación social
510 Análisis multivariable. Teor,

ve centros públicos de Mallorca (curso 1986/87), Interprétense los siguientes re-


Varianza tota exp licada sultados que corresponden a los alumnos de CaD y realícese el gráfico de se-
Suma de las dimentación,
Sumas de las saturaciones
Autovalores iniciales saturaciones
al cuadrado de la extracción
I "Varianza total explicada
I
Matriz factorial rotada (3 iteraciones)
Factor . %dela %
% de/a % acumulado Total
acumulado Total varianza Factor Autovalor % varianza % acum. Variables Factor 1 Factor 2 Comunalidad
Total varianza
22,344 2,099
27,322 2,905 22,344 1 7,10180 50,7 50,7 Química ,89740 ,20198 ,80904
1 3,552 27 ;322 31,066 1,428 2,28210
1,134 8,722 2 16,3 67,0 Lengua/literatura ,89357 ,10278 ,72542
1,659 12,765 40,086 2,319
2 ,587 4,517 35,583 3 ,86514 6,2 73,2 Biología ,86052 ,22547 ,69844
1,114 8,570 48,656 4 ,66108 4,7 77,9 Física ,85478 ,23176 ,75734
3
,957 7,363 56,019 5 ,57240 4,1 82,0 Geología ,84700 -,21056 ,78436
4
,874 6,724 62,743 6 ,56075 4,0 86,0 Filosofía ,84589 ,09945 ,84613
5 7 ,50085 3,6 89,6 ,21507 ,79133
5,921 68,664 Matemáticas ,84326
6 ,770
74,426 8 ,34923 2,5 92,1 Dibujo ,80905 ,06362 ,76174
7 ,749 5,762
9 ,28636 2,0 94,1 Idioma extranjero ,80846 ,21172 ,65861
,690 5;304 79,730
8 10 ,26384 1,9 96,0 Inteligencia general ,06911 ,76020 ,58268
,619 4,765 84,494 11 ,21674 1,5 97,6 Razonamiento numérico ,15529 ,75482 ,40260
9
,581 4,472 88,966 12 ,15524 1,1 98,7 Razonamiento verbal ,17212 ,71926 ,54696
10
,560 4,304 93,270 13 ,12277 ,9 99,6 Razonamiento abstracto -,08510 ,62877 ,59386
11
,470 3,619 96,890 14 ,06171 ,4 100,0 peOR* ,27574 ,59108 ,42540
12
,404 3,110 100,000
13 * Puntuación corregida de las pruebas objetivas de Física y Química.
"
Método de extracción: Máxima veroslIDllttud. d ar las sumas de los cuadrados de las
e
a e ando los factores están correlacionados, no se pu en suro
sa~uraciones para obtener una varianza total.
3, .En el Infonne Técnico de la Consejeria de Salud y Bienestar Social de la Co-
Matriz de correlaciones entre los factores munidad de Madrid de 1986, titulado Zonificación socio-sanitaria, bases pa-
ra una regionalización de servicios (Mapa de salud y servicios sociales, Co-
2 3 munidad de Madrid), bajo la dirección de Alfonso Calvé y Armando Peruga
Factor 1
-,160 ,446 y la coordinación de Benjamín González, se utilizaron las puntuaciones fac-
1 1,000 toriales obtenidas tras la realización de un análisis factorial de componentes
1,000 ,170
2 -,160
,446 ,170 1,000 principales para realizar tipologías de municipios, zonas básicas y distritos,
3
Complétese la matriz factorial rotada (cálculo de las comunalidades y los au-
Método de .extracción: Máxima veroslm~ht.ud.
"
. tovalores) e interprétese, Los datos figuran en la primera tabla a continuación
Metado de rotación: Normalización obltmm con KaIser. (tabla A),
4, En el estudio de 1 Ignacio Cano, José M, Ruiz alano y Miguel S, Valles
,,' Á el (1991) "Análisis predictivo del (1988), El desarrollo social de los pequeños municipios en la Comunidad de Ma-
2, En la investigacIón de Vazquez Alonso, ~bD" (Revista de Educación, 295: drid, Asamblea de Madrid, colección Estudios Parlamentarios se comprueba la
rendimiento acadénllco ~?- bachillerato Y entes principales Yde máxima adecuación de indicadores clásicos en la medición de distintas dimensiones (de-
429-462) se realizó un analisls factonal de, c~;npon miden el rendimiento de los mográfica, de accesibilidad y socioeconómica) del concepto "desarrollo so-
verosimilitud (rotación varimax) con vana estque les de cada curso la inteli- cial"acudiendo a distintas técnicas multivariables: análisis factorial, de Con-
" en las asignaturas ronca ' ) ) glomerados y discriminante, Analícese y complétese la matriz factorial (ACP;
alumnos: las ca1uIcaClOnes , t abstracto verbal y numérico,
gencia, las aptitudes académicas (razona~:~~o~'unto de ~ariables que indican rotación varimax) para el conjunto de los indicadores elegidos (tabla B, página
Se quiere descubnr la estructura IOtema á' t J da por 985 alumnos de pn- siguiente),
la capacl'd ad d.e losIan o s. La muestra est 409
um m egra
d CaD pertenecientes a nue-
mer curso, 735 de segundo, 412 de tercero Y e ,
512 Análisis mullivariable. Teoria y práctica en la investigación social
Capitulo 5: Análisisfactorial 513

Tabla A (3. o ejercicio)


--,.----_. - - - - r - - 5. Otro ejemplo de la utilización del análisis f . .
estructura espacial es la clasificación de d. actonal en la hpologización de la
Variables Factor 1 factor 2 Factor 3 Factor 4 FaclOr 5
realizada por Félix Calvo G - C _ Istmtos barnos de Vltoria·Gasteiz
Personas por familia ,882 ,038 -,273 -,006 ,003 1993, en el artículo "El métodoomezl Y, nsftma Lavia Martínez, publicada en
Tasa de actividad b se ec t lVO actonal" en el a 'T . d .
,059 ,085 ,870 ,212 -,037 Ur anas" (Estudios de Deusto 41 (1)- 99.1) _ na ISIS e lIpologías
Desocupación -,072 -,137 -,093 -,004 ,885 (el "método selectivo") al cál~ulo t ·d. _ 21 , En el se apItca una alternativa
Tasa participación política -,334 -,318 -,199 -,346 -,653 . ra IClOna1 de las puntuac- f -
Crecimiento 75/81 ,274 ,834 -,011 ,096 -,122 que consIste en calcularlas sólo en 1 - bl IOnes actonales,
Número de bancos -,744 -,062 -,445 ,030 -,300 en cada factor En los análisis prel. as vana es que saturen significativamente
Comercios alimentación -,073 ,016 -,564 -,295 -,489 - ' Immares se realizó Un ACP ,
r~max para las 22 variables que mo t _ con rotacIón va·
clón de los barrios. Interprete la m:t;ar~n ser mas relevantes en la clasifica-
Población 0-14 años ,791 ,563 ,077 -,023 ,022
Población 25-64 años -,147 -,162 ,643 ,383 -,161
Fecundidad ,394 ,797 ,000 -,130 ,066 les promedio. IZ actonal y las puntuaciones factoria.
9ptimo fecundo -,247 ,794 ,173 -,170 ,072
Indice envejecimíento -,886 --,257 -,174 ,043 -,012
Tasa de dependencia ,164 ,655 -,316 -,123 -,065
Pobo con bachiller. Supo -,146 -,273 ,295 ,818 ,081 Matriz factorial rotad a
PobI. analfabeta -,015 -,173 -,050 -,927 ,033
LogPob* ,140 ,005 ,547 ,538 ,496 Variables
TRF. Secundario -,256 ·-,120 -,692 -,035 -,563 Factor 1 Factor 2 Factor 3
TRF. Agrícola Factor 4
··,268 -,063 -,525 -·,615 -,389 Tasa juventud
TRF. Servicios -,122 -,346 ,346 ,761 ,273 ,227 -,252
Log densidad* ,183 Tasa vejez ,878 -,017
,345 ,575 ,338 ,263 -,204
Tasa analfabetismo ,018 -,902 -,001
* Transformadas tomando el logaritmo de los valores de cada variable. ,317 ,141 -,206
% pobI. estudios primarios ,750
,621 ,378 ,309
% pobl. estudios superiores ,350
% emigrantes -,782 -,463 -,242
Tabla B (4 o ejercicio) ,568 -,121
% emigr. llegados últimos 5 años ,190 ,532
-,344 ,437
% emigr. llegados entre 5-10 años -,774 -,133
Variable Factor 1 Factor 2 Factor 3 Factor 4 Factor 5 Factor 6 -,108 -,016
% em~gr.lIegados hace más de 10 años -,751 ,366
,253 ··,172
-,04419 -,04707 Tamano medio de la vivienda ,901 -,170 ,121
Distancia a Madrid -,87081 ,29295 -,03455 ,01409 -,826
Dist. carretera nacional -,36347 -,02524 ,08209 -,55653 ,33518 % Ocupados industria -,411 ,008 -,196
·,29794 ,637
Dis!. núcleo> 20.000hab. '-,80487 ,38022 -,01885 -,01730 -,01614 -,16850 % ocupados construcción ,472 ,523 ,054
Tasa de jóvenes ,86281 -,10459 -,04098 -,18048 -,09926 -,03697 % ocupados servicios ,421 ,283 ,181
-,652 ,627
Tasa de viejos -,85242 ,14609 ,08853 -,26919 ··-,04620 ,{),j540 Tasa de vascoparlantes -,472 -,511
-,677 -,190
Tasa de paro ,01964 -,45701 ,10234 ,02682 ,29928 ,28748 Tasa de paro ,090 -,140 -,498
Dist. centros educativos -,80565 ,26735 ,04882 -,02800 ,31650 -,22629 ,183 ,481 -,341
% núcleo familiares con hijos ,686
Servicios ,57049 ,59034 -,08715 ,08344 ,05014 -,13339 ,052 ,136 ,954
-,03862 ,25476 % núcleos familias numerosas -,054
Agricultura -,77789 ,02683 ,12958 -,14953 -,590 ,405
Estudios ,10464 ,19163 % mujeres ocupadas ,316 ,507
,57727 ,54517 -,04569 ,03318 -,269 -,739
Viviendas secundarias -,35000 ,58294 -,23530 ,25980 ·-,25762 -,17301 % mujeres amas de caSa -,201 -,367
% ocupados clase alta ,326 ,723 ,210
Razón de masculinidad -,31261 ,04129 -,07289 ,48860 ,28554 ,26789 -,832 ,359
Dist. a la farmacia -,62409 -,03574 ,35634 ,17426 % ocupados clase media -,421 ··,201
,29992 ,12392 -,058 -,202
Transporte público ,55759 ,23299 ,67680 -,05057 ,03849 ,01741 % ocupados clase baja -,067 -,039 -,586
,82106 ,27727 ,03795 ,757 ,405 ,189
Razón actividad-dependencia ,13319 -,08035 -,08598 ,379
Incremento pobI. 1970·1975 ,76002 ,20943 -,17123 -,08430 -,10515 ,15984 % varianza explicada
Incremento pobi. 1975·1981 ,65282 ,37877 ·-,24803 -,18131 ,25365 ,23088 25,85 22,06 18,73 14,43
Incremento pobi. 1970·1981 ,76985 ,37868 -,23504 -,18463 ,14445 ,25509
Industria-construcción ,38214 -,68767 -,07260 ,10269 -,00508 -,18467
Teléfonos por habitante ,45465 ,25233 ,08474 ,38809 -,39308 -,21708
Déficit educativo ,29174 -,01323 -,35065 -,17044 ,34083 -,60121
Transporte público por pobl. ,43396 ,22883 ,78844 ,10887 -,06900 -,09462
514 Análisis multivariable. Teoría y práctica en la investigación social

p un uacwn es factoriales promedio para algunos barrios (Vitoria-Gasteiz, 1989)

Factor 2 Factor 3 Factor 4


Barrios Factor 1

6
-,452 1,691 ,910
Casco viejo ,782 -,349
-1,630 -,794 -1,147
Ensanche -,155
-,990 -,468 -,963
Lovaina -,341
-,244 ,776 -,384
Coronación -,368
,465 ,821
El Pilar ,574
1,318 -,502 ECUACIONES ESTRUCTURALES
Gazalbide -1,609 ,540
,112 ,148 -,712
Txagorritxu -,308
-2,133 ,406 -,536
San Martín -,612
1,058 ,481 ,513
Zaramaga ,121
,791 -,388 -1,478
El Anglo -,158
-,456 ,810 -,829
Sierras ,709 -1,162
,330 -,560 ,267
Santiago -,392
,824 -,718 1,112
Arambizkarra ,335
,213 ,495 ,441
Arana -,595
-,685 -,327 -,684
Desamparadas -,220
,232 ,427 -,626
Judizmendi -,327 Este último capítulo trata del modelado de ecuaciones estructurales, Un término ge-
1,016 -1,390 ,531
Santa Lucía 3,425
,645 -,248 -,715 nérico que designa aproximaciones varias al análisis de la causalidad entre una serie
Errekaleor ,272
,774 ,241 ,336 de variables independientes y dependientes, con la particularidad de incluir distintas
Adurza -,214
,408 ,266 ,136 interrelaciones entre ellas y diferenciar entre variables observadas y latentes,
San Cristóbal
Desde sus orígenes este procedimiento analítico ha adoptado diversas denomi-
naciones: "modelo de estructura de covarianza; análisis de las estructuras de cova-
rianzas; modelo de relaciones estructurales lineales; modelo de estructura; sistemas de
ecuaciones de variables latentes en modelos lineales estructurales; y (quizás más co-
múnmente) modelo LISREL" (Long, 1983: 7). De estos nombres, el primero ("modelo
de estructura de covarianza") es el más genérico. Bock y Bargmann lo utilizan en 1966
para denotar un modelo de medición donde las variables observadas se hallan rela-
cionadas con variables latentes; y también un modelo de ecuación estructural, que in-
cluye las relaciones causa-efecto entre variables latentes.
La generabilidad del término "modelo de estructura de covarianza" se debe,
precisame!1te, a que la gran mayoría de los modelos de ecuaciones estructurales cons-
tituyen, en realidad, modelos de estructura de covarianza (Bollen, 1989a), Trata del ajus-
te entre la matriz de covarianza muestral ("S") y la correspondiente matriz de cova-
rianza poblacional ('T"), De acuerdo con Long (1983), puede considerarse al modelo
factorial confirmatorio y al modelo de ecuación estructural casos especiales del modelo de
estructura de covarianza, que incluye un modelo de medición y un modelo de ecuación
estructural, Visauta (1986: 125) añade que el modelo de estructuras de covarianza en-
globa "la especificación del modelo factorial y del modelo de ecuaciones estructura-
les como síntesis de las corrientes psicométricas y econométricas".
Pero la referencia al modelo analítico de ecuaciones estructurales como modelo
LISREL es de uso más común. LISREL ("LInear Structural RELationships) es el
Capitulo 6: Ecuaciones estructurales 517
,)",'a y rHáclica en la investigación socirll
516 Análisis multivariable. Te <. J"

" d Asimismo, hay que añadir dos obras clásicas sobre el análisis causal, que ayudan
yor implantación para la ejecución
nombre de unO de los programas estadlstlcoS ::a
de modelos de estructura de covarLanza, Fu~cre 1
or
t
J6reskog YS6rbom en 1979, te-
h es el programa base en la rea-
niendo una rápida Y generalizada acogrda. ~s:~a~e:~a fdentificació n del programa con
a su comprensión. Primero, la obra de H. M. Blalock de 1971 (Causal models in the so-
cial sciences, Chicago, Aldine-Atherton) y, segundo, la también clásica puhlicación de
W. Saris y H. Stronkhort de 1984 (Causal modeling in non-experimental rescareh: an in-
lización del modelado de ecuacIón estructura. 1 b del programa. Con posteriori- troduction tothe LISREL aproach, Amsterdan, Sociometric Research Foundation).
. ,. é t a aba adoptando e nom re . d Los textos resaltados fueron decisivos en la configuración del modelado de ecua-
la técUlca anahtlca que s a c d' t' especializados en esta vaneda
dad han ido apareciendo otros program~s e~~s ~o~c~~ales de mayor notoriedad son los ción estructural, como la aportación de tres procedimientos analíticos que le prece-
analítica, aunque son de uso menos pOPula;;) d B ti. (1985) Y Amos de Arbuckle dieron: los análisis de sendero, de regresión y factorial.
programas E QS ( "StrUC t ur al Equal10ns
, . e en. er últimas versiones. Menor eXI- , .
(1994-1999), vinculado al paquetez;~~~~=~~~~~~ ~o~:riance Structure analysis") de
to han alcanzado los programas. ( 'A 1 . f Ll'near Structural equations with a A) El análisis de sendero (o "path analysis")
d 1987 LlSCOMP' na ySIS o
Schoenberg,.e ,Y di") d Muthen igualmente de 1987.
COMPrehenslve measurement mo e e , Variedad analítica originaria de Sewel Wright y sus investigaciones de genética. En
concreto, su artículo de 1918 "On the nature of size factors" (Geneties, 3: 367-374). En él
I "n estima un modelo de los componentes de tamaño de las mediciones de los huesos apli-
6.1. Orígenes del modelado. de ~cuación estructural Y su re ac,o cando variaciones en la técnica de análisis factorial. Sus propuestas se desarrollan más
con otras técnicas multIvanables extensivamente en 1934, en un artículo dedicado exclusivamente a su exposición:
t a conocimiento, sobre modelos de "The method ofpath coefficients" (Annals of Mathematieal Statistics, 5: 161-215).
En 1973 aparece el primer texto, del qu~ sed eÁ S Goldberger Y O. D. Duncan En los años cincuenta el análisis de sendero se introduce en el campo de la eco-
ecuaciones estructurales. Es la con,rprlaClOn eN . . y k) con el título Structural nometría de la mano de Herman Wold, con el nombre genérico de "modelo de ecua-
(publicada por la editorial Acad~mlc Press, de uevalac~~n destacan los artículos de ción estructural (o simultánea)". Los años sesenta y setenta son los años de su máxi-
Equation Models in the SOCial SClences. ~~ est~ con;~ general method for estimating ma expansión en todas las áreas de investigación, corno puede verse en cualquier
dos autores de notoria relevancla:"K. G.85~~~~) OgJ. E. Wiley ("TIre identification pro- revista científica de la época.
a linear structural eqnatlOn system ,pp. Y d 'ables'" pp 69-87). Ambos El análisis de sendero se define como un método analítico aplicado al análisis de
. d I w'th unmeasure van "
blem for structural equatlOns mo e ~ 1 1972 defiende su tesis doctoral, con el título relaciones causa-efecto. Los efectos pueden ser directos (no mediados por ninguna otra
autores, junto con J. W. Keesling (qUIen en I l ' " en el departamento de Educa- variable) y/o indirectos, cuando cn la relación entre una variable independiente (cau-
"Maximum likelihood approaches to causa ~ua ySIS , el desarrollo del modelado de sa) y una dependiente ( efecto) media, al menos, una tercera variable.
cióu de la Universidad de Chlcago), f~ero~ plOner,os en nte se identifica de forma Pero el análisis de los efectos no es "exploratorio". Exige la previa definición de un
., l 1: I fue su contnbuclón que mlCla lme ' d modelo explicativo hipotético, extraído del marco teórico de la investigación. Se
ecuacwn estructur~. a ,. odelo "JKW". Estas siglas correspon en a
abreviada, a esta tecUlca anahtrca como m nsodichos: Jóreskog, Keesling Y quiere corroborar dicho modelo teórico con la ayuda de esta variedad analítica, cuya
las primeras letras de los nombres de los autores ~ e de modelo LISREL. correcta aplicación exige el cumplimiento de tres supuestos hásicos:
Wiley. Años más tarde, este modelo adopta el nO,m ~ or sus dos creadores, Jóreskog
LISREL es el nombre dado al programaestad~~:~e ~n el análisis del modelado de 1. Inexistencia de error en la medición de las variables.
y Sórbom. A estos dos autores se debe undtexto . Dactor Analy,is with Latent Va- 2. Inexistencia de correlación entre los residuos.
" t I e data de 1979' A vances In ,.. • I 3. Relaciones causales unidireccionales (o de una sola dirección). El modelo
ecuaClon estruc ura ,qu . ' . Abt Books). Un año después, Bent er pu-
riables: Causal Modebng (Cambndge,~. A, tivariate analysis with latent variables: cau- causal será, por tanto, recursivo.
blica sU artículo, tambIén de ref~rencra, Mul l I 31' 419-456). Este último autor
sal modeling" (en Annual Revlew of Psycho °lgy, vdo l' JKw Asimismo hay que aña- Estos supuestos se relacionan con la obtención de modelos que reúnan condicio-
d I ma EQS alternatrvo a mO e o · , . f nes de "validez". Aunque, como reconoce Pedhazur (1982), el cumplimiento de cada
es el creador e progra , d d 1984 ( n "Sorne algebraic propertres o
dir la propuesta de McArdle y McDonal e e" B~tish Journal of Mathematieal and uno de estos tres supuestos rara vez acontece en la práctica real y, de manera especial,
the relicular actJon model for moment structur t' referidos en la bibliografía, tam- en la investigación no experimental. A ello se suma el hecho de que en la investigación
Statístical Psychology, 37: 234-2;51) Yde otro~ au ore: apli'cación del modelado de social es habitual la inclusión de variables latentes (o no directamente observables) co-
bién de obligada mención en la confrguracJOn Ypos erior mo, por ejemplo, las variables clase social, ansiedad, inteligencia ... , que precisan del uso
ecuaciones estructurales.
518 Análisis multivariable. Teorfa y práctica en la investigación social
Capítulo 6: Ecuaciones estructurales 519

de indicadores específicos. Y no sólo uno, como es característico de análisis de sendero, P:.ecisamente" seha. decidido postergar al presente capítulo (subapartado 6.10) la
sino de varios (operacionalización múltiple), como sucede en los modelos de ecuaciones exposIcIón d/-el ~nallS1S factonal conftrrnatorio, en vez de incluirlo en el capítulo 5 (de-
estructurales. dIcado al anahsls factonal), por su mayor similitud con el modelado de ecuaciones es-
Mediante el modelado de ecuación estructural se trata de solventar algunas de las tructurales. Se trata de Una variante dedicada exclusivamente al modelo de medición
deficiencias detectadas en el análisis de sendero. Ambos exigen la previa especificación ~ue, a d,feren:"a del modelado de ecuacion~s estructurales, no analiza las relaciones
de un modelo explicativo que incluya relaciones hipotéticas entre distintas variables ~structurales entre las vanables latentes. Esta es su principal limitación. Del análi-
latentes y/o observadas. Pero difieren en que el modelado de ecuación estructural no SIS de ~endero le separa la consideración de los errores de medición (a semejanza del
exige el cumplimiento de los tres supuestos básicos identificados con el uso correcto modelad~ de ecuaClOnes estructurales). Los indicadores se analizan como los efectos
del análisis de sendero. El modelado de ecuación estructural: de las vanables latentes, y no a la inversa.

1. Permite la existencia de intercorrelación entre los residuos. • De lo dicho pued~ resumirse que el modelado de ecuaciones estructurales es el
2. No se exige que sea recursivo. Puede incluir relaciones causales no unidirec- resultado de la conJunclOn de las tres técnicas de análisis anteriores: sendero, regresión
cionales. hneal y factonal. Incluye el modelo de medición (a semejanza del análisis factorial) y
3. Incluye variables ifltentes, que se miden mediante varios indicadores, siendo fac- el modelo estructural (lllJIuencla del análisis de regresión). De la síntesis de ambos mo-
tible la existencia de errores de medición. delos se obtiCne una sene de ecuaciones que diferencian entre variables empíricas y la-
tentes. Incluyen las relaclOnes entre varios indicadores y su correspondiente dimensión
latente, al Igual que los efectos directos e indirectos entre las variables latentes a di-
B) Regresión múltiple ferencia del análisis factorial. '

El modelado de ecuaciones estructurales se configura, a semejanza del análisis de


regresión lineal múltiple, como un modelo estadístico "lineal". En él se estima una 6.2. Supuestos básicos del modelado de cL"Uaciones estructurales
ecuación de regresión lineal múltiple para cada variable definida como dependIente.
Incluye distintas ecuaciones de regresión; una por cada variable dependiente. Las di- . El modelado de ecuaciones estructurales comparte supuestos básicos del análi-
versas ecuaciones pueden estar interrelacionadas. En ellas se relaclOnan las correla- SIS de regreSIón hneal. A decu: normalidad multivariable, linealidad de las relacio-
ciones (o covarianzas) de las variables con los parámetros del modelo. Esto es ca- nes ~ntre vanable~, aditividad d~ los efectos, observaciones independientes, variables
racterístico del modelo estructural (como se verá en el subapartado 6.4.1), que contmuas,. ausenCia de colmealzdad entre las variables y necesidad de que la mues-
incluye las relaciones entre las variables independientes y las dependientes; y no del tra h~a SIdo extraída mediante procedimientos aleatorios. También conviene que el
modelo de medición, que trata de las relaciones entre las vanables latentes y sus in- tamano de la n:uest;a ~nahzad~ sea elevado. Estos supuestos Son básicos para su co-
dicadores. rrecta reahzaclón. Su lllcumphmlento lleva a la aplicación de los remedios resumi-
dos en el subapartado 1.1. Para no redundar en temas ya tratados la exposición de
los supuestos básicos se limita a aspectos concretos del modelad~ de ecuación es-
C) Análisis factorial tructural.

Si el análisis de regresión múltiple influye en la definición d~l r,,:odelo estru~tural,


característico del modelado de ecuaciones estructurales, el anallSls factonal mClde A) Tamaño muestral
en el modelo de medición. Como ya se dijo en el capítulo 5, el análisis factorial trata de
las interrelaciones entre las variabies empíricas (o indicadores) y su síntesis en un nú- El tamaño de la muestra es clave en la significatividad de los resultados del análisis.
mero inferior de dimensiones latentes (llámense factores comunes O componentes No sólo r~percute en la estimación del error de muestreo (el error disminuye a medi-
principales). Pero, a diferencia del modelado de ecuación estructu;al, el análisis factorial da quese ~~crementa el tamaño de la muestra). También afecta a los índices de ajus-
no incluye la existencia de relaciones entre las variables latentes. Estas se consIderan no te. La flab:hdad de la mayoría de los índices de ajuste aumenta, cuando se incremen-
relacionadas entre sí. Lo que se convierte en "la característica más apremiante del mo- ta el tam~n? de la muestra. West, Finch y Curran (1995) constatan que la obtención de
delado de ecuación estructural: la capacidad de estimar y comprobar relaciones entre un ~stadlSl1CO x' ADF- based adecuado precisa de tamaños muestrales elevados. Ta-
las variables latentes" (Hoyle, 1995: 15). manos muestrales supenores a "1.000" unidades Son necesarios con modelos relati-
520 Análisis multivariable. Teoría y práctica en la in.vestigación social
Capítulo 6: Ecuaciones estructurales 521

vamente sencillos, bajo condiciones típicas de normalidad. Igualmente, i! scaled pro- do quiere aplicar el procedimiento de estimación de parámetros de máxima verosi-
porciona buenas estimaciones cuando el la maño mnestral supera las 200 unidades. militud (ML). La mayoría de los programas específicos para el modelado de ecuaciones
Incluso el procedimiento de estimación de parámetros de máxima verosimilitud pre- eS,tructurales contienen estadísticos univariables (media, desviación típica, asime-
cisa de un tamaño muestral mínimo de "100" unidades para conseguir una buena esti- tna, curtosls) y multlvanables (como las pruebas globales de asimetría y curtosis
mación. Tamaños muestrales superiores aumentan sn sensibilidad en la detección de di- medIante i!) necesanos en la detección del supuesto de normalidad. Recuérdese
ferencias entre los datos. Para Hair et al. (1992; 1999) el ideal está en tamaños muestrales que, aunque es cierto que la normalidad multivariable exige normalidad univariable
de 200 casos para cualquier procedimiento de estimación de parámetros, incluido máxima esta última no garantiza la primera. Las variables pueden estar distribuidas normal:
verosimilitud. Cuando el tamaño muestral excede los 400 o 500 casos la estimación me- mente, pero en conjunción no. De abí la importancia de no reducir la comprobación
diante máxima verosimilitud favorece, a diferencia de otros procedimientos, la obtención del supuesto de normalidad al análisis de las variables por separado.
de medidas de bondad de ajuste que indican un mal ajuste entre el modelo estimado en E~ caso de incumplimiento del supuesto, habría que adoptar algunas de las medidas
la muestra y el modelo poblacional (como se verá en los apartados 6.6 y 6.7). res~mld~s en el su?apartado l.1.6. También pueden aplicarse otros procedimientos de
Pero, como en la mayoría de las técnicas analíticas, la mejor valoración del tama- estrmaclOn de yarametros alternativos, como mínimos cuadrados ponderados (WLS).
ño muestral es en relación con las variables que participan del análisis. A este respecto, Aunque este ultnllo eXIge qne el tamaño muestral sea muy elevado.
la recomendación más habitual es que existan, como mínimo, 10 veces más casos que . No obstante, en la actualidad son cada vez más los autores que sugieren que la es-
variables observadas (Jaccard y Wan, 1996). tlmaCIón de máxima verosimilitud es razonablemente robusta para muchas de las
ViolaCIOnes del supuesto de normalidad multivariable (Jaccard y Wan, 1996). La de-
CISión está en el grado de no-normalidad que se considera "tolerable", al no distor-
B) Normalidad multivariable sionar el análisis estadístico de los datos. A este respecto Kaplan (1990) propone que,
~omo mvel máXImo, la asimetría univariable sea inferior a 1,00, para todas las variables
La significatividad estadística de las estimaciones muestrales no depende única- Incluidas, en el análisis. Por debajo de este nivel, podría aplicarse el procedimiento de
mente del tamaño de la muestra y del procedimiento de selección muestral (aleatorio estlmaclOn de máXlma verosimilitud. Pero, ¿qué sucede cuando el nivel de no-nor-
o probabilístico, preferentemente). También afecta la normalídad multivariable y la in- malidad es superior?
dependencia de las observaciones. Estos son dos supuestos igualmente básicos del mo- Aparte de seguir otro procedimiento de estimación de parámetros (como el antes
delado de ecuación estructural. referido de mínimos cuadrados ponderados), puede procederse a la transformación de
Respecto a la normalidad multivariable, su existencia es imprescindible para ga- las variables que incumplan el supuesto de normalidad. Como en regresión lineal y en
rantizar que los valores críticos que determinan la significatividad de cada coeficien- la generalidad de las técnicas analíticas, la transformación de variables no-normales in-
te del modelo, y la del modelo en su conjunto, sean correctos. Por ejemplo, se ha com- cluye sn transformación en logaritmo, raíz cuadrada, o transformaciones recíprocas, ele-
probado que la prueba de significatividad de i! y los errores típicos correspondientes vando las puntuaciones en la v~riable a una potencia inferior a 1,0. Esto último pue-
a la estimación de parámetros poblacionales son sensibles a la existencia de curtosis: de hacerse sIempre que la vanable sea asimétricamente positiva o con sesgo a la
"la curtosis positiva tiende a traer errores típicos negativamente sesgados para las es- derecha. Cuando la asimetría es negativa hay, en cambio, que elevar la variable a una
timaciones de parámetros (de esta forma aumentan las oportunidades de un error ti- potencia superior a 1,0 para que su distribución se aproxime a la normalidad.
po 1), y la curtosis negativa tiende a traer errores típicos positivamente sesgados para Existen además otros procedimientos de transformación de variables alternativos.
las estimaciones de parámetros (de esta forma aumentan la probabilidad de un error West, Finch y Curran (1995) destacan dos:
tipo Ir)" (Jaccard y Wan, 1996: 75). El error tipo 1 es aquel qne se comete cuando se re-
chaza la hipótesis nula, siendo ésta en realidad verdadera. A este tipo de error también 1. Creación de grupos de ítems sumando o tomando la media de varios ítems. De
se le llama "error a", al estar afectado por el valor que adopte "ex" (el nivel de signi- esta forma se precisa estimar menos parámetros en el modelo de medición. Por
ficación). El error tipo II en cambio se identifica con "/3" y varía en relación inversa al el contrario, habrá más problemas de identificación, si se emplean pocos grupos
valor de "ex". Acontece cuando se acepta la hipótesis nula y en realidad es falsa. de ítems por factor (por ejemplo, menos de 3).
Ambos tipos de errores pueden reducirse incrementando el tamaño de la muestra. 2. El algoritmo ACE ("Alternating Conditional Expectation") permite encontrar
La "no" normalidad se relaciona, en suma, con la obtención de errores típicos que la transformación de cada variable que aumente la relación lineal entre dos va-
resultan en un "número inflad.o de parámetros estadísticamente significativos" (Byr- riables, prodnciendo el valor de R' más alto posible entre la variable depen-
ne, 1995: 145). Por esta razón es importante que el investigador compruebe la existencia diente y Una mdependlente e, incluso, entre una serie de variables indepen-
de normalidad multivariable, antes de proceder al análisis de los datos. Máxime cuan- dientes entre sí.
522 Análisis multivariable. Teoría y práctica en la investigación social Capflulo 6: Ecuaciones estructurales 523

Si se procede a la transformación de variables no-normales, hay que examinar nue- investigador no puede escoger ni manipular las variables explicativas para que no es-
vamente la asimetría y curtosis de cada variable transformada. En caso de mejora apre- tén correlacionadas entre sí. En el modelado de ecuación estructural, como en re-
ciable, las variables transformadas sustituirán a las originales en el análisis. gresión múltiple, la colinealidad ha de ser la mínima posible, por su efecto negativo en
los errores típicos de los coeficientes de las variables. La colinealidad elevada suele pro-
,";
voca.r un mcre;n~nto notono en la magnitud de los errores típicos, restando signifi-
C) Las variables observadas y latentes han de ser continuas c~liv~dadestad1Stlca a los ,C?efiClentes estimados. Parafraseando a Bollen (1989: 59), "en
termmos mtwtlvoS es difícil eslimar el efecto único de una variable si siempre nos mo-
Este tercer supuesto "es siempre violado para las variables observadas debido a los vemos en conjunción con otras variables causales".
límites de los instrumentos de medición" (Bollen, 1989: 433). De manera especial, en la
investigación social, en la que predominan variables categóricas (nominales y ordinales). • A estos cuatro supuestos principales, hay que añadir los anteriormente men-
Una práctica habitual consiste en tratar las variables ordinales como si fuesen con- cionados. Sobre todo, el de linealidad y aditividad. Los efectos han de poderse sumar
tinuas. Con ello se incrementa la probabilidad de incumplimiento del supuesto de nor- y han de ser independientes unos de otros. Sobre estos supuestos véase lo dicho en el
malidad, lo que resta significatividad estadística (medida mediante los valores Z y ;i') subapartado 1.1.
a los coeficientes estimados mediante el procedimiento de máxima verosimilitud
(ML) o minimos cuadrados generalizados (GLS).
En caso de que todas las variables observadas sean ordinales o discretas, debería 6.3. La obtención de uu modelo de ecuaciones estructurales: fases priucipales
utilizarse la matriz de correlacioues policlórica con el método WLS, utilizando la
matriz de ponderación correcta (Joreskog y Sorbom, 1989: 223). Esta matriz de pon- Las fases que concurren en la obtención de un modelo de ecuaciones estructurales
deración (que en el programa LISREL se obtiene mediante el subprograma PRELIS) son varias y se resumen en la figura 6.1. Comienza con la especificación de un modelo teó-
es la inversa de la matriz de covarianza asintótica estimada de las correlaciones poli- rico, que se desea contrastar empíticamente, y finaliza con su verificación o modificación
clóricas y poliseriales. Estas correlaciones se estiman de tablas de contingencia de pa- (total o parcial), en consonancia con los resultados del análisis.
res de variables observadas ordinales. Su utilización se recomienda cuando se quiere El proceso de estimación puede describirse como un continuo que parte de uu mo-
analizar variables ordinales (que carecen de escala métrica) en una relación "lineal". delo inicial de referencia, al que se vuelve para su contrastación con los datos anali-
No es propio calcular una matriz de covarianza o una matriz de correlación (produc- zados. La no corroboración de alguna o varias de las hipótesis de la investigación lIe-
to momento de Pearson), cuando se tratan puntuaciones arbitrarias (1,2, 3... ) para ca- ~a a la introducción de modificaciones en el modelo inicial. La condición que se
tegorías como puntuaciones con propiedades de escala de intervalo y, posteriormen- Impone es que éstas tengan slgmficado lógico-sustantivo, además de significatividad es-
te, utilizar el método de estimación ML o GLS. Proceder de este modo puede "llevar tadística.
a estimaciones de parámetros bastante distorsionadas y medidas de bondad de ajuste Toda modificación lleva, inevitablemente, a la repetición de los análisis, si quiere
de X' y errores típicos incorrectos" (Joreskog y Sorbom, 1989: 223). comprobarse que el modelo modificado resulta validado por los datos que se han ana-
Cuando la variable es métrica, aunque no-normal, si quiere evitarse su efecto lizado. El proceso de análisis concluye cuando se alcanza un modelo con un "buen"
distorsionador en el error típico y en la medida de bondad de ajuste ;i', se aconseja uti- ajuste (global y parcial) con los datos muestrales. Se cumple el requisito de significa-
lizar una matriz de covarianza muestral ordinaria y analizarla mediante el procedi- t!Vldad estadística, que posibilita su inferencia a la población. Pero, también, ha de te-
miento de estimación WLS (empleando una matriz de ponderación correcta), en ner significación lógica-sustantiva, que facilite su interpretación.
vez de los métodos ML o GLS. Para ello se precisa que el tamaño de la muestra sea
elevado. "Si el tamaño muestral no es suficientemente grande para producir una es-
timación adecuada de covarianza asintótica, es probablemente mejor utilizar ML o 6.4. La especificacióu del modelo causal y Sil identificación
GLS" (Joreskog y Sorbom, 1989: 223).
El modelado de ecuación estructural comienza con la especificación de un modelo
conceptual, que el investigador piensa que puede explicar las varianzas y covarianzas
D) Ausencia de coUnealidad entre las variables de las variables de interés. Por especificación se entiende "el ejercicio de establecer for-
malmente un modelo" (Hoyle, 1995: 2); y por modelo, "una afirmación estadística so-
Por colinealidad se entiende la existencia de correlación entre las variables inde- bre las relaciones entre las variables". Hasta que el modelo no es especificado, no co-
pendientes. Su presencia es más habitual en estudios no experimentales, en los que el mienzan los análisis propiamente. El modelo que se especifica es el teórico (o
524 Análisis rnu{tivariable. Teoría y práctica en La investigación social Capitulo 6: Ecuaciones estructurales 525

1. El modelo estructural (o de variables latentes)


---
,---~---
2. El modelo de medición
].O PREPARACIÓN DE LOS DATOS PARA EL ANÁLISIS
.. Especif¡cación e identificación de un modelo causal inicial a .partir de: marco
teórico de la investigación. Incluye su representación gráfica medta.n~e un dlagrama 6.4.1. El modelo estructural
de sendero y su traducción a ecuaciones estructurales y de medlclón
<> Comprobación de los supuestos básicos
<> Tratamiento de los casos sin respuesta El modelo estructural es aquel componente del modelo general que describe re-
<> Elección de la matriz de datos: covarianzas y correlación laciones causales entre variables latentes. Las relaciones entre las variables observa-
das se inclnyen cuando estas variables no actúan comO indicadores de las variables la-
R tentes.
E Las relaciones estructurales entre las variables latentes se describen mediante ecua-
P ciones estructurales lineales, que expresan la estructura causal asumida entre las va-
L riables. Hay tantas ecuaciones como constructos endógenos que sean explicados por
2." ESTIMACIÓN DEL MODELO EMPíRICO
A otras variables exógenas (latentes u observadas).
N <> Elección del procedimiento de estimación: tnúlimos cuadrados no ponderados, mí-
nimos cuadl'ados generalizados, máxima verosimilitud u otro
T
E
A
R Donde: "1)" (eta) es un vector "p x 1" de variables endógenas latentes (aquellas que
EVALUACIÓN DEL MODELO el modelo debería explicar). Por ejemplo,
3."
.. Estimaciones erróneas
.. Detección de atípicos
.. Ajuste del modelo global
.. Evaluación del modelo estructural
.. Evaluación del modelo de medición: validez y fiabilidad
"~" (xi) es un vector "q x 1" de variables exógenas latentes (las predictoras o
/ ~ variables no explicadas por otras iucluidas en el modelo).
'T" (gamma) una matriz "p x q" de coeficientes (y,.) que relacionan las va-
I Ne.[fU I POr • •
riables latentes exógenas (~) con las endógenas (1)) o variables a explicar.

INTRODUCCIÓN DE
MODIFICACIONES
CONCLUSIÓN DEL
ANÁLISIS
, .
Indican que una unidad de cambio en la variable exógena ~. resulta en un
cambio en 1). de y,. unidades, manteniendo todas las otras '!ariables cons-
tan tes. Este coeficiente estructural se interpreta, al igual que f3,j como
efectos directos en las variables endógenas.
"13" (beta) una matriz "q x q" de coeficientes que relacionan las variables la-
tentes endógenas entre sí. Cada f3,j indica una unidad de cambio en la va-
Figura 6.1. Fases principales en la obtención de un modelo de ecuaciones estructurales. riable endógena 1)" manteniendo todas las demás variables constantes. Pa-
ra cada efecto hipotetizado de una variable latente endógena en otra,
de las mismas características, se tendrá un coeficiente estructural f3,r
conceptual); aquel que se extrae del marco teórico de la investigación y que se ~omete "1;" (zeta) un vector "q x 1" de errores o términos de perturbación. Indican que
a prueba con los datos empíricos reunidos en la investigación. En el modelo tea neo se las variables endógenas no son perfectamente predichas por las ecuacio-
establecen relaciones de causalídad entre una serie de variables observadas y latentes. nes estructurales. "Las relaciones en las ciencias sociales nunca son de-
Relaciones causales hipotéticas que exigen su contrastación empírica para su aceptación tenninistas, ya que siempre existen razones para esperar perturbaciones en
o recbazo en los niveles de probabilidad fijados por el investigador. estas relaciones. Todas estas perturbaciones se resumen en la variable de-
El modelado de ecuación estructural incluye dos submodelos o componentes: nominada 1;" (Saris y Stronkhorst, 1984: 62).
526 Análisis multivariable. Teoria y práctica en la investigación social Capítulo 6: Ecuaciones estructurales 527

Sobre los errores en las ecuaciones estructurales téngase presente un


A) Gráfico de sendero
supuesto para el modelo de ecuación estructural: inexistencia de eorre-
lación entre los errores y las variables exógenas. QUiere esto dec1r, que
E(~ S') ~ O o, equivalentemente, E(S, ~') ~ O. Tampoco exi~te correlación
entre los errores y los factores únicos y entre los factores umcos Y los co-
munes (Long, 1983). .

Las variables "7)." y "~." han de ser variables latentes (o no observadas). Se rela-
cionan con sus respe~tivas ~ariables empíricas "X" e "Y" mediante los rnodelos de me-
dición, que se explica en el subapartado 6.4.2. . ..
Cuando las variables están estandarizadas, las interpretaclOnes de los coefIcIentes
estructurales "f3 . " Y "'}(' se hace, como es usual, en unidades de desviación típica.
IJ
También téngase IJ
presente que los efectos en un model Id
o estructura pue en ser.. d'1-
rectos, indirectos y totales.

a) Efectos directos. Es la típica relación que se analiza en técnicas co,?-o regresión, B) Ecuaciones del modelo estructural
por ejemplo. Indica la relación directa existente entre dos vanables. En el
modelo estructural los efectos de "17" en "1]" se contienen en "/3" y los de "1;"
7), = {3,,7), + JI,!;, + JI,!;, + 1;,
en "1]" en "r". Sus coeficientes se interpretan como en regresi~n lineal. 1J2 ~ {32,7), + y,,!;, + y"I;, +';;
b) Efectos indirectos. La relación entre dos variables se halla med1ada por una o
más variables intermedias (o terceras variables). Se obtIenen de la d1ferencia en-
tre los efectos directos y los totales. . Figura 6.2. Ilustración de un modelo estructural.
c) Efectos totales. Es la suma de los efectos directos e indirectos entre las dos vana-
bIes cuya relación se estudia. Los efectos totales de "7)" en "7)" son muy comple-
jos de derivar, al considerarse los efectos recíprocos entre las vanables endógenas. A) Convenciones para el diagrama de sendero

La figura 6.2 incluye la ilustración de un modelo estructural de 3 v~riables latentes Las variables observadas se representan en un cuadrado. Estas variables pueden
exógenas y 2 endógenas, mediante un diagrama de sendero y su traducclOn a ecuaclOnes ser indicadores de variables latentes en el modelo de medición. En el modelo es-
estructurales. tructural pueden igualmente ser variables independientes (exógenas) o depen-
El modelo de la figura 6.2 establece que la variable latente endógena "7)1" está cau- dientes (endógenas), cuando éstas son observadas y no latentes. En este caso, se
salmente relacionada con la variable latente endógena "7)2" Y las vanables latentes representarían en un cuadrado en vez de un círculo.
~xógenas "~¡" y" /;,z". Estas tres variables l~tentes no logran ~~p~c~ perfectamente "r¡t· Las variables latentes, ya sean dependientes o independientes, figuran en un círculo
Esta es la razón de que se incluya el térmmo de perturbaclOn Sl . Por su parte, la va- o elipse. Los errores de predicción (modelo estructural) y de medición (modelo
riable endógena latente "Th" se encuentra relacionada ~au~almente con o~ras}r:~ de medición) pueden no aparecer en un círculo.
variables latentes: "7)1", "~¡" y" I;z". También se incluye el temuno de perturbacIón S, . Las flechas rectas (y de una única dirección) indican relaciones causales entre las
Si las variables independientes y dependientes hubiesen sido observadas en vez de la- variables conectadas por las flechas. Ninguna puede apuntar a una variable "~",
tentes la ecuación del modelo adoptaría la siguiente forma: y ~ BY + rx+ S· al ser ésta exógena (o no explicada en el modelo: independiente). Apuntan a
P;ra ayudar a la comprensión del modelo, es conveniente infor;nar de algunas de "7)", que es una variable endógena (o dependiente).
las convenciones comúnmente seguidas en el modelado de ecuaclon estructural y en Las flechas curvas y de doble dirección denotan correlaciones (o asociaciones no
los modelos de covarianza, en generaL Estas convenciones atañen tanto a su repre- direccionales). De modo que, una línea curva entre dos términos de error, por
sentación mediante un gráfico de sendero ("path diagram") como a su resumen en for- ejemplo, refleja la existencia de correlación entre ellos.
ma de ecuación lineal Para este propósito se ha seguido la "notación LlSREL" por ser, - La varianza de una variable puede representarse utilizando una flecha de doble
"hasta la fecha, la representación más ampliamente aceptada" (Bollen, 1989: 8). cabecera desde una variable a sí misma. Cuando la varianza se fija, por ejemplo,
528 Análisis multivariable. Teoría y práctÍca en la ;,tvestigaci6n social Capítulo 6: Ecuaciones esfructurales 529

en 1,0, al estar la variable estandarizada, se suele encerrar entre paréntesis que el segundo sufijo siempre es igual al sufijo de la variable que sigue al coeficiente.
para indicar que no es un parámetro a estim~r. ., . Los sufijos corresponden a la fila y la columna de la matriz en la que aparecen.
Las líneas discontinuas indican senderos no s¡gmÍlcatlvos. ." Cada constructo o variable latente endógena que tenga una o más Hechas rec-
A cada flecha se le asocia un coeficiente. Para el caso de flechas umd¡reCCiOna- tas dirigidas hacia él, es la variable dependiente en una ecuación separada. A la
les, los coeficientes posibles son los siguientes: izquierda de la ecuación figura la variable a la que se dirigen las flechas; a la de-
recha, las variables de las que proceden las flechas, junto con el coeficiente aso-
A'X)de'aX ciado a la flecha. En suma, habrá tantos términos como números de flechas uni-
tJ s, ¡
direccionales apuntando a la variable.
J..yp ..... TI¡ ..... Y, Cada una de las matrices de parámetros contienen elementos fijos (ceros y unos)
f3,¡ ..... TI¡ ..... 1),
y parámetros libres (los coeficientes con dos sufijos).
- A diferencia de la ecuación de regresión lineal, las ecuaciones estructurales tra-
)j¡ ..... ~¡ ..... TI, dicionalmente no han incluido el intercepto ( o constante). La razón principal es
la dificultad de su cálculo, que se ha obviado en los programas iniciales. No obs-
Y para flechas bidireccionales, que expresan correlación, los coeficientes son:
tante, en últimas versiones de programas relativamente recientes (como el
Amos) sí proporcionan estimaciones de interceptos, como se verá en el ejemplo
</J,¡ de ~¡ a ~,
ilustrado a lo largo de este capítulo.
'fI,¡ ..... 5¡ ..... 1;', Cuando las variables están estandarizadas, aparecen designadas mediante "z"
e(~) ..... q..... 5, en la ecuación. Recuérdese que en estos casos se emplea una matriz de corre-
lación como matriz de entrada (input) y no de covarianza.
e~~) ..... 0r···· 0i
A lo expuesto conviene añadir la precisión de que "el modelado de ecuación es-
Como puede verse, el primer sufijo del coeficiente corresponde a la variable tructural no es meramente una serie de ecuaciones lineales. Un requisito importante
a la que se dirige la flecha; el segund~, a la v~riable de la, que procede., . es que las ecuaciones deberían representar el mecanismo causal que han producido los
Cuando la flecha no tienen ningun coefiCIente exphcllo en el graflco, se valores observables de variables endógenas y también las covariaciones entre estas va-
asume que su coeficiente es 1. . ' riables" (Saris y Stronkhorst, 1984: 64).
La inexistencia de flecha entre dos variables significa que dichas vanables no es-
tán directamente relacionadas, aunque indirectamente puedan estarlo.
6.4.2. El modelo de medición
A estas convenciones hay que añadir la recomendación d~ H~~le y Panter (1995:
159) de que "cada diagrama debería acompañarse de una exphcaclOn escnta y de u~a El modelo de medición incluye las relaciones de las variables latentes (o constructos)
justificación en el texto para cada relación propuesta o sendero, al igual que pa~,a ca- con sus indicadores (o variables empíricas). Para cada constructo se especifica los indi-
da falta de relación o sendero". Los diagramas de sendero que proporclO;,an mas .~n­ cadores utilizados en su medición. Por medición se entiende: "El proceso por el que un
formación incluyen una indicación expresa de todos los parámetros (hbres y fiJa- concepto se vincula a uua o más variables latentes y éstas se vincnlan a variables ob-
dos) en el modelo. Pero, en la práctica, esto rara vez ocurre: Con frecuencia los servadas. El concepto puede variar desde uno que sea bastante abstracto, tal como in-
senderos que indican errores de medición y de predIccIón se Oliliten de los dragramas teligencia, desarrollo económico o expectativas, a uno que sea más concreto, como
y, en ocasiones, los indicadores de las variables latentes (Hoyle, 1995). edad, sexo y raza. Una o varias variables latentes pueden necesitarse para representar
el concepto. Las variables observadas pueden ser respuestas a ítems de cuestionarios, ci-
fras de censos... , o cualquier otra característica observable" (Bollen, 1989: 180).
B) Convenciones para las ecuaciones En el capítulo 5 ya se dijo que las variables latentes son variables no observadas, que
resultan de las covarianzas entre dos o más indicadores. Son las que representan a los con-
_ A cada variable a la que se dirige una flecha le corresponde una ~cuación. ceptos en los modelos de medición. El análisis factorial confirmatorio difiere del mode-
El primer sufijo que acompaña a los parámetros A, f3, y, </J mdlca la vanable a la que lado de ecuación estructural precisamente en que se reduce al componente del modelo
se dirige la flecha; el segundo sufijo, la variable de la que sale la flecha. AdVIerte de medición, no haciendo uso del modelo estructural, como se verá en el apartado 6.10.
530 Análisis multivariable. Teorla y práctica en La investigación social CapÍlulo 6: Ecuaciones estructurales 531

La finalidad principal del modelo de medición es comprobar la adccuación de los in- En el modelo de medición se asume que los errores están inco-
dicadores elegidos en la medición de los conceptos de interés. En su forma general, las re- rreJacl~n~dos entre síy con respecto a "S". Si bien, este supuesto no
laciones entre las variables latentes y sus indicadores se describen en los términos siguientes: es restnctlvo y puede relajarse.

En resumen, la ecuación del modelo de medición mide la relación entre variables exó-
genas latentes y ~anifiestas. Las interrelaciones entre las variables latentes se indican me-
Donde: "X" es un vector "p xl" de variables observadas independientes o exó- diante sus covananzas. Las relaCIOnes de las variables latentes con sus indicadores se de-
genas. Aquellas que no son explicadas por otras variables incluidas en flnen co:n0 "dire~cionales", de cada variable latente a su manifiesta, y no a la inversa.
el modelo. "p" es el número de indicadores de "S". La ügura 6.3 lllcluye la ilustración del componente de medición para un modelo de
"Escoger el número de indicadores para cada variable latente es un tres vanabl~s latentes exógenas y seis indicadores, mediante un diagrama de sendero,
arte; en principio, cuantos más mejor; en la práctica, demasiados in- su traducclOn a ecuacIOnes estructurales y su representación en forma matricial.
dicadores hacen difícil, sino imposible, ajustar un modelo a los datos"
(Bentler, 1980: 19).
"S" (xi) es un vector "p x 1" de variables exógenas latentes.
"Ax" (lambda) es una matriz "p x m" de pesos factoriales (o "factores de
carga": "íl/,) que relacionan las variables manifiestas "X" con las
latentes "~". "rn expresa el número de variables latentes "~".
H
A) Gráfico de sendero

o/,~ ~~
--
0.3-[3]
;, ;tX

....-- o,
0,

Los coeficientes lambda representan, como en el análisis factorial,


las influencias lineales de las variables latentes en los indicadores. Su
valor expresa la magnitud del cambio esperado en la variable obser-
vada por una unidad de cambio en la variable latente. Ya se dijo
que estos coeficientes se asemejan a los coeficientes de regresión
o/"
o
O/,{~
--
[3]
;tx [!J .....-
°3
8,

®~s
52
para los efectos de las variables latentes en las observadas. La inter-
pretación de estos coeficientes precisa la asignación de una escala a la X ........... Os
variable latente. "Típicamente, los analistas fijan la escala de una
variable latente igual a uno de sus indicadores o estandariza la va- [!J ........... 0,
rianza de la variable latente a 1" (Bollen, 1989: 17-18).
"!Y' (delta) es un vector "p x 1" de errores de medición. Convencional- B) Ecuaciones del modelo de medici6n
mente, cada indicador se representa siendo también influido por un tér-
Xl ;:::; .4-7141 + 81 X4 :::::: A~2S2 + 04
mino de error. Éstos son el equivalente a los "factores únicos" en el aná-
lisis factorial. Representan la parte del indicador que queda sin explicar X2 :::::: Á~lC;l + O2 X s = A.~2C;2 + 05
por el factor común o variable latente. Se consideran variables latentes X3 o::: Á;l~1 + 03 X, = ;t~'~3 + 8,
porque no son observadas directamente. También son variables exó- C) En forma matricial
genas, al no ser explicadas por otras variables en la ecuación. Su pre-
sencia en la ecuación se debe a la no correspondencia entre las pun- X, ít~ O O 8,
tuaciones observadas con las verdaderas que subyacen en las variables X, A;¡ O O 8,

[~}
latentes en cuestión. Esto puede producir sesgos en las estimaciones de X3
=
A; O O 0,
los coeficientes relacionados con dichas puntuaciones "verdaderas". X, O ;1.:2 O 8,
"El supuesto de que cada vatiable es una medida perfecta de su co- Xs O AJ2 O /jS
rrespondiente variable latente es común en la investigación empírica,
aunqne más frecuentemente está implícita que explícita. Si analizamos X, O O A:; 8,
actitudes, conduétas, etc., las medidas con frecuencia contienen tantos
errores aleatorios como no aleatorios" (Bollen, 1989: 151). Figura 6.3. Ilustración de un modelo de medición.
532 Aná/isiy multivariable. Teoría y práctica en La investigación socia!
Capitulo 6: Ecu.aciones estructurales 533

Adviértase que la forma básica de estas ecuaciones corresponde a un modelo de


regresión lineal en el que los coeficientes suelen están estandarizados. Esto explica la A) Gráfico de sendero
no inclusión del intercepto en la ecuación. Asimismo, adviértase que las variables la-
tentes se relacionan con las observadas de la misma forma que en el modelo factorial
@~rn -«- e,
(análisis de factor común).
~rn
H
1),
Para las variables endógenas (aquellas que el modelo debería explicar) también -«- e,
existe un modelo de medición, cuando el modelo incluye variables latentes depen- P" P21 '
dientes (o endógenas, "T/¡") medidas mediante uno o varios indicadores (YJ En este
caso, las relaciones entre las variables endógenas latentes y las manifiestas se describen >[3] <i-- e,

(')~~-
con la siguiente ecuación:
e,
A~2
...,- Y, e,
Donde: "Y" es un vector "q x 1" de variables observadas dependientes.
"Ay" es una matriz "q x n" de coeficientes factoriales de Y en las variables B) Ecuaciones del modelo de medición
endógenas latentes "17". "n" identifica al número de "17". Esta matriz Ai 1J, +
Yl """ l él Y3 ::::: A;z1Jz + 8 3
muestra las relaciones de "1]" a "Y",
Yz ::::: .4411]1 + él Y4 = ..l:z1Jz + 8 4
"e" (épsilon) un vector "q x 1" de errores de medición (o "factores úni-
cos") de los indicadores endógenos "Y,". Y s :;:: A.~27h + SS
C) En forma matricial
La figura 6.4 incluye el modelo de medición para dos variables endógenas laten- Y, A,~l O e,
tes, sus cinco indicadores y sus cinco errores de medición. El modelo se expresa 1'; A~l O e,
(~}
igualmente mediante un gráfico de sendero, ecuaciones y en forma matricial.
Y, = O .-1.,;2 e,
Y, O 2ít: e,
6.4.3. La articulación de los modelos estructural y de medición Y, O A~2 e,

De la combinación de ambos modelos (estructural y de medición) resnlta un mo- Figura 6.4. IlustracIón de un modelo de medición de variables endógenas.
delo comprehensivo de relaciones entre variables endógenas y exógenas, latentes y ma-
nifiestas: el modelo de ecuaciones estructurales. Si bien, hay que advertir que, aunque
es condición la presencia de variables endógenas y exógenas, no es imprescindible la genas (figdura 6.3) y endógenas (figura 6.4) latentes. El modelo Se expresa de forma grá-
flca y me ¡ante ecuaCIOnes.
existencia de variables latentes. El modelo puede contener sólo variables manifiestas
y ninguna latente. Pero, como afirma MacCallum (1995: 21), es "generalmente ven- . El modelo ilustrado en la figura 6.5 es un modelo "no recursivo" or Ue inclu e r
tajoso emplear variables latentes con múltiples indicadores". laciOnes causales recíprocas. Los modelos "no recursivos" también s~ ca~acteriza~ ~;
A esta recomendación puede añadirse, a modo de resumen, la expuesta por Hoy- p~rm~tI¡' la correlaCión entre los términos de perturbación. Para facilitar la co';'pr~n-
le y Panter (1995: 159): "Presentar un diagrama de sendero completo con todos los in- siOn. ~ modelo, en el cuadro 6.1 se detallan cada uno de sus com onente . .
dicadores, errOres de medición y los coeficientes factoriales representados, que el mo- coteflclentes y variables latentes y observadas que integran un mo~elo de ~~:aa:i~~:ss'
es ructurales.
delo sea primero introducido conceptualmente utilizando un diagrama que se refiere
a constructos y sus interrelaciones utilizando terminología familiar de la literatura sus- Recuérdese, además, los siguientes supuestos básicos en el modelado de e .
nes estructurales: cuaClO-
tantiva",
La figura 6.5 incluye el modelo de ecuaciones estructurales que resulta de la
combinación de los modelos de estructura (figura 6.2) y de medición para variables exó- Todas las variables están estandarizadas· es decir medidas come) desv·· d
su me d la, ,. d
· SIen o 'esta Igual
. a Cero. ", raCiones e
534 Análisis multivariable. Teoria y práctica en la investigación social Capitulo 6: Ecuaciones estructurales 535

CUADRO 6.1. Integrantes de un modelo de ecuaciones estruc ura es

MATRIZ COEFICIENTE NOMBRE DIMENSIÓN DEFINICIÓN

B Beta qxq Relación entre las variables la-


/3"" tentes endógenas (1]) *
'-'
<>:

"'tJ"
í 1';",¡ Gamma pxq Relación entre las variables la-
tentes exógenas (~) con las en-
dógenas (r¡)
"
¡'i
i!> ~mm Phi p xp Correlaciones (matriz de va-
'"
Ja
o rianzas-covarianzas) entre va-
'-' dables latentes exógenas (~)
"o;¡'" 'l' o/. Psi qxq Matriz de varianzas-covarianzas
de los términos de perturbación
(0 **
A" .:I.xm Lambda-X pxm Coeficientes factoriales de X en ~
A, .:I.y Lambda-Y qxn Coeficientes factoriales de Y en 1]
r¡1 = f31,r¡, + ras, + rus, + SI "'z
""ü e, '"
Spp Theta-delta pxp Matriz de varianzas-covarianzas
B) Ecuaciones del modelo: 0 -
r¡, = f321r¡1 + rus, + r"s, + 1;, '-'u
Ja- de los errores de medición de X
00
o'" (5) ***
;¡;¡
Xl = .:I.~ISI + 81 X 4 ::::; íl~2;2 + 04 Y1 == íl~1T11 + El Y3 :::::: ~1h + E3 e, Theta-épsilon qxq Matriz de varianzas-covarianzas de
s"
A~2T12 + E4 los errores de medición de Y (E)
X 2 == íl~l~l + O2 X 5 ::::; A.~2~2 + Os Y 2 :::::: A;tT11 + e2 Y4 ::::::

X, = .:I.~ll + 8, X, = .:I.~,S, + 8, Ys : : : íl~21J2 + Es 1) Ela qxl Variable latente endógena


S Xi pxl Variable latente exógena
Figura 6.5. Ilustración de un modelo de ecuaciones estructurales. t; Zeta qxl Errores de variables latentes en-
'"
::5PO dógenas 1)
<>: y - qxl Indicador de r¡
Los errores de medición (O" c) tienen un valor esperado de cero y no están co- <2
rrelacionados con 1;, TI Y1;. "Una correlación de O; y e¡ con cualquier 1; y TI puede <>: X pxl Indicador de ~
>-
llevar a estimadores de parámetros inconsistentes de una forma análoga a una s Épsilon qxl Errores de medición de Y
perturbación correlacionada con una variable explicativa en el análisis de re- S Delta pxl Errores de medición de X
gresión" (Bollen, 1989: 18). En el análisis factorial "O;" Y"c/, suelen referirse co-
mo "factores únicos", mientras que S" y "r¡" son "factores comunes". Ambos
::q:: expresa el
H

Donde: nú~e:o de indicadores endógenos o dependientes (Y).


tipos de factores (comunes y específicos) no han de estar correlacionados.
"P "el número de mdlcadores exógenos o predictores (X).
0;, <¡ e t;, también han de cumplir los supuestos de homocedasticidad (su varianza "n;,
el n?mero de constructos o variables latentes ex6genas (';).
ha de ser constante a través de los casos) y de nO autocorrelaciÓn. * n .,el numera de constructos o variables latentes endógenas (1]).
U~a v.anable end6gena latente nunca puede influirse a sí misma. Por esta raz6n, la diagonal principal de
La correlación teóricamente es viable entre indicadores, tanto exógenos (X) co-
mO endógenos (Y). Por el contrario, no es posible entre indicadores exógenos
con endógenos.
*:
Ia matnz sIempre está compuesta por ceros.
La ma.triz de co;,a~<mZ? de"los ténninos de perturbaci6n ('fI) puede contener parámetros libres. Los valores" l¡I"
s~?s vananzas de .s:
y siempre .ha~_ de ser números positivos. Además, téngase presente que "la variaci6n en el
t mo de perturbaCIon ~ la CQvanaClon entre los términos de perturbaci6n son componentes fundamentales de un
modelo estructural" (Saos y Stronkhorst, 1984: 63).
Pero el investigador a veces se encuentra con relaciones na directas entre las *** fj~ una matriz simétrica (una t?atriz Cua?rada que iguala a su traspuesta; es decir, aqueIla que intercambia
variables; es decir, la existencia de variables mediando en la relación causal entre dos va- sus 1, as y colum~as) y no r:ec~sanamente dwgonal. Una matriz es diagonal cuando se halla tnte rada or ce-
riables. Esta variable mediadora suele incluir pocos valores o categorías. Su presencia r?s sddlvO en la dlago~al
pnnclpa!. En este. caso, los elementos fuera de la diagonal indican err~res c~rrela­
Clona os, cuya covananza tendna que estlmarse.
exige la comprobación de los efectos de interacción que supone su presencia en la re-
536 Análisis multivariable. Teoría y práctica en la investigación sodal Capítulo 6: Ecuaciones estructurales 537

lación causa-efecto detectada. En los programas estadísticos se sigue la estrategia lla- áreas de conocimiento puede no ser suficientemente detallado para responder pre-
mada "multigrupo". Consiste en derivar las estimaciones para cada glUpo por separado, vIamente y de forma adecuada a los interrogantes suscitados, puede ser tentador "de-
junto con una medida de bondad de ajuste para los distintos grupos considerados si- jar que los datos proporcionen las respuestas y no restringir por adelantado ninguna de
multáneamente. las ocho matrices. Claramente tal estrategia produciría un modelo subidentificado
Por último, adviértase que en el modelado de ecuaciones estlUcturales se puede, al del que aprenderíamos poco. En vez, deberíamos incorporar al modelo tanta infor-
igual que en el análisis de regresión, incorporar eu las ecuaciones estructurales los efec- mación sobre el problema como sea posible" (Bollen, 1989: 321).
tos de interacción de las variables observadas de una forma análoga a regresión múl- La especificación atañe a la concreción de cada uno de los parámetros de interés como:
tiple. Se define una nueva variable que sea combinación de dos o más variables, in-
cluyéndola como variable explicativa en la ecuación. Por ejemplo, Y¡ ~ a¡ + 1'l1 X ¡ + Q Parámetro libre: aquel cuyos valores se desconocen. Su estimación se obtiene de
'V X + 'V X + r· donde X ~ X y Pero, como advierte Bollen (1989), la inclusión de los datos recabados en la investigación. Su valor puede, no obstante, verse
'12 2 '13·3 ':op 3 r""¿'
efectos de interacción provoca dos complicaciones fundamentales: condicionado por los valores fijos y restringidos del modelo.
Q Parámetro fijo: aquel cuyo valor numérico se especifica "a priori" en el mode-
Una, de interpretación de los coeficientes en las variables en interacción. Si en lo que se propone. Para ello se tiene en cuenta el marco teórico de la investi-
la ecnación anterior se excluye el térDÚno de interacción x" la interpretación es gación que justifica el modelo causal propuesto. El valor numérico 1 en las ma-
que para una diferencia de una unidad en Xl' se espera una diferencia prome- trices suele corresponder a parámetros fijos. El valor que se haya especificado
dio de "y, " en Y neta de X . Si se incluye la interacción, que implica a las va- se mantiene inalterable a lo largo de todo el proceso de estimación.
n 1 2 . '~
riables X y X , hay que introducir modificaciones en la mterpretaclOn: para una • P~rámetro restringido: es desconocido, pero igual a uno o más de los otros pa-
diferenci~ de 'una nnidad en Xl' se espera una diferencia promedio de "1-í¡ + rametros. Este valor puede estar condicionado a los valores de los parámetros
y, X". De esta forma, la influencia de X¡ depende de los valores "1'13" y "x,'". fijos u otros restringidos.
132
Una interpretación análoga hay que hacer para la innuenc!a ' deY "'"2'
Dos, de pérdida de normalidad. Aunque las variables observadas en la ecuación Atendiendo a esta tipología de parámetros, puede definirse el número efectivo de
(Y ,X Y X ) tengan una distribución normal, el producto de dos variables parámetros en un modelo como "el número de parámetros libres menos el número
dis¡rib~idas ~ormalmente (p. ej., X3) no está normalmente distribuido. Para evi- de restricciones impuestas en dichos parámetros". Para "p" variables, el número de va-
tar esta salvedad, es importante: rianzas y covarianzas es "p (p + 1) /2" (MacCallum, 1995: 27).
Una consideración fnndamental cuando se especifican modelos de ecuaciones es-
1. Asumir que las variables predictoras son independientes del término de tructurales es la identificación. La identificación concierne, de acuerdo con Hoyle (1995:
pertubación (t;) o que X es fijo. 4), a "la correspondencia entre la información a estimar -los parámetros 'libres'- y la
2. Asumir que el térnúno de pertubación (t;) tiene una distribución multinormal. información de la que se ha de estimar -las varianzas y covarianzas observadas-". En
la identificación caben las tres situaciones siguientes:
De esta manera se mantienen las propiedades usuales para los estimadores
de máxima verosimilitud, • Modelo sólo identificado: cuando se cumple el requisito de poderse obtener un
valor para cada parámetro "libre", mediante una única manipulación de los da-
tos observados. En este tipo de modelo habrá sólo "O" grados de libertad.
6.4.4. EL proceso de especificación del modelo global • Modelo sobreidentificado: si uno o más parámetros "libres" pueden obtenerse
de múltiples formas desde los datos observados. En consecuencia, existen más
En el modelado de ecuaciones estructnrales la matriz de covarianza de las variables ecuaciones que parámetros independientes desconocidos. Por esta razón, es di-
observadas (L), cuya diagonal principal contiene las varianzas de las variables obser- fícil la obtención de una solución exacta. Como observa MacCallum (1995:
vadas, es función de las signientes ocho matrices: Ax' Ay, B, r, <1>, 'l', El¡y El,. Los ele- 28): "Los modelos qne contienen parámetros sobreidentificados generalmente
mentos de cada una de estas matrices han de especificarse, si se quiere utilizar el mo- no ajustarán los datos exactamente". Los grados de libertad son iguales al nú-
delado de ecnación estructural. La especificación lleva a preguntas varias referidas a mero de varianzas y covarianzas menos el número de parámetros libres.
distintos aspectos: efectos directos e indirectos entre las variables exógenas con endó- • Modelo subidentificado: siempre que no pueda obtenerse un único valor de los
genas; relación entre ¡as variables latentes con las manifiestas; correlación entre las va- datos observados para uno O más parámetros libres. En esta última situación el
riables y términos de error... Como el conocimiento existente en la mayoría de las modelo no puede estimarse.
538 Análisis muLtivariable. Teoría y práctica en la investigación social Capitulo 6: Ecuaciones estructurales 539

De lo dicho se deduce la necesidad de que el modelo sea "identificado"; que se im- mentas no redundantes en la matriz de covarianza de las variables observadas
pongan restricciones en las diversas matrices de parámetros (B, r, '1', 1». De lo contrario, debe ser mayor d~ cero o igual al número de parámetros desconocidos en "e".
se está ante un modelo no identificado que supone la obtención de un número infinito de
parámetros varios a partir de los datos observados. Las restricciones más frecuentes fijan
o sea: " t :;; (-)(p
2 + q)(P + q + 1)". D on d"
e p + q ,,' d'Ica el numera
m , de va-
algunos elementos de las matrices. referidas a "cero" o a otra constante. También pueden riablesobservadas y "t" el número de parámetros libres en "fr. El lado derecho
imponerse restricciones de igualdad o desigualdad en los parámetros (Bollen, 1989). de la expr~slón es el número de elementos no redundantes en "2:". Cada una de
Pero, ¿cómo puede conocerse el grado de identíficación del modelo?, paso previo eSias vananzas o covarianzas se sabe que son identificadas. Esto lleva a
y fundamental a la estimación del modelo. Hoyle (1995) advierte de la dificultad de de- ('2)cp + q)(P + q + 1) ecuaciones con "t" desconocidos. Si el número de des-
terminar el "estatus de identificación de un modelo". A ello contribuye el hecho de que
la mayoría de los programas de ordenador al uso suelen señalar, durante el proceso de conocidos excede el número de ecuaciones, la identificación de "1)" no es posible.
estimación de parámetros, si el modelo está "subidentificado", pero por el contrario no En resumen, en un modelo ?,O se pueden estimar más coeficientes que el nú-
informan dónde se localiza el problema de identificación. Los mismos avisos de exis- mero de correlaCIOnes o covananzas no redundantes.
tencia de problemas de identificación pueden, asimismo, ser engañosos. No siempre la 3. Una condición necesaria pa:a la identificación, que figura en el modelo es-
subidentificación responde a características del modelo. Puede, igualmente, deberse a tructural, supor:e el fIJar la dragonal de la matriz principal de "B"en cero. De
peculiaridades de los datos que se analizan. esta forma se eVita que c~da variable endógena tenga un efecto directo en sí mis-
En general, "no existe ninguna serie de condiciones necesarias y suficientes que ma. La va~lable dependiente de cada ecuación del modelo estructural aparece
proporcionen una forma de verificación de la identificación de los parámetros del mo- en e,: lado IZqUJe~do con un coeficiente implícito de 1. Esto a veces se refiere co-
delo" (MacCallum, 1995: 29). No obstante, puede comprobarse el grado de cumpli- mo la convenCIOn
'd ., de normalización"
. (Bollen ' 1989'.91)
, Su I'ncumpli nuen
. t o su-
miento de algunas de las condiciones necesarias a la identificación: pone Ia sub I entrflcaclón del modelo.
4. La matriz de covarianza de los términos de perturbación en el modelo estruCtural
1. La condición "más sencilla" es la condición de orden (Long, 1983: 36). Asimismo (\P) ha de ser una matriz identidad. Cada" 1;' figura sólo en una ecuación con un
es la "más fácil de aplicar" (Bollen, 1989: 98). Exige, para que una ecuación en un ~oef¡Clente de 1. Asimismo, como el vector" 1;' contiene variables latentes
sistema de ecuaciones sea identificada, que el número de variables excluidas en la estas han de ponerse en una escala que facilite su interpretación. '
ecuación sea mayor o igual al número de ecuaciones en el sistema menos uno. Res- 5. Para que los parámetros sean identificados también es necesario establecer una
pondiendo al número de restricciones en las matrices B y r, el número de coefi- escala de medIda para todas las variables latentes (tanto endógenas como exó-
cientes fijados a cera en una fila determinada de B y r ha de ser más grande o igual ge?a~), dado que estas, como constructos "no" directamente medibles, carecen de
al número de ecuaciones menos una. Cuando se cumple esta condición, el mode- m~tnca; El proporCIOnarles nna escala de medida facilita la estimación tanto de
lo está "identificado". En caso contrario, no puede procederse a su estimación. los parametros que representan las relaciones entre las variables latentes como
En general, las restricciones de exclusión de elementos en las matrices B y r de aquellos que gradúan las relaciones de las variables latentes con los indic~dores.
son las más habituales. Suponen la ausencia de una variable de la ecuación, fi- En caso c.ont~a~no, uno o más parámetros estarán "no identificados".
jando su coeficiente respectivo en Bar en cero. La at;rbucIOn de méttica a las variables latentes puede efectuarse de dos ma-
2. El número de parámetros libres a estimar ha de ser igualo inferior al número de neras pnnclpales:
elementos no redundantes en la matriz de varianza-covarianza muestral
de las variables observadas: "p (p + 1) /2", siendo "p" el número de variables en a) El procedimiento más habitual consiste en asignar a la variable latente la mé-
la matriz de covarianza. Si esta condición se viola, "el investigador tiene menos tnca de uno ~; sus mdlcadores. El indicador elegido actúa como la "variable
valores de datos que parámetros a estimar, lo que causará falta de identificación" de referencIa de la susodicha variable latente, independientemente de que
(MacCallum, 1995: 29). ésta se~ vanable dependiente o endógena (1)) o independiente o exógena (S).
Sin embargo, Chou y Bentler (1995: 39) matizan que ésta es sólo una con- El mdl~ador elegido suele caracterizarse por ser el que más contribuye a la
dición necesaria para que un modelo se identifique. La condición suficiente pa- medlcIOn de la vanable latente; o, igualmente, el que mejor la representa.
ra obtener un modelo identificado es que cada uno y todos los parámetros libres Para dicho prop&;ito, se fija el valor de un parámetro asociado con una de
sean identificados. las mfhIenclas direCCionales emitidas por la variable latente en cuestión en un
Por su parte, Bollen (1989: 93-94) la considera condición necesaria, pero no valor dIstinto de cero. El valor más escogido para representar la influencia de
suficiente, de identificación. A ella se refiere coma "regla t": el número de ele- la vanable latente con el indicador elegido es 1.
540 Análisis multivariable. Teoría y práctica en la in.vestigación social
Capítulo 6: Ecuaciones estructurales 541

. JE.M..• ~LO. DE ES.P.. ECIFIC.·.AC.I.Ó~ -.. IDENTIFICACiÓN DE UN MODELO


El mismo procedimiento puede seguirse con los términos de perturbación.

{.·.·.E
En este caso, se asigna el valor 1 para la influencia de cada término de
error en su variable latente endógena asociada (1). DE ECUACIONES ESTRUCTURALES.
b) Fijar la varianza de cada variable latente en un valor numérico específico, típi-
camente, el valor 1. Actuando de esta forma, la variable latente queda trans- De
formada en variable estandarizada. La ventaja principal es que se simplifica bas- I I.oS resultados de los análisis precedentes se ha configurado un "posible" modelo
tante la interpretación de las estimaciones posteriores de los parámetros. Los ~~p Icatl~lo (o ~Odelo teórico) de la actitud de los españoles ante la inmigración con las
hip v~;;a es e e~'das de ~a base de datos analizada. La figura A representa dich~ modelo
coeficientes asociados a los efectos direccionales entre las variables latentes pa-
Ole ICO como ue ~Isenado mediante el programa Amos Graphic (versión 4.0), incluido
san a interpretarse a modo de coeficientes de regresión estandarizados; los aso- en e paquete estadlstlco SPSS (versión 10.0): el modelo input.
ciados con relaciones no direccionales, como correlacione.")..
o
El incumplimiento de estas cinco condiciones necesarias a la identificación provoca
problemas de identificación, lo que revierte, negativamente, en la no estimación de pa-
rámetros únicos en el modelo.
Hair et al. (1992; 1999) destacan cuatro indicios principales de la existencia de pro-
blemas de identificación:
1. Errores t(picos muy elevados en uno o varios coeficientes. O; 1

2. Incapacidad del programa para invertir la matriz de información.


3. Estimaciones bastante irrazonables o imposibles, como varianzas de error ne-
gativas.
8 1
o
4. Correlaciones elevadas ("::: ± ,90") entre los coeficientes estimados.

Los problemas de identificación generalmente se deben al incumplimiento de


alguna o varias de las cinco condiciones de identificación referidas. A éstas se suma la
incidencia negativa que en la identificación puede tener la omisión de variables pre-
dictoras relevantes. Esto último se conoce como "error de especificación".
Respecto a las actuaciones a seguir ante problemas de identificación, la solución más
habitual es aumentar las restricciones impuestas en cl modelo: la eliminación de algunos
de los coeficientes estimados. "El investigador debería seguir un proceso estructurado,
añadir gradualmente más restricciones hasta que el problema se remedie. Al hacerlo así,
el investigador está intentando lograr lo que se denomina modelo 'sobreidentificado' (que
tiene más ecuaciones que parámetros desconocidos)" (Hair et al., 1992: 445). Estos au-
tores resumen en cuatro los pasos a seguir para alcanzar dicho objetivo:
1. Partir de un modelo teórico que incluya el menor número posible de coefi-
cientes desconocidos que puedan justificarse.
2. Fijar las varianzas de los errores de medición de los constructos. zeta2
3. Fijar cualquier coeficiente estructural que sea fiablemente conocido.
4. Eliminar variables problcmáticas.

Si, pese a estas actuaciones, los problemas dc identificación persisten, el investigador


deberá considerar la reformulación del modelo teórico para proporcionar más cons-
tructos relacionados con el número de relaciones causales examinadas. Figura A. Modelo inicial de entrada.
542 Análisis multivariable. Teoría y práctica en la investigación socia.l
Capítulo 6: Ecuaciones estructurales 543

Si se relee el capítulo 5, podrá constatarse que la agrupación de las variables en 4 di- riables latentes exógenas, y los é silon ( ) . .
mensiones latentes es la obtenida en los distintos análisis de factor común realizados (ejes tentes endógenas. Estos errore:de me':r para los indicadores de las variables la-
principales, máxima verosimititud, mínimos cuadrados no ponderados, mínimos cuadra- únicos" en el análisis de factor ca ' E IClón son los eqUivalentes a los "factores
dos generalizados, factorización alfa y factorización imagen). Coinciden en la misma clasi- indicadores que no ha quedado eX~I~;~d xpresan la prop?rción de varianza de los
ficación de las variables, aunque con saturaciones ligeramente diferentes. La primera di- El modelo asume inexistencia de corr I ~ por la dlmenSlon latente o factor común.
mensión, aquí lIamada"actitud ante la inmigración", se halla medida por seis indicadores nen un vaior esperado de cero. e aClon entre los errores de medición, que tie-
rentrada inmigrantes", "leyes inmigración", "regularizar inmigrantes", "número de inmigr¡:¡.n-
tes", "inmigrante delincuente" y "partido racista"), en su mayoría relacionados con cuestiones Siguiendo la simbología L/SREL el mo ' .
de "política inmigratoria", e indirectamente indican una actitud manifiesta ante la inmigración ecuaciones correspondientes a los m~d I del O teonco se resume en las siguientes
en general. La primera variable ("entrada inmigrantes") es la que más satura en dicho factor, a cada variable a la que se dirige una fl: ~s el structural y de medición. Recuérdese que
mientras que la última ("partido racista") apenas alcanza el valor mínimo de referencia ge- c a e corresponde una ecuación.
neralmente adoptado para que el coeficiente factorial sea estadísticamente "significativo":
";, ± ,30". La segunda dimensión latente (o factor común), llamada "sociabilidad con los ma-
rroquíes", está medida por tres indicadores relacionados con los inmigrantes marroquíes: "ca-
sar con marroquf', "vecino marroquf' y "simpatía hacia marroquíes". Las otras dos dimensiones
latentes ("rango social" y "mentalidad") se refieren a características sociodemográficas de los X Á.xj: s:- y ,\y Ys = il..~27]2 + es
encuestados que han mostrado ser relevantes en la explicación de la actitud ante la inmi- ¡;:: 11';11 + U J 1 ;:: /\'117]1 + el y ,\y
X - ít X 1= ¿; Y + e6
6 ;:: /1,62 1'12
gración. En especial, los tres indicadores de "posición social": "estudios", "ingresos" y Modelo de medic·lo'n·. X , - ílX21~1
¡:
+ 2 Y2 = Á.211]¡
+ e2 Y7 = Anrh + 8
'lY
7
"edad". La variable "ideología política" es la única con un coeficiente factorial (o '1actor loa- :;;:: 31~1 + O:; Y3;:: íl~l1J1 + C 3 Yg = A~1h + es
ding") significativo en la cuarta dimensión latente, llamada "mentalidad". La variable "sexo" ha X 4 = íl:Y,J!
.. 'n
+0... ~Yr¡2 + E4
Y4 -- 1L42 y9 oY
= A92"h + 6'9
quedado excluida de los análisis porque, a decir de los distintos análisis de factor común
realizados, apenas comparte varianza con el resto de las variables. Su saturación en los cua- Para que el modelo esté identificado r .
tro factores comunes no llega al nivel mínimo recomendado para ser "significativa". Aunque las variables latentes (tanto endógen ' p Imero, se ha tenido que asignar un nombre a
en el análisis de componentes principales sí quedó agrupada, junto a la variable "ideología unidad de medición. Al tratarse de va:\~omo exogenas), además de definir su origen y
,a
política", en el cuarto componente principal. Para más información, véase el capítulo 5. Asi- que la media de cada variable es O R es tstandan~adas, su ongen se fija asumiendo
mismo, recuérdese que en el análisis discriminante (capítulo 4), la variable "sexo" tampoco procedimiento habitual de asignar ~ la:s~:r~a~la I~ Unidad de ",-ediCión, se ha seguido el
mostró poder discriminatorio significativo. cado res. En todos los casos el indicad I es atentes la metnca de uno de sus indi-
El modelo input ilustrado en la figura A está, en suma, integrado por: dad de los análisis de facto,' común re ~r e:9idO es el que, de acuerdo can la generali-
mensiones latentes respectivas Se . a Iza os con anterioridad, más saturan en las di-
Dos variables latentes endógenas mutuamente relacionadas: "sociabilidad con factorial Son los que mejor repre~enta~,~~~a q~e esto.s indicado:es de mayor coeficiente
marroquí" (1),) y "actitud ante la inmigración" (1),). "estudios" "ideología política" "ca as Imenslones. Los indicadores elegidos son'
- Dos variables latentes exógenas: "rango social" (~,) y "mentalidad" (';'). Estas dos variables d" . ' , sar con marroquí" y "entrada in· t'" .
e vaflable de referencia" de las res e f ' migran es . Estos actúan
"pueden" estar correlacionadas, al estar unidas por una flecha curva de doble dirección. lidad", "Sociabilidad con marroquíes" ~ "c '~~Sdvaflables lat~ntes:. "rango social", "menta-
- Trece indicadores o variables observadas endógenas. El "rango social" está medido En la figura A (que corresponde al m:e:oui ante la mmlgracl.on":
por 3 indicadores: "estudios" (X,), "ingresos" (X,) y "edad" (X3 ). La "mentalidad" por ~ue en la flecha que va de las variables latentesnp~ Ohde ~ntrada iniCial) puede observarse
un solo indicador: "ideología política" (X4 ). La "sociabilidad con los marroquíes" Este es el valor usual en la especificación de la re a . ~c os Indicadores aparece el número 1.
por 3 indicadores: "casar con marroquí" (Y,), "vecino marroqur' (Y,) Y "simpatía ha- fiable latente correspondiente El r "t lacl~n entre la vanable de referencia y la va-
cia marroquíes" (Y3 ). La "actitud ante la inmigración" por 6 indicadores: "entrada in- Para ayudar a que el modelo :~~'~~o ~s,que dicho c~_eficiente difiera de O.
en
migrante" (Y,), "leyes inmigración" (Y5 ), "regularizar inmigrante" (Y6 ), "número de de las variables latentes exógenas "rang , ,ca1.~,}amblen se ha restringido la varianza
inmigrantes" (Y,), "inmigrante delincuente" (Ya) y "partido racista" (Y,). ha escogido dicho valor porque se asum o socia , n;entalidad:, "zeta 1" Y "zeta2" a 1. Se
Los 15 términos de error (también variables latentes exógenas). Los términos de formación aparece igualmente reflejada :~~= i~s vaflables estan ~standarizadas. Esta in-
perturbación "zeta1" (C;,) y "zeta2" (",), porque se parte de que las dos variables la- apa~~cen acompañadas de los números 0'1 cgura A. Las sus~dlchas vaflables latentes
tentes endógenas ("sociabilidad con marroquíes" y "actitud ante la inmigración") no i
maclOn de los interceptos y las medias e ' domo se ha soliCitado al programa la esti-
quedan perfectamente explicadas ni por las variables latentes exógenas conside- y de salida no estandarizado (figura B)' n e lagrama de sendero de entrada (figura A)
radas ("rango social" y "mentalidad") ni por la otra variable latente endógena ("so- "d' . aparece un par de parámet 'd' .
m,e la; vananza" en las variables exógenas El O ros ~ue lentIfIcan la
ciabilidad con marroquíes" y "actitud ante la inmigración", depende de qué variable qUlerda del punto y coma) y el 1 a l " corresponde a la media (la cifra a la iz-
se analice). Y los errores de medición: los delta (8;), para los indicadores de las va- figura expresa cuando es fijada a p~i::'f1anza (la Situada a la derecha). Ésta última sólo
Capitulo 6: Ecuaciones estructurales 545
544 Análisis multivariable. Teorfa y práctica en la investigación social

La figura e muestra el diagrama de sendero de salida (modelo output) de la solución


Como los errores también son variables latentes, hay que asignarles igualmente una uni-
estandarizada. Este gráfico es de gran utilidad en la detección de estimac;ones erróneas
dad de medición para así facilitar la identificación del modelo. Dicha asignación se realiza im-
debidas a problemas de idenUfícac;ón. De su inspección visual se detecta una estimación
poniendo un valor al coeficiente de regresión ("regression weíghf ') asociado al error, como una
errónea grave que debe corregirse para que el modelo esté identificado. Tres coefi-
forma indirecta de elegir una unidad de medición para el mismo. El valor elegido es, nue-
cientes estandarizados superan el valor 1,0, cuando éste es el valor mayor posible que
vamente, el 1. Esta cifra figura en la flecha que va del error de medición al indicador res-
puede alcanzar un coeficiente de regresión estandarizado. Se trata de los coeficientes que
pectivo, indicando que es el valor fijado para el correspondiente coeficiente de regresió'!.
cuantifican la relación entre las siguientes variables latentes: "sociabilidad con marroquíes"
En suma, las figuras A y B muestran 19 coeficientes de regresión fijado con el valor 1. Es-
...., "actitud ante la inmigración" (-2,53), "actitud ante la inmigración" ...., "sociabilidad con
te es el valor de restricción elegido para cada variable latente. Son 19 las variables latentes en
marroquíes" (1,86), "mentalidad" -> "actitud ante la inmigración" (1,56). Asimismo, la va-
su totalidad, tanto endógenas como exógenas. Esta restricción se considera a priori suficien-
riable latente endógena "actitud ante la inmigración" presenta una correlación múltiple cua-
te para que el modelo esté identificado y pueda procederse a la estimación de sus parámetros.
------------------------------------------~
O; ,44

O; ,36

-,12
-,12

-,65
,36
-,76
entrada ~
1,86
-2,53
4,06
_1,16

,28
O; ,28
~
~
número
númerO

,67
o; 1,00
zcta2

Figura C. Modelo inicial de salida: solución estandarizada.


Figura B. Modelo inicial de salida: solución no estandarizada.
546 Análisis multivariable. Teoria y práctica en la investigación social Capítulo 6: Ecuaciones estructurales 547

drada errónea: -6,12. En la búsqueda de posibles causas de dichos coeficientes erróneos, En la figura D puede constatarse que con dicha eliminación se ha logrado resolver el
se piensa que pueden deberse a los efectos recíprocos inicialmente de!,lmd?s entre dos problema de identificación. Ninguno de los coeficientes de regresión estandarizados
de las variables afectadas. Se trata de las variables latentes endógenas SOCiabilidad c~n estimados supera el valor 1,0. Tampoco se detecta, como en el modelo inicial, la existencia
marroquíes" y "actitud ante la inmigración". Para comprobarlo, se procede a la elimlnaclon de varianzas de los términos de error negativas. Ésta es otra estimación errónea frecuente
de uno de los efectos referidos. Se decide eliminar el correspondiente a la influenCia de que informa de problemas de identificación en el modelo.
la variable "actitud ante la inmigración" .... "sociabilidad con marroquíes". Se' bu~ca laob- Al no observarse ninguna estimación "errónea" que alerte de problemas de identifi-
tención de un modelo causal de la "actitud ante la inmigración", siendo la. dlmenslon latente cación, se considera que este segundo modelo está suficientemente identificado, pro-
llamada "sociabilidad con los marroquíes" una posible variable explicativa. El modelo ex- cediéndose- a su análisis.
plicativo que resulta de la eliminación de dicho parámetro se muestra en la figura D. El número de variables en el modelo final es 32:

• Observadas 13
• No observadas 19
• Exógenas 17
• Endógenas 15

Se trata de un modelo recursivo porque incluye sólo relaciones "causales" unidirec-


cionales (o de una sola dirección). La tabla A contiene el resumen de sus parámetros.
Compruébese si se cumple la "regla t", considerada "necesaria", aunque no suficiente pa-

8 •94
ra la identificación, con los datos proporcionados en la susodicha tabla .

Tabla A. Resumen de parámetros

Parámetros Pesos Covarlanzas Varianzas Medías Interceptos Total


-,13

Fijos 19 O 4 O O 23
Etiquetados O O O O O O
No etiquetados 14 1 13 O 13 41

TOTAL 33 1 17 O 13 64

6.5. La preparación de los datos para el análisis

Una vez configurado el modelo teórico y las hipótesis de partida, se procede a


la preparación de los datos para el análisis. Como en otros procedimientos analíticos,
esta fase preliminar incluye no sólo la comprobación de cada uno de los supuestos
básicos para la realización adecuada de los análisis. También comprende decisiones
clave, como la referida a los casos sin respuesta ("missing values") o qué matriz de
datos elegir. Los supuestos básicos para el modelado de ecuaciones estructurales ya
fueron resumidos en el apartado 6.2 (para su comprobación en los datos aquí
analizados se remite a lo dicho al respecto en el capítulo 1). A continuación se de-
tallan aspectos referidos al tratamiento de los casos sin respuesta y a las matrices de
Figura D. MOd~lo final de salida: solución estandarizada. datos.
548 Análisis multivariable. Teor[a y práctica en la investigación social Capftulo 6: Ecuaciones estructurales 549

6.5.1. El tratamiento de los casos "sin respuesta" - La varianza de los términos de error es heterocedástica: es mayor en aquellos
casos con valores estimados.
El tratamiento de los casos sin respuesta ya ha sido reiteradamente expuesto en ca- - La pérdida de normalidad, debido a que los casos sin respuesta suelen re-
pítulos precedentes. En este subapartado sólo se añaden aspe~:os específico~ al mo- presentar una pequeña proporción del total de la muestra analizada. Lo
delado de ecuaciones estructurales. Concretamente, en la eJecuclOn de esta técmca ana- que restringe el uso de funciones de ajuste de máxima verosimilitud y de mí-
lítica se han observado los siguientes inconvenientes en la aplicación de los tratarruentos nimos cuadrados generalizados, al igual que la aplicación de la prueba x' de
habituales a los casos sin respuesta resumidos en el subapartado 1.3.l. máxima verosimilitud.

a) La eliminación de los casos sin respuesta (en al menos una de la: variables de in- La imputación se incluye como opción en las últimas versiones del programa
terés) de la matriz de datos repercute negativamente en el tamano muestral; q~e LISREL (PRELIS 2). Las iniciales (PRELIS 1) sólo incluían los dos procedi-
se verá drásticamente mermado, cuantas más variables se mcluyan en el anahsIs. mIentos de eliminación: "listwise" y "pairwise".
Jaccard y Wan (1996) comprueban que el tamaño muestral puede llegar a re- d) A los tres tratamientos de los casos sin respuesta anteriores, cabe añadir otros
ducirse a la mitad en situaciones habituales de 15 vanables y, cada una, con al menos populares: el empleo de variables ficticias o soluciones de grupo múlti-
menos un 50/0 de casos sin respuesta al azar. ple, añadiéndoles controles estadísticos formales. Para más información véase
Esta reducción, de ser cuantiosa, afecta negativamente a la calidad de los Jaccard y Wan (1996).
análisis. Aumentan los errores típicos de las estimaciones de los parámetros del
modelo. Si bien, puede afectar favorablemente al ajuste del modelo e~ su El programa Amos (versión 4.0), por ejemplo, no aplica ninguno de los tres pro-
globalidad, comprobado mediante el estadístico chi;cuadrado (como se ver~ en cedimientos tradicionales de tratar los casos sin respuesta. Cuando existen casos sin reS M

el subapartado 6.7.3), pero siempre que la reducclOn no sea demas,lado drastI- puesta, sólo pueden estimarse los parámetros aplicando el método de máxima vero-
ca y no se sitúe el tamaño de la muestra final por debajO del mmlmo reco- similitud. En este caso, se calculan las estimaciones de máxima probabilidad de
mendado (apartado 6.2). . información plena (FIML), siguiendo la propuesta de T. W. Anderson de 1957 ("Ma-
Pese a este inconveniente fundamental, este primer tratarruento de los c~sos ximum Iikelihood estimates for a multivariate normal distribution when some obser-
sin respuesta continúa siendo una de las opciones más recomendadas (vease vations are missing", Journal ofthe American Statistical Association, 52: 200-203), que
Byrne, 1995), cuando el tamaño de la mnestral original sea sufiClentement~ elevado supone el análisis de "toda" la muestra original.
y los casos sin respuesta sean completamente aleatonos. Qmere esto deCIr, que no
respondan a ninguna pauta; que la probabilidad de obtener un caso sln,:espuest~
no dependa de la variable con valores sin respuesta. SIlos d~tos n.o son . ;mssmg 6.5.2. Las matrices de datos
completamente al azar, la recomendación es descartar cualqmereliminacIon de ca-
sos porque generaría estimaciones de parámetros mconslstentes (Bolle?, 1989). Aunque el modelado de ecuaciones estructurales inicialmente se formula para ana-
b) Eliminar de los análisis los casos sin respuesta en algun,a vanable, pero solo cuan- lizar matrices de varianza-covarianza (de ahí su denominación genérica de "modelos
do se estiman los parámetros de la variable en cuestlO? Estos ~asos ehmmados de estructura de covarianza"), comparte con otras técnicas analíticas multivariables, co-
participarán en los análisis de las variables en las que SI proporcIOnen respuesta. mo el análisis de regresión o el análisis factorial, la capacidad de analizar matrices de
Este segundo proceder es lo que se conoce como "paüwise deletion" y ofrece correlación. Es decir, matrices de varianzas-covarianzas estandarizadas, que resultan
la ventaja de suponer una menor pérdida de informaCIón que el antenor (lla- de su división por el producto de las desviaciones típicas.
mado "listwise deletion"). , . Como ya se ha mencionado reiteradamente, las matrices de correlación favorecen
e) La imputación de los valores sin respuesta por otros que tendrantrataI;ue~to de la comparabilídad de los coeficientes estructurales y, en general, la interpretación de
valores observados reales (siempre bajo el supuesto de cuál habna SIdo el los resultados. Los coeficientes de correlación son siempre unidades estandarizadas con
valor dado a la variable por ese caso, si hubiese dado una respuesta) presenta valores comprendidos entre -1,0 (correlación perfecta negativa entre las variables) y
la ventaja principal, frente a los dos tratamientos precedentes, de no redUCIr el +1,0 (correlación perfecta positiva). El valor 0,0 indica la ausencia de correlación eu-
tamano de la muestra original. Hecho que adqUIere espeCIal ,ImportanCIa en SI- tre las variables. Estos valores estandarizados facilitan la interpretación de dicha
tuaciones de tamaño muestral pequeno y/o elevada proporclOn de casos Sin res- matriz en comparación con la matriz de varianzas-covarianzas. En esta última, la in-
puesta. No obstante, también presenta inconvenientes, que Bollen (1989) resume terpretación ha de hacerse en referencia a las unidades de medición de las variables que
en dos fundamentales: comprende. Como lo habitual es analizar variables en diversas unidades de medida, la
550 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 6: Ecuaciones estructurales 551

interpretación de sus varianzas-covarianzas supone una mayor complejidad que la in- maciones de los parámetros "libres" de la matriz de datos observada en relación con
terpretación de las correlaciones entre variables estandarizadas (transformadas a aquella matnz que resultaría, si los parámetros "libres" fuesen s~stituidos en las
unidades de desviación típica). ecuaCIones estructurales.
Su mayor facilidad de interpretación contribuye a que se recomiende el uso preferente La estim.ación comienza co~ una serie de valores tentativos de "partida". Éstos pue-
de las matrices de correlación, cuando se tenga como objetivo principal "comprender el den ser elegIdos por el propIo mvestigador o, más comúnmente, proporcionados or
modelo de relaciones entre los constructos", sin necesidad de explicar la varianza total de el pr~?rama de ordenador al uso. De es!os valores se obtienen, en sucesivas itera~o­
dichos constructos. Por el contrario, las matrices de varianzas-covarianzas muestran ser más nes, Iversas ma;nces de covarianza. Estas se comparan Con la matriz observada.
idóneas, en el modelado de ecuaciones estructurales, cuando se comparan muestras o po- D~ la comparaclOn .resulta una matnz residual, integrada por las diferencias entre los
blaciones diferentes, en vez de comparar variables distintas en una misma muestra va ores correspondrentes en ambas matrices.
(Hair et al., 1992; 1999). El pro~eso iterativo concluye cuando la diferencia entre ambas matrices (resumidas
Dos de los creadores principales de esta técnica analítica, Joreskog y Sorbom en la .m.at~lZ reszdual, y que IndIca lo "próximo" que "f" se encuentra de "S") no ue-
(1989), aconsejan, como "regla general", analizar matrices de varianzas-covarianzas, ~:mmlmmlza:se más; El grado de correspondencia alcanzado entre las matrices s~ re-
si bien, reconocen la dificultad de su interpretación. Máxime en muchas aplicaciones ~ en ~n uruCú numero. Este número a veces se refiere como el "valor de la función
de las ciencias de la conducta en las que las unidades de medición de las variables ob- de ;Juste y es el punto de partida para la elaboración de los índices de bondad de ajus-
servadas no tienen ningún significado definido, siendo can frecuencia "arbitrarias" o te el modelo. Cu~nto más se aproxime su valor a "O", mayor es el ajuste de las ma-
"irrelevantes". Del empleo de matrices de correlación destacan tres posibles conse- tnces. Es deCIr, ~as se asemeja la matriz predicha a la observada.
cuencias negativas de su uso a considerar antes de optar por su aplicación: A contmuaclón se detallan los métodos principales de estima cia' n de los p •
tros "lIbres". arame-
a) La modificación del modelo que se analiza.
b) La generación de valores de :i! y de otras medidas de bondad de ajuste in-
correctos. 6.6.1. Minimos cuadrados no ponderados
c) La obtención de errores típicos incorrectos.
. Este primer método de estimación consiste en minimizar la función de ajuste de-
fi mda de la manera sIgUIente: '
6.6. La estimación del modelo

A diferencia de las fases precedentcs, ésta es plenamente analítica. Trata de la esti- FULS(S: f) = (~}r[(S - fl']
mación de los parámetros que se han especificado como "libres" en el modelo teórico. La
estimación puede llevarse a efecto mediante distintos procedirnlentos que comparten una Do.r;de "tr': es la traza o suma de los elementos de la diagonal de una matriz En
misma finalidad: minimizar la diferencia entre cada elemento de la matriz de varianzas- la funclOn de ajuste de minimos cuadrados no ponderado representa la suma de ~ua­
covarianzas (o de correlación) observada ("S") y el correspondiente en la matriz predi- d;ados de los elementos en la matriz residual. La matriz residual está integrada or las
cha ("f"). Como no se conocen las varianzas-covarianzas de la población (parámetros po- ~if~enclas entre las varlaAnzas y covarianzas muestrales ("S") y las correspondient~s pre-
blacionales), se quiere la obtención de estimaciones muestrales de los parámetros ,,'C+as,por el m~d:l? ("L"). ]')icha matriz se caracteriza por ser simétrica y de orden
desconocidos a partir de las estimaciones muestrales de la matriz de varianzas-covarianzas. ~ q, SIendo p Igual al numero de indicadores exógenos y "q" de indicado e _
La definición de la diferencia entre ambas matrices está determinada por el método de dogenos. r s en
estimación que se escoja. Los tres métodos de estimación de parámetros fundamentales De lo que se trata es de minimizar una mitad de la suma de los cuadrados de cada
en el modelado de ecnaciones estructurales son los siguientes: elemento en la m~tnz reSIdual. Cuando la función de ajuste es de mínimos cuadrados
1. Mínimos cuadrados no ponderados (ULS: "Unweighted Least Squares"). ~~:~~r~d~~; se ml~lm1Za, igualmente, la suma de residnos cuadrados en la matriz re-
2. Mínimos cuadrados generalizados (GLS: "Generalized Least Squares"). d . I ren, dIfiere en que se da un peso empíricamente determinado a cada resi-
uo cuadr~do antes de producirse la suma, Lo que lleva a dar ponderaciones diferentes
3. Máxima verosimilitud (ML: "Maximum Likelihood"). a unos resIduos que a otros.
Cualquiera de estos tres métodos de estimación iterativos se prefiere a los métodos E~ estimador ~e. mJnimos cuadrados no ponderados (ULS) ha mostrado ser una
de mínimos cuadrados de fase única. Implican una serie de intentos de lograr esti- funclon de ajuste faCIl de comprender", que lleva a un "estimador consistente de las
552 Análisis multivariable. Teoría y práctica en la investigación socia! Capitulo 6: Ecuacion.es estructurales 553

varianzas y covarianzas predichas" (Joreskog y Sorbom, 1989: 18-19; Bollen, 1989: 112). El método de mínimos cuadrados generalizados alcanza sus mejores resultados
También destaca su aplicabilidad "en situaciones cuando los otros dos procedImIentos cuando se satisfacen los tres supuestos básicos de normalidad (que favorece la apli-
fallan en proporcionar soluciones. Esto ocurre cuando una de las vanables de la ma- cación de las pruebas de significatividad estadística), el tamaño muestral es elevado y
triz de datos es completamente dependiente de una o más de las otras vanables en la las variables observadas son continuas.
matriz" (Saris y Stronkhorst, 1984: 173). . .. ..
Asimismo, en su favor está la posibilidad de aplicar pruebas de slgmflcatlvldad esta- 6.6.3. Máxima verosimilitud
dística y de calcular los errores típicos, al estimarse bajo los supuesws de la teona nonnal.
En su contra está, sobre todo, su dependencia de la escala de medIda. SI se nuden los m- El método de estimación de parámetros de máxima verosimilitud (ML) es, "has-
gresos en pesetas, por ejemplo, los resultados serán sensiblemente diferentes de cuando la ta la fecha, la función de ajuste más ampliamente utilizada para modelos de ecuación
misma variable está medida en euros o en dólares. En consecuenCIa, se obtIenen valores estructural general" (Bollen, 1989: 107). Comúnmente se define como la función de
distintos del análisis de matrices de varianzas-covarianzas Yde matrices de correlación. ajuste que maximiza la probabilidad de los parámetros a partir de los datos empíricos.
Quiere esto decir, que mediante este procedimiento de estimación se buscan los valores
de los parámetros que con mayor probabilidad han ocasionado las covarianzas o corre-
6.6.2. Mínimos cuadrados generalizados laciones observadas. Ello exige el conocimiento previo de las varianzas y la función de
densidad de las probabilidades de las covarianzas de la muestra.
El método de estimación de parámetros de mínimos cuadrados generalizados es Al igual que los procedimientos de estimación precedentes, el método de máxima
una pequeña variante del método de mínimos cuadrados no ponderados. Ambos verosimilitud trata de minimizar las discrepancias entre la matriz de varianzas-cova-
métodos comparten el objetivo de buscar la minimizaCIón de l?s resldnos. Pero, rianzas, aunque la función de ajuste queda definida en los términos siguientes:
mientras en el método de mínimos cuadrados no ponderados cada termmo resldnal re-
cibe la misma ponderación (o sea, ponderación inexistente, o que a cada residuo se le FML(S: i:) = 10gISI-logli:1 + tr[(S)(i:- 1 ) ] - K
atribuye un peso igual a la unidad), en el método de estimación de mí,úmos cuadrados
generalizados (GLS) se atribuyen pesos desiguales a los dlversos,reslduos. ~ esta dI- Donde: "log" es la función logarítmica natural y "logISI" el logaritmo del deter-
ferencia básica se añade otra peculiaridad que comparte con el metodo de maXlma ve- minante de la matriz de varianzas-covarianzas muestral.
rosimilitud: es invariante de la escala de medición de las variables. "K", el orden de la matriz de varianzas-covarianzas muestral definido co-
La función de ajuste en el método de mínimos cuadrados generalizados queda de- mo "p + q".
finida en los términos siguientes:
La aplicación correcta del método de máxima verosimilitud exige el previo cum-
plimiento de los supuestos mencionados en el apartado 6.2. De manera especial, el su-
puesto de normalidad (que permite el empleo de pruebas de significatividad del mo-
delo en su conjunto y de los parámetros individuales), homocedasticidad (varianzas
Donde: "W-1" representa la matriz de pesos para la matriz resid~al. En ella se pon- constantes de los términos residuales a través de las combinaciones relevantes de los
deran las discrepancias entre las matrices de vananzas-covananzas predictores) e independencia de los residuos. Éstos han de tener como media cero (es
muestral y la predicha por el modelo. decir, se hallan normalmente distribuidos) y no han de estar relacionados con pre-
dictores exógenos. Estas propiedades se cumplen con mayor probabilidad en tamaños
1
En general, F ULS puede comprenderse como un caso especial de FGLS , donde W- = L muestrales elevados. El analizar una muestra de tamaño elevado favorece la conver-
En F implícitamente se ponderan todos los elementos de la matnz residual como SI gencia de las estimaciones muestrales con los parámetros poblacionales, además de la
= L
tuviesen las mismas varianzas y covarianzas con otros elementos. o que se conv?e:~
. normalidad de la distribución muestral de los estimadores.
te en un problema similar a la aplicación inapropiada en r~gre.sión lineal del pri~,ClP!O El método ML comparte con GLS su mayor adecuación a tamaños muestrales
de estimación de mínimos cuadrados (OLS), cuando los termmos de perturbaclon de grandes y a distribuciones normales multivariadas. Cuando la muestra supera, al me-
la ecuación de regresión son heterocedásticos o autocorrelacionados. Ante est~ SI- nos, los 100 casos, mediante ML se obtienen coeficientes estimados carentes de sesgo.
tuación, la solución es aplicar el principio de mínimos cuadrados genera{¡zados. Este Esto significa que si se extrae, de la misma población, un número infinito de muestras
supone la ponderación distinta de las observaciones para corregIr las deSIguales va- del mismo tamaño, el valor medio de los coeficientes estimados equivale al corres-
rianzas-covarianzas de los términos de perturbación (Bollen, 1989: 113). pondiente en la población a la que pertenece la muestra analizada.
Capitulo 6: Ecuaciones estructurales 555
554 Análisis multivariable. Teoría y práctica en la investigación social

k k

También tiene la propiedad de ser invariante de la escala de medición de las va- F DWLS = L L (l/W,,,)(Sg,, - ag"l'
riables. Quiere esto decir, que los valores de la función de ajuste so~ los mIsmos para g=l h""l

la correlación y las matrices de covarianza, indistintamente de la umdad de medICIón


de la variable (por ejemplo, el peso en gramos o libras, los ingresos en pesetas, euros Donde: "Wgh " es una estimación de la varianza asintótica de "s 11'" Lo que
corresponde a utilizar una matriz W-l de pesos diagonal ';,n el proce-
o en dólares... ). di t ML 't dimiento anterior (WLS).
Como se verá en el apartado 6.7, las estimaciones de parámetros me ~ e. peTIlU en
"' 1 ba! del valor de la función de ajuste evaluada en las estimaCiones finales,
la comprob aCion g o .' . "1)( 1) _ t" ados de El uso del método DWLS se recomienda cuando se analizan matrices de
mediante la prueba de sigmfícatlVldad de :i con /2 (p + q p + q + ., gr correlación (Joreskog y Sorbom, 1989).
libertad; siendo "t" el número de parámetros libres. Para mayor mformaclOn, véase el
susodicho apartado. Como un remedio frente a la no-normalidad multivariable, Browne desarrolla en
1984 ("Asymptotically distribution-free method for the analysis of covariance struc-
tures", British Journal of Mathematics, 37) el estimador ADF ("Asymptotically Dis-
6.6.4. Otros métodos alternativos de estimaci6n de parámetros tribution Free"). Este método de estimación de parámetros alternativo también se re-
fiere como estimador AGLS de mínimos cuadrados generalizados arbitrarios. Se
Los tres métodos de estimación de parámetros anteriormente mencionados basa en el método de estimación GLS y en el cálculo de la matriz general de pesos (W).
(ULS, GLS y ML) son los más comúnmente utilizados (,,:,est, Fmch y curran: Al emplear la matriz general de pesos, comparte las mismas limitaciones del pro-
1995). Comparten supuestos básicos y proporcIOnan eS(¡m~ClÜnes SImilares, es cedimiento de estimación WLS. En diversos estudios se ha comprobado que ADF pre-
ecialmente cuando la muestra es elevada. Pero, no son las umcas o~c~ones ~e es- cisa de tamaños muestrales muy elevados para una realización adecuada del estadístico
fimación de parámetros posibles. La mayoría de los programas estadlstIcos anaden :i (West, Finch y Curran, 1995). Cuando el tamaño muestral es pequeño o moderado,
a estos tres métodos básicos algunas de sus variantes. A modo de,eJemplo, enle~pr~~ ADF genera estadísticos :i muy elevados, lo cual, como se verá en el apartado 6.7, re-
grama LISREL (destacado por ser el más popular en la realizacI~n del mode.a o percute negativamente en el ajuste del modelo empírico con el teórico.
ecuaciones estructurales) se añaden las variantes sigUIentes (Joreskog y Sorbom, En el mismo año, 1984, Muthen propone (en un artículo publicado en el volumen
1989): 49 de la revista Psychometrika) un método de estimación de parámetros alternativo pa-
ra variables continuas/categóricas. Lo llama CVM. Se distingue por emplear un esti-
a) Mínimos cuadrados generalmente ponderado (WLS). Se define comO una fun- mador de mínimos cuadrados ponderados, cuya función de ajuste es la siguiente:
ción más general para ajnstar estructuras de covananzas.
,,' -1 "
FCVM = (S - J:) W (S - J:)
FWLS = (s - ay W- 1 (s - a)

de ' "s" -- (s11' s21'" s)


D on. kk
es nn vector de los elementos en la mitad inferior, in-
. "S" d den "k x La limitación principal de este último método de estimación de parámetros es que
cluyendo la diagonal de la mitad de covananzas e or precisa, igualmente, de tamaños muestrales elevados. Por lo menos, de 500 a 1.000 ca-
k" utilizadas para ajustar el modelo a los datos. sos, dependí_endo de la complejidad del modelo.
" _( cr. cr. a)" es el vector de los elementos correspon-
(J- 0'11,0"21' 22' 31 , •. kk ~ dI dio
dientes de "f" reproducidos de los parametros e mo e . • Respecto al proceso de estimaci6n, los parámetros pueden calcularse de forma
"directa", en una sola muestra, o mediante procedimientos secuenciales que resultan
En su contra está la necesidad de que el tamaño muestral s.ea elevado de la extracción de muestras repetidas de una misma muestra original. En este segundo
(para calcular momentos de orden 4). A lo que se suma la gran cantidad de me- grupo se encuentra el ya referido método "Jackknife", el método de simulaci6n yellla-
moria de ordenador que precisa su realIzaCión. mado "bootstrapping" (o proceso de estimaciones múltiples).
b) Mínimos cuadrados diagonalmente ponderados (DWLS): Se presenta c~:~~~~ De estos tres procedimientos, tal vez sea el llamado "bootstrapping" el más no-
alternativa al método anterior cuando el número d~ vanables es e~evad'~' ue vedoso. Fue propuesto por Efron en 1979 ("Bootstrap methods: another look at the
túa entre los métodos ULS y WLS. La función de ajuste en DWL se ;~ lllg Jackknife", Annals of Statistics, 7: 1-26) para evaluar la distribución de muestreo de los
de las demás en que se basa en el cálculo de las "varianzas asmtóllcas de los parámetros estimados. Muestra especial utilidad en la estimación de los errores típi-
coeficientes estimados.
556 Análisis multivariable. Teoría y práctica en la inveszigaóón sociaL Capitu.lo 6: Ecuaciones eSlruclurales 557

cos de los parámetros y para la comparación de modelos. Para esto último, el proceso El coeficiente estandarizado se obtiene de la multiplicación del coeficiente no
de estimación incluye cuatro pasos principales: estandarizado por el cociente entre la desviación típica de una variable explicativa y
la desviación típica de la variable que afecta. Los coeficientes estandarizados se sue-
1. Se generan varias muestras "bootstrap", mediante selección aleatoria con len representar acompañados por el sufijo "s". A modo dc ejemplo,
reemplamiento en la muestra original, que actúan como la poblaCión a efectos
muestrales.
2. Se ajusta cada modelo con cada muestra y se calculan las discrepancias entre los
momentos de población y los implicados por el modelo (las vananzas Y cova-
rianzas después de la estimación de los parámetros). Para dIcho ajuste puede ull-
lizarse el método de estimación ADE Donde: "i" indica la variable efecto o dependiente y "j", la variable explicativa o
3. En cada modelo se calcula el promedio de las discrepancias. independiente (Bollen, 1989).
4. Se elige el modelo cuya discrepancia promedio sea más pequeña.
Mediante el procedimiento Jackknife también se extraen muestras diversas de la La solución estandarizada suele obtenerse después de que el modelo se ha ajustado
muestra original (que igualmente actúa a modo de población). El número de muestras conl~s variables medidas en su métrica original. Normalmente, se prefiere este tipo de
extraídas está detenninado por el tamaño de la muestra origiual. Como es característIco solUCIón a la no estandanzada, por la razón antes mencionada. No obstante, se enfrenta
de los procedimientos Jackknife, cada vez que se extrae una muest:a: se omIte un ca- a un límite importante: "Los errores típicos para los coeficientes estandarizados ob-
so diferente (N -1). Ello favorece la identificación de los casos atiplcOs, medIante la tenidos cuando se analiza la matriz de correlación generalmente no son correctos, y en
comparación de los parámetros estimados cuando se excluye el caso concreto respecto la mayoría de los casos los coeficientes estandarizados no deberían comprobarse pa-
ra la equivalencia a través de diferentes grupos" (Bollen, 1989: 350).
a cuando es incluido.
Por último, lo que diferencia al procedimiento de simulación de los dos anteriores . A favor de la solución no estandarizada destaca, principalmente, que sus coefi-
es el poder cambiar ciertas características de las muestras durante el proceso de ex- cIentes (que pueden acompañárseles con el sufijo "d") indican los efectos de diversas
tracción de nuevas submuestras. variables en las unidades de medieión originales. A esto se añade que las predicciones
de las variables endógenas pueden calcularse teniendo en cuenta el valor del intercepto,
como en regresión lineal (Saris y Stronkhorst, 1984).
6.6.5. Solución estandarizada y no estandarizada Los coeficientes no estandarizados sólo pueden interpretarse con referencia a la
unidad de medición de las varíables iinplicadas. Indican el cambio de unidad en la va-
A semejanza de otros procedimientos analíticos, el investigador deberá decidir si riable efecto por cada cambio de unidad en la variable predictora, estando todas las de-
las estimaciones de los parámetros serán estandarizadas, na estandanzadas o ambas. más variables predictoras en su media.
A efectos comparativos, se prefiere la solución estandarizada. Lo habItual es que el con- En resumen, el investigador deberá elegir entre ambos tipos de soluciones, sope-
jnnto de variables a analizar contenga distintas unidades de me~ición. Por ejem~l~, se sando las ventajas e inconvenientes de cada opeión. Habitualmente, en el modelado de
compara la influencia de variables como "edad" (medIda en anos cumphdos), mvel ecuaciones estructurales "los tests y comparaciones qe las estimaciones de los pará-
educativo" (último cursO académico completado) y "ocupación". (tipo de t~abajo) en metros implican estimaciones no estandarizadas, mientras que la presentación de
"ingresos" (medido en euros). La inclusión de variables en dlstll1tas umdades de resultados con frecuencia implican estimaciones estandarizadas" (Hoyle, 1995: 9).
medición dificulta la comparación de sus efectos en otras vanables, a menos que
previamente se haya optado por la "estandarización" (la transformación de las va-
riables a unidades "z" o uuidades de desviación típica). t=JEMPLODEESTIMACION OEPARÁÚETROSEN UNÍVlOPr=LO
La estandarización permite que los efectos de unas variables en otras tengan una iu- Or=.ECUACIONr=SESTRUCTURALES . . . .
terpretación similar a los coeficientes beta en regresión lineal. Los coeficientes estanda-
rizados iudican el cambio, expresado en unidades de desviación típica, en la variable efec-
to provocado por el cambio de una unidad de desviación típica en la variable predictora El método de máxima verosimilitud ha sido el utilizado para la estimación de los pa-
o ~ausal, manteniendo constante las demás variables de la ecuación. E~to es, están en ce- rámetros "libres" por varias razones. Primero, porque el programa Amos (versión 4.0) no
ro al ser ésta la media de una variable estandarizada o tipificada. De esta forma, se fa- estima medias o pruebas de hipótesis sobre medias con ningún otro método de estima-
v¿rece la comparación de los efectos causales relativos de varias variables explicativas. ción. Especialmente, cuando hay casos "sin respuesta" en una o varias de las variables
558 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 6: Ecuaciones estructurales 559

de interés. Como los datos aquí analizados contienen caso~ ~in re$pue~ta: .1a aplic~clón de La interpretación de estos coeficientes es la misma que en regresión lineal. Indican el cam-
la ropuesta de Anderson de realizar estimaciones de maxlma veros/r;lIlitud de mforma- bio (en unidades de desviación típica, si el coeficiente es estandarizado; en su unidad de me-
ciJ'n plena (FIML) exige el cálculo de las medias e interceptas, que sol~ es faclible me- dición original, cuando es no estandarizado) que se produce en la variable a la que apunta
,
diante el procedimiento - '
de maxlma ' 'I't ud . Adema's . éste es el metodo
veros/m/I , de estlma- la flecha por cada unidad de cambio en la variable de la que sale, manteniendo las demás va-
ción de parámetros aplicado por defecto en el programa Amos. Recuerdese que su uso riables constantes. Así sucede en los parámetros gamma (que relacionan las variables latentes
. I l" to de tres supuestos básicos: normalidad, homocedastlcldad exógenas "rango social" y "mentalidad" con las latentes endógenas "sociabilidad con ma-
correcto eXige e cump Imlen .. d i '
e independencia de los residuos. Su cumplimiento favorece la obtenclon e conc uSlones rroquíes" y "actitud ante la inmigración") y beta (que relacionan entre sí a las variables latentes
asintóticas (es decir, de conclusiones probablemente ciertas en muestras grande:). Pa- endógenas "sociabilidad con los marroquíes" y "actitud ante la inmigración") del modelo es-
ra la comprobación de dichos supuestos y otros destacados enel apartado 6.2, vease,lo tructural.
dicho al respecto en el apartado 1.1 (porque se analizan las mismas vanables). Lo mis- Los parámetros lambda, que relacionan las variables observadas con las latentes (por
mo cabe decir de la matriz de correlaciones (subapartado 1.3.2). ejemplo, "estudios" con "rango social"), expresan, como en el análisis factorial, la magnitud
En el ejemplo del subapartado 6.4 se incluyeron los diagramas de sendero de entrada de cambio esperado en la variable observada por una unidad de cambio en la variable latente.
(figura A) y de salida de las soluciones estandarizadas (figura C) Y no estandanzadas d.el Como ya se indicó, estos coeficientes también se asemejan a los de regresión para los efec-
modelo "inicial" (figura B). También se proporcionó el diagrama de sendero de la SOIUClo~ tos de las variables latentes en las observadas.
estandarizada del modelo "final" (figura D). Se remite a su vlslan para co~probar a que Además, como en regresión, las estimaciones de los parámetros no estandarizadas pre-
corresponden las cifras en él incluidas y que a continuación se exponen. Se Insiste en que sentan el inconveniente de estar demasiado afectadas por la unidad de medición de las va-
los datos corresponden exclusivamente al modelo finalmente aceptado, aquel que excluye riables, a lo que se suma la influencia de la elección de las restricciones de identificación. Por
la relación recíproca entre las variables latentes endógenas "sociabilidad con marro- todo ello, se recomienda el uso de los pesos o coeficientes de regresión estandarizados ("stan-
quíes" y Hactitud ante la inmigración". . . " dardized regression weights"). Al igual que sucede con las correlaciones, que al ser estan-
La tabla A contiene los coeficientes de regresión ("regresslon welghts ), ta~to ~s­ darizadas, son independientes de las unidades de medición original de las variables, lo que
tanda rizados como no estandarizados. Aunque la salida original del pro~rama esta en In- incide en que tampoco se vean afectadas por la elección de las restricciones de identificación.
glés, se ha decidido traducirla al castellano para facilitar su comprenslon. En el modelo analizado, la única correlación considerada implica a dos variables laten-
tes exógenas: "mentalidad" y "rango social". Su correlación es negativa y leve: -0,130.
Los coeficientes estandarizados del modelo estructural son, en general, bajos. La in-
fluencia más elevada detectada es la de la variable latente endógena "sociabilidad con
marroquíes" con la también latente endógena "actitud ante la inmigración", y de signo posi-
Tabla A. Coeficientes de regresión estandarizados Y no estandarizados tivo: ,23. La "actitud ante la inmigración" mejora en ,23 unidades de desviación típica conforme
aumenta la "sociabilidad con marroquíes" en una unidad de desviación típica. En cambio, el
Coeficientes no estandarizados Coeficientes Etiqueta"" efecto de la variable latente exógena "mentalidad" en la latente endógena "actitud ante la in-
Senderos C,R. estandar.
Coeficiente S,E. migración" apenas es perceptible: ,04. La incidencia de la variable latente exógena "rango so-
0,026 -5,343 -0,135 par-11 cial" en la variable "actitud ante la inmigración" es, por el contrario, negativa y leve: -,118. Sig-
Sociabilidad marroquí ~ rango socia! -0,139 par-12
0.037 4,450 0.162 nifica que la "actitud ante la inmigración" es negativa, o más desfavorable, conforme
Sociabilidad marroquí ~ mentalidad 0,166 par-13
0.026 1.593 0,039 aumenta el "rango social" de los encuestados, aunque se insiste en su leve incidencia.
Actitud inmigración o(- mentalidad 0,041 par-14
0,025 9,426 0,230
Actitud inmigración ~ sociabilidad marroquí 0,234 par-15 Respecto al modelo de medición, se observa que los coeficientes lambda son superiores
0,023 -5,287 -0,118
Actitud inmigración ~ rango socia! -0,123
0,837 a los gamma y beta. De manera especial, en los indicadores escogidos como ''variables de re-
Estudios ~ rango social 1.000 par~1
2.714,249 21,517 0,556 ferencia" de las variables latentes respectivas, como era predecible. El coeficiente más bajo
Ingresos ~ rango social 58.402,362 par·2
0,429 -23,152 -0,550
Edad ~ rango social -9,939
0,514
corresponde a la relación entre las variables latentes "actitud ante la inmigración" y "partido po-
Ideología política ~ mentalidad . 1,000 lítico": ,503, El más elevado (,940) se da entre la variable latente "sociabilidad con marroqures"
0,940
Casar marroquí t- sociabilidad marroqul , 1,000 par~3
0.437 0.018 24,946 0,648 y el indicador tomado de referencia "casar con marroquf'. Si se comparan los coeficientes lamb-
Vecino marroquí ~ sociabllidad marroqUl -0.549 par-4
-20,682 da con los coeficientes (rotados) obtenidos en los análisis de factor común (capítulo 5), podrá
Simpatía marroquí -E-- sociabilidad marroquí
Entrada inmigrantes o(- actitud inmigración
-1,484
1,000
0,072

0,039 -19,690
0,927
-0,664 par-5
I¡ observarse que la magnitud del cambio esperado en las variables observadas por una unidad
leyes inmigración o(- actitud ¡n.m¡g~aci?n . , -0.758 par-6 de cambio en la variable latente respectiva, aunque sin ser obviamente "exacta", guarda bas-
-0,318 0,014 -22,122 -0,670 i
Regularizar inmigrantes ~ actitud tnmlgraclon 0,604 par-7
0,408 0,023 17,995 tante relación con las saturaciones obtenidas en el análisis factorial.
N." inmigrantes t- actitud inmigración 0,608 par-8
0,323 0,017 19,058 La tabla A también informa de los errores típicos (S. E.) de los coeficientes no estanda-

I
Inmigrante delincuente t- actitud inmigración 0,503 par*9
0,297 0,020 14,681
Partido racista ~ actuud inmigración rizados estimados. Como en regresión, éstos son de utilidad en la comprobación de la
" ' significatividad de los coeficientes estimados y en el cálculo de los intervalos de confianza.
'Etiqueta que pone el programa para Ident1flcar al sendero en ana!lsls postaflores.
Véase lo dicho al respecto en el subapartado 1.4.2.
I
1
l
560 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 6: Ecuaciones estrucrurales 561

"C.A." son las razones críticas, que se definen como el cociente del "coeficiente no es- Tabla C. Varianzas y ca varianzas
tandarizado I error típico", al igual que la t de Student. Su uso exige el cumplimiento del su- - "-
puesto de normalidad. Mediante dichas razones se comprueba la hipótesis nula de que el coe- Variables Estimación S. E. e.R. Etiqueta
ficiente estimado en la población es cero. Su uso se considera "correcto", cuando la muestra "

analizada es grande. "La prueba t es exacta bajo los supuestos de normalidad e indepen- Varianzas:
dencia de las observaciones, indistintamente del tamaño de la muestra. La prueba basada en deltal 0,428 0,035 12,112 par-29
la razón crítica de Amos depende de los mismos supuestos, pero con una muestra finita la delta2 7,61e+009 3,02e+008 25,190 par-30
prueba sólo es aproximada" (Arbuckle y Wothke, 1999: 75). delta3 228,091 8,106 28,138 par-31
Como todas las razones cn1icas superan los valores de referencia de ± 1,96 (para un nivel delta4 2,790 0,125 22,244 par-32
eps1 0,138 0,031 4,449 par-33
de significación de ,05) e, incluso, ± 2,576 (para un nivel de significación de ,01), puede afirmarse,
eps2 0,278 0,011 25,608 par~34
con una mínima probabilidad de error en la inferencia, que los coeficientes estimados son es- eps3 5,385 0,191 28,126 par-35
tadísticamente significativos. Las relaciones propuestas entre las variables son ciertas. eps4 0,179 0,017 10,727 par-36
Adviértase que la tabla A no incluye los senderos correspondientes a los términos de per- eps5 0,792 0,031 25,225 par-37
turbación ("sociabilidad <-- zeta1" y "actitud <-- zeta2") porque en la especificación del mode- eps6 0,135 0,005 28,043 par-38
lo se fijó en 1,O (el valor utilizado por defecto por el programa Amos). eps7 0,315 0,011 28,179 par-39
La tabla B incluye las estimaciones de los interceptos, que también son "no estandari- eps9 0,284 0,009 31,540 par-4O
zadas". Se calculan sólo para las variables observadas y se utilizan para las predicciones de eps8 0,193 0,007 28,810 par-41
las variables endógenas, añadiéndose a las ecuaciones respectivas Ounto a los coeficientes
de regresión no estandarizados), como se hace en regresión lineal. Obsérvese que todos los Covarianza:
mentalidad H rango social -D,130 0,051
interceptos son estadísticamente significativos, a decir por sus elevadas razones críticas, -2,528 par~10

Tabla B. Interceptas
Las varianzas y covarianzas se ínc1uyen en el díagrama de sendero de la solución no es-
tandarizada. Para,constatarlo, se adjunta el susodicho diagrama (figura A). En él aparecen
Variables Intercepto S. E. e.A. Etiqueta
las varianzas detras del punto y coma que acompaña a la media. Por ejemplo, en la variable
Estudios 2,080 0,025 84,094 par-16 latente exógena "eps5", el parámetro 0;,79 indica su "media;varianza" estimadas por el
Ingresos 1,46e+005 2.403,326 60,627 par-17 método de máxima verosimilitud. El gráfico también incluye los interceptas (encima del
Edad 44,936 0,362 124,054 par-18 cuadrado donde se sitúan las variables observadas) y los coeficientes de regresión no es-
Ideología política 4,678 0,046 101,403 par-19 tandarizados.
Casar con marroquí 1,672 0,022 75,719 par-2O Los coeficientes estandarizados, la correlación (entre las variables latentes exógenas
Vecino marroquí 1,268 0,014 91,142 par-21 "mentalidad" y "rango social") y las correlaciones cuadradas múltiples (situadas encima del
Simpatía hacía marroquíes 5,987 0,058 102,350 par-22
Entrada inmigrantes
cuadrado o esfera que incluye la variable) se encuentran en el diagrama de sendero de la
1,904 0,023 82,620 par-23
Leyes inmigración 2,696 0,027' 99,648 par-24 solución estandarizada (figura O del subapartado 6.4). La tabla O muestra también las
Regularizar inmigrantes 0,754 0,010 72,580 par-25 correlaciones múltiples cuadradas, que indican la proporción de la varianza de las suso-
N,o inmigrantes 2,220 0,015 148,157 par-26 dichas variables observadas que logra ser explicada por sus predictores (variables laten-
Inmigrante delincuente 0,568 0,012 48,461 par-27 tes). Por ejemplo, la variable "casar con marroquí" es la que mayor porcentaje de su va-
Partido racista 1,433 0,013 111,002 par-28 rianza logra ser explicada (88,4%). Le siguen las variables "entrada de inmigrantes"
(85,9%) y "estudios"(70%). Recuérdese que estas tres fueron las variables elegidas como
"variables de referencia" de sus dimensiones latentes respectivas. Las variables endógenas
La tabla C incluye las estimaciones de las varianzas y covaríanzas no especificadas a latentes "sociabilidad con marroquíes" y "actitud ante la inmigración" son las que obtienen un
priori. Recuérdese que las varianzas de las variables latentes exógenas "rango social", "men- menor porcentaje de su varianza explicada por sus predictores: el 5% y el 8,1%, respectiva-
talidad", "zeta1" y "zeta2" fueron fijadas en el modelo teórico (modelo input) en 1 ,O (asu- mente,
miendo que las variables son estandarizadas), para ayudar a que el modelo fuese identifi- Como los modelos de ecuaciones estructurales incluyen un modelo de medición, también
cado. Todas las varianzas, al igual que la covarianza, son estadísticamente significativas. se calculan las puntuaciones factoriales, como en el análisis factorial. La tabla E informa de
Las elevadas razones críticas permiten rechazar la hipótesis nula de que las covarianzas y los pesos de las puntuaciones factoriales ("factor score weights"), calculados a partir de la ma-
varianzas sean cero en la población, con una probabilidad prácticamente nula de errar en triz de varianzas-covarianzas, después de haberse realizado la estimación de los parámetros
la inferencia. "libres" por el método de máxima verosimifitud (las mejores estimaciones obtenidas sin realizar
562 Análisis multivariable. Teoría y práctica en la investigación social
CapituLo 6: Ecuaciones estructurales 563

Tabla D. Correlaciones múltíples cuadradas


O; ,43 O; 7612259000,00 O; 228,09
Variables Estimación

Sociabilidad marroquí 0,050


Actitud inmigración 0,081
Partido racista 0,253
Inmigrante delincuente 0,369
N.o inmigrantes 0,365
O; 1,00
Regularizar inmigrantes 0,448

-,14
8 etill

1
o
1,00
Leyes inmigración
Entrada inmigrantes
Simpatía marroquí
0,441
0,859
0,301
Vecino marroquí 0,420
Casar con marroquí 0,884
-,13
Ideología política 0,264
Edad 0,302
Ingresos 0,309
Estudios 0,700

Tabla E. Puntuaciones factoriales

Variables Rango social Mentalidad Sociabilidad Actitud


marroquí ínmígrac,

Partido racista -0,003 0,004 0,003 0,111


Inmigrante delincuente -0,005 0,006 0,005 0,177
N,o inmigrantes -0,004 0,005 0,004 0,137
Regularizar inmigrantes 0,008 -0,009 -0,006 -0,249
,32
Leyes inmigración 0,003 -0,003 -0,003 -0,101
O; 1,00 Entrada inmigrantes -0,018 0,020 0,015 0,593
zeta2 SimpC!.tía marroquí 0,001 -0,003 -0,029 -0,001
Vecino marroquí -0,005 0,019 0,168 0,004
Casar marroquí -0,023 0,088 0,773 0,020
Ideología política -0,006 0,256 0,004 0,001
Edad -0,010 0,001 0,000 0,000
Ingresos 0,000 -0,000 -0,000 -0,000
Estudios 0,548 -0,042 -0,007 -0,007
Figura A. Solución no estandarizada del modelo final.

ningún supuesto de igualdad). En la tabla original, las variables latentes se ubican en las fi-
las, mientras que las observadas en las columnas. Para facilitar su interpretación aquí se op- 6.7. La evaluacióu del modelo
ta por la disposición contraria de las variables: las latentes en las columnas y las observadas
en las filas. En consecuencia, para obtener la puntuación de una persona en cada variable A la estimación de parámetros le sigue la evaluación del modelo empírico, Ésta no
latente habrá que realizar una suma ponderada de los valores que dicha persona presente se limita sólo al componente estadístico. En el modelado de ecuaciones estructurales
en las variables observadas, util'izando todos los pesos dispuestos a lo largo de la columna adquiere un elevado protagonismo el componente teórico. El modelo ha de tener sig-
respectiva.
564 Análisis multivariable. Teoría y práctica en fa investigación social Capitulo 6: Ecuaciones estructurales 565

nificado lógico-sustantivo, además de ser estadísticamente significativo. Para ello se to- Desde el punto de vista estadístico, se comprueba la existencia de alguna estima-
ma como referente el modelo teórico inicial (modelo input), cnya consistencia se ha ción considerada "no" razonable estadísticamente, sea el caso de coeficientes estan~
comprobado empíricamente. darizados o correlaciones superiores a 1,0, y de varianzas de los términos de error ne-
La evaluación del modelo conlleva operaciones varias, que pueden resumirse en gativas y/o no significativas. La significatividad de los parámetros estimados se
las signientes: comprueba mediante los valores t (o las razones críticas), que se obtienen dividiendo
el parámetro o coeficiente estimado por el error típico de dicho parámetro:
1. Comprobar si el modelo cumple los supuestos básicos que garantizan la correcta
realización del modelado de ecuaciones estructurales.
2. Detectar la existencia de estimaciones "erróneas", porque exceden los lími-
tes comúnmente aceptables. A modo de ejemplo, se consideran estimaciones
erróneas las siguientes (Long, 1983; Hair et al., 1992, 1999; Jaccard y Wan,
1996): Donde: "Pi" es el parámetro estimado y" epi" (o" (¡p, ") es el error típico de la es-
timación.
- Varianzas de los términos de error negativas o no significativas para cualquier
constructo. El error típico muestra la adecuación de los valores de los parámetros (libres) esti-
Correlaciones y coeficientes estandarizados mayores de 1. mados. Su valor suele estar expresado en la misma unidad de medición de la variable re-
Estimaciones de parámetros irrazonablemente elevadas o bajas, lo que tam- ferida, al calcularse respecto a los parámetros no estandarizados. Interesa que el error sea
bién indica que algo se ha hecho mal. Asimismo, es importante examinar el bajo, pero no próximo a 0,0, porque expresaría mayor correspondencia entre el modelo
signo de los parámetros; si tiene o no sentido lógico-sustantivo. estimado y el correspondiente a la población de interés. Ello se materializa en valores t ele-
Errores típicos muy elevados o bajos. Por ejemplo, errores típicos próximos vados, con la consiguiente significatividad estadística del parámetro estimado.
a cero suelen obtenerse cuando existe una dependencia lineal del parámetro Los parámetros son significativos cuando superan un detenninado valor, dado por
respecto de otro en el modelo. un nivel de significación específico. El más usual es a = ,05. A este nivel de significa-
ción, el estadístico de comprobación "t" (para más de 120 grados de libertad) ha de ser
3. Examen de los casos atípicos, debido a su incidencia en la obtención de esti- > ±1,96 para que pueda rechazarse la hipótesis nula de que el parámetro es igual a O.
maciones erróneas. Si el valor t empírico se sitúa entre -1,96 y +1,96, el parámetro estimado no es signi-
4. El ajuste del modelo global: los índices de ajnste. ficativo estadísticamente. Esto significa que la desviación de cero es tan peqneña
5. La evaluación del modelo de medición: su validez y fiabilidad. que se podría haber producido por fluctuación aleatoria en los datos. En consecuen-
6. La evaluación del modelo estructural. cia, si estos parámetros "no significativos" se fijan en cero, esto no repercutiría en un
ajuste significativamente peor del modelo.
Cada uno de estos apartados debe comprobarse antes de proceder a la aceptación Ante estimaciones de parámetros no significativas, las actuaciones posibles van des-
o rechazo del modelo empírico. La detección de cualquier anomalía lleva inevitable- de su permanencia a su exclusión del modelo, y si dicha eliminación debería llevarse
mente a la búsqueda de solución para la conclusión exitosa del análisis. En los sub- a efecto de forma simultánea o por pasos. La recomendación más dada (Saris y
apartados siguientes se detallan estos y otros aspectos relacionados, a excepción de los Stronkhorst, 1984) es hacerla "paso a paso", debido a que la eliminación de un pará-
supuestos básicos, ya tratados en el apartado 6.2. metro en un paso anterior puede convertir a un coeficiente inicialmente "no signifi-
cativo" en "significativo", en un paso posterior. La única consideración, de aplicarse
esta aproximación secuencial, es el orden a seguir en la eliminación pausada de los pa-
6.7.1. Estimaciones erróneas rámetros no significativos.
Ante errores típicos elevados (que suponen la no significatividad estadística del coe-
La comprobación de si ha habido alguna estimación "errónea" supone el examen ficiente estimado: valores t no significativos), hay que comprobar si se deben al tamaño
de los valores de los parámetros, su signo y sus errores típicos. Este examen nO se limita muestra!. Existe una correspondencia directa entre el tamaño da la muestra y el
al referente estadístico. También interviene el lógico-sustantivo. "Las estimaciones de error típico. El error tiende a aumentar conforme desciende el tamaño de la muestra.
parámetros deberían tener el tamaño y signo correcto de acuerdo con la teoría o es- En consecnencia, una posible actuación es aumentar el tamaño de la muestra yob-
pecificaciones a priori" (Joreskog y Sorbom, 1993c: 121). servar su incidencia en el error típico.
566 Análisis multivariable. Teoría y práctica en la investigación. social Capítulo 6: Ecuaciones estructurales 567

Pero, también se ha de tener presente que aun en tamaños muestrales grandes (in- a) Si éstas se deben a una mala especificación del modelo, habrá que intentar re-
cluso superiores a 400 casos) pueden obtenerse errores típicos no propios. Esto es más especIÍlcarlo a partir del conocimiento que se tenga del tema analizado.
probable que acontezca cuando se analiza la matriz de correlación y no la mattiz de va- b) La presencIa de casos atípicos debe comprobarse antes de comenzar los análisis.
rianzas-covarianzas, como muestra Bollen (1989). Ésta es otra de las razones por EspeCIalmente, cuando el tamaño de la muestra es pequeño.
las queserecomienda analizar la matriz de varianzas-covarianzas con preferencia a la e) De b~uestraconvtene saber. cuál es el procedimiento que se ha seguido en la
de correlación. eleccIon de las umdades muestrales. Se precisa que éste sea aleatorio. También
Pese a ello, hay que advertir que a veces la matriz de varianzas-covarianzas es ina- se ha de fIpr en el t~maño de la muestra. Como comprobaron Anderson y Ger-
propiada para la estimación de parámetros. Esto sucede cuando la matriz de varianzas- brng (1984), las varl~nzas de los térmrnos de error negativas son más probables
covarianzas se calcula tras la eliminación "pairwise" de los casOS sin respuesta. Como en muestras pequenas y cuando sólo existen dos indicadores por variable la-
argumenta Long (1991: 62): "Cuando los missing data son un problema, los investi- tente. Estos autores recomiendan que el tamaño muestral supere las "150" uni-
gadores con frecuencia elaboran matrices de correlación o covarianza utilizando los da- dades y que se conSIdere, como mínimo, tres indicadores por variable latente.
tos disponibles para un par dado de variables, calculan la covarianza o correlación en-
tre aquellas dos variables. Como resultado, cada covarianza o correlación se basa en
una muestra diferente. Esto puede llevar a una matriz de covarianza que sea inapro- 6.7.2. La detección de los atípicos: el análisis de los residuos
piada para utilizar en la estimación".
Ante la existencia de correlaciones o coeficientes estandarizados superiores a 1,0, Antes de tomar alguna decisión que lleve a la modificación del modelo original se re-
una solución posible puede ser la eliminación de una de las variables implicadas. c~o.nnend~,co:n:pro~ar la existencia de "atípicos". Como en cualquier procedimien;o ana-
Asimismo, ante la presencia de varianzas de los términos de error negativas (también litrco, lo~ atrplCo~ son casos que no han quedado bien reflejados o retratados en el mo-
conocidas como casos "Heywood"), un remedio habitual es ajustar dichas varianzas a delo estrmado. Llamense ca~os discrepantes, de valores extremos, que se distancian de la
un valor muy pequeño; con frecuencia, ,005. Aunque, como reconocen Hair et al. (1992: pauta observada en la :nayona de los casos. Entre las causas posibles a su existencia destacan
447), este remedio "sólo enmascara el problema latente y debe considerarse cuando las debIdas a sus propIas características (casos "atípicos", extraños en la población de es-
se interpretan los resultados". tudio) o a hechos externos a lo~ nnsmos. (errores en el registro de la respuesta, ya sea en el
Dichas varianzas pueden detectarse en la diagonal principal de la matriz estima- momento en que se recaba la rnfonnaclón, en su grabación informática o en el análisis).
da Él•. Su existencia puede deberse a uno o varios de los aspectos siguientes: La presencIa de "atípicos" incide negativamente en los resultados del análisis. Es-
peCialmente, cuanto mayor es su proporción en relación con la muestra analizada En-
a) Un modelo con problemas de especificación, aunque el ajuste global del modelo tre sus efectos negativos resaltan: .
sea correcto.
b) Una muestra con problemas de representatividad. a) Aum~nta la probabilidad de obtener estimaciones erróneas: errores típicos y es-
c) La inclusión de una proporción elevada de casos atípicos. tImaCIones de parámetros con valores inesperados o "raros"
b) Peor ajuste del modelo global. .
Al remedio anteriormente señalado a la existencia de varianzas negativas en los tér-
minos de error, hay que añadir otras reacciones posibles, aunque éstas tampoco logran En su de~ección se recurre a los procedimientos de uso común en cualquier mo-
eliminar la causa del problema. Bollen (1989) apunta las siguientes: dahdad anahtlca. Véase lo dicho al respecto en capítulos precedentes como, por
ejemplo, en el subapartado 1.5.4, referido a:
a) Reestimar el modelo con una restricción de desigualdad en la diagonal de la ma-
triz estimada Él8 de forma que ninguna de las varianzas sea negativas. Algunos Gráfic~s univariables, bivariables y multivariables que permiten identificar ca-
programas estadísticos, como EQS, imponen esta restricción de forma auto- sos alejados (a vanas unidades de desviación típica) de la media de la distribu-
mática. ción muest~al. Se recomienda seguir una aproximación gradual, comenzando por
b) Eliminar las variables con varianzas negativas. gráfiCOS ~mv~nables (de cada vanable por separado) y finalizar con algún grá-
c) Iguorar el valor negativo y considerarlo esencialmente cero. fiCO multrvanable.
Estadísticos que miden la distancia de una forma precisa. Por ejemplo, la dis-
Pero, ante todo, lo que debe hacerse es indagar en los factores que pueden provocar tancia de Mahalanobls (ya expuesta en los capítulos 3 y 4).
estimaciones "impropias": ReSIduos brutos y /0 estandarizados.
568 Análisis multivariable. Tearia y práctica en la investigación social Captfulo 6: Ecuaciones estructurales 569

En el modelado de ecuaciones estructurales los residuos se obtienen de la diferencia nes p~dres-hijos en la población universitaria podría encontrarse que los "atípicos"
en1re la matriz de varianzas-covarianzas muestral ("S") y la predicha en el modelo comclden con personas mayores de 50 años, que comienzan o prosiguen sus estudios
("2:"). Si esta diferencia se divide por el error típico estimado de la diferencia, se oh- universitarios. Si éstos han quedado excluidos de la muestra finalmente analizada, ha-
tienen los residuos estandarizados. Esta definición de residuo estandarizado es la brá también qne excluirlos de las conclusiones del análisis En consecuencia, habrá que
aplicada en el programa LISREL, pero no en otros programas alternativos como EQS. diferenciar a la población universitaria mayor y menor de 50 años.
En este último programa, el residuo estandarizado se define en términos de la dife- La redefinición de la población de interés y la reespecificación consiguiente del mo-
rencia entre el coeficiente de correlación predicho y el observado. delo se incluyen entre los tratamientos posibles a la presencia de "atípicos", depen-
Generalmente, se prefieren los residuos estandarizados a los no estandarizados por dIendo de su fuente. Pero, antes de optar por alguno de estos u otros remedios, hay que
sn mayor facilidad de interpretación. Se asemejan a puntuaciones "Z": unidades de des- comprobar si los "atípicos" se deben a un error de registro de información. Esto lleva
viación típica por encima (si su valor es positivo) o por debajo (cuando es negativo) de al examen de la matriz de datos e inclusive de los cuestionarios u otro documento don-
la media. En cambio, los residuos brutos dependen de la unidad de medición de la de inicialmente estuviese registrada la información. Cualquier error de grabación
variable correspondiente, lo que dificulta bastante su interpretación. ¿Cómo puede con- de los datos deberá corregirse, si se dispone de información que avale las modifica-
siderarse al residuo "grande" o "pequeño", si las varianzas de las variables varían ciones efectuadas. En caso contrario, habrá que optar por alguno de los remedios an-
considerablemente de una variable a otra? Este problema no se observa en los residuos tes referidos en este capítulo y en otros precedentes.
estandarizados, cuya métrica común ayuda a la comparación entre ellos y a calibrar su
tamaño.
En suma, para la detección de "atípicos" mediante el análisis de residuos se re- 6.7.3. El ajuste del modelo global: los índices de ajuste
comienda el empleo de residuos estandarizados. La razón principal es que el tamaño
del residuo se ve muy afectado por la escala de medición de las variables. Aquellas va- A la comprobación de estimaciones errÓneas y de atípicos le sigue la evaluación del
riables de mayor varianza son, asimismo, las más probables a tener residuos elevados. modelo obtenido en su conjunto. Se quiere comprobar su "ajuste" global a los datos
Por otra parte, interesa que los residuos estandarizados sean pequeños en magni- observados. Como ya se ha dicho, el modelado de ecuaciones estructurales arranca de
tnd. La existencia de residuos estandarizados elevados (ya sean negativos o positivos) un modelo teórico, que se piensa puede explicar las varianzas y covarianzas entre una
se relacionan COn modelos que ajustan mal. En concreto: "Un gran residuo positivo in- serie de variables. A partir de este modelo se derivan una serie de coeficientes que re-
dica que el modelo subestima la covarianza entre las dos variables. Un gran residuo ne- producen, lo mejor posible, las varianzas-covarianzas observadas. Estas varianzas y co-
gativo indica que el modelo sobrestima la covarianza entre las variables. En el primer varianzas "predichas" se comparan después con las inicialmente "observadas". A
caso se debería modificar el modelo añadiendo senderos que pudiesen explicar mejor tal fin, a cada celdilla de la matriz predicha se le resta la celdilla correspondiente de la
la covarianza entre las dos variables. En el segundo caso, se debería modificar el matriz observada. De esta manera se obtiene la matriz residual. Cuantos más ceros ten-
modelo eliminando senderos que estén asociados con la covarianza concreta" (Jóreskog ga esta matriz, mejor es el ajuste del modelo. Una matriz residual de ceros indica un
y Sórbom, 1993c: 127). "ajuste" perfecto, lo cual significa que ambas matrices de varianzas-covarianzas (la ob-
En la interpretación de los residuos hay que valorar que éstos (inclusive los es- servada y la predicha) coinciden totalmente. Por el contrario, la no igualdad de ambas
tandarizados) se ven afectados por el tamaño de la muestra. Jaccard y Wan (1996) cons- matrices indica inexistencia de "ajuste" global del modelo empírico respecto del teó-
tatan que los tamaños muestrales elevados tienden a producir residuos también ele- rico y su consiguiente rechazo.
vados. Para facilitar la comprobación de la equivalencia o "ajuste" de dichas matrices, se
Las acciones correctivas ante los "atípicos" se relacionan, igualmente, con el ta- han propuesto una amplia variedad de estadísticos. Estos índices de ajuste global
maño de la muestra y la proporción que representan los "atípicos" respecto del total. se agrupan en tres grupos genéricos que se resumen en el cuadro 6.2.
Cuando el tamaño de la muestra es elevado, puede procederse a la eliminación de los
"atípicos" de la muestra de análisis, siempre que ello no suponga una reducciÓn
drástica del tamaño de la muestra. A) indices de ajuste absoluto
Cuando los "atípicos" representan una proporción considerable, debería procederse
a su descripción, a comprobar si comparten unas mismas características y si éstas di- Miden el ajuste global del modelo, considerando las diferencias entre la matriz de
fieren del conjunto de la muestra. El conocimiento de su perfil ayuda a la posibilidad varianzas-covarianzas observada y la predicha (matriz residual). De los fudices incluidos
de generalización de los resuftados de la investigación, que se limita a los casos que fi- en esta clasificación, el de mayor aplicación es el índice ele razón de verosimilitud X',
nalmente conformen la muestra analizada. Por ejemplo, en un estudio de las relacio- el único que proporciona una prueba de significatividad estadística.
570 Análisis muLtivariable. Teoría y práctica en la investigación social Capitulo 6: Ecuaciones estructurales 571

CUADRO 6.2. Índices de bondad de ajusle globales


A.l. Índice de razón de verosimilitud X2

A) Índices de ajuste absoluto Una medida de ajuste global a los datos que puede obtenerse en los métodos de es-
Comprueban el ajuste" global" del modelo de ecuaciones estructurales, inclu~ timación de parámetros ML y GLS. Se define como el producto del valor de la función
yendo sus dos submodelos (estructural y de medición). de ajuste y el tamaño muestral menos unO: "F{N -1)". Quiere esto decir, que el índice
AJ. índice de razón de verosimilitud X2 X2 es (N-l) veces el valor mínimo de la función de ajuste para el modelo especificado.
A.2. Índice de bondad de ajuste (GFl) En el procedimiento de estimación WLS puede aplicarse X2 como índice de ajuste glo-
A.3. Raíz cuadrada de la media de residuos cuadrados (RMSR) bal, cuando se emplea una matriz de ponderación adecuada.
!i A.4. Índice de centralidad (CI) Este índice mide la diferencia entre ambas matrices de varianzas-covarianzas
I
::¡ (observada y predicha). Tiene además la gran ventaja de proporcionar una prueba de
B) indices de ajuste incremental significatividad estadística, que permite conocer si las diferencias registradas en ambas
Más que comparar las matrices de varianza-covarianza (o de correlación) ob-
matrices se deben a variaciones muestrales. A diferencia de otros análisis estadísticos,
servada y predicha, comparan el ajuste del modelo propuesto con u~ modelo base en éste no interesa un valor X2 elevado respecto a los grados de libertad porque, al ser
especificado a priori por el investigador. El modelo base suele refenrse como mO- "significativo" (p'; ,05), supone que el ajuste del modelo empírico al teórico es malo
delo "nulo" (Hair el al. (1992; 1999) o modelo de "independencia" (Hoyle,1995). (la hipótesis nula expresa que el modelo ajusta los datos de la población perfectamente,
,11"''
.Ii' Ambos términos hacen referencia al modelo más senCIllo que pu~da tener JustIfi- mientras que la hipótesis alternativa informa un mal ajuste de los datos). El ajuste es
,í! .
cación teórica, En él, no se especifica ninguna relación entre la,s vanables, '!'odos los perfecto cuando el valor de X' se aproxima a cero.
11i
senderos que relacionan variables se fijan en cero. Sólo se eS:lm~n l~s vananzas de Los grados de libertad dependen del número de variables incluidas en el modelo:
i las variables. A lo más, hay una sola variable latente con vanos mdlcadores que la
,
J]
d; . miden adecuadamente. 1
gl ~ -[(P+q)(p+q+1)]
B.l. Índice de Tucker-Lewis (TU, p" Rho 2) 2
B.2. Índice de ajuste relativo (RFI, PI' Rho 1)
B.3. Índice de ajuste normado (NFI, Al' delta 1) Donde: "p" es el número de variables observadas exógenas.
B.4. Índice de ajuste incremental (IFI, A" delta 2) "q", el número de variables observadas endógena.
B.5. Índice de ajuste comparativo (CPI)
"t", el número de coeficientes o parámetros índependientes estimados en
B.6. Índice de no centralidad relativa (RNI)
el modelo.
C) indices de ajuste de parsimonia
El uso adecuado de este índice de ajuste global exige el cumplimiento del supuesto
Relacionan la bondad de ajuste del modelo ~on el núme~o de, coef~ci~nte~ est~­ de normalidad multivariable y que el tamaño de la muestra supere los 100 casos, pero que
mados, El propósito es equilibrar la bondad de ajuste con la parsImoma o ~lmpl:­ no exceda los 500. En muestras superiores, lo más factible es que el estadístico i resulte
cidad: incluir los menos parámetros posibles. Un modelo es de elevada parslm,oma
significativo, llevando al rechazo de la hipótesis nula, que supone la no aceptación como
cuando tiene relativamente pocos parámetros y, en cambio, muchos grad?s de hber-
tad. Para ello su tamaño muestral ha de ser elevado (ya que los grados de hbertad son válido de un modelo que puede resultar correcto, cuando la muestra es pequeña (Saris
función del tamaño de la muestra y del número de parámetros estimados). y Stronkhorst, 1984; Long, 1983; Jaccard y Wan, 1996). Hair et al. (1992; 1999) sitúan el
tamaño muestral "ideal" entre 100 y 200 casos, para un uso apropiado del estadístico X2
C.l. Índice de ajuste parsimonioso (PFI) Respecto a la normalidad multivariable, se observa que la categorización de las va-
C.2. X' normado riables no afecta mucho, pero sí la asimetría de las distribuciones de las variables ob-
C.3_ Índice de bondad de ajuste ajustado (AGPI) servadas (Saris y Stronkhorst, 1984)_ Si ésta es mayor de 1,25 es más probable que el
C.4. Índice de bondad de ajuste de parsimonia (PGFI) modelo se rechace. Además, "en muestras grandes, las salidas de la normalidad tien-
C.5. Error de la raíz cuadrada media de aproximación (RMSEA) den a aumentar X2 por encima de lo que pueda esperarse debido al error de especifi-
C.6. Criterio de información de Akaike (AIC) cación del modelo" (Joreskog y Sorbom, 1989: 26).
C.7. Estadístico N crítico (CN) Por último, si se considera el procedimiento utilizado para la estimación de los pa-
rámetros, diversos estudios han demostrado que:
572 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 6: Ecuaciones estructurales 573

1. Los estimadores MI. y GLS producen valores X' demasiado grandes en datos junto a la facilidad de su interpretación e independencia del tamaño de la muestra. En
que no se ajustan a una distribución normal. su contra se sitúa la no consideración del número de parámetros empleados para la
2. GLS y, particularmente, MI. generan valores X' elevados en tamaños mucstrales consecucIón de Un buen ajuste, a diferencia de.t.
pequeños, incluso cumpliendo el supuesto de normalidad (Wcst, Finch y Cun'an,
1995). "Con muestras pequeñas, los valores de los estadísticos de comprobación
SOn con frecuencia demasiado grandes, lo que lleva a un rechazo demasiado fre- A3. Raíz cnadrada de la media de residuos cuadrados RMSR
cuente de modelos correctos en tamaños muestrales pequeños" (Saris y Stronk-
horst, 1984: 213). Es la raíz cuadrada del promedio de los residuos cuadrados (entre las matrices de
varianzas-covarianzas [o conelación] observada y predicha), obtenidos bajo el supuesto
Para condiciones de no-normalidad, Satorra y Bentler (1990) proponen el índice de que el modelo es correcto. Jiireskog y Siirbom (1989: 27) lo definen en los términos
siguientes:
de ajuste X' sca/ed. Se obtiene dividiendo el valor X' por la constante "k", cuyo valor
es función de la matriz residual, la curtosis y los grados de libertad del modelo. Este ín-
dice se incluye en programas como EQS.
Sopesando las limitaciones observadas en la aplicación del índice de ~azón de ve- RMSR = [ 2 b ~ (s'i - ét,¡)' j(p + q)(P + q + 1)]X
~ ¡

rosimilitud X', la recomendación más habitual en la literatura especJa]¡zada es no


restringirse únicamente a este índice de ajuste global. Lo deseable es complementar-
Se basa directamente en los residuos. Si éstos se aproximan a O, el valor de
lo con otros índices varios, algunos de los cuales se exponen a continuación.
RMSR será O, lo que significa que el ajuste es perfecto. En general, cuanto más bajo
sea su valor, mejor es el ajuste.
A diferencia de otros índices de ajuste, RMSR suele aplicarse con correlaciones y
A2. Índice de bondad de ajuste GFI
n.o con ~ovanan~as (que dependen de la unidad de medición de las variables). Su fun-
CIOnamIento mejora cuando todas las variables observadas están estandarizadas. En es-
Este índice fue propuesto como una alternativa en la medición del ajuste global del
te caso, su valor se interpreta como las unidades de correlación que en promedio se-
modelo que redujese la dependencia respecto dcl tamaño de la muestra observada en
par~n a las correlaciones observadas de las predichas. Por ejemplo, un RMSR = 0,15
X'. Se define, igualmente, como una medida de la cantidadJelativa de varianzas y co-
slgmf!ca que, en promedio, las conelaciones observadas y las predichas se desvían en
varianzas en "S" que se explica por el modelo predicho (L). Su valor máXImo se al-
0,15 unidades de Correlación. La estandarización también favorece la comparación de
canza, cuando ambas matrices coinciden. Pero, a diferencia de X', GFI no se ajusta por modelos distintos ajustados a los mismos datos.
grados de libertad. Tanaka y Huba (1984), al igual que Joreskog y Sorbom (1989;
1993c), lo definen en los términos siguientes:
AA. Índice de centralidad CI
F[S,L(e)] 1 P' Este índice fue propuesto por McDonald en 1989, quien lo formula de la manera
GFl = 1- F[S,L(O» = - Fo siguÍente:
el = exp(-l / 2d)
El numerador lo fonua el mínimo de la función de ajuste después de qne el modelo
ha sido ajustado. El denominador, la función de ajuste antes de que algún modelo se Donde: "d" = (X;;' - dfM ) / N.
haya ajustado o, igualmente, cuando todos los parámetros en el modelo son cero: ".tM "es el estadístico de ajuste .t para el modelo que se evalúa.
Su valor oscila entre 0,0 y 1,0. Un GFI = 0,0 indica un mal ajuste del modelo, mIen- "dfM " los grados de libertad para el modelo que se evalúa.
tras que un GFI = 1,0 expresa un ajuste perfecto. El valor de referencia habitual para "N" el tamaño de la muestra.
considerar un modelo "aceptable" es 0,90. Por debajo de este valor se cuestIona el aJus-
te del modelo. El rango de valores va de 0,0 a 1,0. Un CI = 1,0 indica un ajuste perfecto. Valores
Esta medida de bondad de ajuste es de utilidad en la comparación de modelos di- de CI < 0,90 llevan al cuestionamiento del modelo, especialmente cuanto más se
ferentes para una misma serie de datos, lo cual se convierte en una ventaja añadida, aproxime su valor a 0,0.
F" .

574 Análisis multivariable. Teoría y práctica en la investigación social


Capitulo 6: Ecuaciones estructurales 575

B) indices de ajuste incremental El rango de valores va de O O a 1 O Todo val "> ,,' .


modelo propuesto. Y, al igual ~ue NFi o Ll su v~r - ,90 IndICa un buen aj liste del
A diferencia de los índices de ajuste anteriores, este segundo grupo de índíces no tral. Existe Una relación positiva ent I t' :Ior aumenta can el tamaño mues-
compara las matrices de varianzas-covarianzas (o de correlaciones) observada y pre- ajuste incremental Aunque rho 2 re e amano de la muestra y estos índices de
que rho 1. . . resu lta menos afectado por el tamaño muestral
dicha. La comparación es del modelo propuesto respecto del modelo base, también lla-
mado modelo nulo O de independencia, que se caracteriza porque todos sus paráme-
tros estructurales han sido fijados en cero. Lo que significa que no se ha especificado
ninguna relación entre las variables. B.2. índice de ajuste relativo (RFI, P, o Rho 1)
I
I
I
Todos los índices de ajuste incremental comparten la característica de ser índices
¡,,': globales de adecuación del modelo, cuyo rango de valores va de 0,0 a 1,0. El valor co- En 1986 Bollen (en "Sample size and Be tl '
múnmente tomado como referente es 0,90. Valores iguales o superiores a 0,90 indi- Psychometrika , 51'. 375 -377) d esarro1Ia una vn er
. and
'ó Bonett
dI' .s nonnonned fit index" ,
can que el modelo obtenido es consistente con los datos observados. Pero, como ob- bastante al índice TU al medir la d' an~cI n e IndlCe NFI, que se asemeja
servan Jóreskog y Sórbom (1993c), con frecuencia se obtienen valores muy próximos modelo nulo o de interdependencia ~or'se~ep~ncIas entre el mod~lo propuesto y el
. :' a 1,0, debido a que el modelo de independencia casi siempre tiene un valor .¡; muy ele- el denominador, que no se resta 1: ' nglCn o por los grados de ]¡bertad. Difiere en
",,'
vado.
RFI = (nF)dfb) - (ni/df) ni/df
B.l. índice de Thcker-Lewis (TU, ¡? o Rho 2) (nF,/df~) = 1- nFb / dI,,
':
ij
Este primer índice de ajuste incremental fue propuesto por Tucker y Lewis en En términos de chi-cuadrado se formula de la manera siguiente:
1973 ("A reliability coefficient for maximum likelihood factor analysis", Psycho-
metrika, 38: 1-10). Cuantifica el grado al que un modelo particular es una mejora so-
bre un modelo nulo, preferiblemente cuando se estima por el método de máxima ve- Rhol = p, = (x;/d!b)-(X'/df)
: ':,'¡ rosimilitud. (X;/dfb )

El rango de valores va de OO (inexi St . d .


TLI = (nF)d!,) - (nF/df) valor de referencia para indicar'un . t e~cIa e ajuste) a 1,0 (ajuste perfecto). El
Ju
(nF,ldf,,) -1 no obstante, que este índice muestr: : e a .ec~ado e~, Igualmente, 0,90. Adviértase,
queños. Cuando la muestra es e :n
yor!na eCUaCIón en tamaños muestrales pe-
a la subestimación del mOdel~ quena « 100 umdades), su aplicación puede llevar
Donde: " nFb " expresa la discrepancia !1Únima del modelo base o nulo. ción. propuesto; a afirmar erróneamente su incorrec-
" nF " la discrepancia mínima del modelo que se evalúa.
"dfb " los grados de libertad del modelo base o nulo.
"df" los grados de libertad del modelo evaluado o propuesto. B.3. índice de ajuste normado (NFI, Ll, delta 1)
Este índice de ajuste incremental también puede formularse en términos de'¡;. Se Este tercer índíce de ajuste incremental fue
dívide cada valor de chi-cuadrado (del modelo propuesto, "'¡;", y del modelo base o nu- ("Significance tests and goodness-of-fit in th propuesto por Bentler y Bonett en 1980
lo, "X;") por sus grados de libertad respectivos: "dfb", para el modelo base o nulo y chological Bulletín, 88: 588-606). En 1989 BOll::naIYSIs ofcovanance structures", Psy-
"dt', para el modelo propuesto o evaluado. De esta manera se premia los modelos más mulaciones anteriores se define d I l o denonuna delta 1. SIgUiendo las for-
parsimoniosos o simples. , e a manera SIgUIente:

(xU dfb) - (X 2 / df) NFI = ni, - nF


Rho2 = P2 = nFb
x;/df, -1
Capitulo 6: Ecuaciones estructurales 577
576 Análisis multivariable. Teoría y práctica en la investigación social

Representa la proporción de la covarianza total entre las variables observadas ex- CFl=l- máx(nF-dl,O)
plicada por un modelo propuesto, cuando se utiliza el modelo nulo como modelo ba- . máx(nFb - dlb),(nF - df),O
se. El rango de valores va, igualmente, de 0,0 (inexistencia de ajuste) a 1,0 (aJu~te per-
fecto). Su valor también aumenta con el tamaño de la muestra, observandose . Su valor va de 0,0 a 1,0 (aíuste perfecto). Todo valor inferior a 0,90 expresa,
subestimación en tamaños muestrales pequeños. Igualmente, que el modelo propuesto es cuestionable.
Al igual que los demás índices de ajuste incremental, CFl también se ve afectado
negatrv~mente por el incumplimiento del supuesto de nOlmalidad multivariable. La no-
BA. índice de ajuste incremental (lFI,,,,,, Delta 2) normahdad provoca I~ subestimación del modelo propuesto. Si bien, se observa que
la mfluencra del tamano de la muestra en CFl es inferior a otros índices de ajuste in-
En 1989 Bollen ("A new incremental fit index for general structural equation models", cremental. El mIsmo Bentler (1990) demuestra que este índice actúa adecuadamente
Sociological Methods and Research, 17: 303-316) modifica el índice NFI de B,entIer y Bo- mcluso cuan~o se evalúa un modelo obtenido en una muestra pequeña.
nett, considerando los grados de libertad del modelo propuesto (df). Este mdlce lo lIa- En relaclOn a la no-normalidad, West, Finch y Curran (1995) afirman que, cuando
A ~ 2 2

Dezta 2 = 1\2 = X~ - X
los parámetros se estiman mediante máxima verosimilitud, con una muestra de 100 uni-
ma lFl o 1\2 (Delta 2) IFI = nF}' - nF
nFb - di X, - di dades, el valor CFI medio para un modelo correctamente especificado es 0,97 (3% su-
Representa, igualmente, la proporción de covarianza total entre las variables ob- bestrmado) y no el ~alor esp~rado de 1,0 (para variables de asimetría = 3 Ycurtosis =
2,1). La no-normalzdad ocaSIOna en CFI, como en los demás índices de ajuste incre-
servadas explicada por el modelo propuesto, cuando se utiliza el modelo nulo como
modelo base. Pero, trata de solventar deficiencias comunes a los índices de ajuste in- mental, la subestImacIón del modelo empírico.
cremental (como NFI), cuyo valor aumenta conforme se incrementa el tamaño de la
muestra y disminuye el número de grados de libertad. Delta 2 se presenta como una s'6. índice de no centralidad relativa (RNI)
solución que corrige la dependencia del modelo respecto del tamaño de la muestra,
primando la parsimonia, al considerarse los grados de libertad del modelo pro- McDonald y Marsh proponen en 1990 ("Choosing a multivariate modelo non-
puesto. . . . centrahtyand goodness-of-fit", Psychological Bulletin, 107: 247-255) el índice RNI, que
Como los demás índices de ajuste incremental su valor va de 0,0 (mexlstencla de se asemeja a CFI, aunque no conSIdera los valores máximos:
ajuste) a 1,0 (ajuste perfecto). El valor comúnmente recomendado de buen ajuste es,
asimismo, un IFl "?: ,90". No obstante, su valor puede exceder 1,0, en modelos con da- nF-dl
tos sobreajustados. RNI = 1
Todos los índices de ajuste incremental (TU, RFI, NFI e lFI) comparten dos de los nF, -di,
inconvenientes principales observados en el índice de bondad de ajuste de razón de ve-
rosimilitud i: la incidencia negativa del tamaño de la muestra en su valor, al Igual que El ra;,go de valores va de ~,O (inexistencia de ajuste) a 1,0 (ajuste perfecto). Es-
el incumplimiento del supuesto de normalidad multivariable. Su valor suele estar te sexto mdlce comparte, aSImIsmo, las mismas deficiencias dichas en los otros índi-
subestimado, en muestras pequeñas y en distribuciones no normales. Pero, delta 2" al ces de ajuste incremental. Adviértase, no obstante, que estos seis índices de ajuste in-
igual que rho 2, muestra mayor adecuación en muestras pequeñas que los demás m- cremental no s?n los únicos existentes. La aportación de nuevos índices de ajuste es
c~ntmua. Aqm se ha hecho una selección de los más aplicados en la investigación em-
dices de ajuste incremental.
pmca.

B.5. Índice de ajuste comparativo (CFI) C) indice de ajuste de parsimonia


Propuesto por Bentler en 1990 ("Comparative fit indixes in structural models", Psy-
chological Bulletin, 107: 238-246). Difiere de los antepares índices de ajuste incremental Este tercer grupo de índices de parsimonia comparte la particularidad de con-
sidera~ la "parsimonia," en la valoración del modelo globaL La parsimonia hace re-
en que el numerador está compuesto p~r "máx (n!: - df) o cero", cualqUIera que sea
más alto; y el denominador por "máx (nF, - di,), (nF - df) o cero", cualqUIera que sea el fere,ncra a la obtenclOn de un modelo sencillo, que incluya relativamente pocos
parametros y, al mIsmo tIempo, muchos grados de libertad. En consecuencia, se pe-
valor más elevado:
Capitulo 6: Ecuaciones estructurales 579
578 Análisis multivariable. Teoría y práctica en la investigación social

2
nabza la práctica de ir añadiendo parámetros al modelo, con el objetivo de disminuir
el valor y y alcanzar un buen ajuste estadístico del modelo, aunque éste incluya así
x'normado = L
di
parámetros carentes de sentido sustantivo. De acuerdo con los índices de ajuste de
parsimonia, cuantos más parámetros libres estén en el modelo, más probable es que
Valores inferiores a 1 Oexpresa 1 d 1
éste ajuste a los datos. sup.eriores a 2,0 o 3,0 (o incluso el~:~eem~~li~~r~~~~e5 e~;~~~~:~eaq;:es~aldo"·dViI3l0res
Los seis índices de ajuste de parsimonia, que a continuación se exponen, propor- ceslta mejora al no represent d d ' mo e o ne-
cionan un referente que ayuda a la comparación de modelos con un número diferen- 1999). Como ~a Bollen (19~~.~7~~;'ame.n:e los datos empíricos (Hair et al., 1992;
te de parámetros estimados. Se trata de contrastar en qué modelo se logra un mejor ajuste, con recomendaciones qu~ van de ~a~~~ ~~n~nso en lo que representa un buen
ajuste: aquel con un mayor número de parámetros o donde su número es sensiblemente Pese al ajuste por grados de libertad ' o menos a. tan altas como 5".
menor. tral en el índice de ajuste. Ello se debe ape~du~a el efecto negatIvo del tamaño mues-
dice de ajuste continúa siendo y Po t q e ~ comp~nente fundamental de este ín-
las ventajas ~ i~convenientes ob~erv:~~sa ::~~' este mdlce de parsimonia comparte
C.l. Índice de ajuste parsimonioso
Representa una modificación del índice NFI. Multiplica dicho índice por el cociente
Un estadlstlco alternativo a la y n r d
lIen (1989). Mide la desviación del es~:a~oa e~
de desviación típica. Su ventaja sobre y
:,t
l 02 .
d estandanzada propuesta por Bo-
r X es e su valor esperado en unidades
pica de y. Aunque comparte sus mis a n~rma a es que controla por la desviación tÍ-
de los grados de libertad del modelo propuesto y los grados de libertad correspon- d
de corte óptimo para un "buen a.uste~ d ImitaCIOnes: una, ambigüedad en un punto
dientes al modelo nulo. De esta forma, la parsimonia queda definida por los grados de S
libertad necesarios para alcanzar un nivel de ajuste adecnado. Recuérdese que el nú- el tamaño de la muestra. J , os, su valor aumenta conforme se incrementa
mero de grados de libertad está determinado por el número de parámetros estimados.

di C3. Índice de bondad de ajuste ajustado (AGFI )


PFI= NFlx-
dlb
'I!U
Una extensión del índice GFI que a·usta i a1m
nera similar al índice PFI. RecuérdeseJque dent~ por grados de ~bertad, de ma-
~:j~~;;:~:ap:~:::~:~ ~:!~~,:e~~~s aoestim::,alOo~ueei~~~~~~~ ~1.~:I~¿;~~~~!~:
Mediante este índice (PFI o PNFI) se aplica el ajuste de parsimonia (al índice NFI)
propuesto por James et al. en 1982 (Causal analysis: assumptions, models and data, Be-
verly Hills, Sage). Se trata de comparar modelos alternativos con grados de libertad di- índice llamado AGFI E él' m delos de mayor parslmoma se propone este
puesto (dI> con los gnictos de li~e~~~~:~:O~:I;~dOS de libertad del modelo pro-
ferentes. El modelo qne obtenga el valor PFI más elevado se convierte en el modelo n
definición propuesta por Joreskog y Sorbom (1989:s:9~3~)~0 (dIJ, de acuerdo con la
que mejor ajusta. Pero, ¿a partir de qué valor puede considerarse que el ajuste es "bue-
no"? A diferencia de los índices de ajuste anteriores, en PFI no se tieue nn valor de "re-
ferencia" genérico. Distintos autores, como Hair et al. (1992; 1999), proponen las di-
ferencias de 0,06 y 0,09 como indicativas de diferencias sustanciales entre los modelos, A OFf = 1-(p+q)(p+q+1) dI,
2d'f (1 - OFI) =1- _b (1 - OFf)
cuando se comparan modelos diferentes. di
El rango de valores va de 0,0 (inexistencia de a·u e) ,.
C.2. y normado Aunque, como observan Joreskog y Sorbom (1989) J t s~ . a 1,0 (ajuste perfecto).
un valor negativo, a diferencia de otros índices de aIu:~e e~:I~:ent". p~Slblel obtener
En 1969 Joreskog propone (en "A general approach to confirmatory maximum Jj-
kelihood factor analysis", Psychometrika, 34: 183-202) un índice de ajnste de parsimonia ~::~~~ ~~~;u~~~eable porque significa que el modelo aj~sta peore~~~o:in;ú:a o~~s;~:
que ajusta por grados de libertad, pero de y. Se obtiene de la división del valor de y
por sus grados de libertad respectivos. De esta forma puede considerarse cuántas ve- O 90ElTodo
valor de
1 referencia
.. para un b uajuste
. en · .,.
contmua SIendo, al igual que en GFI
ces es más grande la.estimación de X' que su valor esperado, cuando (N -1) F MJ, o c~ado. va or supenor o Igual a dIcha cantidad expresa un ajuste aceptable o ade~
(N -1) F GLS se aproximan a y:
580 Análisis multivariable, Teoría y práctica en la investigación social
Capítulo 6: Ecuaciones estructurales 581

C4. Índice de bondad de ajuste de parsimonia (PGFI) C6. Criterio de información de Akaike (AIC)
Otra extensión del índice GFI propuesta en 1989 por Mulaik et al. ("Evaluation of
El í~dice AIC fue propuesto por Akaike en 1987 ("Factor Analysis and AIC", Psy-
goodness-of-fit indices for structural equation models", Psychological Bul/etin, 10.5: 430.-
chometnka, 52: 317-332), como una medida alternativa para comparar modelos con dis-
445). En él se divide el índice GFI por ambos grados de libertad, pero en sentIdo m-
tintos números de parámetros estimados: AIC = X' + 2t, siendo "1" el número de
verso a AGFI:
coeficientes o parámetros independientes estimados en el modelo. Cuanto más pe-
queño sea el valor de AIC, mejor es el ajuste del modelo, al ser más parsimonioso. Es-
PGFI = GFI df te valor se alcanza en modelos caracterizados por tener pocos parámetros estimados
dfb y valores x' bajos.

Presenta el mismo rango de valores que PGFI, adoptándose el mismo valor de re- C7. Estadístico N crítico (CN)
ferencia (0.,90.).
Hoelter propoue en 1983 ("The analysis of covariance structure: goodness-of-fit in-
dices", Sociological Methods and Research, 11: 325-344) el estadístico CN como un Ín-
C.5. Error de la raíz cuadrada media de aproximación (RMSEA) dice de ajuste de parsimonia.

Como la función de discrepancia de la población (F o) -que es el valor de la función x crítico


2

de discrepancia obtenida ajustando el modelo a los momentos de población;; fav?r~­ CN= F +1


ce a los modelos de muchos parámetros, Stelger y Lllld proponen en 1980. ( Statlstl-
cally-based tests for the number of commOn factors", artículo prefentado al Encuen-
tro Anual de la Sociedad de Psicometría, lowa City, 10) dividir F o por los grados de
libertad. De esta forma se quiere compensar el efecto de la complejidad. Donde: "x' crítico': es el valor crítico o teórico de la distribución x' con grados de
libertad iguales a los del modelo propuesto a un nivel de significación
concreto (por ejemplo, 0,0.5). "F" es el valor F y F , en las matrices
RMSEA=
JF:
-
df
"8" Y "f". ML GLS

El valor de referencia que Hoelter sugiere es 20.0. Todo valor superior o igual a
"20.0." indica que el modelo ajusta bien.
Como RMSR, cuanto más pequeño es el valor de RMSEA, mejor es el ajuste del En la aplicación de este índice Bollen (1989: 278) observa que "CN puede llevar a
modelo. Un RMSEA = 0.,0. corresponde a un modelo que ajusta perfectamente. El va- una valoración de ajuste en conjunto pesimista para muestras pequeñas".
lor mínimo recomendado para un buen ajuste en relación con los grados de lib~rtad es
0.,0.5 (Browne y Cudeck, 1993). Todo valor menor o igual a dicho referente llldlca que • Los índices de ajuste expuestos son una selección de los más aplicados en la me-
el modelo ajusta bien. Un RMSEA menor que 0.,0.8, pero superior a 0.,0.5 expresa un dición del ajuste global del modelo de ecuaciones estructurales predicho, pero no los
error razonable de aproximación del modelo. Cuando RMSEA? 0.,1 significa que el únicos existentes. A modo de recordatorio, en el cuadro 6.3 se resumen los valores de
modelo es totalmente desaconsejable. referencia generalmente adoptados como indicativos de un ajuste "aceptable". Cuan-
En las salidas de ordenador el índice de ajuste RMSEA suele aparecer junto a su do se alcanzan dichos valores, en varios de los índices de ajuste, puede concluirse que
nivel de significación (p), lo que permite comprobar la significatividad del ajuste dd el m?delo logra representar plausiblemente la estructura de los datos original. En ca-
modelo. La hipótesis nula se formula de la manera siguiente: Ho: RMSEA.= 0.,0.; la hI- so aÍlrmatlvo, puede procederse a la evaluación específica de los dos submodelos (de
pótesis alternativa en términos de desigualdad. Al igual que en x', ~e precIsa uu ~alor medición y estructural) para, posteriormente, seguir con la interpretación de los pa-
p> 0.,0.5 para poderse afirmar que el modelo ajusta bien. Al contrano de la mayona de rámetros del modelo. En caso negativo, el modelo empírico no alcanza un nivel mínimo
las pruebas de hipótesis, se busca la corroboración de la hipótesis nula y el rechazo de la de ajuste que muestre la consistencia del modelo con la matriz de varianzas-covarianzas
alternativa. (o de correlación) de la población, representada en la muestra que se ha analizado. En
Capítulo 6: Ecuaciones estructurales 583
582 Análisis multivariable. Teoría y práctica en la investigación social

Pero el incumplimiento del supuesto de normalidad es muy leve, como se constata en


este caso, no tiene sentido seguir con la interpretación de los parámetros estimados, ~Sí el subapartado 1.1.6. Además, como indican Jaccard y Wan (1996), cada vez son más los
como con la evalnación de los dos submodelos. Habría, por el contrano, qne av~nguar autores que defienden la robustez de las estimaciones de máxima verosimilitud para mu-
las modificaciones (apartado 6.8) a introdncir en el modelo para mejorar sn ajuste y chas de las violaciones del supuesto de normalidad.
proceder en consecuencia. Lo que sí parece afectar bastante al valor x' es el tamaño de la muestra. Para com-
probarlo se reduce el tamaño de la muestra a "100" casos elegidos al azar entre los 2.493
CUADRO 6.3. Valores de referencia para un ajuste "aceptable" que componen la muestra original. Se repiten los análisis y se obtiene un x' = 72,736, pa-
ra 63 grados de libertad, siendo p = 0,165. Como la significatividad supera el valor de re-
• x2estadísticamente no significativo (p > 0,05, al menos), que coincide con un valor ferencia (para una probabilidad de acierto en la inferencia del 95%) de 0,05, la hipótesis
x' pequeño (x' = 0,0 indica un'ajuste perfecto). nula es aceptada. El modelo obtenido "sí" presenta un buen "ajuste", cuando la muestra
está integrada por 100 casos. Este hallazgo corrobara lo dicho por Bentler y Bonett
• GFl grande (~0,90).
• RMSR pequeño (RMSR = 0,0, ajuste perfecto). (1980: 591) de que el estadístico x' "puede hacerse pequeño simplemente reduciendo el
tamaño muestral". Cuando la muestra es muy grande, lo usual es que el modelo resulte
• Cl grande (~0,90). ( 090)
• índices de ajuste incremental (TU, RFI, NFl, lFl, CFI y RNI) elevados ~, . "no significativo", al haber diferencias entre el modelo predicho y el observado. Cochran
ya advirtió en 1952 ("The x' test of goodness of fit", Anna/s of Mathematical Statistics, 23:
• X' normado < 2,0 (a veces hasta incluso 5,0).
315-345) del poder de las pruebas de significatividad para detectar desacuerdo entre la
o AGFI y PGFI ~ 0,90.
o RMSEA'; 0,05 (RMSEA = 0,0, ajuste perfecto).
teoría y los datos controlándose por el tamaño de la muestra. Esta influencia constatada
del tamaño muestral en x' lleva a J6reskog y S6rbom (1979) a dudar que la hipótesis de
• AIC pequeño un ajuste perfecto de los datos al modelo teórico sea real en la mayoría de las investi-
o CN>200
gaciones empíricas.
Habiéndose evidenciado la incidencia negativa del tamaño de la muestra en el ajus-
te del modelo medido con x', se sigue la recomendación de complementar este índice de
ajuste global con .otros índices varios. Éstos se resumen en la tabla A, donde aparecen con
la denominación dada en el programa Amos (versión 4.0).
Los índices se calculan tanto para el modelo obtenido como para dos alternativos: el
modelo saturado y el modelo de independencia. Recuérdese que:

Como era predecible, por el elevado tamaño muestral (2.493 casos), se obtiene un va- • El modelo saturado es aquel en el que se estiman todas las medias, varianzas y co-
lor x' estadísticamente significativo: 327,363 para 63 gradosde libertad (p =,000). Ello su- varianzas, sin restricciones. Es el modelo más general posible y el que garantiza un
pone el rechazo de la hipótesis nula, que afirma que las matnces de ~arlanzas-covana~zas ajuste "perfecto". Esto le convierte en un buen referente para valorar los valores de
observada y predicha son iguales. El modelo no presenta un buen aJ~ste, en conformidad los índices de ajuste calculados en el modelo obtenido. Depende de la distancia que
con esta prueba de slgnificatividad, al obtenerse que existen diferencias significativas en- les separe de los correspondientes al modelo saturado. Su utilidad es más apre-
tre ambos modelos. Pero, antes de proceder a su rechazo, hay que valorar dos aspectos ciable en índices como PNFI, PCFI, NCP o ECVI, que carecen de un valor de re-
clave en su interpretación: ferencia generalmente aceptado para indicar un ajuste adecuado. En estos casos,
la valoración del ajuste del modelo se realiza comparando el modelo obtenido con
a) El tamaño de la muestra. Como se dijo en el apartado 6.2, cua~do la muestra e~­ otros modelos rivales.
cede las 400 e, incluso, 500 unidades, la estimaci?n de los parametros por el.m~­ • El modelo de independencia (o modelo nulo) es el opuesto del modelo saturado. Se
todo de máxima verosimilitud favorece la obtencion de x' significativos, que indi- define como el modelo más sencillo posible que tiene justificación teórica. En él no
can un mal ajuste entre el modelo estimado y el poblaclonal. . A se especifica ninguna relación entre las variables. Todos los parámetros estruc-
b) El nivel de medición de las variables observadas (o indicadores): que es dispar. turales se fijan en cero. Al ser un modelo tan restringido, se espera un mal ajuste
las variables continuas (como "ingresos" o "edad") se sum~n variables nom~~ales, a cualquier seríe de datos. Por esta razón también es un buen modelo de referencia
traducidas a ficticias ("regularizar a inmigrantes") Y las variables ardlna,les ( casar porque es indicativo de un "mal" ajuste del modelo obtenido.
con marroquí", por ejemplo) tratadas como si fuesen continuas. Aunque esta eS u;a
actuación habitual Y recomendada en la literatura espeCializada (subapartado. 1... 1 Y
Se prec.isa ajustar el modelo saturado para calcular el ajuste mediante x' y los índi-
apartado 6.2), tiene el inconveniente de aumentar la probabHidad de incumpllml,ento
ces que derivan de él: RMSEA y AIC. Asimismo, se requiere el modelo de independencia
del supuesto de 'normalidad, lo cual afecta negativamente.a la slgnlflcatlvldad estadlstlca
para calcular todos los índices de ajuste incremental (NFI, RFI, IFI, TU Y CFI).
de los coeficientes analizados mediante máxima verOSimilItud.
584 Análisis multivariable. Teoría y práctica en la investigación social
Capitulo 6: Ecuaciones estructura/es 585

Tabla A Medidas de ajuste del modelo en su conjunto

índice de ajuste Modelo Modelo Mode/ode .. NPAR: número de parámetros distintos que se estiman.
Ajuste
global obtenido saturado independencia CMIN: valor mínimo (e) de la discrepancia entre las matrices de varianzas-covarianza
(o de correlaciones) observadas y predichas. Cuando se aplica el procedimiento de má-
NPAR 41 104 13 "Inadecuado xima verosimilitud, en la columna etiquetada "CMIN" figura el estadístico i'. Como se
CMIN 327,363 ,000 53077,712 (signíficatividad de
han pedido estimaciones de medias e interceptos, el estadístico i ' refleja el ajuste del
DF 63 O 91 X' <,05) modelo a las estructuras de medias y covarianzas.
P ,000 ,00 .. Aceptable"
CMIN/DF 5,196 583,272 DF: los grados de libertad. Indica el número de restricciones fijadas en las varianzas
y covarianzas originales. Se obtienen de la diferencia entre el número de momentos
DELTAl o NFI ,994 1,000 ,000 .. Perfecto ( todos estos muestrales distintos (en este caso existen 104) Y el número de parámetros distintos a
RHOl o RFI ,991 ,000 índices de ajuste ser estimados (41): DF; P - q. En total. son 63 los grados de libertad. Ésta es la can-
DELTA2 o IFI ,995 1,000 ,000 incremental tidad por la que el número de elementos excede el número de parámetros a estimar.
RH02 o TU ,993 ,000 sobrepasan el valor
Los grados de libertad siempre son un valor positivo (igualo superior a O), debi-
CFI ,995 1,000 ,000 de referencia ,90)
do a que los parámetros fijos no igualan a los momentos muestrales. Adviértase que
PRATIO ,692 " ,000 1,000 .. Inadecuado ** Amos se basa en el análisis de estructura de momentos: estructuras de medias y co-
PNFI ,687 ,000 ,000 (próximo al modelo varianzas. En el modelo saturado, al existir correspondencia entre los elementos y los
PCFI ,688 ,000 ,000 de independencia) parámetros a estimar (se analizan los datos completos), los grados de libertad son
siempre O. Por esta razón Su ajuste es siempre perfecto: i ' ; 0,0 y df = O.
NCP 264,363 ,000 52986,712 "Inadecuado ** (se • P: la significatividad para comprobar la hipótesis nula de que el ajuste del modelo ob-
LO 90 212,444 ,000 52232,277 distancia del modelo
tenido a la pOblación es perfecto. Aunque los autores del programa matizan que "es
HI90 325,804 ,000 53747,424 saturado)
generalmente conocido que la mayoría de los modelos son aproximaciones útiles
FMIN ,131 ,000 21,299 .. Aceptable (valores que no ajustan perfectamente en la población. En otras palabras, la hipótesis
FO ,106 ,000 21,263 próximos al modelo nula de ajuste perfecto no es creíble y al final será aceptada sólo si la muestra no
LO 90 ,085 ,000 20,960 saturado) se permite que sea demasiado grande" (Arbuckle y Worthke, 1999: 398).
HI90 ,131 ,000 21,568 • CMIN/DF: la discrepancia mínima entre ambas matrices dividido por los grados de
libertad. En este caso "i'ldf". Éste es el índice de ajuste de parsimonia propuesto
RMSEA ,041 ,483 " Buen ajuste (al ser por Joreskog y llamado i ' normado.
LO 90 ,037 ,480 RMSEA< ,05y
HI90 ,046 ,487 PCLOSE > ,05) NFI, RFI, IFI, TU Y CFI son los índices de ajuste./ncrementa/definidos en el subaparta-
PCLOSE ,999 ,000 do 6.7.3. Sus valores se obtienen de las discrepancias entre el modelo propuesto y el mo-
delo base o de independencia, aplicando las fórmulas que figuran en el susodicho sub-
AIC 409,363 208,000 53103,712 .. Intermedio apartado. éalcúlense dichos ínc;lices con los valores dados en la tabla A. Por ejemplo, NFI
= (xi, - i')1 xi, = (CMIN'"d,p"'d""" - CMIN'b""'do)/CMIN'"~'E'"di"" ; (53077,712 - 327,363)
BCC 409,838 209,175 53103,858 (más próximo al
modelo saturado)
153077,712 = ,9938. O, TU ; (CMINlDF""",,,,,,,",, - CMINllJF,,,,",,,, I(CMIN/DF"",,,,,di,,,, _ 1)
; (583,272 - 5,196)/(583,272 - 1) ,9928.
ECVI ,164 ,083 21,310 .. Aceptable (valores
LO 90 ,144 ,083 21,007 próximos al modelo • PRATIO: la razón de parsimonia. Expresa el número de restricciones en el modelo
HI90 ,189 ,083 21,615 saturado) que se evalúa respecto al número de restricciones en el modelo de independencia:
MECVI ,164 )084 21,310 PRATIO ;::: DFobtenid/DF¡ndependlente;::: 63/91 ;::: ,692. Dicha razón de grados de libertad
se utiliza para calcular los índices PNFI y PCFI:
HOELTER ,05 620 6 .. Buen ajuste
HOELTER ,05 692 6 (al ser> 200) PNFI ; NFI x PRATIO ; ,994 x ,692 ; ,687
PCFI ; CFI x PRATIO ,995 x ,692; ,688
~ Debido al efecto negativo del tamaño muestra!, se adopta para C.MrN/~F el valor de r?~e~:~~~::~~7~ a~~So~~~o
ra! de 5,0 como indicativo de un ajuste "aceptable". Además, su distanCia es muy cansl e
de independencia. .. h mparando el modelo ob- • NCP; CMIN - DF ; 327,363 - 63 ; 264,363. LO 90: el límite inferior al nivel de
'~'AI carecerse de un valor de referencia generalmente aceptado, su valoraclOn se 8ee co
confianza de~90%. HI 90: el límite superior al nivel de confianza del 90%.
tenido con otros modelos alternativos.
• FMIN: valor F mínimo de la discrepancia de la función de ajuste. FO: función de
ajuste antes de que el modelo se haya ajustado o, igualmente, cuando todos los pa-
rámetros en el modelo son cero.
Capítulo 6: Ecuaciones estructurales 587
586 Análisis multivariable. Teoría y práctica en la investigación social

6.7.4. Evaluación de los modelos estructural y de medición


~FO [106
• RMSEA: el error de la raíz cuadrada media de aproximación ~ DI' = '163 = 0,4l.
El examen del modelo estructural incluye la interpretación de los parámetros
Este valor significa que la correlación residual media < ,041, un valor próximo a 0,0, estimados. Dicha interpretación se hace considerando los errores tfpicos y los valores
lo cual significa que el modelo es "aceptable". t correspondientes a cada coeficiente, como se ilustró en el ejemplo del subapartado
la tabla incluye el límite inferior (lO 90) Y el superior (HI 90) de.un intervalo del
90% de confianza en el valor de RMSEA en la población. PClOSE es el valor de
6.6.5. La significatividad estadística de cada coeficiente se comprueba mediante los va-
significación para comprobar la hipótesis nula de que RMSEA en la población es lores t, al nivel de significación elegido por el investigador. El más habitual es ,05, aun-
igual a 0,0, e incluso:;; ,05, siguiendo la recomendación d? Br?wne y Cudeck (1993). que cuando la muestra es inferior a 100 unidades suelen recomendarse niveles de sig-
Como sucede con x', también se precisa un valor de significación >,05 para que nificación inferiores (como ,025 o ,01, por ejemplo). Sólo se interpretan los parámetros
pueda afirmarse que el ajuste es bueno. "significativos", que suelen coincidir con coeficientes con pequeño error de estimación.
• AIC = x'+ (2t) = CMIN + 2 (N PAR) = 327,363 + 2 (41) ~ 409,363. Un índice de ajus- Como en regresión lineal, en el modelado de ecuaciones estructurales puede
te de parsimonia que, al basarse en x', no sorprende su valor elevado. Aunque se aplicarse el coeficiente de determinación o de correlación múltiple cuadrada (R'),
. sitúa más próximo al valor correspondiente al modelo saturado (O :- 2 [104J = 208) como una medida relativa de ajuste para cada ecuación estructuraL Para dicho pro-
que al de independencia (53077,712 + [2][13J ~ 53103,712), el ajuste es media- pósito, la correlación múltiple cuadrada se define como:
namente aceptable. . .
• ECVI: índice de validación cruzada esperada similar a AIC, al defmlrse como.
ECVI ~ 1/N (AIC) = 1/2.493 (409,363) = ,164. lO 90 Y HI 90 son el límite inferior y R'
el superior a un nivel de confianza del 90%.
• MECVI: índice de validación cruzada esperada similar a BCC: 1/N (BCC) = 1/2.493
(409,838) ,164. . '
• N crítica de HOElTER: indica el tamaño de la muestra mas grande necesaria pa- Donde: ét~ " Y "8~¡ " son las varianzas estimadas de '1.1;/' y
H "1]/" respectivamente.
ra que pueda aceptarse la hipótesis de que el modelo es correcto. El nivel de sig-
nificación más utilizado es ,05. En este ejemplo, se precisa un tamaño muestral de Si quiere comprobarse la fuerza de varias relaciones lineales, de manera conjunta,
620 para obtener un ajuste perfecto. Como la cantidad supera el referente de 200, el coeficiente de determinación total para el conjunto de ecuaciones estructurales se de-
puede considerarse "válido" el modelo obtenido, al presentar un ajuste adecuado. fine, siguiendo a JOreskog y Sorbom (1989), como:
Como es usual, existe discrepancia entre los distintos índices de ajuste. Mientras que los
índices de ajuste incremental (NFI, RFI, IFI, TU Y CFI) indican un ajuste "perfecto" (el modelo R' = 1 - 11.p11
obtenido es consistente con los datos observados), algunos de los índices basados en x' (NCP . IICov(1))11
y Ale) afirman lo contrario. En cambio otros, dígase del índice d? Hoelte~ o de CMIN/DF (co-
nocido como x' normado) llevan a la aceptación del modelo obtenido. la discrepancia entre los
índices era de prever, al tratarse de índices distintos. Mientras los primeros (de aJuste mcre- Donde: "11.p11" es el determinante de la matriz de varianzas-covarianzas de los tér-
mentaO comparan el modelo propuesto con el modelo de independencia, I?~ segundos se res- minos de perturbación estimada "'Í"'.
tringen a las matrices de varianzas-covarianzas (observadas y p~edlchaS), Vlendose, allg~al. que
"IICov( 1))11" el deter. de la matriz de varianzas-covarianzas estimada de "1)".
x', negativamente afectados por el tamaño muestral e incumplimientos de supuestos baslcos,
como la normalidad multivariable.
la mayoría de los índices, salvo las excepciones ya expuestas, apuntan a un ajuste "acep- La relación es más fuerte cuanto más se aproxima el valor de R' a 1,0. Un R' igual
table" y, a veces, incluso ''perfecto'', del modelo obtenido a la realidad que ~n.aliza. Pero, aun- a 0,0 expresa inexistencia de relación entre las variables. De darse este valor, habria que
que el modelo logra representar plausiblemente la estructura de los datos ongl~al, pueden pro- replantear la adecuación del modelo predictivo en la representación de la información
barse algunas modificaciones que ayuden a mejorar su ajuste. Una práctica habitual es analizada y su consiguiente modificación para mejorar su ajuste.
aumentar el número de parámetros (por ejemplo, relacionando algunos de los errores de me- La correlación múltiple cuadrada también es de utilidad en la evaluación del mo-
dición entre sí) para conseguir que el valor de x' disminuya en relación con los grados de li- delo de medición, como se ilustró en el ejemplo del subapartado 6.6.5. Concretamente,
bertad. Esta actuación habitual suele suponer una pérdida de parsimonia y sólo es justificable para conocer la adecuación de las variables observadas (o indicadores) en la medición
cuando las modificaciones realizadas tengan sentido lógico-sustantivo (y na sólo estadístico), de las variables latentes (o constructos). Cuanto más se aproxima su valor a 1,0, más
como se verá en el apartado 6.8. . certeza hay en la utilidad de los indicadores referidos en la medición de los constructos
588 Análisis multivariable. Teoría y práctica en la investigación social Capítu.lo 6: Ecuaciones estru.cturales 589

concretos. Su valor expresa la proporción de varianza que es explicada por sus pre- ner un vínculo "directo". No debe haber ninguna variable intermedia entre ambas.
dictores. A partir de esta definición, Bollen (1989) propone como medidas de validez cl uso
Además de dichos coeficientes, en el modelo de medición adquiere un protago- de los:
nismo especial la comprobación de los criterios de validez y fiabilidad, a considerar en
toda medición de conceptos teóricos mediante indicadores empíricos. a) Coeficientes no estandarizados «A¡/" que miden la relación estructural entre ca-
da "X¡" y "!;/'. Proporcionan el cambío esperado en "Xt por un cambio en una
unidad en "S/,- El problema principal de este coeficiente es su dependencia de
A) Validez las unidades de medición de las variables latentes, lo cual dificulta la compa-
ración de los efectos de variables en distintas nnidades de medida y explica el
La validez hace referencia al mismo proceso de operacionalización; si los indica-
dores elegidos miden realmente los conceptos teóricos de interés. Se trata de com-
probar su adecuación en la medición de dichas variables latentes. Carmines y Zeller
dez relativa de la medida). {!p-
nso común de coeficientes de validez estandarizados (para determinar la vali-

b) Coeficientes estandarizados "A.:¡": A.~ = A.ij¿;'-. Análogo al coeficiente de re-


(1979) diferencian tres modalidades básicas de validez, unidas por el mismo objetivo x,
de demostrar la conespondencia entre el indicador y el constructo, aunque difieren en gresión estandarizado, se define como "A .." veces la razón de las desviaciones
su ejecución. típicas para la variable latente" g/' y la variable observada "Xi'" Expresa el nú-
mero "esperado" de unidades de desviación típica que "X¡" cambia por cada
cambio en una unidad de desviación típica de "g.". Esto permite comparar la in-
a) Validez de criterio. Comprueba si un indicador concreto logra clasificar a los ob-
fluencia relativa de "!;." en varias variables "X/', pero, a diferencia del coefi-
jetos de igual forma que otro indicador estándar alternativo de la misma va-
ciente no estandarizado, es menos útil en la comparación de poblaciones dife-
riable latente, que previamente ha demostrado ser "válido". Si se correlaciona
rentes, al estar más sujeto a la influencia de las desviaciones típicas de las
con un criterio adoptado en un mismo momento, se habla de validez concu-
variables en poblaciones diferentes.
rrente. En cambio, cuando concierne a un criterio futuro, que esté correlacio-
c) Varianza de validez única (Ux,,). Mide la parte de varianza explicada en Xi que
nado con la medida, la validez es predictiva.
La correspondencia entre el indicador y la variable "criterio" elegida sue- x,''
únicamente es atribuible a g¡: U = Ri, - Ri,(¡;)
Donde "Ri," es el coeficiente 'de correlación múltiple cuadrada (la pro-
le medirse mediante su correlación. El valor absoluto de dicha correlación es lo
porción de varianza en "Xi' que es explicada por todas las variables que en el
que a veces se refiere como "coeficiente de validez" (Bollen, 1989).
modelo tienen efecto directo en "Xi", excluyendo los términos de error) y
b) Validez de contenido. Se refiere al grado en que los indicadores logran cubrir la
"R;¡(~I>" es la proporción de varianza explicada en "X¡" por todas las variables
variedad de significados incluidos en el concepto.
con un efecto directo en "x/" excluyendo "!;/'.
c) Validez de constructo. Cuando se compara una medida particular con aquella teó-
Cuando una medida depende sólo de una variable latente, "UX"'i" es igual
ricamente esperable (de las hipótesis derivadas del marco teórico de la inves-
a la correlaCión cuadrada de las vanables observadas y latentes. El rango de va-
tigación).
lores de "Ux"," va de 0,0 (cnando no se logra explicar nada de la varianza de x,)
a 1,0 (toda su variabilidad queda explicada). Si, como es usual, una medida se
A estas tres modalidades principales de validez cabe añadir otras dos diferencia- asume que depende sólo de una variable latente, "UX.I/' es igual a la correlación
das por Campbell y Fiske (1959): cuadrada entre "/;." y "Xi": "P'x,/'. Pero, para ello, es condición que las variables
latentes estén indorrelacionadás.
a) Validez convergente. Muestra si una forma concreta de medir un concepto d) Grado de colinealidad (Rp. Cuando Xi depende de varias variables latentes co-
"converge" con otras formas distintas de medirlo. rrelacionadas, una particiÓn exacta (como sucedía en el caso anterior) de la va-
b) Validez divergente o discriminante. Es el caso contrario. Para más información rianza explicada por las" g/' no es posible. Este problema empeora al aUmen-
sobre validez en general, véase Bollen (1989) o Cea D'Ancona (1996). tar la colinealidad de las variables latentes que influyen en "Xi'" Para solventar
este problema, puede aplicarse un indicador del grado de colinealidad de uso co-
Bollen (1989: 197) propone una definición alternativa de validez adecuada al mo- mún en el análisis de regresión lineal. Se trata del coeficiente de correlación
delado de ecuaciones estructurales: "La validez de una medida Xi de g¡ es la magnitud múltiple cuadrado que se obtiene cuando" g¡"se predice de las otras variables
de la relación estructural directa entre g¡ y X/'. Ambas variables (Xi y gi) deben te- "!;/' que tienen algún efecto directo en "X/':
590 Análisis multivariable. Teoria y práctica en la investigación social Capitulo 6: Ecuaciones estructurales 591

La aplicación del coeficiente R;¡ se adecua más a dos situaciones concretas:


a) Cuando el indicador tiene muchas causas latentes. Si X, sólo depende de una va-
Donde: "o-. "es un vector 1 x (d -1) de covarianzas de "S" con todas las otras va-
riable lateute
~
S, el coeficiente RL, correspondiente es la correlación cuadrada de
X¡Y ~.
riaí1es "f' que influyen directamente en "X¡", ex~epto él nrismo; "<!>:/' es b) Cuando el término de error para Xi (" 8:') se correlaciona con otros términos de
la matriz de covarianzas de todas las variables "S" que influyen dIrecta- error.
mente en "X.", excepto ";."; "ljJ .." es la varianza de "~/,.
Cuando existen sólo dos variablesJ"s", fa fórmula se simplifica bastante: Además de R1", existen otros procedimientos de uso común en la comprobación de
la fiabilidad de los indicadores .

• Método test-retest. Una de las formas más sencillas de comprobar la fiabilidad.


Consiste en aplicar el mismo instrumento de medición (por ejemplo, pasar un
Mide la correlación cuadrada de "S¡" y "/;,.". Para más información, véase Bo- mismo cuestionario) a una misma población en dos períodos de tiempo dife-
llen (1989). rentes. La finalidad es comprobar si existen variaciones en la respuesta. Para
10 cual, se calculan las correlaciones entre las respuestas dadas en los dos mo-
mentos temporales en que acontece la recogida de información (X, y X,+l' don-
B) Fiabilidad de el sufijo "t + 1" hace referencia al período posterior y "t" al anterior).

El cumplimiento de los criterios de "validez" no supone, uecesariamente, que la


medida sea "fiable". Las variables "color del pelo" o "estatura" pueden, por ejemplo, Px"x,.¡
= ",,,,C,"o=v~(X~"",X7"~+l~)e==­
ser indicadores fiables de la variable latente "satisfacción laboral", aunque sean no vá- .)(VarX,)(VarX"l
lidos. La validez concierne a la correspondencia del significado entre el constructo y el
indicador, mientras que la fiabilidad se refiere a "la capacidad de obtener resultados Como todo coeficiente de correlación, su valor varía de 0,0 (fiabilidad
consistentes en mediciones sucesivas del mismo fenómeno" (Jacob, 1994: 363). Deben nula) a 1,0 (fiabilidad perfecta). Cuando la correlación supera el valor de re-
obtenerse los mismos resultados en mediciones repetidas de un mismo concepto pa- ferencia 0,8, se puede considerar al indicador fiable. No obstante, hay que ha-
ra que la medición se considere "fiable". cer las siguientes matizaciones (Carmines y Zeller, 1979; Bollen, 1989; De
En el contexto concreto del modelado de ecuaciones estructurales, Bollen (1989: Vans, 1990):
221) define "la fiabilidad de Xi como la magnitud de las relaciones directas ~ue todas
las variables (excepto las O) tienen en X:'. Recuérdese que "X," denota vanables ob- Un coeficiente de correlación bajo no siempre implica que la fiabilidad sea
servadas (o indicadores) y "8' los términos de error. Esta definición de fiabilidad se baja. Puede deberse a que, con el paso del tiempo, el individuo u objeto
aplica a un modelo de medición previamente definido, en el que las vanables Si con ha cambiado respecto al concepto que se mide. Por ejemplo, su opinión so-
efectos directos en X. son los componentes sistemáticos de Xi" Lo demás es error (" ¡¡'). bre la homosexualidad puede haber cambiado tras relacionarse con per-
De esta manera, cua~to mayor es el componente sistemático, menor es el error y, en sonas que son homosexuales.
consecuencia, mayor la fiabilidad de los indicadores Xi" . El investigador también tiene que valorar el problema de la reactividad. La
A diferencia de la validez, la fiabilidad mide todas las influencias habidas en las va- primera medición puede provocar un efecto no deseado: la modificación de
riables empíricas o indicadores. No sólo de las variables latentes y de otros indicado- la respuesta en una segunda medición del concepto. La respuesta en ambos
res, sino también de los términos de error. momentos temporales no sería coincidente, obteniéndose un coeficiente de
Bollen (1989) propone al coeficiente de correlación múltiple cuadrado para Xi (R1,.l correlación bajo.
como una medida directa de fiabilidad. De acuerdo con este coeficiente, un indIcador - Asimismo, hay que considerar el problema de la memoria, de efecto in-
se considera "fiable" cuando su correspondiente valor "R~," se aproxima a 1,0. Un va- verso a los precedentes: la sobrestimación de la fiabilidad. La persona pue-
lor de R2. = 0,0 indica iriexistencia de fiabilidad, aunque el indicador haya demostrado de recordar la respuesta dada en la primera medición y repetir la misma
ser "vál[do". Como ya se dijo, la fiabilidad no supone validez ni a la inversa. respuesta en la segunda medición, con la finalidad de mostrar consistencia
592 Análisis multivariable. Teoría y práctica en la. investigación social
Capítulo 6· Ecuaciones estructurales 593

en la respuesta, con lo que se obtendrá un cuestionable coeficiente de arbitrariedad habida en la división en dos mitades, "Existen muchas formas de
correlación elevado.
dividir Una serie de ítems por la mitad, Cada mitad podría llevar a Una estima-
El efecto de la memoria puede reducirse ampliando el período com- ción diferente de la fiabilidad" (Bollen, 1989: 214),
prendido entre ambas mediciones, Ello dificulta la capacidad de memoria • Método de consistencia interna alfa de Cronbach Es uno de los métodos más em-
del sujeto, aunque aumenta, a su vez, la probabilidad de producirse pleados por los investigadores en los últimos años, Fue propuesto por Cronbach
cambios en la manera de pensar y de obrar de la misma persona, Lo que en 1951 ("Coefficient alpha and the internal structure oí tests", Psychometrika,
contribuye a una modificación en sus respuestas y la consiguiente su- 16: 297-334), Calcula el promedio de todos los coeficientes de correlación po-
bestimación de la fiabilidad de la medición, Sibles de las dos mitades, con el objetivo de medir la consistencia interna de to-
El efecto de la memoria puede igualmente reducirse ampliando el dos los indicadores (global e individualmente), Se calcula a partir de la matriz
cuestionario (u otro instrumento de medición), incluyendo una serie de varianzas-covarianzas de los indicadores:
de ítems diferentes, Este incremento del número de ítems dificultará la ca-
pacidad de memoria del sujeto. Es más difícil que recuerde las respues-
tas dadas a cada item, a ~~
N - 1
[1 - L todosdiagonal
L matriz
los elementos matriz
J
• Método alternativo, Se diferencia del anterior en que introduce variaciones en
el instrumento de medición (el cuestionario, por ejemplo), antes de producirse El ~alor del coeficient~ va de 0,0 (infiabilidad) a 1,00 (fiabilidad perfecta),
la segunda medición, La población es la misma, lo que difiere es el instru- A parhr de 0,8 pnede considerarse la medición realizada "fiable",
mento de medición, La segnnda medición se convierte, de este modo, en una En, este cuarto método de comprobación de la fiabilidad logran resolverse
prueba alternativa a la primera: se mide el mismo concepto, aunque de forma di- carencras detectadas en los tres precedentes, A decir, los efectos de la memoria
ferente, Esto tiene la ventaja de evitar los problemas observados en la aplicación y de l~ reactividad, al obtenerse información en un único momento temporal.
del método test-retest (el efecto de la memoria y la reactividad), En su contra es- ASimismo, se resuelve el problema de la división en dos mitades del tercer mé-
tá el hecho -ya apuntado por Carmines y Zeller (1979)- de que este método no todo, No hace falta dividir al grupo de indicadores en dos mitades, ni que estas
permite, a diferencia del anterior, la distinción entre el "cambio" verdadero de mitades sean paralelas, Todos los indicadores se tratan de forma individnaL A
la "infiabilidad" de la medición, A ello se añade la dificultad de elaborar formas estas ventajas se suma su relativa facilidad de cálculo,
alternativas de una misma medición, , Además, adviértase que este método no se aplica a indicadores individuales,
En este segundo método, la fiabilidad se estima, igualmente, comparando las smo cuando se analizan múltiples indicadores de una misma variable latente, La
correlaciones entre ambas mediciones, correlación entre ellos define su fiabilidad
o Método de las dos mitades, Este tercer procedimiento de comprobar la "con-
sistencia" interna de una medida adquiere mayor relieve cuando se emplean va- A estos cuatro métodos comunes de fiabilidad, se suman otros dos procedimien-
rios indicadores en la medición de una misma variable latente, A diferencia de tos de comprobar la fiabilidad: la "fiabilidad del constructo" y la "varianza extracta-
los dos procedimientos precedentes, éste no efectúa dos comprobaciones en dos da", HaÍl: et aL (1992; 1999) aconsejan su uso, siempre que se utilicen múltiples indi-
períodos diferentes, sino al mismo tiempo, Para ello se divide la serie total de in- cadores, mdlstmtamente de si lo proporciona el programa aplicado para el análisis,
dicadores en dos mitades y se calculan las correlaciones entre ambos grupos de
indicadores, Primero, se calculan todos los coeficientes de correlación entre
(LílS, ) '
todos los indicadores de una misma variable latente, Después, se halla el coe- • Fiabilidad del constructo ~ -;::=~~=--_
ficiente promedio de todos ellos, en ambos grupos de indicadores (Bryman, (Líl~)' + Leí
1995),
Este tercer procedimiento resuelve problemas detectados en los dos méto- Donde "ílf' son los coeficientes lambda estandarizados de cada indicador con
dos precedentes: los efectos de la memoria, problemas de reactividad y de- su variable latente; y "e¡" el error de cada indicador (que puede obtenerse
más, Asimismo, resulta más económico que efectuar una misma medición en dos restando a uno. el cuadrado del coeficiente estandarizado del indicador), Un va-
períodos diferentes, No obstante, se enfrenta a un problema importante: la lor de referenCia común que indica fiabilidad "aceptable" es 0,70. Cuando el es-
forma en que se lleva a cabo la división en dos mitades, Existe Un requisito Im- tudio es exploratorio, se puede tomar un valor de referencia ligeramente infe-
prescindible: que ambas mitades sean paralelas, El problema está en la misma rior a 0,70,
594 Análisis multivariable. Teoria y práctica en la investigación social Capitulo 6: Ecuaciones estructurales 595

(,940' + ,648' + ,549')


(2:A~' ) Sociabilidad con marroquíes = '(-::,9-:40;:';':-+--:,6=-'4'"8"+-,5::C4':"9''')':''+'(~,1':''1-:-':''6+J.,-::-58:::0~+--:,6C:-99:-;:) = , 535
• Varianza extractada = ---'=~'-'-­
(LA~') + 2:E j Actitud ante la inmigración =
Difiere de la "fiabilidad del constructo" en que se suman los cuadrados de
(,927' + ,664' + ,670' + ,604' + ,608' + ,503')
los coeficientes lambda estandarizados. Su valor r"neja la cantidad global de va-
(,927' + ,664' + ,670' + ,604' + ,608' + ,503') + ('141 + ,559 + ,551 + ,635 + ,630 + , 747) = ,456
rianza en los indicadores que es explicada por el constructo latente. El rango de
valores va de 0,0 a 1,0. Cuanto más se aproxime su valor a 1,0, más certeza hay
de que los indicadores sean verdaderamente representativos del constructo Las tres variables latentes medidas por varios indicadores pueden considerarse ''fiables'',
latente. El valor mínimo de referencia de porción de varianza extractada idónea al superar el valor de referencia de ,70. En especial, la variable "actitud ante la inmigración",
es 0,50 (que se corresponde con un coeficiente factorial estandarizado de 0,70). con una fiabilidad de ,823. Asimismo, es relevante la proporción de varianza en los indicadores
que es explicada por las variables latentes. El 53% de la varianza de las variables observadas
"casar con marroquf', 'Vecino marroquf' y ¡'simpatía hacia marroquíes" es explicada por el
constructo "sociabilidad con los marroquíes". Estos tres indicadores pueden, en conse-
cuencia, considerarse representativos de dicho constructo, al superar la varianza extractada
el valor de referencia de ,50. En los otros dos constructos la proporción de varianza explicada
es sensiblemente inferior, aunque próxima al valor de referencia.
Como los coeficientes de correlación múltiple cuadrados ya se expusieron en el suba-
partado 6.6.5, sólo se va a ilustrar el cálculo de la ''fiabilidad del constructo" y de la "varian-
za extractada", al no estar incluido en la mayoría de los paquetes estadísticos. Los errores de
medición de cada indicador se han obtenido restando a uno el cuadrado del coeficiente es-
tandarizado del indicador. Para el cálculo de la fiabilidad y de la varianza extractada se eli- 6.8. La mejora del modelo: su modificacióu o reespecificación
mina el signo del coeficiente. Al buscarse una medida de síntesis, quiere evitarse que los in-
dicadores negativos resten a los positivos. Adviértase que no se ha calculado ni la fiabilidad Cuando el modelo empírico no alcanza niveles adecuados de ajuste, pueden in-
ni la varianza extractada para el constructo "mentalidad", al estar únicamente medido por un troducirse algunas modificaciones en el modelo de partida en busca de una mayor ade-
indicador ("ideología política"), por lo que no procede su cálculo cuación entre ambos modelos. Las modificaciones o correcciones del modelo gene-
(L,S )' ralmente suponen una o varias de las decisiones siguientes:
A. Fiabilidad del constructo = s l'
(L.1;;)· + Le;
a) Eliminar parámetros no significativos (valores t pequeños).
b) Añadir parámetros que muestren un íudice de modificación elevado.
(,837 + ,556 + ,550)' = 691
Rango social =
(,837 + ,556 + ,550)' + (,299 + ,691 + ,698) , Estas decisiones se relacionan con dos actuaciones básicas:

(,940+ ,648+ ,549)' = 766 a) Liberar parámetros que previamente habían sido especificados como "fijos"
Sociabilidad con marroquíes = (cálculo de los índices de modificación, el test multiplicador de Lagrange y el
(,940 + ,648 + ,549)' + (,116 + ,580 + ,699) ,
análisis de los residuos).
Actitud ante la inmigración =
b) Pasar a "fijos" parámetros ajustados como "libres" (test de Wald, valores t).
(,927 + ,664 + ,670 + ,604 + ,608 + ,503)' = 829
(,927 + ,664 + ,670 + ,604 + ,608 + ,503)' + (,141 + ,559 + ,551 + ,635 + ,630 + ,747) , Pero el mal ajuste del modelo también puede deberse a la omisión uo deliberada
de alguna variable relevante en la explicación de las relaciones causales que se anali-
(LA;') zan. Siempre cabe esta posibilidad. Su consideración lleva a un replanteamiento de to-
B. Varianza extractada = -...c;=-'--
(n;')+Ls¡ do el modelo inicial con la inclusión de nuevas variables y la eliminación de las no sig-
nificativas. Lo que supone la repetición de todas las fases del análisis, incluyendo la
. (,837' + ,556' + ,550') = 437 recogida de información, si el nuevo modelo hipotetizado supone la incorporación de
Rango social = (,837' + ,556' + ,550') + (,299 + ,691 + ,698) , nuevas variables.
596 Análisis multivariable. Teoría y práctica (;n la investigación social Capítulo 6: Ecuaciones eSfructurales 597

Para saber qué accióu correctora adoptar, existen diversos medios proporcionados
de referencia por ser el valor teórico de X' para 1 grado de libertad y un nivel de sig-
en los paquetes estadísticos al uso: nificación de ,05.
Pero, como la generalidad de los autores advierten (Saris y Stronkhorst, 1984; 10-
A) El análisis de los residuos (preferiblemente estandarizados) reskog y Sorbom, 1989; Hair et al., 1992, 1999), la posibilidad de incorporar esos
nuevos p~ráI:1etros, (ahora especificados como "libres" y con como cero) también de-
be ~ener jUstIflcaclOn ~eónca. En caso contrario, se recomienda descartar su incorpo-
Como se mencionó en el subapartado 6.7.2, los residuos estandarizados son
raCIón al modelo, pasandose a valorar la pertinencia de otras incorporaciones de pa-
preferibles para la detección de residuos elevados porque eliminan la depende~cia,
rámetros con índices de modificación inferiores, aunque tambiéu superiores al valor de
en los residuos brutos, de la escala de la unidad de medición de las variables. Esta referencia 3,84.
afecta a la magnitud de la varianza, estrechamente relacionada con el tamaño de los
Se está ante una aproximación exploratoria. Cada vez se elimina una restricción y
residuos. Las variables con mayor varianza tienen mayor predisposición a tener re-
siduos elevados. se comparan los valores X' correspondientes a ambos modelos (el original y el modi-
flcado: modelos amdados), para comprobar la mejora de ajuste. Teóricamente, el
El análisis de los residuos estandarizados ayuda a la identificación de variables con
proceso puede continnar hasta que no quede ningún modelo alternativo. Pero ad-
"problemas", aunque no sugiere la actuación a segnir para la mejora del modelo. To-
viértase que, como en todo procedimiento secuencial, la restricción o liberación d'e un
do residuo que supere el valor ±2,0 (estadísticamente significativo a un nivel de ,05) in-
parámetro puede afectar a la significatividad de los otros parámetros no modificados
dica la existencia de error de predicción entre las variables afectadas; sobre todo, cnan-
en el modelo, lo que también hay que considerar.
do el residuo es mayor de 2,58. Los términos de error pueden estar correlacionados
para las mismas variables. Asimismo, en variables con residuos diferentes de cero ca-
be la posibilidad de introducir algún efecto directo (en posiciones que Creen relacio-
nes indirectas entre las variables con residuos distintos de cero). El investigador deberá C) El cambio de parámetro esperado (EPC)
actuar en consecuencia, introduciendo alguna corrección, con la condición de que sea
teóricamente aceptable. Junto con el índice de modificación, algunos programas (como LISREL) ofrecen
el cambio de parámetro esperado (EPC). Éste mide cuánto se espera que el paráme-
tro.cambie (en la dirección positiva o negativa), si se especifica como "libre". Esta pe-
B) El índice de modificación (1M) cuhandad favorece sn utilización para excluir modelos en los que Un parámetro cam-
bia en la dirección errónea.
La mayoría de los programas estadísticos especializados proporcionan índices
de modificación para cada relación no estimada en el modelo de partida (para aque-
llos parámetros normalmente fijados en cero). Ello permite conocer qué nuevos pa- D) El test multiplicador de Lagrange (LM)
rámetros pueden incorporarse al modelo para mejorar su ajuste.
El índice de modificación se obtiene de la diferencia entre dos "X2": uno, que co- Alg?nos programas (como EQS) proporcionan el test multiplicador de Lagrange,
rresponde al modelo donde el parámetro en cuestión se fija en cero; dos, un modelo que es similar al índice de modificación. Determina, ignahnente, el grado de mejora del
donde dicho parámetro se especifica como "libre". El resto de parámetros se estiman ajuste (mediante el cambio en X;), si los parámetros fijados antes en "cero" se con-
en ambos modelos. Despnés, se comparan las diferencias en el estadístico X; en los dos vierte?,en "libres". Si bien, difieren en un aspecto importante: 1M adopta una apro-
modelos. El valor del índice de modificación que resulte indica la disminnción en X;, si XlmaClOn umvanable, mIentras que LM sigue una aproximación multivariable.
dicho parámetro no se fija en cero. Recuérdese qne en el modelado de ecuaciones es- Si el investigado~ permite todas. las combinaciones posibles de restricciones, el pro-
tructurales los valores de X; bajos expresan un buen ajuste de los modelos observado cedImIento LM Implica muchas estimaciones. Para evitado, se han propuesto diversas
y predicho. estrategias. La más común consiste en examinar LM nnivariados (índice de modifi-
Interesan valores altos. Al menos nn índice de modificación <: 3,84, que significa que cació':) para liberar la restricción qne lleva a la mayor reducción en la estimación X; y
se produce nna disminnción estadísticamente significativa (p < 0,05) en el valor X;, repetIr cl proceso con el modelo revIsado hasta la obtención de nn ajuste adecuado
cuando dicho parámetro se especifica como "libre" y pasa a estimarse en nn nuevo mo- (Bollen, 1989). LM univariados también permiten, al ignal que los residnos univaria-
delo. En caso contrario (un 1M inferior a 3,84), no parece probable que se obtenga al- dos, la detección de errores de medición correlacionados entre pares de indicadores de
guna ganancia apreciable en ajuste, si se libera dicho parámetro. El valor 3,84 se toma constructos diferentes, pero no entre los pertenecientes a un mismo constructo.
598 Análisis multivariabLe. Teoría y práctica en la investigación social Capitulo 6: Ecuaciones estructurales 599

E) El test Wald (W) probar si con dichas modificaciones realmente se alcanza un mejor ajuste de los mo-
delos predicho y observado.
Es contrario a los anteriores. Informa del cambio que experimentará ;f si pará- La cantidad de mejora lograda con la modificación puede comprobarse mediante
Inetros previamente especificados como "libres" se transforman en "fijos" porque la reducción en el valor del estadístico de comprobación en uso (normalmente;f) y en
muestran no ser significativos (desde la vertiente estadística y/o lógico-sustantiva). Co- el tamaño de los residuos. Respecto a ;f, Jóreskog y Sórbom{1989: 26) advierten que:
mo LM, se pueden calcular estimaciones W, para todas las restricciones, en busca de "Una caída grande en;f, comparada con la diferencia en grados de libertad indica que los
la mejor combinación. Una estrategia posible es calcular W univariados para cada pa- cambios hechos en el modelo representan una mejora real. Por otro lado, una caída en
rámetro libre y seleccionar aquel que tenga el valor W más bajo; y, así, sucesivamen- ;f, próxima a la diferencia en el número de grados de libertad, indica que se obtiene
te. El proceso continúa hasta que no pueda añadirse ninguna restricción más porque la mejora en ajuste 'aprovechándose de la oportunidad' y los parámetros añadidos pue-
no lograr ninguna mejora en la estimación;f. den no tener significatividad ni significado".
A diferencia de 1M y LM, ahora se valora la posibilidad de excluir algún parámetro Para facilitar el conocimiento de la mejora alcanzada con las modificaciones rea-
(no significativo) del modelo para mejorar su ajuste. En el programa LISREL dicha va- lizadas, Saris y Stronkhorst (1984) proponen el cálculo de delta (Ll), que mide las di-
loración se realiza mediante el examen de los valores t (o z), que muestran la signifi- ferencias en el valor del estadístico de comprobación (.t u otro) entre el modelo de par-
catividad estadística de los parámetros estimados. En otros programas, como EQS, se tida (llamado modelo nulo) y el modelo alternativo (el modificado):
aplica el cuadrado del valor t (o z) y éste se refiere como "test Wald" para estimaciones
de parámetros únicos. En el programa Amos se utilizan las razones críticas, como se
ilustra en el ejemplo a continuación.
Jóreskog y Sórbom (1989) advierten del peligro que supone eliminar parámetros
considerando únicamente el valor t, sobre todo cuando la muestra analizada es pe-
queña. Si el tamaño de la muestra es demasiado pequeño, existen dificultades para de- Donde: "To" representa el valor del estadístico de comprobación para el modelo
tectar la significatividad real de los parámetros. Por esta razón, puede ser errónea cual- nulo y "To " el valor del estadístico para el modelo alternativo. El
quier exclusión de parámetros que se fundamente exclusivamente en su valor t. rango de valores va de 0,0 a 1,0. Un Ll = 0,0 indica que el modelo al-
Aunque el valor t sea pequeño, si la teoría sustantiva sugiere que dicho parámetro ha ternativo no introduce ninguna mejora respecto al modelo nulo. Un Ll
de incluirse en el modelo, debe optarse por su retención, aunque muestre no ser = 1,0 informa de lo contrario: el modelo alternativo ajusta perfecta-
"significativo" estadísticamente. Cuando el tamaño de la muestra es elevado, la lectura mente. Se puede decidir dejar de introducir modificaciones al modelo,
de la significatividad de los parámetros resulta más evidente. cuando se alcanza un valor Ll = 0,9.

• Cualquiera de estas pruebas (1M, LM o W) no informa del cambio que se pro- Pero la comprobación de la mejora lograda con la modificación del modelo inicial
duciría en las estimaciones de los parámetros, sólo del habido en las estimaciones;f. no se reduce a diferencias en el valor ;f, también puede hacerse con la ayuda de las me-
Para solventar esta limitación, Bollen (1989) recomienda examinar el cambio del didas de ajuste de modelos alternativos. Dígase de los índices de ajuste incremental y
parámetro estimado, además del cambio en Xl. Ésta se considera una "estrategia de parsimonia ya referidos en el subapartado 6.7.3. En general, se prefiere que la com-
prudente". Es posible que grandes cambios en estimaciones de parámetros estén probación se haga entre índices que ajustan por grados de libertad.
asociados a valores pequeños de LM o W, y viceversa. . Si antes de comenzar los análisis, el investigador prevé la posibilidad de introducir al-
Asimismo, téngase presente que cualquiera de estos procedimientos estadísticos de teraciones en el modelo inicial, tal vez sea de interés dividir la muestra en dos sub-
reespecificación del modelo no sirve para detectar cambios fundamentales en la es- muestras: una, destinada a la estimación del modelo inicial; otra, a la validación del
tructura del modelo. Por ejemplo, añadir una nueva variable latente, un nuevo indicador, modelo finalmente obtenido. Esta división de la muestra original sólo puede hacerse cuan-
o incluso variar la dirección causal de la relación entre los indicadores y los constructos, do el tamaño de la muestra es suficientemente elevado para que su fraccionamiento no
y entre ellos. Estas modificaciones exigen otro tipo de reflexión más lógico-sustantiva (to- haga peligrar la significatividad estadística (conjunta y parcial) del modelo resultante.
mando de referente el marco teórico de la investigación) que empírica. Lo mismo cabe de- Opcionalmente, la validación cruzada -propuesta por Cudeck y Brown para mo-
cir de la conveniencia de que los parámetros liberados introducidos en el modelo tengan delos de estructura de covarianza en 1983 ("Cross validation of covariance structures",
una interpretación lógica y clara (un significado sustantivo). Multivariate Behavioral Research, 18: 147-167)- puede realizarse invirtiendo, de nue-
Cualquier alteración o modificación del modelo original lleva, necesariamente, a vo, los roles de las primeras y las segundas mitades de las muestras. Qúiere esto decir
la repetición de los análisis (en la misma o en otra muestra diferente). Se trata de com- que, la segnnda mitad de la muestra actuará como la muestra a analizar, mientras que
600 Análisis multivariable. Teoría y práctica en ra investigación social Capitulo 6: Ecuaciones estructurales 601

la primera mitad será la muestra de validación. Sobre esta práctica, Bollen (1989) ob- Tabla A. Razones críticas para las diferencias entre parámetros
serva que, cuando el tamaño de la muestra es pequeño, la validación cruzada tiende a
Parámetros Razones críticas Parámetros Razones críticas
favorecer modelos con pocos parámetros. En cambio, cuando la muestra es grande y
existen muchos parámetros, sus resultados mejoran. Par~7 y par-3 -1,037 Par-39 y par-8 -.367
El modelo modificado puede, además, comprobarse en otra muestra ajena a la ana- Par-29 y par-3 -,224 Par-39 y par-9 ,767
lizada. El procedimiento de modificación concluye cuando se alcanza un ajuste cla- Par-29 y par-7 ,495 Par-38 y par-12 -,819
ramente mejor y se han eliminado todos los errores de especificación importantes. Aun- Par-9 y par-8 -,998 Par-41 y par-12 ,723
Par-l1 y par-la -,139 Par-40 y par-14 1,871
que, adviértase que "sólo podemos rechazar un modelo -nunca podemos probar que un
Par-15 y par-lO ,124 Par-32 y par-24 ,734
modelo sea válido-o Un buen ajuste del modelo a los datos no significa que tengamos Par-15 y par-ll ,455 Par-37 y par-25 1,170
el modelo verdadero. Necesitamos examinar otras especificaciones plausibles del Par-14 y par-12 1,461 Par-36 y par-33 1,153
ajuste; necesitamos explorar varias vías para asegurar si un modelo tiene una corres- Par-34 y par-9 -,842 Par-38 y par-33 -,099
pondencia razonable con la realidad" (Bollen, 1989: 72). Par-33 y par-12 -,522 Par-41 y par-33 1,731
Par-34 y par-14 1,536 Par-40 y par-34 ,436
Par-36 y par-12 ,309 Par-41 y par-36 756

que valorar si cumple, además, el requisito de tener justificación teórica; es decir, si tiene sen-
tido lógico-sustantivo que ambos errores de medición tengan varianzas iguales. En caso de
EJEMPLQ D.E INTRODUCCiÓN DE MODIFICACIONES PARÍ>.
desestimars?,se procede a la búsqueda de otra restricción más "lógica", que produzca igual-
LA MEJORA [)EL MODELO EMPíRICO mente un mlnlmo Incremento en r,
respecto a los grados de libertad, que aumentan. Esto
puede ayudar a mejorar el ajuste del modelo.
Como en la muestra analizada había casos sin respuesta, el programa Amos no calcu-
la los índices de modificación, pese a ser ésta una opción disponible. En cambio, sí ofrece el
listado de las razones críticas para las diferencias entre todos los pares de parámetros es-
timados. Éstas se consideran de interés para seguir la estrategia de introducir restricciones 6,9. La presentación del modelo final
adicionales que produzcan un aumento relativamente grande en los grados de libertad con
sólo un leve incremento en el estadístico r.Toda razón cdtica;o, ±1,96 permite rechazar (a Cuando se ha alcanzado un modelo empírico con un grado adecuado de "ajuste",
un nivel de significación de ,05) la hipótesis nula de que dos coeficientes sean iguales en la la pregunta inmediata es si éste logra plasmar el mecanismo causal de las variables que
población. Su cuadrado es, aproximadamente, la cantidad por la que el estadístico rau- forman el modelo teórico. El haber obtenido un modelo que se ajusta "bien" a los da-
mentará, si los dos parámetros fuesen fijados iguales uno respecto del otro. tos observados no implica, necesariamente, que se haya obtenido el modelo correcto.
Sin considerar los ceros situados en la diagonal principal, la matriz de las razones críti- A partir de una misma serie de datos pueden obtenerse modelos varios que ajusten
cas para las diferencias entre parámetros contiene 820 entradas, una para cada par de pa- bien. Entonces, ¿cómo puede determinarse que se ha alcanzado el modelo correcto?
rámetros. Por su elevada dimensión, sólo se extractan (tabla A) las razones críticas de interés Saris y Stronkhorst (1984) recomiendan seguir los siguientes criterios adicionales
para la modificación del modelo: aquéllas cuyo valor sea inferior a ±1 ,96 porque suponen que para poder concluir que el modelo obtenido es el "correcto":
no puede rechazarse la hipótesis nula. Las razones se obtienen de la diferencia entre ambos
parámetros dividida por el error típico estimado de dicha diferencia. Como los parámetros apa-
a) Que el modelo empírico sea plausible; que tenga una interpretación lógica.
recen identificados como "par-1, par-2, par-3 ...", se recomienda, para su interpretación, revisar
las tablas de los coeficientes estimados dadas en el ejemplo del subapartado 6.6.5, donde b) La proporción de varianza explicada de las variables endógenas en el modelo
aparecen las etiquetas que identifican a cada parámetro. sea suficientemente elevada: R 2 ;o, 0,90. Aunque la mayoría de los estudios en
El proceso de elección puede comenzar buscando la razón crítica más pequeña: -,099. ciencias sociales no alcanzan este valor de referencia, es necesario poner el te-
Ésta corresponde al par de parámetros "par-38" (eps6) y "par-33" (eps1). Su cuadrado es igual cho elevado para evitar influencias causales no justificadas. Si, por el contrario,
a ,009801 (-,099'). Significa que una modificación del modelo que asuma que "eps6" y "eps1" la proporción de varianza es baja, puede significar alguno o varios de los as-
tienen varianzas iguales resulta en un valor r
que excede 327,363 por casi ,0098, pero con pectos siguientes:
64 grados de libertad (en vez de con 63). En consecuencia, se espera que la introducción de
dicha restricción adicional en el modelo original permita la obtención de un mejor ajuste del - Se han ignorado errores de medición importantes.
modelo. Pero, antes de proceder a su introducción y posterior reestimación del modelo, hay - No se han medido variables relevantes en las relaciones causales analizadas.
602 Análisis multivariable. Teoría y práctica en La investigación social Capitulo 6: Ecuaciones estructurales 603

La forma funcional de las relaciones difiere de la hipotetizada. Dicho con A estas dos recomendaciones básicas hay que añadir que en la presentación del
otras palabras, las relaciones entre las variables no se han especificado de for- modelo final debe hacerse referencia a cualquier modificación realizada en el mode-
ma correcta. lo inicial: los distintos modelos alternativos analizados, junto a los criterios seguidos en
su aceptación o rechazo. También, se recomienda que se indique el nivel de signifi-
Estos errores de especificación pueden provocar serios' sesgos en las esti- cación elegido en las pruebas de significatividad estadística y los valores de referencia
maciones de los parámetros, llevando a conclusiones erróneas con respecto a las tomados en los índices de ajuste. Estas referencias básicas se añaden a la interpretación
relaciones causales. Para corregirlos habría que volver al marco teónco de del modelo. Para su representación gráfica, se recomienda además seguir las con-
partida y comenzar el proceso de nuevo. " venciones resumidas en el apartado 6.4.
c) La replicabilidad de los resultados. Los efectos causales deberan ser los rmsmos
en muestras diferentes y en distintos momentos temporales. En caso de no cum-
plirse, nO se ha descubierto la relación causal correcta. 6.10. La particularidad del análisis factorial confirmatorio

Si, siguiendo estos u otros criterios que el investigador estime pertinente, se llega El desarrollo inicial del análisis factorial confirmatorio fue realizado por Karl Jo-
al convencimiento de que se ha obtenido un modelo causal "correcto", se procede a la reskog en 1969 ("A general approach to confirmatory maximum likelihood factor
presentación del modelo. ., , . analysis", Psychometrika, 34: 183). Ello incide en su formulación. Recuérdese que es-
La presentación del modelo "final" incluye la represeutaclOn graÍlca del modelo, te autor, Joreskog, es, asimismo, uno de los creadores del modelado de ecuaciones es-
además de la estadística, con los valores de sus componentes. En una tabla resumen se tructurales, lo que contribuye a la similitud de ambas técnicas analíticas: en su for-
incluye la estimación de cada parámetro, junto a su error típico, la razón critica (valor mulación, representación, ejecución y evaluación. Concretamente, el análisis factorial
t) y su significatividad. La presentación de los resultados en fo;ma de tabla t¡ene ~a ve~­ confirmatorio se presenta como una extensión del componente de medición del mo-
taja principal de proporcionar mayor información. En camblO, la representaclOn gra- delado de ecuaciones estructurales. Ésta es la razón de que se haya decidido postergar
fica del modelo, en un diagrama de senderos, facilita la comprensión del modelo en su la explicación del análisis factorial confirmatorio al presente capítulo, una vez concluida
conjunto, incluyendo tanto los efectos directos entre las variables como los mdrrectos. la explicación del modelado de ecuaciones estructurales, y no incluirla en el capítulo
Asimismo, ayuda a localizar el significado de cada parámetro estimado y su repercu- 5, que trata del análisis factorial.
sión en el conjunto del modelo. . Para nO redundar en aspectos ya tratados en apartados anteriores, la exposición del
Estas ventajas principales de la representación gráfica no se logran, sm embargo, análisis factorial confirmatorio se limita a lo particular de esta técnica analítica, a lo que
en modelos complejos, con un número elevado de variables late~tes y empírica~ y con la distingue del análisis factorial exploratorio y, en especial, del modelado de ecuaciones
muchas flechas relacionándolas. Todo ello puede convertir al graÍlco en mdesclfrable, estructurales.
cuando se le añaden las estimaciones de los parámetros. Si esto sucede, la recomen-
dación es presentar los gráficos correspondientes a los modelos de medición y es-
tructural por separado. ., 6.10.1. Diferencias con el análisis factorial exploratorio
Otras recomendaciones para facilitar la comprensión del modelo en su representaclon
gráfica (aunque son igualmente extensibles a la presentación en forma de tabla) son: El análisis factorial "exploratorio" -en consonancia con su denominación- cons-
tituye una téclÚca analítica "exploratoria". El investigador no parte de un conocimiento
a) Representar las variables empíricas y latentes mediante una etiqueta que las previo de la relación entre las variables analizadas. Precisamente aplica esta técnica de
nombre en vez de su denotación mediante letras del alfabeto gnego (como su- análisis para descubrir el vínculo existente entre las diversas variables empíricas (o in-
cede e; LISREL) o letras con sufijos (como en EQS). Ello facilita la com- dicadores) con las dimensiones latentes (llámense factores comunes o componentes
prensión del modelo en su conjunto y de las relaciones concretas entre las va- principales).
riables. En vez, por ejemplo, de nombrar a la pnmera vanabk, latente El análisis factorial "confirmatorio" se configura, por el contrario, como una téc-
exógena "~J" (LISREL) o "Fz" (EQS), es preferible su deslgnaclOn como nica analítica multivariable "confirmatoria", orientada a la comprobación de teorías.
"rango social". . Como el modelado de ecuaciones estructurales parte de un modelo inicial que quie-
b) Indicar si la estimación del parámetro es estandarizada o no-estandanzada re confirmarse. En el modelo no sólo se especifica el número de factores comunes y de va-
(añadirse una "s" como sufijo en las estimaciones estandarizadas o mediante riables empíricas a analizar, también incluye la estructura de las relaciones entre las
otra indicación expresa). variables: qué variable latente influye en qué variable observada, así como los efectos di-
604 Análisis multivariable. Teoria y práctica en la investigación social Capítulo 6: Ecuaciones estructurales 605

rectos de las variables latentes en las observadas. Algunos de los efectos se fijan de- a) Número de factores comunes y de variables empíricas (o indicadores). El núme-
liberadamente en "O" (o en otra constante) y otros, en cambio, se dejan "libres". Es- ro de factores ún~cos no es necesario explicitarlo, al ser igual al número indicadores.
ta decisión se adopta en consonancia con el marco teórico de la investigación. En cambIO, el numero de factores comunes ha de ser inferior al de indicadores
El investigador conoce previamente el modelo hipotético de la relación entre las b) La relación .~ue vincula l~s factores latentes y sus indicadores respectivos, así c~­
variables) ya a partir de una o varias teorías sustantivas) de generalizaciones empíricas mo la relaeIOu de est~s ultImos con los factores únicos (o términos de error).
que todavía no han tomado cuerpo de "teoría", o ya de la aplicación previa de alguna c) Las vananzas y covartanzas entre los factores comunes y las correspondientes
técnica analítica exploratoria (análisis factorial exploratorio, el análisis de conglo- a los factores únicos.
merados u otra técnica de interdependencia). El objetivo principal es "confirmar" el
modelo "hipotetizado", como en el modelado de ecuaciones estructurales. . Para que el modelo .~ueda considerarse identificado es condición necesaria que se
Mientras el modelo factorial exploratorio (de factor común) se representa mediante Impo~ga alguna restnceIOn en las matrices correspondientes Como en el modelado de
K .
ecua~lo?,es estructurales, la decisión de a qué coeficiente y/o correlación se impone tal
la ecuación" X. = '"
,L...¡ J...F.
IJ J
+ e· " (donde "x." son las variables empíricas, "k" el nú-
I

1"'1
I ¡
restnccIOn se adopta en consonancIa con las hipótesis de investigación. Éstas deter-
mero de factores, "AI.." los coeficientes factoriales, que equivalen a los. coeficientes be- nnnan toda e~pecificación e? la~ matrices iI., <1>, e, y 'P. Por ejemplo, en la matriz de va-
ta en regresión lineal y "e," los términos de error), el modelo factonal confirmatorio nan~a~-co.vananzas de los tenUlnos de error (e,: theta-delta) la hipótesis de errores de
adopta la misma definición que el modelo de medición en el modelado de ecuacIOnes medICIón mcorrelaclonados suele re~tringirse a los elementos fuera de la diagonal, que
estructurales (subapartado 6.4.2): "x. = il.xS. + 8." (donde la magnitud de los pesos o se fIjan en cer~. Igualmente, la m~~lst~ncla de relación entre una variable empírica y
, J' l ' un factor comun se traduce en la fijaCIOn del coeficiente íL correspondiente a cero És-
coeficientes factoriales se pueden especificar previamente, a partir de modelo teón-
co inicial. Su valor se interpreta, igualmente, como el número de unidades que cambia te es el proceder habitual. 'i .

la variable empírica por cada unidad de cambio en la variable latente "si')· Dillon y G?ldstein (1984: 100) observan que: "En la práctica, los valores para 'P ra-
En el análisis factorial confirmatorio los errores de medición ("'1") pueden estar ra ~ez se espeCIfican. <1> snele definirse para que los elementos de su diagonal seanuni-
correlacionados, a difereucia del análisis factorial exploratorio. Aunque, al igual que tanos y todos los otros elementos sean libres, indicando una solución de factor co-
en el análisis factorial exploratorio, no se considera la correlación eutre los factores co- rrelaCIonado obbcua, o para que los elementos de su diagonal sean la unidad y todos
munes y los únicos. Recuérdese que los factores comunes ("S/') son las diferentes di- los eIer.nentos fuera de la dIagonal sean cero, indicando nna solución ortogonal. Los va-
mensiones latentes del concepto que se mide mediante los indicadores elegidos. Los lores fijados p::ra iI. suelen establecerse en cero. Esto equivale a especificar qué variables
factores únicos o residuales (" 8") también son variables latentes, pero referidas a los no contnbUlra.n a, un factor común particular. Los elementos (no restringidos) libres
errores de medición, a la probabilidad de que el indicador no logre medir de forma ine- entonces reflejaran la estructura factorial bipotetizada".
quívoca y fiable el concepto que pretende medir. Las variables empíricas están vin- , . Comolas variables latentes carecen de unidad de medición estándar, la actuación
culadas a uno o varios factores comunes, si bien se ven afectadas por sólo un factor úni- tIpI~a es fIjar sus ~ananzas a 1 o dejarla en la misma unidad de medición de uno de sus
co. Hay uno por cada variable empírica (ya que el modelo especifica implícitamente mdlcadores, restnnglendo Á,¡ a 1, como en el modelado de ecuaciones estructurales.
que la matriz e, es una matriz identidad). Lo que habrá de determinar es la cuantía de
dicho error. Cuanto menor sea, mejor es la medición llevada a cabo. • A la especificación le sigue la estimación de los parámetros "libres". Como en el
modelado de ecuaCIOnes estructurales, el objetivo general de la estimación es "en-
contrar estImaCIOnes de los parámetros que reproduzcan la matriz muestral de va-
6.1 0.2. La obtención de un modelo factorial confirmatorio n~nzas y covarianzas. de las variables observadas tan próximo como Sea posible en al-
gun sentIdo bren defmido" (Long, 1991: 56) .
El análisis factorial confirmatorio sigue las mismas fases de ejecución del modelado de . P?ra ajust~r ambas matrices~e varianzas-covarianzas (o de correlación), se siguen
ecuaciones estructurales. El análisis comienza COn la especificación e identificación del mo- los mIsmos metodos de estImacIOn de parámetros aplicados eu el modelado de ecua-
delo. Concluye con la evaluación del modelo resultante: si se desvía "significativamente" CIOnes estructurales: ULS, GLS, ML y demás resumidos en el apartado 6.6. Recuérdese
del modelo inicial hipotetizado. En caso afirmativo, se procede a su reespecificación. q~e ML seprefIere para variables continuas, mientras que GLS se adecua más al aná-
bSls de ~~nables ordinales y dicotómicas. En cualesquiera de estos procedimientos, la
• Respecto a la fase de especificación, en el análisis factorial confirmatorio supone estlmaCIOn de parámetros se realiza iterativamente. El número de iteraciones está de-
la explicitación (en consonancia con el marco teórico de la investigación) de aspectos ternnnado por el valor que Se establezca para el ajuste de ambas matrices. Cuanto más
fundamentales como los siguientes: baJO sea este valor, mayor es el número de iteraciones que se precisan para alcanzar el
606 Análisis multivariable. Teoría y práctica en la investigación social Capitulo 6: Ecuaciones estructurales 607

criterio de convergencia entre ambas matrices establecido. En la mayoría de los pro- • La evaluación de un modelo factorial confirmatorio sigue los mismos pasos enun-
gramas estadísticos este valor o promedio de las diferencias absolutas se establece, por ciados en el modelado de ecuaciones estructurales (apartado 6.7), exceptuando, ob-
defecto, en 0,001, si bien, el investigador puede cambiar deliberadamente dicho valor. viamente, lo que afecta al modelo estructural. Los aspectos a considerar se refieren
Además, es conveniente que el investigador fije el máximo de iteraciones que el principalmente a:
programa permita para evitar que se reduzca al aplicado por defecto: 30 iteraciones.
En el programa LISREL pueden realizarse hasta 250 iteraciones, mientras que en los a) Estimaciones erróneas: estimaciones de parámetros "ilógicas", no coincidentes
programas EQS y Amos el número máximo de iteraciones se duplican. cbn las hipótesis del investigador e imposibles de ser ciertas como, por ejemplo,
Otro aspecto a considerar para alcanzar la convergencia de las estimaciones de los correlaCIOnes superiores a ±1,0 e, incluso, muy próximas a 0,0; que el signo del
parámetros con la matriz muestral u observada son los valores de partida para los pa- coefiCIente no concuerde COn el esperado; que la magnitud del parámetro es-
rámetros desconocidos. "Cuanto más próximos estén estos valores con las estimacio- timado no sea lógica. También son estimaciones erróneas las varianzas negativas
nes finales, menos pasos se necesitan para la convergencia" (Bollen, 1989: 255). Aun- de los términos de error.
que los programas estadísticos pueden proporcionar valores iniciales, el investigador Estas estimaciones erróneas pueden deberse a una mala especificación
también puede seleccionarlos. Para este propósito es de gran ayuda el conocimiento del modelo (aunque el ajuste global del modelo sea adecuado); a una deficiente
de las varianzas-covarianzas de las variables observadas, además de la dirección y mag- representatividad de la muestra; a la influencia de los casos "atípicos"; y al in-
nitud aproximada de las relaciones que se hipoteticen entre las variables. Esta infor- cumphmICnto, en general, de alguno de los requisitos básicos para la correcta
mación puede obtenerse de otros análisis de datos similares. realización de un análisis factorial confirmatorio (como, por ejemplo, el supuesto
También pueden tomarse como valores de partida los valores de los parámetros ob- de normalidad multivariable. En especial, cuando se aplican los métodos de es-
tenidos en la última iteración. Dichos valores pueden, asimismo, ser los valores de par- timación de parámetros ML y GLS. Otros métodos, como ULS, no exigen, en
tida para una nueva serie de iteraciones. cambio, el cumplimiento de dicho supuesto).
En la búsqueda de valores de partida pueden seguirse alguna o varias de las pro- b) La bondad del ajuste global del modelo. Si las estimaciones de los parámetros
puestas de Bollen (1989): y sus errores típicos se aplican en la comprobación de la "significatividad" es-
tadística de los parámetros individuales, la comprobación de la significatividad
a) Cuando se escala una variable latente, ésta nunca debe exceder a la variable ob- del modelo en su conjunto exige el cumplimiento de varios de los índices de
servada respecto a la que se escala. Si otros indicadores presentan coeficientes bondad de ajuste utilizados en el modelado de ecuaciones estructurales (su-
factoriales también elevados en el mismo factor, los valores de partida razo- bapartado 6.7.3) A decir:;f, GFI, AGFl, NFl, lFl, RMR, CN,;f normado, AlC
nables para sus Al' han de aproximarse a 1,0. Recuérdese que A,¡ = 1,0 puede ser y demás resumidos en el susodicho subapartado, y que se aplican en modelos
una restricción n~cesaria para escalar una variable latente. que logren ser "identificados". Estos índices de ajuste global no logran, sin em-
b) Los valores de partida para las covarianzas de los errores de medición no deben bargo, resumir los "R2" (coeficientes de determinación) para todas las ecua-
llevar a correlaciones de los errores que excedan 1,0. ciones del modelo. Por ello se insiste en el empleo conjunto de todos los esta-
e) Los valores para <!> deben mantener las correlaciones para las variables laten- dísticos que ayuden en la evaluación del modelo obtenido tras la aplicación de
tes dentro de los límites ±1,0. un análisis factorial confirmatorio.

Además hay que considerar el tamaño de la muestra y los debidos a errores en la Respecto al coeficiente de determinación (coeficiente de correlación múltiple cua-
especificación del modelo. En el análisis factorial confirmatorio, la "no convergencia" drado: "R2,,), hay que decir que éste también actúa en el análisis factorial confirmatorio
es más factible en tamaños muestrales inferiores a 150 unidades y cuando existen só- como una medida de ajuste de cada componente. Se calcula para cada variable em-
lo dos indicadores por factor, de acuerdo con lo encontrado en diversos experimentos pírica (X) mediante la siguiente ecuación:
de Montecarlo (Bollen, 1989).
Ante una situación de "no convergencia", las soluciones posibles van desde au-
R'x, = 1- Var(8,)
mentar el tamaño de la muestra y/o el número de indicadores por variable latente, has- '2
ta la modificación de los valores de partida, el criterio de convergencia fijado y el número a¡¡
máximo de iteraciones permitido por el programa estadístico. Hasta que no se alcance la
"convergencia" de ambás matrices (la observada y estimada), no podrá evaluarse el mo- . Donde "~:''' ~epresenta la varianza de Xi predicha por el modelo y "Var (0,)" la va-
delo obtenido. nanza de los termmos de errOr de X¡ (que suele ser una pequeña proporción de la varianza
608 Análisis multivariable. Teoría y práctica en fa investigación social Capítulo 6: Ecuaciones estructurales 609

total de los indicadores). Para su cálculo, los indicadores se consideran las variables de- A tal fin es de utilidad el análisis de los residuos estandarizados, el índice de mo-
pendientes, mientras que las variables latentes ("~") actúan a modo de variables dificación (IM), el test multiplicador de Lagrange (LM) y la prueba de Wald (W), ya
independientes o predictoras. Su interpretación es adáloga a la habida en regresión li- descntos en el apartado 6.8. También puede optarse por aislar las fuentes de la ma-
neal. Interesan valores de "R;," elevados (próximos a 1,0). Ello significa que}a varianza la especificación. Para ello se descompone el modelo que presenta un mal ajuste en
de los términos de error [var( 8)1es pequeña respecto a la varianza de X,( (J~. La pro- sus distintos componentes para, a continuación, volver a estimarlos por separado. Por
porción de varianza de X, "explicada" por la variable latente es elevada, lo que significa ejemplo, si se tiene un modelo factorial confirmatorio con tres factores, cada uno de
que los indicadores elegidos para la medición de las variables latentes son "buenas" me- ellos medido mediante cinco indicadores, se pnede comenzar realizando un análisis
didas de dichas variables. factorial por separado para cada uno de los tres factores y sus cinco indicadores. Des-
Como" R 2 " mide la relación del indicador con la variable latente, su valor puede pués, si los distintos análisis factoriales confirmatorios realizados resultan ajustar bien,
x se pueden seleccionar combinaciones de dos factores cada vez. El proceso continúa
tomarse como'medida de validez. Recuérdese que la validez de un iudicador hace re-
ferencia al grado en que dicho indicador mide lo que se pretende que mida. También hasta que se hayan estrechado los sectores que precisan atención. Este proceder ayu-
puede actuar como medida de fiabilidad, entendida como consistencia de la medición da a la detección de la parte del modelo global que produce peor ajuste; es decir,
realizada cuando los mismos indicadores se emplean en la medicióu repetida de los mis- aquella que precisa modificación. No obstante, hay que tener presente que no
mos conceptos teóricos. Si quiere conocerse el efecto conjunto de las variables laten- siempre coincide el ajuste del componente del modelo por separado con el corres-
tes en las observadas, el coeficiente de determinación pasa a calcularse como: pondiente a la conjunción de dicho componente con otros incluidos en el modelo. A
ello se añaden dos inconvenientes más (Bollen, 1989): uno, el problema con el mo-
delo puede que sólo se evidencie cuando se ajusta el modelo completo; dos, en mo-
delos con un número elevado de componentes, este proceder se convierte en inviable,
al suponer la estimación de un número elevado de submodelos, con la complejidad
consiguiente en su interpretación.
Cualquier modificación del modelo original no sólo debe basarse en criterios es-
• En el análisis factorial confinnatorio pueden además calcularse las puntuaciones tadísticos. También se precisa que tenga una interpretación lógica en el conjunto del
factoriales, si quiere conocerse los valores concretos que adoptarán los factores comunes modelo analizado. La introducción de la modificación supone la repetición de los aná-
para casos concretos. Su cálculo se realiza mediante una función ponderada de las va- lisis, como sucede en el modelado de ecuaciones estructurales. La reestimación del mo-
riables observadas. Quizá, la más popular sea, como en el análisis factorial exploratorio, delo se puede hacer en la misma muestra o, a ser posible, en una muestra indepen-
la realizada mediante el método de regresión, donde "~" representa la estimación de diente a la inicial. En este último caso, se procedería a una "validación cruzada"
"~". Lo mismo cabe decir de los otros términos de la ecuación: ~ = <Í'>A;i::;: (descrita en el apartado 6.8).
El peso que multiplica X es el estimador de los coeficientes de regresión para la re-
gresión "hipotética" de la variable latente "~" en el indicador X. Mediante este pro-
cedimiento se pueden calcular diversas puntuaciones factoriales en las distintas va-
riables latentes.
.·E;JEMPLQDI{l!/IJ MODELO FIiCTORIALCONFIRMATORlp
• Por último, como en el modelado de ecuaciones estructurales, cuando se detecte
que ha habido una mala especificación del modelo de partida (que explique su mal Los distintos análisis de factor común realizados (capítulo 5) coincidían en indicar la
ajuste), hay que proceder a la reespecificación del modelo. Esto supone plantear una existencia de 4 dimensiones latentes en los 14 indicadores analizados. Se quiere corro-
serie de cuestioues relativas al modelo como, por ejemplo: borar dicha clasificación de las variables mediante un análisis factorial confirmatorio. Pa-
ra facilitar la identificación del modelo se elimina la cuarta variable latente ("mentalidad")
porque sólo afecta a un indicador ("ideología política"). La variable "sexo" es descartada
a) La conveniencia de añadir uno o varios indicadores. por no presentar un coeficiente factorial significativo en ninguno de los factores comunes
b) Incluir alguna variable latente que esté más relacionada con los indicadores ana- extractados. En consecuencia, se sigue el procedimiento usual de sólo considerar la es-
lizados. timación de los constructos latentes con más de un indicador. La figura A ilustra la solu-
e) Algún indicador puede medir más de un constructo latente. ción estandarizada del modelo factorial confirmatorio obtenido mediante el método de má-
d) Una variable latente puede incluir a su vez dos o más constructos. xima verosimilitud. Éste fue el método de estimación de parámetros elegido por las
e) Dos O más errores de medicióu pueden estar correlacionados entre sí. mismas razones que en el modelado de ecuaciones estructurales (apartado 6.6).
610 Análisis multivariable. Teoría y práctica en la investigaci6n social Capitulo 6: Ecuaciones estructurales 611

factores únicos más los tres factores comunes "sociabilidad con marroquíes", "actitud an~
te la inmigración" y "rango social"). Las tablas que siguen a continuación ayudan a la des-
cr;pción del modelo obtenido.
La tabla A contiene los coeficientes factoriales, estandarizados y no estandarizados,
que relacionan las variables manifiestas con las latentes. Su valor expresa cuánto varía
la variable observada por cada unidad de variación del constructo respectivo, mante-
niéndose las demás variables constantes.

Tabla A. Coeficientes factoriales estandarizados y no estandarizados

Coeficientes no estandarizados
Senderos Coeficientes Etiqueta*
Coeficiente S.E. C.R. está.ndar

Estudios r rango social 1,000 0,853


Ingresos r rango social 56840,581 3498,429 16,247 0,557 par-9
Edad r rango social -9.537 0,560 -17,016 -0,543 par-10
Casar marroquí r sociabilidad marroquí 1,000 0,789
Vecino marroquí r sociabilidad marroquí 0,590 0,021 27,721 0,696 par-1
Simpatía marroquí <- sociabilidad marroquí -2,073 0,088 -23,600 -0,606 par-2
Entrada inmigrantes f-- actitud Inmigración 1,000 0,606
Leyes inmigración r actitud inmigración -1,444 0,083 -17,468 -0,536 par-3
Regularizar inmigrantes f-- actitud inmigración -0,604 0,032 -18,953 -0,540 par-4
N.O inmigrantes r actitud inmigración 0,861 0,049 17,417 0,525 par·5
Inmigrante delincuente .r- actitud inmigración 0,659 0,037 17,608 0,511 par-6
Partido racista f-- actitud inmigración 0,588 0,041 14,391 0,394 par-7

*Etiqueta que pone el programa para identificar al sendero en análisis posteriores.

Todos los coeficientes estimados son estadísticamente significativos, al ser sus ra-
zones críticas bastante superiores a los valores de referencia de ±1 ,96 (para un nivel de
,85 significación de ,05) e, incluso, ±2,576 (para un nivel de significación de ,01). En conse-
cuencia, puede afirmarse, con una mínima probabilidad de error, que los coeficientes es-
rango social
timados son estadísticamente significativos, Todos los indicadores analizados están
significativamente relacionados con sus constructos respectivos.
La tabla B incluye las estimaciones de los interceptas, que también son "no estan-
,29
darizados". Se calculan para las 12 variables observadas y se utilizan en su predicción,
edad delta12
añadiéndose a las ecuaciones respectivas (junto a los coeiicientes de regresión no es-
tandarizados), como en regresión lineal. Obsérvese que todos los interceptas son también
estadísticamente significativos, a decir por sus elevadas razones críticas.
Figura A. Solución estandarizada del modelo factorial confirmatorio.
La tabla e incluye las estimaciones de las varianzas y covarianzas, Adviértase que,
a diferencia del modelado de ecuaciones estructurales, ninguna de las varianzas de
En el gráfico puede observase la inexistencia de estimaciones erróneas. Todos los coefi- los factores comunes Se ha especificado previamente en 1, Dicha especificación ahora no
cientes estandarizados son inferiores a ±1 y, como muestra la tabla e, ninguna de las va- es necesaria para que el modelo sea identificado. Además, se probó su introducción y el
rianzas de los errores de medición es negativa, Ello, sumado a la similitud de las pon- modelo obtenido logró un peor aíuste que el modelo aquí comentado. Lo que sí se es-
deraciones de cada indicador en cada constructo con las obtenidas en el análisis factorial pecificó fue la media de las variables latentes a O (asumiendo que son estandariza-
exploratorio (en el signo e incluso en su magnitud) y al aíuste del modelo en general (ta- das). Se precisaba imponer alguna restricción a los interceptas y a los coeficientes fac-
bla F), contribuye a que se considere al modelo obtenido "válido". Se trata de un mode- toriales que ayude a la identificación del modelo, al estimarse la media de los factores. Al
lo recursivo, integrado por 27 variables: 12 variables son observadas y 15 latentes (los 12 final fue ésta la restricción elegida. Todas las varianzas, al igual que la covarianza, son es-
612 Análisis mallivariable. Teoría y práclica en la investigación social Capttulo 6: Ecuaciones estructurales 613

Tabla B. Interceptas Las correlaciones entre los factores comunes se muestran en la figura A. Los dos fac-
tores más correlacionados son "sociabilidad con marroquíes" y "actitud ante la inmigración"
Variables Intercepto S. E. C.R. Etiqueta (,644). Le sigue la correlación negativa existente entre los factores "rango social" y "acti-
tud ante la inmigración" (-,414), que no varían en la misma dirección. Por último, la co-
Estudios 2,078 0,025 82,982 par~22 rrelación entre las variables "rango" y "sociabilidad" también es negativa, aunque leve
Ingresos 1,46e+005 2405,098 60,582 par-23 (-,204).
Edad 44,936 0,363 123,752 par-24 Las correlaciones cuadradas múltiples de los indicadores (situadas encima del cua-
Casar con marroquf 1.672 0,020 82,104 par-13
drado que los incluye en la figura A) se encuentran además en la tabla D. Recuérdese que
Vecino marroquí 1,269 0,014 93,818 par-14
par-15 dichas correlaciones múltiples cuadradas indican la proporción de la varianza de las va-
Simpatía hacia marroquíes 5,982 0,057 104,637
0,013 146,025 par-16 riables observadas que es explicada por el factor común. Interesa, por tanto, valores ele-
Entrada inmigrantes 1,906
Leyes inmigración 2,698 0,024 111,908 par-17 vados porque significan que los indicadores elegidos para la medición de dichos cons-
Regularizar inmigrantes 0,754 0,009 83,149 par-18 tructos son adecuados. La variable "estudios" es la que obtiene una mayor correlación
N.o inmigrantes 2,218 0,013 164,750 par-19 múltiple cuadrada: ,728. Sólo un 27% de su variabilidad no queda explicada por el factor
Inmigrante delincuente 0,569 0,011 54,108 par-2O común "rango social", siendo atribuible al factor único. Le sigue la variable "casar con ma-
Partido racista 1,434 0,012 119,408 par-21 rroquí", con una correlación múltiple cuadrada de ,622. Las correlaciones múltiples cua-
dradas de los indicadores elegidos en la medición de la "actitud ante la inmigración" son
en general bajas: la más elevada es ,368 (corresponde a la variable "entrada inmigrante")
y la más baja es ,155 ("partido racista"). Recuérdese que esta última variable es la que me-
tadísticamente significativas. Las elevadás razones crfticas permiten rechazar la hipóte- nor coeficiente factorial obtuvo en todos los análisis de factor común realizados (capítu-
sis nula de que las covarianzas y varianzas sean cero en la población, con una probabi- lo 5), situándose próximo al valor utilizado de referencia para considerar la saturación es-
lidad prácticamente nula de errar en la inferencia. tadísticamente significativa (±,30). Las variables agrupadas en la dimensión latente
llamada "actitud ante la inmigración" son las que obtienen la mayor parte de su vari"bilidad
atribuible a factores únicos. Este constructo ha quedado, en consecuencia, menos defi-
Tabla C. Varianzas y covarianzas nido por los indicadores elegidos. Para constatarlo se procede al cálculo de la fiabilidad
del constructo y de la varianza extractada:
Variables Estimación S.E. C.R. Etiqueta

Varianzas: (LA.,' )'


• Fiabilidad del constructo = --'=",-,'--
Sociabilidad marroquí 0,629 0,033 19,119 par-25 (LA.!)' + Le}
Actitud inmigración 0,146 0,011 13,347 par-26
Rango social 1,064 0,071 15,077 par-27
delta1 0,383 0,022 17,258 par-28
par-29 (,853 + ,557+ ,543)'
delta2 0,233 0,009 24,689 Rango social = -;-___;:.:::::::...:...::,:;::..,;,.",:::::...2___--.,- = ,696
delta3 4,665 0,174 26,830 par-3O (,853 + ,557 + ,543) + (,272 + ,690 + ,705)
delta4 0,251 0,010 26,010 par-31
delta5 0,754 0,030 24,992 par-32
delta6 0,129 0,005 27,766 par-33
delta7 0,285 0,010 27,652 par-34 (,789 +,696 + ,606)'
delta9 0,275 0,009 31,016 par-35 Sociabilidad con marroquíes = ____..\:..~...:...c,::::_::...:...c::-::.L---- = ,741
delta8 0,179 0,006 28,294 par-36 (,789 + ,696 + ,606) + (,377 + ,516 + ,633)
delta10 0,397 0,057 6,998 par-37
delta11 7,63e+009 3,13e+008 24,350 par-38
delta12 231,674 8,347 27,757 par-39 Actitud ante la inmigración =
Covarianza:
sociabilidad <-7 actitud 0,130 0,011 17,104 par-8 (,606 + ,536 + ,540+ ,525+ ,511 + ,394)'
rango <-7 actitud -0,163 0,013 -12,811 par-l1 , = ,689
rango -E-> sociabilidad -0,167 0,023 -7,401 par-12 (,606 + ,536 + ,540 + ,525 + ,511 + ,394) + (,633 + ,713 + ,708 + ,724 + ,739 + ,845)
Capítulo 6: Ecuaciones estructurales 615
614 Análisis multivariable. Teoría y práctica en la investigación social

Tabla E. Puntuaciones factoriales


(n:')
o Varíanza extractada ::::: --'-,~,-'-'--­
(n¡ ) + Le¡ Variables Rango social $ociabílídad Actitud
marroquí inmigrac.

(,853' + ,557' + ,543') Partido racista -0,025 0,038 0,079


Rango social = ~-~_-L~--'-,~-,--'-_.Lc:--::cc" = 444
-0,043 0,135
(,853' + ,557' + ,543') + (,272 + ,690 + , 705) , Inmigrante delincuente 0,066
N.O inmigrantes -0,035 0,054 0,111
Regularizar inmigrante 0,054 -0,084 -0,172
(,789' + ,696' + ,606') Leyes inmigración 0,022 -0,034 -0,070
Sociabilidad con marroquíes = T.='--c::":-~-;~,,)-c":;=--L=;--;=) = ,491 Entrada inmigrante -0,046 0,072 0,147
(,789' + ,696' + ,606' + (,377 + ,516 + ,633
Simpatía marroquí 0,000 -0,061 -0,008
Actitud ante la inmigración = Vecino marroquí -0,003 0,349 0,045
Casar con marroquí -0,003 0,360 0,047
(,606' + ,536' + ,540' + ,525' + ,511' + ,394') Edad -0,009 0,000 0,000
~~----cc-__~~";';=~==----:;'::::;:-:..-'.:=-""-:~:L-=::-:--=:c:--== = 273
(,606' + ,536' + ,540' + ,525' + ,511' + ,394') + (,633 + , 713 + , 708 + , 724 + , 739 + ,845) , Ingresos 0,000 -0,000 -0,000
Estudios 0,572 -0,003 -0,029

Como se esperaba, el constructo "actitud ante la inmigración" es el que menos pro, El programa Amos también proporciona las puntuaciones factoriales, de utilidad pa'
porción de varianza extractada consigue. Tan sólo el 27,3% de la varianza de los seis in, ra conocer la puntuación de cada caso concreto en cada factor común. Dicha puntuación
dicadores que engloba logra ser explicada por dicho constructo latente, proporción que no se obtiene de la suma ponderada de los productos de los pesos de las puntuaciones fac'
supera el valor de referencia de ,50. Este resultado lleva de nuevo a concluir que el su' toriales ("factor score weights"), de las variables en cada factor (tabla E), por los valores
sodicho constructo no ha quedado bien definido por los seis indicadores elegidos. En los que dicho caso presente en los indicadores respectivos.
otros dos constructos la proporción de varianza extractada prácticamente alcanza el Después se comprueba el ajuste del modelo obtenido. Al ser el tamaño de la mues,
valor de referencia, en especial el constructo "sociabilidad con marroquíes". El 49,1% de tra muy elevado (2.493 casos), no sorprende que el índice de bondad de ajuste de razón
la varianza de las variables "casar con marroqul", "vecino marroquí" y "simpatía hacia ma, de verosimilitud i' sea estadísticamente significativo: 273,130 para 51 grados de liber,
rroquíes" logra explicarse por el constructo "sociabilidad con los marroquíes". El constructo tad (p =,000). Las matrices de varianzas'covarianzas observada y predicha difieren, lo que
"rango social" explica el 44,4% de la varianza de las variables "estudios", "ingresos" y puede llevar a rechazar el modelo por no presentar un buen ajuste. Pero, debido a la de,
"edad". Respecto a la fiabilidad, puede afirmarse que los tres constructos son "fiables", al pendencia demostrada de este índice respecto al tamaño muestral, se exige el uso
superar el valor de referencia de ,70, En especial, la variable "sociabilidad con marroquíes", complementario de otros índices de bondad de ajuste absoluto, incremental y de parsi,
que obtiene un valor de fiabilidad de ,741. monia. La tabla F resume los índices calculados por el programa Amos. Como éstos ya
se describieron en el subapartado 6,7.3, sólo se informa de sus resultados remitiendo, pa,
ra facilitar su interpretación, a la relectura de dicho subapartado.
Tabla D. Correlaciones múltiples cuadradas
Si se compara la tabla F con la correspondiente al modelo de ecuaciones estructurales
(subapartado 6.7.3), puede concluirse que el ajuste en ambos modelos (el factorial con,
Variables EsUmación firmatorio y de ecuaciones estructurales) es bastante similar. De acuerdo con los índices
de ajuste incremental (NFI, RFI, IFI, TU Y CFI), el ajuste del modelo factorial confirmatorio
Partido racista 0,155
es "perfecto". Todos los índices superan el valor de referencia de ,90. El índice de Hoelter
Inmigrante delincuente 0,261
N.e) inmigrantes 0,275 apunta en la misma dirección, al ser su valor (627 para un nivel de significación de ,05; 707
Regularizar inmigrantes 0,292 cuando la significación es ,01) bastante superior al de referencia (200) para un ajuste sa-
Leyes inmigración 0,287 tisfactorio. Mediante RMSEA se alcanza la misma conclusión. Su valor (,042) es inferior
Entrada inmigrantes 0,368 a ,05 y su significación igual a ,997, que supone la aceptación de la hipótesis nula de la
Simpatía marroquí 0,367 correspondencia del modelo obtenido con la realidad analizada. Dicha conclusión no se
Vecino marroquí 0,485 obtiene, en cambio, de la aplicación ni del índice de razón de verosimilitud i' ni de algunos
Casar con marroquí 0,622 basados en él (NCP y AIG). CMIN/DF (o i' normado) lleva, por el contrario, a la conclu,
Edad 0,295 sión de un ajuste adecuado del modelo, si se toma el referente más liberal de 5,0.
Ingresos 0,311 Aunque la mayoría de los índices calculados expresan que el ajuste del modelo es bue,
Estudios 0,728
no, se procede, a partir de las razones críticas, a averiguar si con la introducción de restric'
616 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 6: Ecuaciones estructurales 61.7

Tabla F. Medídas de ajuste del modelo en su conjunto


ciones adicionales en el modelo se consigue un i' no significativo (p >,05), que lleve a la acep-
índíce de ajuste Modelo Modelo Modelo de Ajuste tación de la hipótesis nula de que las matrices de varianzas-covarianzas observada y predicha
global obtenído saturado independencia coinciden. La tabla G incluye el extracto de las razones críticas ±1 ,96, que son las que in-
teresan para la modificación del modelo porque suponen un mínimo incremento en el valor
NPAR 39 90 12 .. Inadecuado i' y un aumento de los grados de libertad (al haberse aumentado el número de restricciones
CMIN 273,130 ,000 49.512,596 (significattvidad de
en las varianzas y covarianzas originales). Recuérdese que su cuadrado indica la cantidad
DF 51 O 78 X2 <,05)
P ,000 ,00 .. Aceptable" por la que aumenta i', si dichos parámetros se fijasen iguales en el modelo de partida. Pa-
CMINIDF 5,355 634,777 ra facilitar la interpretación de las razones críticas se recomienda la relectura de la tablas de
los coeficientes estimados porque incluyen la identificación de los parámetros a los que co-
DELTAl o NFI ,994 1,000 ,000 .. Perfecto (todos estos rresponden las etiquetas "par-l, par-2, par-3 ... " y demás atribuidas por el programa Amos (pa-
RHOl o RFI ,992 ,000 índices de ajuste ra simplificar su aparición en análisis posteriores).
DElTA2 o IFI ,996 1,000 ,000 incrementa!
RH020 TU ,993 ,000 sobrepasan el valor Tabla G. Razones críticas para las diferencias entre parámetros
CFI ,996 1,000 ,000 de referencia ,90)
Parámetros Razones críticas Parámetros Razones críticas
PRATIO ,654 ,000 1,000 '" Inadecuado **
PNFI ,650 ,000 ,000 (próximo al modelo
Par-6 y par-1 1,582 Par-12 y par-l1 -,188
PCFI ,651 ,000 ,000 de independencia)
Par-7 y par-1 -,048 Par-32 y par-18 ,030
.. Inadecuado ** (se Par-20 y par-1 -,880 Par-25 y par-20 1,741
NCP 222,130 ,000 49.434,596
48.706,020 distancia de! modelo Par-25 y par-1 ,806 Par-33 y par-26 -1,384
lO 90 174,072 ,000
277,710 ,000 50.169,449 saturado) Par-32 y par-5 -1,823 Par-37 y par-28 ,228
HI90
Par-7 y par-6 -1,519 Par-31 y par-29 1,322
FMIN ,110 ,000 19,869 .. Aceptable (valores Par-25 y par-6 -,588 Par-35 y par-31 1,827
FO ,089 ,000 19,837 próximos al modelo Par-25 y par-7 ,785 Par-37 y par-34 1,944
LO 90 ,070 ,000 19,545 saturado) Par-36 y par-8 -1,246
HI90 ,111 ,000 20,132

" Buen ajuste (al ser La razón crítica más pequeña (,030) se obtiene de la diferencia entre los parámetros "par-32"
RMSEA ,042 ,504
LO 90 ,037 ,501 RMSEA < ,05 Y (deltall) y "par-18" (el intercepto de la variable "regularizar a inmigrantes") dividida por el error tí-
HI90 ,047 ,508 PClOSE > ,05) pico estimado de dicha diferencia. Esta opción de modificación del modelo se descarta por ilógica
PClOSE ,997 ,000 y se localiza la segunda razón crítica más pequeña: -,048. Los parámetros afectados ahora son
dos coeficientes de sendero: los identificados como "par-?' ("partido racista ~ actitud inmigración")
AIC 351,130 180,000 49.536,596 .. Intermedio y "par-l" ("vecino marroquí ~ sociabilidad con marroquíes"). Como esta segunda restricción se
BCC 351,539 180,944 49.536,722 (máS próximo al
considera de más sentido lógico, se calcula su cuadrado: ,0023. Significa que una modificación
modelo saturado)
del modelo que asuma que ambos coeficientes factoriales son iguales resulta en un mínimo in-
ECVI ,141 ,072 19,878 .. Aceptable (valores cremento (,0023 en el valor de i' [273, 130J, que pasa a ser 273,1323, pero con 52 grados de li-
LO 90 ,122 ,072 19,586 próximos al modelo bertad en vez de con 51), lo que puede contribuir a mejorar el ajuste del modelo medido mediante
HI90 ,163 ,072 20,173 saturado) i'. Pero, antes de introducir dicha restricción en el modelo, habrá que valorar si tiene sentido. En
MECVI ,141 ,073 19,878 caso contrario, se descarta y se localiza otra razón crítica inferior a 1,96 (valor a partir del cual se
rechaza la hipótesis nula de igualdad de los dos parámetros en la población).
HOElTER ,05 627 6 " Buen ajuste
HOElTER ,05 707 6 (al ser> 200)

* Debido al efecto negativo del tamaño muestra!, se adopta para CMIN/DF e! valor de referencia máximo más libe-
LECTURAS COMPLEMENTARIAS
ral de "5,0" como indicativo de un ajuste "aceptable". Además, su distancia es muy considerable respecto al modelo
de independencia.. Anderson, J. C. y Gerbing, D. W. (1988). "Structural equation modeling in practice: a re-
*. Al carecerse de un valor de mferencia generalmente aceptado, su valoración se hace comparando el modelo ob-
view and recommended two-step approach", Psycholagical Builerin, 103 (3): 411-423.
tenido con otros modelos alternativos.
BentIer, P. M. Y Chou, C. (1987). "Practica! issues in struclura! modeling", Socialagi-
cal Methads and Research, 16: 78-117.
Capitulo 6: Ecuaciones estructurales 619
618 Análisis multivariable. Teoría y práctica en la investigación social

Bollen, K. A. (1989). Structural equations with latent variables, Nueva York, John Wi-
ley & Sonso
Bollen, K. A. YLong, J .S. (eds.) (1993). Testing structural equation mode/s, Newbury
Park, Sage.
Diez Medrano, J. (1992). Métodos de análisis causal, Madrid, C.I.S. (Centro de In-
vestigaciones Sociológicas), Cuaderno Metodológico n. o 3.
Hoyle, R. H. (ed.) (1995). Structural equation modeling: concepts, issues and applica-
tions, Thousand Oaks, California, Sage.
Jaccard, J. y Wan, Ch. (1996). LISREL approaches to interaction e!fects in multiple re-
gression, Thousand Oaks, Sage. -,17

Jóreskog, K. G. Y Sorbom, D. (1979). Advanced in factor analysis and stmctural equa-


tion models, Cambridge, M.A. Ab!.
Long, J. S. (198311991). Confirmatory factor ana/ysis, Newbury Park, Sage. panido
." ~
Saris, W. E. y Stronkhort, H. (1984). Causal modelling in non-experimental Research:
an introduction to the LISREL approach, Amsterdam, Sociometric Research
entruda eps5
Foundation.

EJERCICIOS PROPUESTOS

1. A partir de los resultados del análisis de componentes principales (capitulo 5)


se introducen modificaciones en el modelo de ecuaciones estructurales. lnter-
prétese el modelo obtenido comparándose con el expuesto en este capitulo.
Además, calcúlese la varianza extractada y la fiabilidad de los constructos de in-
terés en el modelo de medición.

Coeficientes no estandarizados Etiqueta*'


Senderos Coeficientes
Coeficiente S.E. C. R. estándar
Variables Intercepto S. E. C.R. Etiqueta
Sociabilidad marroquí (- rango social -0,142 0,026 -5,397 -0,138 par-8
Sociabilidad marroquí (- mentalidad 0,147 0,036 4,125 0,143 par-9 Estudios 2,080 0,025 84,189 par-17
Actitud inmigración (- mentalidad -0,091 0,036 -2,557 -0,080 par-U
7,929 0,197 par-13 Ingresos 1,46e+005 2402,095 60,649 par-18
Actitud inmigración (- rango social 0,225 0,028
Actitud inmigración (- sociabilidad marroquí -0,424 0,031 -13,663 -0,381 par-15 Edad 44,936 0,362 124,062 par-19
Estudios (- rango social 1,000 0,837 Ideología política 4,691 0,046 101,193 par-20
58578,973 270,657 21,643 0,558 par-l 1,672
Ingresos (- rango social
-0,548 par-2 Casar con marroquí 0,023 72,525 par-21
Edad (- rango social -9,912 0,425 -23,303
1,000 0,898 Vecino marroquí 1,269 0,014 89,524 par-22
Casar marroquí (- sociabilidad marroquí
Vecino marroquí (- sociabilidad marroquí 0,484 0,016 31,064 0,703 par-3 Simpatía hacia marroquíes 5,987 0,059 101,296 par-23
Simpatía marroquí t- sociabilidad marroquí -1,656 0,066 -25,237 -0,603 par-4 Entrada inmigrantes 1,906 0,014 138,773 par-24
Entrada inmigrantes (- actitud inmigración -0,371 0,015 -24,561 -0,638 par-5
0,824 Leyes inmigración 2,693 0,031 86,609 par-25
Leyes inmigración (- actitud inmigración 1,000
Regularizar inmigrantes f- actitud inmigracíón 0,224 0,010 21,544 0,574 par 6
M Regularizar inmigrantes 0,753 0,009 79,784 par-26
N." inmigrantes (- actitud inmigración -0,332 0.015 -21,470 -0,578 par-7 N,o inmigrantes 2,217 0,014 158,234 par-27
Inmigrante delincuente t- actitud inmigración -0,246 0,012 -20,538 -0,548 par-lO Inmigrante delincuente 0,569 0,011 42,133 par-28
Partido racista (- sociabilidad marroquí 0,198 0,015 13,443 0,352 par-14
0,023 -1,867 -0,085 par-16 Partido racista 1,427 0,012 117,720 par-29
Sexo (- mentalidad -0,042

II
Ideología política (- mentalidad 1,000 0,514 Sexo 0,481 0,010 48,062 par-30

I
;1
Capitulo 6: Ecuaciones estructurales 621
620 Análisis multivariable. Teoría y práctica en la investigación social

- Puntuaciones factoriales
Variables E::.,timación S.E. CR. Etiqueta -
Rango Mentalidad Sociabilidad Actitud
Varianzas: Variables marroquí inmigrac.
social
delta1 0,426 0,035 12,234 piu-31
delta2 7,5ge+009 3,01e+008 25,186 par-32 Ideología política -0,008 0,253 0,005 -D,006
delta3 228,586 8,059 28,363 par-33 Sexo 0,004 -0,120 -0,002 0,003
eps1 0,252 0,024 10,333 par-34 Partido racista -0,002 0,009 0,120 -0,010
eps2 0,251 0,010 25,719 par-35 Inmigrante delincuente -0,018 0,024 0,021 --0,320
eps3 5,030 0,178 28,291 par-36 N.o inmigrantes -0,015 0,020 0,018 -0,277
eps5 0,261 0,010 25,907 par-37 Regularizar inmigrantes 0,022 --0,030 -0,026 0,401
eps6 0,616 0,037 16,618 par-38 Leyes inmigración 0,021 -0,029 -0,025 0,387
eps7 0,133 0,005 27,482 par-39 Entrada inmigrantes -0,019 0,025 0,022 -0,339
eps8 0,285 0,011 27,105 par-40 Simpatía marroquí 0,001 -0,004 -0,049 0,005
eps9 0,183 0,007 27,995 par-4] Vecino marroquí -0,005 0,024 0,287 -0,029
eps4 0,291 0,009 32,288 par-42 Casar con marroquí -0,011 0,050 0,592 -0,061
delta5 0,248 0,007 34,274 par-43 Edad -0,010 0,001 0,000 -0,001
delta4 2,786 0,127 22,005 par-44 Ingresos 0,000 -0,000 -0,000 -0,000
Estudios 0,545 -0,054 -0,007 0,03]
Covarianza:
mentalidad <-) rango social -0,171 0,054 -3,153 par-12

Parámetros Razones críticas Parámetros Razones críticas

Correlaciones múltiples cuadradas Par-13 y par-6 ,016 Par-34 y par-13 ,701


Par-30 y par-3 -,130 Par-35 y par-13 -,888
Variables Estimación
Par-31 y par-3 -1,494 Par-43 y par-13 ,784
0,047 Par-34 y par-6 1,025 ParAI y par-14 -,927
Sociabilidad marroquí
0,231 Par-11 y par-S 1,154 Par-44 y par-25 ,713
Actitud inmigración'
0,264 Par-12 y par-S _,452 Par-35 y par-34 -,011
Ideología política 1,311 Par-37 y par-34 ,343
0,007 Par-14 y par-9
Sexo Par-43 y par-35 -,293
0,124 Par-39 y par-9 -,380
Partido racista
Inmigrante delincuente 0,300
N. inmigrantes
Q 0,334
Regularizar inmigrantes 0,329
Leyes inmigración 0,678
Entrada inmigrantes 0,407
Simpatía marroquí 0,364
Vecino marroquí 0,494
Casar con marroquí 0,806
Edad 0,301
Ingresos 0,311
Estudios 0,701
622 Análisis multivariable. Teoría y práctica en la investigación social Capítulo 6: Ecuaciones estructurales 623

2. En la investigación de P. J. Perrando Piera y A. Aguilar Alonso (1992). "An-


indice de Modelo Modelo Modelo de siedad manifiesta, neuroticismo e introversión: un análisis factorial confirma-
ajuste global obtenido saturado independencia torio" (Psicología General y Aplicada, 45 (4) : 385-390) se comprueban las re-
laciones entre las dimensiones "neuroticismo" y "extraversión" del Cuestionario
NPAR 44 119 14 de Personalidad de Eysenck (EPQ) y la Escala de Ansiedad Manifiesta (MAS)
CMIN 1.058,301 ,000 54782,450 mediante un análisis factorial confirmatorio con el programa LISREL. La
DF 75 O 105 muestra está integrada por 356 niños, de ambos sexos, estudiantes de 6." de
P ,000 ,00 EGB, con una edad media de 12 años, de cuatro colegios de Tarragona capital
CMIN!DF 14,111 521,738 (dos públicos y dos privados). La variable exógena latente es "factor de an-
siedad". Las cinco incluidas en la tabla a interpretar son endógenas observables.
DELTA10NFI ,981 1,000 ,000
RHOl oRFI ,973 ,000
DELTA2 o IFI ,982 1,000 ,000
RH02O TLI ,975 ,000 Lambda X
CFl ,983 1,000 ,000 (Máxima verosimilitud) Residuos Valores t

PRATIO ,714 ,000 1,000 Neuroticismo ,810 ,344 14,458


PNFI ,700 ,000 ,000 Extraversión -,332 ,890 -5,031
PCFI ,701 ,000 ,000 Ansiedad fisiológica ,653 ,574 10,892
Hipersensibilidad ,783 ,387 13,812
NCP 983,301 ,000 54.677,450 Ansiedad cognitiva ,753 ,433 13,126
LO 90 881,869 ,000 53.910,984
HI90 ,000 55.450,194 Chi cuadrado 22,53 (5 g.l.)
1.092,156 índice de bondad de ajuste ,986
Raíz de la media cuadrática residual ,048
FMIN ,425 ,000 21,983 Residuo menor -2,372
FO ,395 ,000 21,941
LO 90 ,354 ,000 21,634
HI90 ,438 ,000 22,251
3. En la investigación de Cea D'Ancona, M.' A. (1992): La justicia de menores en
RMSEA ,073 ,457 España (Madrid, Ceutro de Investigaciones Sociológicas, Colección Monografias
LO 90 ,069 ,454 n. o 127), ya referida en los capítulos 2 y 4, se realizó un análisis factorial con-
HI90 ,076 ,460 firmatorio mediante el programa LISRELVI, para "confirmar" los resultados
PCLOSE ,000 ,000 del análisis discriuúnante y de conglomerados que concluían con la clasificación
en tres grupos bien delimitados de los menores delincuentes oficiales. Co-
AIC 1.146,301 238,000 54.810,450
239,441 54.810,619 méntese la siguiente tabla que incluye los parámetros lambda estimados me-
BCC 1.146,833
diante los métodos de mínimos cuadrados no ponderados y máxima similitud,
ECVI ,460 ,096 21,995 además de los índices de boñdad de ajuste. Compárense con los obtenidos me-
LO 90 ,419 ,096 21,687 diante el análisis discriminante (capítulo 4).
HI90 ,504 ,096 22,305
MECVI ,460 ,096 21,995

HOELTER,05 227 6
HOELTER,05 251 7
624 Análisis multivariable. Teorfa y práctica en fa investigación social Capitulo 6: Ecuaciones estructurales 625

Estimaciones de los coeficientes lambda 4_ En el estudio de 1 Díez Medrano, B. García-Mon y 1 Díez Nicolás (1989). "El
- -- significado de ser de izqnierdas en la España actual" (Revista Española de In-
Variable mínimos cuadrados Máxima verosimilitud vestigaciones Sociológicas, 45: 9-41) se estiman, mediante el programa LISREL,
Variable no ponderados
los efectos relativos de las actitudes morales y sociales de los entrevistados (1.204
Perfil 1 Perfil 2 Perfil 3 Perfil 1 Perfil 2 Perfil 3 personas mayores de 18 años), así como de sus actitudes hacia ciertas cuestio-
nés de política económica, sobre su autoposicionamiento ideológico. rnter-
Sexo - - ,03 - - ,02 prétese el gráfico siguiente:
Edad - ,26 - - ,23*** -
Etnia - - -,61 - -- -,61 ***
Estudios - ,40 - - ,40*** -
Escuela - - -,23 - - -,23***

-
Tipo de hogar - ,12 - - ,09"* -
Clase social -,05 - - -,02 - - -,378'
Analfabetismo (padre) ,18 - - ,23*** - -
Analfabetismo (madre) ,44 - - ,42*** - - -,589*

-
Emigración - -,03 - - --,04 -
Alcoholismo (padre) - - -,23 - - -,23*** ,751* Actitud hacia ,622*
Delincuencia (hermano) - - -,42 - - -,39*** Cuestiones
la cohabitación
Ambiente barrio - -,45 - - ,48*** - no
económicas

-
Vivienda ,41 - -- ,37*** - - -,972*
,920*
Hacinamiento ,38 - - ,37*** - - ,256* Índice de ,757
Bajo (vivienda) ,31 - - ,31 *** - -
posmaterialismo
Condiciones vivienda - - -,55 - - -,53*** (,576)
- - - -,27***

-
Conducta - -,27 ,302* Autoposiciona-
Fuga - - -,21 - -- -,18*-**
,419* Actitud hacia la
miento
Sustracción ,15 - - ,13** - - nacionalización de
ideológico
Malas compañías -,01 - - -,01 - - la banca ,307
Ociosidad ,11 - - ,10 - - ,733* (,234)
Abandono ,09 - - ,07 - -
-

-
Falta de control - -,09 - - -,06
,592* Actitud hacia la ,972* Cuestiones
Relación familiar -19 - - ,18*** - - 1-<1----\
Delito - -,11 - - -,10** -
nacionalización de
las empresas " económicas

N. de diligencias policiales
Q
- - -,16 - - -,15***
- - - ,516*

-
Drogadicción -,ü1 - -,01
Profesión (padre) -,08 - - ,05 - - ,905*
Actitud hacia la
Profesión (madre) - -,09 - - -,10** - nacionalización del
Situación laboral (padre) - - -,34 - - -,29*** Gobierno en
Trabajo ,13 ,12 - ,09 ,14 - la economía
Número de hermanos - - -,63 - - -,58***
Orden de nacimiento - -,05 - - -,03 -
Anonnalidad - - -,12 - - -,12** N=404
Coeí. de determinación :=: ,468
GFI ,96 ,94 Chi-cuadrado "" 12,47 P =: ,409 g.l.:= 12
,94 ,92 índice de bondad de ajuste"" ,991
AGFI
índice de bondad de ajuste ajustado := ,980
RMR ,04 ,05
* Significado al nivel 0,05
*** Valores tsuperiores a 3. ( ) Coeficientes estandarizados
** Valores t superiores a 2.
Nota: Eliminados los casos que no han contestado a todas las preguntas
BIBLIOGRAFÍA

Abascal, E. Y Grande, 1. (1989). Métodos multivariantes para la investigación comercial. Teoría,


aplicaciones y programación BASIC, Barcelona, Ariel.
Achen, C. H. (1982). Interpreting and using regression, Beverly HilIs, Sage.
Acock, A. C. y Fuller, T. D. (1985). "Standarized solutions using LISREL on mulliple popu-
lalions", Sociological Methods and Research, 13 (4): 551-557.
Afifi, A. A. Y Azen, S. P. (1979). Statlstical analysis: a computer oriented approach, Nueva York,
Academic Press.
Afifi, A. A. Y Clark, V. (1990). Computer-aided multivariate analysls, 2.' ed., Nueva York, Chap-
man & Hall.
Agresti, A. (1990). Categorical data analysls, Nueva York, John Wiley & Sonso
Akaike, H. (1987). "Factor analysis and IAC" ,Psychometrika, 52: 317-332.
Aldenderfer, M. S. y Blashfield, R. K. (1984). Cluster analysls, Bever1y HilIs, Sage.
Aldrich, J. H. Y Nelson, F. D. (1984). Lineal probability, logit and proMt models, Beverly
Hills, Sage.
Aldrich, J. H. Y Nelson, F. D. (1986). "Logit and probit models for multivariate analysis with qua-
litative dependent variables", en Berry, W. D. y Lewis-Beck, M. S. (eds.) New tools for social
sdentlsts. Advances and applications in research methods, Bever1y HilIs, Sage, pp. 115-156.
Allison, P. D. (1987). "Introducing a disturbance into logit and probit regression models", So-
ciological Methods and Research, 15 (4): 355-374.
Allison, P. D. (1999). Multiple regression, California, Sage.
Álvarez Cáceres, R. (1995). Estadística multivariable y no paramétrica con SPSS. Aplicación a
las ciencias de la salud, Madrid, Díaz de Santos.
Álvaro Estramiana, J. C. y Garrido Luque, A. (1995). Análisis de datos con SPSS/PC+, Madrid,
c.!. S. (Centro de Investigaciones Sociológicas), Cuaderno Metodológico n.o 14.
Amemiya, T. (1981). "Qualitative response models: a survey", Journal of Economic LiteratuM
re, vol. XIX, 1483-1536.
Anderson, S. et al. (1980). Statistical methods for comparative studies: techniques for bias re~
duction, Nueva York, Iohn Wiley & Sonso
Anderson, J. C. y Gerbing, D. W. (1984). "The efiects of sampling error on convergence, im-
proper solutions and goodness-of-fit indexes for maxímum likelihood confirmatory factor
analysis", Psychometrika, 49: 155-173.
628 AnáZ¿ús multivariable. TeorÍa y práctica en la investigaci6n sociaL Bibliografía 629

Anderson, J. C. y Gerbing, D. W. (1988). "Structural equation modeling in practice: a review Berry, W, D, y Lewis-Beck, M, S, (eds,) (1986), New tools for social scientists, Advances and
and recommended two-step approach", Psychological Bulletin, 103 (3): 411-423, applications in research methods, Bevedy Hills, Sage.
Arbuckle, J, L (1997), Amos 3,6, User's guide, Chicago, Smallwaters Corporations, Bisquerra Alzina, R. (1989). Introducción conceptual al análisis multivariable. Un enfoque infor-
Arbuckle, J, L Y Wothke, W, (1999), Amos 4,0, User's guide, Chicago, Smallwaters Corpo- mático con los paquetes SPSS-x, BMDP, LlSREL y SPAD, vols, 1 y ll, Barcelona, PPU,
rations Blalock, H. M, (1985), Causal modeling in social sCiences, Beverly Bilis, Sage,
Arce, C. (1993). Escalamiento multidimensional: una técnica multivariante para el análisis de da- Bollen, K. A. (1986), "Sample size and Bentler and Bonett's nonnormed fit index", Psycho-
tos de proximidad y preferencia, Barcelona, PPU. metrika, 51: 375-377.
Arce, e y Garling, T, (1989), "Multidimensional scaling",Anuario de Psicología, 43 (4): 65-80, Bollen, K. A. (1987). "Outliers and improper solutions. A confirmatory factor analysis exam~
Asher, H, 13, (1983/1987), Causal modeling, Beverly Hills, Sage, pIe", Sociological Methods and Research, 15 (4): 375-384,
Atkinson, A. e (1985), Plots, transformations and regression, Nueva York, Oxford University Press, Bollen, K A (1989a), Structural equations with latent variables, Nueva York, John Wiley & Sons,
Ato Garcfa, M y López García, J, 1 (1996), Análisis estadistico para datos categóricos, Madrid, Bollen, K. A. (1989b), "A new incremental fit index for general struetural equations mo-
Síntesis. deIs", Sociological Methods and Research, 17: 303-316,
Bollen, K. A Y Arminger, G, (1991), "Observational residuals in factor analysis and structural
Babbie, E, Y Halley, F, (1995), Adventures in social research Data analysis using SPSS for Win- equation models", en Marsden, D, y, (ed,) Sociological Methodology (21), Oxford, Blaek-
dows, Thoasand Oaks, California, Pine Forge Press. well, pp, 235-265,
Bailey, K. D. (1994). Typologies and taxonomies: an introduction lo classification techniques, Bollen, K A Y Long, J, S, (eds,) (1993), Testing structural equation models, Newbury Parle, Sage,
Thousand Oaks, California, Sage, Boomsma, A (1982), "The robustness of LISREL against small sample sizes in factor analysis
Barnett, y, y Lewis, T, (1984), Outliers in statistical data, 2,' ed" Nueva York, Wiley, models", en Wold, H. y Joreskog, K (eds,), Systems under indirect observation, Nueva York,
Batista Foguet, J, M, (1984), "Componentes principales y análisis factorial (exploratorio y con- EIsevier North-Bolland, pp, 149-173,
firmatorio)", en Sánchez Carrión, J. J. (ed.), Introducción a las técnicas de análisis multi- Borg, 1. y Lingoes, J. (1987). Multidimensional simUarity structure analysis, Nueva York,
variable aplicadas a las ciencias sociales, Madrid, C. 1. S. (Centro de Investigaciones So- Springer-Yerlag,
ciológicas), pp, 23-74, Bray,], H. Y Scott, E, M, (1985), Multivariate analysis ofvariance, Beverly HilIs, Sage,
Batista Foguet, J. M. Y Martínez Arias, M.a. R. (1989). Análisis multivariante: análisis de com- Breen, R. (1996). Regression models: censored, sample selected or truncated data, Thousand Oaks,
ponentes principales, Barcelona, Editorial Hispano Europea, S. A. California, Sage,
Belsley, D, A ,Kuh, E. y Welsch, RE. (1980), Regression diagnostics: identifying influential da- Brier, S, S, (1993), "Analysis of categorical data", en Keren, G, y Lewis, Ch, (eds.), A handbook
ta and sources of collinearity, Nueva York, Joho Wiley & Sons, for data analysis in the behavioral sciences: statistical issues, New Jersey, Lawrence Erlbaum
Bendel, R B. Y Afifi, A. A (1977), "Comparison of stopping rules in forward regression", Jour- Assoeiates Publishers, pp, 259-294,
nal of (he American Statistical Association, 72: 46-53. Broemelig, L D, (1985), Bayesian analys¿, of linear models, Nueva York, Marcel Dekker, Ine,
Bentler, p, M, (1980), "Multivariate analysis with latent variables: causal modelling", Annual Brown, M, B. (1976), "Screening effects in multidimensional contingency tables", Applied Sta-
Review of Psychology, 31: 419-456, tistíes, 25: 37-46,
Benller, P, M, (1985), Theory and implementation of EQS: a structural equations program, Los Browne, M, W, y Cudeck, R (1989), "Simple sample cross-validation indexes for covariance
Ángeles, BMDP Statistical Software, structures", Multivariate Behavioral Research, 24: 445-455.
Bentler, P, M, (1990), "Comparative fit indices in structural models", Psychological Bulletin, 107: Browne, M, W, y Cudeck, R (1993), "Alternative ways of assessing model fit", en Bollen, K A
238-246, Y Long,], S, (eds.), Testing structural equation models, Newbury Park, Sage, pp, 136-162,
Bentler, P, M, (1993), EQS Program Manual, Los Ángeles, BMD, Bryrnan, A. (1995). Research methods and organization studies, Londres, Routledge.
Benller, P, M, Y Bonett, D, G, (1980), "Significance tests and goodness-of-fit in the analysis of Bryman, A y Cramer, D, (1990/1995), Quantitative data analysis for social scientists, Londres,
covariance structures", Psychological Bulletin, 88: 588-606. Routledge,
Benller, P, M, Y Chou, C. (1987), "Practical issues in structural modeling", Sociological Methods Bye, B. y, et al, (1987), "Estimation of discrete choice mode1s in retrospective samples, Apli-
and Research, 16: 78-117, cation of the Manski and McFadden conditional maximum likelihood estimator", Socio-
Berenson, M. L. Y Levine, D. M. (1992). Estadística básica en administración. Conceptos y apli~ logical Method and Research, 15 (4): 467-492,
caciones, 4.a ed, México, Prentice-Hall Hispanoamericana, S. A. Byrne, B. M, (1995), "One application of structural equation modeling fram two perspectives:
Berry, W, D, (1984), Nonrecursive causal models, Beverly Bilis, Sage, exploring the EQS and LISREL strategies" en Hoyle, R H. (ed,) Structural equatíon
Berry, W. D. (1993). Understanding regression assumptions, Newbury Park, Sage. modeling: concepts, issues and applications, Thousand Oaks, California, Sage, pp. 138 157.w

Berry, W, D, y Feldman, S, (1985), Multiple regression in practice, BeverIy Bills, Sage,


Berry, W, D, y Feldman, S, (1993), "Multiple regression in practice", en Lewis-Beck, M, S, (ed,) Calvo G6mez, F (1992), "Análisis factorial y las puntuaciones factoriales calculadas por el mé-
Regression analysis, In"ternational' Hanrlbooks of Quantitative Applications in the Social todo selectivo", Estudios de Deusto, 40 (1): 71-95,
Sciences, voL 2, Sage publications. Calvo Gómez, F. (1993). Técnicas estadísticas multivariantes, Bilbao, Universidad de Deusto.
630 Análisis multivariable. Teoría y práctica en la investigación social Bibliografía 631

Calvo Gómez, F. y Lavia Martínez, C. (1993). "El método selectivo factorial en el análisis de ti- Díez Medrano, J. (1992). Métodos de análisis causal, Madrid, C. L S. (Centro de Investigacio-
pologías urbanas", Estudios de Deusto, 41 (1): 99-12l. nes Sociológicas), Cuaderno Metodológico n. o 3.
Campbell, D. T. Y Fiske, D. (1959). "Convergent and discriminant validation by the multitrait- DiIlon, W. R y Goldstein, M. (1984). Multivariate analysis, methods and applicalions, Nueva
multimethod matrix", Phychological, Bulletin, 56: 81-10l. York, John Wiley & Sons.
Carmines, E. G. (1986). "The analysis o/ covariance structure models", en Berry, W. D. y Le- Dunn, O. J. y Clark, V. A (1987). Applied stalislics: analysis ofvariance and regression, 2.' ed.,
wis.:Beck, M. S. (eds.) New to01s for socüi! scientists. Advances and applications in 'research Nueva York, Wi!ey.
methods, Beverly Hills, Sage, pp. 23-56. Dunteman, G. H. (1989). Principal campanents analysis, Newbury Park, California, Sage.
Carmines, E. G. Y Zeller, R. A (1979). Reliability and validity assessment, Beverly HilIs, Sage.
Carrol, R. J. Y Ruppert, D. (1988). Transformation and weighting in regression, Londres, Eliason, S. R. (1993). Maximum likelihood estimalion. Logic and practice, Newbury Park, Sage.
Chapman & HalL Everitt, B. S. (1980). Clusteranalysis, Nueva York, Halsted.
Cea D'Ancona, M.' A (1992). La justicia de menores en &paña, Madrid, c.r.S. Monografía n. 0127. Everitt, B. S. (1992). The analysis of contingency tables, Londres, Sage.
Cea D'Ancona, M.' A (1996/2001). Metodología cuantitativa: estrategias y técnicas de investi-
Fernández Santana, J. O. (1988). "Comprensión y manejo del análisis factorial", Revista In-
gación social, Madrid, Síntesis.
lernacional de Sociología, 46 (1): 7-35.
Chatlield, C. y Collins, A 1. (1980). Introduction lo multivariale analysis, Londres, Chapman & Hall.
Fernández Santana, J. O. (1991). "El análisis de cluster: aplicación, interpretación y validación",
Chatterjee, S. y Price, B. (1977), Regression analysis for example, Nueva York, John Wiley & Sons.
Chatterjee, S, y Hadi, AS. (1988). Sensilivity analysis in linear regression, Nueva York, Wiley. Papers, 37: 65-76.
Fienberg, S. E. (1994). The analysis of cross-classified categorial data, Cambridge, The MIT Press.
Chou, CH. y Bentler, P, M. (1995), "Estima tes and tests in strctural equations modeling" en
Fox, J. (1991). Regression Diagnostics, Newbury Park, California, Sage.
Hoyle, R. H. (ed.):-Structural equation modeling: concepts, issues and applications, Thou-
Fox, J. (1997). Applied regression analysis linear models and related melhods, California, Sage.
sand Oaks, California, Sage, pp. 37-55.
Fox, J. y Long, J. S. (1990). Modern methods of data analysis, Newbury Park, Sage.
Chow, S. 1.. (1996), Slalistical significance: ralionale, validity and ulility, Londres, Sage.
Fowlkes, E. B., Freeny, A. E. YLandwehs, J. M. (1988). "Evaluating logistic models for large
Christensen, R. (1990). Log-linear models, Nueva York, Springer-Verlag.
contingency tables", Journal American Statistic Association, 83: 611-620.
Clogg, C. C. y Edward, S. S. (1994). Statistical models for ordinal variables, Thousand Oaks, Sage.
Freeman, D. H. (1987). Applied calegorical dala analysis, Nueva York, Marcel Dekker, Inc.
Comrey, A. 1.. (1973a). A first course in factor analysis, Nueva York, Academic Press.
Frei, D. y Ruloff, D. (1989). Handbook offoreign policy analysis, Dardrecht, Martinus Nijhoff
Comrey, A. 1.. (1973b). "The minimum residual method offactor analysis", Psychological Re-
Publishers.
ports, 11: 15-18.
Comrey, A. 1.. (1985). Manual de análisis factorial, Madrid, Cátedra. García Santesmases, J. M. (1984). "Análisis factorial de correspondencias", en Sánchez Camón,
Comrey, A. 1.. Y Lee, H. B. (1992). Afirsl course in factor analysis, 2.' ed., New Jersey, Erlbaum. J. J. (ed.): Introducción a las técnicas de análisis multivariable aplicadas a las ciencias sociales,
Cook, R, D. (1977). "Detection of influential observations on linear regression". Technometric, Madrid, C. I. S. (Centro de Investigaciones Sociológicas), pp. 75-106.
19: 15-18. Garrido Luque, A. y Álvaro Estramiana, J. L. (1995). Técnicas de análisis estadístico en ciencias
Cook, R. D. Y Weisberg (1982). Residuals and influence in regression, Nueva York, Chapman sociales, Madrid, Editorial Complutense.
andHalL Gerbing, D. W. y Anderson, J. C. (1993). "Monte Carlo evaluations of goodness offit indices
Cooper, R. A. Y Weekes, A. J. (1983). Data, models and slatistical analysis, New Jersey, Barnes for structural equations models", en Bollen, K. A. Y Long, J. S. (eds.): Testing struclural
& Noble Books. equation models, Newbury Park, Sage, pp. 40-65.
Cornejo, J. M. (1988). Técnicas de investigación social: el análisis de correspondencias, Barce- Gift, A. (1990). Nonlinear mullivariate analysis, Nueva York, John Wiley and Sons.
lona, PPU. Gilbert, G. N. (1981). Modelling society. An introduction to log-linear analysis for social researchers,
Coxon, A P. M. Y Jones, C. 1.. (1984). "Escalas multidimensionales", en Sánchez Carrión, J. J. Londres, George Allen & Unwin, Publishers.
(ed.). Introducción a las técnicas de análisis multivariable aplicadas a las ciencias sociales, Ma- Goffin, R. D. (1993). "A comparison of two new indices for the assessment offit in structural
drid, C. L S. (Centro de Investigaciones Sociológicas), pp. 107-132. equation models", Mullivariate Behavioral Research, 28: 205-214.
Cramer. D. (1994). Introducing statistics for social research. Step-by-step calculations and com- Goldberger, A. S. y Duncam, O. D. (1973). Slructural equation rnodels in Ihe social sciences, Nue-
puler lechniques using SPSS, Londres, Routledge. va York, Academic Press.
Goldstein, M. y Dillon, W. R (1978). Discrete discriminant analysis, Nueva York, John Wiley.
Dale, A. y Davies, R. B. (1994). Analyzing social & political change, Londres, Sage. Goldfield, S. y Quandt, R. (1965). "Sorne tests for heterocedasticity", Joumal ofthe American
Darroch, J. N., Lauritzen, S. 1.. y Speed, T. P. (1980). "Markov fields and log-lineal interaction Stalislical Associalion, 60: 539-547.
models for contingency tables", Annals of Slalistics, 8: 522-539. Gómez Suárez, M. (1999). "El análisis cluster en investigación de marketing: metodología y crí-
Demaris, A. (1992). Logit modeling. Practical applications, Newbury Park, California, Sage. tica", en Hair, J. F., Anderson, R E., Tathan, R. 1.. Y Black, W. C. (eds.): Análisis multi-
Diamantopoulos, A. (2000): Introducing LlSREL: a guide for the uninitialed, Sage Introducing variante, 5. a ed., Madrid, Prentice Hall, pp. 537-545.
Statistical Methods, series. Goode, W. J. y Hatt, P. K. (1952). Melhods in social research, Nueva York, McGraw HilL
Bibliografía 633
632 Análisis multivariable" Teoria y práctica en la investigación social

Goodman, L. A. (1972a). "A modified mulliple regression approach to the analysis of dicho- Hoyle, R. H. (1995). "The structural equation modeling approach: basic concepts and funda-
tomous variables", American Sociological Review, 37: 28A6. mental issues" en Hoyle, R. H. (ed.): 8trucrural equation modeling: concepts, issues and
Goodman, L. A. (1972b). "A general model for the analysis of surveys", American .Toumal of applications, Thousand Oaks, California, Sage, pp. 1-15.
Sociology, 78: 1135-1191. Hoyle, R. H. YPanter, A. T. (1995). "Writing about stmctural equation models", en Hoyle, R.
Goodman, L. A. (1979). "A brief guide to the causal analysis of data from surveys", American H. (ed.): Structural equation modeling: concepts, issues and applications, Thousand Oaks,
Joumal of Sociology, 84: 1078-1095.
California, Sage, pp. 158-176.
Goodman, L A. Y Kruskal, W. H. (1979). Measures of association for eross classifications, Nue- Hu, Li-Tze y Bentler, P. M. (1995). "Evaluating model fit" en Hoyle, R. H. (ed.): Structural equa-
tion modeling: concepts, issues and applications, Thousand Oaks, California, Sage, pp. 76-99.
va York, Springer-Yerlag.
Hutcheson, G. y Sofroniou, N. (1999). The multivariate social scientist, Londres, Sage.
Gorsuch, R. L. (1974). Factor analysis, Philadelphia, Saunders.
Gorsuch, R. L. (1983). Factor analysis, Hillsdale, N. J., Erlbaum.
Gorsuch, R. L. (1990). ¡'Common factor analysis versus component analysis: sorne well and Ishii-Kuntz, M. (1994). Ordinallog-linear models, Thousand Oaks, Sage.
little known facts", Multivariate Behavioral Research, 25: 33-39.
Graybill, F. A. e Iyer, H. K. (1994). Regression analysis. Coneepts and applieations, California, Jaccard, J. (2001). Interaetion effeels in logistic regression, Thousand Oaks, Sage.
Duxbury Press. . . Jaccard, J. y Wan, CH. (1996). LISREL approaches to interaetion effeets in multiple regression,
Gruber, M. (1989), Regression estimators: a comparative study, San Diego, Academlc ~res~. Thousand Oaks, Sage.
Guillén, M. F. (1992). Análisis de regresión múltiple, Madrid, C. 1. S. (Centro de InvestIgaciO- Jacob, H. (1994). "Using published data: enors and remedies", en Lewis-Beck, M. S. (ed.): Re-
nes Sociológicas), Cuaderno Metodológico n. o 4. . . . search practice, California, Sage, pp. 339-390.
Gujarati, D. N. (1988). Basie eeonometrics, 2.' ed., Nueva York, McGraw Hill IntematiOnal Edr- Jagodzinski, W., Kühne, S. M. y Schmidt, P. (1988). "ls the tme score model or the factor model
tions. more appropriate? Response to Saris and Putte", Sociological Methods and Research, 17 (2):
Gunst, R. F. Y Masan, R. (1980). Regression analysis and ils application: a data-oriented approaeh, 158-164.
Nueva York, Marcel Dekker, Inc. Jennings, D. E. (1986). "Judging inference adequancy in logistic regression", Joumal ofthe Ame-
rican Statistical Association, 81: 471A76,
HageIlaars, J. A. (1993). Loglinear models with latent variables, Newbury Park, California, Sage. Jennrich, R. y Sampson, P. (1985). "S!epwise discriminan! analysis", en Dixon, W. J. (ed.):
Hagenaars, J. A. (1994). "Latent variables in log-linear models of repeated observations", en Yon BMDP. Statistical software, Los Ángeles, University of California Press.
Eye, A. y Clogg, C. (eds.): Latent variables analysis, Thousand Oaks, CA. Sage, pp. 329-352. Jolliffe, 1. T. (1986). Principal eomponent analysis, Nueva York, Springer-Yerlag.
Hagle, T. M. YMitchell, G. E. II (1992). "Goodness-of-fit measures for probit and logit", Ame- Joreskog, K. G. (1973). "A general rnethod for estimating a linear structural equation system",
rican Joumal of Political Scienee, 36: 762-784. en Goldberger, A. S. y Duncan, O. D. (eds) Structural equation models in the social scien-
Rair, J. F., Anderson, R. E., Tathan, R. L. Y Black, W. C. (1992). Multivariate data analysis with ces, Nueva York, Seminar: 85-112.
readings, 3. a ed., Nueva York, Maxwell Macmillan International edítions. JOreskog, K. G. Y Sorbom, D. (1979). Advaneed in factor analysis and struetural equation mo-
Hair, J. F., Anderson, R. E., Tathan, R. L. Y Black, W. C. (1999). Análisis multivariante, 5.' ed., dels, Cambridge, M. A. Ab!.
Madrid, Prentice Hall. JOreskog, K. G. Y Sorbom, D. (1981a). LISREL V. User's guide, Chicago, National Edueatio-
Hand, D. J. Y Taylor, C. C. (1987). Multivariate analysis ofvarianee and repeated measures: a nal Resources.
practica! approach for behavioural scientisl, Londres, Chapman and HalL Joreskog, K. G. Y Sorbom, D. (1981b). LISREL V. Analysis of linear structural relationships by
Hardy, M. A. (1993). Regression with dummy variables, Newbury Park, Sage. the method ófmaximum likelihood, Chicago, National Educational Resources.
Harman, H. H. (1976). Modernfactor analysis, 3.' ed., Chicago, University of Chicago Press. Joreskog, K. G. Y Sorborn, D. (1988aJI989). LISREL 7: A guide ta (he program and applieations,
Rannan, H. H. Y Jones, W. H. (1966). "Factor analysis by minimizing residuals (Mimes)", Psy- Chicago, SPSS Inc.
ehometrika, 31: 351-368. Joreskog, K. G. Y Sorbom, D. (1988b). PRELIS: A program for multivariale data screening and
Hartigan, J. A. (1975). Clustering algorithms, Nueva York, John Wiley & Sonso data summarization, 2. a ed., Chicago, Scientific Software.
Hauck, W. W. y Donner, D. (1977). "Wald-s test as applied to hypotheses in logit analysis",Jour- Joreskog, K. G. Y Sorbom, D. (1992). LlSREL 7: A guide to the program and applicatioYls, Moo-
nal o[ the American Statistical Association, 72: 851-853. resville, IN; Scientific Software.
Hayduk, L. A. (1987). Structural equation modeling with LISREL: essentíals and advances, BaI- Joreskog, K. G. Y Sorbom, D. (1993a). LISREL 8: User-s reference guide, Chicago, SSI, Scien-
timore, John Hopkins. tific Software InternationaL
Hocking, R. D. (1976). "The analysis and selection of variables in linear regression", Biome- Joreskog, K. G. Y Sorbom, D. (1993b). New features in PRELIS"" 2, Chicago, SSI, Scientific Soft-
tries, 32: ¡-50. ware InternationaL
Hoelter, J. W. (1983). "The ~nalysis of ~ovariance structure: goodness-of-fit indexes", Socio- Joreskog, K. G. Y Sorbom, D. (1993c). LlSREL 8: struetural equation modeling with the SIM-
logieal Methods and Research, 11: 325-344. P LISlm command language, Chicago, SSI, Scientific Software InternationaL
Rosmer, D. W. y Lemeshow, S. (1989). Applied logistie regression, Nueva York, John Wiley & Sonso
634 Análisis multivariable. Teoria y práctica en la investigación social Bibliografía 635

JoveU, A. J. (1995). Análisis de regresión logística. Madrid, Cl.S. (Centro de Investigaciones So- Long, J. S. (1983/1991). Confirmatory factor analysis, Newbury Park, Sage.
ciológicas), Cuaderno Metodológico n. o 15. Long, J. S. (1987). "A graphieal method for the interpretation of multinomiallogit analysis", 50-
Kaiser, H. F. (1970). "A second-generation little Jiffy", Psyehometrika, 35: 401-415. ciologieal Methods and Researeh, 15 (4): 420-446.
Kaiser, H. F. (1974). "An index offactoria! simplicity", Psychometrika, 39: 31-36. Lovie, P. y Lovie, A. D. (1991). New developments in statistical for psyehology and the social
Kaplan, D. (1990). "Evaluating and modifying covariance structure models: a review and re- sciences, Londres, Routledge.
cornmendation", Multivariate Behavioral Research, 25: 137-155. Lumeborg, C. E. (1994). Modeling experimental and observational data, California, Duxbury Press.
Kaplan, D. (1995). "Statistical power in structural equation modeling" en Hoyle, R. H. (ed.):
Structural equation modeling: concepts, issues and applications, Thousand Oaks, California, MacCallum, R C. (1995). "Model specitieation: procedures, strategies, and related issues", en
Sage, pp. 100-117. Hoyle, R. H. (ed.): Structural equation modeling: concepts, issues and applications, Thou-
Kaplan, D. (2000). Structural equation modeling: foundations and extensions, Sage, Aduances sand Oaks, California, Sage, pp. 16-36.
Quantitative Techniques in the Social Sciences, vol. 10. Manly, B. F. (1990). Multivariate statistical methods: a primer, Londres, Chapman and Hall.
Kaufman, L. y Rousseeuw, P. J. (1990). Finding groups in data: an introduetion to cluster Marsh, H. W., Baila, 1. R Y McDonald (1988). "Goodness-of tit indices in eonfirmatory factor
analysis, Nueva York, John Wiley and Sons, Ine. analysis: the effeet of sample size", Psychological Bulletin, 97 (1): 562-582.
Kelloway, E. K. (1998). Using LISREL for struetural equation modeling. A researchers's guide, Marsh, H. W. y Grayson, D. (1995). "Latent variable models of multitrait-multimethod data",
California, Sage. en Hoyle, R. H. (ed.): Structural equation modeling: concepts, issues and applicatíons,
Kendall, M. (1980). Multivariate analysis, Londres, Griffin and Uigh Wycombe, Co. Ltd. Thousand Oaks, California, Sage, pp. 177-198.
Kennedy ,J. J. (1983). Analyzing qualitative data. Introduetory log-linear analysis for behavioral Martínez Ramos, E. (1984a). "Fundamentos del análisis discriminante y su aplicación en un es-
research, Nueva York, Praeger Publishers. tudio electoral", en Sánchez Carrión, J. J. (ed.): Introducción a las técnicas de análisis mul-
Keren, G. y Lewis, Ch. (ed.) (1993). A handbook for data analysis in the behavioral sciences: sta- tivariable aplicadas a las ciencias sociales, Madrid, C.I.S. (Centro de Investigaciones So-
tistical issues~,Nueva Jersey) Lawrence Erlbaurn Associates, Publishers. ciológicas), pp. 139-164.
Kim, J. y Mueller, Ch. W. (1978a).Introduction to factor analysis: What it is and How to do it, Martínez Ramos, E. (1984b). "Aspectos teóricos del análisis de cluster y aplicación a la ca-
Nuevabury Park, Sage. racterización del electorado potencial de un partido", en Sánchez Carrión, J. J. (ed.): In-
Kim, J. y Mueller, Ch. W. (1978b). Factor analysis: statístieal methods and practical issues, Be- troducción a las técnicas de análisis multivariable aplicadas a las ciencias sociales, Ma-
verly HiIls, Sage drid, Cl. S. (Centro de Investigaciones Sociológicas), pp. 165-208.
Klecka, W. R (1980). Discriminant ánalysis, Beverly Hills, Sage. Maruyama, G. M. (1997). Basics ofstructural equation modeling, California, Sage.
Knoke, D. y Burke, P. I. (1980/1986). Log-linear models, Beverly Hi!ls, Sage. MeCullagh, P. y Nelder, J. A. (1989). Generalized linear models, 2.' ed., Nueva York, Chapman
Kreft,1. y De Leeuw, J. (1998). Introducing multilevel modeling, Londres, Sage. and Hall.
Kritzer, H. M. (1986). "Using categorical regression to analyze multivariate contingency tables", McCutcheon, A. L. (1994). "Latent logit models with polytomous effects variables", en Von Eye,
en Berry, W. D. y Lewis-Beck, M. S. (eds.) New tools for social scientists. Advances and A. y Clogg, C. (eds.): Latent variables analysis, Thousand Oaks, CA. Sage, pp. 353-372.
applications in research methods, Beverly Hills, Sage, pp. 157-202. ' MeDonald, R (1989). "An index of goodness-of-fit based on non-centrality", Journal of Clas-
Kühnel, S. M. (1988). "Testing MANOVA designs with LISREL", Sociological Methods and sifieation, 6: 97-103.
Researeh, 16 (4): 504-523. McDonald, D., McCIeary, R, Meidinger, E. y Hay, R A., Ir. (1980/19g]).Interrupted time se-
ries analysis, Beverly Hills, Sage.
Lachenbruch, P. A. (1975). Discriminant analysis, Nueva York, Hafner Press. McFadden, D. (1974). "Conditionallogit analysis of qualitative choice behavior", en Za-
Levin, R. I. Y Rubien, D. S. (1991). Statistics for management, New Jersey, Prentice Hall. rembka, P. (ed.): Frontiers in econometrics, Nueva York, Academic Press.
Levine, M. S. (1977/1982). Canonical analysis andfactor comparison, Beverly Hills, Sage. Menard, S. W. (1995). Applied logistic regression analysis, California, Sage.
Lewis, Ch. (1993). "Bayesian methods ofthe analysis ofvariance", en Keren, G. y Lewis, Ch. Mickey, J. y Greenland, S. (1989). "A study of the impact of eonfounder selection criteria on
(eds.), A handbookfor data analysis in the behavioral sciences: statistical issues, New Jersey, effeet estimation", American Journal of Epidemiology, 129: 125-137.
Lawrence Erlbaum Associates Publishers, pp. 233-258. Miles, J. y Shevlin, M. (2000). Applying regression and correlation, Newbury Park, Sage.
Lewis-Beek, M. S. (1980). Applied regression. An introduction, Beverly Hills, Sage. Mosteller, F. y Tnkey, J. W. (1977). Data analysis and regression, Reading Mass, Addison-Wesley.
Lewis-Beek, M. S. (1995). Data analysis: an introduction, Thousand Oaks, Sage. Mulaik, S. A. (1972). The foundation of factor analysis, Nueva York, McGraw Hill.
Liao, T. F. (1994). Interpreting probability models. Logit, proM and other generalized linear mo- Mulaik, S. A. y James, L. R (1995). "Objectivity and reasoning in scienee and structural
deis, Thousand Oaks, California, Sage. equation modeling" en Hoyle, R. H. (ed.): Structural equation modeling: concepts, issues and
Little, R J. A. Y Rubin, D. B. (1987). Statistical analysis wilh missing data, Nueva Yok, Wiley. applieations, Thousand Oaks, California, Sage, pp. 118-137.
Little, R. J. YRubin, D. B. (1990). "The analysis of social scienees data with missing values", 50- Muthen, B. (1984). "A general struetural equation model with diehotomous, ordered catego-
ciological Methods and Research, 1'8: 292-326. rieal and continous latent variable indicators", Psychometrika, 49: 115-132.
Long, J. S. (1983). Covariance structure models: an introduction to LISREL, Beverly Hills, Sage. Myers, R H. (1986). Classical and modern regression with applications, Boston, Duxbury Press.
636 Análisis multivariable. Teoría y práctica en la investigación social Bibliografía 637

Nesselroade, J. R (1994). "Exploratory factor analysis with latent variables and the study of pro- Satorra, A. YStronkhorst, L H. (1984). "Introducción a los modelos de causalidad", en Sánchez
cesses of development and change'\ en Von Eye, A. y Clogg, C. (cds.): Latent variables Carrión, J. J. (ed.): Introducción a las técnicas de análisis multivariable aplicadas a las cien-
analysis, Thousand Oaks, CA. Sage, pp. 131-154. cias sociales, Madrid, CJ.S. (Centro de Investigaciones Sociológicas), pp. 217-246.
Nourisis, M. J. (1986). SPSS/PC+. Advanced statistics, Chicago, SPSS lnc. Satorra, A. y Bentler, P. M. (1990). "Robustness issues in structural equation modeling: a review
Nourisis, M. J. (1994). SPSS. Professianal statistics 6. 1, Chicago, IlIinois, SPSS lne. of recent developments", Quality & Quantity, 24: 367-386.
Satorra, A. y Bentler, P. M. (1994). "Corrections to test statistics and standard errors in cova~
Pedhazur, E. J. (1982). Multiple regression in behavioral research: explanation and predictíon, riance structure analysis", en Von Eye, A. y Clogg, C. (eds.): Latent variables analyst" Thou-
Nueva York, Holt, Rinehart and Winston. 2,a ed. sand Oaks, CA. Sage, pp. 399-419.
Pérez, C. (2001). Técnicas estadísticas con SPSS, Madrid, Prentice Hall. Schoenbarg, R. J. Y Arminger, G. (1989). "Latent variable models of dichotomous data: the
Puente Viedma, C. de la (1993). SPSSIPC+. Una guía para la investigación, Madrid, Editorial state of the method", Sociological Methods and Research, 18: 164-182.
Complutense. Schroeder, L. D., Sjoquist, D. L. y Stephan, P. E. (1986). Understanding regression analysis: an
introductory guide, Beverly HilIs, Sage.
Raftery, A. (1986). "Choosing models for cross-classifications", American Sociological Review,
Scott-Lennox, J. A Y Lennox, R. D. (1995). "Sex-race differences in social support and de-
51: 145-146. pressíon in oIder low-income adults", en Hoyle, R. H, (ed,): Structural equation modeling:
Rao, C. R (1973). Linear statistical inferenee and ié' application, 2' ed., Nueva York, John Wi-
concepts, issues and applications, Thousand Oaks, California, Sage, pp. 199-216.
ley and Sonso Sen, A. y Srivastava, M. (1990). Regression analysis: theory, methods and applications, Nueva
Ratkowsky, D. A. (1983). Nonlinear regression modeling: a unified practical approach, Nueva
York, Springer-Verlag.
York, Marcel Dekker Inc. Smith, A. F. Y Prentice, D. A. (1993). "Exploratory data analysis", en Keren, G. y Lewis, Ch.
Reynolds, H. T. (1984/1986). Analysis of nominal data, Beverly HilIs, Sage. (eds.): A handbookfor data analysis in the behavioral sciences: statistical issue~~ New Jersey,
Rose, D. y Sullivan, O. (1993). Introducing data analysis for social scientt,ts, Buekingham, Open Lawrence Erlbaum Associates Publishers, pp. 349-390.
University Press. Sneath, P. y Sokal, R. (1973). Numerical taxonomy, San Francisco, W. H. Freeman.
Ruiz Maya Pérez, L. et al. (1990). Metodología estadística para el análisis de datos cualitativos,
Snook, S. C. y Gorsuch, R. L. (1989). "Principal component analysis versus eommon faetor
Madrid, C.LS. (Centro de Investigaciones Sociológicas). analysis: a Monte Carlo Study", Psychological Bulletin 106: 148-154.
Sánchez Carrión, J. J. (1984a). "Análisis de tablas de contingencia: modelos lineales logarítnúcos", Sobel, M. E. (1994). "Causal inference in latent variable models", en Von Eye, A. y Clogg, C.
en Sánchez Carrión, J. J. (ed.): Introducción a las técnicas de análisis multivariable aplicadas a (eds.): Latentvariables analysis, Thousand Oaks, CA. Sage, pp. 3-35.
las ciencias sociales, Madrid, C. L S. (Centro de Investigaciones Sociológicas), pp. 267-294. Spiegel, M. R. (1997). Estadística, 2.' ed., Madrid, McGraw HUI.
Sánehez Carrión, J. J. (1984b). "Análisis de tablas de contingencia: sistema de difereneias de pro- SPSS Inc. (1997 a). SPSS base 7.5. Applications guide, Chicago, Illinois.
porciones", en Sánchez Carrión, J. J. (ed.): Introducción a las técnicas de análisis multiva- SPSS Inc. (1997b). SPSS base 7.5 for windows. User's guide, Chicago, Illinois.
riable aplicádas a las ciencias sociales, Madrid, C.I.S. (Centro de Investigaciones Sociol6 w SPSS Inc. (1999). SPSS base 10.0 manual del usuario, Chicago, Illinois.
gicas), pp. 295-322. Stevens, J. (1986). Applied mu/tivariate statistics for the social sciences, Hillsdale, N. J., Lawrence
Sánchez Carrión, J. J. (1995/1999). Manual de análisis estadístico de los datos, Madrid, Alianza Erlbaum.
Editorial. Steyer, R y Schmitt, T. (1990). "Latent strait models in attitude research", Quality and Quan-
Sánchez Canión, 1. 1. YTorcal, M. (1992). Utilidades del SPSSlPC+. Versiones 2.0,3.0 Y 4.0. PresenJación tity, 24: 427-445.
de informes, grabación de datos y creación de gráficos y mapas, Madrid, Alianza Editorial. Steyer, R. y Schmitt, T. (1994). "The theory of confounding and its application in causal mo-
Saris, W. E. (1984). "Tres enfoques diferentes para resolver el problema del error aleatorio en deling with latent variables", en Von Eye, A. y Clogg, C. (eds.): Latent varibles analysis,
los modelos de ecuaciones lineales estructurales", en Sánchez Carrión, J. J. (ed.): Intro- Thousand Oaks, CA. Sage, pp. 36-67.
ducción a las técnicas de análisis multivariable aplicadas a las ciencias sociales, Madrid, c.r.S.
(Centro de Investigaciones Sociológicas), pp. 247-266. Tabachnick, B. G. Y Fidell, L. S. (1989). Using multivariate statistics, 2.' ed., Northridge, Cali-
Saris, W. E. y Hartman, H. (1990). "Common factors can always be found but can they also be fornia, Harper CoUins Publishers.
rejected?", Quality and Quantity, 24: 471-490. Tacq, J. (1997). Multivariate analysis techniques in social science research. Prom problem to analy-
Saris, W. E., Satorra, A. y S6rbom, D. (1987). "The deteetion and correction of specification sis, Londres, Sage.
errors in structural equation models", en Clogg, C. C. (ed.): Sociological m~thodology, Was- Tanaka, J. S. y Huba, G. J. (1984). "Confirmatory hierarchical factor analysis of psychologieal
hington, The American Sociological Association, pp. 105-129. distress measures", lournal of Personality and Social Psychology, 46: 621-635.
Saris, W. E. y Stronkhort, H. (1984). Causal modelling in non-experimental Research: an in- Tatsuoka, M. (1993). "Elements of the general linear model", en Keren, G. y Lewis, Ch.
troduction fo the LISREL approach, Amsterdam, Sociometric Research Foundatiol1. (eds.): A handbookfor data analysis in {he behavioral sciences: statistical issues, New Jersey,
Saris, W. E. y Van den Putte, B. (1988). "True score or factor models. A secundary analysis of Lawrenee Erlbaum Associates Publishers, 3-42.
the Allbus-test-retest data", Sociological Methods and Research, 17 (2): 123-157. Theil, H. (1971). Applied economic forecasting, Amsterdam, North Holland.
638 Análisis multivariable. Teoría y práctica en la investigación social

Timm, N. M. (1993). "MANOVA and MANCOV A: an overview", en Keren, G. y Lewis, Ch.


(eds.): A handbookfor data analysis in the behavioral sciences: statistlcal issues! New Jersey,
Lawrence Erlbaum Associates Publishers, pp. 129-164.
Tucker, C. R. y Lewis, C. (1973). "A reliability coefficient for maximum likelihood factor analy-
sis",Psychometrika, 38: 1-10.

Upton, G. J. (1978/1980). The analysis of cross-tabulated data, Nueva York, John Wiley & Sonso
Upton, G. J. (1991). "The exploratory analysis of survey data using log-linear models", The Sta-
tistician, 40: 169-182.
Uriel, E. C. (1995). Análisis de datos. Series temporales y análisis multivariante, Madrid, Editorial AC.

Valles, M. S., Cea, M.' A e Izquierdo, A (1999): Las encuestas sobre inmigración en España y Eu-
ropa, Madrid, Ministerio de Trabajo y Asuntos Sociales, Colección Observatorio permanen~
te de la Inmigración, n.o 3.
Van de Geer, J. P. (1993a). Multivariate analysis of categorical data: Theory, Newbury Park, Sage.
Van de Geer, J. P. (1993b). Multivariate analysis of categorical data: applications, Newbnry Park,
Sage.
Vaus, D. A De (1990). Surveys in social reseorch, Londres, Unwin Hyman.
Velicer, W. F. y Jackson, D. N. (1990). "Component analysis versus coromon factor analysis: sorne
issues on selecting an appropiate procedure", Multivariate Behavioral Research, 25: 1~28.
Visauta Vinacua, B. (1986). Técnicas de investigación social. Modelos causales, Barcelona, Edi-
torial Hispano Europea, S. A
Von Eye, A. y Clogg, C. (eds.) (1994). Latent variables analysis, Thousand Oaks, CA. Sage.

Wainer, H. YThissen, D. (1993). "Graphical data analysis", en Keren, G. y Lewis, Ch. (eds.): A
handbook for dcta analysis in the behavioral sclences: statistical issues New Jersey, Lawrence
J

Erlbaum Associates Publishers, pp. 391-458.


West,S. G. ,Finch, J, F. Y Curran, P. J. (1995). "Structural equations models with nonnormal
variables: problems and remedies" en Hoyle, R. H. (ed.): Structural equation mode/ing: con-
cepts, issues and applications, Thousand Oaks, California, Sage, pp. 56-75.
Wickens, T. D. (1989). Multiway contingency tables ana/ysis for the social sciences, New Jersey,
Lawrence Erlbaum Associates, Publishers.
Wildt, A. R. Y Ahtola, O. T. (1978/1985). Analysis of covariance, Beverly HilIs, Sage.
Winship, C. y RadbiU, L (1994). "Sampling weights and regression analysis", Sociologico/ Me-
thods and Research, 23 (2): 230-257.
Wittink, D. R. (1988). The application of regression analysis, Boston, AlIyn & Bacon Inc.
Wonnacott, R. M. Y Wonnacott, T. H. (1972). Regression: a course in statisties, Nueva York, John
Wiley and Sons, Inc.
Wonnacott, R. M. YWonnacott, T. H. (1979). Econometries, Nueva York, John Wiley and Sons, Inc.

Yela, M. (1997). La técnica del análisis factorial. Un método de investigaci6n en psicología y pe-
dagogía, Madrid, Biblioteca Nueva.

Zwick, R. (1993). <~Pairwise comparison procedures for one-way analysis of variance designs",
en Keren, G. y Lewis, Ch. (eds.): A handbookfor data analysis in the behavioral sciences:
statistical issues" New Jersey, Lawrence Erlbaum Associates Publishers, pp. 43-72.

También podría gustarte