Está en la página 1de 45
i 184 Andiisis multivariable. Teorla y précticaen la investigacién social «* Primero, se procede a un andlisis univariable, de cada variable independiente por separado. Se analiza su relaciGn con la variable dependiente. ‘Cuando la variable incluye un niimero reducido de valores (ya sea nominal, ordinal 0 continua), la recomendacién es confeccionar una tabla de contingen- ‘ia para medir el grado de significatividad de la relaci6n entre la variable in- ‘dependiente con la dependiente. Esta ttima normalmente en forma binaria: ¥=1,0. ‘La significatividad puede comprobarse mediante la 7 de Pearson o la 7? de | razén de verosimilitud. i “También puede optarse por realizar distintos andlisis de regresi6n logistica : ‘univariados: uno para cada variable independiente que se estime “relevante”, es- i pecialmente, cuando la variable en cuestiGn es continua, Ello permite comprobar Ja relacign entre variables mediante los estadisticos referidos con anterioridad: ) cl coeficiente de regresién, el etror tipico de la estimacién, la “t” de Student, el tstadistico de Wald univariado y demas resumidos en el subapartado 2.1.4.2. « El anélisis conjunto de varias variables independientes a la vez. Puede haber va~ | riables que, de forma aislada, se hallen poco relacionadas con la variable de- pendiente, pero cuando se analizan en conjuncién con otras variables inde- pendientes, pueden convertirse en “relevantes” para la prediccién de Y. iA este respecto, es de interés comprobar el efecto de incorporar una nueva variable o un grupo de ellas (por ejemplo, cuando se analizan variables fiticias), mediante el AG 0 42, eferidos en el subapartado 2.1.42. Se analiza Ia diferencia de *-2LL" del modelo que excluye la variable de interés y la correspondiente al modelo completo. Dicha diferencia expresa el efecto de la variable en la pre- ‘dicci6n de la probabilidad de Y. Su significatividad se comprueba utilizando la 05) convierte a la variable en la primera candidata a ser eliminada del modelo. Especialmente, cuando se aptica el criterio de aumentar el estacistico de Wald. ‘Aunque también piiede seguirse el criterio alternativo de reducir la verosimititud (RY), como criterio principal en la seleccién de variables predictoras, Ademés, hay que insistir en que el nivel de significatividad lo fija previamente el investigador. En re- resin logistica, 10 usual es elevarlo a 0,10 0 0,15. En programas, como el SPSS, el va- for de corte fijado para la significatividad es, por defecto, 0,10. ‘Cuando el modelo incluye varias variables creadas para representar una variable ‘categorica’ (variables fictcias), la eliminacion (y también la introducci6n) de una de di- 188 Analisis multivariable. Teorta y pracica en la investigacién social ,05,u otro valor decidido por el in. vestigador. ©) Elprocedimiento “paso a paso” de inclusién y eliminacion de variables Resulta de la combinacién de los dos procedimientos anteriores. Se parte de un mo- 20 puede ser eliminada del modelo en un paso posterior. ‘Tras cada inclusién y/o exciusién de vatiables se vuelven a estimar los diversos in- dices de bondad de ajusie del modelo, al igual que los coeficientes de regresiny ss nificatividad. Los eoeficientes se ven afectados por el mayor o menor grado de coli- nealad entre las variables independiente incuidas en el modelo. Recuérdese que una { 4 j ; : Pi ‘ Capitulo 2: Andis “ogi” 189 variaci6n importante en su cuantia indica que la variable presenta un grado elevado de colinealidad con la variable independiente recién introducida en dicho paso. Ante 1o cual, habré que adoptar alguna de las medidas sefialadas en el subapartado 2.1.2. El proceso de constituci6n del modelo finaliza cuando no queda ninguna variable que satisfaga ni los criterios de inclusi6n ni los de exclusién. 4 E.seur.0 0€ SELECCION SECUENCIAL DE VARIABLES PREDICTORAS |-— En fa biisqueda del mejor modelo predictivo, se han aplicado diversos procedimien- tos secuenciales de seleccién de variabies independientes. Primero, se ha optado por la aproximacién “hacia delante’, siguiendo el criterlo de reducir la varosimiltud. Después, se ropite el andlisis utlzando el crterio alternative de aumentar el estadistico de Wald, tam- bién en un proceso secuencial “hacia delante”. La coincidencia en los.resultados es plena. Este hecho no sorprende porque, como ya se ha dicho, cuando el tamaiio de la muestra es elevado, ambos criterios convergen, resultando en un mismo modelo predictvo. Los resultados principaies se exponen a continuacién: *+ El modelo inicialincluye s6i0 la constante, siendo su ‘~2iog de la verosimiltud” igual 2 822,988. La estimacién de parémetrosfinaliza en el nimero de teracién 3 porque <1 logaritmo dela verosimiltud disminuye en menos de un ,010 por cient. Los ca- ‘50s correctamente clasificados por este modelo llegan a ser el 77,9% (sobre todo 4os favarables aia regularizacin de inmigrantesllegales (el 100%), mientras que los contrarios a la regutarizacion son en su totlidad errSneamente clasificados. La ta- bla A ofrece las puntuaciones de cada variable independiente inicial para proceder su seleccién secuencial. Tabla A. Variables que no estén en la ecuaciéne Variabies | Puntuacién | of Sig. Paso Xe 65,985 1 000 ° x 4,159 1 ‘041 x 48.962 1 {000 x 1.360 1 243 x 40,238 1 ‘000 % 6,049 1 oid x 110,123 1 ‘000 x 44,961 i ‘900 xy 35,023, 1 1000 xt 14015 1 000 xe 45,139, 1 1000 x 56,238 4 1000) x, 93.448 1 ‘000, ‘No se calewan los ch-cuadrado resicuales a caisa do las redundancias, 190 Andlisis multivariable. Teoria y préctica en lainvestigacién social La hipétesis nula de que todos los coeficientes son cero puede rechazarse con confianza, a decir por el nivel de significacién dol estadistico de puntuacién de Rao, sila variable fuese introducida en el modelo.de regresién logistica en el paso si- guiente. La excepcién es la variable X, ("edad"), cuya significacién (,243) supera ot valor de referencia habitual (,05) ¢, inclusive, los superiores de 10 y .16. De acuerdo con este estadistica (puntuacién), la primera variable en formar par- te del modelo de regresién logistica es X, ("facililar la entrada a inmigrantes”) por- ‘que presenta la puntuacién mas elevada (110,122) de las significativas (,000). + La tabla C resume el historial de las iteraciones. En cada paso se da el valor “2 log de la verosimilitud” y los coeficientes de la ecuacién de regresin logistica co- rrespondiente. Compérense éstos con los incluides en la tabla D. Asimismo, ob- sérvese cémo los valores *-2 log de la verosimilitud” en la iteracién 3 de cada pa- 80 eoinciden con los valores maximos de la funcién de verosimilitud en el modelo de regresién logistica que resulta de cada paso. Esta informacién se incluye en ta tabla B que resume la relevancia de fos modelos relacionada con la proporcién de varlabilidad de la probabilidad de Y que logra explicarse. Tabla B. resumen de los modelos = 209 deta R cuadrado A cuadrado Paso | verosimiltud de Goxy Snet_| de Nagolkorke 1 734,907 107, 164 2 689,697 87 Bat 3 670,040 78 273 4 650,915 1188 ‘288 5 853,002 1198 ‘300 6 45,718 ‘203 ‘12 7 ‘209 ‘320 8 ‘213 ‘ar 8 ‘218 ‘334 + La tabla D detalla a composicién del modelo de regresién logistica en cada paso. \Ninguno de sus coeticientes deja de ser significativo en un paso posterior. La cca excepcién os la constante y on ol uitimo paso. Siguiendo lo dicho en el suba- partado 2.1.4, pueden interpretarse las ecuaciones obtenidas en cada paso, in- cluyendo su transformacion exponencial ‘La razén principal de la incorporacion de la variable en cada paso se en- cuentra en la tabla E. En ela puede comprobarse que la incluida coincide con aque- lia que presenta la puntuacién de Rao mas elevada, con la condicion afiedida de ser significativa, La ttima variable en incorporarse al modelo es X,_("easarse con ma- rroqu?") porque es ta Unica en el paso 8 que obtiene una puntuacién (4.897) sig- niffcativa (,027). Los andiisis concluyen en el paso 9 al no quedar ninguna vatiable cuya contibucién a la prediccién de la probablidad de ser favorable o contrario a la tegularizacién de inmigrantes ilegales sea estadisticamente significativa. Las va- riablas excluidas del modelo predictivo son cuatro: X, (ideologia politica”), X,, ("in- gres0s"), Xj ("vecino marroqui") y X,q Cinmigrante delincuente”). Captulo 2: Andlisis “logit” 19% Tabia C. Historial de ieractonessnete -ar7 = 1364 cag 636,148 Tia] Paso 1) 56.894 ~ 5) 9 30,997 ~307) estar in Tis eanaat Ie ssa] ‘od: por pases hacia dlr 280 de vec, 2 Enola se ncuye una conta, 2g Sola ert inca 22 388 "Ua eet ha ntzaco eno nnro de Hera 3 porue of partmo co vercemitud ha smd en menos 1,10 por cert. ” "a ostimactn ba alas en el rerero de erslon 4 poreus ol ogarno de a vere ha dsinuito en meres ‘oun pi0parcon. + La comprobacién de qué mejora se:conseguiria en “log de la verosimiltud” si ‘cualquiera de las variables en el modelo fuese eliminada se recoge en la tabla F. Esta table se obtiene cuando se aplica el criterio de reducir la verosimilitud. En.ella puede verse que la eliminacién de ninguna de las variables introducidas conseguiria, luna mefora en el ajuste del modelo, al ser la signficacién del cambio en *-2 log de la verosimilitud” inferior a ,05 en todas las variables en los 9 pasos. ; 192 Andlisis multivariable. Teoria y préctica en a investigaciOn social Tabla D. Variables on la ecuacién 16. 950% para EXP (2) eo [er [wu [o |S [oe ‘po | 13001 ‘poo | “Sao \ i ‘boo | 1208 : ‘ooo | ait5t i ‘ooo | 6 f. ‘ooo | zz ‘ooo | sat | ‘o00. | rol0as "058 ¥% veg) mn en me 2% "Vert nt on a, si) ee ae i eel at: ni) ee pe Nae etal ot apes SMESREG foe) mn tpso 3 Sa cata ewapssos SVESUSS) SEAS ona oT ThE TEEN E RE OR OE Caputo 2: Andis “ogi” 193 Tabla €. Variables que no estén en la ecuacién’ Tabla F. Modelo si se ellmina ol término Varables | Puntwacin| of paot| x | sat tog | camoon] | sip gal vanaties \verosimitua| 209 c0'2] ot | S20 ‘el modeo | versine Paso | x, Peso2| x! ~arrae4| 08.081 Tesrass) 45210 e768 Pocos| x, | ~981.904)/ 59.600 sues] 19657 x | TSesis0] cozrr Pesos| x, | ~242748) 25582 xy | sao] 6.02 x, | -ss8z20), ssises Xt, | 238020] - 10,125 Pisos| x, | ~s05080) 18975 | Tsedesa| te06 x, |'“ee0| 45.658 | “sass7|. “sats Center| 9361 20733 Tezesi| “7256 ser Toxsoe| 44358 2.168 Teenei2| 15505 18677 S377 6.300 13238 a1 200| 42238 Coeaisrs| “7.408 Cez6:260| 12.105 Teas] saat feoin| “eis Cocoa) S31 Taereie| 7088 “s2dss7| 13588 Cosesca| ages Zeztere| “7605 Zsedooa| 12051, Zo1e200| 7.050 ihasso| 4970 Loigzsa| 5,128 Z51ss80| 720 Sazz0s0| 12,770 = se5920| 40537 Toiass2| “S70 Taran] tet Teraors| 407 Paso? Paso. ren agaae BEESS Paso Paso xX, Pesos Paso Paso Paso HORRORS, Pao 6 invesigacion social 194 Andtisis mulivariable. Teorta y préctica en ta investigac Tabla E, (continuacién) apap lala: ae Ts root eile e | Bt 3 1 | oes x aie 1 | 975 eee mele | lt le a 1179 1 are a ais e | uli |e Bo) a) t [se mee) et ae xy 013 1 ae a eazo | 4 da “toi bate en . ee 3 [Be | vor | Sewn 7 i 1110 1018 18 8 (93 1424 ‘s ee Fy Seer 707 (496 1,007 % Bs s 187 Ei = % 182 x ie : 162 e 8 ai er Sew a peo ES . 180, ‘ 008 x 2182 x 3187, 5 = ¥, tise x 1000 x “31 & 3 Cthstene = rw = ° RX: ns Captulo2: Andes “logit” “195 Tabla G. (continuacion) 16. 05 0% para EXP ®) a [en [ wae | o | Se | Go) | Inorx eee ase | sete | 1 3.908 oS ner | -sa98 | 3 x, rae | ostaee |} x isi | ‘set | 3 Xe or | Bass | 4 Coatane sor | “aoe | 3 Paso Xn oa | sos | e zoe | digo | imo | 953 | + ‘00s | 000 | 1 x ‘is | ste0 | x a7 | Seeua | 1 x ire | “ses | 1 x, fas | race | 4 x ao | ‘aes | Xe zs | za] 1 Ciera sos | tae] i Paso Xe ‘oss | 6000 | + | a Bo | dare | x 77 | Soar | x 006 | Feee | 4 x fis0 | stgsr | x war | dese | x ima | “Sas | x, rea | rose | Xe foo | “Xess | Cinstante ‘05 | ters | 3 + Vaibio) oduld() oa p260 1 Ky Ky Me Ke Ky He Xp Xy May Min Mi Kee Me *+ Por tiltimo, la tabla G cortesponde al modelo de regresién logistica obtenido me- dlante el procedimiento secuencial de eliminacién de variables “hacia atras’, apli- cando e! criterio de reducir la verosimilitud, Tras cinco pasos (de los que resulta la eliminacién de cuatro variables independientes) se obtiene el mismo modelo antes descrito. Se evita afadir las otras tablas de resultados, al ser plenamente coin dentes con las obtenidas en la seleccién "hacia delante”. 2.2, El modelo logit como variante del iodelo log-linear ‘Como ya se dijo en la introduccién del presente capitulo, el término “logit” tam- bién se aplica a una variedad analitica que deriva de los populares modelos log-linear. Se trata del modelo logit. Este se incluye en la clasificaci6n de técnicas analiticas mul- tivariables de dependencia (entre variables categéricas), a diferencia de los modelos [og- linear, que pertenecen a las técnicas multivariables de interdependencia porque no di- ferencia entre variables independientes y dependientes, Mediante el modelo logit se analiza la relacién causa-efecto entre una tinica variable dependiente y varias inde- pendientes: Cuando la variable dependiente incluye dos eategorias, se trata de un mo- 196 Andtisis multivariable. Teorta y préctica en la investiga social delo logit binomial. Si el mimexo de categorias es superior a dos, el modelo sera ‘multinomial. El proceder en el modelo logit guarda bastante similitud eon la regresién logéstica yel modelado log-linear. Como la regresién logéstica ya se ha descrito en el apartado anterior, conviene ahora exponer en qué consiste el modelado log-linear, antes de ex- plicaren qué difiere el modelo logit. Por esta razén se ha decidido incluir unos primeros subapartados dedicados al modelado loglinear. 2.2]. Elmodelado log-linear Los modelos log-linear (también llamados “modelos loglineales” o “modelos linea- Jes logarftmicos”) tienen su origen en 1935, en la propuesta de Barlett (en “Contingency table interactions”, Journal of the Royal Statistical Society, 2, 248-252) de emmplear las ra- zones de verosimilitud (“odds ratio") como medida de asociacidn en una tabla de con- tingencia, Esta se convierte en la finalidad principal de esta técnica: analizar las relaciones cexistentes entre variables cualitativas, representadas en ‘ablas de contingencia multidi- ‘mensionales. Al ser una técnica de interdependencia, no se distingue entre variables de- pendientes ¢ interdependientes, a diferencia de los modelos Jogi, que sf analizan rela- ciones de dependencia (de relaci6n entre variables independientes y dependiente). 2.2.1.1. Tipos de modelos log-linear Existe una amplia variedad de modelos Jog-tinear. Una tipotogta bi las tres modalidades genéricas siguientes: A) Modelo jerérquico Dé acuerdo con Upton (1978: 57), los modelos jerdrquicos se caracterizan por cum- plir la siguiente regla: “Si el pardmetro relacionado con un conjunto de variables V se incluye en ¢l modelo, entonces el modelo debe incluir todos los pardmetros relacio- nados con cualquier subconjunto de V”. O, dicho con otras palabras, la inelusién de un término para la interaccién de una serie de variables supone, necesariamente, la existencia de términos de orden inferior para todas las posibles combinaciones de di cchas variables. Esto significa que la descripciOn de un modelo jerdrquico no precisa de Jaenumeracién de todos los términos, es suficiente con enumerar los términos de or- den superior en los qué aparecen combinados las variables de interés. Por ejemplo, un modelo de tres variables es jerdrquico cuando la inclusién de un término de interaccién entre las tres variables (14%) supone, a su vez, la consideracién de todos los términos de orden inferior que incluyen a las tres variables: 44, a8, 2°, 248, 1, PS Ieee eee eee eee ee 2 Se Capito 2: Andiisis “logic” 197 Esta variedad de modelo fog-linear resulta muy dtil en la comparacién de mode- los diferentes, con la finalidad de descubrir cual es el mejor. ‘Cuando la interaccién de orden més elevado es significativa, el modelo jerdrquico es saturado y el ajuste con los datos observados es perfecto (Hutcheson y Sofro- niou, 1999). B) Modelo saturado ‘Un modelo log-linear es saturado cuando no se impone ninguna restriccién en las relaciones entre las variables, Incluye todas las posibles combinaciones entre las va- riables, definiéndose mediante la siguiente ecuaci6n: In Figg = Ht AEA Dc AE A tt AOE tt MG Donde: “F;,,” (0 7.) €6a frecuencia en Ia caslla ijn. 4 yes el promedio de los logaritmos de las frecuencias en todas las casi- lias de la tabla. «32 es el efecto principal de la categoria i de la variable A. AB" es el efecto principal dela categorfa j de la variable B. #740" es el efecto de interaccion de la categoria i de la variable A con la ca- ” tegorfa j de la variable B. Mediante esta ecuacién se establece que, para cada celdilla i, ..m, el logaritmo na- tural de la frecuencia esperada F es una suma aditiva del pardmetro de efecto lambda, para cada variable, més la constante (Ilémese “1 [mu] 0 “2” [lambda}). En el mode- lo saturado hay tantos parémetros como celdillas en la tabla. "El modelo log-linear saturado es de utilidad, sobre todo, como punto de partida en la busqueda del mejor modelo pata representar los datos observados. A partir de él se va eliminando cualquier relacién entre las variables que muestre no ser significativa: un valor lambda bajo. C) Modelo de independencia Se incluye dentro de los modelos no saturados, al caracterizarse por no incluir nin- ‘gin término de interacci6n. Lo que sin duda facilita la realizaci6n de los andlisis, ade- ms de la obtencién de un modelo parsimonioso de Ia relacién entre las variables. Para la consecucién de un modelo que se ajuste al principio de parsimonia habré, por tanto, que acudir a una aproximaciGn que excluya algtin efecto entre las variables. Sea éste de orden inferior (una aproximacién no-jerdrquica) 0 superior (modelo de in- dependencia, por ejemplo). 198 Andtisis multivariable. Teorta y practica en lainvestigacién social En la practica, autores como Everitt (1992) observan que sélo los modelos com- rehensivos son de interés. Por modelos comprehensivos entiende aquellos que con- tienen al menos un efecto principal para cada variable considerada. 221.2. La ecuacién log-linear y su interpretacién E] anélisis log-linear se realiza a partir de una tabla de contingencia, con un méimero de dimensiones que iguala al de vatiables (categéricas): bidimensional (dos vatiables), tridimensional (tres variables) y multidimensional (cuando incluye més de tres varia bes). La finalidad principal del andlisis es lograr predecir, como si de una variable de- pendiente se tratase, la frecuencia de cada celdilla de la tabla. Las celdillas se forman del cruce de una categoria de cada variable que participa en ef andlisis. La distribucion de Poisson permite estimar la probabilidad de obtener un determinado valor en cada celdilla de la tabla de contingencia En los modelos log-linear las frecuencias observadas en cada celdilla de la tabla se transforman en logaritmos naturales de ta frecuencia de la celdilla. De ahf deriva su Tombre: modelos “log-linear”. A este respecto, recuérdese lo dicho en el subaparta- do 2.1.4, respecto a los logaritmos. En breve, el logaritmo de un ndmero es la potencia ala que debe elevarse ta base para conseguir dicho nimero. El logariimo natural (tam- bin llamado neperiano) tiene como base el nimero “e” (0 “exponente”). Este es igual 82,718. De modo que, el “In 840 = 6,733”. Por tanto, “¢® = 840", En cambio, el lo- garitmo comiin tiene como base 10. El tomar logaritmos permite la consecucién de un modelo aditivo, a modo del mo- delo de regresién lineal. Ademés, favorece la minimizacion de la asimetrfa positiva que supone analizar frecuencias. Estos se caracterizan por tener como limite inferior el va- lor 0, y como limite superior “oo, El modelo log-linear adopta la écuacién siguiente: Wag HARE RE te AAS AE a AM a AME ‘Un modelo saturado y tridimensional, pot ejemplo, se expresa del modo siguiente: InFy Wt AS AB AG + AP 4 ASE 4 AE gE Donde: “Fix” es la frecuencia esperada en la celdilla ijk. Resulta de la combina- Gi6n conereta de las tres variables consideradas. “H” es el equivalente a la constante o intercepto en el anslisis de regresién lineal, Expresa la frecuencia esperada en la celdilla ijk, cuando todes Jos pardmetros lambda son cero. Con mayor frecuencia se opta por su Capitulo 2: Andlisis “logit” 199 representacién mediante la letra griega “jt” (mu) con prefetencia a “A” (lambda). Con ello quiere enfatizarse el tipo de informacién que proporciona: el promedio de los logaritmos de las frecuencias en todas las casillas de la tabla. +14” es el efecto principal de la categoria i de la variable A. 4B" es el efecto principal de la categoria j de la variable B, “J45" es el efecto de interacci6n de la categoria i de la variable A con la ‘categorfa j de la variable B. Los parmetros lambda (A) representan, por tanto, los efectos de cada variable; tanto por separado (o efectos principales 0 directos de las variables: 24, 43, AS), como de las interrelaciones entre elas: 448, AAC, A8C, 248, Cuiantifican el cambio en la fre- cuencia de celdilla cuando se va de un nivel de la variable explicativa a otro, Es de cir, los incrementos (cuando el signo es positivo) o disminuciones (si el signo es ne- gativo) del valor de base “y” para combinaciones concretas de las variables de interés. “Las letras A, By Cno elevan “A” a ninguna potencia, s6lo nombran a la variable ala que hacen referencia: aquéllas implicadas en la relacidn. En cambio, los sufios ij y k representan las catégor‘as de aquellas variables en el mismo orden, Por ejemplo, MF representa el efecto dela interaccién de las categorias i yj de las variables A y B, reSpectivamente. Mis coneretamente, en tn modelo log-linear de tres variables: religiosidad (A), ni vel de estudios (B) y sexo (C), el término Atm. expresa el efecto de estar en la ca- tegorfa “creyente” en la variable “religiosidad”, 2°, representa el efecto de tener ‘studios “primarios” dela variable “nivel de estudios"y A(z, el efecto de ser “mujer” jnisinamdes es el efecto de la interaccién de ser “creyente” y tener estudios “pri- marios”. Por tltimo, mediante el término A‘iwisstutsae se representa la interaccién de las tres categorfas (creyente, primarios, mujer) de las tres variables referidas (reli- giosidad, nivel de estudios y sexo). Los pardmetros de efectos directos (24, 28, 2¢) se obtienen de la diferencia de la media de los logaritmos en la categoria correspondiente (jf, 4, ji.) ¥ la media conjunta centre todas las categorias(1).De modo que: A,= 4, HA, =H, 16 y= Me fe SU VO- lor es positivo, cuando el promedio de los casos en una fila o columna supera al pro- ‘medio global, El signo es negativo, cuando sucede lo contrario: es inferior al prome- dio global. Las interacciones de primer orden (42, AAC, 180) se obtienen promediando todos Jos valores de las variables A, Bey G, en una tabia bidimensional, cada vez, mientras que Ia interaccién de segundo orden (242°) es Ia diferencia entre a'suma de cada valor del ‘predictor lineal con los marginales A (fils), B (columnas) y C (fondo) y la suma de los marginales de AB, ACy BC con la constante. ‘Cuando lambda mide el efecto de la interaccién entre las variables, su valor ex- presa la diferencia existente entre las sumas de las variables tomadas de forma _Exemrio vet CALCULO DE LOS PARAMETROS LAMBDA 200 Analisis multivariable. Teoria y préctica en la investigacion social aistada y en conjunci6n con otras variables, Su valor es 0, sino se observan diferencias entre las categorfas de las variables relacionadas (por ejemplo, entre los “creyentes”, segtin su “nivel de estudios"). Su valor es positivo (> 0), cuando se constata una ma. Yor predisposicién a ser “creyente” entre las personas con estudios “primarios”, por ejemplo ( Afr, )- El igno es negativo (< 0), si existe menos predisposicién en- tre las personas con estudios primarios a ser ereyentes. Un mayor detalle del célculo de los parémetros lambda se da en el ejemplo ilustrativo que sigue a continua- cién. Obsérvese que los pardmetros de interacci6n en los modelos log-linear se obtienen de la diferencia entre el logaritmo de la frecuencia observada en una cel- dilla concreta (a la que se hace referencia) y el logaritmo de la frecuencia predicha, utilizando s6lo los pardmetros lambda de las variables referidas. Ast, pot ejemplo, He neon er =O (Py,)~ (qtr Real, + Rema, Donde: “n,,” es la frecuencia observada en la celdilla que cortesponde al cru- ‘ce de las categorfas “creyente” y “primarios”, de las variables “re- ligiosidad” y “estudios”, Para més informacién véase el ejemplo a continuacién, A) Tabla de coniingencia con las frecuencias absolutas y porcentuales del cruce de las variables “teligiosidad” (en filas) y “nivel de estudios” (en columnas), en una muestra de 2.308 casos. Nivel de estudios Religiosidad Primarios Medios Creyento 49 447 852 478 No ereyente 104 138 TOTAL 753 226 f Captinlo 2: Andisis “logit” 201 B) Logaritmos naturales Roligiosidad Primaries "Medios Superiores_Promedio Creyente 6.475 6103 5,147 5,908 Nocreyente 4,644 62tt 6.082 5,646, Promedio 5,560 6187 -§814--5,77 ©) Efectos directos 2288, = $,908 - 5,777 = 0,131 Hb gg = 5,646 ~5,777 = 0,131 epi, = §,560 - ,777 = -0,217 Abt 6,157 = 5,777 = 0,38 2a, = 5,614 5,777 = 0,163 Obsérvese que las éstimaciones para cada variable suman-cero en total: + Para la variable religiosidad: 0,131 + (-0,131) = 0 + Para la variable nivel de estudios: ~0,217 +-0,38 + (-0,163) = 0 ) Efectos de interaccién se, = Inn) ~ (ye Ail + Aol, ) = 475 —(5.777 +0,131~0,217) = 0,784 Arrotntnt = 1a) ~ (H+ Ree + A’) = 6.103 ~ (5.777 + 0,131 + 0,38) = -0,185 141 (5777 +0,131-0,163) =-0,598 Ae lay) Hey + Bt 2 ay =1O) (4 eg + Be) 4644 (5.771 -0,131-0,217) = 0,785 Arsene mace = 10(B:2)~ (H+ Ate + Aas) = 6211 ~(5.777 0,131 + 0,38) = 0,185 Fe ng = 1s) —(H+ ABH + A.) = 6.082 (5.777 =0,131-0,168) = 0,599 Los valores positivos de los pardmetros /ambda indican una relacién positiva en- tre las categorias de las variables que se relacionan; los valores nagativos, lo contrat. Siguiendo este desartollo, os logaritmos naturales de las frécuencias observadas en las celdilas de la tabla dependen de la suma de los efectos directos de cada va riable implicada y los efectos de interaccién entre ellas. A lo que se afiade, de acuer- do con la ecuacién de los madelos /og-linar, la constante (1). Ast, por ejemplo, el lo- ‘gatitmo natural de la frecuencia observada en la ceaila del cruce de la primera fila por {a primera columna (n,,) 6s el siguiente: In(ty) = H+ Arete * Ap + Apegon In (649) = 5,777+0,131 ~0,217+0,784 = 6,475 ‘Defmisme modo se procede con el resto de las celdillas de la tabla, 202 Andiisis mutivariable. Teoria x préctica en lainvesigacion social ) Exponentes ‘Como la interpretacién en términos de logariimos es mas compleja que mediante “odds ratio (razones de verosimilituc), en los modelos logrtinear, al igual que en el andes de regresion logistica, por ejemplo, se procede ala transformaciin exponencial de los par sonia Gun tm caer nf 22 =0) 1-PY=1}}? “odds”, como se expuso en el subapartado 2.1.4. As, por ejemplo, 2%, o8 el Iogar ritmo de la razén de creyentes a no creyentes. ‘Su transformacién exponencial (¢" = 7%) es igual a 2,190. Puade afirmarse que los “ods estmados de una persona con estusce ‘primarios" que es “creyente"son algo més de dos veces (exactamente, 2,180) lor ‘odds" do una persona “creyento" que posee “otro” nivel do estudios. igualmontc, Fier tare 1.599 $0 transforma a e959 = 1,921 20. Lo que significa que los “odds” estimados do una persona con estudios superiores que es “no creyente” es ca- si dos veces (1,820) los “odds” de una persona también vel de estudios inferior. En suma, los exponentes acti “no creyente", pero de un ni- iN como medidas de los efec- 108 directos y de interrolacién entre las variables, siendo su interpretacion mao sencilla que en términos de logaritmos, A continuacion ‘80 incluyen todas las trans- formaciones exponenciales efectuadas de los pardmetros lambda que se hian caleu. lado: aan | = 0,784 eo 22.190 Aeteaimeaes = “0,185 eS = 0,831 Racsots apenas = 0,598 7 = 0,550 Jeno ponrs = ~O, 78S et = 0,456 i ereaenaee =.0,185 e™® = 1,203 qrsesncntor eo = 1,820 STs ae ee Recuérdese que por “odds” se entiende la raz6n probabilidades de ocurrencia de ‘un evento (de una categoria de una variable) en relacién no se presente. Algunos autores ~como Kennedy (1983)- letra griega omega (2). Otros, en cambio, optan por la con la probabilidad de que Jo representan mediante Ia denominacién tradicional que en este texto se ha seguido, Cualquiera que sea su denominaci6n, cuando st valor std préximo a “1” significa que ambas probabilidades (de ocurrencia y no ocurrencia) ‘son iguales, lo que se traduce en inexistencia de relacién entre las variables. Hay relacin, cuando su valor se aleja de “1”: un “odds” positivo (> 1) 0 negativo (< 1). Un “odds” > Lse ol “ocurrencia”, ¥¢ cuando existe mas probabilidad de “ocurrencia” de un evento que de “no ‘eurrencia”, Por el contrario, un “odds” < 1 supone una menor probabilidad de Capitulo 2: Andlisis “logit” 203 Los “odds” no tienen limite superior ni inferior, pueden adoptar cualquier valor > 0, Asimismo, recuérdese que un “odds” = 1 se corresponde con uti “log odds” de 0. Es- to se debe a que el logaritmo neperiano de 1 es 0. ‘Tomando todo esto en consideraci6n, la ecuaci6n log-linear puede transformarse en un modelo multiplicativo, En el caso de un modelo bidimensional, como el ilustrado en, el ejemplo anterior, la ecuacién adoptaria la forma siguiente: eM eH oor it oll gl! En el caso de la primera casilla (F,, 0 n,,) el modelo quedaria asi expresado: PA a et GT Qe NEEE srr gon gest game = 322,79 x 1, 140 x 0,805 x 2,190 = 649 22:13. La estimacién de pardmetros En los modelos log-linear, como en regresién logistica, los parametros lambda se estiman, preferentemente, mediante el método de maxima verosimilitud, a través de ‘un proceso iterativo. El proceso de estimacién conctuye cuando las diferencias entre estimaciones sucesivas no difieren més del valor previamente fijado, salvo que el in- vestigador escoja deliberadamente un valor especifico (el més habitual es 0,25). En la estimacién de pardmetros también puede aplicarse el métado de miinimos cuadrados ponderados. Si bien, la aplicaci6n de este Ultimo procedimiento no se re- comienda cuando se dan dos circunstancias: el tamatio de la muestra es pequeio ylo existe una elevada proporcién de celdillas con frecuencias inferiores a 5: al menos ‘un 25% del conjunto de celdillas creadas por el cruce de variables. El ndimero méximo de parémetros a estimar iguala al ntimero total de celdillas en la tabla, Mas concretamente, para los efectos principales, se estiman tantos pardmetros ‘como numero de categorias de la variable menos 1. Para los efectos de interaccién, se estiman tantos pardmetros como el producto del niimero de categorfas de cada una de Jas variables implicadas en la relacién menos 1. En el ejemplo anterior, el modelo in- cluye dos variables: “religiosidad”, con dos categorfas (creyente y'no creyente) y “nivel de estudios”, con tres categorfas (primarios, medios y superiores). Los paré- ‘metros de interaccidn son en total 2: (2~1)(3- 1) =2. ‘Cuando el modelo abarca més de tres variables la complejidad del andlisis sumenta considerablemente. Tanto més, cuanto mayor sea el ntimero de variables. Ello se debe, sobre todo, al ineremento que supone en el ntimero de interacciories posibles. Lo que redunda, negativamente, en una mayor probabilidad de haber “celdillas vacias”. Este problema, que es comin a todo andlisis realizado a partir de tablas de con- tingencia, ya fue expuesto en el subapartado 2.1.2. En él se hizo referencia a sus 204 Andiisis mutivariable, Teoria y préctica en la investigacién social efectos negativos en el andlisis,principalmente, debido a.que los “odds ratio” con ce- ros en el. denominador tienden a infinito. Asimismo, se aludi6 a diversos procedi- mientos para obviar este problema, entre los cuales destaca Ja conveniencia de in- crementar el tamafo de la muestra a analizar. ‘Otro problema relacionado con tablas mulidimensionales (que incluyen mds de tres variables) son los “datos esparcidos”. Este problema aparece, de manera especial, cuan- do el tamatio de la muestra es pequetio y se analizan més de tres variables, que incluyen cuatro o més categorias. Siquiere conocerse el grado de esparcimiento de los datos, puede aplicarse el “in- dice de esparcimiento” (DE), propuesto por Agresti (1990). Consiste en diviir el tamaiio de la muestra entre el niimero de celdillas de Ia tabla, como se muestra en el si- ‘guiente ejemplo. Evsemto 0€ cALGULO DEL INDICE DE ESPARCIMIENTO PARA DISTINTOS TAMANOS MUESTRALES Se quiere analizar la relacién entre tres variables mediainte una tabla tridimensional. LLas dos primeras variables incluyen cuatro categorias cada una. La tercera variable so ha- lia medida mediante cinco categorias. Para distintos tamafios muestrales, los “Indices de ‘esparcimiento* son los siguientes: 4) Para una muestra de 300 casos: IE = 300/(4 x 4x5) = 3,75 4) Para una muestra de 600 casos: IE = 600/(4 x 4x5) =7,5 } ©) Para una muestra de 900 casos: HE = 9004 x4 x5) = 11,25 Con estos supuestos de tamafio musstral puede comprobarse el aumento del “indi- , ce de esparcimiento”, conforme se incrementa el tamaio de la muestra. Téngase presente que valores de IE <'5 indican la presencia de numerosas celaillas de la tabla con fre- i ‘cuencias pequefias. Esta situacién es més habitual con tamafios muestrales pequefios y ‘cuando el riimero de categorias de las variables os tres 0 més. EI nimero de categorias de las variables también afecta considerablemente al valor de IE. Para demostrarlo, se vuelve a calcular e! "indice de esparcimiento” en el supues- to de que fas tres variables de! ejemplo tuviesen cada una cuatro categorias. Para una muestra de 300 casos el indice es ol siguiente: IE = 300/(4 x 4 x 4) = 4,69. Capitulo 2: Andlisis “log” 205 'Sise compara con el obtenido bajo el supuesto anterior, se observa que este imo Indice es ligeramente superior al obtenido para el mismo tamario muestra (300 casos) y tres variables (dos con cuatro categorias y una con cinco). Al reducirse una categoria en ia vitima variable se ha pasado de un IE de 3,75 a 4,69. Este aumento en el valor de IE adguiere mayor magnitud cuando se decide reducir ef niimero de categoria de las tres variables a tres. En este dlimo supuesto el indice se aleja bastante dol raferente de 6, a- canzando ol valor de 11,11: IE = 300/(3 x 3x3) = 11,11 El ejemplo anterior muestra la importancia de dividir las variables categ6ricas en el menor niimeto de categorfas posibles, antes de proceder al modelado /og-lonear. Mé- xime si coincide con un tamafio muestral pequefio. El tener una proporci6a importante de celdillas (como e1 25%, por ejemplo) con frecuencias inferiores a “5” dificulta el uso del estadistico 77 y de estadisticos basados en él. * Cuando et mimero de variables es superior a tres (modelos multidimensionales), puede seguirse én la configuracién del modelo alguno de los procedimientos secuen- Giales aplicados en otras técnicas analiticas: los procedimientos de seleccién hacia de- ante (“forward”), de eliminacién hacia atrés (“backward”) y el procedimiento “paso a paso” (“stepwise”). Estos tres procedimientos de seleccién de variables secuencia- les ya fueron referidos en 1971 por Goodman (en “The analysis of multidimensional contingency tables”, Technometrics, 13: 33-61) como idéneos en su aplicacién en mo- delos multinomiales. En el modelado log-linear existe una mayor preferencia por el procedimiento de liminacién “hacia ates”, especialmente en modelos jerdrquicos. Upton (1978) lo re- comienda por ser el procedimiento “més seguro”. El andlisis comienza tomando, como punto de partida, el modelo saturado. Este se caracteriza (como se vio en el subapartado 2.2.1.1) por incluir todas las asociaciones 0 in- teracciones posibles entre las variables. A partir de él se procede a una eliminacion se- ‘cuencial de parémetros, hasta lograr un buen ajuste a los datos empiricos. El pardmetro ‘liminado en cada paso es, como en tegresin logéstica, quel que no satisface los citerios de permanencia en el modelo. Estos se fijan antes de comenzar los andlisis. Destaca el tener un valor estandarizado bajo , por tanto, no significativo estadisticamente. La sig- nificatividad se comprueba mediante los estadisticos “t” de Student 0 “2”. Todo valor de “e” 0 “2” empirico inferior a #2 supone, en general, que el pardmetro correspondiente noes relevante en el modelo empirico, procediéndose a su eliminacién. Una estrategia relacionada con la anterior, también de uso popular (Nourisis, 1994; Bisquerra, 1989), consiste en comprobar, de forma sistemstica, a contribucién que ca- da término de un orden concreto realiza al modelo, Lo habitual es comenzar con las interacciones de orden superior (como, por ejemplo, 442°). Se comprueba la reper- asin que tendria su eliminacin en el ajuste del modelo. Déspués, se desciende a las interacciones de orden inferior (como puede ser 24), para concluir, finalmente, con los efectos directos. 206 Andiisis multivariable. Teorta y practica en la investigacion social | Mediante el estadistico 2? de razén de verosimilitud puede comprobarse Ia re- percusién que tendrfa en el ajuste del modelo la eliminacion de un efecto de orden de- | terminado, Para ello se resta el z* correspondiente al modelo que carece del efecto que ] se evalda del obtenido en ef modelo que sf lo incluye. Esta diferencia de valores 72a | veces también se refiere como “72 parcial”. i Bhat Donde: “7 ," es el valor de 7° correspondiente al modelo sin el efecto de orden k. “if es el valor para el modelo con el efecto de orden k. i A diferencia de R’, cuyo valor aumenta al ir aiiadiéndose variables independien- i tes al modelo, el valor de 7? disminuye conforme se afiaden parémetros al modelo. Por esta raz6n, interesan valores de 7° bajos, como indicativos de un buen modelo, Al con trario de lo que sucede con F°. En este contraste de valores 7”, la hip6tesis mula se formula en términos de que | el efecto de orden k que se comprueba es igual a cero (H,; k = 0). El rechazo de es- ta hipstesis se produce cuando el nivel de significacién asociado al cambio de 77es pe- i quefio, normalmente, p <,05, lo que supone la etiminacién del efecto del modelo. Es- te criterio se aplica, por defecto, en la mayorfa de los programas estadisticos al uso, como el SPSS. Pero también puede seguirse la estrategia contraria. Consiste en ir afladiendo pa- rémetros al modelo, a modo del procedimiento seguido en la seleccién “forward”, El andlisis parte de un modelo simple (como puede ser, por ejemplo, el modelo de in- dependencia) y, poco a poco, se van afadiendo pardmetros al modelo. Depende, sobre todo, de su significatividad (una raz6n “t” o “2” > +2). El andlisis concluye cuando se ha formado un modelo que presenta un buen ajuste a los datos empfricos. ‘Cualquiera que sea el procedimiento seguidio en Ia estimacion de pardmetros y con- siguiente configuracién del modelo log-linear, en todos ellos se comprueba la signifi- catividad de los coeficientes lambda estimados y su error tipico. La significatividad normalmente se comprueba mediante el estadistico “2”, al ser, en la mayoria de las situaciones el tamafio de la muestra superior a 30 casos. Su va~ lor empirico se obtiene, al igual que la raz6n “t”, del cociente entre el coeficiente y el ertor de estimacién correspondiente. Por ejemplo: Pree ys ‘ee ae e | Z0s2)= ac eat) La hip6tesis muta se formula en los termi siguientes: Hy 242 = 0, y la alternati +H, 24° #0. Para que el parémetro lambda.se considere significativo y pueda in- cluirse en el modelo debera superar al correspondiente valor tedrico, al nivel de sig- Gu RO KS KE Captulo2: Andis “loge” 207 nificacion elegido. El usual es 0,05. Cuando éste sea el nivel de significacién elegido, todo valor Z empirico 2 1,96 se considera estadisticamente significativo. A pattir de los errores ipicos también se calculan, como en regresiGn, los intervalos de confianza: IC = i + ZSe, Por ejemplo, para el parémetro de interaccion Ancmie._ ,elintervalo de con- fianza sexta el siguiente: IC = 0,784 + (1,96 x 1,42) = 0,506 y 1,062 El intervalo va de 0,506 a 1,062. Como no incuye el valor 0, significa que puede re- chazarse Ia hip6tesis mula, lo que supone la relevancia del parémetro en el modelo ex- plicativo, al nivel de confianza elegido (95%). Sise aplica e', el rechazo de la hipstesis mula exige que el intervalo de confianza no incluya el valor 1. Esto se debe (como ya se mencion6) a que un odds = 1 se corres- ponde a un log-odds = 0. 2.2.14, La‘adecuaci6n del modelo global: eétadisticos de bondad de ajuste > Elestadistico protagonista en la miediciOn de la bondad de ajuste en el modelado logelinear es 72 de razén de verosimilitud. Aqui se ha optado por referirlo como "72", si: guiendo la propuesta de Everitt (1992). Si bien otros autores prefieren denominarlo “L? (Kennedy, 1983; Knoke y Burke, 1986), "G?" (Nourisis, 1994; Hutcheson y So- froniou, 1999) 0 “LR® (Bisquerra, 1989). El estadistico 7? de razon de verosimilitud (2) fue desarrollado por Fisher en 1924 (en “The conditions under with 7? measures the discrepancy between observed ob- servation and hypothesis”, Journal of the Royal Statistical Society, 87: 442-450) como alternativa al estadistico 7? de bondad de ajuste de Pearson. De él difiere en que apli- a logaritmos naturales, ademés, precisa que la estimacion de parémetras se realice me- diante el método de maxima verosimilitud. En el cuadro 2.1 figuran las formulas que definen a ambos estadisticos, con la finalidad de facilitar su comparacién: CUADRO 2.1. Estadisticas de bondad de ajuste 2 y 73, 1 debondad de sist de Peason zie radn de vorosiiltud de Fisher #339 2D finde al =(i-1)G-) . = n° de celdillas en la tabla — .° de pardmetros independientes Donde lot sus iy “ingen toda ls ele deal, repent nt need asf dca “fos la eoucnci observa oa ei. Tmbidn pede rtori o, “f SSilatamnea eters ct laa Pontes fools lees eh 208 Andilisis multivariable, Teorta y préctica en tainvestigacin social | . Ambos estadisticos siguen una distribucién 72. Sus valores empéricos se contrastan | (para el contraste de hipétesis) con los ‘edricos de dicha distribucién al nivel de sig- i nificaciGn elegido y a los grados de libertad correspondientes. El modelo presenta un buen ajuste, cuando el nivel de significacién asociado a ambos estadistioos chi-cuadrado i ¢s elevado. En cambio, cuando es muy pequefio (p < 0,0005) -al ser los valores em- i Piricos de 7 y 73, elevados- ambos estadisticos expresan que el modelo estimado de- berfa desestimarse, por no presentar un buen ajuste a los datos. Lo que significa que no logra representar adecuadamente las relaciones entre las variables, Como sucede en los modelos de ecuaciones estructurales (capftulo 6), en el mo- ,05), debido a que se buscan ‘modelos en los que las frecuencias esperadas (genteradas por el modelo) no differan sig- nificativamente de las frecuencias observadas en las respectivas celdillas de la tabla. | Los valores de 7? de Pearson y 74 tienden a coincidir conforme aumenta el tamaio de la muestra. A este respecto se han pronunciado, desde su formulacién, diversas pro- Puestas relativas al tamafio de la muestra preciso para que ambas distribuciones (3? y 42) coincidan. Una de las que ha tenido mayor repercusién es la emitida por Cochran en 1954 (en “Some methods strengthening the common 72 tests”, Biometrics, 10: 417-451), Este autor propone‘que al menos en et 80% de tas celillas de a tabla “F,” sea mayor de 5,0; y en todas las celillas el valor de “F,” ha de ser superior a 1,0. El estadistico x, también puede aplicarse para propésitos comparativos cuando se quiere comparar entre dos modelos, en busca del que presente un mejor ajuste a fos da- {os. Como sucede en regresion logistca, con el estadistico “2LL »:" 0 “AG” (o 72 det modelo), y en regresién lineal con “F-patcial”. A tal fin se comparan los respectivos va- lores 7, de ambos modelos. Se resta el valor 72 del modelo de orden superior del co- respondiente al modelo de orden infetior. El primer modelo esté anidado respecto del segundo modelo. sen BaEE i Hopes ima ~ Tasman | El primer modelo es aquel que carece de un determinado parémetro. El segundo " ‘modelo incluye dicho parémetro. Los grados de libertad son iguales a la diferencia en- tre los grados de libertad de cada uno de los dos modelos. Sila diferencia entre ambos 73, no es significativa (al nivel de significaciGn elegido), Puede rechazarse el modelo més complejo a favor del modelo de orden inferior, que ‘muestra una mayor parsimonia (una cualidad buscada en la generalidad de los modelos estadisticos). Capitulo 2: Andiisis “tog” 209 Al contrario de cuando se evalia el ajuste de un modelo conereto de forma indi- vidual, en la comparaciGn entre modelos se quiere un valor “72” de comparacién que sea “significativo”. Se comprueba si el modelo propuesto es mejor que otro alternativo. Por esta raz6n interesa el rechazo de la hip6tesis nula, que supone la inexistencia de diferencias entre los dos modelos. ‘Mediante ambos estadisticos (7° y 77.) pueden llegarse a las mismas conclusiones rolativas a la bondad de ajuste. Si bien, puestos a elégir entre ambos, la mayoria de los autores recomiendan utilizar “yz,” con preferencia a “72”. Kennedy (1983: 60) afirma que 22, “pose varias propiedades que son més deseables en el trabajo log-linear y pto- bard ser nuestro estadistico de bondad de ajuste”. Knoke y Burke (1986: 30) destacan, por su parte, dos de estas propiedades deseables de 72: 1, Las frecuencias esperadas se estiman mediante provedimientos de maxima verosimilizud. 2. Puede subdividirse en partes, que se afladen al total, para comprobar Ia iride- pendencia condicional en tablas wiuitidimensionales, como sucede en el anéli- sis de varianza, con la suma de cuadrados total. Para la comprobacién de la adecuacién del modelo global pueden aplicarse otros estadisticos, normalmente complementando a los dos principales: 2* y 7}. Destaca, so- bre todo, el indice AIC y sus variantes (Ato y Lépez, 1996). Todos ellos son de utilidad en la medicién del ajuste del modelo. Un “buen” ajuste del modelo a los datos se al- canza, cuando en cualquiera de estos estadisticos, se obtienen valores bajos. En el cua- dro 2.2. se incluyen el indice AIC y sus variantes. CUADRO 22. El indice AIC y sus variantes + AIC: Criterio de informacién de Akaike de 1987: AIC = D = 2gh + BIC: Criterio de.Informacién Bayesiana. Propuesto por Raitery en 1986 (en el contexto del modelado log-linear): BIC = D ~(gi)log N) ‘+ CAIC: propuesto por Bazgodan, también en 198: fan F N Donde “D” es Ia desvianza y “gi” los grados de libertad CAIC= D- (log N+1) x gh 1D: Indice de dsimilaridad: 1D = 100] El indice de disimilaridad (1D) expresa el porcentaje de valores ajustados que ten- drian que ser reasignados entre las diferentes casillas de una tabla de contingencia, pas Ta que las frecuencias observadas (f,) igualen a las esperadas (F;)). Este indice destaca, 210 Anélisis multivariable. Teorta y prdcticaen la investigactén soctal junto con BIC, por ser los més adecuiados en Ja medicién de la bondad de ajuste en los modelos log-linear, especialmente BIC. De él se llega incluso a afirmar que es “el mas ‘consistente en todos los critetios de seleccién (de modelos) hasta ahora desarrollados” (Ato y Lépez, 1996: 166). 2.2.1.5. El andlisis de los residuos ‘Una vez comprobado el ajuste del modelo, asf como su consonancia con el marco tedrico de la investigaci6n, procede efectuar un andlisis de los residuos. La finalidad es ‘comprobar Ia existencia de alguna anomatfa en el modelo, ademés de descubrir cedilias concretas de la tabla que presentan un mal ajuste. Esta informacién no la proporcio- ran los estadisticos anteriores, que se limitan a medir el ajuste global del modelo. De ahi el interés de realizar un andlisis de los residuos, al igual que sucede en otros pto- cedimientos analisticos. En el modelado log-linear, por residuo se entiende lo mismo que en cualquier ané- lisis de tablas de contingencia. El residuo es la diferencia entre las frecuencias obser- vadas y las esperadas de las variables cruzadas en la tabla. Esta es la definicion de re- siduo bruto. Pero en el andlisis log-linear, al igual que en regresién y otras técnicas analiticas, se recomienda el uso preferente de los residuos estandarizados. Los residuos estandarizados evitan el efecto debido al nimero de easos en una celdilia concreta. Nousisis (1994: 179) lo argumenta con el siguiente ejemplo ilustrativo: “Un te- siduo bruto de 5 puede indicar un ajuste pobre, si el ntimero observado de casos en tina celdilla €s 4, pero es excelente el ajuste si el ntimero de casos en la celdilla es 12.000". En 1973 Habermas (en “The analysis of residuals in cross-classified tables”, Bio- ‘metrics, 29: 205-220) propone la siguiente definicion de residuo estandarizado para la Cceldilla ij de una tabla de dos dimensiones: F, De acuerdo con esta definiciGn, los residuas estandarizados'se obtienen de dividir los residuos brutos por una estimacién de Ta desviaciGn tipica, que es igual ala raiz cuadrada de la frecuencia esperada en Ja casilla ij correspondiente. En consecuencia, se aplica la dis- tribucién de Poisson, como hacen por defecto Ia mayorfa dc los programas estadisticos. Esta definicién de residuo estandarizado a veces también se refiere como “residuo de Pearson”. Ello sc debe a su similitud con ta 7° de Pearson. Ambos coinciden cuando el residuo estandarizado se eleva al cuadrado y se suman en todas las celdillas de la tabla. Siel modelo log-linear es multinomial, la estimacion idénea de Ia desviacion tipi- ca es igual a la raiz cuadrada del producto de la frecitencia esperada en la casilla ij por ‘uno menos la frecuencia esperada entre el ntimero de casos analizados: Capitulo 2: Anélisis “logit” 211 fi TROoR I Interesan residuos bajos porque indican la existencia de un buen ajuste. Valores su- periores a 1,96 en cualquier residuo estandarizado significa que el modelo obtenido no es estadisticamente adecuado, Existen importantes discrepancias entre las fre- cuencias observadas y las esperadas, ante lo cual, no procede la interpretacién de los pardmetros del modelo, Habria que pensar en algiin modelo alternativo. ‘Ademis de los residuos brutes y los estandarizadas, en el examen del ajuste del mo- delo también se puede hacer uso de los residuos ajustados y los de desvianza. De ma- nera especial, en modelos complejos, cuando el residuo estandarizado no aleanza el i- mite superior de 1. El residuo ajustado es igual al residuo estandarizado dividido por una estimacién de su error tipico. Cuando la muestra es elevada, su distribuciéa, como la correspon diente a los residuos estandarizados, se aproxima a la normal, con media de cero y des- viaci6n tipica de uno. ‘Lo mismo acontece com los residuos de desvianza. Se definen como la contribuci6n de laceldilla a la 3 (de razén de verosimilitud), manteniendo el signo del residuo bruto: La suma de las desvianzas al cuadrado para todas las celdillas es igual a 72, (Nouiisis, 1994). Por titimo, indicar que en los modelos log-linear pueden aplicarse los mismos pro- cedimientos de diagnéstico mediante residuos a los que se ha hecho referencia en el ca- pitulo de regresién multiple (apartado 1.1), por lo que se remite a su relectura. 2.2.1.6. La representacién grafica del modelo fog-linear Para la interpretacién de un modelo log-linear multidimensional es de gran ayuda la representacién gréfica propuesta por Darroch et al. (1980). Consiste en un gréfico donde cada variable se representa mediante un punto. Silas variables estén relacionadas mediante, al menos, una interaccién de no-cero, los puntos que las representan se encuentran wnidos ‘mediante una linea, De este modo, la inexistencia de Lineas entre dos puntos cualesquic- +a significa que dichas variables son independientes. En cambio, cuando la conexién en- tre dos variables se rompe, abarcando dos o més variables, significa que las variables son condicionalmente independientes dadas las variables cubiertas. Véase como ejemplo la ilus- tracién gréfica de Everitt (1992), incluida en Ia figura 2.4 Este grafico también puede aplicarse en otras modalidades analiticas, como el andlisis, de correspondencias, Asimismo, es de utilidad en la representaci6n grfica de los restos. 222, Laparticularidad del modelo logit respecto al modelado log-linear El modelo logit deriva del modelado log-linear. Ambas técnicas analiticas com pazten un mismo procedimiento de andlisis, aunque differen en varios aspectos im- portantes. De ellos destacan los siguientes: 212 Andlisis multivariable, Teoria y préctica en ta investigacién social gow 2 6) 6 1 2 3. 4 i 3 4 I La variable 1 es independiente de b las otras variables. Las variables 2 yy 4 son independientes dado el valor de la variable 3. La variable 2 es condicionalmentein- dependiente de las variables 1 y 4, dadas Jas variables 3 y 5. El mismo tipo de i dependencia se aplica a Ia variable 6. Adicionalmente, fa variable 2 es condi- cionalmente independiente de la variable 6, dadas las variables 3 y 5. Las vari bles 3 y 5 son claramente de mayor im- portancia en la tabla Figura 2.4, RepresentaciGn grfica de un modelo log-linear. 4) El modelo logit se agrupa dentro de las técnicas multivariables de dependencia, ‘Analiza la relaci6n existente entre una serie de variables independientes y una ‘dependiente. Las variables independientes o explicativas han de ser categdricas. Las variables continuas deberén, por tanto, agruparse en categorfas. La vari ble dependiente también debe ser categorica. Siel nimero de categorfas de la variable dependiente es dos, se esté ante un modeio logit binomial, Cuando son ds de dos las categorfas, el modelo es multinomial. ‘El modelo log-linear se clasitica, en cambio, dentro de las téciticas multi- variables de interdependencia, al no difetenciar entre variables explicativas (0 independientes) y de respuesta (0 dependiente). Su finalidad principal es ‘comprobar las relaciones habidas entre una serie de variables categdricas, re- presentadas en una fabla de contingencia. Se trata de estimar la probabilidad de ‘obtener un determinado valor en una celdilla concreta de la tabla, b) En el modelo logit se calculan los “odds ratio” de la variable dependiente para cada una de las combinaciones entre las categorfas de las variables inde- pendientes. El término “logit” se aplica, precisamente, porque lo que se calcula es el logaritmo de la raz6n de probabilidades (“log odds"), de los casos donde acontece un determinado evento respecto de aquellos donde no se presenta. ‘Cuando la variable dependiente consta de trés o més categorfas (modelo ‘multinomial), cabe la realizacién de varios modelos logit. Uno de los més sen- me ve J me a a [ * i Y ” e . i’ * ¥ h Capitulo 2: Avisiss “Iogie” 213 «illos es el llamado “modelo logit de categoria de base” (DeMaris, 1992). Se eli- ge una categoria de la variable dependiente como la categoria de “referencia” Ode “base”. A continuacién, se calculan los “odds” de cada categoria de las va- lables independientes con respecto a la categoria de la variable dependiente to- mada de “base” o “referencia”. En algunos paquetes estadistioos la categoria de “referencia” es, por defecto, la primera o la thtima codificada, La eleccion de la categoria de “referencia” puede parecer asi in poco arbitraria, pero el investigador puede elegirla bajo alguna consideracién teérica. Una recomendacién a este respecto es tomar co- ‘mo categoria de “referencia” aquella que coincida como respuesta de “control” (Hutcheson y Sofroniou, 1999). Por ejemplo, tomar como categoria de “refe- rencia” “consumir bebidas sin alcohol” en un modelo explicativo del consumo de bebidas alcohlicas. ¢) Elmodelo logit se caracteriza por incluir menos términos que el modelo og- linear. Se excluye del modelo todo término que refleje alguna asociacién entre s6\o las variables independientes. El modelo ~siguiendo a Liao (1994)-es el si- guiente: PY =1) & tof P= Sor | Deke La excepcién a la regla se produce cuando el modelo logit se estima a partir de un modelo log-linear, que sf incluye relaciones entre las variables in- dependientes. Siguiendo la notacién del modelo log-tinear, el modelo logit sé define de la manera siguiente para un modelo de tres variables independientes: ms Meas agate I ata arta twa El modelo se configura como la diferencia entre dos niveles de la variable dependiente. Representa los odds de estar en la categorfa 2 como opuesto a la categoria 1. Ello resulta en una combinacién aditiva de los efectos marginales de las tres variables y del efecto interactivo entre las tres, como puede verse en la ecuacign. Una formulacién alternativa, y de més facil interpretacién, se-obtiene ex- onenciando ambos términos de la ecuacién. De lo que resulta la siguiente ecua- cién multiplicativa a exoe Jresou sata sitamecetettet on 214 Andlisis multivariable. Teoria y préctica en la investigacién social ‘Varios autores (DeMaris, 1992; Ato y Lépez, 1996) prefieren definir al mo- delo logit mediante parémetros “tr” (tau) con preferencia a “e* ”. 4) El modelo logit utiliza los mismos procedimientos de estimacién de parémetros gue el modelado fog-tinear, aunque Ia imterpretacion de los parémettos fee. sta se realiza en términos de fog-odds, y no de logaritmas de la frecuencia de una casilla concreta de una tabla (como sucede en el modelo aditivo log-linear), excepto cuando se elige ef modelo multiplicativo, que supone la exponenciacion de todos los términos de la ecuaci6n. En consecuencia: + Laconstante (o intercepto) no es el promedio de los logaritmos de las fre- ‘cuencias en todas las celdllas de la tabla (como en el modelado log-linear), sino el log-odds promedio de los diversos niveles de las variables pre~ dictoras, * Los pardmetros fambda (de efectos principales y de interaccién) son respecto al log-odds de a variable dependiente y no al logaritmo dela fre- ‘uencia esperada de una celdilla de la tabla, Sus valores se interpretan co- ‘mo incremtentos o disminuciones en el og-odds de la variable dependiente relacionado con lo que se esperaria de no existir ninguna relacién entre cada variable independiente (0 combinaciGn de ella, en el caso de inte- racci6n) y el log-odds de la variable dependiente. Sise trata de una variable ficticia, los parémetros expresan el efecto de cada uno de sus niveles respecto al tomado como “referente”. En el modelo logit s6lo se estiman aquellos parémetros no fijados en 0. Los fijados deliberadamente en 0 son los elegidos para servir de “base” cen Ia comparacion, Actiian como “categoria de referencia” y no figuran en el modelo explicitamente, al ser 0. En resumen, ef modelo logit parte, al gual que el modelo log-linear, de una tabla de contingencia cuyas: ‘+ Filas corresponden a combinaciones de las categorfas de una o més variables ex- plicativas. © Columnas, a las respuestas observadas. Pero, en el modelo logit lo que se modela son los log-odds de la variable depen- diente mediante una serie de variables independientes (se hallen o no interrelacionadas entre sf). Los supuestos precisos para una correcta realizacién del andlisis son los mismos que enel modelado log-linear. Ast, por ejemplo, hay que insist en la nécesidad de que la ‘muestra sea elegida al azar y que tenga tn tamafio considerable. Se recomienda que el tamaio de la celdilla promedio de la tabla sea, al menos, 5. Dicho promedio se obtiene dividiendo el tamafio muestral por el ntimero total de celdillas. El cumplimiento de es- te requisito favorece las posibilidades de inferencia de los resultados del anélisis. a - ) - CT] oT] - | rT ] a Lt I CI Lt t Cs i ® os a at e ae ee. ee 2 | CCapltulo 2: Andis “log” 215 De no alcanzarse dicha cuantfa, habré que optar por agrupar categorias de las varia- bles independientes 0 por incrementar el tamafio de la muestra u otto de los remmedios anteriormente referidos para el tratamiento de las “celdillas cero”. : El modelo logit también comparte los estadisticos de bondad de ajuste aplicados en el modelado log-linear, al igual'que tos estadisticos empleados para medir la sig- nificatividad de los parémetros y el procedimiento para calcular los intervalos de confianza de los pardmetros “significativos”. Si el intervalo no incluye el valor 0, pue- de rechazarse la hipétesis nula de que el og-odds ratio es 0en la poblacién. El modelo 5, por tanto, inferible al universo, al ser significativo desde el punto de vista estadis- tico, Luego habré que comprobar si también lo es desde la vertiente 6gico-sustantiva, ‘Ademés, como acontece en la regresién logistca, la adecuaciGn del modelo logit de- pende igualmente de'su “eficacia predictiva”. El modelo puede presentar un ajuste glo- bal correcto y, en cambio, carecer de eficacia predictiva. Por eficacia predictiva se en- tiende el potencial del modelo para generar predicciones precisas acerca de la categoria de la variable de respuesta a asignar para un caso particular (DeMaris, 1992; Ato y Lépez, 1996). Las medidas més comunes de eficacia predictiva son: L. El coeficiente de concentracién de Gini: C=1-)p} Su valor méximo (préximo a 1) 1o proporcions el modelo saturddo. Esto su- cede cuando todos los casos analizados se hallan ubicados en una de las cate- gorfas de respuesta, 2. Elcoeficiente de incertidumbre o entropia de Shannon: H =-p,logp, Siel modelo es correcto, dos veces la entropta para el modelo tiene una dis- tribucién 7 asintética, con los mismos grados de libertad del modelo, | ' Ambas medidas de eficacia predictiva se oftecen en programas comunes como el SPSS. Ademés, cualquiera de ellas permite subdividir la dispersi6n total de la variable -dependiente en la dispersién-explicada por el modelo y la dispersién residual o no ex- plicada. Por ejemplo, en la medida de concentracién de Gini, la razén-de la concen- tracién del modelo dividido por sus grados de libertad, a lz concentracién residual, vidido, asimismo, por sus grados de libertad, tiene una distribucién F, con grados de libertad igual al correspondiente al modelo y al residual (Nourisis, 1994). | Exemevo 0€ mone.o Loarr. Para llustrar la consecucién ce un modelo fagit y después poderlo comparar con la re- / ‘resin logistica,.se escoge:como variable dependiente X,: “regularizar a inmigrantes” (P19); una variable dicotémica con dos opciones de respuesta: 1 (‘se deberia regulerizar f la situacién de los inmigrantes jlegales") y 2 ('no se les deberia reguiarizar’). En el ané- i lisis de regresién logistica, esta segunda categoria fue recodificada como 0, pero en el mo- f 216 Anétisis mutivariable. Teorta y préctica en la investigacian social delado logit dicha recodificacién no es necesaria, pudiendo figurar con su cédigo original (2). Lo que sf es necesario es limitar ef ndimero de variables a analizar, en conjunto, a 10, «a diferencia de regresién logistica donde-no se impone ninguna condicién al respecto. Por ‘sta raz6n, se decide restringir of andlisis a s6lo 4 variables independientes. Las variables: ‘legidas son las 4 que mayor relevancia mostraron, on el andlisis de regresi6n fogistica, ‘en la prediccién de la probabilidad de ser favorable o contrario a la regularizacion de in- migrantes llegales. A decir, * X, “entrada de inmigrantes" (P21), una variable afcotémica fictica: 1 (‘aclitar la en- trader) y 0 (no faciltaria’). * X,g ‘simpatia hacia norteafricano (marroqut..” (P201).Para reducir la incidencia ne- gativa de “coros estructurales', esta variable ha sido recodificada en tres categorias: 4 (poca simpatia’), 2 (‘normal y 3 (‘mucha simpatia’) + X; "leyes inmigractin" (P16), que incluye tres opciones de respuesta: 1 (tolerantes"), 2 (eorrectas") y 3 ("duras’) *+ Xx “estugios” (P4da), reagrupada en cuatro categorias: 1 (‘primarios o menos"), 2 (€GB, FP1 y equivalentes”), 3 (‘bachillerato, FP2 y equivalentes') y 4 (estudios me- dios y superiores"). Los anilisis se realizan, igualmente, con el programa SPSS (versién 10.0). Al haberse reducido et numero de variables que participa en el andlisis, los casos validos aumentan 21.582, Las collas detridas son 144, Hay 0 coros esiucturales impuesios por sare 42 ceros muesirales encontrados. ‘Aunque realmente se trate de un ands git binomial, al ser dos las categories ferenciadas en a variable depenciante, el programa SPSS define el modelo como “ogi multinomial’. Elo 69 debe a que, para cada combinacién de valores de las variables in- dependienes, @ asume que existe una distoueén multnomial de valores de ia vaiabio Gependiente y que las recuencas através de las combinaciones son indepenciontes. Cota ol modelo satura ro muestra ser estaisicamente sgnitatvo ela prodiclén de la probabilidad de Y, se procede a la obtencién de un modelo de efectos principales (mo- ‘delo de independencia), que se adecua més a la consecucién de un modelo parsimonioso. ! dlsefo del modelo oso siguiente: Constante + Y + Y°X, #%y t Y'Xe YK, Los parémetros se estiman mediante el procedimiento de maxima verosimlitud, wi lzando el algorimo de Newon-Raphson. 1 modelo obterido ge resume en la taba A, qUe incluye los parémotros cuyos erroes tipicos se han calculado, La taba orignal nce, tabi, os terinos dels constants (eisten constates para fos valores de las variables independientes), pero como las constantes no se consideran realmente parémetros bajo el supuesto multinornial, sus errores tipicos no se caloulan al no ser de interés en el modelo /ogit. En general, el modelo logit se distingue por incluir menos térmi- nos que ol modelo /oglinear: s6!o se consideran pardmetros de interés aquellos que incluyan la vatable depencierte. Las constartesy cualquier pardmoto que mous asoclacones slo en. te variates indepenonios quodan excids de ands posters, Adora, 906 estan aquellos pardmetros que nose hayan ado en 0. Los fadoo en O son los pardmete eegtos (para servir de “base” en la comparacion. Actian a modo de “categoria de referencia” y no figuran elictamente en el modelo alse 0. La informacién sobre los pardmtros de interés en la consitucton del modelo se recoge on{a tabla B. Su letura es nacesaria para la inlrprotacion de a tabla A Captulo 2: Andlisis “logit” 247 Tabla A. Estimaciones de pardmetros ‘Asymptotic 95% Cl, rameter se Zavalua Lower Upper 7 3808 war 38 400 % 75 2084 514-149 -7 78 ‘2at0 7200 "98 =103, 7 % 7 0 at 2878 4590-178 2 2759 mag 145 cs ‘2870 =305° = hae 6 3 38 7 8 88 1982 62-183 = 88 0 1802 3.90 1,08 — 38. | a 2 3 4 95 ort 158 96 7 98 Los nueve parémetros no fijados deliberadamente a 0 musstran ser estadistica- mente significatives en la prediccién de logit Y, definido como e! logaritmo de la razén de la probabllidad de ser favorable a la regularizacién de inmigrantes llegales respecto a la probabilidad de no serlo : log (P(Y =1)/1~P (Y = 1). La significatividad de los parémetros se comprusba mediante el valor “Z", obtenico de dividi el parémetro estimado por su error de estimacién. Por ejemplo, para el parémetro 73 (8,7918), su valor Z empirica (11,47) se obtiene de dividir 3,7919/,3906 = 11,4679. Es te valor empirico supera al teérico (1,98, que corresponde al nivel de significacién habi- tual: 08), 1o que implica la signiticatividad estadistica del parémetro estimado y su con- siguiente inferencia. Ademés, obsérvese que el intervalo de confianza (de 3,14 a 4,44) para la estimacién de dicho parémetto no incluye.el valor 0. Esto significa que puede rechazarse la hipdtesis nula de que dicho parémetro en la poblacién sea 0. El limite inferior det in- tervalo de conffanza (3,14) se obtiene de restar a fa estimacién del parémetro et producto del error de estimacién por 1,96 (valor Z tedrico para un nivel de significacién de .06): 3,793 = (,3306) x (1,96) = 3,1438. Elimite superior del intervalo se obtiene, por et con- trario, de la suma de dicho producto: 9,7918 + (8906) x (1,96) = 4,4999. 218 Andlisis multivariable. Teorta ypréctca en tainvesigacion social Tabla 8. Correspondencia'entre pardmetros y los términos del diserto Parametor ‘Alasod Tom 8 m x 7s 7 a x IY = 1,00)" 1X1 = 3,00} 7% x Iv = 2,00]* Kt = 1,09), 7 x [N= 200): (x1 = 2,00), 80 x Y= 2,00)" Kt = 3,00), oI [Y= 1.00) Att = 1,00), 2 I= 1,00)" X11 = 2,00) 83 IY = 1,00] 1X11 = 3,00) Bh x 5 x 96 x a x 6 x ‘0 9 [Y= 1,00] *pc15 = 1,00) 0 {Y= 1,00] * x18 = 2.00) a x Y= 4,00]* P15 = 3.09) 2 x [¥ =2,00]* x18 = 1.00} °3 x [¥ = 2,00] 15 = 2.00} 2 x [Y= 2,00] * P15 = 3.00} 9 96 x 7 x (¥ =2.00]* 0 = 00) 98 x [¥-=2,00]* [x8 = 1,00) ‘Nota 1a Inca un parémeto redundanto(o“ellased'. Concise con pardmerasiados @0. Una vez comprobada la significatividad de los 9 pardmetros estimados (73, 75, 76, 81, ‘82, 83, 89, 90 y 95), se procede a su interpretacién, lo que exiye la lectura de la tabla B. En esta tltima tabla puede observarse que los pardmetros incluyen la categoria de la variable de- pPondiente que corresponde a ser "Tavorable ala regulerizacion de inmigrantes llegales"("Y = 1,007) y un valor conereto de una variable independiente, cada vez, excepto el pardmetto 78. Eni tabla B puede verse que este pardmetro (73) coincide oon (¥ = 1,00). Significa que 0 valor (8,781) incica el promeci de fait (et logarimo de la razén de verosimiliud de ser favorable a la regularizacion respecto de no sero) de los diversos niveles de las variables in- dependientes. Una de las categorias de cada variable indepondionte o¢ ha fjado deliberadamente ‘en 0 para que acttie como “categoria de referencia” de las demds diferenciadas en la va- ‘lable. Esta es la razén de que su parémetro no se estime. Las calegorfas de referencia son: en X,, 3 ("duras"); X,,, 4 (“estudios medios y.superiores"); X,,, 3 (‘mucha simpatia’); y en Xq, 1 Cfaciitar la entrada a inmigrantes"). Estas son las categorias elegidas para la comparacién de los logaritmos de las razones de verosimilitud. al " ta iad li c Capitulo 2: Anéiisis “ogit” 219 Ei modelo aditivo podria definirse, siguiendo la notacién logtinear, del modo si gulente: in{ 3) at Ai tena Jue Remo eae + rem 5 gts 4 EI modelo muttiplicativo se obtendria. exponenciando ambos términos de la ecuacién La interprotacion de los parémetros estimados (tabla A) se hace en términos logit (ol logaritmo de la razén de verosimilitud de ser favorable a la regularizacién respecto a ser contrario a la misma). Por ejemplo, el pardmmetto 75 exoresa la relacion del valor de X, 41,00 con Y = 7,00. Su valor (~1,0760) indica que considerar las leyes de inmigracién "to- lerantes" (X, = 1,00) disminuye el logaritmo de la razén de verosimiltud de ser favorable 2 la regularizacin de inmigrantes legales (Y = 1,00) sustancialmente (exactamente en *-4,0760), comparado con fo que se esperaria si a persona caliica la legislacién sobre in- rmigracién de “dura” (ésta es la categoria que actia de referencia en esta variable) Para faciltar la interpretacién de los pardmetros, se procede a su transformacién ex- ponencial “e~\0" = 34096". De esta forma se obtiene que la reduccién en ta probabil dad de ser favorable a la regularizacién de inmigrantes es dei 65,9% [(.34096 ~ 1) x 100 ‘= -65,9(], on relacién con las personas que consideran las leyes de inmigracién “duras". ‘Aslmismo, el parémetro 85 (1,899), que corresponde al valor X,=,00 ("no faciitar la entrada de inmigrantes"), en relacién con Y = 1,00 ("si regularizarles"), indica también reduccién en el logit de ser favorable a la regularizacién. La reduccién es inclusive lige- ramente superior a la del parmetro anterior. E logaritmo de la razén de verosimilitud de ser favorable a la regularizacién respecto a no serlo disminuye en 1,9893, en las perso- ras contrarias a facilitar la entrada a inmigrantes en relacién con las favorables a su en- trada. En términos de exponente (e!*° = ,1368), la reduccién en la probabllidad de ser favorable a la regularizacion es del 86,32% ((,1368 — 1) x 100 = -86,02] respecto a las per- sonas favorables a facilitar la entrada a los inmigrantes (categoria de referencia). La interpretacién de los demas pardmetros se haria de la misma manera. Todos fos parémetros estimados (exceptuando el 73) son de signo negalivo. Esta coincidencia no Sorprende, si se recuerda cudles son las categorias elegidas de reforencia: “estudlos superiores” (4,00), “mucha simpatia hacia norteatricanos” (9,00), “facltar la entrada de in- rmigrantes" (1,00) y “las leyes de inmigracién son duras” (3,00). Las personas cuyas respuestas se clasifican en dichas categorias son, precisamente, las que mas tavorables ‘se muestran a la regularizacién de inmigrantes ilegales. Por el contrari, las personas de menor nivel educativo (parémetro 81: ~1,2122), aquellas que manifiestan poca simpatfa, hacia los norteatricanos (marroquies...) (parémetro 89: ~1,2456), los contratios a faciitar [a entrada de inmigrantes (pardmetro 96: ~1,9893), y os que consideran las leyes de in- rmigracién de tolerantes (pardmetro 75: ~1,0760), son los menos predispuestos a la re~ ularizacién de inmigrantes ilegales. ‘Como en el modelo de regresin logistca, X, y X,, Son les variables'que muestran ma- yor relevancia en la predicién de logit Y. El ajusto del modelo en su'conjunto es bueno, a decir por ambos estadisticas de bon dad de ajuste chi-cuadrado ~de razén de verosimilitud y de Pearson (tabla C). La sig- 220. Andiisis multivariable, Teorta y préctica en ta investigacion social Niffoatividad de sus valores empiricos supera el valor de referencia comtin de ,05. Esto per- mite aceptar la hipdtesis nuta: las frecuencias esperadas (generadas pot el modelo) no di fieren significativamente de las observadas en las celdilas de la tabla multidimensional En consecuencia, se acepta el modelo hipotetizado porque se ajusta razonablemente bien 4 los datos, es decir, logra representar adecuadamente las relaciones entre las variables, Tabla C. Estadisticos de bondad de ajuste Chisquare OF 8. Lkothood Ratio 728630 6 1853 Pearson 63.4878 6 ‘4501 La tabla D (tabla de andisis de dispersién) 0s de uliidad en la comprobacién de fa aso- Ciacién entre la variable dependiente con la serie de variables independientes. Esta tabla. 8 andloga a la correspondiente al “andlisis de varianza’ en el andlisis de regresion lineal tmidltiple y permite comprobar la eficacia predictiva del modelo obtenido. Mediante las me- didas de entropia de Shannon y de concentracién de Gini puede subdividrse la dispersion total de la variable dependients en: a) la dispersion explicada por el modelo; 6) la dis- persion residual o no explicada por el modelo. Esta ultima es andloga a la suma de cua- drados residual en regresién lineal Para cada medida (concentracién y entropia), la razén de la fuente de dispersion de- bida al modelo por sus grados de libertad respecto a la residual entre sus grados de li- beriad, se alusta a la distribucién F, con grados de libertad igual a la suma de los debidos al modelo y la residual. Tabla D. Andiisis de dspersién Source of Dieperson ‘Due to Mode! 1455400 11,0890 8 Dus to Residual 70455276 450.4158 1543 Total 50,0765, 5614845 1551 Measures of Assdclation Entropy sa ‘Goncentration= 1978 De esta tabla puede calcularse un estadistico similar a FE, que indique la proporcién de la dispersién total en la variable dependiente que es atrbuible al modelo: las medidas de aso- clacién de los coeficientes de entropia (,1712) y de concentracidn (,1978). Estos coeficien- tes se obtionen de diviir la dispersién debida al modelo respecto al total. Cuando la dispersion 'e mide por l eitrio de’ entropra: “1 48,6490 / 850,0765 = 1712. Cuando el ctteio es ol de Capt 2: Andiiss “Iogie” 224 cconcentractén: 111,0690 / 561,4845 = ,1978, Este titimo coeficiente, por ejemplo, significa que un 20% de la variacién en la opinidn de ser favorable o contraro ala regularizacion de inigrantes ilegales es explicada por el model cbteride. No obstante, e! propio programa ‘SPSS advierte que aunque sea tentador interpretar la magnitud de estas medidas a modo de ‘Fen tegresi6n lineal, esta ;interpretacion puede resuitarconfusa en el madelo logit Se cons- tata que los coeticientes de concentraciéin y de entropia pueden ser pequenos incluso cuando las variables estén fuertemente relacionadas. Los graficos de residuos no muestran la existencia de ningun problema grave en los datos, como pueds verse en el gréfico del modelo logit. Ademas, e! gréfico O-Q normal do residuios corregides muestra que los datos practicamente se ajustan a la normalidad vpn toni Modelo logit : 1 — Gratico 0-Q normal de residuos corregidos 3 Frecosneis ‘bservadas = “| Residus ae ‘Svan 3 43 374 Residuos corregios ‘Vator normal eperado & ‘Aparte de las efectos principales, también se comprobaron efectos de interaccién, El modelo de efectos de 310 mosté signifiatividad estacistca: la signfieatividad de ambos estadistos chi-cuadrado (de raztn de verosimiltud y de Pearson) era inferior a ,05, a ser sus valores elovados (363,9618 y 262, 8784, respectivamante) en relaciin con los Grados de libertad (71). En cambio, el modelo de efectos de 2 st presenta un ajusto adecuado: | 19720). El coeficiente de entropia (,1965) y el de concentracién {,2186) son ambes lige- ramente superiores @ los obtenidos én el modelo de sélo efeotos prinaipales. El disefio del modelo es el siguiente: Constante + ¥ + Y"%,"X, + YX 6%, + IKK, + VK ye + VOX AK + VX Pero sélo 1 de los 32 parmetros de interaccién estimados mostré ser estadis ‘camente significativo, al ser su valor Z empirico superior @ 1,96. El parémetro ‘en cuestién @s el nimero 155, que corresponde a los siguientes términos de! modelo: 222 Analisis multivariable. Teorla y préctica en la investigacién social “TY = 1,00}'1X11,= 2,00]*1X6 = ,0OT". Su valor estimado es -2,6880 y on términos ex- ponenciales: “e-2*2H0 = 068". La reduccin (el signo es negative) en ia probabilidad de Ser favorable a la regularizacién de inmigrantes es del 99,2% [(,068 ~ 1) x 100 = 93,198] en las personas con estudios de EGB, FP o equivalentes (X,,) y contrarios @ facitar la entrada a inmigrantes (X,), comparado con las personas de estudios supe- riores 0 modios y favorables a faciliar la entrada a fos inmigrantes. La interaccién on- {re estas dos variables (X,, y %,) ¥, eancretamente, entre sus categorias respectivas 2 0, es la Gnica a considerar en la modelacién de la probabilidad de ser favorable a la Tegularizacién de inmigrantes llegales. LECTURAS COMPLEMENTARIAS Aldrich, JH. y Nelson, FD. (1984). Linear probability, logit and probit models, Beverly Hills, Sage. ‘Amemiya, T (1981). “Qualitative response models: a survey”, Journal of Economic Li- terature, vol. XIX: 1483-1536. ‘Ato Garcfa, M. y L6pez Garcia, J. (1996). Analisis estadistico para datos categ6ricos, Madrid, Sintesis. Demaris, A. (1992). Logit modeling. Practical applications, Newbury Park, Sage. Everitt, B.S. (1992). The analysis of contingency tables, Londres, Sage. Hagenaars, J. A. (1993). Loglinear models with latent variables, Newbury Park, Cali- fornia, Sage. Hosmer, D. W. y Lemeshow, S. (1989). Applied logistic regression, Nueva York, John Wiley & Sons. Jovell, A. J. (1995). Andlisis de regresién logistica, Madtid, CIS, Cuaderno Metodol6- gico n° 15. Liao, T. F. (1994). Interpreting probability models. Logit, probit and other generalized linear models, Thousand Oaks, California, Sage. ‘Menard, 8. W. (1995). Applied logistic regression analysis, California, Sage. Upton, G. J. (1991). “The exploratory analysis of survey data using log-linear models”, ‘The Statistician, 40: 169-182. EJERCICIOS PROPUESTOS 1. Se quiere modelar la probabilidad de ser favorable a la regularizacién de in- ‘migrantes ilegaies sélo con dos variables: X, (“sexo”: 0 mujer; 1 vardn) y Xi, (“simpatfa hacia norteafricano”: 1 poca, 2 normal y 3 mucha). Comente cada uno de los siguientes resultados (correspondientes a un modelo saturado): Lal tol a lanl Lal Ll we Ld CI a Lt Lt se Ae eee. oe. Se Capitulo 2: Andisis “logit” 223 Data Information 1.981 cases ar accepted '542.cae0s aro rojectod because of missing data. 1.951 weighted cases willbe used inthe analysis. 12.clls are defined. structural 20108 ae imposes by design, 0 sampling zeros are encountered. ‘Model and Design Information Model: Mutinomiel Logit Doslan: Constant + ¥ + X15 + Y°XS + YX15X9 Correspondence Betwenn Parameters an Terms ofthe Design Parameter Alased = Term 1 Constant for P18 « 1,00)" X3= 00) 2 CGonetant for P16 = 1,00] [X3 = 1,00) 3 Constant for X18 =2,00]* x3 = 00) 4 Constant for P15 = 2,00] °[X3 = 1,00} 5 Constant for X18 = 3,00" Ex 6 Constant for 15 = 8,00] * [XS = 1,00} 7 (v= 1,00) 8 x 001 9 00)” X18 = 1,001, 10 (Y= 1.00] peas = 2,00) " x 00] * X18 = 8,00), 2 x 00)" (X35 = 1.00), 13 x [Y= 2.00)" x15 =2,00) 4 x 00)" [X15 = 3,00) 8 00)" 3 = 0}, 16 x 005" 3 = 1,0} a x ,00]* 1X3 = ,00} 8 x ,00]* X3. = 1,00) 19 (00}* X18 = 1,00)" X8-= 90} 2 x (00}" [X18 = 1/00] * [x3 = 1,00) a (00]* X15 = 2,00)" [x8 « 00) 2 x [Y= 1,00] B18 = 2.00) [xo = 1,00] 2 x 24 x 25 x 28 x 7 x 2B x 2 x Ea x 224 Anitisis multivariable. Teortay prctica en ta investigacion socal q | SERS TT SATS Ghisquee OF. Sin | Likelihood Ratio 0000 0 i Peston 0000 0 | Anais Dispersion = Souicoct Oisprson —_Entopy ‘coneaiaton oF * ve fo Mode! #77010 499080 5 . oe fo Resul 4008,3072 esatise 1851 Total 073.0985, qo3.0240 ‘58 . Measures o Asoiaon - | Entropy 0831 Ls | Concentration = ...0704 Y Paramotor Estates . Consont—‘Estirate F be 1 4008 : ‘an be 5 asser ? | ‘ 7200 i 5 svete i é usta Asymplot 85% Cl ParanetarEstnate St Zaave Lower Unper i 7 11,9847, (1874 10,61 1,62, i a ‘0000 ° = 17288 pos 778 ~328 0 ~Bas eo arr 14 " | 2 8 ‘i 14 8 2005 ” sr ie | " a 18 8 769 a et = 2 A 2 ms AB a8 55 ’ 2 2 2 2% 6 a FA 2 = Capitulo 2: Andliss “logic” 225 2, En una investigacién evaluativa del Tribunal Tutelar de Menores de Madrid (Cea D‘Ancona, M.A. (1992) La justicia de menores en Espafia, Madrid, CIS, Mo- nografia n° 127) se realizaron varios andlisis de regresi6n log{stica: primero, pa- ra averiguar las caracteristicas del menor que més determinan la probabilidad de imponer medidas leves 0 aistadas, libertad vigilada e internamientoy segundo, pa- ra conocer las variables més relacionadas con la probabilidad de reincidir en con- dueta delictiva. Los andlisis se realizaron con el programa LIMDEP (especia- lizado en el andlisis logit), siguiendo el procedimiento de maxima verosimilirud y.el algoritmo de Newton-Raphson. Interprétese los siguientes resultados co- riespondientes a la predicci6n de la probabilidad de reincidir de aquellos me- nores que han estado en internamiento. Calcilese ademés los incrementos de pro- babilidad para las variables significativas. sea reser Logtukainoed 52890 Festcted (Stopes =0) Log. ~ 10871 GhieSquared (25) 043s ‘Sopifeance Lave "507298 ~13, Vario Costicent Std. Emer Tali. (Sig) Mean ofX Std, Dev. of X Constants = 17301 3.459 20 (67008) 7.0000 0000, Sex0 = 2iease2 112500 soe ad ‘27760 Tasos 115005 Ena (55978 oes > 2787 Ezclaraion O7SB E-01 am agai Tipo de hogar 2assa 9062 ‘Mbmere nermance arm asst ‘Ordon de nacinionto 30004 1/3600 taco soca rer 12304 ‘blnts barrio Damo 11514 Condiciones vilende ese 11580 alas competi B78 S485 eosisad vora ‘saat ‘Roandorofamior 7600 ‘Conte: tartar ‘aos “ea0 ‘Roscion far 7495047 Drogadeccn am \ee7e (iigencias 1inter siz 774 Dato esoet sees Mecita .itorenon Becir, 1362 Dette provointam. 87500 40173 Diagencss previ intr, ‘5133 2800 3.2603 Diagencas ea non, pate 2oaot 1/9008 “Tempo en ntrnamints| ‘3408 22651 6tT Aapiacn cart nia. = 49881 e08 —.289 208838798 (Cose interasonto RI79E-01 ‘BISTE-o1 ~ 208 3g012 3.4858 Frequencies of actual ve. prdicied outcomes Praseted automa nas tne highest prbatiity. Predites ‘Actual — Total ° 1 Tol 108 s m ° sa 2 2 ‘ 2 8 99 226 Anéliss multivariable, Teoria y préctica en la invesigacién social 3, 1. Brilederl y A. Diekmann (en “The Log-logistic rate model”, Sociological Me- thods & Research, vol. 24,n.° 2, noviembre 1995, 158-186) aplican el modelado Log-logistc en la comprobacién de los efectos de la ecucacion en la tasa de ma- trimonio en Estados Unidos y Alemania. Algunos de sus resultados se resumen en a tabla a continuaci6n. Interprétese. Estados Unidos | Alemania Occidentat | Alemania Oriental Pardmetro 2 Constante 458° “1,181 88" Nivel educativo 105" 083" 032" (enatos) (9.19) (628) 37 Cohorte de nacimiento 1d 013 001 (@= 1940) (3.33) (1,92) (18) NS de personas 554 300 356 Lop likelihood 14759 8077 8858 BIC 3240 12077 2128 Pseudo RE 462 1368 “476 Los valores T estin entre aréntesis Slo se Incuyen alas mujeres nacdas entre 1940 y 1960, * Signteative a un nivel de 5%, 4. C. Albert Verdi (en “La demanda de educacién superior en Espafia: diferen- cias por sexo”, ICE. Mujer y Economta, febrero 1997, n2 760, 105-116) analiza Ja demanda de educacién superior de varones y mujeres en Espaiia con datos dela Encuesta de Poblacién Activa del periodo 1977-1996. Algunos de los re- sultados principales se resumen en la tabla siguiente. Interprétese. Varones ‘Mujeres 1977 | i987 | 1996 | 1977 | 1987 | 1996 Variables ‘Situation respecto de los padres Sin padre Sin madre Noeshijo Hijo unico Estudos de los pees Padrecon studios obiatoris | 52] 36 Madre con estudios > obligatorios | 47 Capitulo 2: Andiisis “logic” 27 Varones “Hajers Variables ve 1977_[_1987 | 1996 | 1977 | i987 | 1996 ‘Condicionsocioeconémice del padre “Agecltor Empresaio Directv y jeter Operariocualificado Owos Parada inactivo Ne hermanos que realizan estudios ‘Uno omés Ocupados > de 16 aftos Parades > de 16 aos Miembros dela familia

También podría gustarte