2.1. Los problemas de la causalidad en Ciencias sociales
2.2. El modelo de la regresin lineal mltiple 2.3 Supuestos del modelo de regresin 2.4 SSS !regresin mltiple" Anlisis de regresin lineal 2.1. Los problemas de la causalidad en Ciencias sociales or el momento no e#iste t$cnica %ue sea capa& de probar los enunciados causales emp'ricamente. Lo %ue se puede (acer es comprobar si las in)erencias causales %ue )ormula un in*estigador son consistentes con los datos disponibles. +e)iniremos modelo como con,unto de relaciones %ue se usan para representar de )orma sencilla una porcin de la realidad emp'rica. Cuando un in*estigador elabora un modelo - posteriormente se comprueba %ue el modelo no se a,usta a los datos. se pueden tomar dos decisiones/ modi)icar el modelo o abandonarlo. ero si el modelo es consistente con los datos. esto nunca prueba los e)ectos causales. La consistencia entre los datos - el modelo no implica la consistencia entre el modelo - la realidad. Lo nico %ue se puede a)irmar es %ue los supuestos del in*estigador no son contradictorios - por lo tanto pueden ser *lidos. ero el 0ser *lidos0. no %uiere decir %ue sean la nica e#plicacin del )enmeno ob,eto de estudio. -a %ue es posible %ue otros modelos tambi$n se adapten a los mismos datos. Asociacin no implica causalidad: 1ue e#ista una )uerte asociacin entre dos *ariables no es su)iciente para sacar conclusiones sobre las relaciones causa - efecto. E,emplo/ e#iste )uerte correlacin entre el nmero de bomberos %ue actan en un incendio - la importancia del da2o ocasionado por el mismo. 2.2. El modelo de la regresin lineal mltiple El ob,eti*o del anlisis de la regresin lineal es anali&ar un modelo %ue pretende e#plicar el comportamiento de una *ariable !3ariable endgena. e#plicada o dependiente". %ue denotaremos por Y, utili&ando la in)ormacin proporcionada por los *alores tomados por un con,unto de *ariables !e#plicati*as. e#genas o independientes". %ue denotaremos por ! , 2 , ....., n Las *ariables del modelo de regresin deben ser cuantitati*as. ero dada la robuste" ! de la regresin es )recuente encontrar incluidas en el modelo como *ariables independientes a *ariables ordinales e incluso nominales trans)ormadas en *ariables )icticias. ero la *ariable dependiente debe ser cuantitati*a. ara una *ariable dependiente binaria de emplea la regresin log'stica. El modelo lineal *iene dado por la ecuacin lineal/ Y # b$ % b! ! % b2 2 % ... b & & % u Los coe)icientes !parmetros" b! , b2 , ... , b & denotan la magnitud del e)ecto de las *ariables e#plicati*as !e#genas o independientes". esto es. representan los pesos de la regresin o de la combinacin lineal de las predictoras ! , 2 , ... & sobre la *ariable e#plicada !endgena o dependiente" Y. El coe)iciente b$ se denomina t$rmino constante !o independiente" del modelo. 4 al t$rmino u se le llama t$rmino de error del modelo o componente de Y no e#plicada por las *ariables predictoras. Si disponemos de T obser*aciones para cada *ariable. el modelo de e#presa as'/ Y t # b$ % b! ! t % b2 2 t % ... b & & t % u t t # !, 2 , ' ,.... (
1 5n estad'stico se dice %ue es robusto cuando sigue siendo *lido a pesar de %ue uno o mas de sus supuestos no se cumplan. El problema )undamental %ue se aborda es el siguiente/ suponiendo %ue la relacin entre la *ariable Y - el con,unto de *ariables ! , 2 , ... & es como se (a descrito en el modelo. - %ue se dispone de un con,unto de T obser*aciones para cada una de las *ariables 6cmo pueden asignarse *alores num$ricos a los parmetros b7 . b1 . b2 . ... b 8 basndonos en la in)ormacin muestral9. Estos *alores son la estimacin de los parmetros llamados coe)icientes de regresin. :epresentan las unidades de cambio en la *ariable dependiente por unidad de cambio en la *ariable independiente correspondiente. En el caso de %ue slo (a-a una *ariable dependiente se llega a la ecuacin de una recta donde b$ es la ordenada en el origen - b! la pendiente de la recta. 5na *e& encontradas las estimaciones de los parmetros del modelo. podremos (acer predicciones sobre el comportamiento de la *ariable Y en la poblacin. El anlisis de regresin sir)e tanto para E*L+,A, datos como para C+-./,0A, teor1as. Si el anlisis de regresin se reali&a con *ariables tipi)icadas los coe)icientes b. pasan a denominarse (coe)icientes de regresin estandari&ados" i = b i ! +es*. T'pica ;i <+es*. T'pica 4 " Al coe)iciente de correlacin : ele*ado al cuadrado se le llama coe)iciente de determinacin - es una medida de la bondad del a,uste del modelo -a %ue da la proporcin de *ariacin de 4 e#plicada por el modelo. Se suele emplear : 2 a,ustado. %ue es una correccin de : 2 para a,ustar me,or el modelo a la poblacin ob,eto de estudio. 2.' 2upuestos del modelo de regresin El modelo lineal se formula ba3o los siguientes supuestos: = Tama2o adecuado de la muestra/ se recomienda n> 27 # n? de *ariables predictoras. = Las *ariables ;1 . ;2 . ... ; 8 son deterministas !no son *ariables aleatorias" -a %ue sus *alores *ienen de la muestra tomada. = Se supone %ue todas las *ariables ; rele*antes para la e#plicacin de 4 estn incluidas en la de)inicin del modelo lineal. = Las *ariables ;1 . ;2 . ... ; 8 son linealmente independientes !no se puede poner a una de ellas como combinacin lineal de las otras". Esta es la (iptesis de independencia - cuando no se cumple se dice %ue el modelo presenta multicolinealidad. @ sea/ Ainguna *. Bndependiente da un : 2 = 1 con las otras *.i. = Linealidad de las relaciones/ la *. Bndependiente presenta relacin lineal con cada una de las dependientes. Se comprueba con los gr)icos de regresin parcial. Su incumplimiento se arregla mediante trans)ormaciones de los datos = Los residuos siguen una distribucin Aormal A!7. 2 " . no estn correlacionados con ninguna de la *ariables independientes. ni estn autocorrelacionados. Ca- (omocedasticidad / la *arian&a del error es constante para los distintos *alores de las *ariables independientes. El primer ob,eti*o es el de obtener estimaciones. es decir. *alores num$ricos de los coe)icientes b$ , b! , b2 , ... b & !coe)icientes de regresin parcial" en )uncin de la in)ormacin muestral. Las estimaciones de los parmetros se suelen (acer por el m$todo de los m'nimos cuadrados %ue consiste en minimi&ar la suma de los cuadrados de los residuos. tambi$n llamada suma residual Anlisis de la )arian"a: Bntroduciremos los siguientes conceptos 2uma total 42(5 es la *arian&a muestral de la *ariable dependiente - es por lo tanto una medida del tama2o de las )luctuaciones e#perimentadas por dic(a *ariable alrededor de su *alor medio. 2uma e6plicada 42E5 es la )luctuacin de estimador de la *ariable 4 ! t " alrededor de la media de 4 . or tanto. la suma e#plicada es el ni*el de )luctuacin de la *ariable 4t %ue el modelo es capa& de e#plicar. 2uma residual 42,5 es un indicador del ni*el de error del modelo. Suma total > Suma e#plicada D Suma residual
Tambi$n se de)ine el coeficiente de determinacin , 2 como una medida descripti*a del a,uste global del modelo cu-o *alor es el cociente entre la suma e#plicada - la suma total. !da la proporcin de *arian&a e#plicada por el modelo" , 2 # 7. E6plicada 8 7. (otal
Se de)ine el coeficiente de correlacin mltiple , como la ra'& cuadrada del coe)iciente de determinacin - mide la correlacin entre la *ariable dependiente - las independientes. El Coeficiente de correlacin parcial entre ; i e 4 mide la correlacin entre estas *ariables cuando se (an eliminado los e)ectos lineales de las otras *ariables en ; i e 4. Coeficiente de correlacin semiparcial entre ; i e 4 es la correlacin entre estas *ariables cuando se (an eliminado los e)ectos lineales de las otras *ariables en 4. = La *ariable u !t$rmino de error o residuo" es una *ariable aleatoria con media nula - matri& de co*arian&as constante - diagonal. @ sea para todo t . la *ariable u t tiene una media igual a cero - una *arian&a no dependiente de t ! (iptesis de 9omocedasticidad" - adems Co* ! ui . u, "> 7. pata todo i distinto de , !(iptesis de no autocorrelacin" - tampoco estn correlacionados con las *ariables independientes. 2.: 2*22 4regresin mltiple5 Lo )undamental de la regresin consiste en encontrar una )uncin lineal de las *ariables independientes %ue permita predecir la *ariable dependiente Y # b$ % b! ! % b2 2 % ... b & & % u Con el )ic(ero de datos del CBS %ue estamos usando. -a en sesiones anteriores (emos definido un con3unto de *ariables relacionadas con el problema de la BAEBF:ACBGA. 4 de ese con,unto usaremos las *ariables %ue cumplan los supuestos de la regresin !solo *ariables cuantitati*as - si son cualitati*as de)inir las *ariables )icticias correspondientes !dumm-"". Siguiendo la idea del Libro de EH Angeles Cea !Anlisis multi*ariable. Ed. S'ntesis" *amos a tomar como )ariable dependiente ;simpat1a 9acia los norteafricanos 4p:$!5; - trataremos de a,ustar un modelo de regresin con *ariables independientes como/ 0simpat'a latinoamericano!p417"0 0casar con marro%u' !pI7J"0. 0*ecino marro%u' !pK7J"0 0se#o . p320 0p33 edad0 2L i&%uierdaMderec(a. etc. etc. ara las primeras pruebas se recomienda no usar muc(as *ariables. para %ue los )ic(eros de resultados no resulten demasiado grandes. Anali"ar -< ,egresin -< lineal Lle*ar al rectngulo correspondiente la *ariable dependiente - las independientes del modelo. En 0=todo: Ca- cuatro posibles/ introducir. pasos sucesi*os. eliminar. (acia atrs. (acia delante !leer la e#plicacin en la a-uda del SSS". Si estamos en )ase e#ploratoria - no tenemos una idea del modelo ,usti)icada por alguna teor'a %ue %ueramos comprobar. se recomienda usar el m$todo de (acia delante. Con $l. el SSS introducir como primera *. Bndependiente la %ue satis)aga los criterios de entrada - %ue presente ma-or correlacin con la *. dependiente. luego introducir en el modelo otra *. Bndependiente %ue ser la siguiente en cuanto a ma-or magnitud de la correlacin con la *. Bndependiente - as' sucesi*amente. En opciones elegir el tratamiento %ue %ueramos dar a los casos perdidos !Se recomienda encarecidamente repasar lo e#plicado en clases tericas as' como leer las a-udas del SSS. %ue se obtienen lle*ando el cursor al elemento %ue no entendemos - pulsando el botn derec(o del ratn" En estad1sticos se2alar a%uellos %ue %ueramos conocer. >uardar permite arc(i*ar como nue*as *ariables los resultados de los clculos %ue se (an ido (aciendo en el proceso de la regresin.
En los resultados de la matri& de correlaciones obtenemos para cada pare,a de *ariables el coe)iciente de correlacin de earson. su signi)icacin - el tama2o de la muestra con el %ue se (a calculado ese coe)iciente. Son tres tablas %ue aparecen una a continuacin de la otra. Los nmeros de la segunda tabla son los pM*alores asociados al estad'stico :. ara poder contrastar si el estad'stico coe)iciente de correlacin es estad'sticamente signi)icati*o. La Ciptesis nula es %ue :>7. Si se obtiene un *alor in)erior a una signi)icacin pre)i,ada !por e,emplo 7.7I" indica %ue (a- %ue rec(a&ar la Ciptesis nula de ine#istencia de correlacin - concluir %ue el : obtenido es estad'sticamente signi)icati*o. Aotar %ue la matri& de correlaciones es sim$trica Luego aparece una tabla con las *ariables %ue (an ido entrando en el modelo. 4 a continuacin otra tabla con in)ormacin de los coe)icientes : - : 2 para cada modelo. @tra tabla con los cambios en : 2 - en N por la %ue podemos saber la proporcin de *arian&a %ue e#plica cada uno de los modelos. Tambi$n aparece en esta tabla el estad'stico de +urbin Oatson %ue -a se mencion. Si es pr#imo a dos los residuos no estn autocorrelacionados. Tambi$n obtenemos un anlisis de la *arian&a en el %ue *emos los *alores de la suma de cuadrados total. e#plicado por la regresin - residual !repasar la teor'a" La tabla C@ENBCBEATES nos da la in)ormacin para escribir las ecuaciones lineales de los modelos de regresin. !con una *. Bndependiente. con dos. con tres. etc.". A continuacin tenemos una tabla con los coe)icientes de correlacin de orden cero. parcial - semiparcial as' como los estad'sticos de colinealidad. or ltimo aparece un estudio de las *ariables %ue se (an e#cluido del modelo. Tambi$n da una tabla de diagnsticos por caso %ue nos in)orma de los casos %ue el modelo predice peor !residuo tipi)icado ma-or %ue 3" - %ue tal *e& (abr'a %ue estudiar en la matri& de datos. Aparece una tabla de los estad'sticos sobre los residuos. (olerancia Estad'stico utili&ado para determinar la cuant'a en %ue estn relacionadas las *ariables independientes unas con otras !para *er si son multicolineales". La tolerancia de una *ariable es la proporcin de su *arian&a no e#plicada por las otras *ariables independientes de la ecuacin. 5na *ariable con una tolerancia mu- ba,a contribu-e con poca in)ormacin a un modelo !es colineal". - puede causar problemas de clculo. Se calcula como 1 menos la : cuadrado para una *ariable independiente cuando es pronosticada por las otras *ariables independientes -a incluidas en el anlisis. >rficos incluidos en el procedimiento de la regresin. Los grficos pueden a-udar a *alidar los supuestos de normalidad. linealidad e igualdad de las *arian&as. Tambi$n son tiles para detectar *alores at'picos. obser*aciones poco usuales - casos de in)luencia. Tras guardarlos como nue*as *ariables. dispondr en el Editor de datos de los *alores pronosticados. los residuos - otros *alores diagnsticos. con los cuales podr poder crear gr)icos respecto a las *ariables independientes. Se encuentran disponibles los siguientes gr)icos/ ?iagramas de dispersin. uede representar cual%uier combinacin por pare,as de la lista siguiente/ la *ariable dependiente. los *alores pronosticados tipi)icados. los residuos tipi)icados. los residuos eliminados. los *alores pronosticados corregidos. los residuos estudenti&ados o los residuos eliminados estudenti&ados. :epresente los residuos tipi)icados )rente a los *alores pronosticados tipi)icados para contrastar la linealidad - la igualdad de las *arian&as. >enerar todos los grficos parciales. Euestra los diagramas de dispersin de los residuos de cada *ariable independiente - los residuos de la *ariable dependiente cuando se regresan ambas *ariables por separado sobre las restantes *ariables independientes. En la ecuacin debe (aber al menos dos *ariables independientes para %ue se generen los gr)icos parciales. >rficos de residuos tipificados. uede obtener (istogramas de los residuos tipi)icados - gr)icos de probabilidad normal %ue comparen la distribucin de los residuos tipi)icados con una distribucin normal. Si se solicita cual%uier gr)ico. se muestran los estad'sticos de resumen para los *alores pronosticados tipi)icados - los residuos tipi)icados !PQ:E+ - PQ:ESB+". Tambi$n se recomienda re*isar los gr)icos del procedimiento gr)icos as' como comparar los resultados en (ombres - mu,eres de las *ariables %ue inter*ienen en el modelo. e incluso aplicar la regresin slo a los (ombres o solo a las mu,eres. pera ello en datos seleccionar de la muestra antes de (acer la regresin las submuestras correspondientes. Estos apuntes se completan con el cap'tulo 1R del libro 2*22 !!. %ue )igura en la Sibliogra)'a.