Está en la página 1de 5

Tema 2 Anlisis de regresin lineal

2.1. Los problemas de la causalidad en Ciencias sociales


2.2. El modelo de la regresin lineal mltiple
2.3 Supuestos del modelo de regresin
2.4 SSS !regresin mltiple"
Anlisis de regresin lineal
2.1. Los problemas de la causalidad en Ciencias sociales
or el momento no e#iste t$cnica %ue sea capa& de probar los enunciados causales emp'ricamente.
Lo %ue se puede (acer es comprobar si las in)erencias causales %ue )ormula un in*estigador son
consistentes con los datos disponibles.
+e)iniremos modelo como con,unto de relaciones %ue se usan para representar de )orma sencilla una
porcin de la realidad emp'rica.
Cuando un in*estigador elabora un modelo - posteriormente se comprueba %ue el modelo no se a,usta
a los datos. se pueden tomar dos decisiones/ modi)icar el modelo o abandonarlo. ero si el modelo es
consistente con los datos. esto nunca prueba los e)ectos causales. La consistencia entre los datos - el
modelo no implica la consistencia entre el modelo - la realidad. Lo nico %ue se puede a)irmar es %ue
los supuestos del in*estigador no son contradictorios - por lo tanto pueden ser *lidos. ero el 0ser
*lidos0. no %uiere decir %ue sean la nica e#plicacin del )enmeno ob,eto de estudio. -a %ue es
posible %ue otros modelos tambi$n se adapten a los mismos datos.
Asociacin no implica causalidad: 1ue e#ista una )uerte asociacin entre dos *ariables no es
su)iciente para sacar conclusiones sobre las relaciones causa - efecto.
E,emplo/ e#iste )uerte correlacin entre el nmero de bomberos %ue actan en un incendio - la
importancia del da2o ocasionado por el mismo.
2.2. El modelo de la regresin lineal mltiple
El ob,eti*o del anlisis de la regresin lineal es anali&ar un modelo %ue pretende e#plicar el
comportamiento de una *ariable !3ariable endgena. e#plicada o dependiente". %ue denotaremos por
Y, utili&ando la in)ormacin proporcionada por los *alores tomados por un con,unto de *ariables
!e#plicati*as. e#genas o independientes". %ue denotaremos por ! , 2 , ....., n
Las *ariables del modelo de regresin deben ser cuantitati*as. ero dada la robuste"
!
de la regresin
es )recuente encontrar incluidas en el modelo como *ariables independientes a *ariables ordinales e
incluso nominales trans)ormadas en *ariables )icticias. ero la *ariable dependiente debe ser
cuantitati*a. ara una *ariable dependiente binaria de emplea la regresin log'stica.
El modelo lineal *iene dado por la ecuacin lineal/
Y # b$ % b! ! % b2 2 % ... b & & % u
Los coe)icientes !parmetros" b! , b2 , ... , b & denotan la magnitud del e)ecto de las *ariables
e#plicati*as !e#genas o independientes". esto es. representan los pesos de la regresin o de la
combinacin lineal de las predictoras ! , 2 , ... & sobre la *ariable e#plicada !endgena o
dependiente" Y. El coe)iciente b$ se denomina t$rmino constante !o independiente" del modelo. 4 al
t$rmino u se le llama t$rmino de error del modelo o componente de Y no e#plicada por las *ariables
predictoras.
Si disponemos de T obser*aciones para cada *ariable. el modelo de e#presa as'/
Y t # b$ % b! ! t % b2 2 t % ... b & & t % u t t # !, 2 , ' ,.... (

1
5n estad'stico se dice %ue es robusto cuando sigue siendo *lido a pesar de %ue uno o mas de sus supuestos
no se cumplan.
El problema )undamental %ue se aborda es el siguiente/ suponiendo %ue la relacin entre la *ariable Y
- el con,unto de *ariables ! , 2 , ... & es como se (a descrito en el modelo. - %ue se dispone de
un con,unto de T obser*aciones para cada una de las *ariables 6cmo pueden asignarse *alores
num$ricos a los parmetros b7 . b1 . b2 . ... b 8 basndonos en la in)ormacin muestral9.
Estos *alores son la estimacin de los parmetros llamados coe)icientes de regresin. :epresentan
las unidades de cambio en la *ariable dependiente por unidad de cambio en la *ariable independiente
correspondiente. En el caso de %ue slo (a-a una *ariable dependiente se llega a la ecuacin de una
recta donde b$ es la ordenada en el origen - b! la pendiente de la recta. 5na *e& encontradas las
estimaciones de los parmetros del modelo. podremos (acer predicciones sobre el comportamiento de
la *ariable Y en la poblacin.
El anlisis de regresin sir)e tanto para E*L+,A, datos como para C+-./,0A, teor1as.
Si el anlisis de regresin se reali&a con *ariables tipi)icadas los coe)icientes b. pasan a denominarse
(coe)icientes de regresin estandari&ados" i = b i ! +es*. T'pica ;i <+es*. T'pica 4 "
Al coe)iciente de correlacin : ele*ado al cuadrado se le llama coe)iciente de determinacin - es una
medida de la bondad del a,uste del modelo -a %ue da la proporcin de *ariacin de 4 e#plicada por el
modelo.
Se suele emplear :
2
a,ustado. %ue es una correccin de :
2
para a,ustar me,or el modelo a la
poblacin ob,eto de estudio.
2.' 2upuestos del modelo de regresin
El modelo lineal se formula ba3o los siguientes supuestos:
= Tama2o adecuado de la muestra/ se recomienda n> 27 # n? de *ariables predictoras.
= Las *ariables ;1 . ;2 . ... ; 8 son deterministas !no son *ariables aleatorias" -a %ue sus *alores
*ienen de la muestra tomada.
= Se supone %ue todas las *ariables ; rele*antes para la e#plicacin de 4 estn incluidas en la
de)inicin del modelo lineal.
= Las *ariables ;1 . ;2 . ... ; 8 son linealmente independientes !no se puede poner a una de ellas
como combinacin lineal de las otras". Esta es la (iptesis de independencia - cuando no se cumple
se dice %ue el modelo presenta multicolinealidad. @ sea/ Ainguna *. Bndependiente da un :
2
= 1 con
las otras *.i.
= Linealidad de las relaciones/ la *. Bndependiente presenta relacin lineal con cada una de las
dependientes. Se comprueba con los gr)icos de regresin parcial. Su incumplimiento se arregla
mediante trans)ormaciones de los datos
= Los residuos siguen una distribucin Aormal A!7.
2
" . no estn correlacionados con ninguna de la
*ariables independientes. ni estn autocorrelacionados. Ca- (omocedasticidad / la *arian&a del error
es constante para los distintos *alores de las *ariables independientes.
El primer ob,eti*o es el de obtener estimaciones. es decir. *alores num$ricos de los coe)icientes b$ ,
b! , b2 , ... b & !coe)icientes de regresin parcial" en )uncin de la in)ormacin muestral. Las
estimaciones de los parmetros se suelen (acer por el m$todo de los m'nimos cuadrados %ue consiste
en minimi&ar la suma de los cuadrados de los residuos. tambi$n llamada suma residual
Anlisis de la )arian"a: Bntroduciremos los siguientes conceptos
2uma total 42(5 es la *arian&a muestral de la *ariable dependiente - es por lo tanto una medida del
tama2o de las )luctuaciones e#perimentadas por dic(a *ariable alrededor de su *alor medio.
2uma e6plicada 42E5 es la )luctuacin de estimador de la *ariable 4 ! t " alrededor de la media de 4 .
or tanto. la suma e#plicada es el ni*el de )luctuacin de la *ariable 4t %ue el modelo es capa& de
e#plicar.
2uma residual 42,5 es un indicador del ni*el de error del modelo.
Suma total > Suma e#plicada D Suma residual

Tambi$n se de)ine el coeficiente de determinacin ,
2
como una medida descripti*a del a,uste global
del modelo cu-o *alor es el cociente entre la suma e#plicada - la suma total. !da la proporcin de
*arian&a e#plicada por el modelo" ,
2
# 7. E6plicada 8 7. (otal

Se de)ine el coeficiente de correlacin mltiple , como la ra'& cuadrada del coe)iciente de
determinacin - mide la correlacin entre la *ariable dependiente - las independientes.
El Coeficiente de correlacin parcial entre ; i e 4 mide la correlacin entre estas *ariables cuando
se (an eliminado los e)ectos lineales de las otras *ariables en ; i e 4.
Coeficiente de correlacin semiparcial entre ; i e 4 es la correlacin entre estas *ariables cuando
se (an eliminado los e)ectos lineales de las otras *ariables en 4.
= La *ariable u !t$rmino de error o residuo" es una *ariable aleatoria con media nula - matri& de
co*arian&as constante - diagonal. @ sea para todo t . la *ariable u t tiene una media igual a cero - una
*arian&a no dependiente de t ! (iptesis de 9omocedasticidad" - adems
Co* ! ui . u, "> 7. pata todo i distinto de , !(iptesis de no autocorrelacin" - tampoco estn
correlacionados con las *ariables independientes.
2.: 2*22 4regresin mltiple5
Lo )undamental de la regresin consiste en encontrar una )uncin lineal de las *ariables
independientes %ue permita predecir la *ariable dependiente
Y # b$ % b! ! % b2 2 % ... b & & % u
Con el )ic(ero de datos del CBS %ue estamos usando. -a en sesiones anteriores (emos definido un
con3unto de *ariables relacionadas con el problema de la BAEBF:ACBGA. 4 de ese con,unto
usaremos las *ariables %ue cumplan los supuestos de la regresin !solo *ariables cuantitati*as - si
son cualitati*as de)inir las *ariables )icticias correspondientes !dumm-"".
Siguiendo la idea del Libro de EH Angeles Cea !Anlisis multi*ariable. Ed. S'ntesis" *amos a tomar
como )ariable dependiente ;simpat1a 9acia los norteafricanos 4p:$!5; - trataremos de a,ustar un
modelo de regresin con *ariables independientes como/ 0simpat'a latinoamericano!p417"0 0casar con
marro%u' !pI7J"0. 0*ecino marro%u' !pK7J"0 0se#o . p320 0p33 edad0 2L i&%uierdaMderec(a. etc. etc.
ara las primeras pruebas se recomienda no usar muc(as *ariables. para %ue los )ic(eros de
resultados no resulten demasiado grandes.
Anali"ar -< ,egresin -< lineal
Lle*ar al rectngulo correspondiente la *ariable dependiente - las independientes del modelo.
En 0=todo: Ca- cuatro posibles/ introducir. pasos sucesi*os. eliminar. (acia atrs. (acia delante !leer
la e#plicacin en la a-uda del SSS". Si estamos en )ase e#ploratoria - no tenemos una idea del
modelo ,usti)icada por alguna teor'a %ue %ueramos comprobar. se recomienda usar el m$todo de (acia
delante. Con $l. el SSS introducir como primera *. Bndependiente la %ue satis)aga los criterios de
entrada - %ue presente ma-or correlacin con la *. dependiente. luego introducir en el modelo otra *.
Bndependiente %ue ser la siguiente en cuanto a ma-or magnitud de la correlacin con la *.
Bndependiente - as' sucesi*amente.
En opciones elegir el tratamiento %ue %ueramos dar a los casos perdidos !Se recomienda
encarecidamente repasar lo e#plicado en clases tericas as' como leer las a-udas del SSS. %ue se
obtienen lle*ando el cursor al elemento %ue no entendemos - pulsando el botn derec(o del ratn"
En estad1sticos se2alar a%uellos %ue %ueramos conocer.
>uardar permite arc(i*ar como nue*as *ariables los resultados de los clculos %ue se (an ido
(aciendo en el proceso de la regresin.

En los resultados de la matri& de correlaciones obtenemos para cada pare,a de *ariables el coe)iciente
de correlacin de earson. su signi)icacin - el tama2o de la muestra con el %ue se (a calculado ese
coe)iciente. Son tres tablas %ue aparecen una a continuacin de la otra.
Los nmeros de la segunda tabla son los pM*alores asociados al estad'stico :. ara poder contrastar
si el estad'stico coe)iciente de correlacin es estad'sticamente signi)icati*o. La Ciptesis nula es %ue
:>7. Si se obtiene un *alor in)erior a una signi)icacin pre)i,ada !por e,emplo 7.7I" indica %ue (a- %ue
rec(a&ar la Ciptesis nula de ine#istencia de correlacin - concluir %ue el : obtenido es
estad'sticamente signi)icati*o.
Aotar %ue la matri& de correlaciones es sim$trica
Luego aparece una tabla con las *ariables %ue (an ido entrando en el modelo. 4 a continuacin otra
tabla con in)ormacin de los coe)icientes : - :
2
para cada modelo.
@tra tabla con los cambios en :
2
- en N por la %ue podemos saber la proporcin de *arian&a %ue
e#plica cada uno de los modelos. Tambi$n aparece en esta tabla el estad'stico de +urbin Oatson %ue
-a se mencion. Si es pr#imo a dos los residuos no estn autocorrelacionados.
Tambi$n obtenemos un anlisis de la *arian&a en el %ue *emos los *alores de la suma de cuadrados
total. e#plicado por la regresin - residual !repasar la teor'a"
La tabla C@ENBCBEATES nos da la in)ormacin para escribir las ecuaciones lineales de los modelos
de regresin. !con una *. Bndependiente. con dos. con tres. etc.".
A continuacin tenemos una tabla con los coe)icientes de correlacin de orden cero. parcial -
semiparcial as' como los estad'sticos de colinealidad.
or ltimo aparece un estudio de las *ariables %ue se (an e#cluido del modelo.
Tambi$n da una tabla de diagnsticos por caso %ue nos in)orma de los casos %ue el modelo predice
peor !residuo tipi)icado ma-or %ue 3" - %ue tal *e& (abr'a %ue estudiar en la matri& de datos.
Aparece una tabla de los estad'sticos sobre los residuos.
(olerancia
Estad'stico utili&ado para determinar la cuant'a en %ue estn relacionadas las *ariables independientes
unas con otras !para *er si son multicolineales". La tolerancia de una *ariable es la proporcin de su
*arian&a no e#plicada por las otras *ariables independientes de la ecuacin. 5na *ariable con una
tolerancia mu- ba,a contribu-e con poca in)ormacin a un modelo !es colineal". - puede causar
problemas de clculo. Se calcula como 1 menos la : cuadrado para una *ariable independiente
cuando es pronosticada por las otras *ariables independientes -a incluidas en el anlisis.
>rficos incluidos en el procedimiento de la regresin.
Los grficos pueden a-udar a *alidar los supuestos de normalidad. linealidad e igualdad de las
*arian&as. Tambi$n son tiles para detectar *alores at'picos. obser*aciones poco usuales - casos de
in)luencia. Tras guardarlos como nue*as *ariables. dispondr en el Editor de datos de los *alores
pronosticados. los residuos - otros *alores diagnsticos. con los cuales podr poder crear gr)icos
respecto a las *ariables independientes. Se encuentran disponibles los siguientes gr)icos/
?iagramas de dispersin. uede representar cual%uier combinacin por pare,as de la lista siguiente/
la *ariable dependiente. los *alores pronosticados tipi)icados. los residuos tipi)icados. los residuos
eliminados. los *alores pronosticados corregidos. los residuos estudenti&ados o los residuos
eliminados estudenti&ados. :epresente los residuos tipi)icados )rente a los *alores pronosticados
tipi)icados para contrastar la linealidad - la igualdad de las *arian&as.
>enerar todos los grficos parciales. Euestra los diagramas de dispersin de los residuos de cada
*ariable independiente - los residuos de la *ariable dependiente cuando se regresan ambas *ariables
por separado sobre las restantes *ariables independientes. En la ecuacin debe (aber al menos dos
*ariables independientes para %ue se generen los gr)icos parciales.
>rficos de residuos tipificados. uede obtener (istogramas de los residuos tipi)icados - gr)icos
de probabilidad normal %ue comparen la distribucin de los residuos tipi)icados con una distribucin
normal. Si se solicita cual%uier gr)ico. se muestran los estad'sticos de resumen para los *alores
pronosticados tipi)icados - los residuos tipi)icados !PQ:E+ - PQ:ESB+".
Tambi$n se recomienda re*isar los gr)icos del procedimiento gr)icos as' como comparar los
resultados en (ombres - mu,eres de las *ariables %ue inter*ienen en el modelo. e incluso aplicar la
regresin slo a los (ombres o solo a las mu,eres. pera ello en datos seleccionar de la muestra antes
de (acer la regresin las submuestras correspondientes.
Estos apuntes se completan con el cap'tulo 1R del libro 2*22 !!. %ue )igura en la Sibliogra)'a.

También podría gustarte