Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Regresión Lineal
Análisis de Regresión Lineal
t = 1, 2 , 3 ,.... T
Un estadstico se dice que es robusto cuando sigue siendo vlido a pesar de que uno o mas de sus supuestos
no se cumplan.
El problema fundamental que se aborda es el siguiente: suponiendo que la relacin entre la variable Y
y el conjunto de variables X1 , X2 , ... X k es como se ha descrito en el modelo, y que se dispone de
un conjunto de T observaciones para cada una de las variables cmo pueden asignarse valores
numricos a los parmetros b0 , b1 , b2 , ... b k basndonos en la informacin muestral?.
Estos valores son la estimacin de los parmetros llamados coeficientes de regresin. Representan
las unidades de cambio en la variable dependiente por unidad de cambio en la variable independiente
correspondiente. En el caso de que slo haya una variable dependiente se llega a la ecuacin de una
recta donde b0 es la ordenada en el origen y b1 la pendiente de la recta. Una vez encontradas las
estimaciones de los parmetros del modelo, podremos hacer predicciones sobre el comportamiento de
la variable Y en la poblacin.
El anlisis de regresin sirve tanto para EXPLORAR datos como para CONFIRMAR teoras.
Si el anlisis de regresin se realiza con variables tipificadas los coeficientes b, pasan a denominarse
(coeficientes de regresin estandarizados) i = b i ( Desv. Tpica Xi /Desv. Tpica Y )
Al coeficiente de correlacin R elevado al cuadrado se le llama coeficiente de determinacin y es una
medida de la bondad del ajuste del modelo ya que da la proporcin de variacin de Y explicada por el
modelo.
Se suele emplear R2 ajustado, que es una correccin de R 2 para ajustar mejor el modelo a la
poblacin objeto de estudio.
2.3 Supuestos del modelo de regresin
El modelo lineal se formula bajo los siguientes supuestos:
Tamao adecuado de la muestra: se recomienda n= 20 x n de variables predictoras.
Las variables X1 , X2 , ... X
vienen de la muestra tomada.
Se supone que todas las variables X relevantes para la explicacin de Y estn incluidas en la
definicin del modelo lineal.
Las variables X1 , X2 , ... X k son linealmente independientes (no se puede poner a una de ellas
como combinacin lineal de las otras). Esta es la hiptesis de independencia y cuando no se cumple
se dice que el modelo presenta multicolinealidad. O sea: Ninguna v. Independiente da un R 2 = 1 con
las otras v.i.
Linealidad de las relaciones: la v. Independiente presenta relacin lineal con cada una de las
dependientes. Se comprueba con los grficos de regresin parcial. Su incumplimiento se arregla
mediante transformaciones de los datos
Los residuos siguen una distribucin Normal N(0, 2) , no estn correlacionados con ninguna de la
variables independientes, ni estn autocorrelacionados. Hay homocedasticidad : la varianza del error
es constante para los distintos valores de las variables independientes.
El primer objetivo es el de obtener estimaciones, es decir, valores numricos de los coeficientes b0 ,
b1 , b2 , ... b k (coeficientes de regresin parcial) en funcin de la informacin muestral. Las
estimaciones de los parmetros se suelen hacer por el mtodo de los mnimos cuadrados que consiste
en minimizar la suma de los cuadrados de los residuos, tambin llamada suma residual
Anlisis de la varianza: Introduciremos los siguientes conceptos
Suma total (ST) es la varianza muestral de la variable dependiente y es por lo tanto una medida del
tamao de las fluctuaciones experimentadas por dicha variable alrededor de su valor medio.
Suma explicada (SE) es la fluctuacin de estimador de la variable Y ( t ) alrededor de la media de Y .
Por tanto, la suma explicada es el nivel de fluctuacin de la variable Y t que el modelo es capaz de
explicar.
Suma residual (SR) es un indicador del nivel de error del modelo.
eliminados estudentizados. Represente los residuos tipificados frente a los valores pronosticados
tipificados para contrastar la linealidad y la igualdad de las varianzas.
Generar todos los grficos parciales. Muestra los diagramas de dispersin de los residuos de cada
variable independiente y los residuos de la variable dependiente cuando se regresan ambas variables
por separado sobre las restantes variables independientes. En la ecuacin debe haber al menos dos
variables independientes para que se generen los grficos parciales.
Grficos de residuos tipificados. Puede obtener histogramas de los residuos tipificados y grficos
de probabilidad normal que comparen la distribucin de los residuos tipificados con una distribucin
normal. Si se solicita cualquier grfico, se muestran los estadsticos de resumen para los valores
pronosticados tipificados y los residuos tipificados (*ZPRED y *ZRESID).
Tambin se recomienda revisar los grficos del procedimiento grficos as como comparar los
resultados en hombres y mujeres de las variables que intervienen en el modelo, e incluso aplicar la
regresin slo a los hombres o solo a las mujeres, pera ello en datos seleccionar de la muestra antes
de hacer la regresin las submuestras correspondientes.
Estos apuntes se completan con el captulo 18 del libro SPSS 11, que figura en la Bibliografa.