Está en la página 1de 58

Anlisis de Regresin Lineal Mltiple

Roberto Carlos Evaristo Broncano

I. Estimacin del Modelo de Regresin Lineal

X1 1 X2 1 . . . . . Xn 1

X 1

X1 2 X2 2 . . . . . Xn 2

X 2

X1 k X2 k . . . . . Xn k

X k

Y
Y1 Y2 . . . . . Yn

FV REGRESIN ERROR TOTAL

GL k=p-1 n-p n-1

SC SCR SCE SCT

CME SCR/K SCE/(n-p)

F CMR/CME

Prueba de Significancia individual

Prueba de Significancia Conjunta

Regin de Confianza Conjunta

Intervalo de Confianza para Parmetro

Intervalos Simultneos de Confianza para los coeficientes de Regresin


X1: Experiencia X2: Potencial Observacin 1: Este elipse no es paralelo a ninguno de los ejes. Su inclinacin es una funcin de la covarianza entre 1 y 2. Si la pendiente es muy inclinado (2 est sobreestimada), es probable que el estimado de la ordenada al origen sea demasiado pequeo (1 est subestimada). El alargamiento de la regin depende de los tamaos relativos de las varianzas de 1 y 2. En general, si la elipse est alargada en direccin de 1 ello implica que 1 no est estimada con tanta precisin como la de 2. Este caso es el de nuestro ejemplo. Observacin 2: Las lneas no son tangenciales a la elipse porque los intervalos de confianza son calculados individualmente. Si nosotros queremos una confianza de 95% que ambos intervalos contengan los

valores verdaderos, entonces las lneas deberan ser tangenciales. Como la elipse tiene un pendiente negativa, entonces la Cov(b1,b2)<0.

II. Descripcin de los datos

Fuente
Los datos fueron extrados del INEI, especficamente

de la Encuesta Nacional de Hogares (ENAHO) en el periodo 2010.


Las variables tomadas en cuenta en este modelo de

regresin son preguntas realizadas en la ENAHO, que posteriormente han sido resumidas para otros fines.
Se han elegido variables que al parecer tienen mayor

incidencia sobre la pobreza.

Fines
La data fue recolectada para medir la evolucin de la

pobreza en el periodo 2004-2010, y de esta forma realizar cambios metodolgicos con el fin de disminuir el porcentaje de pobreza en el Per.
El tema de la pobreza ha adquirido una gran

importancia en el Per, ocupando un lugar prioritario en la agenda de polticas pblicas. Los indicadores de pobreza son importantes en la definicin del contenido de la poltica econmica y social, su focalizacin sobre la poblacin ms pobre as como para la evaluacin del impacto de las polticas. En este sentido, resulta indispensable disponer de informacin oportuna y de calidad, que refleje la

Porcentaje de Pobreza (Pobreza)


Es el porcentaje de hogares en cada provincia del

Per, que se encuentra en condicin de pobreza.


La pobreza es una situacin o forma de vida que

surge como producto de la imposibilidad de acceso o carencia de los recursos para satisfacer las necesidades fsicas y psquicas bsicas humanas que inciden en un desgaste del nivel y calidad de vida de las personas, tales como la alimentacin, la vivienda, la educacin, la asistencia sanitaria o el acceso al agua potable. Tambin se suelen considerar la falta de medios para poder acceder a tales recursos, como el desempleo, la falta de ingresos o un nivel bajo de los mismos.

Variables explicativas
Ingreso Promedio Percpita Mensual (Ingreso): Se

define como el Ingreso promedio per cpita por cada provincia del Per. Ingreso per cpita, es la relacin que hay entre el PIB (producto interno bruto), y la cantidad de habitantes de un pas. Para conseguirlo, hay que dividir el PIB de un pas entre su poblacin.
Tasa de Mortalidad Infantil (Mortalidad): Se define

como la tasa de Mortalidad Infantil en cada provincia del Per. La tasa de mortalidad infantil es un indicador demogrfico que seala el nmero de defunciones de nios en una poblacin de cada mil nacimientos vivos

Variables explicativas
Tasa de desnutricin crnica en nios menores

de cinco aos (Desnutricin): Se define como la tasa de desnutricin crnica en cada provincia del Per.
Porcentaje de Poblacin con Alta Dependencia

Econmica (Econmica): Es el porcentaje de hogares dentro de cada provincia que dependen econmicamente de otros individuos, instituciones, etc. Esta variable est propuesta en la dimensin Economa dentro de la ENAHO.
Porcentaje de Poblacin de 15 y ms aos en

condicin de analfabetismo (Analfabetismo): Es el

Variables explicativas
Porcentaje

de Poblacin indocumentada (Indocumentado): Es el porcentaje de los individuos que se encuentran indocumentados (Sin DNI, sin Partida de Nacimiento, etc.)

Porcentaje de hogares sin agua (Sin_Agua): Es la

proporcin de hogares en cada provincia del Per que no tienen servicios bsicos como el agua.
Porcentaje

de hogares sin comunicacin (Sin_Comunicacin): Es la proporcin de hogares que no tienen redes de comunicacin por cada provincia del Per.

Variables explicativas
Porcentaje de individuos que no se encuentran en

la PEA (Desocupado) Es el porcentaje promedio de individuos por cada provincia que no se encuentran en la PEA.

Temario:

Normalidad de la Variable dependiente Determinacin de los valores atpicos. Diagrama de cajas. Diagramas de dispersin. Matriz de correlaciones de las variables.
Software:

Anlisis Exploratorio de Datos


SPSS 19

Normalidad de la variable dependiente

Normalidad de la variable dependiente


H0 : Yt se ajusta a una distribucin Normal. H1 : Yt no se ajusta a una distribucin Normal.

A un nivel de significancia de 0.05 (mediante la prueba de Kolmogorov), se concluye que la variable dependiente sigue una distribucin normal.

Deteccin de los valores atpicos

Deteccin de los valores atpicos

Deteccin de los valores atpicos

Grficos de dispersin de puntos

Grficos de dispersin de puntos

GENERAL SANCHEZ CERRO ILO MARISCAL NIETO

Atalaya Condorcanqui Mariscal Luzuriaga Pomabamba

Matriz de Correlaciones

Matriz de Correlaciones
Se observa a regresores que presentan una fuerte asociacin lineal con la variable dependiente. Tambin existen fuertes asociaciones lineales entre los regresores. Esto podra ser una violacin al supuesto

Temario:

Seleccin Cp Mallows. Seleccin R2 Seleccin Desviacin Estandar Seleccin Stepwise


Software: SPSS 19 Minitab

Seleccin de las Variables

Seleccin de las Variables


Coeficiente de determinacin, R2
Este criterio aumenta al ir

Coeficiente de determinacin corregido


Esta medida de bondad de

introduciendo nuevas variables en el modelo. Un criterio sencillo sera considerar el mayor R2. Tiene el inconveniente de no tener en cuenta el nmero de variables regresoras. Tiende a sobreajustar y utilizar demasiadas variables regresoras.

ajuste evita el problema de la medida anterior. No tiene porque crecer al introducir nuevas variables regresoras. Un buen criterio sera elegir el subconjunto de j variables que maximiza este coeficiente, Radjj2.

Seleccin de las Variables


Varianza residual (CME)
Es la media de los errores al

El estadstico Cp de Mallows.
Los

cuadrado.
Un buen criterio de seleccin

del subconjunto de variables es elegir el subconjunto de j variables que minimiza el valor CMERj (siendo sta la varianza residual obtenida con el modelo de j variables).
Este criterio es equivalente al

criterio de maximizar el coeficiente de determinacin corregido.

criterios anteriores se basan en el CMER, pero tambin es interesante tener en cuenta el sesgo en la seleccin del modelo ya que si se omite una variable regresora importante los estimadores de los coeficientes de regresin son sesgados y los criterios anteriores pueden elegir un modelo que tenga sesgo grande aunque su CMER sea pequeo.

Seleccin de las Variables


Un criterio que tenga en cuenta el sesgo ayudar a elegir el modelo adecuadamente. Con este objetivo surge el estadstico Cp de Mallows.

Normalmente se construir una grfica de Cp para los diferentes subconjuntos que se quieren analizar frente a p. Y se considerarn buenos los subconjuntos que tienen Cp pequeo y adems estn por debajo de la diagonal Cp= p.

Se

tiene el grfico Cp para dos subconjuntos de variables regresoras y se observa que el subconjunto A tiene un sesgo mucho mayor que el del subconjunto B, pero ste tiene menor Cp.

Mtodos de Seleccin
Eliminacin

progresiva (Backward Stepwise Regression). Este procedimiento parte del modelo de regresin con todas las variables regresoras y en cada etapa se elimina la variable menos influyente segn el contraste individual de la t (o de la F) hasta una cierta regla de parada. El procedimiento de eliminacin progresiva tiene los inconvenientes de necesitar mucha capacidad de clculo si k es grande y llevar a problemas de multicolinealidad si las variables estn relacionadas. Tiene la ventaja de no eliminar variables significativas.

Mtodos de Seleccin
Introduccin

progresiva (Fordward Stepwise Regression). Este algoritmo funciona de forma inversa que el anterior, parte del modelo sin ninguna variable regresora y en cada etapa se introduce la ms significativa hasta una cierta regla de parada. El procedimiento de introduccin progresiva tiene la ventaja respecto al anterior de necesitar menos clculo, pero presenta dos graves inconvenientes, el primero, que pueden aparecer errores de especificacin porque las variables introducidas permanecen en el modelo aunque el algoritmo en pasos sucesivos introduzca nuevas variables que aportan la informacin de las primeras. Este algoritmo tambin falla si el contraste conjunto es significativo pero los individuales no lo son, ya que no introduce variables regresoras.

Mtodos de Seleccin
Regresin paso a paso (Stepwise Regression). Este

mtodo es una combinacin de los procedimientos anteriores, comienza como el de introduccin progresiva, pero en cada etapa se plantea si todas las variables introducidas deben de permanecer. Termina el algoritmo cuando ninguna variable entra o sale del modelo. Muchos paquetes estadsticos tienen programado este algoritmo utilizando el contraste de la F y, generalmente, utilizan que FIN = FOUT, sto es una eleccin del usuario pero no una condicin para su utilizacin. Lo que si es necesario es que FIN > FOUT, para evitar que una variable que entra en una etapa salga en la siguiente. El algoritmo paso a paso tiene las ventajas del algoritmo de introduccin progresiva pero lo mejora al no mantener fijas en el modelo las variables que ya entraron en una etapa, evitando de esta forma problemas de multicolinealidad.

Algoritmo STEPWISE
Se elige un criterio de entrada, FIN y un criterio de salida, FOUT. Se calculan los coeficientes de correlacin lineal simple r(Y, Xi) , i = 1,...,k. Supongamos que el mayor de ellos corresponde a la variable Xk, que ser la candidata a entrar en el modelo. Se obtiene la regresin de Y sobre Xk y se calcula el estadstico F. El valor Fk se compara con el valor FIN elegido. Si Fk FIN se introduce en el modelo Si Fk < FIN no se introduce en el modelo

Supongamos que el mayor de ellos corresponde a la variable Xk, que ser la candidata a entrar en el modelo. Una vez introducido X , se calculan las
k

correlaciones parciales r(Yi, Xi|Xk), i = 1,...,k - 1. Se elige la correlacin parcial mayor, r(Y, Xk-1 |Xk) Se calcula el modelo de regresin de Y respecto a Xk y Xk-1. Se calculan los estadsticos Fk-1 y Fk. Si Fk-1 FIN se introduce en el modelo Si Fk-1 < FIN no se introduce en el modelo. Se termina el algoritmo. Si Fk FOUT no sale del modelo. Si Fk < FIN se elimina del modelo.

Seleccin Stepwise

Variables introducidas/eliminadas Modelo 1 2 3 4 5 6 7 8 Variables introducidas Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados Tasa de desnutricin crnica Porcentaje de individuos desocupados Ingreso Promedio Percpita Mensual Porcentaje de hogares sin agua

Mtodo Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).

a. Variable dependiente: Porcentaje de Pobreza


Resumen del modelo Estadsticos de cambio R cuadrado Error tp. de Cambio en R cuadrado Cambio en F gl1 gl2 corregida la estimacin .707 .808 .845 .870 .881 .884 .889 .891 5.6487 4.5745 4.1108 3.7654 3.5977 3.5498 3.4800 3.4494 .709 .101 .037 .025 .012 .004 .005 .002 430.752 93.892 42.942 34.583 17.601 5.692 7.971 4.045 1 1 1 1 1 1 1 1 177 176 175 174 173 172 171 170 Sig. Cambio en F .000 .000 .000 .000 .000 .018 .005 .046

Modelo 1 2 3 4 5 6 7 8

R ,842 ,900 ,921 ,934 ,940 ,945


a b c d e f

R cuadrado .709 .810 .848 .873 .885 .888 .893 .896

,942

,946 h

a. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin b. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo c. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil d. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil, Porcentaje de individuos indocumentados e. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil, Porcentaje de individuos indocumentados, de desnutricin crnica f. Variables predictoras: (Constante), Porcentaje deTasa hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil, Porcentaje de individuos indocumentados, Tasa de desnutricin crnica, Porcentaje de individuos desocupados g. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil, Porcentaje de individuos indocumentados, Tasa de desnutricin crnica, Porcentaje de individuos desocupados, Ingreso Promedio h. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil, Porcentaje de individuos indocumentados, Tasa de desnutricin crnica, Porcentaje de individuos desocupados, Ingreso Promedio

Coeficientes Coeficientes no estandarizados Coeficientes tipificados Modelo 1 (Constante) Porcentaje de hogares sin comunicacin 2 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo 3 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil 4 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados 5 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados Tasa de desnutricin crnica 6 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados Tasa de desnutricin crnica Porcentaje de individuos desocupados 7 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados Tasa de desnutricin crnica Porcentaje de individuos desocupados Ingreso Promedio Percpita Mensual 8 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados Tasa de desnutricin crnica Porcentaje de individuos desocupados Ingreso Promedio Percpita Mensual Porcentaje de hogares sin agua a. Variable dependiente: Porcentaje de Pobreza B 22.071 .372 24.377 .233 .597 21.673 .181 .546 .297 20.839 .207 .655 .293 -2.883 20.909 .157 .554 .290 -2.897 .160 19.744 .166 .544 .263 -2.932 .157 .285 20.856 .171 .525 .234 -3.026 .151 .368 -.002 20.979 .145 .552 .231 -3.250 .155 .347 -.002 .033 Error tp. 1.359 .018 1.126 .020 .062 1.093 .020 .056 .045 1.011 .019 .055 .041 .490 .966 .022 .057 .040 .468 .038 1.071 .022 .057 .041 .462 .038 .120 1.121 .021 .056 .041 .454 .037 .121 .001 1.113 .025 .057 .041 .464 .037 .120 .001 .017 .327 .414 .189 -.230 .202 .078 -.078 .073 .386 .393 .191 -.214 .197 .083 -.079 .375 .408 .214 -.207 .205 .064 .354 .415 .237 -.205 .209 .468 .491 .239 -.204 .411 .409 .242 .527 .448 .842 Beta

Intervalo de confianza de 95,0% para B t Sig. .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .018 .000 .000 .000 .000 .000 .000 .003 .005 .000 .000 .000 .000 .000 .000 .004 .006 .046 Lmite inferior Lmite superior Orden cero 19.389 .337 22.155 .192 .476 19.515 .142 .435 .207 18.844 .170 .548 .211 -3.850 19.002 .114 .441 .212 -3.822 .085 17.630 .123 .432 .182 -3.845 .083 .049 18.643 .129 .414 .153 -3.923 .078 .130 -.004 18.781 .096 .439 .150 -4.166 .083 .110 -.004 .001 24.754 .407 26.600 .273 .719 23.830 .221 .656 .386 22.835 .244 .763 .375 -1.915 22.816 .199 .667 .368 -1.973 .235 21.859 .209 .656 .343 -2.020 .231 .521 23.070 .213 .636 .315 -2.129 .224 .607 -.001 23.176 .194 .666 .311 -2.334 .227 .585 -.001 .066 .842 .819 .688 .434 .826 .178 -.383 .553 .842 .819 .688 .434 .826 .178 -.383 .842 .819 .688 .434 .826 .178 .842 .819 .688 .434 .826 .842 .819 .688 .434 .842 .819 .688 .842 .819 .842

Correlaciones Parcial .842 .651 .590 .567 .593 .444 Semiparcial .842 .374 .318 .268 .288 .193

16.238 20.755 21.646 11.391 9.690 19.829 9.095 9.753 6.553 20.611 11.020 12.016 7.067 -5.881 21.641 7.245 9.650 7.315 -6.186 4.195 18.434 7.652 9.576 6.447 -6.342 4.179 2.386 18.598 8.003 9.352 5.689 -6.658 4.081 3.048 -2.823 18.844 5.846 9.642 5.653 -7.004 4.226 2.891 -2.803 2.011

.641 .673 .472 -.407 .482 .592 .486 -.426 .304 .504 .590 .441 -.435 .304 .179 .522 .582 .399 -.454 .298 .227 -.211 .409 .595 .398 -.473 .308 .216 -.210 .152

.298 .325 .191 -.159 .187 .249 .189 -.160 .108 .195 .244 .164 -.162 .107 .061 .200 .234 .142 -.166 .102 .076 -.071 .145 .239 .140 -.173 .105 .072 -.069 .050

Variables excluidas

Es tads ticos de colinealidad Modelo 1 Beta dentro Tas a de des nutricin crnica Ingres o Prom edio Percpita Mens ual Tas a de m ortalidad infantil Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible Porcentaje de hogares con analfabetis m o Porcentaje de individuos indocum entados Porcentaje de individuos des ocupados 2 Tas a de des nutricin crnica Ingres o Prom edio Percpita Mens ual Tas a de m ortalidad infantil Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible Porcentaje de individuos indocum entados Porcentaje de individuos des ocupados 3 Tas a de des nutricin crnica Ingres o Prom edio Percpita Mens ual Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible Porcentaje de individuos indocum entados Porcentaje de individuos des ocupados 4 Tas a de des nutricin crnica Ingres o Prom edio Percpita Mens ual Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible Porcentaje de individuos des ocupados 5 Ingres o Prom edio Percpita Mens ual Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible Porcentaje de individuos des ocupados 6 Ingres o Prom edio Percpita Mens ual Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible 7 Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible 8 Porcentaje de hogares con dependencia econm ica Porcentaje de hogares con com bus tible ,416 b -,148 ,252 -,056 ,448 -,052
b

t 6.657 -3.600 6.462 5.141 -.992 3.047 9.690 -1.060 4.026 3.480 -2.564 6.553 -1.351 .704 .865 -5.290 3.478 3.765 -1.668 -1.244 .346 .128 -5.881 2.014 4.195 -2.216 1.386 1.876 .279 2.400 -2.096 .303 2.201 .304 2.386 -2.823 -.509 2.034 .238 -.950 2.011 -.060 -1.136 -.026

Sig. .000 .000 .000 .000 .322 .003 .000 .291 .000 .001 .011 .000 .179 .482 .388 .000 .001 .000 .097 .215 .730 .898 .000 .046 .000 .028 .168 .062 .781 .017 .038 .762 .029 .761 .018 .005 .612 .043 .812 .344 .046 .952 .258 .979

Correlacin parcial .449 -.262 .438 .361 -.075 .224 .590 -.080 .290 .254 -.190 .444 -.102 .053 .065 -.371 .254 .274 -.125 -.094 .026 .010 -.407 .151 .304 -.166 .105 .141 .021 .180 -.158 .023 .166 .023 .179 -.211 -.039 .154 .018 -.073 .152 -.005 -.087 -.002

Tolerancia .338 .914 .651 .597 .522 .097 .505 .689 .999 .270 .881 .638 .296 .502 .088 .608 .977 .270 .853 .295 .499 .087 .608 .901 .270 .849 .238 .470 .087 .900 .847 .220 .469 .087 .899 .797 .196 .465 .087 .191 .465 .086 .190 .086

,293 b
b b

,389 b
b b

,157 b ,213 -,088 ,242 ,033 ,096 -,208 ,206 -,053


c c c

-,081 c
c c c

,112 c
d d

-,067 d ,014 d ,013 ,062


d

-,204 d
d

,209 e -,064 e ,077 e ,073


e

,026 e ,067 e -,058 f ,017


f

,082 f ,027 f ,064 f -,079 g -,029 ,075


g g

,021 g -,054 h ,073 h -,005 h -,065


i

-,002 i

Comprobacin de la adecuacin del modelo

Matriz Sombrero
Los elementos diagonales de la matriz sombrero examinan el lugar de la observacin en el espacio de X.

Los errores tienen varianzas iguales y son incorrelacionados. Los residuales no lo son!

Residuales Estandarizados

Lo residuales estandarizados tienen media cero y varianza unitaria. di>3: Indica que la i-sima observacin es un valor atpico potencial.

Residuales Estudentizados

Msres slo es una aprox. de la varianza de y sobreestima a este. = 2

ei

Residuales PRESS

Residuales PRESS estandarizado

Residuales con hii grandes tendrn PRESS residuales grandes (ese punto ser influyente). Tambin llamados residuales eliminados, porque obvian la isima observacin.

Residuales R de Student

En el caso de los residuales estudentizados se ajusta 2 con MSRes. Estimado generado internamente. Para este caso, el estimado que se usa es el que est arriba. En muchos casos ti ser poco distinto a ri, sin embargo si la i-sima observacin es influyente, entonces el R de Student ser ms sensible a este punto.

Grficos de Probabilidad Normal


Ideal Con colas gruesa Con colas delgadas

Asimetra positiva

Asimetra negativa

Grfica de residuales en funcin del regresor


Satisfactorio Embudo Doble arco No lineal

Varianza funcin creciente de Y

Se da cuando Y es una proporcin.

Nota: en el caso de grficos de Xi vs ei, se

realizan para determinar efecto de curvatura para el regresor.

Se necesitan otras variables regresoras. La relacin entre Y y X no es lineal.

Grficas de Regresin Parcial


Del ejemplo anterior formulamos el modelo lineal:

Es correcta la relacin entre Y y X1?


Regresin Y sobre X2: Regresin X1 sobre X2:

Grficas de Regresin Parcial

Como la grfica de regresin parcial de X1 con Y es lineal, entonces la relacin

entre ellas tambin es lineal. Si hubiese una curva habra que aplicarle alguna transformacin a X1 (1/X1). Sugieren posibles relaciones entre regresor y respuesta.
No detectan efectos de interaccin entre regresores. La multicolinealidad puede afectar a este tipo de grficos.

Punto de Balanceo

Punto de Influencia

El punto A no afecta a las estimaciones de los coeficientes, pero s a los estadsticos de ajuste del modelo.

El punto A afecta a las estimaciones de los coeficientes, y tambin a los estadsticos de ajuste del modelo.

Diagnstico para balanceo e influencia

Qu es un punto de Balanceo?
Es

Qu es un punto de Influencia?
Es aquel punto que tiene

un valor desacostumbrado de X y puede controlar ciertas propiedades del modelo (R2, errores estndar, estimacin, valores predichos). Todos los puntos de balanceo sern influyentes en los coeficientes de regresin.

impacto notable sobre los coeficientes del modelo.

Si |hii|>2p/n (algunos usan 3p/n. Aqu p es el nmero de parmetros) entonces la i-sima observacin es considerado un punto influencial.

La Distancia Cook
Mide el cambio que ocurrira en el vector de coeficientes estimados de regresin (y por lo tanto en el valor ajustado de la variable de respuesta) si la isima observacin fuera omitida.
2 > 1 la i-sima observacin es potencialmente

influencial. 2 <0.1 no merece ninguna discusin 2 <0.05 merece un poco de atencin.

Ms especficamente una observacin con:


2 > F(0.50,p,n-p) es considerado como un valor

influencial, la razn es que cae en un elipsoide de confianza centrado en de radio F(,p,n-p). Aqu p es el nmero de coeficientes en el modelo. Sinembargo, si todos los 2 son menores que 1 es mejor plotear los valores 2 para detectar si hay observaciones con valores grandes comparados con los dems.

DFFITS
Es similar a la Distancia

DBETAS
Mide la influencia de la i-

Cook, excepto por un factor de escala y el remplazo de la varianza estimada 2 por 2 () , la varianza estimada del error excluyendo la isimaObservacin en los clculos.

sima observacin en cada uno de los coeficientes de regresin.

La observacin 9 es influyente. Se ven grandes cambios cuando se quita la obs 9 del modelo.

También podría gustarte