Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis Regresión
Análisis Regresión
X1 1 X2 1 . . . . . Xn 1
X 1
X1 2 X2 2 . . . . . Xn 2
X 2
X1 k X2 k . . . . . Xn k
X k
Y
Y1 Y2 . . . . . Yn
F CMR/CME
valores verdaderos, entonces las lneas deberan ser tangenciales. Como la elipse tiene un pendiente negativa, entonces la Cov(b1,b2)<0.
Fuente
Los datos fueron extrados del INEI, especficamente
regresin son preguntas realizadas en la ENAHO, que posteriormente han sido resumidas para otros fines.
Se han elegido variables que al parecer tienen mayor
Fines
La data fue recolectada para medir la evolucin de la
pobreza en el periodo 2004-2010, y de esta forma realizar cambios metodolgicos con el fin de disminuir el porcentaje de pobreza en el Per.
El tema de la pobreza ha adquirido una gran
importancia en el Per, ocupando un lugar prioritario en la agenda de polticas pblicas. Los indicadores de pobreza son importantes en la definicin del contenido de la poltica econmica y social, su focalizacin sobre la poblacin ms pobre as como para la evaluacin del impacto de las polticas. En este sentido, resulta indispensable disponer de informacin oportuna y de calidad, que refleje la
surge como producto de la imposibilidad de acceso o carencia de los recursos para satisfacer las necesidades fsicas y psquicas bsicas humanas que inciden en un desgaste del nivel y calidad de vida de las personas, tales como la alimentacin, la vivienda, la educacin, la asistencia sanitaria o el acceso al agua potable. Tambin se suelen considerar la falta de medios para poder acceder a tales recursos, como el desempleo, la falta de ingresos o un nivel bajo de los mismos.
Variables explicativas
Ingreso Promedio Percpita Mensual (Ingreso): Se
define como el Ingreso promedio per cpita por cada provincia del Per. Ingreso per cpita, es la relacin que hay entre el PIB (producto interno bruto), y la cantidad de habitantes de un pas. Para conseguirlo, hay que dividir el PIB de un pas entre su poblacin.
Tasa de Mortalidad Infantil (Mortalidad): Se define
como la tasa de Mortalidad Infantil en cada provincia del Per. La tasa de mortalidad infantil es un indicador demogrfico que seala el nmero de defunciones de nios en una poblacin de cada mil nacimientos vivos
Variables explicativas
Tasa de desnutricin crnica en nios menores
de cinco aos (Desnutricin): Se define como la tasa de desnutricin crnica en cada provincia del Per.
Porcentaje de Poblacin con Alta Dependencia
Econmica (Econmica): Es el porcentaje de hogares dentro de cada provincia que dependen econmicamente de otros individuos, instituciones, etc. Esta variable est propuesta en la dimensin Economa dentro de la ENAHO.
Porcentaje de Poblacin de 15 y ms aos en
Variables explicativas
Porcentaje
de Poblacin indocumentada (Indocumentado): Es el porcentaje de los individuos que se encuentran indocumentados (Sin DNI, sin Partida de Nacimiento, etc.)
proporcin de hogares en cada provincia del Per que no tienen servicios bsicos como el agua.
Porcentaje
de hogares sin comunicacin (Sin_Comunicacin): Es la proporcin de hogares que no tienen redes de comunicacin por cada provincia del Per.
Variables explicativas
Porcentaje de individuos que no se encuentran en
la PEA (Desocupado) Es el porcentaje promedio de individuos por cada provincia que no se encuentran en la PEA.
Temario:
Normalidad de la Variable dependiente Determinacin de los valores atpicos. Diagrama de cajas. Diagramas de dispersin. Matriz de correlaciones de las variables.
Software:
A un nivel de significancia de 0.05 (mediante la prueba de Kolmogorov), se concluye que la variable dependiente sigue una distribucin normal.
Matriz de Correlaciones
Matriz de Correlaciones
Se observa a regresores que presentan una fuerte asociacin lineal con la variable dependiente. Tambin existen fuertes asociaciones lineales entre los regresores. Esto podra ser una violacin al supuesto
Temario:
introduciendo nuevas variables en el modelo. Un criterio sencillo sera considerar el mayor R2. Tiene el inconveniente de no tener en cuenta el nmero de variables regresoras. Tiende a sobreajustar y utilizar demasiadas variables regresoras.
ajuste evita el problema de la medida anterior. No tiene porque crecer al introducir nuevas variables regresoras. Un buen criterio sera elegir el subconjunto de j variables que maximiza este coeficiente, Radjj2.
El estadstico Cp de Mallows.
Los
cuadrado.
Un buen criterio de seleccin
del subconjunto de variables es elegir el subconjunto de j variables que minimiza el valor CMERj (siendo sta la varianza residual obtenida con el modelo de j variables).
Este criterio es equivalente al
criterios anteriores se basan en el CMER, pero tambin es interesante tener en cuenta el sesgo en la seleccin del modelo ya que si se omite una variable regresora importante los estimadores de los coeficientes de regresin son sesgados y los criterios anteriores pueden elegir un modelo que tenga sesgo grande aunque su CMER sea pequeo.
Normalmente se construir una grfica de Cp para los diferentes subconjuntos que se quieren analizar frente a p. Y se considerarn buenos los subconjuntos que tienen Cp pequeo y adems estn por debajo de la diagonal Cp= p.
Se
tiene el grfico Cp para dos subconjuntos de variables regresoras y se observa que el subconjunto A tiene un sesgo mucho mayor que el del subconjunto B, pero ste tiene menor Cp.
Mtodos de Seleccin
Eliminacin
progresiva (Backward Stepwise Regression). Este procedimiento parte del modelo de regresin con todas las variables regresoras y en cada etapa se elimina la variable menos influyente segn el contraste individual de la t (o de la F) hasta una cierta regla de parada. El procedimiento de eliminacin progresiva tiene los inconvenientes de necesitar mucha capacidad de clculo si k es grande y llevar a problemas de multicolinealidad si las variables estn relacionadas. Tiene la ventaja de no eliminar variables significativas.
Mtodos de Seleccin
Introduccin
progresiva (Fordward Stepwise Regression). Este algoritmo funciona de forma inversa que el anterior, parte del modelo sin ninguna variable regresora y en cada etapa se introduce la ms significativa hasta una cierta regla de parada. El procedimiento de introduccin progresiva tiene la ventaja respecto al anterior de necesitar menos clculo, pero presenta dos graves inconvenientes, el primero, que pueden aparecer errores de especificacin porque las variables introducidas permanecen en el modelo aunque el algoritmo en pasos sucesivos introduzca nuevas variables que aportan la informacin de las primeras. Este algoritmo tambin falla si el contraste conjunto es significativo pero los individuales no lo son, ya que no introduce variables regresoras.
Mtodos de Seleccin
Regresin paso a paso (Stepwise Regression). Este
mtodo es una combinacin de los procedimientos anteriores, comienza como el de introduccin progresiva, pero en cada etapa se plantea si todas las variables introducidas deben de permanecer. Termina el algoritmo cuando ninguna variable entra o sale del modelo. Muchos paquetes estadsticos tienen programado este algoritmo utilizando el contraste de la F y, generalmente, utilizan que FIN = FOUT, sto es una eleccin del usuario pero no una condicin para su utilizacin. Lo que si es necesario es que FIN > FOUT, para evitar que una variable que entra en una etapa salga en la siguiente. El algoritmo paso a paso tiene las ventajas del algoritmo de introduccin progresiva pero lo mejora al no mantener fijas en el modelo las variables que ya entraron en una etapa, evitando de esta forma problemas de multicolinealidad.
Algoritmo STEPWISE
Se elige un criterio de entrada, FIN y un criterio de salida, FOUT. Se calculan los coeficientes de correlacin lineal simple r(Y, Xi) , i = 1,...,k. Supongamos que el mayor de ellos corresponde a la variable Xk, que ser la candidata a entrar en el modelo. Se obtiene la regresin de Y sobre Xk y se calcula el estadstico F. El valor Fk se compara con el valor FIN elegido. Si Fk FIN se introduce en el modelo Si Fk < FIN no se introduce en el modelo
Supongamos que el mayor de ellos corresponde a la variable Xk, que ser la candidata a entrar en el modelo. Una vez introducido X , se calculan las
k
correlaciones parciales r(Yi, Xi|Xk), i = 1,...,k - 1. Se elige la correlacin parcial mayor, r(Y, Xk-1 |Xk) Se calcula el modelo de regresin de Y respecto a Xk y Xk-1. Se calculan los estadsticos Fk-1 y Fk. Si Fk-1 FIN se introduce en el modelo Si Fk-1 < FIN no se introduce en el modelo. Se termina el algoritmo. Si Fk FOUT no sale del modelo. Si Fk < FIN se elimina del modelo.
Seleccin Stepwise
Variables introducidas/eliminadas Modelo 1 2 3 4 5 6 7 8 Variables introducidas Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados Tasa de desnutricin crnica Porcentaje de individuos desocupados Ingreso Promedio Percpita Mensual Porcentaje de hogares sin agua
Mtodo Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
Modelo 1 2 3 4 5 6 7 8
,942
,946 h
a. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin b. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo c. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil d. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil, Porcentaje de individuos indocumentados e. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil, Porcentaje de individuos indocumentados, de desnutricin crnica f. Variables predictoras: (Constante), Porcentaje deTasa hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil, Porcentaje de individuos indocumentados, Tasa de desnutricin crnica, Porcentaje de individuos desocupados g. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil, Porcentaje de individuos indocumentados, Tasa de desnutricin crnica, Porcentaje de individuos desocupados, Ingreso Promedio h. Variables predictoras: (Constante), Porcentaje de hogares sin comunicacin, Porcentaje de hogares con analfabetismo, Tasa de mortalidad infantil, Porcentaje de individuos indocumentados, Tasa de desnutricin crnica, Porcentaje de individuos desocupados, Ingreso Promedio
Coeficientes Coeficientes no estandarizados Coeficientes tipificados Modelo 1 (Constante) Porcentaje de hogares sin comunicacin 2 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo 3 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil 4 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados 5 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados Tasa de desnutricin crnica 6 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados Tasa de desnutricin crnica Porcentaje de individuos desocupados 7 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados Tasa de desnutricin crnica Porcentaje de individuos desocupados Ingreso Promedio Percpita Mensual 8 (Constante) Porcentaje de hogares sin comunicacin Porcentaje de hogares con analfabetismo Tasa de mortalidad infantil Porcentaje de individuos indocumentados Tasa de desnutricin crnica Porcentaje de individuos desocupados Ingreso Promedio Percpita Mensual Porcentaje de hogares sin agua a. Variable dependiente: Porcentaje de Pobreza B 22.071 .372 24.377 .233 .597 21.673 .181 .546 .297 20.839 .207 .655 .293 -2.883 20.909 .157 .554 .290 -2.897 .160 19.744 .166 .544 .263 -2.932 .157 .285 20.856 .171 .525 .234 -3.026 .151 .368 -.002 20.979 .145 .552 .231 -3.250 .155 .347 -.002 .033 Error tp. 1.359 .018 1.126 .020 .062 1.093 .020 .056 .045 1.011 .019 .055 .041 .490 .966 .022 .057 .040 .468 .038 1.071 .022 .057 .041 .462 .038 .120 1.121 .021 .056 .041 .454 .037 .121 .001 1.113 .025 .057 .041 .464 .037 .120 .001 .017 .327 .414 .189 -.230 .202 .078 -.078 .073 .386 .393 .191 -.214 .197 .083 -.079 .375 .408 .214 -.207 .205 .064 .354 .415 .237 -.205 .209 .468 .491 .239 -.204 .411 .409 .242 .527 .448 .842 Beta
Intervalo de confianza de 95,0% para B t Sig. .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .018 .000 .000 .000 .000 .000 .000 .003 .005 .000 .000 .000 .000 .000 .000 .004 .006 .046 Lmite inferior Lmite superior Orden cero 19.389 .337 22.155 .192 .476 19.515 .142 .435 .207 18.844 .170 .548 .211 -3.850 19.002 .114 .441 .212 -3.822 .085 17.630 .123 .432 .182 -3.845 .083 .049 18.643 .129 .414 .153 -3.923 .078 .130 -.004 18.781 .096 .439 .150 -4.166 .083 .110 -.004 .001 24.754 .407 26.600 .273 .719 23.830 .221 .656 .386 22.835 .244 .763 .375 -1.915 22.816 .199 .667 .368 -1.973 .235 21.859 .209 .656 .343 -2.020 .231 .521 23.070 .213 .636 .315 -2.129 .224 .607 -.001 23.176 .194 .666 .311 -2.334 .227 .585 -.001 .066 .842 .819 .688 .434 .826 .178 -.383 .553 .842 .819 .688 .434 .826 .178 -.383 .842 .819 .688 .434 .826 .178 .842 .819 .688 .434 .826 .842 .819 .688 .434 .842 .819 .688 .842 .819 .842
Correlaciones Parcial .842 .651 .590 .567 .593 .444 Semiparcial .842 .374 .318 .268 .288 .193
16.238 20.755 21.646 11.391 9.690 19.829 9.095 9.753 6.553 20.611 11.020 12.016 7.067 -5.881 21.641 7.245 9.650 7.315 -6.186 4.195 18.434 7.652 9.576 6.447 -6.342 4.179 2.386 18.598 8.003 9.352 5.689 -6.658 4.081 3.048 -2.823 18.844 5.846 9.642 5.653 -7.004 4.226 2.891 -2.803 2.011
.641 .673 .472 -.407 .482 .592 .486 -.426 .304 .504 .590 .441 -.435 .304 .179 .522 .582 .399 -.454 .298 .227 -.211 .409 .595 .398 -.473 .308 .216 -.210 .152
.298 .325 .191 -.159 .187 .249 .189 -.160 .108 .195 .244 .164 -.162 .107 .061 .200 .234 .142 -.166 .102 .076 -.071 .145 .239 .140 -.173 .105 .072 -.069 .050
Variables excluidas
Es tads ticos de colinealidad Modelo 1 Beta dentro Tas a de des nutricin crnica Ingres o Prom edio Percpita Mens ual Tas a de m ortalidad infantil Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible Porcentaje de hogares con analfabetis m o Porcentaje de individuos indocum entados Porcentaje de individuos des ocupados 2 Tas a de des nutricin crnica Ingres o Prom edio Percpita Mens ual Tas a de m ortalidad infantil Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible Porcentaje de individuos indocum entados Porcentaje de individuos des ocupados 3 Tas a de des nutricin crnica Ingres o Prom edio Percpita Mens ual Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible Porcentaje de individuos indocum entados Porcentaje de individuos des ocupados 4 Tas a de des nutricin crnica Ingres o Prom edio Percpita Mens ual Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible Porcentaje de individuos des ocupados 5 Ingres o Prom edio Percpita Mens ual Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible Porcentaje de individuos des ocupados 6 Ingres o Prom edio Percpita Mens ual Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible 7 Porcentaje de hogares con dependencia econm ica Porcentaje de hogares s in agua Porcentaje de hogares con com bus tible 8 Porcentaje de hogares con dependencia econm ica Porcentaje de hogares con com bus tible ,416 b -,148 ,252 -,056 ,448 -,052
b
t 6.657 -3.600 6.462 5.141 -.992 3.047 9.690 -1.060 4.026 3.480 -2.564 6.553 -1.351 .704 .865 -5.290 3.478 3.765 -1.668 -1.244 .346 .128 -5.881 2.014 4.195 -2.216 1.386 1.876 .279 2.400 -2.096 .303 2.201 .304 2.386 -2.823 -.509 2.034 .238 -.950 2.011 -.060 -1.136 -.026
Sig. .000 .000 .000 .000 .322 .003 .000 .291 .000 .001 .011 .000 .179 .482 .388 .000 .001 .000 .097 .215 .730 .898 .000 .046 .000 .028 .168 .062 .781 .017 .038 .762 .029 .761 .018 .005 .612 .043 .812 .344 .046 .952 .258 .979
Correlacin parcial .449 -.262 .438 .361 -.075 .224 .590 -.080 .290 .254 -.190 .444 -.102 .053 .065 -.371 .254 .274 -.125 -.094 .026 .010 -.407 .151 .304 -.166 .105 .141 .021 .180 -.158 .023 .166 .023 .179 -.211 -.039 .154 .018 -.073 .152 -.005 -.087 -.002
Tolerancia .338 .914 .651 .597 .522 .097 .505 .689 .999 .270 .881 .638 .296 .502 .088 .608 .977 .270 .853 .295 .499 .087 .608 .901 .270 .849 .238 .470 .087 .900 .847 .220 .469 .087 .899 .797 .196 .465 .087 .191 .465 .086 .190 .086
,293 b
b b
,389 b
b b
-,081 c
c c c
,112 c
d d
-,204 d
d
-,002 i
Matriz Sombrero
Los elementos diagonales de la matriz sombrero examinan el lugar de la observacin en el espacio de X.
Los errores tienen varianzas iguales y son incorrelacionados. Los residuales no lo son!
Residuales Estandarizados
Lo residuales estandarizados tienen media cero y varianza unitaria. di>3: Indica que la i-sima observacin es un valor atpico potencial.
Residuales Estudentizados
ei
Residuales PRESS
Residuales con hii grandes tendrn PRESS residuales grandes (ese punto ser influyente). Tambin llamados residuales eliminados, porque obvian la isima observacin.
Residuales R de Student
En el caso de los residuales estudentizados se ajusta 2 con MSRes. Estimado generado internamente. Para este caso, el estimado que se usa es el que est arriba. En muchos casos ti ser poco distinto a ri, sin embargo si la i-sima observacin es influyente, entonces el R de Student ser ms sensible a este punto.
Asimetra positiva
Asimetra negativa
entre ellas tambin es lineal. Si hubiese una curva habra que aplicarle alguna transformacin a X1 (1/X1). Sugieren posibles relaciones entre regresor y respuesta.
No detectan efectos de interaccin entre regresores. La multicolinealidad puede afectar a este tipo de grficos.
Punto de Balanceo
Punto de Influencia
El punto A no afecta a las estimaciones de los coeficientes, pero s a los estadsticos de ajuste del modelo.
El punto A afecta a las estimaciones de los coeficientes, y tambin a los estadsticos de ajuste del modelo.
Qu es un punto de Balanceo?
Es
Qu es un punto de Influencia?
Es aquel punto que tiene
un valor desacostumbrado de X y puede controlar ciertas propiedades del modelo (R2, errores estndar, estimacin, valores predichos). Todos los puntos de balanceo sern influyentes en los coeficientes de regresin.
Si |hii|>2p/n (algunos usan 3p/n. Aqu p es el nmero de parmetros) entonces la i-sima observacin es considerado un punto influencial.
La Distancia Cook
Mide el cambio que ocurrira en el vector de coeficientes estimados de regresin (y por lo tanto en el valor ajustado de la variable de respuesta) si la isima observacin fuera omitida.
2 > 1 la i-sima observacin es potencialmente
influencial, la razn es que cae en un elipsoide de confianza centrado en de radio F(,p,n-p). Aqu p es el nmero de coeficientes en el modelo. Sinembargo, si todos los 2 son menores que 1 es mejor plotear los valores 2 para detectar si hay observaciones con valores grandes comparados con los dems.
DFFITS
Es similar a la Distancia
DBETAS
Mide la influencia de la i-
Cook, excepto por un factor de escala y el remplazo de la varianza estimada 2 por 2 () , la varianza estimada del error excluyendo la isimaObservacin en los clculos.
La observacin 9 es influyente. Se ven grandes cambios cuando se quita la obs 9 del modelo.