Practica 9 Resuelta

ECONOMETRÍA 09 PRÁCTICA 9 RESUELTA
Objetivos:
- Detección de multicolinealidad
- Detección de variables relevantes omitidas
- Detección de observaciones atípicas
Ejercicio Fichero Mundo 95 en ftp://ftp.unavarra.es/pub/estadistica
Para explicar la Esperanza de vida femenina de los distintos países se proponen las
variables siguientes: % de personas alfabetizadas, Producto interior bruto per capita,
ingesta diaria de calorías, Habitantes por Km2, Población urbana (%), Tasa de
natalidad.
a) Con Analizar Correlaciones bivariantes, analiza en qué parejas de variables

explicativas hay más correlación. ¿Puede esto generar problemas en el modelo?
Correlaciones
Product Tasa de
o natalida
Habitant interior d (por 1.
es en Personas bruto Ingesta 000
Habitante ciudade Alfabetiza per-capi diaria de habitant
s por Km2 s (%) das (%) ta calorías es)
Habitantes por Km2 1 ,223* ,031 ,201* ,067 -,153
,020 ,753 ,036 ,570 ,113
109 108 107 109 75 109
Habitantes en ciudades ,223* 1 ,650** ,605** ,692** -,629**
(%) ,020 ,000 ,000 ,000 ,000
108 108 107 108 74 108
Personas Alfabetizadas ,031 ,650** 1 ,552** ,682** -,869**
(%) ,753 ,000 ,000 ,000 ,000
107 107 107 107 74 107
Producto interior bruto ,201* ,605** ,552** 1 ,751** -,651**

per-capita ,036 ,000 ,000 ,000 ,000
109 108 107 109 75 109
Ingesta diaria de calorías ,067 ,692** ,682** ,751** 1 -,762**
,570 ,000 ,000 ,000 ,000
75 74 74 75 75 75
Tasa de natalidad (por 1. -,153 -,629** -,869** -,651** -,762** 1
000 habitantes) ,113 ,000 ,000 ,000 ,000
109 108 107 109 75 109
*. La correlación es significante al nivel 0,05 (bilateral).
**. La correlación es significativa al nivel 0,01 (bilateral).
En esta tabla observamos cómo correlacionan las variables tomadas dos a dos. Las
correlaciones altas (en valor absoluto) tales como –0.869 (entre personas alfabetizadas y
tasa de natalidad), -0.762 (entre ingesta de calorías y tasa de natalidad), 0.751 (entre
ingesta de calorías y producto interior bruto) sirven de advertencia: introducir todas las
variables en el modelo dará problemas de multicolinealidad. Además observamos que la
mayor parte de las correlaciones son significativamente (* al 5%) o muy
significativamente (** al 1%) distintas de cero, esto sucede con las correlaciones altas y
también con otras más débiles, debido a un tamaño muestral grande. Aunque la tabla
solo nos muestra resultados por parejas, la presencia de tanta correlación puede originar
que alguna de las variables explicativas pueda a su vez “ser explicada” por las demás
(este aspecto se comprobará más adelante).
La variable que presenta correlaciones más débiles con las demás es habitantes por
Km2 por lo que no se espera que presente problemas de multicolinealidad.
b) Estima el modelo con todas las variables propuestas (MODELO 1). ¿Los signos
son los esperados? ¿Hay variables que te sorprende que no muestren capacidad
explicativa?
Coeficientesa
Coeficientes no
estandarizados
Modelo B Error típ. t Sig.
1 (Constante) 49,594 7,667 6,468 ,000
Habitantes por
,000 ,001 -,405 ,686
Km2
Habitantes en
,123 ,032 3,862 ,000
ciudades (%)
Personas
,163 ,049 3,332 ,001
Alfabetizadas (%)
Producto interior
-9,6E-005 ,000 -,782 ,437
bruto per-capita
Ingesta diaria de
,003 ,002 1,957 ,055
calorías
Tasa de natalidad
(por 1.000 -,303 ,102 -2,955 ,004
habitantes)
a. Variable dependiente: Esperanza de vida femenina
Esperanza de vida femenina ^ = 49,594 –0,0004* Habitantes por Km2 + 0,123

%habitantes en ciudades + 0,163 %personas alfabetizadas – 9,6x10-5 PIB_pc + 0,03
Ingesta de calorías – 0,303 Tasa natalidad
* activando en SPSS el coeficiente se ve con mayor precisión.
Sorprende el signo negativo del coeficiente estimado que multiplica a la variable

PIB_pc, ya que en general los países de mayor riqueza poseen una esperanza de vida
mayor. También sorprende que no muestre capacidad explicativa en este modelo (p-
valor 0,437)
Tampoco muestra capacidad explicativa Ingesta diaria de calorías (con un p-valor
próximo al límite 0,055) lo cual también sorprende dado que los países en los que la
alimentación escasea poseen una esperanza de vida menor.
Estos resultados contrarios a la lógica pueden ser debidos a la presencia de una
multicolinealidad fuerte.
Habitantes por Km2 no muestra capacidad explicativa (p-valor 0,686) pero en este
caso no es de esperar una relación creciente ni decreciente entre la esperanza de vida y
dicha variable.
c) Analiza la multicolinealidad señalando en Estadísticos: diagnósticos de

colinealidad. ¿Afecta la multicolinealidad de forma grave al modelo?.
Comprueba, realizando una regresión auxiliar, uno de los valores de
“tolerancia”.
Coeficientesa
Coeficientes no Estadísticos de
estandarizados colinealidad
Modelo B Error típ. Tolerancia FIV
1 (Constante) 49,594 7,667
Habitantes por Km2 ,000 ,001 ,927 1,079
Habitantes en ciudades
,123 ,032 ,423 2,362
(%)
Personas Alfabetizadas
,163 ,049 ,209 4,790
(%)
Producto interior bruto
-9,6E-005 ,000 ,345 2,899
per-capita
Ingesta diaria de calorías ,003 ,002 ,294 3,396
Tasa de natalidad (por 1.
-,303 ,102 ,165 6,047
000 habitantes)
Observamos que la variable Habitantes Km2 presenta tolerancia alta (y en consecuencia

FIV bajo) por lo que es la menos problemática en cuanto a multicolinealidad (ya
habíamos visto en las correlaciones que era la que menos correlacionaba con las demás.
Por el contrario, en las demás variables las tolerancias son bajas: la tasa de natalidad
presenta una tolerancia muy baja 0,165 (FIV alto 6,047): es la más problemática en lo
que se refiere a multicolinealidad. También tenemos una tolerancia de 0,209 (FIV de
4,79) en la variable Personas alfabetizadas. Se confirma la presencia de
multicolinealidad en el modelo.
Veamos ahora el grado de multicolinealidad del modelo:

Diagnósticos de colinealidada
Proporciones de la varianza
Tasa
Pers de
ona Prod natali
Habit s ucto Ingest dad
antes Alfa interi a (por
Indice Habit en betiz or diaria 1.000
de (Con antes ciuda ada bruto de habit
Autov condici stant por des s per-c calorí ante
alor ón e) Km2 (%) (%) apita as s)
1 5,225 1,000 ,00 ,00 ,00 ,00 ,00 ,00 ,00
2 ,921 2,381 ,00 ,78 ,00 ,00 ,01 ,00 ,00
3 ,674 2,784 ,00 ,16 ,00 ,00 ,15 ,00 ,01
4 ,113 6,814 ,00 ,00 ,19 ,02 ,58 ,00 ,06
5 ,051 10,119 ,00 ,01 ,72 ,11 ,02 ,01 ,05
6 ,013 19,947 ,00 ,00 ,01 ,36 ,22 ,58 ,13
7 ,003 40,425 ,99 ,04 ,07 ,51 ,00 ,41 ,75
El número de condición 40,425 indica una multicolinealidad severa (insostenible) lo que

implica que ese conjunto de 6 variables genera problemas en el modelo. En la misma
fila vemos que la variable tasa de natalidad destaca (0.75)
Verifiquemos el valor 0,165 mediante una regresión auxiliar con variable dependiente la
tasa de natalidad y explicativas las demás explicativas:
Resumen del modelo
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 ,914a ,835 ,822 5,2373
a. Variables predictoras: (Constante), Ingesta diaria de
calorías, Habitantes por Km2, Personas Alfabetizadas (%),
Habitantes en ciudades (%), Producto interior bruto
per-capita
En efecto 0,165 = 1 – 0,835
d) Elimina, justificadamente, alguna(s) variable(s) del modelo. Ten en cuenta para

ello los diagnósticos de colinealidad, el R2 y los t-ratios del modelo resultante.
Verifica que los residuos del modelo resultante no presentan tendencia lineal con
variable(s) omitida(s). Observa diferencias en los errores típicos antes y después
de eliminar variables. (Convendrá hacer diversas pruebas).
Interpreta el modelo finalmente elegido.
Aviso: este fichero no es completo (no se tiene información de todas las variables
para todos los paises). El procedimiento de regresión utiliza solamente los países
para los que tenga información completa. Al eliminar variables puede verse
incrementado el tamaño muestral (por haber más paises con información completa
al intervenir menos variables en el modelo) por lo que no debería sorprender que
con menos variables apareciera un R2 mayor (como sabemos esto sería imposible si
la muestra fuese la misma)
La primera decisión será eliminar del modelo Habitantes por Km2 ya que su falta de
significatividad (y un t-ratio muy bajo –0.4) no es debida a multicolinealidad sino a
que la variable no “explica” a la variable esperanza de vida femenina.
La tasa de natalidad se debería eliminar por ser la variable más problemática en

cuanto a multicolinealidad, comprobando que en el modelo que elijamos los
residuos no detecten su ausencia.
Un modelo aceptable (multicolinealidad moderada, R2 alto, todas las variables

muestran capacidad explicativa, validado por ANOVA sin anomalías en los residuos
y sin que los residuos detecten la ausencia de variables relevantes) podría ser:
- habitantes en ciudades, PIB_pc y personas alfabetizadas

R2 = 0.824, todas significativas individualmente, Número de condición 11´127
Resumen del modelob
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 ,908a ,824 ,819 4,528
a. Variables predictoras: (Constante), Personas Alfabetizadas (%),

Producto interior bruto per-capita, Habitantes en ciudades (%)
b. Variable dependiente: Esperanza de vida femenina
ANOVAb
Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 9911,091 3 3303,697 161,120 ,000a
Residual 2111,975 103 20,505
Total 12023,065 106
a. Variables predictoras: (Constante), Personas Alfabetizadas (%), Producto interior bruto per-
capita, Habitantes en ciudades (%)
b. Variable dependiente: Esperanza de vida femenina

Coeficientesa
Coeficien
tes
Coeficientes no tipificado Estadísticos de
estandarizados s colinealidad
Modelo B Error típ. Beta t Sig. Tolerancia FIV
1 (Constante) 39,498 1,688 23,398 ,000
Habitantes en ,122 ,027 ,275 4,610 ,000 ,480 2,084

ciudades (%)
Producto interior bruto ,000 ,000 ,134 2,463 ,015 ,577 1,732
per-capita
Personas ,285 ,026 ,613 10,928 ,000 ,542 1,845

Alfabetizadas (%)
Diagnósticos de colinealidada
Proporciones de la varianza
Habitantes Producto
en interior Personas
Autovalore Índice de (Constan ciudades bruto per- Alfabetiz
Modelo Dimensión s condición te) (%) capita adas (%)
1 3,539 1,000 ,00 ,01 ,02 ,00
,377 3,066 ,04 ,00 ,63 ,01
,056 7,928 ,33 ,83 ,29 ,01
,029 11,127 ,63 ,16 ,06 ,98
El gráfico que se muestra a continuación representa los residuos frente a:
las explicativas (habitantes en ciudades, PIB_pc y personas alfabetizadas)

valores y estimados (predicted)
las eliminadas (tasa natalidad, ingesta de calorias y Habitantes Km2)
No se aprecian anomalías claras(salvo algunos atípicos que se analizarán en el
apartado siguiente)
Los errores típicos en este modelo son 0,027, 0,000 (8.85.10-5) y 0,026 mientras que
en el modelo con todas las variables eran respectivamente 0,032, 0,000 (1,22.10-4) y
0,049, todos ellos superiores a los del modelo de 3 variables.
En este caso la interpretación del modelo estimado es:
Esperanza de vida femenina^= 39,498 + 0,122 Hab_ciudades% + 0,000218 PIB_pc

+ 0,285 personas alfabetizadas(%)
Se estima que el aumento de un 1% de población urbana (a valores constantes de las

demás variables explicativas) produce un aumento de 0,122 años en la esperanza de
vida femenina. Etc.
Otro modelo aceptable: habitantes en ciudades, Ingesta de calorías, Personas

alfabetizadas.
R2= 0,845, todas significativas individualmente, Número de condición 17,759
algo mejor en cuanto a bondad de ajuste y algo peor en cuanto a grado de
multicolinealidad con respecto al anterior.
Hay también modelos de dos variables aceptables: tasa de natalidad y habitantes en

ciudades. R2 =0.81 y número de condición 10,86.
e) Con el MODELO 1: utiliza la opción Guardar Mahalanobis, Cook, Dfbetas y

localiza aquellos países que puedan considerarse atípicos (± 2 y ±3 desviaciones
típicas):
a) Según los valores de las variables explicativas
b) Según su influencia en el conjunto de los beta estimados
c) Según su influencia en el coeficiente que acompaña a la variable % de
personas alfabetizadas.
Y ordena los que consideras candidatos a eliminar de la muestra.
Estadísticos sobre los residuosa
Mínimo Máximo Media Desviación típica N
Valor pronosticado 46,86 82,79 68,70 10,634 74
Valor pronosticado tip. -2,054 1,325 ,000 1,000 74
Error típico de valor ,749 4,330 1,284 ,455 74

pronosticado
Valor pronosticado corregido 45,79 83,03 68,64 10,584 74
Residual -14,574 7,224 ,000 4,240 74
Residuo típ. -3,293 1,632 ,000 ,958 74
Residuo estud. -3,537 1,729 ,000 1,005 74
Residuo eliminado -16,815 8,206 ,059 4,733 74
Residuo eliminado estud. -3,893 1,756 -,007 1,032 74
Dist. de Mahalanobis 1,103 68,882 5,919 7,907 74
Distancia de Cook ,000 ,352 ,019 ,053 74
Valor de influencia centrado ,015 ,944 ,081 ,108 74
a)La distancia de Mahalanobis ordena, de menor a mayor, las observaciones

según su distancia al vector de medias (variables explicativas). La ordenación es la
misma que la del leverage. Se refiere solamente a las variables explicativas. En este
caso, la media es 5,919 y la desviación típica es 7,907 por lo que 21,733 y 29,640 serán
valores de referencia. Solo Singapur (que presenta la mayor distancia de Mahalanobis,
68,88) supera ambos valores.
b) La distancia de Cook ordena, de menor a mayor, las observaciones según su

influencia en la estimación de los parámetros del modelo (considerados
conjuntamente). La media es 0,019 y la desviación típica 0,053, por lo que los
valores de referencia son: 0,125 y 0,178. De nuevo es Singapur con un valor
0,35 quien presenta mayor influencia. Por lo tanto no se trata de una observación
que beneficia la estimación. También Zambia con 0,27 supera dichos valores.
d) Nos fijaremos en el Dfbeta que corresponde a la variable % de personas

alfabetizadas.
Hacemos descriptivos para obtener su media y su desviación típica.

Estadísticos
DFBETA alfabet
N Válidos 74
Perdidos 35
Media -,0000261
Desv. típ. ,00918286
Valores de referencia –0,01839 y +0,01833 para 2 desviaciones típicas

-0,02757 y + 0,02751 para 3 desviaciones típicas
Destacan Zambia (-0,052), República Centro Africana (0,032) y algo menos

Etiopía (-0,019).
Candidatos a ser eliminados:

En vista del resultado del apartado b) (Cook): 1º Singapur y 2º Zambia

Practica 9 Resuelta

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Practica 9 Resuelta

Cargado por

Copyright:

Formatos disponibles

ECONOMETRÍA 09 PRÁCTICA 9 RESUELTA

Ejercicio Fichero Mundo 95 en ftp://ftp.unavarra.es/pub/estadistica

a) Con Analizar Correlaciones bivariantes, analiza en qué parejas de variables

107 107 107 107 74 107

Producto interior bruto ,201* ,605** ,552** 1 ,751** -,651**

Esperanza de vida femenina ^ = 49,594 –0,0004* Habitantes por Km2 + 0,123

* activando en SPSS el coeficiente se ve con mayor precisión.

Sorprende el signo negativo del coeficiente estimado que multiplica a la variable

c) Analiza la multicolinealidad señalando en Estadísticos: diagnósticos de

Observamos que la variable Habitantes Km2 presenta tolerancia alta (y en consecuencia

Veamos ahora el grado de multicolinealidad del modelo:

El número de condición 40,425 indica una multicolinealidad severa (insostenible) lo que

R cuadrado Error típ. de la

En efecto 0,165 = 1 – 0,835

d) Elimina, justificadamente, alguna(s) variable(s) del modelo. Ten en cuenta para

La tasa de natalidad se debería eliminar por ser la variable más problemática en

Un modelo aceptable (multicolinealidad moderada, R2 alto, todas las variables

- habitantes en ciudades, PIB_pc y personas alfabetizadas

Resumen del modelob

R cuadrado Error típ. de la

1 ,908a ,824 ,819 4,528

a. Variables predictoras: (Constante), Personas Alfabetizadas (%),

b. Variable dependiente: Esperanza de vida femenina

1 Regresión 9911,091 3 3303,697 161,120 ,000a

Residual 2111,975 103 20,505

Total 12023,065 106

b. Variable dependiente: Esperanza de vida femenina

Modelo B Error típ. Beta t Sig. Tolerancia FIV

1 (Constante) 39,498 1,688 23,398 ,000

Habitantes en ,122 ,027 ,275 4,610 ,000 ,480 2,084

Personas ,285 ,026 ,613 10,928 ,000 ,542 1,845

a. Variable dependiente: Esperanza de vida femenina

1 3,539 1,000 ,00 ,01 ,02 ,00

,377 3,066 ,04 ,00 ,63 ,01

,056 7,928 ,33 ,83 ,29 ,01

,029 11,127 ,63 ,16 ,06 ,98

a. Variable dependiente: Esperanza de vida femenina

El gráfico que se muestra a continuación representa los residuos frente a:

las explicativas (habitantes en ciudades, PIB_pc y personas alfabetizadas)

En este caso la interpretación del modelo estimado es:

Esperanza de vida femenina^= 39,498 + 0,122 Hab_ciudades% + 0,000218 PIB_pc

Se estima que el aumento de un 1% de población urbana (a valores constantes de las

Otro modelo aceptable: habitantes en ciudades, Ingesta de calorías, Personas

Hay también modelos de dos variables aceptables: tasa de natalidad y habitantes en

e) Con el MODELO 1: utiliza la opción Guardar Mahalanobis, Cook, Dfbetas y

Estadísticos sobre los residuosa

Mínimo Máximo Media Desviación típica N

Valor pronosticado 46,86 82,79 68,70 10,634 74

Valor pronosticado tip. -2,054 1,325 ,000 1,000 74

Error típico de valor ,749 4,330 1,284 ,455 74

Valor pronosticado corregido 45,79 83,03 68,64 10,584 74

Residual -14,574 7,224 ,000 4,240 74

Residuo típ. -3,293 1,632 ,000 ,958 74

Residuo estud. -3,537 1,729 ,000 1,005 74

Residuo eliminado -16,815 8,206 ,059 4,733 74

Residuo eliminado estud. -3,893 1,756 -,007 1,032 74

Dist. de Mahalanobis 1,103 68,882 5,919 7,907 74

Distancia de Cook ,000 ,352 ,019 ,053 74

Valor de influencia centrado ,015 ,944 ,081 ,108 74

a. Variable dependiente: Esperanza de vida femenina

a)La distancia de Mahalanobis ordena, de menor a mayor, las observaciones

b) La distancia de Cook ordena, de menor a mayor, las observaciones según su

d) Nos fijaremos en el Dfbeta que corresponde a la variable % de personas

Producto interior bruto ,201* ,605 ,552 1 ,751 -,651