Está en la página 1de 10

ECONOMETRÍA 09 PRÁCTICA 9 RESUELTA

Objetivos:
- Detección de multicolinealidad
- Detección de variables relevantes omitidas
- Detección de observaciones atípicas

Ejercicio Fichero Mundo 95 en ftp://ftp.unavarra.es/pub/estadistica

Para explicar la Esperanza de vida femenina de los distintos países se proponen las
variables siguientes: % de personas alfabetizadas, Producto interior bruto per capita,
ingesta diaria de calorías, Habitantes por Km2, Población urbana (%), Tasa de
natalidad.

a) Con Analizar Correlaciones bivariantes, analiza en qué parejas de variables


explicativas hay más correlación. ¿Puede esto generar problemas en el modelo?

Correlaciones

Product Tasa de
o natalida
Habitant interior d (por 1.
es en Personas bruto Ingesta 000
Habitante ciudade Alfabetiza per-capi diaria de habitant
s por Km2 s (%) das (%) ta calorías es)
Habitantes por Km2 1 ,223* ,031 ,201* ,067 -,153
,020 ,753 ,036 ,570 ,113
109 108 107 109 75 109
Habitantes en ciudades ,223* 1 ,650** ,605** ,692** -,629**
(%) ,020 ,000 ,000 ,000 ,000
108 108 107 108 74 108
Personas Alfabetizadas ,031 ,650** 1 ,552** ,682** -,869**
(%) ,753 ,000 ,000 ,000 ,000

107 107 107 107 74 107

Producto interior bruto ,201* ,605** ,552** 1 ,751** -,651**


per-capita ,036 ,000 ,000 ,000 ,000
109 108 107 109 75 109
Ingesta diaria de calorías ,067 ,692** ,682** ,751** 1 -,762**
,570 ,000 ,000 ,000 ,000
75 74 74 75 75 75
Tasa de natalidad (por 1. -,153 -,629** -,869** -,651** -,762** 1
000 habitantes) ,113 ,000 ,000 ,000 ,000
109 108 107 109 75 109
*. La correlación es significante al nivel 0,05 (bilateral).
**. La correlación es significativa al nivel 0,01 (bilateral).

En esta tabla observamos cómo correlacionan las variables tomadas dos a dos. Las
correlaciones altas (en valor absoluto) tales como –0.869 (entre personas alfabetizadas y
tasa de natalidad), -0.762 (entre ingesta de calorías y tasa de natalidad), 0.751 (entre
ingesta de calorías y producto interior bruto) sirven de advertencia: introducir todas las
variables en el modelo dará problemas de multicolinealidad. Además observamos que la
mayor parte de las correlaciones son significativamente (* al 5%) o muy
significativamente (** al 1%) distintas de cero, esto sucede con las correlaciones altas y
también con otras más débiles, debido a un tamaño muestral grande. Aunque la tabla
solo nos muestra resultados por parejas, la presencia de tanta correlación puede originar
que alguna de las variables explicativas pueda a su vez “ser explicada” por las demás
(este aspecto se comprobará más adelante).
La variable que presenta correlaciones más débiles con las demás es habitantes por
Km2 por lo que no se espera que presente problemas de multicolinealidad.

b) Estima el modelo con todas las variables propuestas (MODELO 1). ¿Los signos
son los esperados? ¿Hay variables que te sorprende que no muestren capacidad
explicativa?

Coeficientesa

Coeficientes no
estandarizados
Modelo B Error típ. t Sig.
1 (Constante) 49,594 7,667 6,468 ,000
Habitantes por
,000 ,001 -,405 ,686
Km2
Habitantes en
,123 ,032 3,862 ,000
ciudades (%)
Personas
,163 ,049 3,332 ,001
Alfabetizadas (%)
Producto interior
-9,6E-005 ,000 -,782 ,437
bruto per-capita
Ingesta diaria de
,003 ,002 1,957 ,055
calorías
Tasa de natalidad
(por 1.000 -,303 ,102 -2,955 ,004
habitantes)
a. Variable dependiente: Esperanza de vida femenina

Esperanza de vida femenina ^ = 49,594 –0,0004* Habitantes por Km2 + 0,123


%habitantes en ciudades + 0,163 %personas alfabetizadas – 9,6x10-5 PIB_pc + 0,03
Ingesta de calorías – 0,303 Tasa natalidad

* activando en SPSS el coeficiente se ve con mayor precisión.

Sorprende el signo negativo del coeficiente estimado que multiplica a la variable


PIB_pc, ya que en general los países de mayor riqueza poseen una esperanza de vida
mayor. También sorprende que no muestre capacidad explicativa en este modelo (p-
valor 0,437)
Tampoco muestra capacidad explicativa Ingesta diaria de calorías (con un p-valor
próximo al límite 0,055) lo cual también sorprende dado que los países en los que la
alimentación escasea poseen una esperanza de vida menor.
Estos resultados contrarios a la lógica pueden ser debidos a la presencia de una
multicolinealidad fuerte.
Habitantes por Km2 no muestra capacidad explicativa (p-valor 0,686) pero en este
caso no es de esperar una relación creciente ni decreciente entre la esperanza de vida y
dicha variable.

c) Analiza la multicolinealidad señalando en Estadísticos: diagnósticos de


colinealidad. ¿Afecta la multicolinealidad de forma grave al modelo?.
Comprueba, realizando una regresión auxiliar, uno de los valores de
“tolerancia”.

Coeficientesa

Coeficientes no Estadísticos de
estandarizados colinealidad
Modelo B Error típ. Tolerancia FIV
1 (Constante) 49,594 7,667
Habitantes por Km2 ,000 ,001 ,927 1,079
Habitantes en ciudades
,123 ,032 ,423 2,362
(%)
Personas Alfabetizadas
,163 ,049 ,209 4,790
(%)
Producto interior bruto
-9,6E-005 ,000 ,345 2,899
per-capita
Ingesta diaria de calorías ,003 ,002 ,294 3,396
Tasa de natalidad (por 1.
-,303 ,102 ,165 6,047
000 habitantes)
a. Variable dependiente: Esperanza de vida femenina

Observamos que la variable Habitantes Km2 presenta tolerancia alta (y en consecuencia


FIV bajo) por lo que es la menos problemática en cuanto a multicolinealidad (ya
habíamos visto en las correlaciones que era la que menos correlacionaba con las demás.
Por el contrario, en las demás variables las tolerancias son bajas: la tasa de natalidad
presenta una tolerancia muy baja 0,165 (FIV alto 6,047): es la más problemática en lo
que se refiere a multicolinealidad. También tenemos una tolerancia de 0,209 (FIV de
4,79) en la variable Personas alfabetizadas. Se confirma la presencia de
multicolinealidad en el modelo.

Veamos ahora el grado de multicolinealidad del modelo:


Diagnósticos de colinealidada

Proporciones de la varianza
Tasa
Pers de
ona Prod natali
Habit s ucto Ingest dad
antes Alfa interi a (por
Indice Habit en betiz or diaria 1.000
de (Con antes ciuda ada bruto de habit
Autov condici stant por des s per-c calorí ante
alor ón e) Km2 (%) (%) apita as s)
1 5,225 1,000 ,00 ,00 ,00 ,00 ,00 ,00 ,00
2 ,921 2,381 ,00 ,78 ,00 ,00 ,01 ,00 ,00
3 ,674 2,784 ,00 ,16 ,00 ,00 ,15 ,00 ,01
4 ,113 6,814 ,00 ,00 ,19 ,02 ,58 ,00 ,06
5 ,051 10,119 ,00 ,01 ,72 ,11 ,02 ,01 ,05
6 ,013 19,947 ,00 ,00 ,01 ,36 ,22 ,58 ,13
7 ,003 40,425 ,99 ,04 ,07 ,51 ,00 ,41 ,75
a. Variable dependiente: Esperanza de vida femenina

El número de condición 40,425 indica una multicolinealidad severa (insostenible) lo que


implica que ese conjunto de 6 variables genera problemas en el modelo. En la misma
fila vemos que la variable tasa de natalidad destaca (0.75)

Verifiquemos el valor 0,165 mediante una regresión auxiliar con variable dependiente la
tasa de natalidad y explicativas las demás explicativas:
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,914a ,835 ,822 5,2373
a. Variables predictoras: (Constante), Ingesta diaria de
calorías, Habitantes por Km2, Personas Alfabetizadas (%),
Habitantes en ciudades (%), Producto interior bruto
per-capita

En efecto 0,165 = 1 – 0,835

d) Elimina, justificadamente, alguna(s) variable(s) del modelo. Ten en cuenta para


ello los diagnósticos de colinealidad, el R2 y los t-ratios del modelo resultante.
Verifica que los residuos del modelo resultante no presentan tendencia lineal con
variable(s) omitida(s). Observa diferencias en los errores típicos antes y después
de eliminar variables. (Convendrá hacer diversas pruebas).
Interpreta el modelo finalmente elegido.
Aviso: este fichero no es completo (no se tiene información de todas las variables
para todos los paises). El procedimiento de regresión utiliza solamente los países
para los que tenga información completa. Al eliminar variables puede verse
incrementado el tamaño muestral (por haber más paises con información completa
al intervenir menos variables en el modelo) por lo que no debería sorprender que
con menos variables apareciera un R2 mayor (como sabemos esto sería imposible si
la muestra fuese la misma)

La primera decisión será eliminar del modelo Habitantes por Km2 ya que su falta de
significatividad (y un t-ratio muy bajo –0.4) no es debida a multicolinealidad sino a
que la variable no “explica” a la variable esperanza de vida femenina.

La tasa de natalidad se debería eliminar por ser la variable más problemática en


cuanto a multicolinealidad, comprobando que en el modelo que elijamos los
residuos no detecten su ausencia.

Un modelo aceptable (multicolinealidad moderada, R2 alto, todas las variables


muestran capacidad explicativa, validado por ANOVA sin anomalías en los residuos
y sin que los residuos detecten la ausencia de variables relevantes) podría ser:

- habitantes en ciudades, PIB_pc y personas alfabetizadas


R2 = 0.824, todas significativas individualmente, Número de condición 11´127

Resumen del modelob

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación

1 ,908a ,824 ,819 4,528

a. Variables predictoras: (Constante), Personas Alfabetizadas (%),


Producto interior bruto per-capita, Habitantes en ciudades (%)

b. Variable dependiente: Esperanza de vida femenina

ANOVAb

Suma de
Modelo cuadrados gl Media cuadrática F Sig.

1 Regresión 9911,091 3 3303,697 161,120 ,000a

Residual 2111,975 103 20,505

Total 12023,065 106

a. Variables predictoras: (Constante), Personas Alfabetizadas (%), Producto interior bruto per-
capita, Habitantes en ciudades (%)

b. Variable dependiente: Esperanza de vida femenina


Coeficientesa

Coeficien
tes
Coeficientes no tipificado Estadísticos de
estandarizados s colinealidad

Modelo B Error típ. Beta t Sig. Tolerancia FIV

1 (Constante) 39,498 1,688 23,398 ,000

Habitantes en ,122 ,027 ,275 4,610 ,000 ,480 2,084


ciudades (%)

Producto interior bruto ,000 ,000 ,134 2,463 ,015 ,577 1,732
per-capita

Personas ,285 ,026 ,613 10,928 ,000 ,542 1,845


Alfabetizadas (%)

a. Variable dependiente: Esperanza de vida femenina

Diagnósticos de colinealidada

Proporciones de la varianza

Habitantes Producto
en interior Personas
Autovalore Índice de (Constan ciudades bruto per- Alfabetiz
Modelo Dimensión s condición te) (%) capita adas (%)

1 3,539 1,000 ,00 ,01 ,02 ,00

,377 3,066 ,04 ,00 ,63 ,01

,056 7,928 ,33 ,83 ,29 ,01

,029 11,127 ,63 ,16 ,06 ,98

a. Variable dependiente: Esperanza de vida femenina

El gráfico que se muestra a continuación representa los residuos frente a:

las explicativas (habitantes en ciudades, PIB_pc y personas alfabetizadas)


valores y estimados (predicted)
las eliminadas (tasa natalidad, ingesta de calorias y Habitantes Km2)
No se aprecian anomalías claras(salvo algunos atípicos que se analizarán en el
apartado siguiente)
Los errores típicos en este modelo son 0,027, 0,000 (8.85.10-5) y 0,026 mientras que
en el modelo con todas las variables eran respectivamente 0,032, 0,000 (1,22.10-4) y
0,049, todos ellos superiores a los del modelo de 3 variables.

En este caso la interpretación del modelo estimado es:

Esperanza de vida femenina^= 39,498 + 0,122 Hab_ciudades% + 0,000218 PIB_pc


+ 0,285 personas alfabetizadas(%)

Se estima que el aumento de un 1% de población urbana (a valores constantes de las


demás variables explicativas) produce un aumento de 0,122 años en la esperanza de
vida femenina. Etc.

Otro modelo aceptable: habitantes en ciudades, Ingesta de calorías, Personas


alfabetizadas.
R2= 0,845, todas significativas individualmente, Número de condición 17,759
algo mejor en cuanto a bondad de ajuste y algo peor en cuanto a grado de
multicolinealidad con respecto al anterior.

Hay también modelos de dos variables aceptables: tasa de natalidad y habitantes en


ciudades. R2 =0.81 y número de condición 10,86.

e) Con el MODELO 1: utiliza la opción Guardar Mahalanobis, Cook, Dfbetas y


localiza aquellos países que puedan considerarse atípicos (± 2 y ±3 desviaciones
típicas):
a) Según los valores de las variables explicativas
b) Según su influencia en el conjunto de los beta estimados
c) Según su influencia en el coeficiente que acompaña a la variable % de
personas alfabetizadas.
Y ordena los que consideras candidatos a eliminar de la muestra.

Estadísticos sobre los residuosa

Mínimo Máximo Media Desviación típica N

Valor pronosticado 46,86 82,79 68,70 10,634 74

Valor pronosticado tip. -2,054 1,325 ,000 1,000 74

Error típico de valor ,749 4,330 1,284 ,455 74


pronosticado

Valor pronosticado corregido 45,79 83,03 68,64 10,584 74

Residual -14,574 7,224 ,000 4,240 74

Residuo típ. -3,293 1,632 ,000 ,958 74

Residuo estud. -3,537 1,729 ,000 1,005 74

Residuo eliminado -16,815 8,206 ,059 4,733 74

Residuo eliminado estud. -3,893 1,756 -,007 1,032 74

Dist. de Mahalanobis 1,103 68,882 5,919 7,907 74

Distancia de Cook ,000 ,352 ,019 ,053 74

Valor de influencia centrado ,015 ,944 ,081 ,108 74

a. Variable dependiente: Esperanza de vida femenina

a)La distancia de Mahalanobis ordena, de menor a mayor, las observaciones


según su distancia al vector de medias (variables explicativas). La ordenación es la
misma que la del leverage. Se refiere solamente a las variables explicativas. En este
caso, la media es 5,919 y la desviación típica es 7,907 por lo que 21,733 y 29,640 serán
valores de referencia. Solo Singapur (que presenta la mayor distancia de Mahalanobis,
68,88) supera ambos valores.

b) La distancia de Cook ordena, de menor a mayor, las observaciones según su


influencia en la estimación de los parámetros del modelo (considerados
conjuntamente). La media es 0,019 y la desviación típica 0,053, por lo que los
valores de referencia son: 0,125 y 0,178. De nuevo es Singapur con un valor
0,35 quien presenta mayor influencia. Por lo tanto no se trata de una observación
que beneficia la estimación. También Zambia con 0,27 supera dichos valores.

d) Nos fijaremos en el Dfbeta que corresponde a la variable % de personas


alfabetizadas.

Hacemos descriptivos para obtener su media y su desviación típica.


Estadísticos

DFBETA alfabet

N Válidos 74

Perdidos 35

Media -,0000261

Desv. típ. ,00918286

Valores de referencia –0,01839 y +0,01833 para 2 desviaciones típicas


-0,02757 y + 0,02751 para 3 desviaciones típicas

Destacan Zambia (-0,052), República Centro Africana (0,032) y algo menos


Etiopía (-0,019).

Candidatos a ser eliminados:


En vista del resultado del apartado b) (Cook): 1º Singapur y 2º Zambia

También podría gustarte