Está en la página 1de 28

INSTITUTO DE INVESTIGACIONES DR.

JOSE MARIA LUIS MORA

CURSO – CARTOGRAFIA Y SISTEMAS DE


INFORMACIÓN GEOGRÁFICA
Maestría en Estudios Regionales

Práctica 8. Identificación y extracción de patrones


espaciales del tipo asociaciones: Regresión espacial

PROFS. CLAUDIA CORONEL ENRÍQUEZ, ALONSO TREJO y

ANGÉLICA OROPEZA LUIS

OCTUBRE 2022
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

Introducción

En una primera fase se realizará un análisis exploratorio de datos espaciales


(ESDA por sus siglas en inglés), se contrastarán datos censales
georreferenciados de la ciudad de San Cristóbal de las Casas en Chiapas. Se
utilizarán mapas de coropletas mostrando la distribución espacial de
percentiles de la variable % de hogares indígenas del censo del año 2000, se
elaborarán mapas LISA que muestran la autocorrelación espacial y diagramas
de dispersión del índice de Moran para probar la presencia de
heterogeneidad espacial regional.

Finalmente utilizaremos estos mismos datos para aplicar econometría


espacial, en particular modelos de regresión espacial (conocidos también
como modelos autoregresivos) para intentar explicar la concentración de la
población indígena en dicha ciudad.

Esta práctica considera la estimación de una variable, empleando además de


las variables explicativas, la transformación de la variable dependiente a una
matriz de promedios ponderados por vecindario. El modelo de regresión es
resuelto mediante el método de máxima verosimilitud (MV).

Formalmente, el modelo de regresión espacial es:

donde

y es un vector de observaciones respecto de la variable dependiente,

ρWy es la variable dependiente transformada (filtrada espacialmente),

X es una matriz de observaciones respecto de las variables explicativas,

ε es un vector del término error, y

ρ y β son parámetros.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
Una ventaja que ofrecen los modelos autoregresivos es que la interpretación
de los coeficientes de regresión es idéntica a los modelos de mínimos
cuadrados ordinales clásicos, cada coeficiente indica la dirección e intensidad
de la relación entre las variables explicativas y la dependiente.

Dentro de la tradición de los estudios urbanos, un tema clásico es la


segregación residencial, fenómeno que dependiendo de los autores tiene
tres dimensiones:

La localización en ciertas zonas de la ciudad por parte de grupos sociales


específicos.

La conformación de amplias zonas con alta homogeneidad, es decir la escala


puede ser un tema relevante.

La percepción subjetiva de quienes viven en barrios segregados, o bien de las


personas que viven fuera de ellos.

Las dos primeras dimensiones son objetivas, es decir observables y existe una
larga tradición de investigación sobre segregación que buscaba establecer la
extensión e intensidad del fenómeno.

Las asociaciones son un tipo especial de patrones que ha sido abordado


tradicionalmente por la estadística y la computación. Una asociación
corresponde al grado y forma en que una o más variables tienen una relación
causal con al menos otra variable, la cual se denomina como variable de
respuesta o variable dependiente. El grado de asociación se explora
mediante varios indicadores entre los cuales pueden citarse, el coeficiente de
correlación y la proporción de varianza explicada o coeficiente R2. La forma
de la asociación queda definida por una función f(x) genérica que puede ser
de carácter lineal o no lineal.

Tradicionalmente, se estudiaban las asociaciones sin considerar el efecto de


la autocorrelación espacial o temporal, ahora se sabe que una proporción
importante de la varianza de cualquier variable geográfica corresponde a la
estructura o autocorrelación espacial de la misma variable y a la
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
correspondiente estructura espacial de las variables explicativas, esto nos
lleva a redefinir la metodología general de regresiones considerando la
autocorrelación espacial como otra variable explicativa.

Una vez definida la función que describe la forma de la asociación, es


importante definir cuál es el desempeño del modelo mediante parámetros
que nos den idea de qué tan alejada está la estimación de los valores
observados, normalmente se usa el coeficiente R2, pero hay otros
coeficientes indicadores como el valor esperado del error que debe ser
cercano a 0.

Respecto de la varianza residual o varianza no explicada ε, se parte del


supuesto de que esta debe ser constante, sin embargo, se ha encontrado que
en la mayoría de los casos el efecto de la autocorrelación espacial afecta
incluso al término de error residual, esta propiedad en la que la varianza
residual varía respecto de otra variable o bien que presenta deriva, se conoce
como heteroscedasticidad y es otro indicador de la bondad de ajuste del
modelo de regresión empleado.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

Objetivo

Los alumnos podrán especificar un modelo de regresión clásico e


interpretar la salida estadística que permite la elección del método más
adecuado de regresión.

Los alumnos deberán interpretar las diferentes secciones de la salida de


los modelos autoregresivos así como los coeficientes estimados.

Datos

Lo primero que haremos es descargar los archivos necesarios para el


ejercicio.

-Trabajaremos con datos en formato shapefile. San Cristóbal.zip, 1645


manzanas, variables demográficas y socioeconómicas del Censo de 2000.

-70780001.shp Manzanas de San Cristóbal de Las Casas.

-Thies_sc_valid.shp (Polígonos de Thiessen de las manzanas de San


Cristóbal (insumo para calcular vecindades, con una selección de las
manzanas que están pobladas). Llave principal Ploy_id

-Siluetsc_2000.shp Envolvente de la mancha urbana.

Datos_sc_2000.dbf Base de datos con información censal a nivel de


manzana. (Diccionario de datos.xls

Variables para comparar:

-PHLI Porcentaje de hogares indígenas.

-SERVPUB Necesidades básicas insatisfechas promedio de la manzana


(índice de 0 a 8, que indica carencia de servicios públicos

-ESCJEF Escolaridad promedio de jefes de hogar.


INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
-HACIN Hacinamiento. Promedio de personas por dormitorio en los
hogares.

-IOCUP Índice de ocupación, porcentaje de ocupados en trabajos de baja


calificación.

Método:

Al enfrentar un problema de análisis en general, debemos en primera


instancia familiarizarnos con los datos y/o hacer las transformaciones
necesarias para poder incorporarlos a la fase de modelado. Cuando
trabajamos con datos espaciales a esta fase se le llama análisis
exploratorio de datos espaciales (ESDA por sus siglas en inglés).
Normalmente la secuencia lógica incorpora tres pasos antes del modelado
espacial:

Visualización de patrones relevantes. Se hace simultáneamente la


aproximación a la distribución estadística y espacial de los datos a través
del mapeo temático.

Identificación de patrones relevantes. Se realizan pruebas de hipótesis


respecto a la presencia de autocorrelación espacial, usualmente mediante
estadísticos globales.

Caracterización de los patrones. Aplicación de métodos locales para


definir el grado de agregación, la extensión y localización de
conglomerados espaciales.

Finalmente, la explicación de los patrones a través de métodos de


modelado, en este caso implementaremos regresión espacial, es decir la
asociación entre variables.

Actividad 1. Preparación de los datos:

1. Extracción de patrones (regiones)

1.1 Pesos
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
Un insumo básico para analizar la autocorrelación espacial es la matriz de
pesos, los principales métodos de generación de pesos son: a) Distancias
b) n-vecinos c) Adyacencias.

En nuestro caso es relevante la adyacencia de las manzanas, pero la


geometría de la ciudad impide determinar las vecindades, para hacerlo es
necesario generar polígonos de Thiessen.

a) Generación de polígonos de Thiessen (prueba de concepto). Los


polígonos de Thiessen son útiles para aproximarnos a las relaciones
topológicas de los elementos geográficos que no se tocan, para calcularlos
el insumo necesario son los centroides (o puntos centrales) de los datos.

1) Cargaremos el archivo de las manzanas de San Cristóbal de las Casas.


Ahora daremos clic derecho al mapa, escogeremos la opción Shape
Centers y Save Centroids. Deberemos crear un archivo llamado
centroides.shp a partir de las manzanas.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

2) Cargaremos el nuevo shapefile creado. A partir de ahí, clic derecho en


el mapa y Thiessen Polygons>Save Thiessen Polygons. Crear el archivo con
nombre p_thiessen.shp.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

Existen otros métodos para estimar "mejores" centroides, en GeoDa se


calculan a partir de las coordenadas extremas de cada objeto, por lo
tanto, los objetos complejos, de forma carpichosa o muy irregulares
suelen conducir a errores.

Geoda generó una nueva capa de polígonos en los que cada uno está en
contacto con sus vecinos. Abrir la capa recién creada y en otra ventana el
mapa de las manzanas originales.

¿Los polígonos de Thiessen expresan correctamente las relaciones de


vecindad?

b) Creación de los archivos de pesos.

Cargarás en Geoda el archivo Thiessen_SC_valid. En el menú tools,


tomando como datos de entrada el archivo Thies_SC_valid.shp, crear una
matriz de pesos por contigüidad reina de orden 1 y 2 (incluyendo los
órdenes inferiores en el orden 2). No olvidar declarar identificador a la
variable POLY_ID, esto permite vincular cada objeto de la base con sus
vecinos. Después de presionar el botón Create, se establece el nombre del
archivo con extensión .GAL
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

1.2 Mapas de percentiles

Abrir el archivo Thies_sc_valid.shp (usar CLVMZ como variable llave).


Crear mapas de percentiles, quantiles y de caja con la variable PHLI para
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
visualizar la distribución de los datos en categorías cualitativas
(percentiles) y explorar patrones espaciales como aglomerados (clusters)
de unidades censales que presenten datos en el mismo percentil.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

¿Cuál mapa nos da más información acerca del comportamiento de la


variable?

1.3 Mapas LISA

Los Indicadores Locales de Autocorrelación Espacial (LISA por sus siglas en


inglés) son una adaptación del estadístico global de Moran "I", y sirven
para probar la significancia estadística de los patrones que identificamos
mediante la visualización.

Usar icono de Univariate LISA o en el menú Space buscar la misma opción

Seleccionar la matriz de pesos recién creada

Seleccionar la variable PHLI

Seleccionar la opción mapa de conglomerados

Evaluar permutación y niveles de significancia del mapa LISA

Copia una imagen de tu mapa LISA


INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

1.4 Diagramas de dispersión de Moran

Usar icono de Univariate Local Moran´s I buscar la misma opción

Seleccionar la matriz de pesos creada arriba.

Seleccionar la variable PHLI


INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

Evaluar diferentes opciones de permutaciones

Actividad 2. Análisis de regresión.


INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
La econometría clásica busca encontrar relaciones entre algún fenómeno
captado a través de variables y un conjunto de atributos de las entidades
de interés, en el caso particular de los datos espaciales se puede probar la
hipótesis de la presencia de autocorrelación espacial. Parar ello se han
desarrollado varios modelos, regresión de errores espaciales y modelo
autorregresivo.

Asignar PHLI como variable dependiente.

Las variables independientes serán:

ESCJEF (Escolaridad promedio del jefe de hogar)

SERVPUB (Necesidades básicas insatisfechas)

HACIN (Promedio de ocupantes por dormitorio)

IOCUP (Índice de ocupación, capta porcentaje de ocupados en trabajos de


baja remuneración)

R_DEP Relación de dependencia infantil

PDEC4 Porcentaje de hogares en los deciles de ingreso 1 a 4.

Se correrá la regresión clásica con PHLI como variable dependiente


(Porcentaje de hogares indígenas) y las variables ESCJEF, SERVPUB,
HACIN1, IOCUP como variables explicativas. Para ello, señalar en el menú
Regression.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

Correr la regresión como se muestra en la imagen, asegurándose de


incluir la matriz de pesos de orden 1. Antes de dar OK, presionar el botón
Save to Table para salvar en los campos los valores predichos y los
residuales, dar OK.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

Observar en el cuadro de resultados de la estimación el ajuste de


regresión dado por R2, Log Likelihood (LL) y AIC. Anotar el valor de los dos
últimos parámetros ya que servirán como comparativos respecto de la
regresión espacial, en el caso de LL entre mayor sea el valor, el ajuste es
mejor y respecto de AIC es lo contrario. Además de los resultados, la
ventana permite ver una serie de diagnósticos de regresión, el primero
considera el número de condición de multicolinearidad, en otras palabras,
evalúa si existe redundancia entre las variables explicativas, el segundo es
una prueba de normalidad en el error, la cual, de ser significativa indicaría
no normalidad, por último, las pruebas para heteroscedasticidad evalúan
si se presenta una deriva en la varianza del error.

¿Qué puede decirse respecto de los diagnósticos para el modelo de


regresión clásica? ¿Las pruebas son significativas?

2.1 Valores predichos y residuales

Obtener el diagrama de dispersión de Moran de los valores predichos


empleando la variable OLS_PREDIC.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

¿Existe autocorrelación espacial significativa en el modelo?

Obtener el diagrama de dispersión de Morán de los valores residuales


empleando la variable OLS_RESIDU.

¿Hay autocorrelación espacial residual significativa?


INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
2.2 Diagnóstico de la dependencia espacial y el proceso de selección del
modelo de regresión

Siguiendo la secuencia del reporte de regresión clásica, se presentan un


conjunto de pruebas para la presencia de dependencia espacial. Si bien el
estadístico de Moran es eficaz para probar la autocorrelación espacial, no
permite sugerir una alternativa de modelación, para ello se emplearán
pruebas de Multiplicadores de Lagrange.

¿El índice de Morán prueba la presencia de autocorrelación espacial en la


variable dependiente?

Posteriormente se muestran 5 pruebas de multiplicador de Lagrange (LM,


siglas en inglés), las primeras 2, LM-lag y Robust LM-lag, corresponden al
modelo de regresión espacial como alternativa. Las siguientes dos, LM-
error y Robust LM-error corresponden al modelo de regresión espacial del
error. La última prueba, LM-SARMA, se refiere a un modelo de mayor
orden que involucra las dos alternativas anteriores, este modelo no es
incluido en GEODA, pero suponemos que cuando ninguno de los dos
modelos anteriores es significativo, la prueba LM-SARMA tenderá a serlo.
Una guía práctica para la aplicación del modelo de regresión más
adecuado se presenta a continuación en la imagen.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

Proceso de decisión para aplicar un modelo de regresión en GEODA.

Para seleccionar la alternativa más adecuada para la regresión, se debe


seguir una serie de reglas, la primera es que, si ninguna de las pruebas
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
que considera la autocorrelación espacial ya sea LM-lag o LM-error es
significativa, se debe modelar con la regresión clásica de mínimos
cuadrados. Si ambas pruebas, LM-lag y LM-error son significativas,
debemos pasar a las pruebas robustas correspondientes, de éstas la que
tenga mayor significancia corresponderá a la alternativa a considerar.

A partir de la aplicación del proceso de decisión.

¿cuál es el modelo más adecuado?

2.3 Estimación por el método de Máxima Verosimilitud para el modelo de


regresión espacial

Llamar la aplicación para regresión desde el menú Regression y especificar


el nombre de salida del archivo como clasica.rtf, dar clic en OK y
completar el cuadro de dialogo como se muestra en la imagen. No olvidar
especificar la matriz de pesos creada ni el método spatial lag.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

Correr el modelo y salvar antes de oprimir OK. A continuación, aparecerá


un cuadro de dialogo para nombrar los campos donde se quiere guardar
los valores predichos por el modelo, el error de predicción (observado -
predicho) y los residuales (el término ε del modelo de regresión espacial).
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

Asignar los nombres tal cual aparecen en la imagen y dar clic en OK para
ver los resultados de la estimación.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
Observar el ajuste del modelo espacial, comparativamente con el modelo
clásico ¿cuáles son los valores para LL y AIC?, ¿mejoró el ajuste? Observar
los valores de los coeficientes de las variables, ¿son los mismos que para
la regresión clásica?

3.1 Valores predichos y residuales

Una vez que se salvaron las estimaciones del modelo de regresión espacial
junto con los residuales y el error de predicción debemos confirmar que
efectivamente la heteroscedasticidad en el término del error no
corresponde a la autocorrelación espacial de la variable PHLI, para ello
debemos salvar el shapefile como un nuevo shapefile el cual tendrá el
nombre de resultlag.shp. Abrir el shapefile resultlag.shp y construir el
diagrama de dispersión de Moran para los residuales, ¿Qué nos indica el
índice de Moran? ¿Hay autocorrelación espacial en la varianza residual?
¿Qué significa lo observado?

Para confirmar que en el modelo de regresión espacial se ha incluido la


autocorrelación espacial de la variable PHLI obtener el diagrama de
dispersión de Morán para los valores predichos.
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA

¿Qué diferencia se encuentra en el índice I?

¿Respecto de los residuales? Comparando con la regresión clásica, ¿crees


que el modelo alternativo incorpora más efectivamente la autocorrelación
espacial de la variable dependiente? Argumenta tu respuesta.

¿Cómo se incluye la autocorrelación espacial de la variable dependiente


en el modelo de regresión?

¿A qué crees que se deba la presencia de heteroscedasticidad en el


término de error ε, después de aplicar el modelo de regresión espacial?

Realiza el mismo modelo autoregresivo, pero con los pesos de orden 2 y 3.

De todos los modelos corridos ¿Cuál modelo tiene mejor bondad de


ajuste?

¿Cómo interpretas los coeficientes autoregresivos?

Referencias y páginas de interés recomendadas

Hagget (1965). Locational Analysis in Human Geography. London: Edward


Arnold. 365 pp.

Anselin (2005). Exploring Spatial Data with GeodaTM: A Workbook. Spatial


Analysis Laboratory. Department of Geography. University of Illinois,
Urbana – Champaign. 244 pp.

http://statgen.iop.kcl.ac.uk/bgim/mle/sslike_1.html. Maximum Likelihood


Estimation Primer

También podría gustarte