Practica8 MER

INSTITUTO DE INVESTIGACIONES DR.
JOSE MARIA LUIS MORA
CURSO – CARTOGRAFIA Y SISTEMAS DE

INFORMACIÓN GEOGRÁFICA
Maestría en Estudios Regionales
Práctica 8. Identificación y extracción de patrones

espaciales del tipo asociaciones: Regresión espacial
PROFS. CLAUDIA CORONEL ENRÍQUEZ, ALONSO TREJO y
ANGÉLICA OROPEZA LUIS
OCTUBRE 2022
INSTITUTO DE INVESTIGACIONES DR. JOSE MARIA LUIS MORA
Introducción
En una primera fase se realizará un análisis exploratorio de datos espaciales

(ESDA por sus siglas en inglés), se contrastarán datos censales
georreferenciados de la ciudad de San Cristóbal de las Casas en Chiapas. Se
utilizarán mapas de coropletas mostrando la distribución espacial de
percentiles de la variable % de hogares indígenas del censo del año 2000, se
elaborarán mapas LISA que muestran la autocorrelación espacial y diagramas
de dispersión del índice de Moran para probar la presencia de
heterogeneidad espacial regional.
Finalmente utilizaremos estos mismos datos para aplicar econometría

espacial, en particular modelos de regresión espacial (conocidos también
como modelos autoregresivos) para intentar explicar la concentración de la
población indígena en dicha ciudad.
Esta práctica considera la estimación de una variable, empleando además de

las variables explicativas, la transformación de la variable dependiente a una
matriz de promedios ponderados por vecindario. El modelo de regresión es
resuelto mediante el método de máxima verosimilitud (MV).
Formalmente, el modelo de regresión espacial es:
donde
y es un vector de observaciones respecto de la variable dependiente,
ρWy es la variable dependiente transformada (filtrada espacialmente),
X es una matriz de observaciones respecto de las variables explicativas,
ε es un vector del término error, y
ρ y β son parámetros.
Una ventaja que ofrecen los modelos autoregresivos es que la interpretación
de los coeficientes de regresión es idéntica a los modelos de mínimos
cuadrados ordinales clásicos, cada coeficiente indica la dirección e intensidad
de la relación entre las variables explicativas y la dependiente.
Dentro de la tradición de los estudios urbanos, un tema clásico es la

segregación residencial, fenómeno que dependiendo de los autores tiene
tres dimensiones:
La localización en ciertas zonas de la ciudad por parte de grupos sociales

específicos.
La conformación de amplias zonas con alta homogeneidad, es decir la escala

puede ser un tema relevante.
La percepción subjetiva de quienes viven en barrios segregados, o bien de las

personas que viven fuera de ellos.
Las dos primeras dimensiones son objetivas, es decir observables y existe una
larga tradición de investigación sobre segregación que buscaba establecer la
extensión e intensidad del fenómeno.
Las asociaciones son un tipo especial de patrones que ha sido abordado

tradicionalmente por la estadística y la computación. Una asociación
corresponde al grado y forma en que una o más variables tienen una relación
causal con al menos otra variable, la cual se denomina como variable de
respuesta o variable dependiente. El grado de asociación se explora
mediante varios indicadores entre los cuales pueden citarse, el coeficiente de
correlación y la proporción de varianza explicada o coeficiente R2. La forma
de la asociación queda definida por una función f(x) genérica que puede ser
de carácter lineal o no lineal.
Tradicionalmente, se estudiaban las asociaciones sin considerar el efecto de

la autocorrelación espacial o temporal, ahora se sabe que una proporción
importante de la varianza de cualquier variable geográfica corresponde a la
estructura o autocorrelación espacial de la misma variable y a la
correspondiente estructura espacial de las variables explicativas, esto nos
lleva a redefinir la metodología general de regresiones considerando la
autocorrelación espacial como otra variable explicativa.
Una vez definida la función que describe la forma de la asociación, es

importante definir cuál es el desempeño del modelo mediante parámetros
que nos den idea de qué tan alejada está la estimación de los valores
observados, normalmente se usa el coeficiente R2, pero hay otros
coeficientes indicadores como el valor esperado del error que debe ser
cercano a 0.
Respecto de la varianza residual o varianza no explicada ε, se parte del

supuesto de que esta debe ser constante, sin embargo, se ha encontrado que
en la mayoría de los casos el efecto de la autocorrelación espacial afecta
incluso al término de error residual, esta propiedad en la que la varianza
residual varía respecto de otra variable o bien que presenta deriva, se conoce
como heteroscedasticidad y es otro indicador de la bondad de ajuste del
modelo de regresión empleado.
Objetivo
Los alumnos podrán especificar un modelo de regresión clásico e

interpretar la salida estadística que permite la elección del método más
adecuado de regresión.
Los alumnos deberán interpretar las diferentes secciones de la salida de

los modelos autoregresivos así como los coeficientes estimados.
Datos
Lo primero que haremos es descargar los archivos necesarios para el

ejercicio.
-Trabajaremos con datos en formato shapefile. San Cristóbal.zip, 1645

manzanas, variables demográficas y socioeconómicas del Censo de 2000.
-70780001.shp Manzanas de San Cristóbal de Las Casas.
-Thies_sc_valid.shp (Polígonos de Thiessen de las manzanas de San

Cristóbal (insumo para calcular vecindades, con una selección de las
manzanas que están pobladas). Llave principal Ploy_id
-Siluetsc_2000.shp Envolvente de la mancha urbana.
Datos_sc_2000.dbf Base de datos con información censal a nivel de

manzana. (Diccionario de datos.xls
Variables para comparar:
-PHLI Porcentaje de hogares indígenas.
-SERVPUB Necesidades básicas insatisfechas promedio de la manzana

(índice de 0 a 8, que indica carencia de servicios públicos
-ESCJEF Escolaridad promedio de jefes de hogar.

-HACIN Hacinamiento. Promedio de personas por dormitorio en los
hogares.
-IOCUP Índice de ocupación, porcentaje de ocupados en trabajos de baja

calificación.
Método:
Al enfrentar un problema de análisis en general, debemos en primera

instancia familiarizarnos con los datos y/o hacer las transformaciones
necesarias para poder incorporarlos a la fase de modelado. Cuando
trabajamos con datos espaciales a esta fase se le llama análisis
exploratorio de datos espaciales (ESDA por sus siglas en inglés).
Normalmente la secuencia lógica incorpora tres pasos antes del modelado
espacial:
Visualización de patrones relevantes. Se hace simultáneamente la

aproximación a la distribución estadística y espacial de los datos a través
del mapeo temático.
Identificación de patrones relevantes. Se realizan pruebas de hipótesis

respecto a la presencia de autocorrelación espacial, usualmente mediante
estadísticos globales.
Caracterización de los patrones. Aplicación de métodos locales para

definir el grado de agregación, la extensión y localización de
conglomerados espaciales.
Finalmente, la explicación de los patrones a través de métodos de

modelado, en este caso implementaremos regresión espacial, es decir la
asociación entre variables.
Actividad 1. Preparación de los datos:
1. Extracción de patrones (regiones)
1.1 Pesos
Un insumo básico para analizar la autocorrelación espacial es la matriz de
pesos, los principales métodos de generación de pesos son: a) Distancias
b) n-vecinos c) Adyacencias.
En nuestro caso es relevante la adyacencia de las manzanas, pero la

geometría de la ciudad impide determinar las vecindades, para hacerlo es
necesario generar polígonos de Thiessen.
a) Generación de polígonos de Thiessen (prueba de concepto). Los

polígonos de Thiessen son útiles para aproximarnos a las relaciones
topológicas de los elementos geográficos que no se tocan, para calcularlos
el insumo necesario son los centroides (o puntos centrales) de los datos.
1) Cargaremos el archivo de las manzanas de San Cristóbal de las Casas.

Ahora daremos clic derecho al mapa, escogeremos la opción Shape
Centers y Save Centroids. Deberemos crear un archivo llamado
centroides.shp a partir de las manzanas.
2) Cargaremos el nuevo shapefile creado. A partir de ahí, clic derecho en

el mapa y Thiessen Polygons>Save Thiessen Polygons. Crear el archivo con
nombre p_thiessen.shp.
Existen otros métodos para estimar "mejores" centroides, en GeoDa se

calculan a partir de las coordenadas extremas de cada objeto, por lo
tanto, los objetos complejos, de forma carpichosa o muy irregulares
suelen conducir a errores.
Geoda generó una nueva capa de polígonos en los que cada uno está en
contacto con sus vecinos. Abrir la capa recién creada y en otra ventana el
mapa de las manzanas originales.
¿Los polígonos de Thiessen expresan correctamente las relaciones de

vecindad?
b) Creación de los archivos de pesos.
Cargarás en Geoda el archivo Thiessen_SC_valid. En el menú tools,

tomando como datos de entrada el archivo Thies_SC_valid.shp, crear una
matriz de pesos por contigüidad reina de orden 1 y 2 (incluyendo los
órdenes inferiores en el orden 2). No olvidar declarar identificador a la
variable POLY_ID, esto permite vincular cada objeto de la base con sus
vecinos. Después de presionar el botón Create, se establece el nombre del
archivo con extensión .GAL
1.2 Mapas de percentiles
Abrir el archivo Thies_sc_valid.shp (usar CLVMZ como variable llave).

Crear mapas de percentiles, quantiles y de caja con la variable PHLI para
visualizar la distribución de los datos en categorías cualitativas
(percentiles) y explorar patrones espaciales como aglomerados (clusters)
de unidades censales que presenten datos en el mismo percentil.
¿Cuál mapa nos da más información acerca del comportamiento de la

variable?
1.3 Mapas LISA
Los Indicadores Locales de Autocorrelación Espacial (LISA por sus siglas en

inglés) son una adaptación del estadístico global de Moran "I", y sirven
para probar la significancia estadística de los patrones que identificamos
mediante la visualización.
Usar icono de Univariate LISA o en el menú Space buscar la misma opción
Seleccionar la matriz de pesos recién creada
Seleccionar la variable PHLI
Seleccionar la opción mapa de conglomerados
Evaluar permutación y niveles de significancia del mapa LISA
Copia una imagen de tu mapa LISA

1.4 Diagramas de dispersión de Moran
Usar icono de Univariate Local Moran´s I buscar la misma opción
Seleccionar la matriz de pesos creada arriba.
Seleccionar la variable PHLI

Evaluar diferentes opciones de permutaciones
Actividad 2. Análisis de regresión.

La econometría clásica busca encontrar relaciones entre algún fenómeno
captado a través de variables y un conjunto de atributos de las entidades
de interés, en el caso particular de los datos espaciales se puede probar la
hipótesis de la presencia de autocorrelación espacial. Parar ello se han
desarrollado varios modelos, regresión de errores espaciales y modelo
autorregresivo.
Asignar PHLI como variable dependiente.
Las variables independientes serán:
ESCJEF (Escolaridad promedio del jefe de hogar)
SERVPUB (Necesidades básicas insatisfechas)
HACIN (Promedio de ocupantes por dormitorio)
IOCUP (Índice de ocupación, capta porcentaje de ocupados en trabajos de

baja remuneración)
R_DEP Relación de dependencia infantil
PDEC4 Porcentaje de hogares en los deciles de ingreso 1 a 4.
Se correrá la regresión clásica con PHLI como variable dependiente

(Porcentaje de hogares indígenas) y las variables ESCJEF, SERVPUB,
HACIN1, IOCUP como variables explicativas. Para ello, señalar en el menú
Regression.
Correr la regresión como se muestra en la imagen, asegurándose de

incluir la matriz de pesos de orden 1. Antes de dar OK, presionar el botón
Save to Table para salvar en los campos los valores predichos y los
residuales, dar OK.
Observar en el cuadro de resultados de la estimación el ajuste de

regresión dado por R2, Log Likelihood (LL) y AIC. Anotar el valor de los dos
últimos parámetros ya que servirán como comparativos respecto de la
regresión espacial, en el caso de LL entre mayor sea el valor, el ajuste es
mejor y respecto de AIC es lo contrario. Además de los resultados, la
ventana permite ver una serie de diagnósticos de regresión, el primero
considera el número de condición de multicolinearidad, en otras palabras,
evalúa si existe redundancia entre las variables explicativas, el segundo es
una prueba de normalidad en el error, la cual, de ser significativa indicaría
no normalidad, por último, las pruebas para heteroscedasticidad evalúan
si se presenta una deriva en la varianza del error.
¿Qué puede decirse respecto de los diagnósticos para el modelo de

regresión clásica? ¿Las pruebas son significativas?
2.1 Valores predichos y residuales
Obtener el diagrama de dispersión de Moran de los valores predichos

empleando la variable OLS_PREDIC.
¿Existe autocorrelación espacial significativa en el modelo?
Obtener el diagrama de dispersión de Morán de los valores residuales

empleando la variable OLS_RESIDU.
¿Hay autocorrelación espacial residual significativa?

2.2 Diagnóstico de la dependencia espacial y el proceso de selección del
modelo de regresión
Siguiendo la secuencia del reporte de regresión clásica, se presentan un

conjunto de pruebas para la presencia de dependencia espacial. Si bien el
estadístico de Moran es eficaz para probar la autocorrelación espacial, no
permite sugerir una alternativa de modelación, para ello se emplearán
pruebas de Multiplicadores de Lagrange.
¿El índice de Morán prueba la presencia de autocorrelación espacial en la

variable dependiente?
Posteriormente se muestran 5 pruebas de multiplicador de Lagrange (LM,

siglas en inglés), las primeras 2, LM-lag y Robust LM-lag, corresponden al
modelo de regresión espacial como alternativa. Las siguientes dos, LM-
error y Robust LM-error corresponden al modelo de regresión espacial del
error. La última prueba, LM-SARMA, se refiere a un modelo de mayor
orden que involucra las dos alternativas anteriores, este modelo no es
incluido en GEODA, pero suponemos que cuando ninguno de los dos
modelos anteriores es significativo, la prueba LM-SARMA tenderá a serlo.
Una guía práctica para la aplicación del modelo de regresión más
adecuado se presenta a continuación en la imagen.
Proceso de decisión para aplicar un modelo de regresión en GEODA.
Para seleccionar la alternativa más adecuada para la regresión, se debe

seguir una serie de reglas, la primera es que, si ninguna de las pruebas
que considera la autocorrelación espacial ya sea LM-lag o LM-error es
significativa, se debe modelar con la regresión clásica de mínimos
cuadrados. Si ambas pruebas, LM-lag y LM-error son significativas,
debemos pasar a las pruebas robustas correspondientes, de éstas la que
tenga mayor significancia corresponderá a la alternativa a considerar.
A partir de la aplicación del proceso de decisión.
¿cuál es el modelo más adecuado?
2.3 Estimación por el método de Máxima Verosimilitud para el modelo de

regresión espacial
Llamar la aplicación para regresión desde el menú Regression y especificar

el nombre de salida del archivo como clasica.rtf, dar clic en OK y
completar el cuadro de dialogo como se muestra en la imagen. No olvidar
especificar la matriz de pesos creada ni el método spatial lag.
Correr el modelo y salvar antes de oprimir OK. A continuación, aparecerá

un cuadro de dialogo para nombrar los campos donde se quiere guardar
los valores predichos por el modelo, el error de predicción (observado -
predicho) y los residuales (el término ε del modelo de regresión espacial).
Asignar los nombres tal cual aparecen en la imagen y dar clic en OK para
ver los resultados de la estimación.
Observar el ajuste del modelo espacial, comparativamente con el modelo
clásico ¿cuáles son los valores para LL y AIC?, ¿mejoró el ajuste? Observar
los valores de los coeficientes de las variables, ¿son los mismos que para
la regresión clásica?
3.1 Valores predichos y residuales
Una vez que se salvaron las estimaciones del modelo de regresión espacial
junto con los residuales y el error de predicción debemos confirmar que
efectivamente la heteroscedasticidad en el término del error no
corresponde a la autocorrelación espacial de la variable PHLI, para ello
debemos salvar el shapefile como un nuevo shapefile el cual tendrá el
nombre de resultlag.shp. Abrir el shapefile resultlag.shp y construir el
diagrama de dispersión de Moran para los residuales, ¿Qué nos indica el
índice de Moran? ¿Hay autocorrelación espacial en la varianza residual?
¿Qué significa lo observado?
Para confirmar que en el modelo de regresión espacial se ha incluido la

autocorrelación espacial de la variable PHLI obtener el diagrama de
dispersión de Morán para los valores predichos.
¿Qué diferencia se encuentra en el índice I?
¿Respecto de los residuales? Comparando con la regresión clásica, ¿crees

que el modelo alternativo incorpora más efectivamente la autocorrelación
espacial de la variable dependiente? Argumenta tu respuesta.
¿Cómo se incluye la autocorrelación espacial de la variable dependiente

en el modelo de regresión?
¿A qué crees que se deba la presencia de heteroscedasticidad en el

término de error ε, después de aplicar el modelo de regresión espacial?
Realiza el mismo modelo autoregresivo, pero con los pesos de orden 2 y 3.
De todos los modelos corridos ¿Cuál modelo tiene mejor bondad de

ajuste?
¿Cómo interpretas los coeficientes autoregresivos?
Referencias y páginas de interés recomendadas
Hagget (1965). Locational Analysis in Human Geography. London: Edward

Arnold. 365 pp.
Anselin (2005). Exploring Spatial Data with GeodaTM: A Workbook. Spatial

Analysis Laboratory. Department of Geography. University of Illinois,
Urbana – Champaign. 244 pp.
http://statgen.iop.kcl.ac.uk/bgim/mle/sslike_1.html. Maximum Likelihood

Estimation Primer

Practica8 MER

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Practica8 MER

Cargado por

Copyright:

Formatos disponibles

INSTITUTO DE INVESTIGACIONES DR.

JOSE MARIA LUIS MORA

CURSO – CARTOGRAFIA Y SISTEMAS DE

Práctica 8. Identificación y extracción de patrones

PROFS. CLAUDIA CORONEL ENRÍQUEZ, ALONSO TREJO y

ANGÉLICA OROPEZA LUIS

En una primera fase se realizará un análisis exploratorio de datos espaciales

Finalmente utilizaremos estos mismos datos para aplicar econometría

Esta práctica considera la estimación de una variable, empleando además de

Formalmente, el modelo de regresión espacial es:

y es un vector de observaciones respecto de la variable dependiente,

ρWy es la variable dependiente transformada (filtrada espacialmente),

X es una matriz de observaciones respecto de las variables explicativas,

ε es un vector del término error, y

Dentro de la tradición de los estudios urbanos, un tema clásico es la

La localización en ciertas zonas de la ciudad por parte de grupos sociales

La conformación de amplias zonas con alta homogeneidad, es decir la escala

La percepción subjetiva de quienes viven en barrios segregados, o bien de las

Las asociaciones son un tipo especial de patrones que ha sido abordado

Tradicionalmente, se estudiaban las asociaciones sin considerar el efecto de

Una vez definida la función que describe la forma de la asociación, es

Respecto de la varianza residual o varianza no explicada ε, se parte del

Los alumnos podrán especificar un modelo de regresión clásico e

Los alumnos deberán interpretar las diferentes secciones de la salida de

Lo primero que haremos es descargar los archivos necesarios para el

-Trabajaremos con datos en formato shapefile. San Cristóbal.zip, 1645

-70780001.shp Manzanas de San Cristóbal de Las Casas.

-Thies_sc_valid.shp (Polígonos de Thiessen de las manzanas de San

-Siluetsc_2000.shp Envolvente de la mancha urbana.

Datos_sc_2000.dbf Base de datos con información censal a nivel de

Variables para comparar:

-PHLI Porcentaje de hogares indígenas.

-SERVPUB Necesidades básicas insatisfechas promedio de la manzana

-ESCJEF Escolaridad promedio de jefes de hogar.

-IOCUP Índice de ocupación, porcentaje de ocupados en trabajos de baja

Al enfrentar un problema de análisis en general, debemos en primera

Visualización de patrones relevantes. Se hace simultáneamente la

Identificación de patrones relevantes. Se realizan pruebas de hipótesis

Caracterización de los patrones. Aplicación de métodos locales para

Finalmente, la explicación de los patrones a través de métodos de

Actividad 1. Preparación de los datos:

1. Extracción de patrones (regiones)

En nuestro caso es relevante la adyacencia de las manzanas, pero la

a) Generación de polígonos de Thiessen (prueba de concepto). Los

1) Cargaremos el archivo de las manzanas de San Cristóbal de las Casas.

2) Cargaremos el nuevo shapefile creado. A partir de ahí, clic derecho en

Existen otros métodos para estimar "mejores" centroides, en GeoDa se

¿Los polígonos de Thiessen expresan correctamente las relaciones de

b) Creación de los archivos de pesos.

Cargarás en Geoda el archivo Thiessen_SC_valid. En el menú tools,

1.2 Mapas de percentiles

Abrir el archivo Thies_sc_valid.shp (usar CLVMZ como variable llave).

¿Cuál mapa nos da más información acerca del comportamiento de la

1.3 Mapas LISA

Los Indicadores Locales de Autocorrelación Espacial (LISA por sus siglas en

Usar icono de Univariate LISA o en el menú Space buscar la misma opción

Seleccionar la matriz de pesos recién creada

Seleccionar la variable PHLI

Seleccionar la opción mapa de conglomerados

Evaluar permutación y niveles de significancia del mapa LISA

Copia una imagen de tu mapa LISA

1.4 Diagramas de dispersión de Moran

Usar icono de Univariate Local Moran´s I buscar la misma opción

Seleccionar la matriz de pesos creada arriba.