Está en la página 1de 27

Taller de análisis de

datos espaciales
SESIÓN #1
31 DE ENERO DE 2019
Los mapas son representaciones geográficas
de un territorio
Para manejar los datos de un mapa, se emplean los Sistemas de Información
Geográfica (GIS en inglés). Estos funcionan como herramientas para:
• Organizar
• Almacenar
• Manipular
• Analizar
• Graficar
Datos que provienen del mundo real y que están geográficamente referenciados.
Existen dos formas de almacenar datos
en GIS: Rasters y vectoriales
Raster: imágenes digitales representadas en Vectoriales: se centran en las características
mallas/grillas (grids) geométricas de las figuras
Los rasters son muy útiles para
representar variables continuas
Se componen de una matriz de celdas
(pixeles), organizadas en una grilla (con
filas y columnas).

Cada pixel o celda contiene un valor que


representa información:
• Deforestación
• Temperatura
• Elevación
Variaciones en
los datos se
observan con
facilidad en los
rasters
• Temperatura máxima promedio en
Colombia (centígrados), 2000-2018

Fuente: Datos hidrometeorológicos


del IDEAM (2019).
La resolución de un raster determina el
nivel de detalle del mapa
Los raster pueden tener distintas
resoluciones (tamaño del pixel).
El tamaño de la celda se relaciona
directamente con la escala que representa
en el mundo real.
Un raster muy detallado puede
“agregarse” para obtener celdas más
grandes (y menos pesadas), pero “dividir”
celdas de un raster grande no producirá
más información.
TIFF: el formato usado para almacenar
rasters
Tiene la particularidad de que permite guardar más de una imagen/raster en el mismo archivo
(capas o layers).
Los vectoriales se enfocan en la localización del
elemento geográfico, y representan variables
discretas

Se almacenan como una serie de coordenadas


(x, y), (longitud, latitud).

Se emplean para representar:


• Puntos (ubicación de una ciudad)
• Líneas (una carretera, un río)
• Áreas o polígonos (límites de un país)
Es posible
combinar
polígonos, líneas y
puntos en un
mapa
• Líneas: ríos
• Puntos: cabeceras municipales
• Polígonos: grado de afectación de
los municipios (dicotómica)

Fuente: Galvis, Bonilla & Gómez, 2019.


"Exenciones tributarias y desarrollo
regional: evidencia de Colombia“,
Documentos de trabajo sobre
Economía Regional y Urbana 284,
Banco de la Republica de Colombia.
ESRI Shapefile: el formato más usado para
representar datos vectoriales en GIS
También llamados “shapefiles” (SHP), son un conjunto de archivos que almacenan la localización
de elementos geográficos y sus atributos.
Se conforma de al menos 3 archivos:
• .shp: contiene los shapes/formas, las entidades geométricas de los objetos (la línea,
polígono, punto)
• .shx: contiene el índice de las entidades geométricas (como un indicador de posición de un
objeto en particular)
• .dbf: contiene los datos, donde se guarda la información de los atributos de los objetos.
• Otros archivos (.prj, .sbn, .sbx, etc.).
Es MUY IMPORTANTE que todos los archivos de un shapefile estén en el mismo directorio.
Ejemplo de un shapefile en R (la columna
geometry son las coordenadas de cada objeto)
Comparando rasters y vectoriales
También se
pueden
combinar rasters
y shapefiles
• Raster de luces nocturnas (base)

• Shapefile de departamentos de
Colombia (segunda capa)

Fuente: imágenes satelitales de luces


nocturnas de la Administración
Nacional Oceánica y Atmosférica
(NOAA, por sus siglas en inglés) y
Marco Geoestadístico Nacional (MGN)
del DANE.
Los satélites captan información difícil de
obtener (remotely sensed information)

Producen mapas con amplia cobertura geográfica y alta resolución.


● Desastres naturales: monitorean huracanes, terremotos, inundaciones y erosión. Útil para
determinar las consecuencias de desastres naturales, pero también para prevenirlos.
● Uso de recursos naturales: manejar el uso de la tierra, mapeo de humedales, cartografiar
especies silvestres. Útil para reducir consecuencias del crecimiento urbano sobre la
naturaleza.
● Océanos: circulación y corrientes oceánicas, temperatura, altura de las olas.
● Zonas costeras: cambios en la línea costera, movimiento de sedimentos. Útil para prevenir
erosión.

Fuente: https://oceanservice.noaa.gov/facts/remotesensing.html
Detección de incendios (satélites VIIRS y MODIS de la
NASA)
Fuente: https://firms.modaps.eosdis.nasa.gov/map/#z:2;c:58.5,1.6;d:2020-01-29..2020-01-30
Pronósticos
meteorológicos
(satélites
IDEAM)
Fuente:
http://www.pronosticosyalertas.gov.c
o/imagenes-satelitales
Luces nocturnas (Defense Meteorological Satellite
Program - Operational Linescan System (DSPS-OLS))
Fuente: https://ngdc.noaa.gov/eog/dmsp/downloadV4composites.html
Deforestación
(Satélites
Landslat)
Fuente: Hansen et al., 2013,
https://earthenginepartners.appspot.c
om/science-2013-global-forest
Análisis exploratorio de
datos espaciales
Autocorrelación Espacial
La autocorrelación espacial define el grado de similitud o heterogeneidad de una unidad
espacial con respecto a sus unidades vecinas. Usualmente la autocorrelación espacial
se calcula a través del estadístico local de Moran:

Siendo N la cantidad de observaciones y W la suma de los wij . De manera informal, la


autocorrelación espacial la podemos expresar como sigue:
Índice local de Moran
Para identificar clusters espaciales significativos se usa el estadístico local de Moran:

Note que el estadístico local de Moran, en conjunción con el diagrama de dispersión de


Moran, o en compañía del Boxplot puede ayudar a identificar datos atípicos espaciales, u
observaciones influyentes.
Estadístico de Getis-Ord
El estadístico de Getis y Ord permite identificar zonas frías y zonas calientes, así:
Estadístico de Moran Bivariado
Global:

Local:
Otras estrategias para analizar varias
variables
Aplicación de estrategias de comprensión de información:

1. Análisis de Componentes Principales


2. Clusters kmean
3. Clusters Jerárquicos (Hierarchical Clustering)
Clusters kmean (K-means clustering)
Se minimiza la norma euclidiana de los datos con respecto a la media (centroide) local:

1. Se generan K estimaciones iniciales de los K centroides (promedios). Se generan


aleatoriamente o se seleccionan aleatoriamente a partir de datos.
2. Se calculan distancias (según fórmula anterior) y se asignan los puntos al centroide
más cercano.
3. Se recalculan los centroides (promedios) con base en los clusters definidos en 2.
4. Se repiten los pasos 1 a 3 hasta que el algoritmo cumple un criterio de convergencia
(no hay cambios en los clusters, número máximo de iteraciones, etc.)
Clusters Jerárquicos (Hierarchical
Clustering)
Se minimiza la norma euclidiana entre pares de datos/puntos:

1. Se calcula la distancia entre todos los pares de puntos según fórmula anterior.
2. Se agrupan los pares más cercanos para conformar clusters binarios.
3. Se combinan los clusters de forma progresiva hasta alcanzar el número de clusters
deseado.
Análisis de componentes principales
(PCA)
Resume la información en un vector que
resume la dirección de variabilidad que
predomina en los datos.

Este vector se construye como una suma


ponderada de las variables que se están
analizando.

Las ponderaciones se obtienen a partir del


eigenvector que se calcula con base en la
matriz de correlaciones entre las variables.

También podría gustarte