Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SpatialTools BigData PDF
SpatialTools BigData PDF
Resumen
Este documento brinda una breve introducción al uso de algunas he-
rramientas espaciales para del ecosistema de Hadoop en el contexto de
Big Data. Especı́ficamente se realiza un caso de uso analı́tico tomado y
adaptado de la documentación oficial de ESRI GIS Tools for Hadoop con
fines académicos, sin pretender ser una guı́a exhaustiva, ni remplazar la
documentación oficial. Se asume que el lector esta familiarizado con los
fundamentos de Big Data, la arquitectura de Hadoop, el uso de MapRedu-
ce, el uso de diferentes herramientas para Big Data soportadas por Hadoop
y el lenguaje de bases de datos relacionales SQL.
1. Introducción
La agregación espacial es muy útil para resumir grandes volúmenes de datos
permitiendo obtener un significativo conjunto datos reducido que exhibe pa-
trones. A continuación se realiza un ejercicio de agregación espacial empleando
Funciones Definidas por el Usuario - UDFs (Constructors, Relationships, Ope-
rations, Accessors), que extienden Hive a través de DDL de SQL y se basan en
las capacidades del API ESRI Geometry.
* seramirezf@correo.udistrital.edu.co
1
2. Agregación espacial
Agregación de puntos en polı́gonos irregulares
BQ: ¿Cuántos eventos asociados a movimientos telúricos se presentaron en
cada Condado del estado de California, US?
2
15. Creé UDFs temporales para usar la API espacial para Hadoop, mediante
las siguientes instrucciones:
create temporary function ST_Point as ’com.esri.hadoop.hive.ST_Point’;
create temporary function ST_Contains as ’com.esri.hadoop.hive.ST_Contains’;
16. Cree una tabla con el esquema para almacenar los datos contenidos en el
archivo csv, empleando las siguientes instrucciones:
CREATE TABLE earthquakes (
earthquake_date STRING,
latitude DOUBLE,
longitude DOUBLE,
depth DOUBLE,
magnitude DOUBLE,
magtype STRING,
mbstations STRING,
gap STRING,
distance STRING,
rms STRING,
source STRING,
eventid STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ’,’ STORED AS TEXTFILE
tblproperties ("skip.header.line.count"="1");
17. Cree una tabla con el esquema para almacenar los datos contenidos en el
archivo json empleando las siguientes instrucciones:
18. Ingeste los datos en las respectivas tablas, mediante las siguientes instruc-
ciones:
LOAD DATA INPATH ’earthquakes/earthquakes.csv’ OVERWRITE INTO TABLE earthquakes;
LOAD DATA INPATH ’earthquakes/california-counties.json’ OVERWRITE INTO TABLE counties;
19. Realice el análisis espacial para responder el interrogante de negocio pla-
teado inicialmente, usando las siguientes instrucciones:
3
SELECT counties.name, count(*) cnt FROM counties
JOIN earthquakes
WHERE ST_Contains(
counties.boundaryshape, ST_Point(earthquakes.longitude, earthquakes.latitude)
)
GROUP BY counties.name
ORDER BY cnt desc;
20. Describa e interprete el resultado obtenido anteriormente.
21. Formule conclusiones.
4
6. Indique cuántas cajas se generaron.
7. Repita el ejercicio generando cajas de otro tamaño que considere más
apropiado, almacene los resultados en tablas nuevas.
8. Formule conclusiones.