Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTUDIANTE
CHRISTIAM ALEJANDRO NIÑO PEÑA
CÓDIGO: 201122138
1
INTELIGENCIA DE NEGOCIOS ESPACIALES ORIENTADA AL ANÁLISIS DE
DATOS SOBRE PRUEBAS SABER 11 DEL ICFES
ESTUDIANTE
CHRISTIAM ALEJANDRO NIÑO PEÑA
CÓDIGO: 201122138
2
“La Universidad Pedagógica y Tecnológica de Colombia no se hace responsable
por las ideas expuestas en el presente trabajo y son responsabilidad total del
autor”
3
Nota de aceptación:
________________________________
________________________________
________________________________
________________________________
________________________________
________________________________
________________________________
Firma del presidente del jurado
________________________________
Firma del jurado
________________________________
Firma del jurado
4
DEDICATORIA
5
AGRADECIMIENTOS
A los jurados del proyecto ya que con su evaluación precisa y completa se evaluó
el proyecto de la mejor manera y con el cumplimiento de estándares y normas
establecidas.
6
CONTENIDO
pág.
INTRODUCCIÓN………………………………………………………………………... 19
2. JUSTIFICACIÓN……………………………………………………………………… 22
3. OBJETIVOS……………………………………………………………………………23
4. MARCO REFERENCIAL…………………………………………………………….. 24
4.1.1.1 Beneficios……………………………………………………………………….. 25
4.1.1.2 Arquitectura…………………………………………………………………….. 25
7
4.1.2.3 Funciones espaciales………………………………………………………….. 30
4.1.3.1 Componentes………………………………………………………………….. 31
4.1.3.2 Funciones……………………………………………………………………….. 31
8
4.3.2 Simulación. ……………………………………………………………………….. 43
5. DISEÑO METODOLÓGICO………………………………………………………… 52
5.1 ENFOQUE…………………………………………………………………………… 52
5.3 POBLACIÓN………………………………………………………………………… 52
5.4 MUESTRA…………………………………………………………………………… 53
5.6 INSTRUMENTOS…………………………………………………………………… 53
5.8 PRUEBAS…………………………………………………………………………… 53
6. RESULTADOS……………………………………………………………………….. 54
9
6.1 CARACTERIZACIÓN DE HERRAMIENTAS INFORMÁTICAS PARA APLICAR
INTELIGENCIA DE NEGOCIOS ESPACIALES…………………………………….. 54
10
6.2.3 Diseño arquitectura técnica. ……………………………………………………..72
6.2.5.4 Dimensiones…………………………………………………………………….. 74
6.3.1 Caracterización…………………………………………………………………….83
6.3.2 Selección………………………………………………………………………….. 88
11
6.4.6 Elementos del conocimiento…………………………………………………. 100
7. CONCLUSIONES…………………………………………………………………… 109
TRABAJO FUTUROS………………………………………………………………….111
BIBLIOGRAFÍA………………………………………………………………………… 112
12
LISTA DE FIGURAS
pág.
13
Figura 20. Resultados área de física ..................................................................... 94
Figura 27. Fórmula matemática para el cálculo de los clústeres. ........................ 100
14
LISTA DE TABLAS
pág.
15
Tabla 21. Técnicas y algoritmos de minería de datos espacial y no espacial ........ 83
16
RESUMEN
17
ABSTRACT
The project relates to the study and application of spatial business intelligence on
databases ICFES Saber 11 to nationally. To development is took the data the
years 2009 to 2013 collecting information from the students, educational
institutions, socioeconomic conditions and municipalities geographically positioned
using 3 specific areas: geometry to polygons and latitude-longitude for points.
18
INTRODUCCIÓN
19
instituciones educativas que permita soportar la toma de decisiones. Razón por la
cual el desarrollo del proyecto se enfoca en el tratamiento de los datos utilizando
el componente espacial aplicando inteligencia de negocios espaciales siguiendo
una serie de objetivos que permiten realizarla.
20
1. DEFINICIÓN DEL PROBLEMA
¿De qué manera se podría soportar la toma de decisiones relacionadas con los
resultados almacenados en las bases de datos de las pruebas ICFES Saber 11 a
través de inteligencia de negocios espaciales?
21
2. JUSTIFICACIÓN
22
3. OBJETIVOS
Soportar el análisis de los resultados de las pruebas saber 11 a nivel nacional por
medio de inteligencia de negocios espaciales.
23
4. MARCO REFERENCIAL
Las organizaciones para cumplir sus metas y tomar las mejores decisiones se han
planteado retos en cuanto al análisis de la información, ya sea por competitividad,
costos y/o ganancia; disponer de una bodega de datos con los registros históricos
de movimientos se volvió algo muy importante. Sumado a esto surgió un nuevo
factor que permitiría tener control sobre el lugar de los sucesos y de esta manera
poder situar los esfuerzos donde más se necesitan, este factor se identifica con el
espacio geográfico llamado tipo de dato espacial. A partir de este se crean nuevas
formas de análisis de los datos como la inteligencia de negocios, las bodegas de
datos, consultas, modelado y minería de datos enfocados en el descubrimiento de
conocimiento espacial.
Las empresas hoy en día se enfrentan a situaciones en las que deben asumir
muchos factores como:
24
4.1.1.1 Beneficios. Entre los beneficios que presenta la inteligencia de negocios
se encuentran según [7]:
- Las fuentes de datos, son de diversos tipos (XML, XLS, Bases de datos Oracle,
SQL Server, MySQL, entre otras) [8].
- El proceso de extracción, transformación y carga (ETL), se definen las fuentes
heterogéneas sobre los campos que se van a utilizar, si se requieren modificar
o transformar los datos realizando “mapping” [8].
25
- El repositorio de datos, aquí se encuentran los datos transformados en
modelos multidimensionales, dimensiones y tablas de datos [8].
- El proceso de visualización o interfaz de usuario, aquí es donde se habilitan
componentes, administran consultas, monitorean procesos, se realizan
cálculos, entre otros [8].
- Los usuarios que toman las decisiones.
26
La Figura 3 muestra una representación de los componentes básicos de la
inteligencia de negocios con relación a la organización.
4.1.2 Bodegas de datos espaciales. Según Silva y otros [9], las bodegas de
datos espaciales adicionan el tipo de dato espacial, el cual potencia las
capacidades de las bases de datos y permite obtener un análisis multidimensional
soportando nuevas formas de solucionar problemas específicos.
- Pueden estar compuestos de un sólo punto o cientos de ellos para así formar
polígonos.
- Los operadores sobre los datos son dependientes del dominio de la aplicación.
- La mayoría de los operadores no son cerrados.
- El costo de implementar operadores espaciales es mucho más alto que el de
operar operadores relacionales.
27
Además, las bodegas de datos espaciales son adecuadas para el almacenamiento
de información histórica sobre lugares o sitios y así responder preguntas en la
toma de decisiones.
Las principales características de una bodega de datos espacial según [10] son:
Los tipos de datos en una bodega de datos espacial son clasificados según el tipo
de información manejada, tal como se ilustra en la Tabla 1.
28
llamado cubo multidimensional o hipercubo). Se compone de hechos numéricos
llamados medidas que se clasifican por dimensiones”. Por ejemplo, se podría
utilizar un modelo multidimensional para analizar la evolución de población por
municipio y edad a lo largo del tiempo con tres dimensiones: Municipio (dimensión
territorial), Tiempo (dimensión temporal) y Edad.
29
4.1.2.2 Definición de objetos espaciales. Según Prados [11] son “objetos que
se sitúan en un lugar o posición a través de coordenadas geográficas”, existen
motores de bases de datos que manejan este tipo de definición, entre estos se
tiene Oracle Spatial y Postgresql Postgis, los cuales siguen el estándar que define
los objetos espaciales del OpenGIS: Simple Features Specification for SQL.
30
4.1.3 Sistema de información geográfica. Según la Universidad Técnica de
Manabí [13] son “Sistema de Hardware, Software y procedimientos diseñados
para soportar la captura, administración, manipulación, análisis, modelado y
visualización de datos".
4.1.3.2 Funciones. Para el manejo de los datos espaciales se utilizan una serie
de funciones orientadas según [13]:
Se tienen sistemas de punto, red o lineal y de áreas o polígonos. Los puntos, las
líneas y polígonos suelen definirse en los mapas por medio de coordenadas
cartesianas (X, Y).
31
4.1.3.4 Encadenamiento de objetos y atributos en categorías. Manejan los
siguientes elementos para lograr una unión y posición en el espacio.
32
inteligencia computacional, redes de sensores y neuronales y métodos de
extracción algorítmica.
33
- Resumen de datos espaciales: extraer patrones compactos que describen los
subconjuntos de los datos, no predice, clasifica, ni agrupa, su propósito es
identificar relaciones existentes.
- Clustering: Segmentación, separa los datos en subconjuntos de elementos
similares.
34
Tabla 4. Técnicas de minería de datos no espacial.
Técnica Tipo
Arboles de decisión
Clasificación
Agrupamiento
Supervisado
Inducción o redes neuronales
Regresión lineal
Series Temporales o de tiempo
Detección de desviaciones o Naive Bayes
Reglas de asociación No supervisado
Patrones secuenciales
Fuente. El Autor basado en Dueñas Reyes [12]..
Técnica Algoritmo
Por jerarquías
Generalización
Por atributos
Agrupación particional
Agrupación jerárquica
Agrupación basada en localización
Agrupación
Clarans
SD Clarans
NSD Clarans
Exploración de asociación espacial A priori
Fuente. El Autor basado en Dueñas Reyes [12].
Se recolectan todos los datos para poder generar jerarquías, estás pueden ser en
partición por regiones y su posterior fusión respecto a los atributos espaciales de
la estructura jerárquica discriminante. El proceso anterior se continúa realizando
35
hasta que se llegue al límite mínimo de tamaño definido donde se hace un análisis
según las jerarquías de precisión y conveniencia según Cangrejo y Agudelo [15].
Aunque su uso puede llegar a ser bastante útil para ser utilizado en la minería de
datos espacial, existen razones según la Universidad de las Américas de Puebla
[17] que lo hacen no tan deseable a la hora de aplicarse.
36
- Procesos ETL: procesos para extraer datos de diversas fuentes, transformarlos
y cargarlos en el repositorio llamado bodega de datos.
- Bodegas de datos espaciales: Repositorio de información seleccionada para
suministrar la base de análisis de la organización con datos tipo espacial.
- Cubos SOLAP: Proporcionan un modelo multidimensional y jerárquico para su
exploración, estos manejan un lenguaje de consulta MDX; este lenguaje tiene
diferencias con el SQL en cuanto a manejo de los cubos.
- Visualización de la información: Aplicación o elemento de información que
permite el análisis mediante exploración y visualiza los resultados requeridos
por los analistas.
37
En el estudio realizado según Espejo-García [19] existe una comparativa entre las
visiones de los analistas en cuanto de la información espacial y su uso en
sistemas de información geográfica e inteligencia de negocios espaciales.
38
Figura 9. Comparación de sistemas de información según los datos
39
Figura 11. Arquitectura de una bodega de datos espacial
Fuente. El Autor.
- Fuente de datos: los datos origen que serán el insumo para realizar la
inteligencia de negocios espaciales.
- Sistema ETL: para realizar la extracción, transformación y carga de los datos
para seleccionar los elementos que correspondan al análisis de información.
40
- Bodega de datos: Base de datos espacial que contendrá las dimensiones y
tabla de hechos para realizar la extracción del conocimiento.
- SOLAP: Aplicación de inteligencia de negocios espaciales sobre la bodega de
datos espacial
- Minería de datos espacial: Por medio de técnicas y algoritmos especializados
obtener el conocimiento más idóneo sobre los análisis de la organización.
- Reportes: visualización y muestra de resultados.
41
4.2.5 Inteligencia de negocios espaciales. “Es un proceso mediante el cual los
datos se convierten en información valiosa para la toma de decisiones dentro de
una organización, sin embargo llega el momento en que las tablas y gráficas no
son suficientes para poder contar con toda la información necesaria para elegir la
siguiente mejor acción en la compañía; es cuando la integración con otros
sistemas, en este caso, con Sistemas de Información Geoespacial, toma mucha
importancia” [6].
42
4.3.1 Uso del suelo. Se enfoca principalmente en el uso que los seres humanos
y comunidades hacen de la tierra.
Este marco se puede acomodar a datos discretos y/o continuos y es ideal para
modelar los lugares, regiones, escenarios y características del suelo de acuerdo a
las variables almacenadas en su bodega de datos espacial.
43
infraestructura de simulación MAGI la cual incorpora características y estrategias
para lograr una simulación geoespacial compleja, esta presenta características
definidas como:
44
4.3.4 Gestión del territorio. Métodos realizados para organizar y ubicar las
estructuras territoriales con el fin de situarlas en el mejor lugar y aprovechar el
terreno urbano y rural de la mejor manera.
45
4.3.5 Agricultura. Manejo de todos los trabajos relacionados al tratamiento del
suelo y a la plantación de vegetales.
46
un SDSS llamado MedCILA para el control de la mosca de la fruta en Israel, este
desarrollo involucro 4 fases:
- Adquisición de expertos.
- Identificación de criterios pertinentes y su respectivo modelado.
- Integración del software con un entorno SIG.
- Evaluación del rendimiento.
Silva y otros [38] proponen un sistema de soporte a las decisiones espaciales para
el sector de transporte público Portugués. SIGGESC es un SDSS dirigido hacia el
sector de transporte público, este software es utilizado para el proceso de registro
y otorgamiento de concesiones a las compañías de autobuses, aumentar la
capacidad de las autoridades de transporte portuguesas, automatizar procesos de
trabajo y rutinas, mejorar la inspección y otorgamiento de licencias, y también
permite geo-referenciar los elementos automotores y licencias que se encuentran
en una determinada área y por tiempos específicos.
47
Santos, Coutinho y Henggeler [39] definen un sistema de soporte a las decisiones
espaciales web para el soporte de enrutamiento de vehículos utilizando Google
Maps. Se presenta un sistema de soporte a la toma de decisiones espacial web
llamado wSDSS, su función es generar rutas de vehículos optimizadas para
problemas de enrutamiento, involucra Google Maps, una base de datos,
heurísticas y un sistema de generación de rutas de vehículos de forma individual.
El sistema soluciona problemas como: limitación de velocidad, carreteras de un
solo sentido y giros prohibidos.
Este sistema además analiza variables como capacidad del vehículo, tiempo de
desplazamiento, modificaciones de red, orientaciones, entre otras. wSDSS fue
probado para la recolección de basura urbana en Coímbra, Portugal.
48
- Desarrollar una interfaz gráfica para cuantificar y geo-localizar puntos calientes
de contaminación en la zona urbana.
- Desarrollar un SDSS para generar informes del manejo y cumplimiento
ambiental.
49
4.3.9 Servicios tecnológicos. Proyectos que se enfocan en avances
tecnológicos en el desarrollo de inteligencia de negocios espaciales.
50
organismos de salud pública, lo anterior, integrando nuevos operadores para
explorar con facilidad y rapidez los datos multidimensionales en diferentes niveles
de granularidad.
51
5. DISEÑO METODÓLOGICO
5.1 ENFOQUE
5.3 POBLACIÓN
52
5.4 MUESTRA
Las fuentes de información utilizadas para este fin son fuentes primarias de las
cuales se tomarán artículos científicos, reportes y ponencias realizadas, también
herramientas y algoritmos para aplicación de inteligencia de negocios espaciales.
5.6 INSTRUMENTOS
5.8 PRUEBAS
53
6. RESULTADOS
Estas herramientas deben tener componentes que permitan el óptimo uso de los
datos teniendo en cuenta el componente geográfico, para así cumplir con el
procesamiento en línea espacial.
También se realizó una clasificación según factores que tiene cada herramienta,
estos son:
a. Descripción General
b. Características técnicas
c. Características funcionales y observaciones
54
Al término del comparativo se seleccionaran las herramientas que más se
adecuen a la implementación de Inteligencia de Negocios Espaciales y que
permitan realizar los objetivos planteados en el proyecto.
55
6.1.1.2 Características técnicas
Soporte
Módulos Sistema Soporta Soporte
Sistema Estado al
análisis operativo cartografía SOLAP
usuario
ArcGIS Activo Si Windows Si No Si
Windows,
GRASS Activo Si Linux, Si No Si
MacOS
Windows,
ILWIS Activo Si Linux, Si No No
MacOS
Fuente. El Autor
56
6.1.1.3 Características funcionales y observaciones
Módulos
Sistema Extensiones Observaciones
disponibles
- Modelado de - Análisis 3D. - Herramienta software muy
idoneidad. - Análisis geo estadístico. completa que permite
- Análisis de - Análisis de redes. realizar carga, análisis y
superficie. - Análisis espacial. proyección de mapas.
- Análisis de - Análisis de seguimiento. - Su precio es de US$100
distancia. - Reporte de análisis de para uso en el domicilio-
- Análisis de negocios. - Utilizado por la mayoría de
densidad. - Interoperabilidad de datos. ingenieros en el área de la
- Análisis solar. - Revisor de datos. arquitectura, catastro e
- Análisis hidrológico. - Editor de flujos de trabajo. ingeniería civil.
- Análisis estadístico. - ArcScan. - Es un sistema que requiere
- Álgebra de mapas. - Maplex. licencia para poder
- Secuencias de ejecutarse.
- Soluciones de defensa.
comando y - Sus extensiones para el
- Aviación.
personalización. manejo de análisis espacial
- Marítima.
ArcGIS - Modelado gráfico. cuestan valor adicional.
- Asignación de defensa.
- Generalización - Utilizado en empresas u
- Asignación de producción. organizaciones grandes.
RASTER. - Caminos y carreteras. - Compatible con Microsoft
- Editor de OpenStreetMap. SQL Server y Microsoft
- ArcSketch. Visual Studio.NET.
- Distritos. - Tiene gran compatibilidad
- S-57. en carga de archivos de
- Red Nacional mapas con gran variedad
Estadounidense. de extensiones.
- Cliente WMC. - Su principal desventaja es
su precio y al ser
propietario no se le pueden
realizar cambios lo que
enfoca su uso para tareas
específicas.
- Análisis RASTER. - Script de Shell zona UTM. - Posee herramientas de
- Análisis 3D - Scripts de Perl para procesado digital de
RASTER Voxel. convertir datos. imágenes.
- Análisis vectorial - Script en Perl para - Tiene Soporte nativo para
- Punto de análisis de traducir DBF. imágenes RASTER lo que
datos. - Programa C para calcular lo hace experto en el
GRASS - Procesamiento de el Acimut y longitud de las manejo de este tipo de
imágenes. líneas vectoriales. archivos.
- DTM-Análisis. - Implementación de red - Utilizado en estudios
- Geo-codificación. neuronal artificial usando medioambientales.
- Creación de mapas. la biblioteca FANN. - Utilizado gradualmente en
- SQL-apoyo. el entorno académico.
- Geo-estadística.
57
Módulos
Sistema Extensiones Observaciones
disponibles
- Representación de - No - Utilizado en muchas
información. organizaciones
- Modelamiento gubernamentales para
espacial como manejo de ordenamiento
temporal de territorial.
procesos que se - Ofrece gran cantidad de
llevan a cabo en la funciones de análisis y
superficie de la modelamiento en diversas
Tierra. ramas orientadas al
- Evaluación de catastro y manejo
ILWIS tierras. ambiental.
- Ordenamiento - Su propósito no se puede
territorial. enfocar a labores
- Riesgos naturales. administrativas o datos que
- Manejo ambiental. no tengan relación con su
objetivo final.
- Limitado y lento avance de
versionamiento.
- Soporte limitado ya que se
enfoca en un área
específica.
- Matrices y Líneas - Según licencia Básica o - Diseñado exclusivamente
de Deseo. Estándar. para el sector transporte.
- Sistemas de rutas. - Soporta modelamiento de
- Aplicaciones de transporte para diversas
transporte. actividades.
- Camino corto. - Su valor oscila entre
- Creación de redes. US$4000 y US$12000
- Partición de redes. Dólares.
- Zonificación de - Bastante especializado
redes. para escala geográfica.
- Previsión de - No soporta análisis
demanda de viajes. SOLAP.
- Procedimientos de - Aunque es un software
Trans tránsito. completo tiene la
CAD - Creación de rutas. desventaja que solo se
- Importación de aplica en una sola
TranPlan, MINUTP, temática.
emme/2, TRIPS,
TP+.
- Herramientas de
análisis geográfico.
- Herramientas de
análisis de
superficie.
- Referencias
lineales.
- Estadísticas
espaciales.
58
Módulos
Sistema Extensiones Observaciones
disponibles
- AutoSync - Advanced - Software muy profesional
- VirtualGIS Photogrammetry. en el manejo de
- NITF 2.1 - Compatibility with US información geográfica que
- OrthoRadar Defense Standards and integra módulos de
- InSAR DEM Protocols. detección y manejo de
- StereoSAR DEN - Format Compatibility. análisis telemático.
- Radar Interpreter - Atmospheric Correction. - Su principal característica
- Data Prep - Feature Collection. es su desarrollo sobre
- Vector - Radar Processing. Oracle MapViewer lo que lo
- Quality Assurance for hace robusto, aunque lo
ERDAS - MosaicPro
Digital Terrain Models. vuelve completamente
- Developer’s Toolkit
- Faster Project Completion dependiente a plataformas
LPS
through Distributed Oracle.
- EasyTrace
Processing. - Su principal desventaja es
- MrSID Desktop & su precio elevado.
Workstation
- Su principal ventaja es que
Encoders
maneja volúmenes de
- Vector Feature información geográfica
- Georaster elevados y con tiempos de
- Feature Analyst respuesta rápidos.
- Generación de áreas - No - Su ventaja principal es que
de influencia. soporta la carga de mapas
- Creación de mallas vectoriales y Raster desde
regulares. repositorios físicos y
- Análisis de la digitales en motores de
distribución de bases de datos.
puntos. - Permite la personalización
I3Geo - Intersección entre de sistemas de información
capas. geográfica en línea.
- Cálculo de - Maneja información en
centroides. Openlayers, Google Maps
y Google Earth.
- Dispone de módulos de
análisis estadístico y
vectorial.
- QGIS core library. - Video UAV Tracker - Ofrece una plataforma
- GIS functionality - Postgis. adecuada y robusta para el
- QGIS analysis - Qgis2threejs. manejo de sistemas de
library. - Geopunt4Qgis. información geográfica
- Map Composer - Vertices Counter. desde casi cualquier
plataforma.
- Exporta en formatos
QGIS compatibles con servidores
de mapas Mapserver o
Geoserver.
- Contiene módulos de
análisis que llegan al
mismo nivel de su
competidor directo
propietario ArcGIS.
59
Módulos
Sistema Extensiones Observaciones
disponibles
- Herramientas de - Personalizadas por el - Su integración directa con
manipulación de usuario i3GEO lo vuelven un
archivos vectoriales. software bastante utilizado
- Herramientas de en proceso de mapificación
manipulación para exportar a web.
Raster. - Su interfaz es intuitiva y
- Histogramas. maneja conexión a
- Infraestructuras de grandes motores de bases
Datos Espaciales y de datos, además las
estándares. herramientas GIS son
GvSIG - Topología de red, adecuadas y manipulables.
gestión de paradas, - Una desventaja es su
camino mínimo, área desarrollo a escritorio,
de servicio aunque se compensa con
- Vista 3D plana, su manejo en sistemas
esférica. móviles.
- Una ventaja importante es
que maneja paleta de
colores SLD para
manipulación de mapas en
Mapserver.
- Visualización y - Geo-codificación. - Servicio en línea que
análisis de imágenes - Análisis de redes. provee agilidad y facilidad
vector y Raster. - Gestión de planos de cargue de mapas.
digitales. - Aunque es bastante
JMap - SIGNAL-X. potente su valor es
- Google Map. elevado.
- GOLOC. - Maneja una gran variedad
- Telefonía de licencias.
- GRASS GIS - Desarrolladas por el - Al ser libre su código
- Herramientas Usuario en Java. fuente se permite el
especializadas de desarrollo de extensiones
hidrología de la acorde de las necesidades.
máquina de Horton. - Permite manejar mapas de
uDig
- Soporta de forma diversos tipos.
nativa archivos de - Maneja pocos elementos
forma (Shapefiles), de análisis para cartografía
PostGIS, WMS y básica.
otras.
- Análisis Raster. - No - El sistema es limitado y
- Análisis estadísticos enfocado a la utilización
de los datos Raster. según la temática de uso.
Saga - Su análisis Raster es muy
- Modelos digitales y
análisis del terreno. avanzado y se enfoca a
elementos complejos.
- Geospatial Data. - No - Sin soporte.
Open
- Abstraction Library.
EV - FW Tools.
Fuente. El Autor.
60
6.1.2 Procesamiento analítico en línea
Soporte
Módulos Sistema Soporta Soporte
Sistema Estado
análisis operativo cartografía SOLAP
al
usuario
Windows, Solo
Pentaho Activo Si Linux, versión Si Si
MacOS visual
61
Soporte
Módulos Sistema Soporta Soporte
Sistema Estado
análisis operativo cartografía SOLAP
al
usuario
Exact Activo Si Windows Si No Si
Cognos Activo Si Windows No No Si
Si, módulo
SAP Activo Si Windows No Si
ESRI
Windows,
Linux, HP-
Intellicus Activo Si No No Si
UX,
Solaris
Multi-
Logi Activo No Si No Si
plataforma
Proclarity Activo Si Windows No No Si
Multi-
Microstrategy Activo Si No No Si
plataforma
Bi360 Activo Si Windows No No Si
Tableau Multi-
Activo Si No No Si
Server plataforma
Multi-
Targit Activo Si No No Si
plataforma
Fuente. El Autor
Módulos
Sistema Extensiones Observaciones
disponibles
- Análisis Visual - Plugins para desarrollo de - Suite de aplicaciones que
Interactivo software. permite realizar inteligencia
- Tableros gráficos y - Enlace de SGBD con el de negocios para casi
de respuesta BIserver cualquier fin.
- Soluciones - Envío de comentarios y - Tiene subdivisiones en
integrales para la comunicación de parte comercial "privativa"
presentación de problemas y de código abierto para la
informes - La mayoría son comunidad.
Pentaho
- Gestión desarrollados por los - Ofrece soporte según el
simplificada y de usuarios modulo que se adquiera
administración. - Soporta manejo de vistas pero su valor en la parte
- Integración de por medio de mapas comercial es considerable,
datos completa digitales. razón por la cual solo es
- Análisis predictivo usado en empresas que
tengan la posibilidad de
adquirirlo.
62
Módulos
Sistema Extensiones Observaciones
disponibles
- Análisis Ad Hoc - Informes ad hoc - Permite crear vistas
- Indicadores OLAP - Informe programado personalizadas de
- Análisis predictivo automático información para el manejo
- Análisis de - Dashboard Personalizable y representación de los
Ganancia - Funciones personalizables datos.
Exact - Indicadores de - Pronóstico - Tiene integración con ERP
Tendencia Financiero/Presupuesto y es compatible con
- Herramientas gráficas de muchos SGBD por medio
referencia ODBC.
- Evaluación del - Maneja gráficos y
Rendimiento operaciones estadísticas.
- Análisis - Agentes basados en - Presenta una gran
Multidimensional acciones que notifican a variedad de informes
- Construcción de los tomadores de personalizables.
reportes. decisiones conforme - Permite manejar
- Query Studio. suceden los eventos. herramientas en paneles
- Monitoreo, Análisis - Búsqueda en Google y amigables y ligeros.
y Reporteo de otros buscadores de los - Soporta herramientas de
Cognos KPIs. datos y metadatos de comunicación para
Cognos. potenciar el intercambio de
- Acceso del contenido de ideas.
Cognos desde
dispositivos móviles como
Blackberry.
- DecisionStream y es el
ETL de Cognos.
- Análisis predictivo. - Según el tipo de sistema - Plataforma web de manejo
- Lumira adquirido. de soporte a negocios.
- Crystal Reports - Tiene un manejo de
- Design Studio información estadística
- Dashboards robusto.
- Aplicaciones - Existen suites para
móviles de SAP diferentes tipos de
SAP empresas.
BusinessObjects
- Geográfica (GIS) - Compatibilidad con
del Instituto de Microsoft.
Investigación de - Es programable y seguro.
Sistemas - Su plataforma no se puede
Medioambientales modificar, código cerrado.
(ESRI)
- Reportes - Arquitectura Orientada a - Diseñado para usuarios
empresariales Servicios. empresariales.
- Ad hoc Reportes. - ETL. - Uso de Plataforma basada
- Built-in OLAP Server. en DHTML para usuarios
Intellicus - Empresa del servidor de de negocios.
informes. - Adaptado para diferentes
- Single Server e escenarios.
implementación simple.
63
Módulos
Sistema Extensiones Observaciones
disponibles
- Plataforma de BI - No - Se basa en una plataforma
basada en la Web Web que se accede
incluyendo, mediante usuario y
gestionado y contraseña proporcionada
Logi
presentación de cuando se adquiere el
informes, análisis, producto.
y cuadros de
mando.
- Monitoreo de datos - Dependiendo de la versión - Contiene un gran conjunto
- Análisis de adquirida. de características, además
conducta muchas maneras de
- Herramientas BI visualizar las relaciones de
datos con buenos paneles
Proclarity de navegación.
- Su punto de análisis es un
poco deficiente.
- Solo se ejecuta sobre
plataformas Microsoft.
- Módulos de - Cubos de Inteligencia. - Soporte en aplicaciones
análisis. - Indicadores derivados. móviles para inteligencia
- Módulos de - Elementos derivados. de negocios móvil.
Micro reportes. - Agregación dinámica. - Manejo de elementos en la
Strategy - Servidor de - Filtros de vista. nube para integrar muchos
análisis. - Aprovisionamiento usuarios y bajar los costos.
- Gráficos y dinámico.
estadísticas.
- Informes. - No - Integración con Microsoft
- Presupuesto. Excel para manejo de
- Dashboards. cálculos.
- Data Warehouse - Solo soporta plataforma de
- Colaboración. escritorio y sistema
Bi360
operativo Windows al
integrarse con Microsoft
Excel lo que lo vuelve
dependiente de la
tecnología.
- Análisis de - No - Ejecución de análisis de
negocio. negocio súper rápida
- Gestión de - Capacitación gratuita.
Tableau
reportes. - Cuadro de mandos
Server
interactivos web
- Manejo de interfaz
interactiva
- Análisis y reporte - No - Manejo de gráficos y tablas
dinámicas muy llamativas.
- Disponible para cualquier
Targit
dispositivo.
- Manejo de presentación de
informes, predictivo y ágil.
Fuente. El Autor.
64
6.1.3 Procesamiento analítico en línea espacial
Soporte
Módulos Sistema Soporta Soporte
Sistema Estado
análisis operativo cartografía SOLAP
al
usuario
Windows,
Linux,
GeoKettle Activo Si Si Si Si
MacOS,
Solaris
GeoMondrian Activo Si Multi-sistema No Si Si
Schema Windows,
Activo No No Si Si
Workbench Linux
Windows,
Knime Activo Si Linux, Si Si Si
MacOS
Windows, Solo
Solo version
Weka Activo Si Linux, Versión Si
3.4
MacOS 3.4
65
Soporte
Módulos Sistema Soporta Soporte
Sistema Estado
análisis operativo cartografía SOLAP
al
usuario
Si, con
Saiku Activo Si Multi-sistema plugin Si Si
ChartPlus
Solap Layers Inactivo No Multi-sistema Si Si No
Fuente. El Autor
Módulos
Sistema Extensiones Observaciones
disponibles
- Extracción de - No - Herramienta completa para
información. realizar la Extracción,
- Transformación Transformación y Carga de
GeoKettle de datos. la bodega de datos
- Carga de datos espacial.
en el formato
destino.
- Constructores - No - Sencillo despliegue en
de Geometrías Tomcat (Java).
en línea. - Extensión de lenguaje
- Filtros miembros MDX para soporte de
basados en cualquier dato geométrico.
predicados - Aunque no tiene un visor
GeoMondrian
topológicos. espacial propio sus fuentes
- Cálculos se pueden utilizar en
basados en proyectos web.
atributos - Maneja funciones de
escalares. manejo de análisis de
polígonos, puntos y líneas.
- Creación de - No - Herramienta para crear
cubos cubos de datos para cargar
espaciales y no en el servidor
Schema
espaciales GeoMondrian, su salida es
Workbench un archivo XML con el
esquema del cubo de
datos.
- Entrada/Salida - GeoKnime - Software libre que cumple
- Manipulación de - R Integración, con las características
datos. JFreeChart Integración espaciales y de análisis de
Knime
- Vistas - Chemistry la información para la
- Hiliting. - Weka, BIRT Reporting realización de la minería de
- Algoritmos de - Math Formula datos espacial, además
66
Módulos
Sistema Extensiones Observaciones
disponibles
minería de datos - XLS Reader and Writer con su extensión
del estado de la - External Tools geográfica GeoKnime se
técnica, como la - Distance Matrix pueden manipular datos
agrupación, - LBSVM, Ensemble espaciales.
inducción de Learning
reglas, árboles - OpenStreet Map
de decisión, - Data Generation
reglas de
asociación,
Bayes, redes
neuronales,
máquinas de
vectores.
- Simple CLI - Experimental - Software libre orientado a
- Explorer - Spatial la minería de datos
- Clasificación espacial, últimamente
- Asociación adaptado al análisis
Weka - Agrupamiento – espacial.
K-Means
- Selección de
atributos
- Visualización
- Consulta - No - El sistema maneja de
- Visualización forma amigable las
- Filtrado de datos dimensiones y medidas,
Saiku - Análisis además es rápido y se
estadístico puede adaptar a
gráfico programación por parte del
usuario.
- Visualización de - No - Aunque el proyecto está
información en abandonado es completo y
Solap Layers cartografía orientado para visualizar la
digital información espacial
SOLAP.
Fuente. El Autor.
67
- Servidor OLAP Geospatial: GeoMondrian.
- Software Minería Espacial: Knime (Extensión GeoKnime - OSM).
- Software de visualización Geospatial BI: SOLAP Layers.
Ralph Kimball menciona que existen cinco factores que deben existir en una
entidad u organización para poder desarrollar la bodega de datos de forma
correcta:
68
mediante los métodos estadísticos descriptivos. El ICFES ve interesante encontrar
características dependientes de la ubicación geográfica asociada a la información
procedente de su base de datos.
69
Rol Responsabilidad Participante
Investigador Desarrollar el proyecto y obtener el Christiam Alejandro Niño
resultado del mismo. Peña
Apoyo Proporcionar la ayuda necesaria con Funcionarios área técnica
técnico respecto a organización y de datos
manipulación de los datos
proporcionados por la entidad.
Fuente. El Autor.
70
6.2.2 Definición de requerimientos de negocio
71
6.2.3 Diseño arquitectura técnica. La siguiente es la arquitectura diseñada para
el desarrollo de la bodega de datos espacial de las pruebas ICFES Saber 11, se
utilizan las herramientas GeoKettle y el gestor de bases de datos Postgresql 9.3 y
su extensión espacial Postgis 2.1, la Figura 13 muestra el diseño de la arquitectura
utilizado.
Fuente. El Autor.
72
generando informes para mostrar los resultados esperados por el ICFES en
diferentes formatos ya sean tablas, gráficos estadísticos y mapas.
Minería de datos: La herramienta GeoKnime permite realizar minería de datos
espaciales sobre la información almacenada en la bodega de datos espacial.
Esta bodega de datos espacial se diseñó con base a los requerimientos expuestos
anteriormente en base a la entrevista realizada al área de gestión de proyectos de
investigación.
73
6.2.5.1 Forma no normalizada: En esta forma se tienen los registros básicos de
las bases de datos del ICFES que vienen clasificadas por años y semestres.
74
6.2.5.5 Tabla de hechos: En el desarrollo de la bodega espacial se diseñó la
tabla llamada hechos_examen que contiene la información de los puntajes de los
evaluados según las diferentes dimensiones asociadas.
Extracción: Se obtienen los valores de los archivos texto del ICFES que
vienen clasificados por años y semestres de instituciones educativos,
evaluados, áreas del exámen y puntajes.
75
Figura 14. Diseño lógico de la bodega de datos espacial.
Fuente. El Autor.
76
Tabla 18. Diccionario de datos dimensiones
77
Dimensión Columna Descripción Valores Tipo
Matemáticas
- Medio Ambiente
- Violencia y sociedad
- Núcleo Común
Tipo del área a
tipo - Profundización Varchar
evaluar
- Interdisciplinar
Consecutivo del
consecutivo - SABER1120111000001, … Varchar
evaluado
- Cedula de ciudadanía
- Cedula de extranjería
Tipo de documento - Certificado de registraduría
tipo_documento Varchar
del evaluado - Pasaporte colombiano
- Pasaporte extranjero
- Tarjeta de identidad
Genero del - Femenino
genero Varchar
evaluado - Masculino
Año de nacimiento
anho_nacimiento - 1980, 1993, … Integer
del evaluado
edad Edad del evaluado - 17, 24, 31, … Integer
Código DANE del
cod_mun_origen municipio origen - 23564, 15001, … Integer
del evaluado
- Centro
- Noroccidente
- Nororiente
- Norte
- Occidente
zona Zona del evaluado Varchar
Evaluados - Oriente
- Sur
- Suroccidente
- Suroriente
- Única
- Arhuaco
- Cancuamo
- Comunidades negras
- Comunidad Rom (Gitana)
- Cubeo
- Emberá
- Guambiano
- Huitoto
- Inga
etnia Etnia del evaluado Varchar
- Otro
- Páez
- Pasto
- Pijao
- Raizal (Isleño)
- Sikuani
- Tucano
- Wayúu
- Zenú
78
Dimensión Columna Descripción Valores Tipo
- Estrato 1
- Estrato 2
- Estrato 3
- Estrato 4
estrato
Estrato del - Estrato 5 Varchar
evaluado - Estrato 6
- Vive en una zona rural
donde no hay
estratificación
socioeconómica
- No
- Si, 20 horas o más a la
semana
- Si, como ayudante sin
remuneración
- Si, con remuneración en
dinero y/o especie
- Si, menos de 20 horas a la
Situación laboral semana
trabaja Varchar
del evaluado - Si, para adquirir
experiencia y/o recursos
para sus gastos personales
- Si, para contribuir a pagar
su matrícula y/o los gastos
del hogar
- Si, por ser práctica
obligatoria del programa de
estudios
Área de la vivienda - Cabecera municipal
area Varchar
del evaluado - Rural
Cantidad de
personas_hogar personas en el - 1, …, 12 Integer
hogar del evaluado
- Clasificado en otro nivel
- Nivel 1
Nivel de SISBEN
sisben - Nivel 2 Varchar
del evaluado
- Nivel 3
- No está clasificado
- 10 o más SM
- Entre 1 y menos de 2 SM
Ingreso de la - Entre 2 y menos de 3 SM
ingreso_familiar familia del - Entre 3 y menos de 5 SM Varchar
evaluado - Entre 5 y menos de 7 SM
- Entre 7 y menos de 10 SM
- Menos de 1 SM
- Cemento – Gravilla –
Material del piso de Ladrillo
material_piso la vivienda del - Madera burda – Tabla o Varchar
evaluado tablón
- Madera pulida – Baldosa –
79
Dimensión Columna Descripción Valores Tipo
Tableta – Mármol –
Alfombra
- Tierra - Arena
Cantidad de
cuartos de la
cantidad_cuartos - 1, …, 10 Integer
vivienda del
evaluado
Posesión de - Si
sn_computador Varchar
computador - No
Posesión de
- Si
sn_dvd reproductor de Varchar
- No
DVD
Posesión de - Si
sn_vehiculo Varchar
vehículo - No
- Si
sn_celular Posesión de celular Varchar
- No
Posesión de - Si
sn_internet Varchar
servicio de internet - No
Posesión de
- Si
sn_serviciotv servicio de Varchar
- No
televisión
Posesión de
- Si
sn_telefonia servicio de Varchar
- No
telefonía
Posesión de - Si
sn_lavadora Varchar
lavadora - No
- Si
sn_horno Posesión de horno Varchar
- No
Posesión de horno - Si
sn_microondas Varchar
microondas - No
Ciudad de origen
municipio_origen - Sogamoso, Bogotá, … Varchar
del evaluado
departamento_or Departamento
- Huila, Sucre, … Varchar
igen origen del evaluado
Puesto del
puesto evaluado en las - 1, 100, 567, …, 1000 Integer
pruebas
Código del
cod_mun_prese municipio de
- 15567, 63876, … Integer
ntacion presentación del
exámen
Municipio de
municipio_prese
presentación del - Tunja, Yopal, … Varchar
ntacion
exámen
Departamento de
departamento_pr
presentación del - Boyacá, Casanare, … Varchar
esentacion
exámen
Fuente. El Autor.
80
Tabla 19. Diccionario de datos detalles de instituciones
81
Figura 15. Cubo espacial ICFES Saber 11
Fuente. El Autor
82
6.3 CARACTERIZACIÓN Y SELECCIÓN DEL ALGORITMO DE MINERÍA DE
DATOS ESPACIALES
83
Tabla 22. Caracterización general
84
Algoritmo Descripción Métodos que utiliza
Permite utilizar reglas de asociación -Las medidas clave para la aplicación
que define conjuntos X y Y de de minería de reglas de asociación
predicados espaciales y no espaciales, incluyen Soporte y Confianza. Soporte
los primeros calculan relaciones entre se refiere al grado en el que una
objetos y devuelven un valor de verdad relación se presenta en los datos y la
como disjoint, touches, overlaps, Confianza es la probabilidad de que
contains, adjacent_to, near_by, inside, ocurra un precedente ocurriendo una
A-PRIORI [15]
close_to, y otros. consecuencia.
-Establece que si un itemset es
frecuente, también los son todos sus
subconjuntos. Porque el soporte de un
itemset no puede ser mayor que el de
cualquiera de sus subconjuntos,
llamada anti-monotonía del soporte.
Fuente. El Autor.
Parámetros de
Algoritmo Parámetros de entrada Pasos de aplicación
salida
Conjunto de Utilización de jerarquías de
Datos organizados en una tuplas o grupos generalización de valor
Generalización
bodega de datos con de datos según (VGH).
de datos
características espaciales un tipo dado de
espaciales [58]
(geometry) clasificación por
geometrías.
Datos organizados en una Conjunto de Utilización de jerarquías de
bodega de datos sin tuplas o grupos generalización de dominio
Generalización
características espaciales. de datos según (DGH).
de datos no
un tipo dado de
espaciales [58]
clasificación por
tablas.
K (Número de clústers) y D Un conjunto de -Elegir arbitrariamente K
(Conjunto de datos que K clústeres. objetos de D como grupo
contienen n objetos). inicial de centroides.
-Reasignar cada objeto a la
agrupación a la que el objeto
es más similar, en función
K-Means [18]
del valor medio de los
objetos en el clúster
-Actualizar el clúster, calcular
el valor medio de los objetos
de cada grupo.
85
Parámetros de
Algoritmo Parámetros de entrada Pasos de aplicación
salida
𝑑(𝑂𝑎 , 𝑂𝑏 ) es la seleccionado.
distancia entre -Seleccionar el par 𝑂𝑖 , 𝑂ℎ el
los objetos cual corresponde a
𝑂𝑎 𝑦 𝑂𝑏 𝑚𝑖𝑛𝑂𝑖 ,𝑂ℎ 𝑇𝐶𝑖ℎ , si el mínimo
𝑇𝐶𝑖ℎ es negativo, se
reemplaza 𝑂𝑖 𝑝𝑜𝑟 𝑂ℎ , y se
regresa al paso anterior.
N Clústeres de entrada para Clúster 1. Asignar cada ejemplo a un
combinar combinado clúster diferente (n ejemplos,
final. n clústeres)
2. Encontrar el par de
clústeres más similares y
combinarlos en un único
clúster
Botton-Up [61]
3. Recalcular las similitud o
distancias entre el nuevo
clúster y los clústeres
restantes
4. Hasta que solo quede un
clúster de tamaño n, volver a
2.
Clúster general para N Clústeres Inicia con una lista vacía de
desagregar encontrados punto de corte y se continúa
según separando los intervalos
Top-Down [62]
parámetros mientras se agregan nuevos
establecidos y puntos, llamado
reglas dadas. discretización.
Parámetros numlocal y Mejor nodo de 1-Dar como datos de entrada
maxneightbor, estos aplicación de los parámetros numlocal y
parámetros son definidos por los datos maxneightbor. Inicializar i a
el conjuntos de objetos y espaciales que 1, y mincost a un número
elementos de agrupamiento. el agrupamiento mayor.
resultante pudo 2-Establecer current a un
obtener. nodo arbitrario en 𝐺𝑛,𝑘
3-Establece j a 1
4-Considerar un vecino
aleatorio S de current, y
basado en la ecuación paso
(5), calcular el costo
CLARANS [17]
diferencial de los 2 nodos.
5-Si S tiene un costo menor,
establecer current a S, ir al
paso (3)
6-De lo contrario,
incrementar j en 1. Si j ?
maxneightbor, ir al paso (4)
7-De lo contrario, cuando j >
maxneightbor, comparar el
costo de current con mincost.
Si este es menor a mincost,
establecer mincost al costo
86
Parámetros de
Algoritmo Parámetros de entrada Pasos de aplicación
salida
de current y establecer
bestnode a current.
8-Incrementar i en 1. Si i >
numlocal, el resultado es
bestnode y terminar. De lo
contrario ir al paso (2)
Conjunto inicial de tuplas Conjunto de 1-Encontrar el conjunto inicial
relevantes tuplas no de tuplas relevantes
espaciales 2- Aplicar CLARANS a los
asociadas a los atributos espaciales para
conjuntos encontrar el número más
espaciales natural 𝐾𝑛𝑎𝑡 de clusters
SD-CLARANS
definidos. 3-Para cada 𝐾𝑛𝑎𝑡 clústeres
[17]
obtenidos:
3.1-Agrupar componentes no
espaciales en tuplas
incluidas en el clúster actual
3.2-Aplicar DBLEARN a
estos grupos no espaciales.
-N transacciones a aplicar Conjunto de 1-Se generan todos los
-Soporte de la regla: reglas de conjuntos de ítems que
supp(X->Y): Fracción de asociación contienen un solo elemento,
transacciones que contiene encontradas del con este se genera otro
tanto a X como a Y, lo que análisis de los conjunto que tenga 2
lleva a supp(X U Y). datos según el elementos y así se repite el
A-PRIORI [63] -Confianza de la regla: Soporte y proceso sucesivamente.
conf(X->Y): Fracción de las Confianza 2-La generación de las
transacciones en las que dados. reglas monitorea en que se
aparece X que también incluye cumpla en criterio mínimo de
a Y; esta mide la frecuencia confianza.
donde Y aparece en
transacciones que incluyen X.
Fuente. El Autor.
87
Algoritmo Ventajas Desventajas
-Trabaja de forma eficiente -Se aplica cuando se puede calcular el
-Integra elementos espaciales centroide, no tiene tanto éxito cuando
-Su implementación es sencilla y fácil. se trata de atributos de categorías.
-Sus selecciones se pueden basar en
resultados obtenidos de otros métodos
similares.
K-Means [61] -Necesita conocer el número de
clústeres k para comenzar.
-Sensitivo y algunos clústeres
resultantes pueden tener una taza de
convergencia menor.
-Puede no explorar los datos
espaciales con eficiencia.
-Más complejo que K-Means, en este -No está implementado para software
algoritmo la mediana no está influida tradicional.
K-Medoids por valores extremos logrando un -El manejo de sus operaciones es más
[17] método más robusto. complejo y al manejar elementos de
forma aleatoria no se garantiza la
confiabilidad de los resultados.
-No se necesita tener un número de -Si en el modelo se toman decisiones
clúster definido. incorrectas el resultado será indefinido.
Botton-Up [61] -Tiene diferentes niveles sin límite de -Es computacionalmente costoso por la
exploración que permite alto nivel de cantidad de procesamientos
análisis. realizados.
-Se puede construir un repositorio -El procesamiento de este algoritmo
centralizado del negocio, esto permite a requiere más tiempo y acceso a
Top-Down [62]
los datos son fiables y consistentes. recursos según el tamaño del
repositorio central.
-Es una combinación de los algoritmos -Cantidad de grupos k manejados
PAM y CLARA lo que le permite puede ser excesiva.
determinar objetos y realizar muestreos -Mala gestión de la memoria en el
CLARANS [64]
sobre los mismos. manejo de los datos.
-No se restringe a alguna muestra en -Detección de únicamente de algunos
un momento dado elementos en forma esférica.
-Sus propiedades de encontrar -Su alto consumo de memoria y poca
elementos no espaciales en datos implementación en sistemas de
SD-CLARANS espaciales. información y gestores de bases de
[64] -Es más complejo que CLARANS. datos, además sus procedimientos son
lentos por el manejo de múltiples
variables a la vez.
-Permite el descubrimiento de -En algunos tipos de datos de entrada
relaciones de asociación en grandes el consumo de memoria es elevado
cantidades de datos para la toma de -Su desarrollo es reciente lo que puede
A-PRIORI [63]
decisiones. llevar a no encontrar sistemas
-Eficaz en el uso de grandes bases de especializados que lo implementen.
datos.
Fuente. El Autor
88
integración de elementos alfanuméricos y espaciales, su capacidad para encontrar
valores permitiendo representarlos espacialmente, la posibilidad de utilizar los
resultados de los puntajes de las pruebas Saber 11 basándose en las preguntas
relacionadas con el análisis espacial y lo más importante que permite analizar
patrones espaciales de los casos según la media de la distancia entre puntos; lo
anterior a través del agrupamiento de puntajes para establecer clústeres de
evaluación según la clasificación del ICFES que son: alto (71-100), medio (31-70)
y bajo (0-30).
A partir de esto se tiene el caso específico de manejo especial del software KNIME
con su extensión espacial GeoKnime y la visualización cartográfica con la
extensión OpenStreetMap. Los clústeres encontrados a través de los grupos de
puntajes de cada uno de los evaluados se dividen en municipios y departamentos
de las instituciones educativas, para de esta forma reflejar qué lugares tienen los
mejores y peores puntajes; la clasificación anterior se realizó por áreas de
evaluación ya que de esta manera se muestra más específico el conocimiento
encontrado.
89
6.4.2 Preparación de los datos. Se requirió realizar vistas espaciales que
integrara y separara los datos necesarios para el cumplimiento del objetivo.
Fuente. El Autor.
90
Paso 1. Datos origen: Datos de los puntajes según el área de evaluación.
Fuente. El Autor.
91
Figura 18. Resultados área de biología.
Fuente. El Autor.
92
Figura 19. Resultados área de filosofía.
Fuente. El Autor.
93
Figura 20. Resultados área de física
Fuente. El Autor.
94
Figura 21. Resultados área de inglés.
Fuente. El Autor.
95
Figura 22. Resultados área de lenguaje.
Fuente. El Autor.
96
Figura 23. Resultados área de matemáticas.
Fuente. El Autor.
97
Figura 24. Resultados área de ciencias sociales.
Fuente. El Autor.
98
Figura 25. Resultados área de química.
Fuente. El Autor.
99
6.4.6 Elementos del conocimiento. En la extracción del conocimiento el
algoritmo SPATIAL K-MEANS selecciona N números de objetos aleatoriamente,
cada uno representa un centro inicial del grupo, para los demás objetos se les
asigna el grupo más similar basándose en la distancia del objeto, luego se vuelve
a recalcular la media para cada grupo repitiéndose el proceso hasta que todos los
valores sean agrupados [18], la Figura 26 muestra los pasos del algoritmo.
Fuente. El Autor.
Fuente. [34]
Fuente. [18]
100
6.5 IMPLEMENTACIÓN DEL VISOR GEOGRÁFICO Y ALFANÚMERICO DE
CONSULTA PARA INTELIGENCIA DE NEGOCIOS ESPACIALES
Fuente. El Autor.
101
En cuanto a SolapLayers la información es representada en mapas, estos fueron
divididos en mapas departamentales (Figura 30) y municipales (Figura 31 y 32)
utilizando las formas de generalización y especificación (Drill Down Y Roll Up). La
herramienta software hace uso del servidor GeoMondrian para ofrecer su utilidad
de representación alfanumérica y espacial manipulando los datos del esquema del
cubo de manera detallada, organizada y agradable al usuario final de forma
interactiva.
Fuente. El Autor.
Fuente. El Autor.
102
Figura 32. Mapas municipales (Cundinamarca).
Fuente. El Autor
Fuente. El Autor.
103
6.5.2 Respuestas relacionadas con el análisis espacial.
DEPARTAMENTAL MUNICIPAL
Fuente. El Autor.
104
2. ¿Cuál es la cantidad de evaluados en 2013?, por: calendario A, mixto, oficial,
jornada mañana de las instituciones educativas en áreas de núcleo común por
departamento y municipio según análisis espacial.
DEPARTAMENTAL MUNICIPAL
Fuente. El Autor.
105
3. ¿Cuáles son los máximos puntajes de los evaluados en biología por institución
educativa por departamento 2009 vs 2013 representados espacialmente?
Fuente. El Autor.
106
4. ¿Cuál fue el mejor departamento de Colombia en obtener los puntajes más
altos en los resultados de las pruebas saber 11 y al mismo tiempo cual fue el
más bajo en el año 2013 representados espacialmente?
MAPA DEPARTAMENTAL
ESCALA DE VALORES
Fuente. El Autor.
107
5. ¿Cuáles fueros los máximos puntajes del área de matemáticas en los
municipios del departamento de Boyacá del año 2013 según análisis espacial?
DEPARTAMENTO DE BOYACÁ
Fuente. El Autor.
108
7. CONCLUSIONES
109
Con el apoyo de los funcionarios del área de investigación del ICFES se pudo
orientar el proyecto con los elementos de análisis para la realización de la
bodega y cubo espacial, esto alimentado con los archivos planos que se
proporcionaron por la entidad.
110
TRABAJOS FUTUROS
111
BIBLIOGRAFÍA
[2] Lamas, A, et al. Creación de un módulo espacial OLAP para Saiku. Galicia,
España: VIII Jornadas de SIG Libre de Girona, 2013. p 9
[9] Silva, J.d., et al., Modelling and querying geographical data warehouses.
ACM, 2010: p. 592-614
112
[14] Geoinformatica. Elementos SIG. 2014. [Online] Disponible en:
http://geoinfoproyecto.blogspot.com/
[15] Aljure, D.C. and J.G. Agudelo, Spatial data mining – An overview. Bogotá,
Colombia: Universidad Nacional de Colombia, 2011
[16] Roddick, J.F. and B.G. Lees, Spatio-Temporal Data Mining Paradigms and
Methodologies. 2009
[18] Sharma, R., M.A. Alam, and A. Rani, K-Means Clustering in Spatial Data
Mining using Weka Interface. International Journal of Computer
Applications, 2012
[23] Frade, D.O.A. and J.N.P. Castillo, Estado Actual de las Tecnologías de
Bodega de Datos y OLAP Aplicadas a Bases de Datos Espaciales . Bogotá,
Colombia: Universidad Distrital de Colombia, 2007
[24] Codd, E.F., S.B. Codd, and Salley, Providing OLAP to user-analysts: An IT
mandate. E. F. Codd and Associates, 1993
[26] Xiaoli, L., Y. Chen, and L. Daoliang, A spatial decision support system for
land-use structure optimization. Wisconsin, USA: ACM, 2009
113
[27] Blecic, I., A. Cecchini, and G.A. Trunfio, A general-purpose geosimulation
infrastructure for spatial decision support. Berlin, Heidelberg: Springer-
Verlag, 2009
[29] Cerreta, M. and P.D. Toro, Assessing urban transformations: a SDSS for
the master plan of castel capuano, naples. Naples, Italia: Computational
Science and Its Applications, 2012
[31] Uyan, M., T. Cay, and O. Akcakaya, A Spatial Decision Support System
design for land reallocation: A case study in Turkey. Science-Direct, 2013
[32] Zou, X., et al., Spatial decision support system for the potential evaluation of
land consolidation projects. USA: ACM, 2008
[33] Wu, W., et al., A Spatial Decision Support System for Citrus Management A
Case Study of the Three Gorges Area of China. China: Environmental
Science and Information Application Technology, 2009
[35] Bimonte, S., et al., Definition and analysis of new agricultural farm energetic
indicators using spatial OLAP. Aubieri, Francia: Computational Science and
Its Applications, 2012: p. 373-385
[36] Cohen, Y., et al., Spatial decision support system for Medfly control in citrus.
Bet Dagan, Israel: ScienceDirect, 2008
[37] Yu, X. and K. Liu, A Spatial Decision Support System for Large Scale
Vehicle Routing. Zhangjiajie, Hunan: Measuring Technology and
Mechatronics Automation International Conference, 2009: p. 444-449
114
[39] Santos, L., J. Coutinho-Rodrigues, and C.H. Antunes, A web spatial
decision support system for vehicle routing using Google Maps. Coimbra,
Portugal: Universidad de Coimbra, 2011: p. 1-9
[40] Minghu, W., et al., A Spatial Decision Support System for River Basin Water
Pollution Control and Prevention. Information Technology, 2010
[42] Kaunda-Bukenya, N., et al., Spatial Decision Support System (SDSS) for
Stormwater Management and Water Quality Assessment Water Quality
Monitoring and Assessment, USA: Intech, 2012: p. 22
[45] Sun, L. and H. Zhu, GIS-Based Spatial Decision Support System for Real
Estate Appraisal. Harbin, China: IEEE, 2009
[47] Kyung, M.-J., J.-H. Yom, and S.-Y. Kim, Spatial data warehouse design and
spatial OLAP implementation for decision making of geospatial data update.
Seoul, Korea: KSCE Journal of Civil Engineering, 2012: p. 1023-1031
[48] Yin, W., et al., Towards Data Management of Web-Based Spatial Decision
Support: The Case of Facility Network Transformation Analysis Services.
Beijing, China: IEEE, 2008
[49] Martino, S., et al., Spatial OnLine Analytical Processing of Geographic Data
through the Google Earth Interface. Napoly, Italia: Springer, 2011
115
[51] Chen, Y. and D. Li, Spatial decision support system for reclamation in
opencast coal mine dump. China: Wseas Transactions On Computers, 2008
[59] Written, I.H. and E. Frank, Data Mining, Practice Machine Learning Tools
and Techniques. USA: Elsevier, 2005
[60] Rodríguez, J.E., Artificial Neuronal Nerwork ART2 for Clustering Data.
Bogotá, Colombia: Universidad Distrital de Colombia, 2007
[61] Godoy, D., Minería de Datos Web. Buenos Aires, Argentina: Universidad
Nacional del Centro de la Provincia de Buenos Aires, 2014
[62] Acuña, E., Minería de Datos. Puerto Rico: Universidad de Puerto Rico, 2013
[64] Zaiane, O.R. and C.-h. Lee, Density-Based Clustering of Spatial Data when
facing Physical Constraints. 2012
[65] Cabena, P., et al., Discovering data mining from concept to implementation.
1998
116
[66] Hurtado, J. and Cáceres. G, Análisis de enfermedades crónicas en usuarios
del hospital de paipa usando inteligencia de negocios espacial. Colombia:
Tunja, 2014.
117