Está en la página 1de 117

INTELIGENCIA DE NEGOCIOS ESPACIALES ORIENTADA AL ANÁLISIS DE

DATOS SOBRE PRUEBAS SABER 11 DEL ICFES

ESTUDIANTE
CHRISTIAM ALEJANDRO NIÑO PEÑA
CÓDIGO: 201122138

UNIVERSIDAD PEDAGÓGICA Y TECNOLÓGICA DE COLOMBIA


FACULTAD DE POSTGRADOS EN INGENIERÍA
MAESTRÍA EN TECNOLOGÍA INFORMÁTICA
TUNJA
2015

1
INTELIGENCIA DE NEGOCIOS ESPACIALES ORIENTADA AL ANÁLISIS DE
DATOS SOBRE PRUEBAS SABER 11 DEL ICFES

ESTUDIANTE
CHRISTIAM ALEJANDRO NIÑO PEÑA
CÓDIGO: 201122138

Trabajo de Grado para optar al Título de Magister en Tecnología Informática

Msc. GUSTAVO CÁCERES CASTELLANOS


Director

UNIVERSIDAD PEDAGÓGICA Y TECNOLÓGICA DE COLOMBIA


FACULTAD DE POSTGRADOS EN INGENIERÍA
MAESTRÍA EN TECNOLOGÍA INFORMÁTICA
TUNJA
2015

2
“La Universidad Pedagógica y Tecnológica de Colombia no se hace responsable
por las ideas expuestas en el presente trabajo y son responsabilidad total del
autor”

3
Nota de aceptación:

________________________________
________________________________
________________________________
________________________________
________________________________
________________________________

________________________________
Firma del presidente del jurado

________________________________
Firma del jurado

________________________________
Firma del jurado

Tunja, 20 de abril de 2015

4
DEDICATORIA

A Dios por otorgarme la sabiduría, fortaleza y vida para seguir adelante.

A mi familia por apoyarme cada día de mi vida brindándome su amor y afecto en


todos mis proyectos.

Al Ingeniero Gustavo Cáceres Castellanos ya que sin su dirección, apoyo y


conocimiento esta investigación no hubiese sido posible y con el cumplimiento de
los objetivos planteados.

A mis profesores y compañeros por brindarme parte de su experiencia profesional


y académica.

5
AGRADECIMIENTOS

Al Msc. Gustavo Cáceres Castellanos, quien me colaboró con la idea de realizar


este proyecto y aceptó dirigir el desarrollo del mismo.

Al instituto colombiano para la evaluación de la educación a nivel nacional (ICFES)


por proporcionarme los datos y aval para hacer posible la realización del proyecto.

A los jurados del proyecto ya que con su evaluación precisa y completa se evaluó
el proyecto de la mejor manera y con el cumplimiento de estándares y normas
establecidas.

6
CONTENIDO

pág.

INTRODUCCIÓN………………………………………………………………………... 19

1. DEFINICIÓN DEL PROBLEMA……………………………………………………...21

1.1 FORMULACIÓN DEL PROBLEMA……………………………………………….. 21

1.2 DESCRIPCIÓN DEL PROBLEMA………………………………………………… 21

2. JUSTIFICACIÓN……………………………………………………………………… 22

3. OBJETIVOS……………………………………………………………………………23

3.1 OBJETIVO GENERAL……………………………………………………………… 23

3.2 OBJETIVOS ESPECÍFICOS………………………………………………………. 23

4. MARCO REFERENCIAL…………………………………………………………….. 24

4.1 MARCO TEÓRICO…………………………………………………………………. 24

4.1.1 Inteligencia de negocios…………………………………………………………. 24

4.1.1.1 Beneficios……………………………………………………………………….. 25

4.1.1.2 Arquitectura…………………………………………………………………….. 25

4.1.1.3 Componentes básicos………………………………………………………… 26

4.1.2 Bodegas de datos espaciales…………………………………………………... 27

4.1.2.1 Tipos de datos espaciales…………………………………………………….. 28

4.1.2.2 Definición de objetos espaciales……………………………………………… 30

7
4.1.2.3 Funciones espaciales………………………………………………………….. 30

4.1.3 Sistema de información geográfica……………………………………………...31

4.1.3.1 Componentes………………………………………………………………….. 31

4.1.3.2 Funciones……………………………………………………………………….. 31

4.1.3.3 Representación de la información……………………………………………. 31

4.1.3.4 Encadenamiento de objetos y atributos en categorías…………………….. 32

4.1.4 Minería de datos espaciales. …………………………………………………… 32

4.1.4.1 Clasificación de métodos y técnicas…………………………………………. 34

4.1.4.2 Técnicas de minería de datos espacial………………………………………. 35

4.1.5 Inteligencia de negocios espaciales……………………………………………. 36

4.1.5.1 Pasos de la inteligencia de negocios espacial……………………………….38

4.1.5.2 Arquitectura. ……………………………………………………………………. 39

4.2 MARCO CONCEPTUAL…………………………………………………………… 41

4.2.1 Base de datos espacial………………………………………………………….. 41

4.2.2 Bodega de datos. ………………………………………………………………… 41

4.2.3 Inteligencia de negocios. ……………………………………………………….. 41

4.2.4 Sistema de información geográfica. …………………………………………….41

4.2.5 Inteligencia de negocios espaciales. …………………………………………... 42

4.2.6 Minería de datos espaciales…………………………………………………….. 42

4.2.7 Instituto Colombiano para la Evaluación de la Educación. ………………….. 42

4.3 ESTADO ACTUAL………………………………………………………………….. 42

4.3.1 Uso del suelo. …………………………………………………………………….. 43

8
4.3.2 Simulación. ……………………………………………………………………….. 43

4.3.3 Infraestructura urbana. …………………………………………………………...44

4.3.4 Gestión del territorio. …………………………………………………………….. 45

4.3.5 Agricultura. ……………………………………………………………………….. 46

4.3.6 Transporte. ……………………………………………………………………….. 47

4.3.7 Gestión del riesgo. ………………………………………………………………. 48

4.3.8 Socio-economía. …………………………………………………………………. 49

4.3.9 Servicios tecnológicos. ………………………………………………………….. 50

4.3.10 Salud. ……………………………………………………………………………. 50

4.3.11 Minería. ………………………………………………………………………….. 51

5. DISEÑO METODOLÓGICO………………………………………………………… 52

5.1 ENFOQUE…………………………………………………………………………… 52

5.2 TIPO DE INVESTIGACIÓN…………………………………………………………52

5.3 POBLACIÓN………………………………………………………………………… 52

5.4 MUESTRA…………………………………………………………………………… 53

5.5 FUENTES DE INFORMACIÓN……………………………………………………. 53

5.6 INSTRUMENTOS…………………………………………………………………… 53

5.7 SELECCIÓN E IMPLEMENTACIÓN DE TÉCNICA DE AGRUPAMIENTO….. 53

5.8 PRUEBAS…………………………………………………………………………… 53

5.9 RESULTADOS Y CONCLUSIONES……………………………………………… 53

6. RESULTADOS……………………………………………………………………….. 54

9
6.1 CARACTERIZACIÓN DE HERRAMIENTAS INFORMÁTICAS PARA APLICAR
INTELIGENCIA DE NEGOCIOS ESPACIALES…………………………………….. 54

6.1.1 Sistemas de información geográfica……………………………………………. 55

6.1.1.1 Descripción general……………………………………………………………..55

6.1.1.2 Características técnicas……………………………………………………….. 56

6.1.1.3 Características funcionales y observaciones………………………………... 57

6.1.2 Procesamiento analítico en línea……………………………………………….. 61

6.1.2.1 Descripción general……………………………………………………………..61

6.1.2.2 Características técnicas……………………………………………………….. 61

6.1.2.3 Características funcionales y observaciones……………………………….. 62

6.1.3 Procesamiento analítico en línea espacial…………………………………….. 65

6.1.3.1 Descripción general……………………………………………………………. 65

6.1.3.2 Características técnicas……………………………………………………….. 65

6.1.3.3 Características funcionales y observaciones……………………………….. 66

6.1.4 Selección de herramientas de trabajo SOLAP………………………………… 67

6.2 DISEÑO E IMPLEMENTACIÓN DE LA BODEGA DE DATOS ESPACIAL DE


LAS PRUEBAS SABER 11……………………………………………………………. 68

6.2.1 Planeación del proyecto…………………………………………………………. 68

6.2.1.1 Planeación y Administración del proyecto…………………………………… 68

6.2.1.2 Planeación del proyecto……………………………………………………….. 69

6.2.1.3 Desarrollo cronograma de actividades………………………………………..70

6.2.2 Definición de requerimientos de negocio………………………………………. 71

6.2.2.1 Análisis de requerimientos. …………………………………………………....71

6.2.2.2 Levantamiento de información. ……………………………………………… 71

10
6.2.3 Diseño arquitectura técnica. ……………………………………………………..72

6.2.4 Modelamiento dimensional. ……………………………………………………. 73

6.2.5 Diseño conceptual……………………………………………………………….. 73

6.2.5.1 Forma no normalizada…………………………………………………………. 74

6.2.5.2 Forma normalizada…………………………………………………………….. 74

6.2.5.3 Parte espacial…………………………………………………………………… 74

6.2.5.4 Dimensiones…………………………………………………………………….. 74

6.2.5.5 Tabla de hechos…………………………………………………………………75

6.2.6 Diseño lógico……………………………………………………………………….75

6.2.7 Diseño físico………………………………………………………………………. 75

6.2.8 Diseño de capas de datos intermedia y desarrollo. ………………………….. 75

6.2.8.1 Procesos ETL Dimensiones…………………………………………………… 75

6.2.9 Cubo espacial……………………………………………………………………... 81

6.3 CARACTERIZACIÓN Y SELECCIÓN DEL ALGORITMO DE MINERÍA DE


DATOS ESPACIALES………………………………………………………………….. 83

6.3.1 Caracterización…………………………………………………………………….83

6.3.2 Selección………………………………………………………………………….. 88

6.4 APLICACIÓN DE MINERÍA DE DATOS ESPACIALES SOBRE LA BODEGA


DE DATOS ESPACIAL DE LAS PRUEBAS ICFES SABER 11…………………… 89

6.4.1 Determinación de objetivos…………………………………………………….... 89

6.4.2 Preparación de los datos………………………………………………………… 90

6.4.3 Transformación de los datos……………………………………………………. 90

6.4.4 Minería de datos…………………………………………………………………. 90

6.4.5 Resultados encontrados………………………………………………………… 91

11
6.4.6 Elementos del conocimiento…………………………………………………. 100

6.5 IMPLEMENTACIÓN DEL VISOR GEOGRÁFICO Y ALFANÚMERICO DE


CONSULTA PARA INTELIGENCIA DE NEGOCIOS ESPACIALES…………… 101

6.5.1 Herramienta software………………………………………………………….. 101

6.5.2 Respuestas relacionadas con el análisis espacial…………………………... 104

7. CONCLUSIONES…………………………………………………………………… 109

TRABAJO FUTUROS………………………………………………………………….111

BIBLIOGRAFÍA………………………………………………………………………… 112

12
LISTA DE FIGURAS

pág.

Figura 1. Representación de la inteligencia de negocios ....................................... 25

Figura 2. Arquitectura de inteligencia de negocios. ............................................... 26

Figura 3. Elementos integradores de la Inteligencia de negocios .......................... 27

Figura 4. Esquema de datos de la bodega de datos espacial ............................... 29

Figura 5. Elementos asociados a un SIG. .............................................................. 32

Figura 6. Secuencia de desarrollo de la Minería de datos. .................................... 34

Figura 7. Elementos para desarrollar de inteligencia de negocios espaciales. ...... 37

Figura 8. Visión de la información geoespacial SIG y GeoBI. ................................ 38

Figura 9. Comparación de sistemas de información según los datos .................... 39

Figura 10. Pasos de desarrollo de Geo BI. ............................................................ 39

Figura 11. Arquitectura de una bodega de datos espacial ..................................... 40

Figura 12. Arquitectura Inteligencia de Negocios Espaciales ................................ 40

Figura 13. Diseño arquitectura técnica bodega de datos espacial ......................... 72

Figura 14. Diseño lógico de la bodega de datos espacial. ..................................... 76

Figura 15. Cubo espacial ICFES Saber 11 ............................................................ 82

Figura 16. Pasos de aplicación de la minería de datos espacial............................ 90

Figura 17. Colores de la clasificación de puntajes ................................................. 91

Figura 18. Resultados área de biología. ................................................................ 92

Figura 19. Resultados área de filosofía. ................................................................ 93

13
Figura 20. Resultados área de física ..................................................................... 94

Figura 21. Resultados área de inglés. ................................................................... 95

Figura 22. Resultados área de lenguaje. ............................................................... 96

Figura 23. Resultados área de matemáticas. ........................................................ 97

Figura 24. Resultados área de ciencias sociales. .................................................. 98

Figura 25. Resultados área de química. ................................................................ 99

Figura 26. Pasos algoritmo K-Means espacial. .................................................... 100

Figura 27. Fórmula matemática para el cálculo de los clústeres. ........................ 100

Figura 28. Fórmula de Euclides para distancia. ................................................... 100

Figura 29. Software GeoMondrian ....................................................................... 101

Figura 30. Mapa departamental (Colombia) ........................................................ 102

Figura 31. Mapas municipales (Boyacá). ............................................................. 102

Figura 32. Mapas municipales (Cundinamarca)................................................... 103

Figura 33. Estilo de temáticas y datos del cubo ................................................... 103

Figura 34. Resultados pregunta 1 ........................................................................ 104

Figura 35. Resultados pregunta 2. ....................................................................... 105

Figura 36. Resultados pregunta 3. ....................................................................... 106

Figura 37. Resultados pregunta 4. ....................................................................... 107

Figura 38. Resultados pregunta 5. ....................................................................... 108

14
LISTA DE TABLAS

pág.

Tabla 1. Tipos de datos en una base de datos espacial ........................................ 29

Tabla 2. Funciones aplicadas a objetos espaciales. .............................................. 30

Tabla 3. Métodos de minería de datos. .................................................................. 34

Tabla 4. Técnicas de minería de datos no espacial. .............................................. 35

Tabla 5. Técnicas de minería de datos espacial .................................................... 35

Tabla 6. Descripción general de aplicativos SIG.................................................... 55

Tabla 7. Características técnicas de aplicativos SIG ............................................. 56

Tabla 8. Características funcionales y observaciones aplicativos SIG .................. 57

Tabla 9. Descripción general software OLAP ........................................................ 61

Tabla 10. Características técnicas software OLAP ................................................ 61

Tabla 11. Características funcionales y observaciones software OLAP ................ 62

Tabla 12. Descripción general software SOLAP .................................................... 65

Tabla 13. Características técnicas software SOLAP.............................................. 65

Tabla 14. Características funcionales y observaciones software OLAP ................ 66

Tabla 15. Roles y responsabilidades ..................................................................... 69

Tabla 16. Cronograma de actividades bodega de datos espacial ......................... 70

Tabla 17. Dimensiones diseñadas ......................................................................... 74

Tabla 18. Diccionario de datos dimensiones ......................................................... 77

Tabla 19. Diccionario de datos detalles de instituciones ........................................ 81

Tabla 20. Diccionario de datos tabla de hechos .................................................... 81

15
Tabla 21. Técnicas y algoritmos de minería de datos espacial y no espacial ........ 83

Tabla 22. Caracterización general ......................................................................... 84

Tabla 23. Caracterización según parámetros de procedimientos .......................... 85

Tabla 24. Caracterización según ventajas y desventajas. ..................................... 87

16
RESUMEN

El proyecto se relaciona en el estudio y aplicación de inteligencia de negocios


espaciales sobre las bases de datos del ICFES Saber 11 a nivel nacional. Para su
desarrollo se tomaron los datos de los años 2009 a 2013 concentrando
información de los evaluados, instituciones educativas, condiciones
socioeconómicas y municipios posicionados geográficamente usando 3 campos
específicos: geometría para polígonos y latitud-longitud para puntos.

En la investigación, se determinaron herramientas software que permitieran aplicar


inteligencia de negocios espaciales de forma completa y con todas las
características que esta conlleva, planteando la pregunta: ¿De qué manera se
podría soportar la toma de decisiones relacionadas con los resultados
almacenados en las bases de datos de las pruebas ICFES Saber 11 a través de
inteligencia de negocios espaciales?, para dar respuesta a esta cuestión se
desarrollaron tareas que implican el procesamiento inicial de los datos en el diseño
del almacén de datos espaciales aplicando la metodología de Kimball, modelado
del esquema de cubo espacial, desarrollo de minería de datos espaciales con la
aplicación del algoritmo K-Means y la implementación de una aplicación web de
visualización de los resultados de acuerdo con los factores necesarios para este
fin "mapas y estadísticas gráficas"; lo anterior para obtener resultados claros que
puedan ser analizados por los expertos en el tema, para así permitir que tengan
control sobre el lugar de los sucesos y de esta manera poder situar los esfuerzos
donde en realidad se necesitan.

Palabras Claves: Bodegas de datos espaciales, Cubos de datos espaciales,


Inteligencia de negocios espaciales, Minería de datos espaciales, Procesamiento
analítico en línea espacial.

17
ABSTRACT

The project relates to the study and application of spatial business intelligence on
databases ICFES Saber 11 to nationally. To development is took the data the
years 2009 to 2013 collecting information from the students, educational
institutions, socioeconomic conditions and municipalities geographically positioned
using 3 specific areas: geometry to polygons and latitude-longitude for points.

In the investigation, is determined that software tools allow spatial business


intelligence in full way and with whole characteristics that this implicate. Raising a
question, ¿what way could support decision-making related with the results stored
in the databases of the tests ICFES Saber 11 through spatial business
intelligence? In order to give an answer to this question, is applied development
tasks that would involve the initial treatment of the data in the design of spatial data
warehouse using the methodology of Kimball, modeling the structure of spatial
cube, development of spatial data mining to the application of algorithm K-Means
and implementation of a web application for displaying the results according to the
factors necessary for this purpose "maps and graphical statistics". That information
will give clear results to the experts in the field to be used and allow them to have
control over the place of events and thus be able to locate where efforts are
actually needed.

Keywords: Spatial Data Warehouse, Spatial Data Cubes, Spatial Bussines


Intelligence, Spatial Data Mining, Spatial Analitic Process Online.

18
INTRODUCCIÓN

La información almacenada en una organización a través del tiempo puede


contener datos de cualquier tipo: enteros, flotantes, caracteres, cadenas de
caracteres, booleanos, entre otros. Al mismo tiempo estos datos se relacionan con
procesos y procedimientos en diversas temáticas como sectores educativos,
sociales, empresariales o políticos que requieren resultados o cifras históricas
para cumplir con las metas propuestas actuales.

Para obtener estas respuestas se realizan técnicas de inteligencia de negocios


que resultan bastante útiles y que proporcionan un amplio marco de referencia
para la toma de decisiones sobre los posibles problemas a contemplar, sin
embargo, estos análisis se quedan cortos o incompletos cuando se quiere obtener
información que compromete un sitio, lugar o marco geográfico [1].

En la aplicación de inteligencia de negocios espaciales se realizan una serie de


etapas que en su orden permiten estructurar elementos para el soporte de toma
de decisiones en forma completa, se comienza con los datos transaccionales
históricos recolectados con su componente espacial, luego se procede a la
extracción, transformación y carga, posteriormente se analizan y diseñan las
dimensiones y medidas para el modelado del cubo espacial, para así, llegar a la
minería espacial con lo que se tienen los elementos de información suficientes
para obtener los resultados para la toma de decisiones, que en este caso serán
numéricos, estadísticos y espaciales, dando una visión mucho más amplia de
cómo se relacionan estos datos y que decisiones se deberían tomar [1].

El conjunto de pasos anteriores se automatiza en un número de aplicaciones que


permiten realizar estas tareas de forma clara y ordenada, aunque no existe una
única herramienta para el desarrollo de inteligencia de negocios espaciales, la
combinación de los sistemas software permite su aplicación, ofreciendo soporte
para la toma de decisiones espaciales [2].

El desarrollo del proyecto va orientado a soportar la toma de decisiones en el


ICFES para las pruebas Saber 11 por medio de sus bases de datos históricas,
teniendo en cuenta que según información proporcionada por el ICFES al día de
hoy no se ha realizado un análisis de inteligencia de negocios espaciales que
implique las tendencias históricas y el comportamiento de los datos por ubicación
geográfica, ya sea del orden nacional, departamental, municipal y/o de

19
instituciones educativas que permita soportar la toma de decisiones. Razón por la
cual el desarrollo del proyecto se enfoca en el tratamiento de los datos utilizando
el componente espacial aplicando inteligencia de negocios espaciales siguiendo
una serie de objetivos que permiten realizarla.

En el primer objetivo se seleccionó la herramienta software más completa que


permite aplicar inteligencia de negocios espaciales, en el segundo objetivo se
diseñó y creo la bodega de datos y cubo espacial adecuado para poder tener el
insumo de información para el tratamiento de la información, como tercer y cuarto
objetivo se seleccionó y aplicó el algoritmo de minería de datos espaciales para
obtener el conocimiento asociado y por último objetivo se implementó un visor de
información espacial que permite manipular y observar los resultados de las
medidas y dimensiones para la toma de decisiones espacial de forma clara y
completa.

Además su aplicación en las bases de datos, análisis empresariales y toma de


decisiones es clave por su nivel de análisis, minimizando riesgos y guiando a los
mejores resultados en la aplicación de proyectos y recursos, razón de importancia
para poder aplicar la inteligencia de negocios en las bases de datos del ICFES
pruebas Saber 11 y así tener un elemento que permite tomar decisiones sobre
factores donde antes solo se tenía una visión cuantitativa en tablas y gráficos
estadísticos como barras, pasteles o líneas, teniendo ahora representación
espacial en mapas con puntos, polígonos y líneas mucho más amplia y completa.

20
1. DEFINICIÓN DEL PROBLEMA

1.1 FORMULACIÓN DEL PROBLEMA

¿De qué manera se podría soportar la toma de decisiones relacionadas con los
resultados almacenados en las bases de datos de las pruebas ICFES Saber 11 a
través de inteligencia de negocios espaciales?

1.2 DESCRIPCIÓN DEL PROBLEMA

El ICFES (Instituto Colombiano para la Evaluación de la Educación) cuenta con


una base de datos con registros almacenados del año 2000 al 2013 que contiene
información de puntajes de núcleo común y del componente flexible a nivel de
individuos, información sociodemográfica y clasificación de planteles educativos
de las pruebas Saber 11. Con esta pruebas se comprueba el nivel de
competencias de los estudiantes cuando culminan sus estudios de grado 11 y de
las instituciones educativas de carácter público y privado, y cuyos resultados son
utilizados por las instituciones de educación superior para la selección de
candidatos que cumplan con las capacidades para cursar un programa de
formación profesional y otras entidades para medir indicadores educativos. Según
informes del ICFES las pruebas se realizan semestralmente a un promedio de
600.000 personas en 1.100 sitios de aplicación en los 32 departamentos del país
[3] y según estadísticas del DANE que para el último año implicó a 14.148
instituciones educativas que prestan servicios de educación media en jornadas
diurna y nocturna [4].

Según información proporcionada por el ICFES al día de hoy no se ha realizado


un análisis de inteligencia de negocios espaciales que implique las tendencias
históricas y el comportamiento de los datos por ubicación geográfica [5], ya sea
del orden nacional, departamental, municipal y de instituciones educativas que
permita soportar la toma de decisiones.

21
2. JUSTIFICACIÓN

El ICFES cuenta con un gran volumen de datos de carácter histórico y además


están clasificados de manera geográfica, lo que permite realizar este tipo de
análisis de inteligencia de negocios espacial para soportar la toma de decisiones.

Estos resultados permiten la toma de decisiones respecto a los datos


almacenados a través del tiempo y ayudan a medir su tendencia según el análisis
aplicado, identificando las zonas que geográficamente se verán afectadas por
medio de los instrumentos y algoritmos utilizados en la aplicación de la inteligencia
de negocios espaciales, además al no existir estudio alguno que implique este tipo
de datos hace pertinente el desarrollo del proyecto.

22
3. OBJETIVOS

3.1 OBJETIVO GENERAL

Soportar el análisis de los resultados de las pruebas saber 11 a nivel nacional por
medio de inteligencia de negocios espaciales.

3.2 OBJETIVOS ESPECÍFICOS

- Caracterizar las herramientas informáticas y seleccionar la que más se ajuste


según un comparativo para la aplicación de inteligencia de negocios
espaciales.
- Diseñar y desarrollar la bodega de datos espacial sobre los datos de las
pruebas Saber 11 proporcionados por el ICFES.
- Caracterizar y seleccionar los algoritmos para minería de datos espaciales.
- Aplicar minería de datos espaciales sobre la bodega de datos espacial de las
pruebas ICFES Saber 11.
- Implementar un visor de información geográfica y alfanumérica para consultar
los resultados obtenidos con la aplicación de inteligencia de negocios
espaciales.

23
4. MARCO REFERENCIAL

4.1 MARCO TEÓRICO

Las organizaciones para cumplir sus metas y tomar las mejores decisiones se han
planteado retos en cuanto al análisis de la información, ya sea por competitividad,
costos y/o ganancia; disponer de una bodega de datos con los registros históricos
de movimientos se volvió algo muy importante. Sumado a esto surgió un nuevo
factor que permitiría tener control sobre el lugar de los sucesos y de esta manera
poder situar los esfuerzos donde más se necesitan, este factor se identifica con el
espacio geográfico llamado tipo de dato espacial. A partir de este se crean nuevas
formas de análisis de los datos como la inteligencia de negocios, las bodegas de
datos, consultas, modelado y minería de datos enfocados en el descubrimiento de
conocimiento espacial.

4.1.1 Inteligencia de negocios. Según Vicenteño, González, y Álvaro [6], “es


una combinación de tecnologías, herramientas y procesos que permiten
transformar los datos en información, la información en conocimiento y este
conocimiento dirigirlo a la toma de decisiones sobre un proyecto o plan”.

Las empresas hoy en día se enfrentan a situaciones en las que deben asumir
muchos factores como:

- Se tienen datos pero no información: Hay que profundizar el nivel de


conocimiento de todos los elementos relacionados con la organización, entre
los cuales pueden haber patrones de comportamiento, rastreo, entendimiento y
administración [6].
- Fragmentación: Existencia de aplicaciones independientes en los
departamentos u oficinas que generan datos lo cual limita la toma de
decisiones debido a que la información se encuentra en diferentes lugares [6].
- Manipulaciones manuales: Se utilizan reportes que no son confiables
ocasionando desviación de decisiones [6].
- Poca agilidad: Por los elementos anteriores se tiene un rendimiento muy bajo
[6].

24
4.1.1.1 Beneficios. Entre los beneficios que presenta la inteligencia de negocios
se encuentran según [7]:

- Manejar el crecimiento: Evolución para crecer y cambiar.


- Control de costos: Tener la capacidad de medir gastos y ver niveles de
producción.
- Entender mejor a los clientes: Según las ventas realizadas, el lugar, el producto
y los clientes más comunes.
- Indicadores de gestión: Representar la estrategia organizacional en objetivos,
métricas, iniciativas y tareas.

La Figura 1 muestra la representación de la inteligencia de negocios en pasos


predeterminados para llegar a obtener un valor competitivo en la organización.

Figura 1. Representación de la inteligencia de negocios

Fuente. Guzmán [7]

4.1.1.2 Arquitectura. La arquitectura de la inteligencia de negocios se describe


como se muestra a continuación.

- Las fuentes de datos, son de diversos tipos (XML, XLS, Bases de datos Oracle,
SQL Server, MySQL, entre otras) [8].
- El proceso de extracción, transformación y carga (ETL), se definen las fuentes
heterogéneas sobre los campos que se van a utilizar, si se requieren modificar
o transformar los datos realizando “mapping” [8].

25
- El repositorio de datos, aquí se encuentran los datos transformados en
modelos multidimensionales, dimensiones y tablas de datos [8].
- El proceso de visualización o interfaz de usuario, aquí es donde se habilitan
componentes, administran consultas, monitorean procesos, se realizan
cálculos, entre otros [8].
- Los usuarios que toman las decisiones.

La Figura 2 muestra la arquitectura de la inteligencia de negocios.

Figura 2. Arquitectura de inteligencia de negocios.

Fuente. Universidad Nacional de Colombia [8].

4.1.1.3 Componentes básicos. Los componentes básicos de la inteligencia de


negocios son según [7]:

- Herramientas ETL de gestión, administración y carga.


- Almacenamiento de datos.
- Funciones que desarrollan servicios y generan reportes.
- Procedimientos analíticos integrados (OLAP).
- Minería de datos.
- Servicios de Análisis.
- Indicadores de desempeño.
- Servicios de reportes.

26
La Figura 3 muestra una representación de los componentes básicos de la
inteligencia de negocios con relación a la organización.

Figura 3. Elementos integradores de la Inteligencia de negocios

Fuente. Guzmán [7].

4.1.2 Bodegas de datos espaciales. Según Silva y otros [9], las bodegas de
datos espaciales adicionan el tipo de dato espacial, el cual potencia las
capacidades de las bases de datos y permite obtener un análisis multidimensional
soportando nuevas formas de solucionar problemas específicos.

Estos datos espaciales cuentan con las siguientes propiedades:

- Pueden estar compuestos de un sólo punto o cientos de ellos para así formar
polígonos.
- Los operadores sobre los datos son dependientes del dominio de la aplicación.
- La mayoría de los operadores no son cerrados.
- El costo de implementar operadores espaciales es mucho más alto que el de
operar operadores relacionales.

27
Además, las bodegas de datos espaciales son adecuadas para el almacenamiento
de información histórica sobre lugares o sitios y así responder preguntas en la
toma de decisiones.

Garg y Mithal [10] comentan que se basan en conceptos de almacenes de datos y


proporcionan almacenamiento, indexación y agregación a datos de tipo
geométrico representando puntos, líneas o polígonos. Este almacén de datos
espacial se compone de hechos y dimensiones modelados en estrella o copo de
nieve, de este almacén se genera el cubo espacial que representa jerarquías y de
esta manera caracterizar las consultas eficientemente.

Las principales características de una bodega de datos espacial según [10] son:

- Modelo conceptual: Esquemas de estrella y copo de nieve para los atributos


espaciales.
- Componentes espaciales: medidas, dimensiones y jerarquías espaciales.
- Operaciones SOLAP: Roll Up, Drill Down y predicados espaciales.
- Procesamiento de consultas: Índices, vistas materializadas, uniones y
agregaciones.

En la Figura 4 se muestra la estructuración de una bodega de datos espacial y sus


componentes.

Las bodegas de datos espaciales manejan un esquema multidimensional muy


similar al de una bodega de datos no espacial, pero con la diferencia sustancial
que permiten el manejo de datos espaciales y no espaciales.

4.1.2.1 Tipos de datos espaciales. Un objeto en una bodega de datos espacial


para Prados [11] se define mediante atributos no espaciales y un atributo espacial
de algún tipo. Estos tipos de datos se representan mediante abstracciones
fundamentales que son punto, línea o polígono.

Los tipos de datos en una bodega de datos espacial son clasificados según el tipo
de información manejada, tal como se ilustra en la Tabla 1.

Estos tipos de datos a su vez representan características espaciales que se


manejan en un cubo de datos espacial, se define según Lamas y otros [2] “En la
base de cualquier sistema SOLAP se encuentra el concepto de cubo (también

28
llamado cubo multidimensional o hipercubo). Se compone de hechos numéricos
llamados medidas que se clasifican por dimensiones”. Por ejemplo, se podría
utilizar un modelo multidimensional para analizar la evolución de población por
municipio y edad a lo largo del tiempo con tres dimensiones: Municipio (dimensión
territorial), Tiempo (dimensión temporal) y Edad.

Figura 4. Esquema de datos de la bodega de datos espacial

Fuente. Dueñas Reyes [12].

Tabla 1. Tipos de datos en una base de datos espacial

Tradicionales Espaciales Temporales


Integer Point Instant
Float Line Period
String Region
Boolean Polygon
Fuente. Sugumaran [1].

29
4.1.2.2 Definición de objetos espaciales. Según Prados [11] son “objetos que
se sitúan en un lugar o posición a través de coordenadas geográficas”, existen
motores de bases de datos que manejan este tipo de definición, entre estos se
tiene Oracle Spatial y Postgresql Postgis, los cuales siguen el estándar que define
los objetos espaciales del OpenGIS: Simple Features Specification for SQL.

El modelo conceptual está conformado por tres entidades: Geometry_Column,


Feature_Table, Spatial_Ref_Sys. Las características de las entidades se
mencionan a continuación:

- F_Table_Name: Nombre de la tabla donde se encuentra el elemento espacial.


- F_Geometry_Column: Nombre de atributo que define la geometría.
- Type: Tipo de geometría, esta puede ser (point, linestring, polygon, multipoint,
multilinestring, multipolygon, geometrycollection).
- Gid: Contiene las coordenadas que definen el elemento espacial, esta usa el
estándar WKT (Well-Known Text) con el sistema de referencia espacial (SRID).
- Coord_Dimension: Dimensión espacial.

4.1.2.3 Funciones espaciales. Según Prados [11] el estándar de implementación


de objetos espaciales del OpenGIS se divide en 3 categorías mencionadas en la
Tabla 2, estas funciones son usadas en el software PostgreSQL.

Tabla 2. Funciones aplicadas a objetos espaciales.

Tipo Función Procedimiento en SGBD


Básicas
Tipo de geometría Geometrytype(geometry):String
Dimensión Dimension(geometry):integer
Sistema de Referencia Srid(geometry):integer
Geometría formato WKT Astext(geometry):text
Consulta Disjuntos Disjoint(geometry, geometry):bool
Intersección Intersects(geometry, geometry):bool
Adyacencia Touches(geometry, geometry):bool
Análisis Intersección Intersection(geometry, geometry):geometry
Unión Geomunion(geometry, geometry):geometry
Buffer Buffer(geometry,float8[int,4]):geometry
Fuente. El Autor.

30
4.1.3 Sistema de información geográfica. Según la Universidad Técnica de
Manabí [13] son “Sistema de Hardware, Software y procedimientos diseñados
para soportar la captura, administración, manipulación, análisis, modelado y
visualización de datos".

4.1.3.1 Componentes. En el manejo de los SIG (Sistemas de Información


Geográfica) se encuentran elementos que lo definen, según [13] estos son:

- Hardware: Es donde opera el SIG, servidores, equipos personales o móviles


- Software: provee funciones y herramientas para la manipulación de los datos
- Datos: La parte más importante, donde se maneja el recurso de información.
- Recurso Humano: Personal que opera y administra el sistema.
- Procedimientos: Reglas de negocio, modelos y características propias.

4.1.3.2 Funciones. Para el manejo de los datos espaciales se utilizan una serie
de funciones orientadas según [13]:

- Captura de información: mediante digitalización, procesamiento de imágenes,


fotografías, y elementos de toma de muestras.
- Análisis de datos: como contigüidad de objetos, superposición, entre otras.
- Proyección de datos y exportación: para divulgación y visualización.

4.1.3.3 Representación de la información. Las agrupaciones son dinámicas y


específicas a las necesidades del usuario según [13].

Se tienen sistemas de punto, red o lineal y de áreas o polígonos. Los puntos, las
líneas y polígonos suelen definirse en los mapas por medio de coordenadas
cartesianas (X, Y).

La información se asocia con objetos gráficos y no gráficos o alfanuméricos.

- Atributos gráficos. son ubicaciones específicas en el mundo real, esta


representación se hace por medio de puntos, líneas o polígonos, ejemplos de
estos atributos son: un poste de energía, una tubería, un embalse.
- Atributos no gráficos. son descripciones o características que determinan los
objetos o elementos geográficos.

31
4.1.3.4 Encadenamiento de objetos y atributos en categorías. Manejan los
siguientes elementos para lograr una unión y posición en el espacio.

- Sistema de Coordenadas. Utilizado para medir y localizar elementos gráficos


[13].
- Proyecciones. Describe las localizaciones geográficas en una superficie
esférica [13].

La Figura 5 muestra la relación de los datos con el sistema de información


geográfico y como este interactúa con los elementos de visualización.

Figura 5. Elementos asociados a un SIG.

Fuente. Geoinformatica [14].

4.1.4 Minería de datos espaciales. La minería de datos espacial según Dueñas


Reyes [12] se enfoca al descubrimiento de conocimiento a partir de la exploración
y el análisis de elementos espaciales. Este conocimiento se adquiere a partir de
patrones y algoritmos desarrollados para extraer información que a simple vista o
por exploración superficial de los datos sería imposible de encontrar o seleccionar.

La minería de datos espacial se basa en diversas áreas de trabajo para poder


seleccionar los datos, en tales ramas se pueden encontrar todo lo relacionado a la

32
inteligencia computacional, redes de sensores y neuronales y métodos de
extracción algorítmica.

De forma resumida y siguiendo una secuencia precisa de la información


recolectada se observa en la Figura 6 cada paso desarrollado ofrece el recurso de
información para el desarrollo de la siguiente etapa.

La minería espacial desarrolla diversas tareas y diferentes métodos


computacionales, estadísticos y visuales. Las tareas según Cangrejo y Agudelo
[15] son:

- Clasificación espacial y predicción: Agrupación de datos puntuales en


categorías, llamada también clasificación supervisada.
- Reglas de asociación espacial: Relaciones entre objetos y predicados.
- Agrupación espacial, regionalización y análisis de patrones de punto: Se
clasifican en Agrupación por separación y Agrupación jerárquica.
- Geovisualización multivariante: Generación de conocimiento a través de
exploración visual.

También se relacionan una serie de patrones para la identificación, localización y


distinción de los objetos y sus múltiples relaciones topológicas, estas según
Cangrejo y Agudelo [15] son:

- Generalización de datos no espaciales dominantes: Colección de atributos


relevantes de la búsqueda observando semejanzas con datos no espaciales.
- Generalización de datos espaciales dominantes: Se recolectan los datos
generando una jerarquía de datos espaciales.
- Patrones de asociación espacial: Implicación de características espaciales del
objeto de análisis con respecto a las características de otros.
- Autocorrelación espacial: Medida de la relación de una variable con respecto a
si misma, usado en técnicas de agregación espacial.

Ahora hablando de los métodos, los cuales se pueden categorizar dependiendo de


los objetivos tenemos para Cangrejo y Agudelo [15]:

- Modelado predictivo: predicción de eventos que ocurren en una ubicación


geográfica particular

33
- Resumen de datos espaciales: extraer patrones compactos que describen los
subconjuntos de los datos, no predice, clasifica, ni agrupa, su propósito es
identificar relaciones existentes.
- Clustering: Segmentación, separa los datos en subconjuntos de elementos
similares.

Figura 6. Secuencia de desarrollo de la Minería de datos.

Fuente. Dueñas Reyes [12]

4.1.4.1 Clasificación de métodos y técnicas. La caracterización de los


algoritmos se enfoca en los métodos y técnicas, los cuales se extrajeron en su
mayoría de Dueñas Reyes [12], en la Tabla 3 se describen los métodos, en la
Tabla 4 las técnicas de minería de datos no espacial, y en la Tabla 5 las técnicas
de minería de datos espacial.

Tabla 3. Métodos de minería de datos.

Método Camino Tipo


Tipo predictivo Supervisado
Aprendizaje
Descubrimiento de conocimiento No supervisado
Fuente. El Autor basado en Dueñas Reyes [12].

34
Tabla 4. Técnicas de minería de datos no espacial.

Técnica Tipo
Arboles de decisión
Clasificación
Agrupamiento
Supervisado
Inducción o redes neuronales
Regresión lineal
Series Temporales o de tiempo
Detección de desviaciones o Naive Bayes
Reglas de asociación No supervisado
Patrones secuenciales
Fuente. El Autor basado en Dueñas Reyes [12]..

Tabla 5. Técnicas de minería de datos espacial

Técnica Algoritmo
Por jerarquías
Generalización
Por atributos
Agrupación particional
Agrupación jerárquica
Agrupación basada en localización
Agrupación
Clarans
SD Clarans
NSD Clarans
Exploración de asociación espacial A priori
Fuente. El Autor basado en Dueñas Reyes [12].

4.1.4.2 Técnicas de minería de datos espacial. Se dividen en técnicas de


agrupación y generalización.

a. Técnica de generalización. Usa jerarquías de conceptos en dos tipos según


Dueñas Reyes [12] en temáticos y espaciales, estas jerarquías agregan datos
permitiendo mayor especificidad de la información, en la jerarquía espacial se
manejan por regiones y en la no espacial por atributos dominantes ascendentes
para Roddick y Lees [16].

Se recolectan todos los datos para poder generar jerarquías, estás pueden ser en
partición por regiones y su posterior fusión respecto a los atributos espaciales de
la estructura jerárquica discriminante. El proceso anterior se continúa realizando

35
hasta que se llegue al límite mínimo de tamaño definido donde se hace un análisis
según las jerarquías de precisión y conveniencia según Cangrejo y Agudelo [15].

Aunque su uso puede llegar a ser bastante útil para ser utilizado en la minería de
datos espacial, existen razones según la Universidad de las Américas de Puebla
[17] que lo hacen no tan deseable a la hora de aplicarse.

b. Técnica de agrupación. Está técnica agrupa los elementos con características


similares donde el concepto espacial es muy importante ya que permite expresar
elementos de primer y segundo orden según Dueñas Reyes [12], un ejemplo
puede ser departamento y municipios; de acuerdo a este conjunto las
características se ven más precisas y el conjunto de objetos más completo [16].
Por otro lado su principal ventaja es su manera de encontrar los resultados sin
usar conocimiento previo, sin embargo para que esto sea efectivo se debe tener
una similitud entre los datos para Universidad de las Américas de Puebla [17].

- Agrupación particional “separación”. Para Dueñas Reyes [12] el grado de


similitud en los objetos determina su agrupamiento, los métodos utilizados para
poder ejecutar el algoritmo son K-Means y K-Medoids.

Para Cangrejo y Agudelo [15] divide un conjunto de datos en grupos que no se


superponen, los datos se asignan al grupo más cercano basado en la
proximidad. Estos grupos son también llamados grupos k (k es el número de
grupos especificado por el usuario), este procedimiento se realiza minimizando
la suma de distancias cuadradas o distancias euclidianas entre los elementos y
el centroide. Este centroide llamado también vector medio, es el centro de un
objeto geométrico según explican Sharma, Alam y Rani [18].

4.1.5 Inteligencia de negocios espaciales. Según Espejo-García [19] “La


inteligencia de negocios abarca un conjunto de soluciones tecnológicas cuya
misión es facilitar la visión del estado de la empresa u organización por parte del
analista para que pueda tomar mejores decisiones”. Ahora con respecto a
localización geográfica dice “es un factor clave para tomar decisiones sobre
clientes, proveedores, distribuidores, transporte, recursos naturales, energías
renovables, entre otros”. Estás dos unidas desarrollan lo que se denomina
inteligencia de negocios espaciales.

Entre los elementos para desarrollar inteligencia de negocios espaciales se


muestra en la Figura 7 donde se encuentran.

36
- Procesos ETL: procesos para extraer datos de diversas fuentes, transformarlos
y cargarlos en el repositorio llamado bodega de datos.
- Bodegas de datos espaciales: Repositorio de información seleccionada para
suministrar la base de análisis de la organización con datos tipo espacial.
- Cubos SOLAP: Proporcionan un modelo multidimensional y jerárquico para su
exploración, estos manejan un lenguaje de consulta MDX; este lenguaje tiene
diferencias con el SQL en cuanto a manejo de los cubos.
- Visualización de la información: Aplicación o elemento de información que
permite el análisis mediante exploración y visualiza los resultados requeridos
por los analistas.

Los elementos anteriores soportan al analista para la obtención de resultados que


satisfacen algunos de sus requerimientos, pero el analista muchas veces requiere
obtener más y mejores elementos de exploración de la información que tiene a su
disposición.

Figura 7. Elementos para desarrollar de inteligencia de negocios espaciales.

Fuente. Espejo-García [19].

Esta necesidad se busca a través de la utilización de la dimensión espacial de la


información, pasando a volverse Geo Inteligencia de Negocios (GeoBI), la Figura 8
muestra la visión sobre información espacial en SIG y en un sistema de decisiones
espaciales.

37
En el estudio realizado según Espejo-García [19] existe una comparativa entre las
visiones de los analistas en cuanto de la información espacial y su uso en
sistemas de información geográfica e inteligencia de negocios espaciales.

Figura 8. Visión de la información geoespacial SIG y GeoBI.

Fuente. Espejo-García [19]

En el proceso de revisión de la información se tiene en cuenta de gran manera los


cubos SOLAP ya que proporcionan una visión multidimensional y jerárquica de los
datos, esto se debe a que pueden pre-calcular algunas consultas llamadas
agregaciones, con lo que se mejora el rendimiento. Este cubo SOLAP es una
combinación de un sistema GIS y un cubo OLAP [19], la Figura 9 muestra como
los cubos de datos se comportan según la información espacial.

4.1.5.1 Pasos de la inteligencia de negocios espacial. El desarrollo de la


inteligencia de negocios espaciales tiene pasos que se muestran en la Figura 10
los pasos vienen dados por:

a. Selección: Toma de los datos.


b. Preparación de los datos: Eliminación de campos nulos y erróneos.
c. Transformación: Acomodar los datos para las operaciones.
d. Minería de datos: Aplicación de reglas y algoritmos.
e. Interpretación: Manipular los resultados para entenderlos.
f. Toma de decisiones: sobre los resultados para obtener beneficio.

38
Figura 9. Comparación de sistemas de información según los datos

Fuente. Espejo-García [19].

Figura 10. Pasos de desarrollo de Geo BI.

Fuente. Feix [20]

4.1.5.2 Arquitectura. La arquitectura de un sistema de inteligencia de negocios


espaciales se crea a partir de los elementos que la componen, por un lado se tiene
la arquitectura de una bodega de datos espacial que se muestra en la Figura 11,
otros elementos relacionados son la minería de datos, SIG, reportes, análisis y
visualización que se muestran en la Figura 12.

39
Figura 11. Arquitectura de una bodega de datos espacial

Fuente. El Autor.

Figura 12. Arquitectura Inteligencia de Negocios Espaciales

Fuente. Badard [21]

- Fuente de datos: los datos origen que serán el insumo para realizar la
inteligencia de negocios espaciales.
- Sistema ETL: para realizar la extracción, transformación y carga de los datos
para seleccionar los elementos que correspondan al análisis de información.

40
- Bodega de datos: Base de datos espacial que contendrá las dimensiones y
tabla de hechos para realizar la extracción del conocimiento.
- SOLAP: Aplicación de inteligencia de negocios espaciales sobre la bodega de
datos espacial
- Minería de datos espacial: Por medio de técnicas y algoritmos especializados
obtener el conocimiento más idóneo sobre los análisis de la organización.
- Reportes: visualización y muestra de resultados.

4.2 MARCO CONCEPTUAL

4.2.1 Base de datos espacial. es un arreglo ordenado de datos


georreferenciados relacionados entre sí, clasificados y agrupados según sus
características; bajo control de redundancias e integrados para el desarrollo de
aplicaciones y análisis sobre la información [22]. Estos datos son controlados a su
vez por manejadores de bases de datos espaciales que toman los campos
vectoriales y por medio de funciones representan puntos, polígonos o líneas en un
sistema de información geográfico.

4.2.2 Bodega de datos. es "una colección de datos, orientados a hechos


relevantes del negocio, integrados, que incluyen el tiempo como característica
importante de referencia y no volátiles para el proceso de toma de decisiones"
[23]. Los elementos más comunes son las tablas que se convertirán en
dimensiones o hechos, llaves foráneas para establecer la relación y los atributos
que almacenen los datos de análisis respectivamente.

4.2.3 Inteligencia de negocios. es “un tipo de procesamiento de datos que se


caracteriza, por permitir el análisis multidimensional" [24], para lo cual se dividen
en dimensiones (factores), medidas (lo que se quiere cuantificar) y hechos (donde
se combinan las dos anteriores y es la responsable de almacenar las relaciones),
estos elementos permiten obtener una visión más global de la situación de los
datos, proporcionando elementos de juicio para la toma de decisiones adecuada
para un problema específico de cualquier organización.

4.2.4 Sistema de información geográfica. es un sistema de Información que


permite ingresar, almacenar, consultar, analizar y mostrar información
georeferenciada [23], esta información representa un punto, polígono o línea.

41
4.2.5 Inteligencia de negocios espaciales. “Es un proceso mediante el cual los
datos se convierten en información valiosa para la toma de decisiones dentro de
una organización, sin embargo llega el momento en que las tablas y gráficas no
son suficientes para poder contar con toda la información necesaria para elegir la
siguiente mejor acción en la compañía; es cuando la integración con otros
sistemas, en este caso, con Sistemas de Información Geoespacial, toma mucha
importancia” [6].

4.2.6 Minería de datos espaciales. “es un proceso no trivial de identificación


válida, novedosa, potencialmente útil y entendible de patrones comprensibles que
se encuentran ocultos en los datos” [12].

4.2.7 Instituto Colombiano para la Evaluación de la Educación. Es la entidad


especializada en ofrecer servicios de evaluación de la educación en todos sus
niveles, y en particular apoyar al Ministerio de Educación Nacional en la
realización de los exámenes de Estado y en adelantar investigaciones sobre los
factores que inciden en la calidad educativa, para ofrecer información pertinente y
oportuna para contribuir al mejoramiento de la calidad de la educación [3].

4.3 ESTADO ACTUAL

La información como elemento clave en la toma de decisiones se hace presente


en todas las áreas del quehacer humano como: agricultura, finanzas, mercadeo,
ingeniería, geofísica, medicina, economía, biología, bioquímica, meteorología,
ciencias sociales, industria de procesos y producción, lenguaje natural, robótica,
multimedia, entre otras, y se usa en métodos cada vez más diversos como
cultivos, uso de la tierra, modelado del uso del suelo, análisis empresarial, rutas y
caminos más cortos, de estructura académica, entre otros.

Existen decisiones que se adaptan a las necesidades según el proyecto, como:


asignación y estado de los recursos, selección de sitios, asignación de ubicación,
selección y asignación de uso de la tierra, entre otras de acuerdo con Sugumaran
& Degroote [1].

Existen áreas de trabajo de la inteligencia de negocios espacial que desarrollan


proyectos orientados a diferentes ramas del quehacer humano, estas son:

42
4.3.1 Uso del suelo. Se enfoca principalmente en el uso que los seres humanos
y comunidades hacen de la tierra.

Meyer y otros [25] proponen un marco de trabajo conceptual e implementación de


software para generar sistemas de soporte a las decisiones espaciales para la
planificación del uso del suelo. Este proyecto se enfoca en ayudar a solucionar los
problemas en el uso del suelo por cuanto se diseñó un marco conceptual genérico
llamado ‘OSMOSE’, el cual soluciona problemas complejos de asignación espacial
y de ordenamiento territorial. El propósito general de este sistema es:

- Identificar unidades de tierra que reúnen varios atributos de entrada y salida


para un tipo determinado de uso de la tierra.
- Identificar rangos de tierra de acuerdo a las unidades de entrada y salida
localizadas.

Este marco se puede acomodar a datos discretos y/o continuos y es ideal para
modelar los lugares, regiones, escenarios y características del suelo de acuerdo a
las variables almacenadas en su bodega de datos espacial.

Xiaoli, Chen y Daoliang [26] describen un sistema de soporte de decisiones


espaciales para la optimización de la estructura en el uso del suelo. Este proyecto
relaciona bases de datos, sistemas expertos y tecnologías de sistemas de soporte
a las decisiones espaciales, consta de cuatro componentes.

- Un sistema de información geográfica.


- Módulos de uso del suelo.
- Interfaz gráfica de usuario.
- Herramientas de planificación de uso del suelo.

Además, se utilizan elementos de cálculo como la programación lineal,


agrupamiento difuso, y algoritmos de uso del suelo; para obtener esta estructura
de optimización se utiliza la plataforma de software ArcEngine.

4.3.2 Simulación. Estos trabajos se enfocan en la utilización de modelos e


investigación para llegar a obtener resultados.

Blecic, Cecchini y Trunfio [27] proponen una infraestructura de geo simulación de


propósito general para soportar las decisiones espaciales. Se presenta la

43
infraestructura de simulación MAGI la cual incorpora características y estrategias
para lograr una simulación geoespacial compleja, esta presenta características
definidas como:

- Un enfoque de geo-simulación con la aplicación de un meta-modelo utilizando


autómatas celulares y agentes.
- Interoperabilidad entre sistemas de información geográfica y el modelo
utilizado.
- Uso fácil del usuario final
- Utiliza representaciones con archivos vectoriales y raster con la utilización de
algoritmos geométricos.

4.3.3 Infraestructura urbana. Son considerados en este apartado los elementos


que se relacionan con la arquitectura, construcción y edificaciones urbanas.

Coutinho, Simão y Henggeler [28] desarrollan un sistema de soporte de decisión


multicriterio espacial basado en SIG para la planificación de infraestructuras
urbanas. El objetivo principal de este proyecto es ofrecer un entorno flexible
basado en varios criterios de metodologías formales para ayudar a mantener y
estructurar la información, permitir realizar análisis históricos y estadísticos y
proporcionar apoyo en la toma de decisiones a partir de la comparación de
alternativas en evaluación de planes urbanísticos.

Estos resultados se visualizan en un mapa permitiendo al usuario localizar los


elementos decisionales en un entorno real, la selección anterior se basa en que el
usuario escoja la mejor opción que satisface las demandas, presupuesto y costos
de operación. Este proyecto se enfoca en cubrir 77 hectáreas con 2200 unidades
de vivienda.

Cerreta y Toro [29] proponen una evaluación de las transformaciones urbanas en


un SDSS para el plan maestro de Castell Capuano, Nápoles. Presenta una
simulación de un caso real causado por las transformaciones urbanas en la
provincia de Capuano Nápoles, para ello utiliza la combinación de sistemas de
información geográfica y métodos de simulación, este proceso se enfoca a la
planificación urbana, soporte y operaciones de modelado para cambios de uso del
suelo urbano. Lo anterior se orienta a explorar los posibles escenarios de
transformaciones identificando los efectos a través del tiempo.

44
4.3.4 Gestión del territorio. Métodos realizados para organizar y ubicar las
estructuras territoriales con el fin de situarlas en el mejor lugar y aprovechar el
terreno urbano y rural de la mejor manera.

Cerreta y Mele [30] describen un panorama de integración de valores de mapa


entre los valores suaves y fuertes de un sistema de soporte a las decisiones
espaciales. Este proyecto desarrollado para la localidad de Massa Lubrense en el
sur de Italia, se basa en la selección de indicadores espaciales y la combinación
de sistemas de información geográfica y procesos analíticos jerárquicos. Los
elementos anteriores permiten la creación de un mapa de valores suaves y fuertes
utilizado para planear, reorganizar y obtener los diferentes pesos y prioridades de
la definición del territorio.

Uyan, Cay y Akcakaya [31] presentan un diseño de un sistema de soporte a la


decisión espacial para la reasignación de tierras. Este sistema está desarrollado
para la reasignación de parcelas de tamaño regular a los propietarios que tuvieran
relación con proyectos de consolidación de tierras, basado en los resultados que
ofrece el sistema de apoyo a las decisiones espaciales y modelos de reasignación
de tierras. El objetivo que se perseguía en la elaboración del proyecto era verificar
y valorar la importancia de un SDSS para tratar este tipo de proyectos y como
sería de utilidad para problemas del quehacer humano, al final del estudio se
concluye que los usuarios preferían utilizar un SDSS por precisión de resultados y
fiabilidad en la asignación de territorio.

Zou y otros [32] proponen un sistema de soporte a la decisión espacial para la


evaluación potencial de los proyectos de consolidación de tierras. El estudio
basado en la concentración parcelaria sobre la base de cultivo, se basó en 4
partes: Áreas de cultivo, mejoramiento de la productividad, reducción de costos de
producción y mejoramiento de entorno ecológico.

Para comprobar estos elementos se utilizan modelos de evaluación difusos,


modelos de análisis de correlación y modelos PPE basados en RGRA que se
adoptan en SDSS. Estos modelamientos aplican una serie de cálculos
algorítmicos que arrojan resultados sobre el mejor elemento de concentración
parcelaria y de esta forma ofrecer al usuario final una base de juicio para emplear
la producción del territorio. Este sistema utiliza ArcSDE y ArcIMS para la
integración de bases de datos y SIG.

45
4.3.5 Agricultura. Manejo de todos los trabajos relacionados al tratamiento del
suelo y a la plantación de vegetales.

Wu y otros [33] presentan un sistema de soporte a la decisión espacial para la


gestión de los cítricos. La información espacial y no espacial obtenida de la gran
producción de cítricos en la zona de las tres gargantas en China sirve como
insumo para poder desarrollar un sistema de decisiones espacial para la toma de
decisiones, el proyecto toma estos datos y los divide según una caracterización de
zonas que son: municipio, condado y huerta.

Estos datos clasificados se almacenan en tres GeoDatabases en formatos


heterogéneos, con esta información se desarrolló un SDSS en Visual Basic 6 y el
motor geográfico ArcGIS; este sistema permite la adopción de cualquier tipo de
información para reflejar resultados en la mejor toma de decisiones.

Rajesh [34] definen una aplicación de Minería de datos espaciales para la


Agricultura. El trabajo se desarrolla en la extracción del patrón espacial de la base
de datos utilizando el algoritmo K-Means para los patrones que no están
almacenados de forma explícita en la base de datos espacial. También utiliza un
método de optimización de minería llamado refinamiento progresivo, este
concepto se aplica en la agricultura para indicar la temperatura y precipitaciones
en el análisis de meteorología agrícola, para así, mejorar el rendimiento de los
cultivos y reducir de forma significativa las pérdidas en las cosechas.

Bimonte y otros [35] proponen una definición y análisis de nuevas granjas


agrícolas en indicadores energéticos utilizando OLAP espacial. Los diagnósticos
realizados en la agricultura han arrojado una serie de variables de consumo de
energía como: años, granjas, familia de producción, entre otras, las cuales aunque
son válidas para analizar el consumo, son insuficientes para medir nuevos
factores, por lo cual se requiere de nuevos indicadores que permitan realizar
nuevos análisis. El objetivo del trabajo se relaciona directamente con la
exploración de nuevas variables de análisis que se representen en un sistema de
toma de decisiones espacial para así manejar escalas más precisas y obtener
elementos de granularidad más exactos, para lo cual utiliza la herramienta J-Map
para implementar un SDSS.

Cohen y otros [36] muestran un sistema de soporte a las decisiones espaciales


para el control de la mosca de la fruta en los cítricos. El proyecto ha desarrollado

46
un SDSS llamado MedCILA para el control de la mosca de la fruta en Israel, este
desarrollo involucro 4 fases:

- Adquisición de expertos.
- Identificación de criterios pertinentes y su respectivo modelado.
- Integración del software con un entorno SIG.
- Evaluación del rendimiento.

Los criterios más pertinentes que se tuvieron en cuenta para el análisis en el


SDSS fueron la cantidad de moscas, la presencia de la trampa más cercana y el
desarrollo de la población de moscas. Para tratar estas variables se utilizaron
modelos binarios, lineales, logarítmicos y biológicos, que sirvieron para que el
software integrara un árbol de decisión basado en reglas.

4.3.6 Transporte. Se estudian las mejores formar de enrutamiento de los


vehículos y manejar el transporte en una población.

Yi y Liu [37] proponen un sistema de soporte a las decisiones espaciales para el


enrutamiento de vehículos en gran escala. El proyecto está enfocado en
solucionar los problemas de las rutas y horarios de salida de los vehículos, para
ello se plantea el objetivo de implementar un sistema de apoyo a la toma de
decisiones espaciales con el fin de mejorar la eficiencia y minimizar los costos de
transporte. Para llegar a la solución se tomaron tres etapas para afrontar la gran
escala de enrutamiento de vehículos:

- Obtener el número de clientes combinados de acuerdo a sus atributos


espaciales.
- Integrar los clientes con los vehículos.
- Encontrar las rutas de cada vehículo.

Silva y otros [38] proponen un sistema de soporte a las decisiones espaciales para
el sector de transporte público Portugués. SIGGESC es un SDSS dirigido hacia el
sector de transporte público, este software es utilizado para el proceso de registro
y otorgamiento de concesiones a las compañías de autobuses, aumentar la
capacidad de las autoridades de transporte portuguesas, automatizar procesos de
trabajo y rutinas, mejorar la inspección y otorgamiento de licencias, y también
permite geo-referenciar los elementos automotores y licencias que se encuentran
en una determinada área y por tiempos específicos.

47
Santos, Coutinho y Henggeler [39] definen un sistema de soporte a las decisiones
espaciales web para el soporte de enrutamiento de vehículos utilizando Google
Maps. Se presenta un sistema de soporte a la toma de decisiones espacial web
llamado wSDSS, su función es generar rutas de vehículos optimizadas para
problemas de enrutamiento, involucra Google Maps, una base de datos,
heurísticas y un sistema de generación de rutas de vehículos de forma individual.
El sistema soluciona problemas como: limitación de velocidad, carreteras de un
solo sentido y giros prohibidos.

Este sistema además analiza variables como capacidad del vehículo, tiempo de
desplazamiento, modificaciones de red, orientaciones, entre otras. wSDSS fue
probado para la recolección de basura urbana en Coímbra, Portugal.

4.3.7 Gestión del riesgo. Sistemas basados en la administración de riesgos


como la contaminación, inundaciones, evacuaciones y otros.

Minghu y otros [40] proponen un sistema de soporte de decisiones espaciales para


el control y prevención de la contaminación del agua en la cuenca del río. Usa la
combinación de GRID y DSS para construir una base espacial en el desarrollo de
un SDSS para el manejo del río a través de sensores, este sistema maneja el
control y prevención de la contaminación del agua mediante la visualización
espacial para facilitar la tarea de los tomadores de decisiones.

Zhichong y Yaowu [41] presentan un marco de trabajo de un sistema de apoyo a


las decisiones espaciales para la evacuación de edificios públicos a gran escala.
Se enfoca en el análisis exploratorio de datos espaciales, para la construcción de
un sistema de apoyo a las decisiones espaciales de gran escala. Utiliza un modelo
algorítmico central de análisis de medio ambiente y optimización del enrutamiento
de evacuación.

Kaunda-Bukenya y otros [42] proponen un sistema de soporte de decisiones


espaciales para la gestión de las aguas pluviales y evaluación de la calidad del
agua. Desarrolla una adaptación de un SDSS ambiental para ayudar a los
funcionarios municipales a que cumplan con las legislaciones ambientales y
minimizar el impacto de la contaminación que causa el desarrollo humano en las
ciudades, este proyecto persigue dos objetivos que son:

48
- Desarrollar una interfaz gráfica para cuantificar y geo-localizar puntos calientes
de contaminación en la zona urbana.
- Desarrollar un SDSS para generar informes del manejo y cumplimiento
ambiental.

4.3.8 Socio-economía. Proyectos enfocados en el manejo de variables sociales


y/o económicas de una población o individuos.

Humacata [43] propone un análisis exploratorio de datos socio-espaciales


mediante gráficos interactivos. El proyecto estudia variables socioeconómicas y
demográficas de la provincia de Buenos Aires con gráficos interactivos y
cartografía. Los datos para el estudio fueron obtenidos del censo nacional de
población, hogares y viviendas, de los cuales se seleccionaron variables de temas
como socio-economía, demografía, educación, pobreza, habilitación,
infraestructura de servicios, y otras que se aproximarán al objetivo general del
estudio. Se realizaron exploraciones univariadas con métodos box-plot y box-map
resaltando los datos atípicos espaciales y análisis bivariados con el método
scatter-plot para la clasificación del espacio geográfico en base a una perspectiva
2D. Este estudio permite la definición de áreas socio-habitacionales de buenas y
malas condiciones.

Mahboubi, Bimonte y Deffuant [44] presentan un análisis demográfico y económico


de resultados de un modelo de simulación en un enfoque semiautomático OLAP
espacial. Se enfoca al análisis de modelos espaciales de sectores demográficos y
económicos del sector rural en contexto del proyecto PRIMA, en este estudio se
analizan los impactos de las políticas de uso del suelo en el sector económico,
para ello se realizan micro-simulaciones y uso de multi-agentes, y de esta forma
analizar el efecto en la población. Para cumplir con el objetivo se presenta la
herramienta SimOLAP que permite modelar de forma automática aplicaciones
multidimensionales espaciales.

Sun y Zhu [45] proponen un sistema de soporte de decisiones espaciales basado


en SIG para la evaluación de bienes raíces. Este proyecto utiliza ArcGIS como
herramienta de apoyo e incorpora un SDSS para trabajar con evaluaciones de
bienes raíces de forma más práctica, puede construir almacenes de datos
espaciales, modelos e interoperabilidad de datos para mejorar el análisis
cuantitativo, la precisión y análisis espacial.

49
4.3.9 Servicios tecnológicos. Proyectos que se enfocan en avances
tecnológicos en el desarrollo de inteligencia de negocios espaciales.

De-Guo y otros [46] presentan una investigación de un sistema de apoyo de


decisiones espaciales en la construcción de modelos basados en la nube. Se
propone la construcción de un servicio de soporte a las decisiones espaciales en
la nube con apoyo de datos de geografía espacial; para cumplir con este propósito
se integraron varios sitios web para la construcción y publicación de un banco de
datos que a su vez serían el insumo para la toma de decisiones espaciales.

Kyung, Yom y Kim [47] proponen un diseño de bodegas de datos espaciales y


OLAP espacial en la implementación de toma de decisiones para la actualización
de datos geoespaciales. El estudio analiza los criterios de actualización de los
datos geoespaciales desarrollando un modelo para la creación de bases de datos,
además se orienta al desarrollo de un esquema en estrella para la ayuda en la
toma de decisiones de forma más fácil y sencilla.

Yin y otros [48] proponen un sistema de apoyo de decisiones espaciales basado


en Web, para el caso de servicios de análisis de transformación de redes. El
proyecto desarrollo el sistema iFAO (Análisis y optimización de red inteligente) que
está basado en servicios web para apoyar diversas industrias con servicios como:
intercambio de información y colaboración de análisis, además se incorporan tres
datos en común de tipo espacial a través de uniones para relacionar todas las
áreas que se encuentran en la organización [49].

Martino y otros [49] presentan un procesamiento analítico en línea espacial de los


datos geográficos a través de la interfaz de Google Earth. El proyecto desarrolla
un sistema que integra herramientas OLAP y el motor de Google Earth, se basa
en la utilización de tablas pivoteadas para desarrollar una arquitectura de consulta,
manejo de puntos y coordenadas según el análisis espacial realizado, además
enfoca sus esfuerzos en el uso de software libre como Mondrian para poder
realizar el análisis OLAP y la API de Google para llegar al análisis espacial.

4.3.10 Salud. Proyectos SDSS enfocados en el manejo de la salud pública.

Bernier y otros [50] presentan un proyecto en donde realiza la vigilancia de las


vulnerabilidades de salud relacionados con el clima a través de una aplicación
OLAP espacial basada en la Web. Este proyecto utiliza datos de tipo socio-
económico, de salud y ambientales para poder tomar decisiones futuras en los

50
organismos de salud pública, lo anterior, integrando nuevos operadores para
explorar con facilidad y rapidez los datos multidimensionales en diferentes niveles
de granularidad.

Hurtado y Cáceres [66] relaciona un proyecto que “describe el proceso de uso de


Inteligencia de negocios, con su componente espacial en el sector Salud,
aplicándolo en la E.S.E Hospital San Vicente de Paúl, del municipio de Paipa,
Colombia, para realizar un análisis de las enfermedades crónicas de los pacientes
y ubicarlas geográficamente”.

4.3.11 Minería. Sistemas SDSS orientados a la explotación de recursos minerales.

Chen y Li [51] proponen un sistema de apoyo a la decisión espacial para la


recolección de carbón en una mina a cielo abierto. Se crea un SDSS que se basa
en cumplir con 3 propósitos establecidos:

- Evaluar la potencialidad de recuperación basado en la física, química, y


factores de crecimiento biológico.
- Establecer modelos de similitud difusa para establecer especies de plantas
nativas y metales a extraer.
- Medir características similares de los dos propósitos anteriores.

51
5. DISEÑO METODÓLOGICO

Partiendo de las metodologías planteadas por Sampieri y otros en [52], Tamayo


[53] y Lerma [54] se define la metodología que se ajusta a la naturaleza del
proyecto la cual se describe a continuación.

5.1 ENFOQUE

El enfoque investigativo adoptado es cuantitativo en donde el proceso de


investigación es secuencial en donde cada etapa precede a la siguiente y el orden
es riguroso; parte de una idea, que se delimita, y a partir de ella se definen
objetivos y preguntas de investigación, se hace una revisión de la literatura y se
construye un marco teórico. De las preguntas se establecen hipótesis y
determinan variables; se desarrolla un plan para probarlas (diseño); se miden las
variables en un determinado contexto; se analizan las mediciones obtenidas, y se
establece una serie de conclusiones respecto a las hipótesis [52].

5.2 TIPO DE INVESTIGACIÓN

Teniendo en cuenta que existen muchos modelos, herramientas y algoritmos


utilizados para la inteligencia de negocios espaciales, es necesario realizar una
selección y comparación de los mismos, con el fin de determinar su aplicabilidad y
pertinencia, la investigación se define como cuantitativa descriptiva. Basados en el
estudio se debe tomar la decisión de si los algoritmos y técnicas estudiadas se
ajustan para su utilización en la bodega de datos espacial y la cuantitativa en
probar y examinar las herramientas y algoritmos que existen para la aplicación de
inteligencia de negocios espacial y minería de datos espaciales. Con respecto a lo
anterior en el desarrollo de la bodega de datos espaciales se utilizó la metodología
de Kimball adaptada a datos espaciales.

5.3 POBLACIÓN

La población objeto de estudio está conformada por las herramientas y algoritmos


existentes para aplicar inteligencia de negocios espaciales.

52
5.4 MUESTRA

La selección de la muestra es no probabilística, también llamada muestra dirigida,


y se realizará tomando herramientas de aplicación de inteligencia de negocios
espaciales y algoritmos de minería de datos espaciales que se considerarán
representativos dentro de la población [52], [55].

5.5 FUENTES DE INFORMACIÓN

Las fuentes de información utilizadas para este fin son fuentes primarias de las
cuales se tomarán artículos científicos, reportes y ponencias realizadas, también
herramientas y algoritmos para aplicación de inteligencia de negocios espaciales.

5.6 INSTRUMENTOS

Uno de los instrumentos más apropiados con base en la investigación descriptiva


es el análisis documental, en donde se realiza un análisis de cada una de las
herramientas y algoritmos desarrollados en la información recopilada. Como
resultado de este análisis debe plantearse cuál herramientas y algoritmos se
ajustan más para la implementación de inteligencia de negocios espaciales.

5.7 SELECCIÓN E IMPLEMENTACIÓN DE LA TÉCNICA DE AGRUPAMIENTO

Con base en el análisis documental y las características propias del algoritmo


espacial, se seleccionara el que mejor aplique para minería de datos espaciales.

5.8 PRUEBAS

Luego de implementar la inteligencia espacial por medio del algoritmo de minería


de datos espacial se realiza la visualización de resultados en el visor geográfico.

5.9 RESULTADOS Y CONCLUSIONES

Se escriben resultados y conclusiones de las pruebas realizadas.

53
6. RESULTADOS

6.1 CARACTERIZACIÓN DE HERRAMIENTAS INFORMÁTICAS PARA


APLICAR INTELIGENCIA DE NEGOCIOS ESPACIALES

En el desarrollo de la inteligencia de negocios espaciales se deben utilizar


herramientas software que permiten el manejo adecuado de los datos de manera
que sea posible su análisis para obtener resultados que favorezcan el
cumplimiento de los objetivos y metas en la organización.

Estas herramientas deben tener componentes que permitan el óptimo uso de los
datos teniendo en cuenta el componente geográfico, para así cumplir con el
procesamiento en línea espacial.

Las herramientas OLAP, SIG y SOLAP desempeñan un papel fundamental en el


análisis histórico de información permitiendo que se puedan analizar los datos por
medio de gráficos o mapas y de forma textual por tablas e informes, existen varias
herramientas propietarias, de software libre y de código abierto que permiten
realizar estos proyectos. El estudio de caracterización realizado permite
compararlos para poder brindar elementos de juicio que permitan decidir cuál es la
mejor y más adecuada para la implementación de Inteligencia de Negocios
Espaciales.

Este estudio se divide en 3 secciones ya que al ser reciente el desarrollo de la


inteligencia de negocios espaciales las herramientas desarrolladas nativas para su
aplicación son pocas o están en desarrollo, este estudio inicia con el análisis de
herramientas SIG (Sistema de Información Geográfica), continuando con
herramientas OLAP (Procesamiento Analítico en Línea) y culminando con
herramientas SOLAP (Procesamiento Analítico en Línea Espacial).

También se realizó una clasificación según factores que tiene cada herramienta,
estos son:

a. Descripción General
b. Características técnicas
c. Características funcionales y observaciones

54
Al término del comparativo se seleccionaran las herramientas que más se
adecuen a la implementación de Inteligencia de Negocios Espaciales y que
permitan realizar los objetivos planteados en el proyecto.

6.1.1 Sistemas de información geográfica

6.1.1.1 Descripción general

Tabla 6. Descripción general de aplicativos SIG

Sistema Entidad Licencia País Versión Idioma Plataforma


Estados Escritorio,
ArcGIS ESRI Privativa 10.1 Multilenguaje
Unidos Web, Móvil
6.4.
Estable
GRASS Estados 6.5
GRASS GPL V2 Multilenguaje Escritorio
Development Unidos Prueba
7.0 No
Estable
Nature Países
ILWIS GPL 3.8 Inglés Escritorio
WorldWide Bajos
Caliper Estados Escritorio,
TransCAD Privativa 2014 Inglés
Corporation Unidos Web
Estados
ERDAS Intergraph Privativa 13.0.2 Inglés Escritorio
Unidos
Software Portugués,
I3Geo Público GPL Brasil 4.7 Español, Web
Brasileño Inglés
Estados Escritorio,
QGIS OSGeo GPL 2.0.1 Multilenguaje
Unidos Web, Móvil
Asociación Español, Escritorio,
GvSIG GPL España 2.1
GvSIG Inglés Móvil
Estados
K2 Escritorio,
JMap Privativa Unidos, 5.0 Inglés
GeoSpatial Web, Móvil
Canadá
Refractions EPL, Español,
uDig Canadá 1.2.1 Escritorio
Research BSD Inglés
J. Böhner, O. GPL,
Saga Alemania 2.0 Inglés Escritorio
Conrad LGPL
OpenEV Estados
OpenEV LGPL 1.8.0 Inglés Escritorio
Developers Unidos
Fuente. El Autor.

55
6.1.1.2 Características técnicas

Tabla 7. Características técnicas de aplicativos SIG

Soporte
Módulos Sistema Soporta Soporte
Sistema Estado al
análisis operativo cartografía SOLAP
usuario
ArcGIS Activo Si Windows Si No Si
Windows,
GRASS Activo Si Linux, Si No Si
MacOS
Windows,
ILWIS Activo Si Linux, Si No No
MacOS

TransCAD Activo Si Windows Si No Si

ERDAS Activo Si Windows Si No Si


Navegador
I3Geo Activo Si Si No Si
Web
Windows,
Linux,
QGIS Activo Si MacOS, Si No Si
BSD,
Android
Windows,
GvSIG Activo Si Linux, Si No Si
Android
Windows,
Linux,
JMap Activo Si Si No Si
MacOS,
Android
Windows,
En
uDig Activo Si MacOS, Si No
desarrollo
Linux
Windows,
Saga Activo Si Linux, Si No Si
MacOS
OpenEV Abandonado Si Windows Si No No

Fuente. El Autor

56
6.1.1.3 Características funcionales y observaciones

Tabla 8. Características funcionales y observaciones aplicativos SIG

Módulos
Sistema Extensiones Observaciones
disponibles
- Modelado de - Análisis 3D. - Herramienta software muy
idoneidad. - Análisis geo estadístico. completa que permite
- Análisis de - Análisis de redes. realizar carga, análisis y
superficie. - Análisis espacial. proyección de mapas.
- Análisis de - Análisis de seguimiento. - Su precio es de US$100
distancia. - Reporte de análisis de para uso en el domicilio-
- Análisis de negocios. - Utilizado por la mayoría de
densidad. - Interoperabilidad de datos. ingenieros en el área de la
- Análisis solar. - Revisor de datos. arquitectura, catastro e
- Análisis hidrológico. - Editor de flujos de trabajo. ingeniería civil.
- Análisis estadístico. - ArcScan. - Es un sistema que requiere
- Álgebra de mapas. - Maplex. licencia para poder
- Secuencias de ejecutarse.
- Soluciones de defensa.
comando y - Sus extensiones para el
- Aviación.
personalización. manejo de análisis espacial
- Marítima.
ArcGIS - Modelado gráfico. cuestan valor adicional.
- Asignación de defensa.
- Generalización - Utilizado en empresas u
- Asignación de producción. organizaciones grandes.
RASTER. - Caminos y carreteras. - Compatible con Microsoft
- Editor de OpenStreetMap. SQL Server y Microsoft
- ArcSketch. Visual Studio.NET.
- Distritos. - Tiene gran compatibilidad
- S-57. en carga de archivos de
- Red Nacional mapas con gran variedad
Estadounidense. de extensiones.
- Cliente WMC. - Su principal desventaja es
su precio y al ser
propietario no se le pueden
realizar cambios lo que
enfoca su uso para tareas
específicas.
- Análisis RASTER. - Script de Shell zona UTM. - Posee herramientas de
- Análisis 3D - Scripts de Perl para procesado digital de
RASTER Voxel. convertir datos. imágenes.
- Análisis vectorial - Script en Perl para - Tiene Soporte nativo para
- Punto de análisis de traducir DBF. imágenes RASTER lo que
datos. - Programa C para calcular lo hace experto en el
GRASS - Procesamiento de el Acimut y longitud de las manejo de este tipo de
imágenes. líneas vectoriales. archivos.
- DTM-Análisis. - Implementación de red - Utilizado en estudios
- Geo-codificación. neuronal artificial usando medioambientales.
- Creación de mapas. la biblioteca FANN. - Utilizado gradualmente en
- SQL-apoyo. el entorno académico.
- Geo-estadística.

57
Módulos
Sistema Extensiones Observaciones
disponibles
- Representación de - No - Utilizado en muchas
información. organizaciones
- Modelamiento gubernamentales para
espacial como manejo de ordenamiento
temporal de territorial.
procesos que se - Ofrece gran cantidad de
llevan a cabo en la funciones de análisis y
superficie de la modelamiento en diversas
Tierra. ramas orientadas al
- Evaluación de catastro y manejo
ILWIS tierras. ambiental.
- Ordenamiento - Su propósito no se puede
territorial. enfocar a labores
- Riesgos naturales. administrativas o datos que
- Manejo ambiental. no tengan relación con su
objetivo final.
- Limitado y lento avance de
versionamiento.
- Soporte limitado ya que se
enfoca en un área
específica.
- Matrices y Líneas - Según licencia Básica o - Diseñado exclusivamente
de Deseo. Estándar. para el sector transporte.
- Sistemas de rutas. - Soporta modelamiento de
- Aplicaciones de transporte para diversas
transporte. actividades.
- Camino corto. - Su valor oscila entre
- Creación de redes. US$4000 y US$12000
- Partición de redes. Dólares.
- Zonificación de - Bastante especializado
redes. para escala geográfica.
- Previsión de - No soporta análisis
demanda de viajes. SOLAP.
- Procedimientos de - Aunque es un software
Trans tránsito. completo tiene la
CAD - Creación de rutas. desventaja que solo se
- Importación de aplica en una sola
TranPlan, MINUTP, temática.
emme/2, TRIPS,
TP+.
- Herramientas de
análisis geográfico.
- Herramientas de
análisis de
superficie.
- Referencias
lineales.
- Estadísticas
espaciales.

58
Módulos
Sistema Extensiones Observaciones
disponibles
- AutoSync - Advanced - Software muy profesional
- VirtualGIS Photogrammetry. en el manejo de
- NITF 2.1 - Compatibility with US información geográfica que
- OrthoRadar Defense Standards and integra módulos de
- InSAR DEM Protocols. detección y manejo de
- StereoSAR DEN - Format Compatibility. análisis telemático.
- Radar Interpreter - Atmospheric Correction. - Su principal característica
- Data Prep - Feature Collection. es su desarrollo sobre
- Vector - Radar Processing. Oracle MapViewer lo que lo
- Quality Assurance for hace robusto, aunque lo
ERDAS - MosaicPro
Digital Terrain Models. vuelve completamente
- Developer’s Toolkit
- Faster Project Completion dependiente a plataformas
LPS
through Distributed Oracle.
- EasyTrace
Processing. - Su principal desventaja es
- MrSID Desktop & su precio elevado.
Workstation
- Su principal ventaja es que
Encoders
maneja volúmenes de
- Vector Feature información geográfica
- Georaster elevados y con tiempos de
- Feature Analyst respuesta rápidos.
- Generación de áreas - No - Su ventaja principal es que
de influencia. soporta la carga de mapas
- Creación de mallas vectoriales y Raster desde
regulares. repositorios físicos y
- Análisis de la digitales en motores de
distribución de bases de datos.
puntos. - Permite la personalización
I3Geo - Intersección entre de sistemas de información
capas. geográfica en línea.
- Cálculo de - Maneja información en
centroides. Openlayers, Google Maps
y Google Earth.
- Dispone de módulos de
análisis estadístico y
vectorial.
- QGIS core library. - Video UAV Tracker - Ofrece una plataforma
- GIS functionality - Postgis. adecuada y robusta para el
- QGIS analysis - Qgis2threejs. manejo de sistemas de
library. - Geopunt4Qgis. información geográfica
- Map Composer - Vertices Counter. desde casi cualquier
plataforma.
- Exporta en formatos
QGIS compatibles con servidores
de mapas Mapserver o
Geoserver.
- Contiene módulos de
análisis que llegan al
mismo nivel de su
competidor directo
propietario ArcGIS.

59
Módulos
Sistema Extensiones Observaciones
disponibles
- Herramientas de - Personalizadas por el - Su integración directa con
manipulación de usuario i3GEO lo vuelven un
archivos vectoriales. software bastante utilizado
- Herramientas de en proceso de mapificación
manipulación para exportar a web.
Raster. - Su interfaz es intuitiva y
- Histogramas. maneja conexión a
- Infraestructuras de grandes motores de bases
Datos Espaciales y de datos, además las
estándares. herramientas GIS son
GvSIG - Topología de red, adecuadas y manipulables.
gestión de paradas, - Una desventaja es su
camino mínimo, área desarrollo a escritorio,
de servicio aunque se compensa con
- Vista 3D plana, su manejo en sistemas
esférica. móviles.
- Una ventaja importante es
que maneja paleta de
colores SLD para
manipulación de mapas en
Mapserver.
- Visualización y - Geo-codificación. - Servicio en línea que
análisis de imágenes - Análisis de redes. provee agilidad y facilidad
vector y Raster. - Gestión de planos de cargue de mapas.
digitales. - Aunque es bastante
JMap - SIGNAL-X. potente su valor es
- Google Map. elevado.
- GOLOC. - Maneja una gran variedad
- Telefonía de licencias.
- GRASS GIS - Desarrolladas por el - Al ser libre su código
- Herramientas Usuario en Java. fuente se permite el
especializadas de desarrollo de extensiones
hidrología de la acorde de las necesidades.
máquina de Horton. - Permite manejar mapas de
uDig
- Soporta de forma diversos tipos.
nativa archivos de - Maneja pocos elementos
forma (Shapefiles), de análisis para cartografía
PostGIS, WMS y básica.
otras.
- Análisis Raster. - No - El sistema es limitado y
- Análisis estadísticos enfocado a la utilización
de los datos Raster. según la temática de uso.
Saga - Su análisis Raster es muy
- Modelos digitales y
análisis del terreno. avanzado y se enfoca a
elementos complejos.
- Geospatial Data. - No - Sin soporte.
Open
- Abstraction Library.
EV - FW Tools.
Fuente. El Autor.

60
6.1.2 Procesamiento analítico en línea

6.1.2.1 Descripción general

Tabla 9. Descripción general software OLAP

Sistema Entidad Licencia País Versión Idioma Plataforma


Pentaho Privativo, Estados Inglés, Escritorio,
Pentaho 5.0
Corporation GPL Unidos Español Web, Móvil
Estados Escritorio,
Exact Exact Privativo 1.0 Inglés
Unidos Web
Estados Escritorio,
Cognos IBM Privativo 10.0 Inglés
Unidos Web, Móvil
Multi- Escritorio,
SAP SAP Privativo Alemania 7.0
lenguaje Web
Escritorio,
Intellicus Intellicus Privativo India 7.1 Inglés
Web
Estados
Logi Logi Analytics Privativo 9.0 Inglés Web
Unidos
Proclarit Estados Escritorio,
Microsoft Privativo 6.3 Inglés
y Unidos Web
Micro Estados Inglés,
MicroStrategy Privativo 9.0 Web
Strategy Unidos Español
Estados
Bi360 Solver Privativo 1.0 Inglés Escritorio
Unidos
Tableau Privativo, Estados Multi-
Tableau 1.0 Web, Móvil
Server Community Unidos lenguaje
Estados Multi-
Targit Targit Privativo 1.0 Web, Móvil
Unidos lenguaje
Fuente. El Autor.

6.1.2.2 Características técnicas

Tabla 10. Características técnicas software OLAP

Soporte
Módulos Sistema Soporta Soporte
Sistema Estado
análisis operativo cartografía SOLAP
al
usuario
Windows, Solo
Pentaho Activo Si Linux, versión Si Si
MacOS visual

61
Soporte
Módulos Sistema Soporta Soporte
Sistema Estado
análisis operativo cartografía SOLAP
al
usuario
Exact Activo Si Windows Si No Si
Cognos Activo Si Windows No No Si
Si, módulo
SAP Activo Si Windows No Si
ESRI
Windows,
Linux, HP-
Intellicus Activo Si No No Si
UX,
Solaris
Multi-
Logi Activo No Si No Si
plataforma
Proclarity Activo Si Windows No No Si
Multi-
Microstrategy Activo Si No No Si
plataforma
Bi360 Activo Si Windows No No Si
Tableau Multi-
Activo Si No No Si
Server plataforma
Multi-
Targit Activo Si No No Si
plataforma
Fuente. El Autor

6.1.2.3 Características funcionales y observaciones

Tabla 11. Características funcionales y observaciones software OLAP

Módulos
Sistema Extensiones Observaciones
disponibles
- Análisis Visual - Plugins para desarrollo de - Suite de aplicaciones que
Interactivo software. permite realizar inteligencia
- Tableros gráficos y - Enlace de SGBD con el de negocios para casi
de respuesta BIserver cualquier fin.
- Soluciones - Envío de comentarios y - Tiene subdivisiones en
integrales para la comunicación de parte comercial "privativa"
presentación de problemas y de código abierto para la
informes - La mayoría son comunidad.
Pentaho
- Gestión desarrollados por los - Ofrece soporte según el
simplificada y de usuarios modulo que se adquiera
administración. - Soporta manejo de vistas pero su valor en la parte
- Integración de por medio de mapas comercial es considerable,
datos completa digitales. razón por la cual solo es
- Análisis predictivo usado en empresas que
tengan la posibilidad de
adquirirlo.

62
Módulos
Sistema Extensiones Observaciones
disponibles
- Análisis Ad Hoc - Informes ad hoc - Permite crear vistas
- Indicadores OLAP - Informe programado personalizadas de
- Análisis predictivo automático información para el manejo
- Análisis de - Dashboard Personalizable y representación de los
Ganancia - Funciones personalizables datos.
Exact - Indicadores de - Pronóstico - Tiene integración con ERP
Tendencia Financiero/Presupuesto y es compatible con
- Herramientas gráficas de muchos SGBD por medio
referencia ODBC.
- Evaluación del - Maneja gráficos y
Rendimiento operaciones estadísticas.
- Análisis - Agentes basados en - Presenta una gran
Multidimensional acciones que notifican a variedad de informes
- Construcción de los tomadores de personalizables.
reportes. decisiones conforme - Permite manejar
- Query Studio. suceden los eventos. herramientas en paneles
- Monitoreo, Análisis - Búsqueda en Google y amigables y ligeros.
y Reporteo de otros buscadores de los - Soporta herramientas de
Cognos KPIs. datos y metadatos de comunicación para
Cognos. potenciar el intercambio de
- Acceso del contenido de ideas.
Cognos desde
dispositivos móviles como
Blackberry.
- DecisionStream y es el
ETL de Cognos.
- Análisis predictivo. - Según el tipo de sistema - Plataforma web de manejo
- Lumira adquirido. de soporte a negocios.
- Crystal Reports - Tiene un manejo de
- Design Studio información estadística
- Dashboards robusto.
- Aplicaciones - Existen suites para
móviles de SAP diferentes tipos de
SAP empresas.
BusinessObjects
- Geográfica (GIS) - Compatibilidad con
del Instituto de Microsoft.
Investigación de - Es programable y seguro.
Sistemas - Su plataforma no se puede
Medioambientales modificar, código cerrado.
(ESRI)
- Reportes - Arquitectura Orientada a - Diseñado para usuarios
empresariales Servicios. empresariales.
- Ad hoc Reportes. - ETL. - Uso de Plataforma basada
- Built-in OLAP Server. en DHTML para usuarios
Intellicus - Empresa del servidor de de negocios.
informes. - Adaptado para diferentes
- Single Server e escenarios.
implementación simple.

63
Módulos
Sistema Extensiones Observaciones
disponibles
- Plataforma de BI - No - Se basa en una plataforma
basada en la Web Web que se accede
incluyendo, mediante usuario y
gestionado y contraseña proporcionada
Logi
presentación de cuando se adquiere el
informes, análisis, producto.
y cuadros de
mando.
- Monitoreo de datos - Dependiendo de la versión - Contiene un gran conjunto
- Análisis de adquirida. de características, además
conducta muchas maneras de
- Herramientas BI visualizar las relaciones de
datos con buenos paneles
Proclarity de navegación.
- Su punto de análisis es un
poco deficiente.
- Solo se ejecuta sobre
plataformas Microsoft.
- Módulos de - Cubos de Inteligencia. - Soporte en aplicaciones
análisis. - Indicadores derivados. móviles para inteligencia
- Módulos de - Elementos derivados. de negocios móvil.
Micro reportes. - Agregación dinámica. - Manejo de elementos en la
Strategy - Servidor de - Filtros de vista. nube para integrar muchos
análisis. - Aprovisionamiento usuarios y bajar los costos.
- Gráficos y dinámico.
estadísticas.
- Informes. - No - Integración con Microsoft
- Presupuesto. Excel para manejo de
- Dashboards. cálculos.
- Data Warehouse - Solo soporta plataforma de
- Colaboración. escritorio y sistema
Bi360
operativo Windows al
integrarse con Microsoft
Excel lo que lo vuelve
dependiente de la
tecnología.
- Análisis de - No - Ejecución de análisis de
negocio. negocio súper rápida
- Gestión de - Capacitación gratuita.
Tableau
reportes. - Cuadro de mandos
Server
interactivos web
- Manejo de interfaz
interactiva
- Análisis y reporte - No - Manejo de gráficos y tablas
dinámicas muy llamativas.
- Disponible para cualquier
Targit
dispositivo.
- Manejo de presentación de
informes, predictivo y ágil.
Fuente. El Autor.

64
6.1.3 Procesamiento analítico en línea espacial

6.1.3.1 Descripción general

Tabla 12. Descripción general software SOLAP

Sistema Entidad Licencia País Versión Idioma Plataforma


Inglés,
GeoKettle Spatialytics LGPL Canadá 2.5 Francés, Escritorio
Español
GeoMondrian Spatialytics EPL Canadá 1.0 Inglés Web
Schema Estados
Pentaho GPL 1.0 Inglés Escritorio
Workbench Unidos
Knime Knime GPL Suiza 1.0 Inglés Escritorio
Universidad Nueva
Weka GPL 3.6.6 Inglés Escritorio
de Waikato Zelanda
Estados Multi-
Saiku Meteorite GPL 1.0 Web
Unidos lenguaje
Solap Layers Spatialytics GPL Canadá 2.0 Inglés Web
Fuente. El Autor.

6.1.3.2 Características técnicas

Tabla 13. Características técnicas software SOLAP

Soporte
Módulos Sistema Soporta Soporte
Sistema Estado
análisis operativo cartografía SOLAP
al
usuario
Windows,
Linux,
GeoKettle Activo Si Si Si Si
MacOS,
Solaris
GeoMondrian Activo Si Multi-sistema No Si Si
Schema Windows,
Activo No No Si Si
Workbench Linux
Windows,
Knime Activo Si Linux, Si Si Si
MacOS
Windows, Solo
Solo version
Weka Activo Si Linux, Versión Si
3.4
MacOS 3.4

65
Soporte
Módulos Sistema Soporta Soporte
Sistema Estado
análisis operativo cartografía SOLAP
al
usuario
Si, con
Saiku Activo Si Multi-sistema plugin Si Si
ChartPlus
Solap Layers Inactivo No Multi-sistema Si Si No
Fuente. El Autor

6.1.3.3 Características funcionales y observaciones

Tabla 14. Características funcionales y observaciones software OLAP

Módulos
Sistema Extensiones Observaciones
disponibles
- Extracción de - No - Herramienta completa para
información. realizar la Extracción,
- Transformación Transformación y Carga de
GeoKettle de datos. la bodega de datos
- Carga de datos espacial.
en el formato
destino.
- Constructores - No - Sencillo despliegue en
de Geometrías Tomcat (Java).
en línea. - Extensión de lenguaje
- Filtros miembros MDX para soporte de
basados en cualquier dato geométrico.
predicados - Aunque no tiene un visor
GeoMondrian
topológicos. espacial propio sus fuentes
- Cálculos se pueden utilizar en
basados en proyectos web.
atributos - Maneja funciones de
escalares. manejo de análisis de
polígonos, puntos y líneas.
- Creación de - No - Herramienta para crear
cubos cubos de datos para cargar
espaciales y no en el servidor
Schema
espaciales GeoMondrian, su salida es
Workbench un archivo XML con el
esquema del cubo de
datos.
- Entrada/Salida - GeoKnime - Software libre que cumple
- Manipulación de - R Integración, con las características
datos. JFreeChart Integración espaciales y de análisis de
Knime
- Vistas - Chemistry la información para la
- Hiliting. - Weka, BIRT Reporting realización de la minería de
- Algoritmos de - Math Formula datos espacial, además

66
Módulos
Sistema Extensiones Observaciones
disponibles
minería de datos - XLS Reader and Writer con su extensión
del estado de la - External Tools geográfica GeoKnime se
técnica, como la - Distance Matrix pueden manipular datos
agrupación, - LBSVM, Ensemble espaciales.
inducción de Learning
reglas, árboles - OpenStreet Map
de decisión, - Data Generation
reglas de
asociación,
Bayes, redes
neuronales,
máquinas de
vectores.
- Simple CLI - Experimental - Software libre orientado a
- Explorer - Spatial la minería de datos
- Clasificación espacial, últimamente
- Asociación adaptado al análisis
Weka - Agrupamiento – espacial.
K-Means
- Selección de
atributos
- Visualización
- Consulta - No - El sistema maneja de
- Visualización forma amigable las
- Filtrado de datos dimensiones y medidas,
Saiku - Análisis además es rápido y se
estadístico puede adaptar a
gráfico programación por parte del
usuario.
- Visualización de - No - Aunque el proyecto está
información en abandonado es completo y
Solap Layers cartografía orientado para visualizar la
digital información espacial
SOLAP.
Fuente. El Autor.

6.1.4 Selección de herramientas de trabajo SOLAP. Como conclusión y


evaluando la aplicación de SOLAP, formas de representación gráfica,
manipulación de los datos espaciales y configuración del sistema para el
cumplimiento de los objetivos se eligieron las herramientas libres de la siguiente
manera para el desarrollo del proyecto.

- Sistema Gestor de Base de Datos Espacial OLTP: Postgres+Postgis.


- Software para construir el Cubo de Datos: GeoKettle.
- Software para construir el Esquema de Datos: Schema Workbench.

67
- Servidor OLAP Geospatial: GeoMondrian.
- Software Minería Espacial: Knime (Extensión GeoKnime - OSM).
- Software de visualización Geospatial BI: SOLAP Layers.

Además, actualmente no se encuentra desarrollada un sistema software que


integre cada una de las herramientas mencionadas para construir y aplicar la
inteligencia de negocios espaciales en su totalidad, razón por la cual se
concentran estas herramientas para poder cumplir con las metas propuestas.

6.2 DISEÑO E IMPLEMENTACIÓN DE LA BODEGA DE DATOS ESPACIAL DE


LAS PRUEBAS SABER 11

6.2.1 Planeación del proyecto

6.2.1.1 Planeación y Administración del proyecto. El desarrollo del trabajo de


grado está dirigido al Instituto Colombiano para la Evaluación de la Educación
conocido como ICFES, el cual es una entidad especializada en ofrecer servicios
de evaluación de la educación, apoyar al Ministerio de Educación Nacional en la
realización de exámenes y adelantar investigaciones sobre la calidad educativa
[56]. Para el desarrollo del trabajo se escogió las pruebas Saber 11 “antes
conocida como Examen del ICFES, es un exámen de estado que evalúa a los
estudiantes que están terminando su ciclo de Educación Media” [56]. Los datos
manejados dentro del proyecto fueron suministrados por la entidad en su
repositorio de información FTP en la dirección http://ftp.icfes.gov.co, estos datos
se encuentran disponibles para cualquier persona interesada en desarrollar
proyectos de investigación referentes a la entidad.

Ralph Kimball menciona que existen cinco factores que deben existir en una
entidad u organización para poder desarrollar la bodega de datos de forma
correcta:

 Patrocinio de la gerencia del negocio: Se contó con el aval del funcionario de


la Oficina Asesora de Gestión de Proyectos de Investigación el cual apoyó el
proceso de realización del trabajo de investigación y ofreció su colaboración con el
desarrollo del mismo.

 Motivación del negocio: El objetivo principal para el ICFES con el desarrollo


del proyecto es generar conocimiento no trivial o que no es posible de encontrar

68
mediante los métodos estadísticos descriptivos. El ICFES ve interesante encontrar
características dependientes de la ubicación geográfica asociada a la información
procedente de su base de datos.

 Acompañamiento del departamento de tecnología: El ICFES cuenta con


personal encargado de mantener y alimentar sus bases de datos de las diferentes
pruebas que manejan Saber 5 y 9, Saber 11, Saber Pro y de docentes.

 Presencia de cultura analítica: Por medio del estudio investigativo la entidad


tendrá un sistema que permitirá tomar decisiones según factores espaciales que
serán determinantes y estratégicos para la aplicación de las pruebas.

 Factibilidad: El ICFES cuenta con la información detallada para la realización


de la Bodega de Datos y piensan que el proyecto podría contribuir a que no solo
se encuentren relaciones primarias entre los datos sino generar conocimiento a
través de tratamientos más complejos. Adicionalmente, instituciones como el
Ministerio de Educación y el DANE entre otros generan reportes sobre educación
usando como datos de entrada la información que el ICFES genera.

6.2.1.2 Planeación del proyecto: El proyecto de grado se le dió nombre de


“INTELIGENCIA DE NEGOCIOS ESPACIALES ORIENTADA AL ANÁLISIS DE
DATOS SOBRE PRUEBAS SABER 11 DEL ICFES” por la aplicación que se le
darán a las bases de datos obtenidas de la institución y su aplicación SOLAP.

Los roles que se identificaron en el desarrollo del proyecto se muestran en la


Tabla 15:

Tabla 15. Roles y responsabilidades

Rol Responsabilidad Participante


Asesor del Proporcionar el apoyo y elementos Miguel Ángel Orjuela
proyecto por de la organización que se requieran Rocha
parte del durante el desarrollo del proyecto.
ICFES
Director del Velar por las actividades y Gustavo Cáceres
proyecto cumplimiento de las mismas Castellanos
propuestas en el trabajo y con la
metodología seleccionada.

69
Rol Responsabilidad Participante
Investigador Desarrollar el proyecto y obtener el Christiam Alejandro Niño
resultado del mismo. Peña
Apoyo Proporcionar la ayuda necesaria con Funcionarios área técnica
técnico respecto a organización y de datos
manipulación de los datos
proporcionados por la entidad.
Fuente. El Autor.

6.2.1.3 Desarrollo cronograma de actividades. Se estableció el orden y


duración de las actividades, requisitos y restricciones para la aplicación del
objetivo de diseño y creación de la bodega de datos espaciales.

La Tabla 16 muestra las fases, actividades y fechas de inicio y fin de la realización


de la bodega de datos espacial.

Tabla 16. Cronograma de actividades bodega de datos espacial

Fase Actividad Fecha Fecha Final


Inicial
Inicial Reunión preparatoria 03-02-2014 03-02-2014
Reunión con asesor ICFES 11-02-2014 11-02-2014
Planeación Definición del plan de ejecución del 12-02-2014 14-02-2014
proyecto
Establecimiento de requerimientos de 17-02-2014 21-02-2014
realización de la bodega
Análisis y Organización de los requerimientos 24-02-2014 02-03-2014
Diseño
Realizar análisis y diseño bodega de 07-03-2014 17-03-2014
datos y cubos de datos espaciales.
Desarrollo Realizar diseño y desarrollo ETL de la 20-03-2014 27-03-2014
bodega de datos espacial
Desarrollo diseño propuesto para el 28-04-2014 04-04-2014
cubo de datos espacial
Aprobación Revisión y aprobación por parte del 25-04-2014 30-04-2014
personal encargado del ICFES
Fuente. El Autor.

70
6.2.2 Definición de requerimientos de negocio

6.2.2.1 Análisis de requerimientos. Para obtener los requerimientos necesarios


para la realización del proyecto se realizaron entrevistas con las personas
encargadas de la Oficina Asesora de Gestión de Proyectos de Investigación y del
área técnica de datos. Se encontró que el ICFES como tal no recomienda
indicadores o variables para el desarrollo de este tipo de análisis, sugiere que los
investigadores interesados estudien las variables y recomienden algunos índices,
indicadores o relacionados dependiendo del tipo de estudio a realizar.

6.2.2.2 Levantamiento de información. Se realizó una entrevista con el Señor.


Miguel Ángel Orjuela Rocha quien pertenece a la Oficina Asesora de Gestión de
Proyectos de Investigación del ICFES, quien manifestó la necesidad de realizar el
estudio de inteligencia de negocios espaciales, ya que al momento de iniciar el
desarrollo del trabajo no existe ningún estudio, aplicación y/o herramienta que
brinde apoyo a la toma de decisiones de manera espacial.

Una vez analizada la información disponible, se procedió a descargar los archivos


del repositorio FTP del ICFES, esta información contiene archivos planos con la
información histórica de los años 2009 a 2013 con cada una de las variables
necesarias para la realización del proyecto, las cuales se seleccionaron tomando
como referencia las sugerencias del asesor del ICFES.

Las variables de análisis seleccionadas son:

 Tiempo: años y semestres (2009-1 a 2013-2)


 Instituciones educativas: Código, nombre, calendario, género, naturaleza,
jornada, carácter, municipio y departamento de localización
 Evaluados: Consecutivo, tipo de documento, género, año de nacimiento, edad,
municipio y departamento origen, zona, etnia, estrato y si el estudiante trabaja.
 Condiciones socioeconómicas: Área donde vive, cantidad de personas en el
hogar, nivel del SISBEN, ingresos familiares, material del piso de la vivienda,
cantidad de cuartos, si tiene computador, DVD, vehículo, celular, internet,
servicio de TV, servicio telefónico, lavadora, horno y microondas, municipio y
departamento de presentación del exámen.
 Áreas: Tipo y nombre.
 Exámenes: Puntaje de los evaluados.

71
6.2.3 Diseño arquitectura técnica. La siguiente es la arquitectura diseñada para
el desarrollo de la bodega de datos espacial de las pruebas ICFES Saber 11, se
utilizan las herramientas GeoKettle y el gestor de bases de datos Postgresql 9.3 y
su extensión espacial Postgis 2.1, la Figura 13 muestra el diseño de la arquitectura
utilizado.

Figura 13. Diseño arquitectura técnica bodega de datos espacial

Fuente. El Autor.

 Fuente de datos OLTP: Archivos planos proporcionados por el ICFES donde


se encuentra toda información recolectada de los años 2009 a 2013.
 Sistema ETL: La herramienta llamada GeoKettle realiza el proceso de
(extracción, transformación y carga) de los datos de las diferentes dimensiones
en la bodega de datos espacial, tiene la particularidad de manejar datos
espaciales para así obtener tablas con componente geográfico.
 Bodega de datos: El sistema gestor de bases de datos Postgresql con su
extensión Postgis permite almacenar los datos de forma dimensional, y con el
servidor de inteligencia de negocios con soporte espacial GeoMondrian tener
las tablas de hechos y dimensiones adaptadas para poder realizar las
consultas alfanuméricas y espaciales sobre ellas.
 Reportes: Las herramientas GeoMondrian para la parte alfanumérica y
SolapLayers para la parte espacial, utiliza la información almacenada

72
generando informes para mostrar los resultados esperados por el ICFES en
diferentes formatos ya sean tablas, gráficos estadísticos y mapas.
 Minería de datos: La herramienta GeoKnime permite realizar minería de datos
espaciales sobre la información almacenada en la bodega de datos espacial.

6.2.4 Modelamiento dimensional. En el desarrollo de la bodega de datos


espacial se utilizó el modelo copo de nieve, ya que se detalló de forma espacial los
municipios y departamentos de las instituciones educativas. El modelo realizado
tiene una tabla de hechos que se rodea de las dimensiones, esto permite
desarrollar consultas SOLAP sobre los datos.

Esta bodega de datos espacial se diseñó con base a los requerimientos expuestos
anteriormente en base a la entrevista realizada al área de gestión de proyectos de
investigación.

 Preguntas del negocio. Las preguntas del negocio se basaron en el interés


del ICFES por saber qué conocimiento se puede generar mediante el proyecto a
partir de los datos brindados por ellos para propósitos de investigación.

Las preguntas que se responderán con el proyecto son:

a. ¿Cuál es la cantidad de evaluados al período 2013 en los establecimientos


educativos por departamentos y municipios según análisis espacial?
b. ¿Cuál es la cantidad de evaluados en 2013?, por: calendario A, mixto, oficial,
jornada mañana de las instituciones educativas en áreas de núcleo común por
departamento y municipio según análisis espacial
c. ¿Cuáles son los máximos puntajes de los evaluados en biología por institución
educativa por departamento 2009 vs 2013 representados espacialmente?
d. ¿Cuál fue el mejor departamento de Colombia en obtener los puntajes más
altos en los resultados de las pruebas saber 11 y al mismo tiempo cual fue el más
bajo en el año 2013 representados espacialmente?
e. ¿Cuáles fueros los máximos puntajes del área de matemáticas en los
municipios del departamento de Boyacá del año 2013 según análisis espacial?

6.2.5 Diseño conceptual. Los datos relacionados a continuación son tomados de


los archivos planos que proporciono el ICFES. Se comienza con la forma no
normalizada de los datos como se muestra:

73
6.2.5.1 Forma no normalizada: En esta forma se tienen los registros básicos de
las bases de datos del ICFES que vienen clasificadas por años y semestres.

6.2.5.2 Forma normalizada: Después de cargar los datos en el sistema gestor de


bases de datos se procedió a normalizarlos para tener las dimensiones necesarias
y tabla de hechos para la bodega de datos.

6.2.5.3 Parte espacial: En el proceso de carga de información espacial se obtuvo


la capa de polígonos espaciales de Colombia dividida en municipios y
departamentos por parte de SIGOT (Sistema de Información Geográfica para la
planeación y el ordenamiento Territorial - http://sigotn.igac.gov.co/sigotn/).

6.2.5.4 Dimensiones: Las dimensiones diseñadas se muestran a continuación en


la Tabla 17.

Tabla 17. Dimensiones diseñadas


Dimensión Tipo Detalle
Dim_Evaluados Alfanumérica Ninguno
Dim_Instituciones Alfanumérica Ciudad, Departamento
Dim_Tiempos Alfanumérica Ninguno
Dim_Area Alfanumérica Ninguno
Fuente. El Autor

a. Dimensión Evaluados: Almacena la información alfanumérica de datos


básicos del estudiante e información socioeconómica del mismo.
b. Dimensión Tiempos: Almacena los años divididos por semestres desde 2009
a 2013.
c. Dimensión Áreas: Almacena los tipos y áreas a evaluar por parte del ICFES.
d. Dimensión Instituciones: Almacena la información alfanumérica de datos de
las instituciones educativas del país.
e. Detalle Ciudad: Contiene los datos espaciales de las ciudades donde se
ubican las instituciones educativas.
f. Detalle Departamento: Contiene los datos espaciales de los departamentos
donde se ubican las instituciones educativas.

74
6.2.5.5 Tabla de hechos: En el desarrollo de la bodega espacial se diseñó la
tabla llamada hechos_examen que contiene la información de los puntajes de los
evaluados según las diferentes dimensiones asociadas.

6.2.6 Diseño lógico: Contiene las dimensiones y tabla de hechos. La Figura 14


muestra el diseño lógico de la bodega de datos espacial.

6.2.7 Diseño físico. Se procedió a la creación de la bodega de datos espacial


por medio de los scripts SQL DDL Lenguaje de Definición de Datos.

6.2.8 Diseño de capas de datos intermedia y desarrollo. Se utilizó la


herramienta GeoKettle que permitió realizar extracción, transformación y carga de
datos. Además permite realizar transformaciones de datos con herramientas como
mapeo, selección, filtro, unión, duplicación, análisis espacial, vistas de cartografía
y otras, finalmente obtener la salida de estos resultados para conformar la bodega
de datos.

6.2.8.1 Procesos ETL Dimensiones.

 Extracción: Se obtienen los valores de los archivos texto del ICFES que
vienen clasificados por años y semestres de instituciones educativos,
evaluados, áreas del exámen y puntajes.

 Transformación: Se realiza la transformación de eliminar duplicados, se


realizan ordenamientos, búsqueda de archivos huérfanos, mal nombrados y
nulos.

 Carga: Se cargan los datos a las respectivas dimensiones.

Finalmente se obtuvo el diccionario de datos de la bodega de datos espacial, que


se muestra en la Tabla 18 las dimensiones, en la Tabla 19 los detalles de la
dimensión institución y la Tabla 20 que muestra la tabla de hechos.

75
Figura 14. Diseño lógico de la bodega de datos espacial.

Fuente. El Autor.

76
Tabla 18. Diccionario de datos dimensiones

Dimensión Columna Descripción Valores Tipo


codigo Código institución - 8, 15, 56, … Integer
nombre Nombre institución - COLEGIO … Varchar
- Calendario Flexible
Calendario
calendario - Calendario A Varchar
institución
- Calendario B
- Femenino
generos Géneros Institución - Masculino Varchar
- Mixto
Naturaleza - No oficial
naturaleza Varchar
Institución - Oficial
- Completa u ordinaria
- Mañana
jornada Jornada Institución - Noche Varchar
Instituciones - Sabatina – Dominical
- Tarde
- Académico
- Académico y Técnico
caracter Carácter Institución - Desconocido Varchar
- Normalista
- Técnico
Código DANE
cod_dane Municipio - 5001, 5002, … Integer
institución
Ciudad de la
municipio - Paipa, Duitama, … Varchar
institución
Departamento de
departamento - Boyacá, Antioquia, … Varchar
la Institución
Identificador del
id - 20091, 20092, … Integer
periodo
Tiempos
ano Año del periodo - 2009, 2010, …, 2013 Integer
semestre Semestre periodo - 1, 2 Integer
Identificador del
id_area - 1, 2, … Integer
área
- Biología
- Ciencias sociales
- Filosofía
- Física
- Inglés
- Lenguaje
Área
nombre
Nombre del área a - Matemáticas Varchar
evaluar - Química
- Profundización en Biología
- Profundización en Ciencias
sociales
- Profundización en
Lenguaje
- Profundización en

77
Dimensión Columna Descripción Valores Tipo
Matemáticas
- Medio Ambiente
- Violencia y sociedad
- Núcleo Común
Tipo del área a
tipo - Profundización Varchar
evaluar
- Interdisciplinar
Consecutivo del
consecutivo - SABER1120111000001, … Varchar
evaluado
- Cedula de ciudadanía
- Cedula de extranjería
Tipo de documento - Certificado de registraduría
tipo_documento Varchar
del evaluado - Pasaporte colombiano
- Pasaporte extranjero
- Tarjeta de identidad
Genero del - Femenino
genero Varchar
evaluado - Masculino
Año de nacimiento
anho_nacimiento - 1980, 1993, … Integer
del evaluado
edad Edad del evaluado - 17, 24, 31, … Integer
Código DANE del
cod_mun_origen municipio origen - 23564, 15001, … Integer
del evaluado
- Centro
- Noroccidente
- Nororiente
- Norte
- Occidente
zona Zona del evaluado Varchar
Evaluados - Oriente
- Sur
- Suroccidente
- Suroriente
- Única
- Arhuaco
- Cancuamo
- Comunidades negras
- Comunidad Rom (Gitana)
- Cubeo
- Emberá
- Guambiano
- Huitoto
- Inga
etnia Etnia del evaluado Varchar
- Otro
- Páez
- Pasto
- Pijao
- Raizal (Isleño)
- Sikuani
- Tucano
- Wayúu
- Zenú

78
Dimensión Columna Descripción Valores Tipo
- Estrato 1
- Estrato 2
- Estrato 3
- Estrato 4
estrato
Estrato del - Estrato 5 Varchar
evaluado - Estrato 6
- Vive en una zona rural
donde no hay
estratificación
socioeconómica
- No
- Si, 20 horas o más a la
semana
- Si, como ayudante sin
remuneración
- Si, con remuneración en
dinero y/o especie
- Si, menos de 20 horas a la
Situación laboral semana
trabaja Varchar
del evaluado - Si, para adquirir
experiencia y/o recursos
para sus gastos personales
- Si, para contribuir a pagar
su matrícula y/o los gastos
del hogar
- Si, por ser práctica
obligatoria del programa de
estudios
Área de la vivienda - Cabecera municipal
area Varchar
del evaluado - Rural
Cantidad de
personas_hogar personas en el - 1, …, 12 Integer
hogar del evaluado
- Clasificado en otro nivel
- Nivel 1
Nivel de SISBEN
sisben - Nivel 2 Varchar
del evaluado
- Nivel 3
- No está clasificado
- 10 o más SM
- Entre 1 y menos de 2 SM
Ingreso de la - Entre 2 y menos de 3 SM
ingreso_familiar familia del - Entre 3 y menos de 5 SM Varchar
evaluado - Entre 5 y menos de 7 SM
- Entre 7 y menos de 10 SM
- Menos de 1 SM
- Cemento – Gravilla –
Material del piso de Ladrillo
material_piso la vivienda del - Madera burda – Tabla o Varchar
evaluado tablón
- Madera pulida – Baldosa –

79
Dimensión Columna Descripción Valores Tipo
Tableta – Mármol –
Alfombra
- Tierra - Arena
Cantidad de
cuartos de la
cantidad_cuartos - 1, …, 10 Integer
vivienda del
evaluado
Posesión de - Si
sn_computador Varchar
computador - No
Posesión de
- Si
sn_dvd reproductor de Varchar
- No
DVD
Posesión de - Si
sn_vehiculo Varchar
vehículo - No
- Si
sn_celular Posesión de celular Varchar
- No
Posesión de - Si
sn_internet Varchar
servicio de internet - No
Posesión de
- Si
sn_serviciotv servicio de Varchar
- No
televisión
Posesión de
- Si
sn_telefonia servicio de Varchar
- No
telefonía
Posesión de - Si
sn_lavadora Varchar
lavadora - No
- Si
sn_horno Posesión de horno Varchar
- No
Posesión de horno - Si
sn_microondas Varchar
microondas - No
Ciudad de origen
municipio_origen - Sogamoso, Bogotá, … Varchar
del evaluado
departamento_or Departamento
- Huila, Sucre, … Varchar
igen origen del evaluado
Puesto del
puesto evaluado en las - 1, 100, 567, …, 1000 Integer
pruebas
Código del
cod_mun_prese municipio de
- 15567, 63876, … Integer
ntacion presentación del
exámen
Municipio de
municipio_prese
presentación del - Tunja, Yopal, … Varchar
ntacion
exámen
Departamento de
departamento_pr
presentación del - Boyacá, Casanare, … Varchar
esentacion
exámen
Fuente. El Autor.

80
Tabla 19. Diccionario de datos detalles de instituciones

Detalle Columna Descripción Valores Tipo


Código DANE de la ciudad de la
cod_dane - 15567, 63876, … Integer
institución
nombre Nombre de la ciudad de la institución - Tunja, Yopal, … Varchar
geom Polígono de la ciudad de la institución - 010600020E61… Geometry
Ciudad
latitud Latitud de la ciudad de la institución - 4.70, 2.40, … Numeric
longitud Longitud de la ciudad de la institución - -75.77, -78.20, … Numeric
Id_depart Identificador del departamento de la
- 8, 15, 19, … Integer
amento ciudad de la institución
Identificador del departamento de la
id_depto - 5, 8, 15, … Integer
institución
Nombre del departamento de la
nombre - Casanare, Choco Varchar
institución
Departa Polígono del departamento de la
geom - 010600020E61… Geometry
mento institución
Longitud del departamento de la
Latitud - 4.70, 2.40, … Numeric
institución
Latitud del departamento de la
Longitud - -75.77, -78.20, … Numeric
institución
Fuente. El Autor.

Tabla 20. Diccionario de datos tabla de hechos

Hechos Columna Descripción Valores Tipo


Identificador del periodo a
id_periodo - 20131, 20121, … Integer
evaluar
id_estudiante Consecutivo del evaluado - SABER1120111000001, … Integer
Examen id_institucion Código de la institución - 8, 15, 56, … Integer
id_area Identificador del área - 1, 2, … Integer
Puntaje obtenido por el
puntaje - 0, 20, …, 100 Numeric
evaluado
Fuente. El Autor.

6.2.9 Cubo espacial. En su diseño se utilizó la herramienta Schema Workbech


que permitió la creación del archivo XML con la definición del cubo espacial, que
posteriormente se utilizó como insumo para la herramienta que generara los
reportes espaciales. La Figura 15 muestra la representación del cubo espacial
dividido en esquema, cubo, medidas, dimensión, jerarquía, nivel y propiedades.
Para que sea llamado espacial se incorpora la propiedad GEOMETRY, esta
propiedad se encuentra asociada a las instituciones educativas en la ciudad y
departamento de ubicación.

81
Figura 15. Cubo espacial ICFES Saber 11

Fuente. El Autor

82
6.3 CARACTERIZACIÓN Y SELECCIÓN DEL ALGORITMO DE MINERÍA DE
DATOS ESPACIALES

6.3.1 Caracterización. Para el desarrollo de este objetivo se hace necesario


relacionar los algoritmos de minería de datos, así como las técnicas que los
aplican, a partir de esto se obtiene la Tabla 21 que muestra la selección de
algoritmos espaciales y no espaciales junto con sus técnicas relacionadas.

Tabla 21. Técnicas y algoritmos de minería de datos espacial y no espacial

Minería de datos no espacial


Técnica Tipo
Arboles de decisión Supervisados
Inducción o redes neuronales
Regresión lineal
Series de tiempo
Detección de desviaciones o Naive Bayes No supervisados
Reglas de asociación
Patrones secuenciales
Minería de datos espacial
Técnica Algoritmo
Generalización De datos espaciales
De datos no espaciales
Agrupación Particional K-MEANS
K-MEDOIDS
Agrupación Jerárquica BOTTOM-UP
TOP-DOWN
Agrupación basada en localización CLARANS
SD-CLARANS
Reglas de asociación A-PRIORI
Fuente. Obtenido a partir de [12].

A partir de la tabla anterior se realiza la caracterización de los algoritmos de


minería espacial así: la Tabla 22 detalla las características generales de los
algoritmos de minería de datos espacial, la Tabla 23 los parámetros que usa en
los procedimientos que aplica y la Tabla 24 las ventajas y desventajas. Esta
caracterización se realizó teniendo en cuenta factores que permiten aplicar los
algoritmos sobre la información espacial o geográfica y de esta forma seleccionar
el más adecuado para aplicar sobre la bodega de datos espacial de las pruebas
ICFES Saber 11.

83
Tabla 22. Caracterización general

Algoritmo Descripción Métodos que utiliza


Realiza uso de jerarquía de conceptos. Temático: Se enfoca en elementos del
Generalización
Utiliza tantos niveles como sea sistema.
de datos
necesario usar. Espacial: Sectores o lugares. Usa
espaciales [58]
Busca patrones de comportamiento. clasificación y ordenamiento de datos.
Generalización Se enfoca en situar los datos por General: Utiliza únicamente los datos
de datos no niveles según los atributos con características dadas y comunes.
espaciales [58] encontrados.
El algoritmo selecciona aleatoriamente -Intenta determinar k particiones que
K números de objetos, cada objeto minimicen el error en las funciones
representa el centro de un clúster, para -Es escalable y eficiente en
los elementos restantes se le asigna un procesamiento de grandes conjuntos
objeto de clúster más similar, esto de datos, esto a que el algoritmo
K-Means [18] basado en la distancia del objeto y el maneja complejos procedimientos de
grupo representado anteriormente. agrupamiento de la información, esta
se representa como: N (Total de
objetos), K (Número de clústers) y T
(Número de Iteraciones)
-Termina en un resultado óptimo.
Se encarga de determinar un objeto -Para el descubrimiento de los k
representativo para cada clúster medoids, se comienza con una
llamado medoid, este es el objeto más selección aleatoria de k objetos, en
K-Medoids cercano al centro en el clúster. Cuando cada iteración se realiza un intercambio
[17] los medoids han sido seleccionados, entre un objeto seleccionado y uno no
los objetos que no se seleccionaron seleccionado si y solo si se aumenta la
son agrupados con el medoid más calidad del agrupamiento.
similar.
Se tiene desde el más específico hasta “Este une sucesivamente los objetos o
el más general, puede tener unas grupos cercanos a otros hasta que
Botton-Up [59] características organizadas por todos los grupos se unen en uno (el
municipios y su agrupamiento se mayor nivel de la jerarquía) o hasta que
realizaría por departamento. se cumple determinada condición” [60]
Se enfoca de lo general a lo especifico, “En cada iteración sucesiva, un grupo
en este caso se tiene el país y este se es dividido en pequeños grupos hasta
divide en departamento y municipios, que, eventualmente, cada objeto esté
Top-Down [59] obteniendo un mayor detalle, este es dentro de un grupo o hasta que se
muy útil para obtener información cumpla determinada condición.” [60]
detallada sobre algún elemento o grupo
que se quiere abordar.
Denominado (Clustering Large Se apoya en características de los
Applications based up on randomized algoritmos PAM (Partitioning Around
Search - Agrupación de grandes Medoids, Repartición alrededor de
CLARANS [12] aplicaciones basadas sobre búsquedas medoides) y CLARA (Clustering for
aleatorias), consiste en búsquedas Large Applications, Agrupación para
aleatorias en grupos limitados de datos. aplicaciones grandes) para obtener
distintas fases de búsqueda.
Denominado “Aproximación dominante Se basa en una herramienta llamada
espacial” busca descubrir DBLEARN que primero extrae un
SD-CLARANS
características no espaciales en grupos conjunto de filas relevantes y luego con
[12]
espaciales. las jerarquías de generalización
generaliza las tuplas.

84
Algoritmo Descripción Métodos que utiliza
Permite utilizar reglas de asociación -Las medidas clave para la aplicación
que define conjuntos X y Y de de minería de reglas de asociación
predicados espaciales y no espaciales, incluyen Soporte y Confianza. Soporte
los primeros calculan relaciones entre se refiere al grado en el que una
objetos y devuelven un valor de verdad relación se presenta en los datos y la
como disjoint, touches, overlaps, Confianza es la probabilidad de que
contains, adjacent_to, near_by, inside, ocurra un precedente ocurriendo una
A-PRIORI [15]
close_to, y otros. consecuencia.
-Establece que si un itemset es
frecuente, también los son todos sus
subconjuntos. Porque el soporte de un
itemset no puede ser mayor que el de
cualquiera de sus subconjuntos,
llamada anti-monotonía del soporte.
Fuente. El Autor.

Tabla 23. Caracterización según parámetros de procedimientos

Parámetros de
Algoritmo Parámetros de entrada Pasos de aplicación
salida
Conjunto de Utilización de jerarquías de
Datos organizados en una tuplas o grupos generalización de valor
Generalización
bodega de datos con de datos según (VGH).
de datos
características espaciales un tipo dado de
espaciales [58]
(geometry) clasificación por
geometrías.
Datos organizados en una Conjunto de Utilización de jerarquías de
bodega de datos sin tuplas o grupos generalización de dominio
Generalización
características espaciales. de datos según (DGH).
de datos no
un tipo dado de
espaciales [58]
clasificación por
tablas.
K (Número de clústers) y D Un conjunto de -Elegir arbitrariamente K
(Conjunto de datos que K clústeres. objetos de D como grupo
contienen n objetos). inicial de centroides.
-Reasignar cada objeto a la
agrupación a la que el objeto
es más similar, en función
K-Means [18]
del valor medio de los
objetos en el clúster
-Actualizar el clúster, calcular
el valor medio de los objetos
de cada grupo.

𝑂𝑖 = La expresión -Selección de k objetos


𝑀𝑒𝑑𝑜𝑖𝑑 𝑢 𝑂𝑏𝑗𝑒𝑡𝑜𝑠 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜 𝑚𝑖𝑛𝑜𝑒 es el representativos de forma
K-Medoids 𝑂𝑗 = 𝑂𝑏𝑗𝑒𝑡𝑜 𝑛𝑜 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜 mínimo sobre aleatoria.
[17] En donde, 𝑂𝑗 pertenece al todos los -Calcular 𝑇𝐶𝑖ℎ para todos los
clúster representado por 𝑂𝑖 , si medoids 𝑂𝑒 y la objetos 𝑂𝑖 , 𝑂ℎ , donde 𝑂𝑖 esta
𝑑(𝑂𝑗 , 𝑂𝑖 ) = 𝑚𝑖𝑛𝑜𝑒 (𝑂𝑗 , 𝑂𝑒 ) notación seleccionado, 𝑂ℎ no está

85
Parámetros de
Algoritmo Parámetros de entrada Pasos de aplicación
salida
𝑑(𝑂𝑎 , 𝑂𝑏 ) es la seleccionado.
distancia entre -Seleccionar el par 𝑂𝑖 , 𝑂ℎ el
los objetos cual corresponde a
𝑂𝑎 𝑦 𝑂𝑏 𝑚𝑖𝑛𝑂𝑖 ,𝑂ℎ 𝑇𝐶𝑖ℎ , si el mínimo
𝑇𝐶𝑖ℎ es negativo, se
reemplaza 𝑂𝑖 𝑝𝑜𝑟 𝑂ℎ , y se
regresa al paso anterior.
N Clústeres de entrada para Clúster 1. Asignar cada ejemplo a un
combinar combinado clúster diferente (n ejemplos,
final. n clústeres)
2. Encontrar el par de
clústeres más similares y
combinarlos en un único
clúster
Botton-Up [61]
3. Recalcular las similitud o
distancias entre el nuevo
clúster y los clústeres
restantes
4. Hasta que solo quede un
clúster de tamaño n, volver a
2.
Clúster general para N Clústeres Inicia con una lista vacía de
desagregar encontrados punto de corte y se continúa
según separando los intervalos
Top-Down [62]
parámetros mientras se agregan nuevos
establecidos y puntos, llamado
reglas dadas. discretización.
Parámetros numlocal y Mejor nodo de 1-Dar como datos de entrada
maxneightbor, estos aplicación de los parámetros numlocal y
parámetros son definidos por los datos maxneightbor. Inicializar i a
el conjuntos de objetos y espaciales que 1, y mincost a un número
elementos de agrupamiento. el agrupamiento mayor.
resultante pudo 2-Establecer current a un
obtener. nodo arbitrario en 𝐺𝑛,𝑘
3-Establece j a 1
4-Considerar un vecino
aleatorio S de current, y
basado en la ecuación paso
(5), calcular el costo
CLARANS [17]
diferencial de los 2 nodos.
5-Si S tiene un costo menor,
establecer current a S, ir al
paso (3)
6-De lo contrario,
incrementar j en 1. Si j ?
maxneightbor, ir al paso (4)
7-De lo contrario, cuando j >
maxneightbor, comparar el
costo de current con mincost.
Si este es menor a mincost,
establecer mincost al costo

86
Parámetros de
Algoritmo Parámetros de entrada Pasos de aplicación
salida
de current y establecer
bestnode a current.
8-Incrementar i en 1. Si i >
numlocal, el resultado es
bestnode y terminar. De lo
contrario ir al paso (2)
Conjunto inicial de tuplas Conjunto de 1-Encontrar el conjunto inicial
relevantes tuplas no de tuplas relevantes
espaciales 2- Aplicar CLARANS a los
asociadas a los atributos espaciales para
conjuntos encontrar el número más
espaciales natural 𝐾𝑛𝑎𝑡 de clusters
SD-CLARANS
definidos. 3-Para cada 𝐾𝑛𝑎𝑡 clústeres
[17]
obtenidos:
3.1-Agrupar componentes no
espaciales en tuplas
incluidas en el clúster actual
3.2-Aplicar DBLEARN a
estos grupos no espaciales.
-N transacciones a aplicar Conjunto de 1-Se generan todos los
-Soporte de la regla: reglas de conjuntos de ítems que
supp(X->Y): Fracción de asociación contienen un solo elemento,
transacciones que contiene encontradas del con este se genera otro
tanto a X como a Y, lo que análisis de los conjunto que tenga 2
lleva a supp(X U Y). datos según el elementos y así se repite el
A-PRIORI [63] -Confianza de la regla: Soporte y proceso sucesivamente.
conf(X->Y): Fracción de las Confianza 2-La generación de las
transacciones en las que dados. reglas monitorea en que se
aparece X que también incluye cumpla en criterio mínimo de
a Y; esta mide la frecuencia confianza.
donde Y aparece en
transacciones que incluyen X.
Fuente. El Autor.

Tabla 24. Caracterización según ventajas y desventajas.

Algoritmo Ventajas Desventajas


-Puede realizar tantas combinaciones -Requiere de una gran cantidad de
como jerarquías exista, lo que hace que niveles establecidos para encontrar
Generalización los resultados sean muchos. diferencias notables en los conjuntos
de datos -Al utilizar datos espaciales puede de datos resultantes.
espaciales [58] asociarlos con datos alfanuméricos y de -Aunque utiliza niveles de
esta forma obtener relaciones espacio- generalización espacial, no se
temporal. encuentra del todo completo.
La cantidad de datos que puede utilizar -No aplica para datos de tipo espacial.
Generalización es bastante amplia. -Los atributos utilizados generalmente
de datos no Los datos usados por este algoritmo se son de bases de datos de ventas o
espaciales [58] procesan a altas velocidades según un marketing.
patrón dado.

87
Algoritmo Ventajas Desventajas
-Trabaja de forma eficiente -Se aplica cuando se puede calcular el
-Integra elementos espaciales centroide, no tiene tanto éxito cuando
-Su implementación es sencilla y fácil. se trata de atributos de categorías.
-Sus selecciones se pueden basar en
resultados obtenidos de otros métodos
similares.
K-Means [61] -Necesita conocer el número de
clústeres k para comenzar.
-Sensitivo y algunos clústeres
resultantes pueden tener una taza de
convergencia menor.
-Puede no explorar los datos
espaciales con eficiencia.
-Más complejo que K-Means, en este -No está implementado para software
algoritmo la mediana no está influida tradicional.
K-Medoids por valores extremos logrando un -El manejo de sus operaciones es más
[17] método más robusto. complejo y al manejar elementos de
forma aleatoria no se garantiza la
confiabilidad de los resultados.
-No se necesita tener un número de -Si en el modelo se toman decisiones
clúster definido. incorrectas el resultado será indefinido.
Botton-Up [61] -Tiene diferentes niveles sin límite de -Es computacionalmente costoso por la
exploración que permite alto nivel de cantidad de procesamientos
análisis. realizados.
-Se puede construir un repositorio -El procesamiento de este algoritmo
centralizado del negocio, esto permite a requiere más tiempo y acceso a
Top-Down [62]
los datos son fiables y consistentes. recursos según el tamaño del
repositorio central.
-Es una combinación de los algoritmos -Cantidad de grupos k manejados
PAM y CLARA lo que le permite puede ser excesiva.
determinar objetos y realizar muestreos -Mala gestión de la memoria en el
CLARANS [64]
sobre los mismos. manejo de los datos.
-No se restringe a alguna muestra en -Detección de únicamente de algunos
un momento dado elementos en forma esférica.
-Sus propiedades de encontrar -Su alto consumo de memoria y poca
elementos no espaciales en datos implementación en sistemas de
SD-CLARANS espaciales. información y gestores de bases de
[64] -Es más complejo que CLARANS. datos, además sus procedimientos son
lentos por el manejo de múltiples
variables a la vez.
-Permite el descubrimiento de -En algunos tipos de datos de entrada
relaciones de asociación en grandes el consumo de memoria es elevado
cantidades de datos para la toma de -Su desarrollo es reciente lo que puede
A-PRIORI [63]
decisiones. llevar a no encontrar sistemas
-Eficaz en el uso de grandes bases de especializados que lo implementen.
datos.
Fuente. El Autor

6.3.2 Selección. De acuerdo a la clasificación anterior, el algoritmo más


adecuado en la aplicación del proyecto es K-MEANS espacial, por su eficiencia,

88
integración de elementos alfanuméricos y espaciales, su capacidad para encontrar
valores permitiendo representarlos espacialmente, la posibilidad de utilizar los
resultados de los puntajes de las pruebas Saber 11 basándose en las preguntas
relacionadas con el análisis espacial y lo más importante que permite analizar
patrones espaciales de los casos según la media de la distancia entre puntos; lo
anterior a través del agrupamiento de puntajes para establecer clústeres de
evaluación según la clasificación del ICFES que son: alto (71-100), medio (31-70)
y bajo (0-30).

Teniendo en cuenta que el algoritmo permite mostrar los resultados


georreferenciados a partir de la longitud y latitud de cada punto hallado por el
campo Geometry de la bodega de datos espacial.

A partir de esto se tiene el caso específico de manejo especial del software KNIME
con su extensión espacial GeoKnime y la visualización cartográfica con la
extensión OpenStreetMap. Los clústeres encontrados a través de los grupos de
puntajes de cada uno de los evaluados se dividen en municipios y departamentos
de las instituciones educativas, para de esta forma reflejar qué lugares tienen los
mejores y peores puntajes; la clasificación anterior se realizó por áreas de
evaluación ya que de esta manera se muestra más específico el conocimiento
encontrado.

6.4 APLICACIÓN DE MINERÍA DE DATOS ESPACIALES SOBRE LA BODEGA


DE DATOS ESPACIAL DE LAS PRUEBAS ICFES SABER 11

En el desarrollo de la minería de datos espaciales se escogió el algoritmo K-


MEANS, para ello se realizara una muestra que integra los 32 departamentos de
Colombia, la ciudad de Bogotá y los municipios del país respecto al año 2013, lo
anterior por la gran cantidad de datos que se relacionan y para efectos de
aplicación de minería espacial, además se tomó de forma separada las áreas de
evaluación de las pruebas Saber 11, la razón de esto es para poder tener más
precisión en cada agrupamiento respecto al año de evaluación y los puntos de geo
localización de los lugares donde se encuentran las instituciones educativas por
medio de su longitud y latitud. Para la aplicación de la minería de datos espacial
se aplicó una serie de pasos ordenados que permitieron obtener el conocimiento
deseado según Cabena [65].

6.4.1 Determinación de objetivos. El objetivo que se cumplió en la realización


de este trabajo de minería de datos espaciales fue: Determinar los clústeres de los
puntajes altos (71-100), medios (31-70) y bajos (0-30) de las áreas de biología,
filosofía, física, inglés, lenguaje, matemáticas, ciencias sociales y química de los
evaluados ubicados por instituciones educativas para los departamentos y
municipios del país en el año 2013.

89
6.4.2 Preparación de los datos. Se requirió realizar vistas espaciales que
integrara y separara los datos necesarios para el cumplimiento del objetivo.

Este proceso se dividió en dos ramas: la disposición de datos alfanuméricos y


espaciales (Longitud y Latitud) que permitió el posicionamiento de los clústeres
encontrados.

 Datos alfanuméricos: Estos datos se clasificaron utilizando una consulta que


extrajo los datos de la bodega de datos en la tabla de hechos.

 Datos espaciales: Se originaron a partir del campo geométrico geom con la


aplicación de funciones Postgis ST_X(ST_CENTROID(geom)) para longitud y
ST_Y(ST_CENTROID(geom)) para latitud.

6.4.3 Transformación de los datos. La transformación de los datos se realizó


con las herramientas que proporciona Knime para la aplicación del algoritmo en la
minería de datos espaciales.

6.4.4 Minería de datos. En la aplicación de la minería de datos espaciales se


realizaron una serie de pasos que se detallan en la Figura 16.

Figura 16. Pasos de aplicación de la minería de datos espacial.

Fuente. El Autor.

90
Paso 1. Datos origen: Datos de los puntajes según el área de evaluación.

Paso 2. Limpieza: Eliminación de datos nulos y elementos incompletos.

Paso 3. Algoritmo: Se realiza la ejecución del algoritmo K-Means con 20


Clústeres y 99 máximo número de iteraciones.

Paso 4. Barras: Gráfico de barras obtenido.

Paso 5. Colores: Definición de colores para los clústeres encontrados.

Paso 6. Tabla: Tabla de resultados.

Paso 7. Estadísticas: Estadísticas halladas según los datos resultantes.

Paso 8. Mapa municipal: Puntos geo-localizados a nivel municipal de cada grupo


de clústeres encontrados clasificados según los colores.

Paso 9. Mapa departamental: Puntos geo-localizados a nivel departamental de


cada grupo de clústeres encontrados clasificados según los colores.

Paso 10. Pastel: Gráfico de pastel de los clústeres encontrados.

6.4.5 Resultados encontrados. Los resultados de las diferentes áreas de


evaluación se representan en diagramas de pastel y mapas municipales y
departamentales, la Figura 17 muestra la representación de colores que se usaran
para la clasificación de puntajes que tienen los valores de cada grupo el cual es
agrupado según los niveles de puntaje de la tabla del ICFES.

Figura 17. Colores de la clasificación de puntajes

Fuente. El Autor.

El conocimiento encontrado se estructuro en tres (3) clústeres que serán


representados por la latitud y longitud en el mapa por resultados, de esta manera
se tendrá la posibilidad de visualizar que zonas del país tienen resultados
favorables y desfavorables según los puntajes de los evaluados de las pruebas
SABER 11.

91
Figura 18. Resultados área de biología.

Fuente. El Autor.

92
Figura 19. Resultados área de filosofía.

Fuente. El Autor.

93
Figura 20. Resultados área de física

Fuente. El Autor.

94
Figura 21. Resultados área de inglés.

Fuente. El Autor.

95
Figura 22. Resultados área de lenguaje.

Fuente. El Autor.

96
Figura 23. Resultados área de matemáticas.

Fuente. El Autor.

97
Figura 24. Resultados área de ciencias sociales.

Fuente. El Autor.

98
Figura 25. Resultados área de química.

Fuente. El Autor.

99
6.4.6 Elementos del conocimiento. En la extracción del conocimiento el
algoritmo SPATIAL K-MEANS selecciona N números de objetos aleatoriamente,
cada uno representa un centro inicial del grupo, para los demás objetos se les
asigna el grupo más similar basándose en la distancia del objeto, luego se vuelve
a recalcular la media para cada grupo repitiéndose el proceso hasta que todos los
valores sean agrupados [18], la Figura 26 muestra los pasos del algoritmo.

Figura 26. Pasos algoritmo K-Means espacial.

N Objetos Creación de K Actualización Grupos de


Puntajes Clúster por valor De grupos con puntajes y geo
(Lat y Lon) medio T Iteraciones localización

Fuente. El Autor.

El algoritmo está basado en la fórmula matemática mostrada en la Figura 27.

Figura 27. Fórmula matemática para el cálculo de los clústeres.

Fuente. [34]

- 𝑗, 𝑘 Total del número de observaciones y clústeres.


- 𝑎𝑗 Peso de la observación j.
- 𝑑𝑗𝑘 Distancia entre la observación j y centro del clúster k.
- 𝑧𝑗𝑘 1 si la observación j está en el clúster k, 0 de lo contrario.
(Indicador de pertenencia de una observación)

Para la parte espacial se utiliza la siguiente fórmula de distancia entre 2 puntos en


el plano (𝑥, 𝑦) y (𝑎, 𝑏) de Euclides, Figura 28.

Figura 28. Fórmula de Euclides para distancia.

Fuente. [18]

100
6.5 IMPLEMENTACIÓN DEL VISOR GEOGRÁFICO Y ALFANÚMERICO DE
CONSULTA PARA INTELIGENCIA DE NEGOCIOS ESPACIALES

6.5.1 Herramienta software. En el proceso de visualización de los datos de tipo


alfanumérico y espacial hay que tener en cuenta la representación de la
información, esta puede ser mostrada en tablas, graficas de tipo: pastel, barras,
líneas y mapas, que es el soporte de análisis que tendrá el usuario para interpretar
los resultados.

Se utilizaron e implementaron las herramientas GeoMondrian y SolapLayers que


son aplicaciones web de código libre que proporcionan un visor de consulta y
análisis SOLAP amigable e intuitivo, permitiendo operaciones como: selección de
cubos, dimensiones y medidas, representación y navegación mediante tablas
pivotables, desglose y agrupamiento, filtrado, consultas MDX, representación de
gráficas, exportación a CSV, Excel y mantenimiento de repositorio de consultas.
Además contiene la parte espacial en visualización de información en mapas, la
Figura 29 muestra la interfaz gráfica del software GeoMondrian.

Figura 29. Software GeoMondrian

Fuente. El Autor.

101
En cuanto a SolapLayers la información es representada en mapas, estos fueron
divididos en mapas departamentales (Figura 30) y municipales (Figura 31 y 32)
utilizando las formas de generalización y especificación (Drill Down Y Roll Up). La
herramienta software hace uso del servidor GeoMondrian para ofrecer su utilidad
de representación alfanumérica y espacial manipulando los datos del esquema del
cubo de manera detallada, organizada y agradable al usuario final de forma
interactiva.

Figura 30. Mapa departamental (Colombia)

Fuente. El Autor.

Figura 31. Mapas municipales (Boyacá).

Fuente. El Autor.

102
Figura 32. Mapas municipales (Cundinamarca).

Fuente. El Autor

El software además muestra la información de intervalos iguales y fijos para


polígonos y de símbolos para puntos, permitiendo ver los datos de miembro, valor
y posición sobre el mapa de forma interactiva como se muestra en la Figura 33.

Figura 33. Estilo de temáticas y datos del cubo

Fuente. El Autor.

103
6.5.2 Respuestas relacionadas con el análisis espacial.

1. ¿Cuál es la cantidad de evaluados al período 2013 en los establecimientos


educativos por departamentos y municipios según análisis espacial?

Respuesta: El resultado de la cantidad de evaluados se distribuye en la Figura


34, siendo Bogotá la ciudad y Antioquia el departamento en tener más
evaluados.

Figura 34. Resultados pregunta 1

DEPARTAMENTAL MUNICIPAL

Fuente. El Autor.

104
2. ¿Cuál es la cantidad de evaluados en 2013?, por: calendario A, mixto, oficial,
jornada mañana de las instituciones educativas en áreas de núcleo común por
departamento y municipio según análisis espacial.

Repuesta: El resultado encontrado en la Figura 35 muestra que la ciudad en


tener más evaluados según las características de la pregunta es Bogotá, y los
departamentos Antioquia y Valle del Cauca.

Figura 35. Resultados pregunta 2.

DEPARTAMENTAL MUNICIPAL

Fuente. El Autor.

105
3. ¿Cuáles son los máximos puntajes de los evaluados en biología por institución
educativa por departamento 2009 vs 2013 representados espacialmente?

Respuesta: Los máximos puntajes encontrados se representan en la parte


norte del país con la ciudad de Bogotá, en cuanto a departamentos el valle del
cauca y Antioquia obtuvieron el mayor puntaje en las áreas de biología tanto
para 2009 como 2013 como se muestra en la Figura 36.

Figura 36. Resultados pregunta 3.

AÑO 2009 AÑO 2013

ESCALA AÑO 2013

ESCALA AÑO 2009

Fuente. El Autor.

106
4. ¿Cuál fue el mejor departamento de Colombia en obtener los puntajes más
altos en los resultados de las pruebas saber 11 y al mismo tiempo cual fue el
más bajo en el año 2013 representados espacialmente?

Respuesta: El mejor departamento fue Antioquia y el peor fue Vaupés como se


muestra en la Figura 37.

Figura 37. Resultados pregunta 4.

MAPA DEPARTAMENTAL

ESCALA DE VALORES

Fuente. El Autor.

107
5. ¿Cuáles fueros los máximos puntajes del área de matemáticas en los
municipios del departamento de Boyacá del año 2013 según análisis espacial?

Respuesta: En los municipios donde se obtuvo el mayor puntaje de


matemáticas fue en Paipa, Duitama, Sogamoso, Puerto Boyacá y Tunja como
se muestra en la Figura 38.

Figura 38. Resultados pregunta 5.

DEPARTAMENTO DE BOYACÁ

Fuente. El Autor.

108
7. CONCLUSIONES

 El proyecto realizado incorporó inteligencia de negocios espaciales completa,


desarrollando cada una de las fases comprendidas en los objetivos planteados;
además, con la utilización de software libre se logró que los datos fueran
tratados y manejados según los factores de decisión que se establecieron
espacialmente.

 Al día de hoy se han desarrollado una cantidad limitada de proyectos


relacionados con la inteligencia de negocios espaciales, esto por ser una
tecnología un tanto nueva y de compleja exploración, ya que involucra nuevos
tipos de datos, técnicas de aplicación y un alto manejo de procesamiento y
memoria, por esta razón el almacenamiento espacial ha evolucionado
incorporando nuevas formas de obtener el tipo de dato espacial y mejorando la
distribución de las tablas e índices para la recuperación de los mismos, a su
vez los modelos y consultas espaciales incrementan el rendimiento e integridad
en la recuperación de la información; teniendo en cuenta que el uso de estas
consultas exige más y mejores procedimientos. En concordancia, el
surgimiento de nuevos algoritmos para extraer la información espacial hace
que la minería de datos espacial adquiera nuevas técnicas de transformación
de los datos para que cumplan con los requerimientos exigidos.

 Como se ha denotado la aplicabilidad de la inteligencia de negocios espaciales


se relaciona en un número amplio de temáticas, permitiendo que la misma se
involucre con áreas del conocimiento que posibilita obtener resultados más
completos y visibles en la toma de decisiones para presente y futuro.

 Actualmente no existe un software que unifique la inteligencia de negocios


espaciales y que tengan un análisis espacial de forma directa, con el conjunto
de pasos desarrollados en el proyecto se logra obtener respuesta para los
factores de evaluación del soporte para la toma de decisiones en las bases de
datos del ICFES pruebas SABER 11.

 El almacenamiento espacial evidencia la construcción de dimensiones y


medidas según esquemas y reglas personalizadas, construcción de modelos y
manejo de niveles de granularidad, además de la representación de objetos
con el uso de índices especializados en el manejo de las transacciones.

109
 Con el apoyo de los funcionarios del área de investigación del ICFES se pudo
orientar el proyecto con los elementos de análisis para la realización de la
bodega y cubo espacial, esto alimentado con los archivos planos que se
proporcionaron por la entidad.

 En el desarrollo de la bodega espacial el dato de tipo geométrico fue


importante para relacionar los datos alfanuméricos con un lugar específico y
además poder ubicarlo en un mapa o espacio cartográfico, razón por la cual se
tuvo que tener en cuenta su proyección y definición espacial.

 En el desarrollo de la minería espacial el algoritmo K-Means fue fundamental


para el descubrimiento de los clústeres espaciales para el año de muestra
2013, teniendo en cuenta los conjuntos de datos por área de evaluación y la
posición de estos clústeres en el mapa de Colombia por departamentos y
municipios.

 Para la visualización de los datos espaciales que fueron diseñados en el cubo


espacial se adaptó la herramienta SolapLayers, para que además de poder
aplicar datos alfanuméricos pudiera mostrar información espacial.

 Actualmente existe una gran variedad de técnicas y algoritmos orientados a la


minería de datos, estos algoritmos poco a poco se han venido adaptando al
uso espacial de forma que permitan la aplicación de minería de datos
espaciales y descubrir conocimiento que antes era imposible o muy difícil de
encontrar, esta razón a hecho que nazcan proyectos como GeoKnime que
aunque están en proceso de maduración son muy útiles a la hora de utilizar
este tipo de información espacial.

 La aplicación de inteligencia de negocios espaciales en el ICFES ayuda a que


se enfoquen los esfuerzos en donde realmente se requieren, esto al poder
mostrar el conocimiento sobre las áreas geográficas, y de esta forma aplicar
proyectos que beneficien al país y sus comunidades estudiantiles.

 Finalmente se concluye que las herramientas informáticas seleccionadas


permitieron la creación de la bodega de datos espacial con la que se diseñó el
cubo espacial y de esta manera poder aplicar la minería de datos, además de
servir de insumo para el desarrollo e implementación del visor alfanumérico y
espacial de inteligencia de negocios espaciales.

110
TRABAJOS FUTUROS

 Minería de datos espaciales utilizando series de tiempo y agrupamiento


espacial.
 Desarrollo de un software que permita integrar todos los elementos de la
inteligencia de negocios espaciales.
 Análisis y puesta en marcha de algoritmos espaciales orientados al análisis
de tendencias productivas en los diferentes campos del quehacer humano.
 Implementación de bodegas de datos espaciales en el análisis de
información geográfica por medio de dispositivos móviles.

111
BIBLIOGRAFÍA

[1] Sugumaran, R. and Degroote, J. Spatial Decision Support Systems -


Principles and Practices. New York, USA: CRC Press, 2011: p. 507

[2] Lamas, A, et al. Creación de un módulo espacial OLAP para Saiku. Galicia,
España: VIII Jornadas de SIG Libre de Girona, 2013. p 9

[3] ICFES. Informe de resultados históricos Saber 11. 2013. [Online].


Disponible en: http://www2.icfes.gov.co/resultados/saber-11-resultados

[4] DANE. Estadísticas de educación formal. 2013. [Online]. Disponible en:


http://www.dane.gov.co/index.php/educacion-cultura-y-gobierno/poblacion-
escolarizada/89-sociales/educacion/3901-educacion-formal

[5] ICFES. Informe de Investigaciones realizadas. 2013. [Online]. Disponible


en: http://www2.icfes.gov.co/investigacion/informes-de-investigaciones

[6] Vicenteño, J., F. González, and C. Alvaro. Inteligencia Geoespacial. 2013.


[Online]. Disponible en:
http://www.oracle.com/technetwork/es/articles/bi/articulo-inteligencia-
geoespacial-1919212-esa.html

[7] Guzmán, E.L., Inteligencia de Negocios - Introducción. Bogota, Colombia:


Universidad Nacional de Colombia, 2010

[8] Universidad Nacional. Mineria de datos. Bogotá, Colombia: Universidad


Nacional de Colombia, 2007

[9] Silva, J.d., et al., Modelling and querying geographical data warehouses.
ACM, 2010: p. 592-614

[10] Garg, N. and S. Mithal, Spatial Data warehouses. 2012: p. 25.

[11] Prados, V, Bases de datos Espacio-Temporales, Mexico: 2009.

[12] Reyes, M. Minería de datos espaciales en búsqueda de la verdadera


información. Bogotá, Colombia: Pontificia Universidad Javeriana, 2009: p.
20.

[13] Manabí, U. Sistemas de Información Geográfica. Quito, Ecuador: Consejo


Provincial de Manabí, 2008.

112
[14] Geoinformatica. Elementos SIG. 2014. [Online] Disponible en:
http://geoinfoproyecto.blogspot.com/

[15] Aljure, D.C. and J.G. Agudelo, Spatial data mining – An overview. Bogotá,
Colombia: Universidad Nacional de Colombia, 2011

[16] Roddick, J.F. and B.G. Lees, Spatio-Temporal Data Mining Paradigms and
Methodologies. 2009

[17] puebla, U.d.l.a., Mineria de datos espaciales. Puebla, Mexico: Universidad


de las Americas, 2011

[18] Sharma, R., M.A. Alam, and A. Rani, K-Means Clustering in Spatial Data
Mining using Weka Interface. International Journal of Computer
Applications, 2012

[19] Espejo-Garcia, B.A., et al., IDE's y Geo Inteligencia de Negocio. Nuevas


Oportunidades en la interoperabilidad entre diferentes comunidades. IV
Jornadas Ibericas de Infraestructuras de Datos Espaciales, 2013/

[20] Feix, C. Geo Bussiness Intelligence. Mexico, 2012

[21] Badard, T. Open source Geospatial Business Intelligence in action with


GeoMondrian and SOLAPLayers! 2010. [Online]. Disponible en:
http://www.slideshare.net/tbadard/open-source-geospatial-business-
intelligence-geobi-definition-architectures-projects-challenges-and-outlooks-
8810753

[22] Franco, H.R., Especialista en Sistemas de Información geográfica SIG.


Bogotá, Colombia: Universidad Distrital de Colombia, 2001

[23] Frade, D.O.A. and J.N.P. Castillo, Estado Actual de las Tecnologías de
Bodega de Datos y OLAP Aplicadas a Bases de Datos Espaciales . Bogotá,
Colombia: Universidad Distrital de Colombia, 2007

[24] Codd, E.F., S.B. Codd, and Salley, Providing OLAP to user-analysts: An IT
mandate. E. F. Codd and Associates, 1993

[25] Meyer, A.D., et al., A conceptual framework and its software


implementation to generate spatial decision support systems for land
use planning. Heverlee, Belgium: Land Use Policy, 2013: p. 271-282

[26] Xiaoli, L., Y. Chen, and L. Daoliang, A spatial decision support system for
land-use structure optimization. Wisconsin, USA: ACM, 2009

113
[27] Blecic, I., A. Cecchini, and G.A. Trunfio, A general-purpose geosimulation
infrastructure for spatial decision support. Berlin, Heidelberg: Springer-
Verlag, 2009

[28] Coutinho-Rodrigues, J., A. Simão, and C.H. Antunes, A GIS-based


multicriteria spatial decision support system for planning urban
infrastructures. Coimbra, Portugal: University of Coimbra, 2011

[29] Cerreta, M. and P.D. Toro, Assessing urban transformations: a SDSS for
the master plan of castel capuano, naples. Naples, Italia: Computational
Science and Its Applications, 2012

[30] Cerreta, M. and R. Mele, A landscape complex values map: integration


among soft values and hard values in a spatial decision support system.
Salvador de Bahia, Brasil: Computational Science and Its Applications –
ICCSA, 2012

[31] Uyan, M., T. Cay, and O. Akcakaya, A Spatial Decision Support System
design for land reallocation: A case study in Turkey. Science-Direct, 2013

[32] Zou, X., et al., Spatial decision support system for the potential evaluation of
land consolidation projects. USA: ACM, 2008

[33] Wu, W., et al., A Spatial Decision Support System for Citrus Management A
Case Study of the Three Gorges Area of China. China: Environmental
Science and Information Application Technology, 2009

[34] D.Rajesh, Application of Spatial Data Mining for Agriculture. International


Journal of Computer Applications, 2011: p. 3

[35] Bimonte, S., et al., Definition and analysis of new agricultural farm energetic
indicators using spatial OLAP. Aubieri, Francia: Computational Science and
Its Applications, 2012: p. 373-385

[36] Cohen, Y., et al., Spatial decision support system for Medfly control in citrus.
Bet Dagan, Israel: ScienceDirect, 2008

[37] Yu, X. and K. Liu, A Spatial Decision Support System for Large Scale
Vehicle Routing. Zhangjiajie, Hunan: Measuring Technology and
Mechatronics Automation International Conference, 2009: p. 444-449

[38] Oliveira, T.H.M.d., M. Painho, and R. Henriques, A spatial decision support


system for the Portuguese public transportation sector. Lisbon, Portugal:
Proceedings of the Third ACM SIGSPATIAL International Workshop on
GeoStreaming, 2012: p. 84-90

114
[39] Santos, L., J. Coutinho-Rodrigues, and C.H. Antunes, A web spatial
decision support system for vehicle routing using Google Maps. Coimbra,
Portugal: Universidad de Coimbra, 2011: p. 1-9

[40] Minghu, W., et al., A Spatial Decision Support System for River Basin Water
Pollution Control and Prevention. Information Technology, 2010

[41] Zhichong, Z. and W. Yaowu, Framework of Spatial Decision Support


System for Large-Scale Public Building Evacuation. Intelligent Systems.
GCIS '09. WRI Global Congress on, 2009

[42] Kaunda-Bukenya, N., et al., Spatial Decision Support System (SDSS) for
Stormwater Management and Water Quality Assessment Water Quality
Monitoring and Assessment, USA: Intech, 2012: p. 22

[43] Humacata, L.M., Análisis exploratorio de datos socio-espaciales mediante


gráficos interactivos. Revista digital del Grupo de Estudios sobre Geografía
y Análisis Espacial con Sistemas de Información Geográfica. Lujan,
Argentina: Universidad de Lujan, 2010: p. 135-163

[44] Mahboubi, H., S. Bimonte, and G. Deffuant, Analyzing demographic and


economic simulation model results: a semi-automatic spatial OLAP
approach. Santander, Spain: Computational Science, 2011: p. 17-31

[45] Sun, L. and H. Zhu, GIS-Based Spatial Decision Support System for Real
Estate Appraisal. Harbin, China: IEEE, 2009

[46] De-guo, S., et al., Research of Spatial Decision Support System


Construction Based on Cloud Model. Beijing, China: IEEE, 2010

[47] Kyung, M.-J., J.-H. Yom, and S.-Y. Kim, Spatial data warehouse design and
spatial OLAP implementation for decision making of geospatial data update.
Seoul, Korea: KSCE Journal of Civil Engineering, 2012: p. 1023-1031

[48] Yin, W., et al., Towards Data Management of Web-Based Spatial Decision
Support: The Case of Facility Network Transformation Analysis Services.
Beijing, China: IEEE, 2008

[49] Martino, S., et al., Spatial OnLine Analytical Processing of Geographic Data
through the Google Earth Interface. Napoly, Italia: Springer, 2011

[50] Bernier, E., et al., Easier surveillance of climate-related health vulnerabilities


through a Web-based spatial OLAP application. Québec, Canada:
Université Laval, 2009

115
[51] Chen, Y. and D. Li, Spatial decision support system for reclamation in
opencast coal mine dump. China: Wseas Transactions On Computers, 2008

[52] Sampieri, R.H., C.F. Collado, and P.B. Lucio, Metodología de la


investigación. Mc Graw Hill, 2006

[53] Tamayo, M.T., Modulo 2: La investigación, Aprender a Investigar. Colombia:


ICFES, 1999

[54] Lerma, H.D., Metodología de la investigación: Propuesta, anteproyecto y


proyecto. Ecoe Ediciones, 2001

[55] Parada, Y.G.d. and A.M. Garzon, Módulo 3: Recolección de información.


Aprender a investigar. ICFES, 1999

[56] ICFES. Instituto Colombiano para la Evaluación de la Educación. 2014.


[Online]. Disponible en: http://www.icfes.gov.co

[57] ICFES. Funciones ICFES. 2014. [Online]. Disponible en:


http://www.icfes.gov.co/informacion-institucional/informacion-
general/funciones

[58] Campan, A., N. Cooper, and a.T.M. Truta, On-the-Fly Generalization


Hierarchies for Numerical Attributes Revisited. USA: 8th VLDB Workshop,
2011

[59] Written, I.H. and E. Frank, Data Mining, Practice Machine Learning Tools
and Techniques. USA: Elsevier, 2005

[60] Rodríguez, J.E., Artificial Neuronal Nerwork ART2 for Clustering Data.
Bogotá, Colombia: Universidad Distrital de Colombia, 2007

[61] Godoy, D., Minería de Datos Web. Buenos Aires, Argentina: Universidad
Nacional del Centro de la Provincia de Buenos Aires, 2014

[62] Acuña, E., Minería de Datos. Puerto Rico: Universidad de Puerto Rico, 2013

[63] Amari, M.E.d.M. and J.E.R. Rodríguez, La contribución de las reglas de


asociación a la minería de datos. Bogotá, Colombia, 2003

[64] Zaiane, O.R. and C.-h. Lee, Density-Based Clustering of Spatial Data when
facing Physical Constraints. 2012

[65] Cabena, P., et al., Discovering data mining from concept to implementation.
1998

116
[66] Hurtado, J. and Cáceres. G, Análisis de enfermedades crónicas en usuarios
del hospital de paipa usando inteligencia de negocios espacial. Colombia:
Tunja, 2014.

117

También podría gustarte