Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pontificia Universidad Católica Del Perú: Facultad de Ciencias E Ingeniería
Pontificia Universidad Católica Del Perú: Facultad de Ciencias E Ingeniería
Tesis para optar por el Ttulo de Ingeniero Informtico, que presenta el bachiller:
Resumen
El presente proyecto de tesis tiene como objetivo la implementacin de un datamart
que permita apoyar la toma de decisiones necesarias para cumplir con los objetivos
especficos de cada estrategia sanitaria nacional dentro de las direcciones de salud.
Los resultados obtenidos son los reportes analticos tiles para tomar decisiones de
forma rpida y confiable.
Dedicatoria:
Este proyecto de tesis est dedicado
a mis padres por brindarme su apoyo
incondicional y por creer en m cada
da.
Agradecimientos:
A Dios, por acompaarme siempre
A mis padres Carmen y Vctor, por su
infinito amor y su confianza en m
A mis hermanos, por su comprensin
A mis profesores, por sus consejos
Y a mis mejores amigos, por
brindarme su amistad sincera.
Tabla de Contenido
Resumen.................................................................................................................................. 2
Tabla de Contenido.................................................................................................................. 2
ndice de Figuras...................................................................................................................... 3
ndice de Cuadros.................................................................................................................... 4
Introduccin.............................................................................................................................. 1
1.
Captulo 1: Generalidades ............................................................................................ 2
1.1.
Definicin del Problema.......................................................................................... 2
1.2.
Marco conceptual del problema ............................................................................. 4
1.2.1. Conceptos: Inteligencia de Negocios ..................................................................... 4
1.2.2. Conceptos: Anlisis Dimensional ........................................................................... 5
1.2.3. Conceptos: Software Libre ..................................................................................... 7
1.2.4. Conceptos: Sector Salud........................................................................................ 9
1.3.
Plan de Proyecto .................................................................................................. 12
1.4.
Estado del Arte ..................................................................................................... 17
1.4.1. Herramientas de extraccin de datos................................................................... 17
1.4.2. Herramientas de explotacin de datos................................................................. 23
1.4.3. Tesis y productos similares .................................................................................. 28
1.5.
Descripcin y sustentacin de la solucin............................................................ 31
2.
Captulo 2: Anlisis ..................................................................................................... 33
2.1.
Definicin de la metodologa ................................................................................ 33
2.1.1. El modelo de Inmon ......................................................................................... 33
2.1.2. Metodologa de Ralph Kimball ......................................................................... 36
2.1.3. Eleccin de la metodologa .............................................................................. 38
2.2.
Identificacin de Requerimientos ......................................................................... 41
2.2.1. Requerimientos Funcionales............................................................................ 41
2.2.2. Requerimientos no funcionales........................................................................ 44
2.3.
Anlisis de la Solucin.......................................................................................... 45
2.3.1. Consideraciones sobre el sistema ................................................................... 45
2.3.2. Actores del sistema .......................................................................................... 46
2.3.3. Anlisis tcnico y econmico ........................................................................... 47
2.3.4. Definicin del sistema ...................................................................................... 47
3.
Captulo 3: Diseo....................................................................................................... 51
3.1.
Arquitectura de la solucin ................................................................................... 51
3.2.
Proceso de Extraccin.......................................................................................... 52
3.3.
Proceso de Explotacin........................................................................................ 57
4.
Captulo 4: Construccin............................................................................................. 59
4.1.
Configuracin del software ................................................................................... 59
4.1.1. Configuracin de la base de datos................................................................... 59
4.1.2. Configuracin de Pentaho................................................................................ 60
4.2.
Construccin de procesos de carga ..................................................................... 64
4.2.1. Carga de dimensin: ACTIVIDAD_ENFERMEDAD ........................................ 64
4.3.
Construccin de reportes ..................................................................................... 65
4.3.1. Reporte: Prevalencia de Enfermedades .......................................................... 65
4.4.
Ejecucin de pruebas de proceso de carga ......................................................... 67
4.5.
Ejecucin de reportes........................................................................................... 68
5.
Capitulo 5: Observaciones, conclusiones y recomendaciones................................... 70
5.1.
Observaciones...................................................................................................... 70
5.2.
Conclusiones ........................................................................................................ 71
5.3.
Recomendaciones y trabajos futuros ................................................................... 71
Bibliografa ............................................................................................................................. 73
ndice de Figuras
Figura 1.1 Modelo Estrella ....................................................................................................... 7
Figura 1.2 Esquema Copo de Nieve........................................................................................ 7
Figura 1.3 Procesos de direccin de proyectos..................................................................... 13
Figura 1.4 reas de Conocimiento de la Direccin de Proyectos ......................................... 15
Figura 1.5 Proyecto de Tesis - WBS...................................................................................... 16
Figura 1.6: IBM WebSphere DataStage ................................................................................ 19
Figura 1.7: SQL Server Integration Services ......................................................................... 20
Figura 1.8: Transformation en Kettle-Pentaho (Data Integration) ......................................... 21
Figura 1.9: Ejemplo de Reporte de Anlisis Pentaho Anlisis. .......................................... 26
Figura 2.1 Estructura del DW\................................................................................................ 34
Figura 2.2. ERD ..................................................................................................................... 35
Figura 2.3. Relacin entre ERD y DIS ................................................................................... 35
Figura 2.4. Elementos bsicos del DWH segn Kimball ....................................................... 36
Figura 3.1 Arquitectura de extraccin.................................................................................... 52
Figura 3.2 Ejemplo de Reporte Diseo de Explotacin...................................................... 58
Figura 4.3. Kettle Pantalla Inicio ......................................................................................... 61
Figura 4.4. Kettle - Configuracin de Conexin..................................................................... 62
Figura 4.5. Cube Designer Descripcin del cubo ............................................................... 63
Figura 4.6. Cube Designer Conexin JNDI ........................................................................ 63
Figura 4.7. Kettle Carga dimensin ACTIVIDAD_ENFERMEDAD..................................... 65
Figura 4.8. Cube Designer Seleccin de dimensiones y tabla de hecho ........................... 66
Figura 4.9. Cube Designer Creacin de medidas............................................................... 66
Figura 4.10. Cube Designer Publicacin de Cubo.............................................................. 67
Figura 4.11. Kettle Ejecucin de carga............................................................................... 68
Figura 4.12. Kettle Resultado de ejecucin ........................................................................ 68
Figura 4.13. Reporte de Prevalencia de Enfermedades (1) .................................................. 69
Figura 4.14. Reporte de Prevalencia de Enfermedades (2) .................................................. 69
ndice de Cuadros
Cuadro 1.1 Procesamiento OLAP............................................................................................ 9
Cuadro 1.2 Estrategias Sanitarias Nacionales ...................................................................... 10
Cuadro 1.3 Cuadro Comparativo Herramientas Extraccin . Error! Marcador no definido.
Cuadro 1.4 Cuadro Comparativo Herramientas Explotacin ............................................. 28
Cuadro 2.1 Facts vs Dimensiones ......................................................................................... 50
Cuadro 3.1 Dimensin Actividad_Enfermedad Descripcin de Tablas Fuentes................ 53
Cuadro 3.2 Dimensin Actividad_Enfermedad Limpieza de Datos.................................... 53
Cuadro 3.3 Dimensin Actividad_Enfermedad Tablas Fuentes......................................... 54
Cuadro 3.4 Dimensin Actividad_Enfermedad Tabla Destino ........................................... 54
Cuadro 3.5 Fact Table Alimentacion_PANTBC Tablas Fuentes........................................ 55
Cuadro 3.6 Fact Table Alimentacion_PANTBC Limpieza de Datos................................... 55
Cuadro 3.7 Fact Table Alimentacion_PANTBC Tablas Fuentes........................................ 56
Cuadro 3.8 Fact Table Alimentacion_PANTBC Tabla Destino .......................................... 56
Introduccin
En nuestro pas, uno de los servicios importantes que, sin embargo, no cuenta con
el apoyo suficiente que debera recibir, es el rea de salud, en este hay tres
problemas principales que el estado debe afrontar: problemas sanitarios, del
sistema de salud y de los factores determinantes (medio ambiente, nutricin,
educacin, entre otros).
1. Captulo 1: Generalidades
Este captulo tratar sobre la definicin del problema que se desea solucionar,
marco conceptual necesario para entender el contexto, gestin del proyecto, estado
del arte y descripcin de la solucin.
1.1.
proporciona solo reportes estticos a todas las estrategias sanitarias que alberga.
Sin embargo el proceso de solicitud puede demorar cierto tiempo ya que el rea de
estadstica, adems, tiene que atender otras solicitudes de las dems reas que se
encuentran en la DISA. Es por ello que la toma de decisiones se ve retrasada por
no contar con los reportes en el tiempo estimado.
Para hacer posible que el objetivo y las metas del lineamiento se cumplan se
requiere un sistema de informacin que permita el monitoreo y la evaluacin de las
estrategias dentro de cada direccin regional siguiendo siempre las polticas fijadas
en el Plan Concertado, de esta manera se podr controlar los avances que se
realicen y el cumplimiento de las polticas. La inteligencia de negocios ser de
utilidad para la evaluacin de los resultados de cada estrategia sanitaria de las
DISAs.
1.2.
Data Warehouse
Es un almacn o repositorio para los datos. Muchos expertos definen el data
warehouse como un almacn de datos centralizados que introduce datos en un
almacn de datos especfico llamado datamart. Otros aceptan una amplia definicin
de data warehouse, como un conjunto integrado de datamarts.
Es utilizado para el proceso de toma de decisiones gerenciales. [BIB01]
Datamart
Es un conjunto de datos que son estructurados de forma que facilite su posterior
anlisis. Un datamart contiene la informacin referente a un rea en particular, con
datos relevantes que provienen de las diferentes aplicaciones operacionales. Los
datamarts pueden ser de diversas bases de datos OLAP dependiendo del tipo de
anlisis que se quiera desarrollar
Explotacin de datos
La explotacin de la informacin se realiza a travs de un amplio conjunto de
herramientas de consulta y anlisis de la informacin. Estas herramientas de
explotacin son sistemas que ayudan al usuario a la exploracin de los datos y
generacin de vistas de informacin. Se dividen en reporteadores, sistemas de
anlisis multidimensional, sistemas de apoyo a la toma de decisiones y sistemas de
informacin ejecutiva.
manipulacin posterior.
Una vez que la data es extrada del Staging Area, hay numerosas y potenciales
transformaciones como la limpieza de datos (correccin de datos escritos de forma
errnea, resolviendo conflictos, colocacin en formatos nuevos, etc.), combinando
datos de mltiples fuentes, eliminando datos duplicados y asignando warehouse
keys (llaves primarias en el data warehouse).
Finalmente con todas las transformaciones, los datos son cargados en el rea de
presentacin del data warehouse [BIB01].
Dimensiones
Son objetos del negocio con los cuales se puede analizar la tendencia y el
comportamiento del mismo. Las definiciones de las dimensiones se basan en
polticas de la compaa, e indican la manera en que la organizacin interpreta o
clasifica su informacin para segmentar el anlisis facilitando la observacin de los
datos. [BIB01]
Medidas o mtricas
Son caractersticas cualitativas o cuantitativas de los objetos que se desean
analizar en las empresas. Las medidas cuantitativas estn dadas por valores o
cifras porcentuales. Por ejemplo las ventas en dlares, cantidad de unidades en
stock, cantidad de unidades de productos vendidos, etc. [BIB01]
Esquema Estrella
Este esquema est formado por un elemento central que consiste en una tabla
llamada la Tabla de Hechos (Fact Table), que est conectada a varias tablas de
dimensiones.
Las tablas de hechos contienen los valores precalculados que surgen de totalizar
valorizar operacionales atmicos segn las distintas dimensiones, tales como
clientes, productos o periodos de tiempo. Se presenta un ejemplo, el cual
representa un evento crtico y cuantificable en el negocio como ventas o costos. Su
clave est compuesta por las claves primarias de las tablas de dimensin
relacionadas. [BIB01]
Open Source
Es el software que, una vez obtenido, puede ser usado, copiado, estudiado,
modificado y redistribuido libremente. El software libre suele estar disponible
gratuitamente, pero no se debe asociar software libre a software gratuito, o a precio
del costo de la distribucin a travs de otros medios; sin embargo no es obligatorio
que sea as y, aunque conserve su carcter de libre, puede ser vendido
comercialmente
OLAP genera rpidos tiempos de respuesta los cuales permiten a los gerentes y
analistas preguntar y resolver ms situaciones en un corto perodo de tiempo
El motor de clculo de OLAP organiza los datos en una forma que permite a los
analistas escribir sencillas y directas frmulas que se ejecutan a travs de mltiples
dimensiones. Cuenta con tres formas principales de procesamiento: [CLA01]
Forma de Procesamiento
Diagrama
Estrategias sanitarias
La priorizacin de problemas especficos de salud requiere que se aborden por
estrategias sistematizadas con enfoque de Salud Pblica. La mayora de dichas
prioridades (riesgos y daos) son las Estrategias Sanitarias Nacionales.
Las direcciones regionales deben aplicar dichas estrategias en la poblacin con sus
respectivas lneas de accin de cada una. [URL06]
rganos responsables
Inmunizaciones
10
Las estrategias sanitarias nacionales son parte del Modelo de Atencin Integral,
conforman uno de los ejes brindando los contenidos de la mayora de los cuidados
esenciales, resolviendo el qu y cmo lograr la meta.
Los Paquetes de Atencin Integral de Salud:
El Paquete de Atencin Integral de Salud, es un conjunto de cuidados esenciales
que requiere la persona para satisfacer sus necesidades de salud, brindados por el
personal de salud, la propia persona, familia, los agentes comunitarios y otros
actores sociales de la comunidad. [URL17]
Programa PANTBC
Es el Programa de Alimentacin y Nutricin para el Paciente Ambulatorio con
Tuberculosis y Familia. Este programa forma parte del conjunto de intervenciones
del Estado Peruano para apoyar la alimentacin de grupos vulnerables de la
poblacin.
11
El
Programa
PANTBC
permite
ejecutar
actividades
de
complementacin
HIS
El sistema transaccional utilizado para el proyecto de fin de carrera es HIS (en el
idioma original, Health Information System).
HIS es una herramienta indispensable que garantiza, el adecuado registro de las
actividades de salud, contribuyendo a mejorar la calidad del registro de datos,
homogenizando criterios, incorporando nuevas formas de registro y consolidndolo
como nica fuente de informacin, con el propsito de instrumentalizar el soporte
para la toma de decisiones.
1.3.
Plan de Proyecto
En esta seccin se explicar los pasos a seguir para la planeacin del proyecto. Se
12
Ejecucin. Integra a las personas y otros recursos para llevar a cabo el plan
de proyecto.
Fuente: A Guide to the Project Management Body of Knowledge (PMBOK Guide) - Third Edition
reas de Conocimiento.
Para la direccin de proyectos se tiene 44 procesos agrupados en 9 reas de
conocimientos.
13
Incluye los procesos para asegurar que el proyecto contiene todo el trabajo
necesario para completar el proyecto satisfactoriamente. En el proyecto a
desarrollar se estableci como alcance el anlisis, diseo, construccin y pruebas
del datamart para la estrategia sanitaria: Alimentacin y Nutricin Saludable, es
decir hasta obtener el producto que vendra a ser los reportes analticos segn los
requerimientos que solicita la estrategia.
Con respecto al tiempo, el proyecto tendr una duracin estimada de 12 meses.
La direccin de calidad del proyecto incluye los procesos necesarios para asegurar
que el proyecto satisfaga las necesidades para la que se ha llevado a cabo. Incluye
todas las actividades de la direccin que determinan las polticas de la calidad,
objetivos y responsabilidades, as como su desarrollo a travs de la planificacin, el
control y el aseguramiento de la calidad. Por ejemplo, las reuniones con el asesor
del tema sirven para realizar correcciones y/o modificaciones, esto es para
garantizar que se est cumpliendo con lo planeado en el proyecto.
-
la
precisa
apropiada
generacin,
recoleccin,
distribucin,
14
La direccin de recursos humanos del proyecto incluye los procesos que organizan
y administran al equipo del proyecto. Asigna roles y responsabilidades a los
miembros que conforman el equipo para lograr completar el proyecto. Debido a que
el proyecto ser realizado por una nica persona, esta rea de conocimiento no se
aplica.
Fuente: A Guide to the Project Management Body of Knowledge (PMBOK Guide) - Third Edition
15
La direccin de plazos del proyecto incluye los procesos necesarios para asegurar
la conclusin del proyecto en los tiempos establecidos. Con ayuda de un diagrama
de Gantt se puede gestionar el tiempo para cada fase que ha sido definida en el
WBS (The Work Breakdown Structure).
WBS es una herramienta que define un proyecto en grupos de elementos de trabajo
(subdivisin del esfuerzo) para as organizar y definir el trabajo total del alcance del
proyecto a realizar.
16
1.4.
Requerimientos a cumplir:
1. Forma parte de una plataforma integrada de BI Forma parte de una
plataforma integrada de BI.
2. Es multiplataforma.
3. Limpieza de datos.
4. Trabajo con ms de una fuente de datos.
5. Filtrado de datos
6. Interfaz grfica para el desarrollo del proceso ETL.
7. Monitoreo y diseo del proceso ETL.
8. Programacin del proceso ETL para que se ejecute
automticamente.
9. Trabajo con las principales bases de datos del mercado como:
Microsoft SQL Server, Oracle, PostgreSQL, MySQL entre otras.
10. Soporte de la herramienta.
Descripcin
Oracle Warehouse Builder (OWS) es una herramienta grfica de Oracle destinada a
la extraccin, transformacin y carga de los datos (ETL); al modelamiento relacional
y dimensional; y a la administracin de todo el ciclo de vida de los datos y
metadatos.
OWS est diseado para base de datos Oracle.
17
Sistema Operativo
Requerimiento
MS-Windows
Linux/UNIX
Caractersticas y ventajas
Permite realizar las siguientes actividades:
-
Data Profiling: Permite descubrir y cuantificar los defectos de los datos antes
y durante el proceso de creacin del data warehouse o aplicacin de
inteligencia de negocios.
Integracin con con los principales ERPs del mercado tales como SAP; EBusiness Suite y PeopleSoft.
Auditora de datos.
Descripcin
IBM WebSphere DataStage es una herramienta ETL que integra los datos de
mltiples y grandes volmenes de fuentes de datos y metadatos.
DataStage gestiona los datos que llegan en tiempo real, as como los datos
recibidos a diario, semanal o mensual
18
Requerimientos de software
IBM WebSphere DataStage es multiplataforma, soporta los sistemas operativos
Microsoft Windows, Linux (Red Hat).
Caractersticas y ventajas
-
Soporta
un
nmero
ilimitado
de
fuentes
de
datos
heterogneas,
prcticamente todas las bases de datos como Oracle, IBM DB2, IBM
Informix, Sybase, Teradata y Microsoft SQL Server, adems incluye otras
fuentes como: archivos de texto, complejas estructuras de datos en XML,
sistemas ERP como SAP y PeopleSoft. [URL10]
Fuente: http://www.mainstream.co.il/ComplexSortJob.jpg
Figura 1.6: IBM WebSphere DataStage
19
Descripcin
SSIS es un componente de Microsoft SQL Server 2005 y 2008, est disponible
nicamente en sus versiones Estndar y Enterprise.
SSIS ha reemplazado a la caracterstica del SQL Server 2000, Data Transformation
Service (DTS). Provee una plataforma para disear y generar soluciones de
integracin de datos y aplicaciones workflows.
Su principal caracterstica es ser una herramienta flexible para el proceso de ETL.
Requerimientos de software
El sistema operativo que lo soporta es Microsoft Windows
Caractersticas y ventajas
-
Fuente: http://www.programminghelp.com/
Figura 1.7: SQL Server Integration Services
20
Descripcin
Kettle Pentaho es una herramienta que permite implementar el proceso de ETL,
adems forma parte de la plataforma Open Source Pentaho Business Intelligence.
Requerimientos de software
Es multiplataforma, soporta sistemas operativos MS-Windows, Linux/UNIX.
Caractersticas y Beneficios:
-
Fuente: http://www.pentaho.com/products/
21
Anlisis y Comparacin
Luego de revisar las principales caractersticas de las herramientas de extraccin
candidatas: Oracle Warehouse Builder, IBM Websphere DataStage, SSIS y KettlePentaho, se realiz un cuadro comparativo (Cuadro 1.4) con los requerimientos
que debe cumplir la herramienta seleccionada.
Para ello se le ha asignado una calificacin a cada requerimiento que va de 0 (no
cumple) a 5 (cumple totalmente).
Se muestra que Pentaho Kettle obtuvo mayor puntaje adems tiene una ventaja
sobre las otras que es contar con licencia open source, a pesar que actualmente no
existe un vasto soporte, la documentacin que se encuentra disponible de forma
oficial cubre la mayor parte de las principales necesidades del proyecto de tesis.
Recientemente, el personal de Pentaho est brindando soporte tcnico,
actualizaciones y/o mejoras aunque no est cubierto por la licencia open source.
La herramienta Kettle, al igual que las otras herramientas, es intuitiva y de fcil
aprendizaje ya que presenta un entorno grfico para el diseo del ETL.
22
Criterio
Pentaho
Kettle
SSIS
IBM Websphere
DataStage
Oracle Warehouse
Builder
Es multiplataforma
Limpieza de datos
Trabajo con ms de
una fuente de datos.
Filtrado de datos
Permitir el monitoreo
del proceso ETL, as
como el diseo del
mismo.
Programacin
del
proceso ETL para que
se
ejecute
automticamente
Trabajo
con
las
principales bases de
datos del mercado
como: Microsoft SQL
Server 2005 y Oracle
Database9g.
Soporte
de
herramienta.
Puntaje Total
la
46
43
45
45
23
Caractersticas:
-
Provee una interfaz basada en web que permite a los usuarios seleccionar
dimensiones y miembros de un panel de consultas, dando la posibilidad
interactuar
directamente
con
la
informacin
generar
consultas
24
Interfaz con Excel para mostrar la informacin desde este sistema de hoja
de clculo. [URL21]
Caractersticas:
-
25
Caractersticas:
-
Para el anlisis toma en cuenta los 6 elementos bsicos del sistema OLAP:
Dimensiones, valores, jerarquas, niveles, atributos e indicadores.
Al utilizar la arquitectura MOLAP esta permite tener datos agregados o precalculados, ya que estos residen en el mismo formato multidimensional.
Fuente: http://www.pentaho.com/images/snap_analysis_olap.png
Permite trabajar sobre diferentes bases de datos, como Oracle, DB2, SQLServer, MySQL, PostgreSQL, etc., esto a travs de Mondrian.
26
Anlisis y Comparacin
27
Criterio
Pentaho
Analysis
Anlisis de la informacin en
todas las dimensiones
Generacin
grficos
Soporte de la herramienta
Ser Multiplataforma
38
37
36
de
Filtros
y
personalizables.
reportes
Business
Objects
AnalysisServices
5
5
bsquedas
Puntaje Total
Propone un mtodo para el anlisis de datos en la forma con que se consumen los
medicamentos en un hospital peruano a fin de poder identificar algunas realidades
o caractersticas no observables que produciran desabastecimiento o insatisfaccin
del paciente, el cual servir como una herramienta para la toma de decisin sobre
el abastecimiento de medicamentos en el hospital. Aqu se complementan tcnicas
28
como
K-means
para
sectorizar
los
consumos
de
medicamentos
mencionados. [TES02]
29
Empresa: Med-Vantage
Empresa: Planwatch
30
1.5.
supervisar,
controlar, evaluar los avances y resultados de estas a travs del fcil acceso a los
datos provenientes de todos los centros de salud asignados a cada DISA. De esta
forma se llevara a cabo una estandarizacin, es decir que cada DISA del pas
presente la misma forma de manejo y control de las 10 estrategias.
31
que consta de licencia libre y todos los mdulos necesarios para la extraccin y
explotacin de datos.
32
2. Captulo 2: Anlisis
En este captulo se tratar de la definicin de la metodologa para implementacin
de un proyecto de Inteligencia de negocios, adems de la determinacin de
requerimientos y anlisis dimensional.
2.1.
Definicin de la metodologa
33
Fuente: The Data Warehouse Toolkit The Complete Guide to Dimensional Modeling
34
Fuente: The Data Warehouse Toolkit The Complete Guide to Dimensional Modeling
Luego de definir el alto nivel del modelo de datos, se establece el siguiente nivel:
DIS. Por cada rea principal o entidad identificada en el nivel anterior, se crea un
nivel medio para expandir los atributos.
Fuente: The Data Warehouse Toolkit The Complete Guide to Dimensional Modeling
Creado a partir del nivel medio con la finalidad de extenderlo incluyendo llaves y
caractersticas fsicas del modelo. A este punto, el modelo de datos fsicos luce
como una serie de tablas llamadas tablas relacionadas.
Proceso de ETL
El DWH es cargado con los datos obtenidos en el entorno operaciones, mas antes
dichos datos deben pasar por un complejo proceso de conversin, reformato e
integracin para as recin ser parte del entorno del DWH.
Acceso Indirecto al DWH
es
el
enfoque
multidimensional.
Este
enfoque
es
aplicado
35
Existen cuatro componentes importantes para la creacin del entorno del DWH. Los
componentes se muestran en la figura 2.4, y estos son:
-
Son los sistemas de registro que capturan todas las transacciones del negocio. Sus
prioridades son el procesamiento y la disponibilidad. Consultas contra estos
sistemas son limitados.
Data Staging Area
36
rea donde los datos estn organizados, almacenados y disponibles para consultas
de los usuarios, reportes y otras aplicaciones analticas
Es todo lo que los usuarios ven y tocan a travs de las herramientas de acceso.
Presenta una serie de datamarts integrados en el que cada uno presenta datos de
un solo proceso de negocio. Se utiliza el modelamiento dimensional como tcnica
para entregar los datos a los usuarios, aqu no se busca remover datos
redundantes sino ms bien rapidez de acceso en las consultas.
Data Access Tools
Puede ser tan simple como un ad hoc query (consulta creada para obtener
informacin de acuerdo a la necesidad que surja.) hasta un complejo data mining.
Por definicin, todas las herramientas de acceso consultan los datos en el rea de
presentacin. El uso de estas herramientas permite a los usuarios tomar decisiones
analticas. Ejm : OLAP, MOLAP, datamart, ad hoc querys, etc.
37
Se deben elegir las dimensiones que se aplicarn para cada tabla de hechos, las
dimensiones deben responder a la pregunta: Cmo los usuarios describen los
datos que resultan del proceso de negocios?.
Paso 4: Identificar los hechos
Identificar los hechos numricos que formarn parte de la tabla de hechos. Los
hechos son determinados por esta pregunta: Qu estamos midiendo?. Los
usuarios estn muy interesados en el anlisis de estas medidas de la ejecucin de
procesos de negocio.
Todos los hechos candidatos deben ser fieles al grano definido en el paso 2. Los
hechos que pertenecen a un grano diferente debern estar en una tabla de hechos
separada
Kimball
Objetivo
Inmon
empresa.
reas
requerimientos especficos.
Warehouse
Enfoque
del
proceso.
Trata
de
No
esta
basado
en
de
datamarts,
completo
el
tiempo
de
el DWH se demanda
38
del DWH
implementacin
es
rpido.
Sin
mucho ms tiempo.
cada
datamart
el
costo.
Modelo de Datos
Kimball
propone
modelamiento
usar
el
dimensional:
dimensiones y hechos.
Diagram)
-Nivel Medio, DIS (Data Item Set)
-Nivel Bajo, llamado Modelo Fsico
(Physical Model)
Sin embargo, menciona que para
implementar los datamarts debe
hacerse con modelamiento
dimensional.
39
Anlisis Dimensional
Se detallan los elementos que contendrn el datamart de las estrategias sanitarias.
Corresponde al entregable de la etapa de plan de la figura 2.5
Esta etapa consisti en el anlisis de los diagramas y diccionarios de base de datos
de los sistemas transaccionales como HIS y del manejo del programa de PANTBC
para as identificar las dimensiones y las tablas de hechos tomando como base los
requerimientos solicitados por la estrategia piloto.
En esta fase se elaborar el Anexo de Anlisis (Anexo 2).
Diseo de extraccin
Se realiza la carga de datos de los sistemas transaccionales mencionados en la
etapa anterior, archivos internos u otro tipo de fuentes externas.
En esta fase se elaborar el Anexo de Extraccin (Anexo 3).
Diseo de explotacin
Se realiza el diseo que tendrn los reportes analticos como: filtros, grficos,
dimensiones y tablas de hechos involucrados.
Segn los requerimientos funcionales se elaborarn los reportes.
En esta fase se elaborar el Anexo de Explotacin (Anexo 4).
Implementacin
Mediante de este proceso se logra la emisin de consultas y reportes que
presenten la informacin de manera integrada a travs de distintas reas de la
organizacin, lo cual sirva de ayuda para la toma de decisiones.
El usuario podr acceder a los datos manipulando los cubos OLAP generados para
obtener diferentes perspectivas de anlisis, los cuales se reflejan en los reportes
analticos.
40
2.2.
Identificacin de Requerimientos
Se listan los requerimientos que el sistema debe satisfacer para cumplir con el
objetivo de la estrategia:
Requerimiento Funcional
El sistema permitir generar un reporte en el que se
Prioridad Dificultad
2
41
42
Significado
Importante
Regular
Prescindible
Leyenda Dificultad:
Calificacin
Significado
Fcil
Regular
Difcil
La dificultad esta medida por el tiempo que se requiere tanto para el anlisis como
para la elaboracin de la extraccin de los datos necesarios de los sistemas OLTP
(HIS y/o PANTBC) para generar el reporte analtico.
43
Cada usuario ser identificado segn estrategia sanitaria que tiene a su cargo,
adems tendr un determinado rol y privilegios con el fin de asegurar la
informacin.
44
2.3.
Anlisis de la Solucin
En esta fase luego de haber identificado los requerimientos para la estrategia piloto
se propone una solucin adecuada cuya implementacin conduzca a la solucin del
problema.
Factor tecnolgico:
45
solucin como:
-
Integridad referencial
Triggers
Vistas
Factor Econmico:
Factor Tiempo:
El tiempo designado para la total realizacin del proyecto de tesis tambin influye
en la implementacin, es por ello que el nfasis del sistema ir ms enfocado a la
funcionalidad que al diseo grfico que, por ejemplo, podra tener el portal web de
la solucin Pentaho.
46
Asistente
Participante del anlisis y encargado de la generacin de reportes.
Lenguaje multiplataforma
Dimensiones
Actividad_Enfermedad
Establecimiento_Salud
IMC
Tiempo
Paciente
Condicion_Egreso
Actividad_Capacitacin
Alimento
Actividad_Enfermedad
Esta dimensin contiene los datos de las actividades y enfermedades.
Estn organizados y clasificados segn el CIE 10 (Clasificacin Estadstica
Internacional de Enfermedades y otros Problemas de Salud).
47
los
datos
de
ubicacin
caractersticas
del
48
En total son 6 esquemas estrellas las cuales sern necesarias para cumplir los
requerimientos funcionales identificados.
N Tema
1
FT_Diagnostico
2
Atenciones_PANTBC
3
Alimentacin_PANTBC
4
Actividades_PANTBC
5
Egresos_PANTBC
6
IMC_PANTBC
Facts
Fact 1
Fact 2
Fact 3
Fact 4
Fact 5
Fact 6
Atenciones_PANTBC
Permite mostrar las atenciones brindadas por el PANTBC a los pacientes con
tuberculosis que siguen el programa PCT (Plan de control de tuberculosis,
elaborada por la estrategia de tuberculosis)
Se obtendrn las medidas por establecimiento de salud y por tiempo
IMC_PANTBC
Esta tabla de hechos deriva de Atenciones_PANTBC pues tambin indica el
nmero de atenciones sin embargo utiliza una dimensin ms (IMC), de esta forma
se reconoce el estado nutricional de los pacientes al ingresar al plan PANTBC.
Egresos_PANTBC
Permite determinar la cantidad de pacientes que han egresado del tratamiento de
un determinado establecimiento de salud y en un tiempo indicado.
Alimentacin_PANTBC
Permite determinar los movimientos y estados de los alimentos entregados. Se
obtendrn las medidas por tiempo, por establecimiento de salud, por alimento.
Actividades_PANTBC
Permite determinar las actividades que realiza PANTBC con la finalidad de
capacitar a los pacientes por tiempo, por establecimiento salud.
49
FT_Diagnostico
Actividad_Enfermedad
Establecimiento_Salud
IMC
Tiempo
Mini_Paciente
IMC_PANTBC
Atenciones_PANTBC
Egresos_PANTBC
Alimentacin_PANTBC
Actividades_PANTBC
Condicion_Egreso
Actividad_Capacitacin
Alimento
Cuadro 2.1 Facts vs Dimensiones
50
3. Captulo 3: Diseo
En este captulo se tratar de la arquitectura planteada para realizar el proceso de
extraccin, tambin se explica el proceso de explotacin. Se complementa el
captulo con ejemplos de los procesos mencionados.
3.1.
Arquitectura de la solucin
51
3.2.
Proceso de Extraccin
continuacin
se
muestra
un
ejemplo
de
carga
de
la
dimensin
ACTIVIDAD_ENFERMEDAD.
Actividad_Enfermedad
Descripcin
Representa la carga de las tablas CAPITULO, GRUPO, CATEGORIA
CIE
52
Nombre de Tabla
CAPITULO
Descripcin
Contiene
el
nmero
de
captulo
su
El
GRUPO
captulo respectivo
OLTP HIS
CATEGORIA
OLTP HIS
CIE
Contiene
la
lista
de
de
enfermedades,
Llave
IdActEnfermedad
PK
Tipo
Formato
Limpieza
Integer
Nmero correlativo
Codigo
Varchar(7)
Descripcin
Categora
Grupo
Captulo
Varchar(255)
Varchar(255)
Varchar(255)
Varchar(255)
<A-Z><xy><z>
A-Z: Valor entre A y Z
XY: Numeracin segn
categora
Z:
Numeracin
correlativa
Texto
Texto
Texto
Texto
Valor por
Defecto
No debe ser Ninguno
nulo
No debe ser Ninguno
nulo
Ninguno
Ninguno
Ninguno
Ninguno
Fuentes de Datos
Tabla:
Nombre
COD_CAP
CAPITULO
Llave
PK
Tipo
Varchar(2)
Formato
Texto (00)
Consideracin Importante
No debe ser nulo
Tiene ceros a la izquierda
53
Tabla:
Nombre
DESC_CAP
CAPITULO
Llave
Tabla:
Nombre
COD_GRU
GRUPO
Llave
PK
COD_CAP
DESC_GRU
FK
Tabla:
Nombre
CATEGORIA
Llave
COD_CAT
PK
Varchar(3)
DESC_CAT
COD_CAP
FK
Varchar(255)
Varchar(2)
<A-Z><xy>
A-Z: Valor entre A y Z
XY: Numeracin segn
categora
Texto
Texto (00)
COD_GRU
FK
Varchar(2)
Texto (00)
Tipo
Varchar(255)
Formato
Texto
Consideracin Importante
Tipo
Varchar(2)
Formato
Texto (00)
Varchar(2)
Varchar(255)
Texto (00)
Texto
Consideracin Importante
No debe ser nulo
Tiene ceros a la izquierda
Tiene ceros a la izquierda
Tipo
Tabla:
Nombre
CIE
COD_CAT
FK
Varchar(3)
COD_ENF
DESCRIPCIO
PK
Varchar(13)
Varchar(255)
Llave
Formato
Tipo
Formato
Consideracin
Importante
No debe ser nulo
Tiene ceros a la
izquierda
Tiene ceros a la
izquierda
Consideracin
Importante
<A-Z><xy>
A-Z: Valor entre A y Z
XY: Numeracin segn
categora
Texto
No debe ser nulo
Texto
Tabla Destino
Se indica descripcin general del mapeo.
Tabla:
tmpActividad_Enfermedad
Campo
Tipo
IdActDiagnostico
Integer
Mapeo
Autosecuencial
Codigo
Descripcin
Categora
Grupo
Captulo
Mayscula(CIE.COD_ENF)
Mayuscula(CIE.descripcio)
Mayuscula(CATEGORIA.desc_cat)
Mayuscula(GRUPO.desc_grupo)
Mayuscula(CAPITULO.desc_cap)
Varchar(7)
Varchar(255)
Varchar(255)
Varchar(255)
Varchar(255)
Proceso
Se indica el proceso a seguir para la carga final de datos
1.
54
Carga de la Dimensin
Tomar
los
valores
de
la
tabla
temporal
llevarla
la
dimensin
continuacin
se
muestra
un
ejemplo
de
carga
de
la
fact
table
ALIMENTACION_PANTBC
Alimentacion_PANTBC
Descripcin
Representa la carga de las tablas MOVALIPANTC y LINMOVALI
Descripcin de Tablas Fuentes
Tipo de Fuente
OLTP - PANTBC
Nombre de Tabla
MOVALIPANTBC
OLTP - PANTBC
LINMOVALI
Descripcin
Datos sobre el movimiento y manejo de
alimentos
Lneas de la tabla MOVALIPANTBC que
incluye datos (cantidad) de un determinado
alimento
Llave
Tipo
Formato
Limpieza
IdEstSalud
PK
Integer
Nmero
No debe ser nulo
IdTiempo
Integer
Nmero
IdAlimento
Integer
Nmero
CantDeteriorada
Decimal
Nmero
CantPerdida
Decimal
Nmero
CantRobada
Decimal
Nmero
CantEntregada
Decimal
Nmero
CantTotal
Decimal
Nmero
PorDeteriorada
Decimal
Nmero
PorPerdida
Decimal
Nmero
PorRobada
Decimal
Nmero
PorEntregada
Decimal
Nmero
Cuadro 3.6 Fact Table Alimentacion_PANTBC Limpieza de Datos
Valor por
Defecto
Ninguno
Ninguno
Ninguno
Ninguno
Ninguno
Ninguno
Ninguno
Ninguno
Ninguno
Ninguno
Ninguno
Ninguno
55
Fuentes de Datos
Tabla:
Nombre
IDMOVALI
COD_ESTAB
ANO
MES
MOVALIMENTO
Tabla:
Nombre
LINMOVALI
IDMOVALI
IDLINMOVALI
ALIMENTO
Llave
PK
Tipo
Integer
Varchar(9)
Integer (0000)
Integer (00)
Formato
Nmero correlativo
Texto
Nmero
Nmero
Llave
Tipo
Formato
PK/FK
PK
Integer
Integer
Varchar(50)
Nmero correlativo
Nmero correlativo
Texto
Decimal
Decimal
Decimal
Decimal
Nmero
Nmero
Nmero
Nmero
DETERIORADO
PERDIDO
ROBADO
ENTREGADO
Consid. Importante
No puede ser nulo
No puede ser nulo
Consideracin
Importante
No puede ser nulo
No puede ser nulo
No puede ser nulo
Tabla Destino
tmpAlimentacion_PANTBC
IdEstSalud
Tipo
Integer
IdTiempo
Integer
IdAlimento
Integer
Mapeo
Se obtiene el atributo COD_ESTAB de la tabla
EGRESOPANTBC y se hace un lookup a la dimension
ESTABLECIMIENTO y de esta se obtiene el IdEstSalud
Se obtienen atributos ANO, MES y con DIA=0 de la tabla
EGRESOPANTBC y se hace un lookup con la dimensin
TIEMPO y de esta se obtiene el IdTiempo.
Se obtiene el atributo ALIMENTO de la tabla
LINMOVALI, se hace un lookup con la dimensin
ALIMENTO y de esta se obtiene el IdAlimento
Segn clculo
Segn clculo
Segn clculo
Segn clculo
Segn clculo
Segn clculo
Segn clculo
Segn clculo
Segn clculo
Integer
CantDeteriorada
Integer
CantPerdida
Integer
CantRobada
Integer
CantEntregada
Decimal
CantTotal
Decimal
PorDeteriorada
Decimal
PorPerdida
Decimal
PorRobada
Decimal
PorEntregada
Cuadro 3.8 Fact Table Alimentacion_PANTBC Tabla Destino
Proceso
1.
56
SELECT
Todos los datos cargados en la tabla temporal son llevados a la fact table
ALIMENTACION_PANTBC.
Para un mayor detalle de la extraccin, revisar el Anexo 3 (Diseo de Extraccin).
3.3.
Proceso de Explotacin
Ene.
Feb.
Mar.
Abr.
May.
Jun.
Jul.
Ago.
Set.
Oct.
Nov.
Dic.
100
122
120
112
106
103
90
98
103
115
99
87
23
30
21
35
25
26
40
30
32
36
37
32
75
77
80
81
88
91
92
71
69
83
74
73
57
80
60
40
E.S.La Mar
20
En
e
Fe r o
br
er
o
M
ar
zo
Ab
ril
M
ay
o
Ju
ni
o
Ju
l
A g io
o
Se s t
tie o
m
O bre
ct
No u br
vie e
Di mb
ci re
em
br
e
Dimensin
Establecimiento_Salud
Establecimiento_Salud
Establecimiento_Salud
Establecimiento_Salud
Establecimiento_Salud
Nivel / Categora
Establecimiento de Salud
Microrred
Red
Distrito
Provincia
Dimensin
Actividad_Enfermedad
Actividad_Enfermedad
Actividad_Enfermedad
Tiempo
Nivel / Categora
CIE10
Categora
Grupo
Tiempo
Columnas:
No.
1
2
3
4
Medida:
No.
1
Medida
NumDiagnosticos
Formato
Integer
Filtro:
Indica el filtro que va a tener el reporte
No.
1
2
3
4
5
6
Operacin
Tiempo : Meses , Trimestres o Aos
DISA= <Nombre de la DISA a ingresar>
Indicar Red o Redes a evaluar
Indicar Microrred o microrredes a evaluar
Indicar Establecimiento o establecimientos a evaluar
Indicar solo una Actividad_Enfermedad a evaluar
Para un mayor detalle del diseo y muestra de los reportes, consultar el anexo 4
(Diseo de Explotacin).
58
4. Captulo 4: Construccin
Este captulo tratar sobre los pasos principales realizados para la configuracin de
las herramientas utilizadas as como de los resultados obtenidos durante la
construccin del datamart.
4.1.
59
pgadmin3 (cliente grfico para una fcil interaccin con el servidor, para el
proyecto se utilizo pgAdminIII)
Servidor
de
Nombre y contrasea de
Se
Puerto,
BD
Mantenimiento
usuario
ingresan
los
datos
del
usuario
creados
anteriormente.
60
Configuracin de archivos
-
Archivo: myfirst-ds.xml
Archivo web.xml
Archivo: jboss-web.xml
Una vez que haya sido descargado Kettle se descomprime el archivo, en la carpeta
descomprimida se encuentran una serie de ejecutables (.exe para Windows y .sh
para Linux), para realizar el proceso de ETL nicamente se utilizar Spoon.
Desde una consola de Linux se ejecuta el comando: $sudo ./spoon.sh
61
Nombre
Servidor
de
Nombre y contrasea de
Se
Puerto,
BD
Mantenimiento
usuario
ingresan
los
datos
del
usuario
creados
anteriormente.
Con Cube Designer se crearn los cubos OLAP representados por ficheros de
configuracin XML llamado tambin fichero del esquema Cubo Mondrian (Mondrian
Cube Scheme), en l estarn definidos las dimensiones, hechos y conexin a la
base de datos que sirve para el cubo OLAP.
Ahora, una vez que ha sido descargado correctamente la aplicacin Cube Designer,
se debe ejecutar de la siguiente manera.
62
Abrir una consola y colocarse en la ubicacin del Cube Designer, luego ingresar
$sudo ./start.sh
Aparecer la siguiente ventana, la cual es el primer paso para la creacin del cubo.
Para esta seccin, nicamente se explicar la configuracin de la fuente
Se selecciona el botn Add (Aadir) de la ventana y aparecer una ventana de
dilogo solicitando datos de la conexin JNDI.
JNDI Name
Driver
Connect String
Username
Password
63
4.2.
Ejecutar transformation
Cuando se ha finalizado la modificacin al transformation se debe ejecutar con el
botn Run o Start del men principal.
Aparecer un registro con los pasos realizados y sus estados, adems de
presentarse errores se podrn verificar tambin en el registro.
4.2.1. Carga de dimensin: ACTIVIDAD_ENFERMEDAD
Tablas utilizadas: CAPITULO, GRUPO, CATEGORIA, CIE del sistema OLTP
HISTabla destino: ACTIVIDAD_ENFERMEDAD de la base de datos dimensional.
Descripcin:
En la figura 4.7 se muestra el proceso de carga. Se obtienen de las tablas
CAPITULO, GRUPO, CATEGORIA y CIE sus campos de descripcin y el cdigo
CIE10 (cdigo internacional de enfermedad), luego se genera el cdigo identificador
para la tabla dimensional ACTIVIDAD_ENFERMEDAD. Antes de insertar estos
valores, se debe realizar un filtrado para evitar que los campos sean nulos.
64
4.3.
Construccin de reportes
65
Creacin de dimensiones
Publicacin de Cubo
4.4.
Todas las pruebas que se realizaron fueron de forma local utilizando en su mayor
parte datos reales y actualizados que se encuentran de libre disposicin en el portal
del MINSA con dichos datos se llenaron las tablas de los sistemas transaccionales.
Los datos sensibles como diagnsticos o informacin de pacientes fueron
generados por fines prcticos.
67
4.5.
Ejecucin de reportes
68
69
5.1.
Observaciones
70
5.2.
Conclusiones
La generacin de reportes por parte del datamart para cada estrategia sanitaria
permite el ahorro de tiempo, pues actualmente cada estrategia debe solicitar a un
rea central (rea de estadstica) lo cual implica sobrecarga en dicha rea.
Adems los reportes que dicha rea entrega son estticos y en un formato
definido, en cambio con el datamart los involucrados podrn colocar los filtros
deseados y realizar cambios como modificacin en el nivel de detalle, seleccin de
determinadas dimensiones, lmite de valores, entre otros.
5.3.
Los cubos OLAP creados, en formato XML, durante el proyecto con la herramienta
Cube Designer de Pentaho podran optimizarse, como por ejemplo permitir mayor
flexibilidad u obtener clculos ms complejos, con la herramienta libre llamada
71
Schema WorkBench pues esta brinda mayores opciones frente al Cube Designer.
Tambin, sera aconsejable mejorar la apariencia fsica (interfaz grfica) del portal
web de la solucin Pentaho, traduccin de las opciones ya sea a travs de
configuracin de archivos (pues originalmente se encuentra en ingls) y establecer
una debida clasificacin o divisin por estrategia dentro del portal.
72
Bibliografa
1. [BIB01] Ralph Kimball, The Data Warehouse Toolkit, 2002.
2. [BIB02] Elizabeth Vitt, Michael Luckevich y Stacia Misner, Business Intelligence
Tcnicas de anlisis para la toma de decisiones estratgicas, Espaa 2002
3. [BIB03] William H. Inmon, Building the Data Warehouse, 2005
4.
73
74