Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TESIS
PRESENTADA POR:
INGENIERO DE SISTEMAS
HUANCAYO – PERÚ
2016
i
ASESOR:
ii
AGRADECIMIENTOS:
A MIS PADRES
Por su ejemplo, amor y aliento constante para ser cada día mejor.
A MI ALMA MATER
Por sembrar en mí enseñanzas que conducen a mi formación profesional.
A MI ASESOR
Por su apoyo y por compartir su vasto conocimiento.
iii
DEDICATORIA:
iv
RESUMEN
Para el desarrollo de este proyecto se utilizó la metodología de Ralph Kimball, ya que es una
de las más usadas, seguras y comprobadas al implementar un proyecto de Business
Intellingence, con él se cubre todas las fases de ciclos de vida que tiene un proyecto BI, desde
la planificación hasta el mantenimiento y administración.
En el desarrollo del proyecto se utilizó las herramientas que brinda la Suite de Pentaho.
Pentaho Data Integration para la generación del proceso ETL, Pentaho Schema Workbench
para el diseño y la creación de cubos, Saiku Analitycs para la creación de tablas dinámicas
Pivot, Pentaho Dashboard Editor CDE para la elaboración de tableros de control, finalmente
para la utilización y visualización de todos los resultados, se usó Pentaho Bi Server.
El uso de Business Intelligence permite reunir, transformar y depurar los datos que se
encuentran en forma no estructurada procedente de bases de datos operacionales, evitando
la existencia de datos irrelevantes. Los jefes y analistas requieren tener un acceso rápido y
sencillo a una información organizada y depurada en tiempo real, para así tener una toma de
decisiones acertada.
v
ABSTRACT
The present thesis its titled " Business Intelligence Implementation to improve the information
flow and decision making in the National Household Survey: ENAHO - INEI ".
For the development of this project it was used Ralph Kimball methodology because it is one
of the most widely used, safe and proven to implement a project of Business Intellingence,
covering all phases of the life cycles that has a BI project, since the planning to maintenance
and management.
In the project development were used tools provided by the Pentaho suite.Pentaho Data
Integration for the generation of ETL process, Pentaho Schema Workbench for designing and
building cubes, Saiku Analitycs for creating pivot dynamic tables, Pentaho Dashboard Editor
CDE for making dashboards process, finally for use and display of all results, was used
Pentaho BI Server.
The use of Business Intelligence allows transform and cleanse data that are found in
unstructured form coming from operational databases, avoiding irrelevant data existence.
The chiefs and analysts require to have quick and easy access to an organized and debugged
real-time information, in order to have a correct decision making.
vi
ÍNDICE
Pág.
ASESOR…………………………………………………………………………………. ii
AGRADECIMIENTOS …………………………………………………………………. iii
DEDICATORIA …………………………………………………………………………. iv
RESUMEN……………………………………………………………………………….. v
ABSTRACT…………………………………………………………………………….... vi
ÍNDICE ................................................................................................................... vii
INTRODUCCIÓN………………………………………………………………………... 1
CAPÍTULO I
GENERALIDADES
1.1. Planteamiento del problema……………………………………………………. 3
1.1.1 Instituto Nacional de Estadísticas e Informática – INEI………………….. 3
1.1.2 Encuesta Nacional de Hogares ENAHO…………………………………... 6
1.2 Formulación del problema……………………………………………………….. 9
1.3 Objetivos de la investigación……………………………………………………. 9
1.4 Justificación………………………………………………………………………... 9
1.4.1 Justificación Teórica…………………………………………………………. 9
1.4.2 Justificación Metodológica…………………………………………………... 10
1.4.3 Justificación Práctica………………………………………………………… 10
1.5 Hipótesis…………………………………………………………………………….. 10
1.6 Diseño metodológico……………………………………………………………... 11
1.6.1 Tipo de Investigación………………………………………………...……….. 11
1.6.2 Nivel de investigación ………………………………………………...……… 11
1.6.3 Sistema de Referencia…………………………………………………...…… 11
CAPÍTULO II
MARCO DE REFERENCIA
2.1 antecedentes……………………………………………………………………….. 12
vii
A.1 Implementación de una solución Business Intelligence para el análisis de
la gestión del Ministerio de Desarrollo urbano y vivienda…………………. 12
A.2 Análisis, Diseño e implementación de una solución Business Intelligence
para la generación de Indicadores y control de desempeño, en la empresa 13
OTECEL S.A. utilizando la Métodología Hefesto V2.0…………………….
A.3 Análisis, Diseño e implementación de una solución de Inteligencia de
Negocios para el área de compra y ventas de una empresa
comercializadora de electrodomésticos…………………………………….. 13
A4. Boada Byron, Tituaña Alvaro (2012). Desarrollo de una aplicación de
Business Intelligence (BI) para la empresa Empaqplast………………….. 14
A5. Tana Paspuel Gloria Estefanía (2014). Data Mart para el análisis de
información del sistema académico de la Universidad Técnica del Norte
con herramientas de software libre………………………………………….. 14
2.2 Marco teórico……………………………………………………………………….. 15
2.2.1 Inteligencia de negocios (Business Intelligence - BI)…………………..… 15
2.2.2 Características BI……………………………………………………….……. 16
2.2.3 Fuente de datos……………………………………………………….……… 16
2.2.4 Almacén de datos (Data Warehouse)…………………………………...…. 17
2.2.5 Data Mart……………………………………………………………………… 18
2.2.6 Cubos OLAP............................................................................................ 18
2.2.7 Estructura de cubos de almacén de datos………………………………... 19
2.2.7.1. Tabla de hechos …………………………………………………… 19
2.2.7.2. Tabla de dimensiones……………………………………………… 19
2.2.7.3. Relaciones de las tablas de hechos……………………………… 20
2.2.8 Esquema para el modelo de datos………………………………………….. 20
2.2.8.1. Esquema en estrella .................................................................. 20
2.2.8.2. Esquema de copo de nieve……………………………………….. 20
2.2.9 Cuadro de mando…………………………………………………..………... 20
2.2.10 Metodologías de desarrollo de un proyecto BI………………………...... 22
2.2.8 Herramientas……………………………………………………………...….. 23
2.3 Modelo aplicativo……………………………………………………….………….. 24
2.4 Marco conceptual……………………………………………………………..….... 29
CAPÍTULO III 31
INTERVENCIÓN METODOLÓGICA 31
3.1 Planificación y administración del proyecto………………………………….. 31
3.1.1 Definición del proyecto………………………………………………………. 31
3.1.2 Preparación del proyecto……………………………………………………. 31
viii
3.1.3 Alcance……………………………………………………………………..…. 32
3.1.4 Justificación………………………………………………………….……..… 32
3.1.5 Planificación del proyecto…………………………………………..……..... 32
3.1.6 Administración del proyecto………………………………………..……..... 32
3.2. Definición de los requerimientos.................................................................. 33
3.3. Diseño de la arquitectura………………………………………………………... 37
3.3.1 Estándares………………………………………………………………….… 37
3.3.3 Entorno Back Room................................................................................ 37
3.3.3 Entorno Front Room……………………………………………………….... 38
3.4 Selección de productos e Instalación……………………………………...….. 38
3.5 Modelado Dimensional………………………………………………………….... 42
3.6 Nivel de granulidad………………………………………………………………… 43
3.7 Diseño y desarrollo de la presentación de datos…………………………….. 45
3.7.1 Proceso de Extracción Transformación y carga de datos……………...... 45
3.7.2 Creación de cubos………………………………………………………….... 50
3.8 Desarrollo de la aplicación para usuarios finales……………………………. 54
3.9 Mantenimiento y crecimiento…………………………………………………….. 66
3.10 Gestión del proyecto……………………………………………………………... 67
CAPÍTULO IV 68
ANÁLISIS Y DISCUSIÓN DE RESULTADOS 68
4.1 Porcentaje de alcance en la implementación del sistema y nivel de
verificación de resultados…………………………………………………….……… 68
4.2 Flujo de la Información………………………………………………...…………. 69
4.2 Toma de decisiones……………………………………………………………….. 71
CONCLUSIONES………………………………………………………………………… 74
RECOMENDACIONES…………………………………………………………………... 75
REFERENCIAS…………………………………………………………………………… 76
ANEXOS 78
Anexo A: Plan de trabajo
Anexo B: Termino de referencia
ix
LISTADO DE CUADROS
x
LISTADO DE FIGURAS
xi
FIGURA N° 29: Parámetros de conexión – Tabla Output ………………………… 48
FIGURA N° 30: Configuración de campos input y output………………………….. 49
FIGURA N° 31: Diagrama ETL……………………………………………………….. 49
FIGURA N° 32: Pantalla de inicio – Schema Workbench…………………………. 50
FIGURA N° 33: Configuración del DataSource – Schema Workbench………….. 51
FIGURA N° 34: Creación de un nuevo Schema – Schema Workbench…………. 51
FIGURA N° 35: Asociación de la tabla de hechos con el cubo creado…………... 52
FIGURA N° 36: Visualización final de cubo ENAHO – Schema Workbench……. 53
FIGURA N° 37: Publish Schema – Schema Workbench…………………………... 53
FIGURA N° 38: Login Sistema de Monitoreo – Pentaho…………………………… 54
FIGURA N° 39: Intefaz de Ingreso – Pentaho BI Server ………………………….. 54
FIGURA N° 40: Ingreso a administración de usuarios……………………………... 55
FIGURA N° 41: Gestión de usuarios…………………………………………………. 55
FIGURA N° 42: Gestión de roles de usuarios……………………………………….. 56
FIGURA N° 43: Funciones de los usuarios en el Sistema…………………………. 56
FIGURA N° 44: Gestionar fuentes de datos – Pentaho BI Server………………… 57
FIGURA N° 45: Conexión al Data Mart – Pentaho BI Server……………………… 57
FIGURA N° 46: Modo de ingreso a Saiku Analitics – Pentaho BI Server………... 58
FIGURA N° 47: Opción añadir medida - Saiku Analitics…………………………… 59
FIGURA N° 48: Construcción de una nueva medida - Saiku Analitics…………… 59
FIGURA N° 49: Diagrama de líneas - Saiku Analitics……………………………… 60
FIGURA N° 50: Indicador de avance de campo - Saiku Analitics………………… 60
FIGURA N° 51: Guardar un reporte creado - Saiku Analitics……………………… 61
FIGURA N° 52: Visualización de reportes guardados - Saiku Analitics………….. 61
FIGURA N° 53: Diagrama de barras - Saiku Analitics……………………………… 62
FIGURA N° 54: Mapa de calor de los resultados - Saiku Analitics……………….. 62
FIGURA N° 55: Opción de filtro de información - Saiku Analitics…………………. 63
FIGURA N° 56: Resultado de cuadro filtrado - Saiku Analitics……………………. 63
FIGURA N° 57: Crear un nuevo CDE Dashboard………………………………….. 64
FIGURA N° 58: Menú Layou Panel – CDE Dashboard……………………………. 64
FIGURA N° 59: Menú componets – CDE Dashboard …………………………….. 65
FIGURA N° 60: Menú datasources panel – CDE Dashboard…………………….. 65
FIGURA N° 61: Problemas de Marco – CDE Dashboard…………………………. 66
FIGURA N° 62: Tasa de no Respuesta – CDE Dashboard……………………….. 66
FIGURA N° 63: Cuadro de resultados generados en STATA…………………….. 71
FIGURA N° 64: Cuadro de resultados generados en STATA…………………….. 73
xii
INTRODUCCIÓN
Buiness Intelligence es una solución que permite a las empresas e instituciones acceder a su
información de una manera fluida, rápida y sencilla. Esta información puede provenir de
diversas fuentes porque esta solución permite integrarlas y transformarlas para luego
almacenarlas con una estructura especial llamada Data Warehouse. El Data Warehouse
cumple con ciertas características para su construcción contando principalmente con dos tipos
de elementos, las tablas de hechos y de dimensiones el cual nos permite realizar diversos
cruces de información de una manera sencilla y de respuesta rápida.
Teniendo en consideración estos puntos es que nace la idea de la elaboración de este
proyecto, para tener la información de toda la recolección de campo que se hace en la
Encuesta Nacional de Hogares almacenadas de una manera sencilla de la cual se puede
obtener resultados a múltiples reportes. Para ello, este proyecto está comprendido en cuatro
capítulos que va desde las generalidades hasta la validación y presentación de resultados.
En el primer capítulo; se contempla el planteamiento del problema que describe la realidad
actual y se enfoca en la situación problemática. Los aspectos mostrados evidencian de como
hasta ahora principalmente en la lectura de la información obtenida, el tiempo de demora que
se tiene en la obtención de una información estructurada entendible para reporte a las
instituciones que necesitan dicha información y la manera tardía de entender que había puntos
a reforzar por algún inconveniente en alguna parte del proceso. Es de ahí que se realiza una
formulación específica del problema incluyendo luego los objetivos que se persigue a través
del presente trabajo, continuando después de la justificación, hipótesis y demás elementos
metodológicos que guían la investigación.
En el segundo capítulo; se muestra el marco de referencia el mismo que contiene los
antecedentes o investigaciones anteriores relacionadas con nuestro tema de estudio. El
marco teórico está directamente relacionado con el Business Intelligence y con la Metodología
de Raph Kimaball para el desarrollo del mismo, ya que cubre el desarrollo del proyecto desde
su planificación hasta la presentación de los resultados incluyendo el mantenimiento y
administración.
En el tercer capítulo; contempla la Intervención Metodológica donde se aplica todos los puntos
expuestos en el apartado del marco teórico, realizando como punto aparte el modo de uso y
1
configuración de las distintas herramientas utilizadas para dar solución a nuestro problema
planteado y todo el proceso que Raph Kimball proporciona para la elaboración de un proyecto
en Business Intelligence.
En el cuarto capítulo: denominado Análisis y discusión de resultados, se realiza la validación
de la hipótesis y las presentaciones finales de los resultados del proyecto.
Se finaliza con las conclusiones y recomendaciones, siendo la conclusión más importante: La
implementación de Business Intelligence para la Encuesta Nacional de Hogares ENAHO –
INEI, permite obtener información en tiempo real, con data actualizada de las bases de datos
transaccionales de una forma sencilla y amigable, lo cual ayuda a los Supervisores y jefes
Encargados, mantener un control sobre las tareas que se realizan y a tener tiempos de
respuestas rápidas ante posibles desaciertos o determinar acciones de mejora que se puedan
realizar a los procesos que se manejan actualmente
E. Gonzales S.
2
CAPÍTULO I
GENERALIDADES
1.1.1.1. MISIÓN
Producir y difundir información estadística oficial que el país necesitan con
calidad, oportunidad y cobertura requerida, con el propósito de contribuir
al diseño, monitoreo y evaluación de políticas públicas y al proceso de toma
de decisiones de los agentes socioeconómicos, el sector público y la
comunidad en general.
1.1.1.2. VISIÓN
Somos un organismo líder a nivel nacional e internacional, que utiliza los
más altos estándares metodológicos y tecnológicos para la producción y
3
difusión de estadísticas oficiales que contribuyan eficazmente en el diseño
de políticas públicas para el desarrollo del país.
Para que el INEI pueda lograr con su misión cuenta en su estructura con diferentes
órganos institucionales las cuales son:
5
1.1.2. Encuesta Nacional de Hogares ENAHO.
La Encuesta Nacional de Hogares, es una investigación estadística continua que
genera indicadores trimestrales y permiten conocer la evolución de la pobreza, del
bienestar y de las condiciones de vida de los hogares. Mide el alcance de los
programas sociales y sirve de fuente de información a instituciones públicas y
privadas, así como a investigadores, permitiendo la comparabilidad con
investigaciones similares. Cuyos objetivos son los siguientes:
Con todo este proceso realizado, la ENAHO logra cumplir sus objetivos planteados,
pero se tiene una cierta demora para poder entregar la información consolidada ya
que después del proceso de digitación pasa por cierta validación de los datos que
se obtiene, y si esta no cumple las condiciones limitadas por ciertos criterios, se
7
deben de tomar algunas medidas de recuperación de la información o si no fuese
posible los jefes encargados tomarán las medidas pertinentes.
Estas decisiones son tomadas por las personas encargadas del proyecto, y las
observaciones van ser devueltas a las sedes locales para su posterior trabajo y
subsanación. Actualmente gracias a un esfuerzo conjunto de las Direcciones
Técnicas de Informática y la de Demografía e Indicadores Sociales se elaboró un
Aplicativo de ingreso de información por tabletas, y con esto se espera unir los
procesos de recopilación de la información y la digitación en uno solo con la finalidad
que datos sean enviados al repositorio único en la Sede Central tal como viene
siendo recogida de campo. Como ya se dijo, con esta medida se viene solucionando
algunos problemas con la recopilación de la información, pero la fase de
procesamiento de la información se viene trabajando con la generación de vistas
en SQL Server para luego ser exportados para tener su visualización en el Software
SPSS y Stata para la generación de los cuadros estadísticos.
La figura N° 03 resalta todo el proceso que genera para que los jefes encargados
puedan tener un reporte estadístico de los datos que se vienen trabajando en
campo.
8
adicionalmente se pierde tiempo importante (representadas en el cuadro N° 01) en
la formalidad de la petición (solicitud vía correo institucional) y la adquisición de la
información.
Todo este tiempo transcurrido al final es un tiempo perdido para tomar alguna
medidas de reajuste que puedan mejorar algunas deficiencias o inconvenientes
imprevistos que se puedan estar generando en algunas de las etapas del proceso
en general del proyecto.
1.4 Justificación
1.1.1. Justificación Teórica
La importancia de los datos en toda institución es sin duda un tema que debe ser
cuidadosamente atendido y se tiene que prestar mucha atención. Pero el exceso
de información no es poder, el conocimiento si lo es; con demasiada frecuencia la
transformación y el análisis de toda la información y los datos que toda entidad
genera se convierte en un verdadero problema y por lo tanto la toma de decisiones
se vuelve desesperadamente lenta, desperdiciando recursos humanos, financieros
9
y tiempo en tareas repetitivas para obtener un reporte, lo cual con una solución BI
se puede obtener en segundos.
1.5 Hipótesis
La implementación de Business Intelligence ayuda a agilizar y optimizar el flujo de la
información y así mejorar la toma de decisiones en el análisis de la información de la
Encuesta Nacional de Hogares.
11
CAPÍTULO II
MARCO DE REFERENCIA
2.1 Antecedentes.
A1. Subía García Jorge Luis. Implementación de una solución Business Intelligence
para el análisis de la gestión del Ministerio de Desarrollo urbano y vivienda. Tesis
de grado. Universidad Central del Ecuador. (Subía García, 2013)
El Ministerio de Desarrollo Urbano y Vivienda - Ecuador (MIDUVI) ha venido gestionado
la emisión, ejecución y seguimiento de incentivos de vivienda destinados a la población
ecuatoriana desde el 10 de Agosto de 1992, desde aquella fecha hasta la actualidad se
han implementado distintas aplicaciones de software con diferentes tecnologías y bases
de datos, siendo la última aplicación vigente y oficial el sistema SIIDUVI 3, todas estas
aplicaciones tienen datos relevantes acerca de la gestión que ha realizado a lo largo del
tiempo esta cartera de estado.
El problema que afronta el ministerio es la falta de información concisa, coherente y
verdadera, acerca de su gestión, es por eso el presente proyecto de tesis aspira proveer
de una herramienta informática que ayude a resolver esta falta de información, mediante
el desarrollo de una solución Business Intelligence que mediante procesos de ingeniería
de software, consolide toda la información dispersa en distintas bases de datos, archivos
planos, hojas de cálculo, entre otros; en un solo almacén de datos, comúnmente conocido
12
como Data warehouse, y la implementación reportes dinámicos, tableros de mando y
cubos OLAP.
A2. Bustos Barrera Sofía Anabel, Mosquera Artieda Verónica Nathaly. Análisis,
Diseño e implementación de una solución Business Intelligence para la generación
de Indicadores y control de desempeño, en la empresa OTECEL S.A. utilizando la
Métodología Hefesto V2.0. Tesis de grado. Escuela Politécnica del Ejercito.
Sangolqui – Ecuador (Bustos Barrera, Mosquera Artieda, 2014)
En la actualidad el área de pruebas de la gerencia de Construcción de la empresa de
telefonía OTECEL S.A. no cuenta con una herramienta que permita ágilmente reportes a
los jefes y directivos encargados de la toma de decisiones, este proceso se maneja de
manera manual, lo cual genera retrasos en tiempos de respuesta y cargas operacionales
innecesarias.
La toma de decisiones dentro de esta área, debe de manejarse de estratégica e
inmediata, pero al realizar estos procesos manuales existe un retardo en tiempos de
entrega de resultados, lo que repercute en demoras en toma de decisiones que ocasionan
pérdida competitiva
Con la implementación de un Sistema BI se logra un gran apoyo a esta área para la
obtención de reportes, ya que en las reuniones gerenciales imprevistas (que suelen tener
muy a menudo).se tiene una información oportuna, veraz, explicita y confiable; y de esta
manera ayuda a que las decisiones tomadas sean las más acertadas en beneficio del
crecimiento de la empresa.
A3. Rodriguez Cabanillas Keller Gradys, Mendoza Peña Angela Lucía (2011).
Análisis, Diseño e implementación de una solución de Inteligencia de Negocios
para el área de compra y ventas de una empresa comercializadora de
electrodomésticos. Tesis de grado. Pontificia Universidad Católica del Perú.
(Rodriguez Cabanillas, Mendoza Peña, 2011)
Las pequeñas y medianas empresas comercializadoras de electrodomésticos crecen en
el mercado peruano generando ingresos y empleo. El rápido avance de la tecnología
permite a más familias acceder a productos que faciliten su trabajo diario en el hogar y
en el trabajo. Esto obliga a dichas empresas a volverse más competitivas en cuanto a
precios, promociones, publicidad, tecnología, infraestructura y recursos humanos. Las
actividades principales de este tipo de empresas comercializadoras son la compra de
electrodomésticos y negociación con los proveedores, así como la venta dirigida y el
servicio brindado a sus clientes.
Para volverse más competitivas muchas empresas de este rubro toman decisiones a base
de la experiencia y resultados anteriores y debido a que estas decisiones generalmente
13
no se toman de manera estructurada, se plantea como solución el uso de una herramienta
de inteligencia de negocios que permita en tiempo real a los gerentes y jefes de producto
generar escenarios, pronósticos y reportes que apoyen a la toma de decisiones en la
compra y venta de electrodomésticos. El uso de esta herramienta se traduce en una
ventaja competitiva y son muchas las empresas que se han beneficiado por la
implementación de un sistema de inteligencia de negocios, además se pronostica que
con el tiempo se convertirá en una necesidad de toda empresa.
A4. Boada Byron, Tituaña Alvaro (2012). Desarrollo de una aplicación de Business
Intelligence (BI) para la empresa Empaqplast. Tesis de grado. Escuela Politécnica
del ejército – Departamento de ciencias de la computación - Ecuador. (Boada Byron,
Tituaña Alvaro, 2012)
La empresa EMPAQPLAST S.A. es una empresa de plásticos que se dedica a soplar,
inyectar, extruir, coextruir, transformar e imprimir envases de plástico. La dificultad de la
empresa va que los datos están almacenados en base de datos operaciones y no se tiene
la facilidad para el análisis de una forma específica y personalizada por cada área. Los
gerentes requieren tener acceso a la información de una manera más personalizada ya
que en ocasiones se pierde demasiado tiempo en tomar acciones en eventualidades por
la falta de información estructurada, de forma que se pueda analizar y tener un soporte a
la toma de decisiones.
Con la realización del proyecto se brindará soporte para la toma de decisiones
gerenciales, principalmente de las áreas de ventas, inventarios y compras. La solución
está basada en la elaboración de una aplicación Business Intelligence que estará
conformada por los Data Mart de dichas áreas. Lo que se busca es relacionar los datos
con el negocio para así obtener la información relevante de la situación de la empresa.
A5. Tana Paspuel Gloria Estefanía (2014). Data Mart para el análisis de información
del sistema académico de la Universidad Técnica del Norte con herramientas de
software libre. Tesis de grado. Universidad Técnica del Norte - Ecuador. (Tana
Paspuel, 2014)
Actualmente las pequeñas y medianas empresas necesitan depositar su confianza, en la
toma de decisiones que el personal encargado de analizar la información reporta sobre
sus negocios, y para que dichas decisiones sean lo más reales posible es necesario tener
hechos y cifras, se puede evidenciar que la competencia tecnológica crece a pasos
agigantados, es por ello que las organizaciones buscan lugares acertados y seguros
donde albergar su información; el gran reto de cada organización es saber qué hacer
cuando se tiene una montaña de información la misma que necesita ser analizada,
organizada y clasificada, lógicamente que el personal encargado de tener en orden esta
14
información necesitará mucho más tiempo de lo estimado, pero con el actual desarrollo
de nuevas herramientas de business intelligence para analizar la información es una
realidad de presentar información en muy poco tiempo.
Por ese motivo, se está dando auge a las herramientas de software libre que permitan
minimizar el tiempo de respuesta para analizar grandes volúmenes de información con la
mayor velocidad y precisión posible; al hacer uso de herramientas con licenciamiento de
bajo costo se está logrando que las organizaciones mantengan su rendimiento
competitivo y a la orden del día. Hay muchos factores que influyen en el desarrollo de las
pequeñas y medianas empresas, como son: la globalización del mercado, la presión de
la competencia, los avances tecnológicos, el crecimiento de las microempresas, etc., esto
hace que las organizaciones se vuelvan más competitivas en la rama de inteligencia de
negocios esta es una clara muestra por la que las empresas invierten en tecnología y
soluciones informáticas, las empresas no dependen únicamente de factores geográficos
sino también de conocimientos en tecnología que es muy importante para mantener una
ventaja competitiva.
2.2.2 Características BI
Ayuda en la toma de decisiones: posee herramientas de visualización
avanzadas como: gráficos, tablas, velocímetros, que ayudan a obtener rápidos
tiempos de respuesta, permite una gran navegabilidad, seleccionar y manipular
información que le interese al usuario.
Acceso a la información: brinda datos de calidad, completos, correctos y
coherentes. Permite el ingreso a los datos de manera independiente.
Orientación al usuario final: se busca el manejo de interfaces amigables, que
permitan al usuario cierta intuición, sin necesidad de conocimiento técnico para
su uso.
16
2.2.4 Almacén de datos (Data Warehouse)
Un almacén de datos mayormente conocido Data warehouse en idioma ingles es
un conjunto de datos orientado a temas, integrado, no volátil, estable y que se usa
para el análisis y toma de decisiones. A continuación, se analiza cada una de sus
cualidades:
Un componente importante de los Data warehouse son los Data mart, que son un
subconjunto sectorial del Data warehouse, que a menudo pertenece a un
departamento en particular, por ejemplo, un Data mart para el análisis de la gestión
del departamento de recursos humanos de una organización.
El Data warehouse se alimenta de datos operacionales mediante las herramientas
ETL (Extract, Transform, Load).
17
Load (Carga): Hace referencia al proceso en que los nuevos datos son
finalmente almacenados en el Data warehouse en el formato definitivo.
ROLAP: toda la información del cubo, sus datos, su agregación, sumas, son
almacenadas en una base de datos relacional ROLAP no almacena copia
de la base de datos, tiene acceso a las tablas originales cuando se necesita
responder a preguntas, es generalmente, mucho más lenta que las otras
formas de almacenaje. Típicamente ROLAP se usa, para largos conjuntos
de datos que no son frecuentemente buscados, tales como datos históricos
de los años más recientes.
19
2.2.7.3 Relaciones de las tablas de hechos
Las tablas de hechos de almacén de datos se relacionan entre si a través
de las dimensiones que comparten.
20
Figura N° 06: Esquema de un cuadro de mando.
Fuente: Todo sobre Data Warehouse
Elaboración: propia.
Aceptados: Para que resulten realmente operativos, los indicadores deben ser
21
La explotación de la información debe plasmarse en salidas de información
concretas que reflejen la situación y la evolución respecto al fin. Para definir estas
salidas es necesario combinar dos elementos: los ratios y las dimensiones.
2.2.11 Herramientas:
Las herramientas a utilizar en el desarrollo del proyecto se muestran en el
siguiente cuadro. (Rland Bouman & Jos Van Dongen, 2009)
23
resultados del análisis en múltiples formatos como PDF, XLS, HTML y
texto.
25
Planificación del proyecto: A nivel de planificación del proyecto se establece
la identidad del mismo, es decir se lo maneja con un nombre, el personal (los
usuarios, gerentes del proyecto, equipo del proyecto, desarrolladores),
desarrollo del plan del proyecto, el seguimiento y la monitorización.
Entorno Back Room: es el sitio donde se toman lugar los procesos de Data Staging
(adquisición de los datos) consiste en el proceso de Extracción, Transformación y
carga (ETL) de los datos desde las fuentes de origen y la carga de los mismos en
el Data Warehouse.
26
Figura N° 9: Arquitectura back room
Fuente: The Data Warehouse Toolkit
Elaboración: Ralph Kimball.
Entorno Front Room: Es la carta de todo Data Warehouse por tanto debe ser
capaz de explotar al máximo todas las funcionalidades y características que puede
ofrecer el sistema en general.
Entre los servicios del Front Room se encuentra la navegación, seguridad,
monitoreo, generación de reportes y por supuesto manejo de consultas y otros
servicios de escritorio. El Front Room corresponde a la capa que representa los
datos al usuario, escondiendo toda la complejidad y el origen de los datos.
27
El modelado dimensional, según su creador Ranph Kimball, “es el diseño físico y
lógico que transformará las antiguas fuentes de datos en las estructuras finales del
Data Warehouse, a través de una técnica que busca la presentación de los datos
en un marco de trabajo estándar que es intuitivo y permite un acceso de alto
desempeño. Cada modelo dimensional está compuesto de una tabla que tiene una
llave compuesta llamada tabla de hechos y un conjunto de tablas más pequeñas
llamadas dimensiones. Cada tabla dimensión tiene una llave primaria simple, que
corresponde exactamente a una de las partes de la llave compuesta en la tabla de
hechos. Esta estructura característica es usualmente llamada esquema estrella”.
Los pasos necesarios para convertir un Diagrama Entidad Relación (ERD) a un
conjunto de diagramas de modelado dimensional son:
28
2.3.6 Diseño y desarrollo de la presentación de datos.
Esta etapa está conformada primeramente por las actividades ETL. Se realiza un
análisis de los datos como se van a integrar y como se pueden resolver problemas
de inconsistencias.
29
• Consistencia de datos: Revisión de la información por estándares de tipo de dato y
congruencia en la secuencialidad de las respuestas proporcionadas.
• Operación de campo: Proceso de recolección de la información de la entrevista de
las personas y los encuestadores.
• ODEI: Son las oficinas descentralizadas que operan en el interior del país y que están
supeditadas por el INEI.
• Digitación. Proceso de pasar los datos obtenidos en una encuesta física, a ser
almacenadas en una Base de Datos computacional.
• Recuperación: Etapa en la cual se procede en volver a entrevistar al hogar
encuestado con el fin de subsanar o completar datos faltantes de una primera
entrevista.
• Información: Interpretación de los datos obtenidos, evidencias de algo.
• Usuario: Persona capacitada que será la encargada de la manipulación final de un
producto informático.
• Consolidado: Información, final, robusta, que al analizar proporciona resultados con
un fin en particular.
• Requerimientos: son declaraciones de los servicios que proveerá el sistema, la
manera que este reaccionará ante casos particulares.
• Desnormalizar: proceso de procurar optimizar el desempeño de una Base de Datos
por medio de agregar datos redundantes.
• Monitorear: proceso mediante el cual se reúne, observa, estudia y emplea
información para luego poder realizar un seguimiento de un hecho particular.
• Granulidad: se refiere a la especificidad a la que se define un nivel de detalle de una
tabla, empezando de la parte de más alta jerarquía a la más mínima.
30
CAPITULO III
INTERVENCIÓN METODOLÓGICA
En este capítulo se aplica la metodología Kimball, que contempla los procesos para elaborar
un proyecto BI, comienza desde la planificación y administración del proyecto, hasta la
implementación y mantenimiento del mismo. Para la realización de la implementación, se
utilizará como herramienta de Software la Suite de Pentaho por brindarnos una amplia gama
de productos para el desarrollo desde los procesos de extracción hasta la publicación.
31
3.1.3 Alcance:
El proyecto se focalizará en la elaboración de Indicadores, que permitan, bajo el
esquema de reportes, visualizar tiempos, cantidades, responsables, resultados por
distribución geográfica, los cuales facilitarán tener tiempos de respuesta menor para
la toma de decisiones y planes de acción en caso lo requieran.
Los indicadores que se desarrollarán en esta fase de la aplicación, será los
siguientes.
Avance de lo programado.
Tasa de problemas de marco.
Tasa de no respuesta total.
3.1.4 Justificación:
Se busca relacionar los datos para obtener una información de fácil acceso y que
sirva de fuente para una toma de decisiones más rápida efectiva. Se considerará el
uso de Pentaho BI que es una herramienta OpenSource de libre distribución, que por
su amplia gama de productos nos ayudará a implemetar una solución completa de
Business Intelligence.
32
Se realizó un cronograma de actividades a realizar las cuales serán monitoreadas
por todo el equipo de desarrollo. El cuadro N° 04 muestra la información de cómo se
irá desarrollando el proyecto.
2 Definición de requerimientos.
Diseño de la arquitectura del
3
Data Mart.
Selección de productos e
4
instalación.
5 Modelado dimensional.
6 Nivel de granulidad.
Diseño y desarrollo de la
7
presentación de datos.
Desarrollo de la aplicación
8
para usuarios finales.
9 Mantenimiento y crecimiento.
33
Permite realizar el seguimiento Mes.
de las actividades de cada Periodo.
encuestador los cuales ODEI
pertenecen a un ODEI Encuestadores.
específico.
encuestador. Conglomerados.
Mes.
conglomerado. Conglomerado.
recuperación o de sustitución.
Fuente: Encuesta Nacional de Hogares - INEI
Elaboración: propia.
34
Esta base de datos cuenta con diversas tablas relacionadas entre si, las cuales
almacenan diferentes tipos de información. A continuación, se lista las tablas
principales.
35
Figura N° 11: Diagrama relacional de la Base de Datos de captura.
Fuente: Oficina Técnica de Informática OTIN – INEI.
Elaboración: Oficina Técnica de Informática OTIN – INEI.
36
3.3 Diseño de la arquitectura:
3.3.1 Estándares:
Se definió estándares para el modelado y el proceso ETL con el objetivo de que este
sistema BI pueda crecer y puede ser entendido sin mucho esfuerzo técnico.
37
3.3.3 Entorno Front Room:
Una vez poblado el Data Mart con los datos respectivos, se podrá visualizar los
resultados a través del Servidor de biserver-ce de Pentaho.
38
Compartir el conocimiento alcanzado.
Tener una documentación desde el inicio
del proyecto hasta el final, para que la
Cambio de personal de
Medio 3 persona encomendada a seguir con el
trabajo
proyecto no encuentre dificultades.
Compartir el conocimiento alcanzado.
Fuente: Open Source
Elaboración: Propia
En primer lugar, se creó una carpeta que almacenará todos los recursos de Pentaho como
se muestra en la Figura N° 14.
39
Figura N° 14: Captura de Carpeta contenedora de la Suite de Pentaho.
Fuente: Propia.
Elaboración: Propia.
Para que los productos de esta versión de Pentaho puedan funcionar, en primer lugar, se
deben de hacer algunas configuraciones previas en nuestro servidor de uso, en este caso
un servidor con el sistema Windows instalado.
Se debe de tener instalado como mínimo la versión de java 7 y tiene que estar inicializado
en nuestro path de sistema. En la figura N° 15 y ° 16 se muestra como es la manera de
crear la variable de sistema y donde tiene que estar ubicada para su inicialización.
40
Figura N° 16: Ubicación de la Variable JAVA_HOME en el Path.
Fuente: Propia.
Elaboración: Propia.
Para asegurarse que las configuraciones previas se realizaron con éxito; se puede revisar
la versión del java en ejecución desde la pantalla de comandos con una simple consulta
la cual es java -version, y con ello el CMD mostrará como respuesta la versión del Java
que viene ejecutándose como muestra la figura N° 18.
41
Figura N° 18: Verificación de la versión de Java.
Fuente: Propia.
Elaboración: Propia.
Ya se tiene el soporte de java para poder empezar con la ejecución de las diversas
herramientas de Pentaho Community.
42
Fact_Resultados: es la tabla de hechos, en la cual se encuentra referenciadas todas las
tablas dimensiones. Esta tabla tiene un identificador único llamado idFact la cual es creada
automáticamente al agregar una nueva fila de información a la tabla.
Dim_departamento: es la tabla que hace referencia a los Departamentos del Perú ya que
la encuesta es aplicada a nivel nacional.
Dim_mes: es una dimensión de tipo tiempo, con él se pueden observar los resultados en
una escala según se avanza el proceso.
Dim_periodo: también es una escala de tiempo. Es más precisa que la escala mes y es
utilizada para analizar los resultadas en átomos más pequeños.
43
Figura N° 20: Indicador de Avance de Campo.
Fuente: Propia.
Elaboración: Propia.
44
Figura N° 22: Indicador Tasa de No Respuesta.
Fuente: Propia.
Elaboración: Propia.
Para empezar el procedimiento se necesita crear una transformación, pero para ello
se debe configurar la conexión a nuestra Base de datos, en este caso se está usando
el motor SQL Server y por ello se debe realizar la conexión a dicha Database
configurando los parámetros como son el Host donde se encuentra ubicada, el
nombre de la Base de Datos y el String de conexión.
En la figura 24 se muestra como se debe proporcionar los parámetros de conexión.
45
Figura N° 24: Configuración del DataSource - Data Integration.
Fuente: Propia.
Elaboración: Propia.
Para empezar el diseño ETL se debe de insertar un table input que se encuentra en
las herramientas de Desing en la carpeta input en la cual se debe de ejecutar la
sentencia SQL que trae consigo los datos que serán usados en el Data Mart.
Para insertar el código SQL basta con realizar doble click en el icono de la tabla para
que aparezca una ventana con las opciones necesarias para insertar y validar nuestro
código. Se debe de usar la conexión de base de datos creada, y si es necesario tener
otra conexión también se puede realizar desde ahí con la opción New.
En las figuras siguientes, se muestra el modo de elaboración para la tabla de hechos,
ya que es la tabla que contiene todas las dimensiones y la de códigos más extensos.
El modo de trabajo de las tablas de dimensiones es muy similar. El código SQL
insertado se presenta en el ANEXO C.
46
Figura N° 26: Selección de datos a cargar – Tabla de hechos.
Fuente: Propia.
Elaboración: Propia.
47
Con esto se logra obtener los datos desde la fuente de datos originales, lo que se
necesita hacer ahora es poder ingresarlos a nuestra data wharehouse a la tabla que
le corresponde.
Para esto es necesario insertar una tabla OUPUT que se encuentra también en las
herramientas Designer del Data integration de Pentaho y configurar sus parámetros
de recepción de datos.
48
Para poder manejar en que columnas se van almacenar los datos, en el caso que
tengan distintos nombres, SPOON brinda la opción de sincronizar nuestros campos
de entrada como de salida, como se muestra en la figura N° 30.
49
En el grafico anterior se puede observar que todas las tablas al final van hacia Mail,
eso se hace para que cada vez que se ejecuta estos procesos al terminar envíe un
correo a las personas encargadas de supervisar el estado de las tablas, esto es una
opción válida para tener como información del proceso ETL.
Estos procesos se ejecutarán diariamente en horarios de 1 y 13 horas, ya que la
actualización de las tablas de campo de la Base de datos de Captura de información
se ejecuta a las 0 y 12 horas, y se necesita tener la data completamente actualizada.
Al igual que Data Integration, se tiene que configurar en primer lugar la conexión a
nuestro servidor. En este caso solo es necesario la conexión de nuestro servidor del
Data Mart porque es de ahí de donde se va a extraer la información para los análisis.
En la figura N° 33 se muestra los parámetros a ingresar para una conexión OK.
50
Figura N° 33: Configuración del DataSource - Schema Workbench.
Fuente: Propia.
Elaboración: Propia.
51
sobre el cubo se va a la opción de add dimensión, con el cual se crea cada una de
las dimensiones para el cubo, se empieza con la dimensión de los encuestadores
cuyo proceso es el mismo para todas las demás dimensiones.
52
Figura N° 36: Visualización final de Cubo ENAHO – Schema Workbench.
Fuente: Propia.
Elaboración: Propia.
Una vez terminada la elaboración del cubo, se procede a publicarlo y con esto
automáticamente aparecerá en opciones de selección en nuestro servidor de
Pentaho Bi Server (el cual veremos en el punto a continuación). Para publicar el
Schema se debe de seleccionar el menú File -> Publish Schema con lo cual
autorizamos que el cubo sea ingresado a nuestro servidor Bi de pentaho.
53
3.8 Desarrollo de la aplicación para usuarios finales.
3.8.1 Pentaho Bi Server:
Es el servidor incorporado a la suite de Pentaho, en él se puede realizar las
publicaciones de cubos y reportes, contiene una administración de usuarios a los
cuales se les brinda distintos roles dependiendo de su grado de afinidad y
conocimiento del tema.
El Pentaho Bi Server la parte de su código de presentación, código el cual se puede
manipular para temas de customizar y hacer una presentación más acorde con la
institución. En la figura N° 38, se muestra la pantalla de inicio como quedaría el Front
de ingreso al sistema.
54
El uso de esta plataforma es muy intuitivo y se explora de manera muy sencilla, en
la parte superior izquierda cuenta con un menú de opciones de administración y en
la parte del medio un menú más operativo.
En primer lugar, se tiene que administrar la parte de credenciales de los usuarios que
podrán tener acceso al sistema, eso se realiza en el módulo de Inicio ->
Administración, Como se muestra en la figura N° 40.
.
Figura N° 40: Ingreso a Administración de Usuarios – Pentaho BI Server.
Fuente: Propia.
Elaboración: Propia.
En esta sección se puede administrar a los usuarios, sus roles y sus funciones en el
sistema.
En las figuras 41, 42 y 43 se pueden observar las distintas opciones que brinda
Pentaho BI Server para el mantenimiento de usuarios.
55
Figura N° 42: Gestión de roles de Usuarios.
Fuente: Propia.
Elaboración: Propia.
56
acceso al Data Mart. Esta configuración se realiza ingresando al menú de la
parte central en Gestionar Fuente de Datos, con lo cual se muestra en pantalla
la imagen que refleja la figura N° 44.
57
Figura N° 46: Modo de ingreso a Sailu Analitycs – Pentaho BI Server.
Fuente: Propia.
Elaboración: Propia.
Una vez abierta la pestaña de Saiku Analitycs, se puede observar el cubo que
se creó en el Schema Workbench con el nombre de Cubo Enaho el cual ya
se encuentra disponible para poder crear e interactuar con sus variables.
Se selecciona el cubo y en la parte baja se desplegará todas las dimensiones
y medidas creadas anteriormente las cuales pueden usarse libremente para
crear cualquier tabla, solo basta con seleccionar la variable que se quiera usar
y colocarlas en una de las opciones que aparecen al costado, en el caso de
las medidas solo pueden ir en el espacio que es reservado para ellas y el de
las dimensiones pueden ir bien en columnas o en filas, eso depende del
usuario de la manera que quiera observar su información.
Saiku también permite poder agregar medidas adicionales de las que se envía
en el cubo, se realiza para poder dar una mejor forma a las tablas creadas,
esto se logra gracias a la opción de añadir que se encuentra en la parte
superior de donde se presenta las medidas. Para este caso se agrega algunas
medidas para que sea más fácil la lectura y entendimiento del reporte. La
forma de creación de la nueva medida se pueden observar en las figuras N°
47 y 48
58
Figura N° 47: Opción añadir medida – Saiku Analitycs.
Fuente: Propia.
Elaboración: Propia.
59
este caso que se genera un diagrama de líneas como lo muestra la figura N°
49.
60
Este reporte puede ser guardado para para ser observado posteriormente en
otra oportunidad cuando los datos sean modificados o simplemente otro
usuario desee verlo.
Para ello se da en la opción de guardado que es el símbolo de diskette que
se encuentra en la parte superior. Luego se dirige a la carpeta donde se
almacenará el reporte. La Figura N° 51 muestra el modo y la ubicación donde
se debe guardar el reporte para que pueda ser visualizado por cualquier otro
usuario que tenga permisos de ingreso al sistema.
Con ello se tiene que asegurar que cualquier usuario que tenga acceso al
servidor pueda poder observar el detalle del reporte simplemente ingresando
a la opción de examinar que se encuentra en la parte superior derecha y luego
inspeccionando en la carpeta public, como lo muestra la figura N° 52.
61
Figura N° 53: Diagrama de barras – Saiku Analitycs.
Fuente: Propia.
Elaboración: Propia.
Ahora se procede a guardar estos reportes de igual modo como se hizo con
el primer cuadro, y así cuando algún usuario esté interesado en observarlo,
pueda acceder en cualquier momento.
Lo interesante de esta herramienta, es que personas con muy poco
conocimiento de informática pueden utilizarla con solo algunas charlas de
capacitación, e incluso ellos mismos pueden generar sus reportes
dependiendo de la información que almacena el cubo.
Por ejemplo, si un usuario en el primer reporte creado quiere visualizar a todos
los encuestadores solo del departamento de Junín, basta con retirar la
dimensión Departamento de las filas y colocar en su lugar la dimensión de
Encuestador y en el apartado de Filtros colocar la dimensión Departamento y
62
seleccionar solo el Departamento de Junín. Con ellos en el resultado solo
tendremos a encuestadores del Departamento de Junín con todas las
columnas anteriormente creadas. El modo de efectuar este proceso se
visualiza en las figuras N° 55 y 56 correlativamente.
63
Figura N° 57: Crear Nuevo CDE Dashboard.
Fuente: Propia.
Elaboración: Propia.
64
Figura N° 59: Menú Components Panel - CDE Dashboard.
Fuente: Propia.
Elaboración: Propia.
65
Figura N° 61: Problemas de Marco - CDE Dashboard.
Fuente: Propia.
Elaboración: Propia.
66
3.10 Gestión del proyecto:
Toda la gestión del proyecto fue supervisada por el jefe del área de Encuestas de la Oficina
Técnica de Informática la Ing. Marlene Reyes.
67
CAPITULO IV
ANALISIS DE RESULTADOS
68
Una vez concluida la implementación del sistema, se realizó una capacitación del uso de
la herramienta a los encargados del manejo de la información en la Sede Central del INEI.
Después de la implementación del Sistema BI, en los meses posteriores, se empezó con
el mantenimiento del sistema, la cual corresponde en primer lugar a la verificación de la
información que muestra el sistema con los datos obtenidos de la forma manual
anteriormente trabajada. Esta validación se realizó para poder estar 100% seguros que
los resultados obtenidos sean realmente confiables.
El cuadro N° 09 muestra el seguimiento realizado a los tres indicadores solicitados. Es un
seguimiento general realizado a las muestras nacionales (totales).
Con los resultados obtenidos, se puede revisar que en los primeros dos meses se
obtienen diferencias en los resultados, para los cuales se debieron realizar algunos
ajustes en los códigos con los cuales se generan las tablas, teniendo en el tercer mes ya
resultados similares. Cabe señalar que estos son los resultados finales del mes al que
representa.
Al obtener el mismo resultado con el Sistema BI y el proceso manual el cual era generado
por medio del software SPSS, se puede concluir que el proceso queda completo y que la
información que el sistema muestra arroja los mismos resultados que el proceso confiable
que anteriormente realizaban.
69
Se realiza una comparación de cómo se realizaba el modo de acceso a la información
anteriormente y después de la implementación de la solución BI.
Para realizar la comparación de periodos evaluados se utiliza la t’ student, con los tiempos
totales obtenidos, siendo el resultado del análisis es el siguiente.
Planteamiento de hipótesis.
H0: µ1 - µ2 = 0: El tiempo de los procesos es el mismo después de la implantación del
sistema BI.
Ha: µ1 - µ2 > 0: El tiempo de los procesos es menor después de la implantación del
sistema BI.
Nivel de Significancia
α =0.05 La prueba será a un nivel de significancia al 5 %
70
Regla de Decisión
Si el valor de probabilidad de la diferencia de medias según la distribución de t’ student
es menor que el nivel de significancia rechazamos la hipótesis nula.
P [t(µ1 - µ2 )] < α , Rechazamos la hipótesis Nula
Calculo de valor de distribución y valor de probabilidad
Para el cálculo del estadístico t y su probabilidad se usó el software STATA.
71
Cuadro N° 11: Cuadro comparativo del flujo de información (meses)
N° de accesos a la
información por mes
Julio 2
Agosto 2
Setiembre 4
Octubre 2
Noviembre 2
Diciembre 4
Implementación del Sistema BI
Enero 4
Febrero 10
Marzo 15
Abril 20
Mayo 22
Junio 22
Planteamiento de hipótesis.
H0: µ1 - µ2 = 0: El número de veces de revisión de la información es el mismo después
de la implantación del sistema BI.
Ha: µ1 - µ2 < 0: El número de veces de revisión de la información es mayor después
de la implantación del sistema BI.
Nivel de Significancia
α =0.05 La prueba será a un nivel de significancia al 5 %
Regla de Decisión
Si el valor de probabilidad de la diferencia de medias según la distribución de t’ student
es mayor que el nivel de significancia rechazamos la hipótesis nula.
P [t(µ1 - µ2 )] > α , Rechazamos la hipótesis Nula
72
Figura N° 64: Cuadro de resultados generados en STATA.
Fuente: Propia
Elaboración: propia.
En general, se observa que los resultados han sido alentadores, ya que se cambió el modo
de trabajo. Queda pendiente el ingreso de nuevos requerimientos para poder enriquecer al
Data Mart y tener un servidor completo, de la cual se pueda extraer todo tipo de información
y ser considerado como primer sistema abastecedor de información consistenciada para los
resultados de las Encuestas en el Instituto Nacional de Estadísticas – INEI.
73
CONCLUSIONES
3. El objetivo de usar una metodología como la de Raph Kimball como guía y modelo a
aplicar para el desarrollo del Sistema BI de la encuesta ENAHO es porque facilita el
desarrollo del proyecto, dividiéndolo por etapas al ciclo de vida, donde cada etapa
puede ser evaluada y corregida a tiempo. Empezando desde la planificación,
crecimiento del Data Mart e implementación de los indicadores.
74
RECOMENDACIONES
1. Para poder explotar más toda la funcionalidad del uso de una solución BI, se
recomienda implementar el mayor número de indicadores pre-calculados al proyecto,
lo cual significa que debe ampliarse número de Data Mart existentes en el servidor y
por consiguiente llegar a una estructura de Data Warehouse diseñada y mantenida en
el tiempo.
4. Al público, se recomienda tener una base en la teoría del Business Intelligence para
poder realizar una interpretación de cómo se va desarrollando cada etapa del proyecto
y así colaborar un poco en su búsqueda de conocimientos.
75
REFERENCIAS
REFERENCIAS BIBLIOGRÁFICAS:
76
REFERENCIAS ELECTRÓNICAS
77
ANEXOS
78
ANEXO A:
DOCUMENTO ENVIADO POR ENAHO PARA LA GENERACIÓN DE SUS INDICADORES.
79
SISTEMA DE GESTION PARA MONITOREO Y EVALUACION DE LA RECOLECCION DE
INFORMACION
1. FINALIDAD:
2. OBJETIVOS:
3. INDICADORES DE MONITOREO:
i. Muestra el avance de lo programado vs lo ejecutado por departamentos, ODEI
y encuestador(a)
ii. Tasa de problemas de marco por departamentos, ODEI y encuestador(a)
iii. Tasa de no respuesta total por departamentos, ODEI y encuestador(a)
4. META
5. PRODUCTOS
80
Menores tasa de no respuestas e información indirecta, además de tasas de
información indirecta y problemas de marco controlados.
Gastos e ingresos consistenciados y suficientes para el análisis de hasta periodos
trimestrales.
6. ACCIONES
Mencionaremos los criterios para formar los criterios para formar la variable
departamento y los criterios para pasar hogares con resultado completa o incompleta
a rechazo.
81
GENERAR LA VARIABLE DEPARTAMENTO (DPTO):
ubigeo aa bb cc
aa : dpto (Departamento)
aa bb: Provincia
aa bb cc : Distrito
Dpto.
1=Amazonas.
2=Ancash.
3=Apurímac.
4=Arequipa.
5=Ayacucho.
6=Cajamarca.
8=Cusco.
9=Huancavelica.
10=Huánuco.
11=Ica.
12=Junín.
13=La Libertad.
14=Lambayeque.
15=Lima.
16=Loreto.
17=Madre de Dios.
18=Moquegua.
19=Pasco.
20=Piura.
21=Puno.
22=San Martin.
23=Tacna.
24=Tumbes
25=Ucayali
82
Generar la tabla con la variable:
Cap200 = suma de personas con el criterio anterior
La tabla a nivel de hogar tendrá las variables:
conglome, vivienda, hogar, mes, cap200
83
De la base: enaho01a-2015-400 generar la tabla “hogares400missing”
Con hogares con el número de miembros que omitieron el capítulo 400, cuyo
criterio es:
codinfor=="00"
Generar la tabla con la variable:
Cap400= suma del número de miembros omisos con el criterio anterior
La tabla a nivel de hogar tendrá las variables:
conglome, vivienda, hogar, mes, cap400
84
resi30_1= suma del número de miembros omisos con el criterio anterior
La tabla a nivel de hogar tendrá las variables:
conglome, vivienda, hogar, mes, resi300
85
Generar la variable h300: Proporción de informantes omisos por hogar en el
capítulo 300
h300=cap300/resi30_1
Generar la variable h400: Proporción de informantes omisos por hogar en el
capítulo 400
H400=cap400/resi40_1
Generar la variable h500: Proporción de informantes omisos por hogar en el
capítulo 300
H500=cap500/resi50_1
Hogares que pasan a rechazo que no consumen alimentos dentro del hogar.
Rx = 2 si cap601_2==50 y cg559_1==0 y sin602==1
Rx = 2 si cap601_2==50 y (cg559_1>0 ó sin602==2) y ingr_max=0
INDICADORES DE COBERTURA
El avance de las entrevistas serán monitoreadas por periodo para el año de estudio en
curso, de manera que se tendrá el avance por periodo, acumulado mensual, y finalmente
anual.
86
Generando Variable Resultado de la Entrevista: <res_entrv>
res_entrv = 1; si (result==1|result==2)
res_entrv = 2; si (result==3|result==4)
res_entrv = 3; si (result==5|result==6|result==7)
Asignar las etiquetas de valor a la variable:
1 : Hogar Entrevistado
2: Rechazos Ausencias
3: Problemas de Marco
res_entr(1)
− % Viviendas con Respuesta =
res_entr(1,2)
result(1 − 7)
− % Viviendas de avance =
VivProg(1)
000001 9
000002 81
000003
….
000020
000010
87
El avance por departamentos según Encuestador
Perez Juan 9
Freitas Susan 81
Dias Susana
….
Figueroa Milet
Medina Magaly
Resultado de la Entrevista
80
60
40
20
88
Tasa de problemas de marco
La tasa de problemas de marco es el resultado del número de viviendas
programas con resultados: ausente, desocupada y otros, entre el total de
viviendas programadas.
REPORTES:
Los reportes serán en serie anual, considerándose desde el año 2012 – al
año de estudio actual.
Reporte General.
Grafico del Mapa del Perú por grupos de departamentos según Problemas de
Marco
89
La representación gráfica de los problemas de Marco en Serie, nos permite
una visualización en el tiempo que es vital pues debe tener un mismo
comportamiento a lo largo de los años, teniendo en cuenta el ejemplo
siguiente:
Tasa de no respuesta
La tasa de problemas de marco es el resultado del número de viviendas
programas con resultados: ausente, desocupada y otros, entre el total de
viviendas programadas.
𝑽𝒊𝒗. 𝑷𝒓𝒐𝒈. (𝒓𝒆𝒄𝒉𝒂𝒛𝒐 + 𝒂𝒖𝒔𝒆𝒏𝒕𝒆)
− 𝑻𝒂𝒔𝒂 𝑷𝒓𝒐𝒃. 𝑴𝒂𝒓𝒄𝒐 = ∗ 𝟏𝟎𝟎
𝑽𝒊𝒗. 𝑷𝒓𝒐𝒈. (𝒄𝒐𝒎𝒑𝒍𝒆𝒕𝒂 + 𝒊𝒏𝒄𝒐𝒎𝒑𝒍𝒆𝒕𝒂 + 𝒓𝒆𝒄𝒉𝒂𝒛𝒐 + 𝒂𝒖𝒔𝒆𝒏𝒕𝒆)
90
ANEXO B:
TERMINO DE REFERENCIA PARA CONTRATACION DE UN PERSONAL INFORMÁTICO
PARA REALIZAR EL SISTEMA DE SEGUIMIENTO.
TÉRMINOS DE REFERENCIA
CONTRATACIÓN DE UN (01) PROFESIONAL INFORMÁTICO I (Analista de Sistema) para la ENCUESTA NACIONAL DE HOGARES
ENAHO
I. ASPECTOS GENERALES
1.1 Dependencia : Dirección Técnica de Demografía e Indicadores Sociales (DTDIS)
1.2 Naturaleza Jurídica del Contrato : Locación de Servicios
1.3 Fuente de Financiamiento : RO
1.4 Meta : 0048
1.5 Sede : Lima
II. OBJETIVOS DEL SERVICIO
Contar con los servicios de personal para el seguimiento de la implantación y capacitación del Sistema de Monitoreo, gestión y
seguimiento de procesos y control de calidad de los datos que se obtienen en la operación de campo de la Encuesta Nacional de
Hogares ENAHO.
III. REQUISITOS DE LA CONTRATACIÓN
3.1 Formación Académica
Bachiller universitario en Ingeniería de Sistemas.
De preferencia pertenecer al tercio superior.
3.2 Experiencia Laboral
Experiencia mínima de un (01) año en entidades públicas o privadas en el desarrollo de Sistemas informático |
Experiencia mínima de seis (06) meses en desarrollo con Java Web, Spring FrameWork,
3.3 Capacitación
Curso de Java y/o PHP.
Conocimiento SQL Server 2008, vistas, procedimientos almacenados, triggers, DML, DDL.
Conocimiento en JQuery, AngularJS
IV. PERIODO DE CONTRATACIÓN
El período de contratación será de neventa (90) días a partir de la suscripción del contrato, extendible.
V. SERVICIOS A REALIZAR
Seguimiento de procesos y control de calidad de los datos que se obtienen en la operación de campo en la Encuesta Nacional
de Hogares ENAHO.
Implementar un sistema de monitoreo de la información para la Encuesta Nacional de Hogares ENAHO.
Elaboración de la documentación técnica del sistema de seguimiento de procesos y control de calidad de la Encuesta Nacional
de Hogares ENAHO.
VI. PRODUCTO A ENTREGAR
Primer Producto: Informe técnico de la realización de procedimientos para la actualización de la información de campo obtenido de
la Tablet y migración para el sistema de monitoreo de la ENAHO.
Segundo Producto: Informe técnico de la implementación del sistema de monitoreo de la información de la encuesta ENAHO.
Tercer Producto: Informe Técnico de la documentación del uso del sistema de monitoreo de la información para la Encuesta ENAHO.
91
ANEXO C:
Código SQL para la creación de la tabla de hechos.
from dbo.Campo_Vivienda_Marco ac
left join (select cc.Conglome, cc.Mes, cc.Periodo, cc.Estrato, cc.ODEI, DPTO +
PROV + dist as ubigeo
, re.codencue, re. nomencue, case when DPTO = '07' then '15' else DPTO end depto
from dbo.Campo_Conglomerado cc
left join rutaEncuestador re on re.conglome = cc.Conglome
) ad on ac.Conglome = ad.Conglome
) aa
left join (select cc.Conglome , cc.Vivienda, cc.hogar,cc.RESULT, cc.ubigeo ,cc.Mes,
cc.año,cc.Periodo,cc.longitud, cc.Latitud,
ccdd = case when substring(cc.UBIGEO,1,2) = '07' then '15' else
substring(cc.UBIGEO,1,2) end
from dbo.Enaho01_100 cc where cc.hogar like '1%' and cc.año = 2016 group by
cc.Conglome , cc.Vivienda,cc.RESULT, cc.hogar, cc.ubigeo,cc.Mes,
cc.año,cc.Periodo,cc.longitud, cc.Latitud) bb on aa.Conglome = bb.Conglome and
aa.Vivienda
= bb.Vivienda
left join (
select * from dbo.enaho_rpt_restriccion p where p.hogar like '1%'
)i on i.Conglome = aa.Conglome and i.Vivienda = aa.Vivienda
left join Campo_Conglomerado cd on cd.Conglome = aa.Conglome
left join (select m.CCDD, case when m.NombreDD = 'CALLAO' then 'LIMA' else
m.NombreDD end as NombreDD from dbo.Dpto m) dd on dd.CCDD =
substring(bb.UBIGEO,1,2)
left join (select * from (select *,ODEI = case when ab.ccdd = '01' then 1
when ab.ccdd = '02' and (substring(ab.UBIGEO,1,4) <> '0218' and
substring(ab.UBIGEO,1,4) <> '0208' and substring(ab.UBIGEO,1,4) <> '0211' and
substring(ab.UBIGEO,1,4) <> '0215') then 2
when ab.ccdd = '02' and (substring(ab.UBIGEO,1,4) = '0218' or
substring(ab.UBIGEO,1,4) = '0208' or substring(ab.UBIGEO,1,4) = '0211' or
substring(ab.UBIGEO,1,4) = '0215') then 3
92
when ab.ccdd = '03' then 4
when ab.ccdd = '04' then 5
when ab.ccdd = '05' then 6
when ab.ccdd = '06' then 7
when ab.ccdd = '08' then 8
when ab.ccdd = '09' then 9
when ab.ccdd = '10' then 10
when ab.ccdd = '11' then 11
when ab.ccdd = '12' then 12
when ab.ccdd = '13' then 13
when ab.ccdd = '14' then 14
when ab.ccdd = '15' then 15
when ab.ccdd = '16' then 16
when ab.ccdd = '17' then 17
when ab.ccdd = '18' then 18
when ab.ccdd = '19' then 19
when ab.ccdd = '20' then 20
when ab.ccdd = '21' then 21
when ab.ccdd = '22' and (substring(ubigeo,1,4)<>'2209' and
substring(ubigeo,1,4)<>'2207' and substring(ubigeo,1,4)<>'2206' and
substring(ubigeo,1,4)<>'2202' and substring(ubigeo,1,4)<>'2210') then 22
when ab.ccdd = '22' and (substring(ubigeo,1,4)='2209' or substring(ubigeo,1,4)='2207'
or substring(ubigeo,1,4)='2206' or substring(ubigeo,1,4)='2202' or
substring(ubigeo,1,4)='2210') then 23
when ab.ccdd = '23' then 24
when ab.ccdd = '24' then 25
when ab.ccdd = '25' then 26 end
from (
select xx.AÑO, xx.MES,xx.CONGLOME, xx.VIVIENDA, xx.HOGAR, xx.UBIGEO,
ccdd = case when SUBSTRING(xx.UBIGEO , 1,2) = '07' then '15' else
SUBSTRING(xx.UBIGEO , 1,2) end,
xx.PERIODO,xx.RESULTADO, xx.CODENCUE, xx.NOMENCUE
from dbo.EnahoHogarEncuestador xx )ab) ab where ab.AÑO = 2016 and ab.HOGAR
like '1%') ee on ee.CONGLOME = aa.Conglome and ee.VIVIENDA = aa.Vivienda and
ee.ODEI = aa.ODEI
left join dbo.Odei ff on ff.CodOdei = aa.odei
left join dbo.DPTO dpto on dpto.CCDD = aa.depto
where aa.Conglome is not null and aa.tipovivienda in (1,4) and (aa.activo = 1 or aa.activo
is null)
93