Está en la página 1de 96

Arquitectura Data Warehousing para

2017
los servicios de acceso a Internet y
correo electrónico de Etecsa

Noslen Olavarrieta Pérez


Universidad de Camagüey
2017
Universidad de Camagüey
“Ignacio Agramonte Loynaz”

Arquitectura Data Warehousing para los servicios


de acceso a Internet y correo electrónico de
Etecsa

TESIS PRESENTADA PARA OPTAR POR EL TÍTULO DE MÁSTER EN


INFORMÁTICA APLICADA

Autor:
Ing. Noslen Olavarrieta Pérez

Tutores:
DrC. Yaile Caballero Mota
MSc. Geysel Salgado Rodríguez

Camagüey, 2017
AGRADECIMIENTOS

A mis tutoras Geysel y Yaile por toda su dedicación y esfuerzo para que este trabajo
alcanzara sus objetivos. Gracias por ser la guía que tanto necesitamos para ser
mejores profesionales en nuestro trabajo.

Al mejor equipo de trabajo que se pudiera tener, Vivian, Belkis, Richard, Yanet y
Tania, por todas las horas de desvelo, entre revisiones, consultas y apuros. Sin su
apoyo hoy no estaría aquí.

Al equipo Nauta y el resto de mis compañeros de trabajo, por toda la ayuda brindada
en la realización de este trabajo.

A mis compañeros de maestría que han compartido estos dos años, llenos de
alegrías y penurias en los hoteles y los viajes, buenos y malos momentos,
discusiones y celebraciones que al final han forjado más que una amistad, una
hermandad.

Al personal de Camagüey, sobre todo Dailín, Mairelys y el departamento de Capital


Humano, que durante todos estos meses han dado su mejor esfuerzo por resolver
cada uno de los problemas que se nos han presentado y que sin su ayuda
probablemente hoy no nos estuviéramos graduando.

Al claustro de profesores de la Universidad de Camagüey, por todo el conocimiento


que nos han brindado y la ayuda adicional con los trabajos de tesis.

A Yasmín, Olmedo y todos esos amigos que de una forma u otra me han ayudado
a estar aquí hoy.

A los directivos de la DVTI, Capacitación, Logística y Servicios, a Etecsa por todas


las gestiones y el apoyo a la realización de esta Maestría.

Por último y los más importantes, a mi familia: mis padres (los de sangre y los de
corazón); a mis hermanos; a mi campeón Víctor y mi sobrina del alma Amelia; a
Lauri. Ustedes son mi razón de ser, el motivo principal de superarme y ser mejor
cada día. Gracias por existir.
DEDICATORIA

A mi Victor.
Resumen

RESUMEN

Data Warehousing es el centro de la arquitectura para los sistemas de información


desde la década de los '90 y juega hoy en día un papel fundamental dentro de las
empresas para la toma de decisiones. Soporta el procesamiento informático al
proveer una plataforma sólida, a partir de datos históricos para el análisis. Facilita
la integración de sistemas de aplicación no integrados. Organiza y almacena los
datos que se necesitan para el procesamiento analítico e informático sobre una
amplia perspectiva de tiempo.
El presente trabajo tiene como objetivo el diseño de la arquitectura de un Data
Warehouse como apoyo a la toma de decisiones en los servicios de acceso a
internet y correo electrónico de Etecsa. El sistema incluye componentes de
ubicación de fuentes de datos, extracción, limpieza, montado y sumarización.
Se presenta una metodología de implementación del Data Warehouse que abarca
aspectos tales como definición de la arquitectura, necesidades de información,
análisis del área objetivo, estudio de las fuentes de datos, diseño de las
transformaciones, base de datos física, acceso de usuarios finales y la selección de
las herramientas para el desarrollo del proyecto.
Palabras claves: Data Warehouse, Servicio de Acceso a Internet, Toma de
Decisiones.
Abstract

ABSTRACT

Data Warehousing has been the center of architecture for information systems since
the 1990s and today plays a fundamental role within companies for decision making.

It supports computer processing by providing a solid platform, based on historical


data for analysis. It facilitates the integration of non-integrated application systems.
Organizes and stores the data needed for analytical and computer processing over
a broad time perspective.

The present work aims to design the architecture of a Data Warehouse as support
for decision making in the services of Internet access and webmail of Etecsa. The
system includes location components of data sources, extraction, cleaning,
assembly and summarization.

A Data Warehouse implementation methodology is presented, covering aspects


such as architecture definition, information needs, objective area analysis, study of
data sources, design of transformations, physical database, end user access and
tools selection for project´s development.

Key words: Data Warehouse, Internet Access Services, Decision Making.


Índices.

ÍNDICE DE CONTENIDO
Introducción. .............................................................................................................................................. 1
Capítulo 1. Los sistemas Data Warehousing para el análisis de la información
en las empresas de telecomunicaciones. ..................................................................................... 9
1.1. Introducción. ............................................................................................................................... 9
1.2. Análisis de información en los servicios de Internet. .................................................. 9
1.3. Los sistemas Data Warehousing para el análisis de información........................ 12
1.3.1. Arquitectura Data Warehousing .............................................................................. 12
1.3.2. Metodologías para el diseño Data Warehousing ............................................... 24
1.3.3. Herramientas .................................................................................................................. 28
1.4. Estado actual del análisis de información en los servicios de internet y correo
electrónico de Etecsa. ........................................................................................................................ 36
1.5. Conclusiones parciales ......................................................................................................... 39
Capítulo 2. Diseño del Data Warehouse. ................................................................................... 40
2.1. Introducción. ............................................................................................................................ 40
2.2. Aplicación de la metodología. ............................................................................................ 40
2.2.1. Análisis de la empresa ................................................................................................. 40
2.2.2. Paso 1: Análisis de Requerimientos. ...................................................................... 43
2.2.3. Paso 2: Análisis de los OLTP. ..................................................................................... 45
2.2.4. Paso 3: Modelo lógico del DW. .................................................................................. 55
2.2.5. Paso 4: Procesos ETL.................................................................................................... 57
2.3. Conclusiones del capítulo. ................................................................................................... 60
Capítulo 3. Propuesta de implementación de la arquitectura. ..................................... 61
3.1. Introducción. ............................................................................................................................ 61
3.2. Propuesta de Arquitectura. ................................................................................................ 61
3.2.1. Herramientas y procesos ETL................................................................................... 62
3.2.2. Cubo de datos. ................................................................................................................. 64
3.2.3. Creación de los reportes. ............................................................................................ 65
3.2.4. Integración con el Sistema de Información para Ejecutivos. ........................ 66
3.3. Estudio de la factibilidad de la arquitectura propuesta. ......................................... 67
3.4. Conclusiones Parciales ......................................................................................................... 72
Índices.

Conclusiones Generales ..................................................................................................................... 73


Recomendaciones ................................................................................................................................. 74
Referencias Bibliográficas.................................................................................................................... I
Anexos ........................................................................................................................................................ VII
Índices.

ÍNDICES DE FIGURAS
Figura 1: Estructura del Data Warehouse. ................................................................................... 15
Figura 2: Arquitectura del Data Warehousing............................................................................. 16
Figura 3: Organigrama de la empresa. ....................................................................................... 42
Figura 4: Modelo Conceptual resultante. .................................................................................... 45
Figura 5: Fragmento del diagrama entidad-relación de la Base de datos GesNauta. ........ 46
Figura 6: Asociaciones de la perspectiva tipo de unidad organizativa con el diagrama ER.
........................................................................................................................................................... 48
Figura 7: Asociaciones de las perspectivas Tipo de Canales de Venta y Tipo de Contratos
con el diagrama ER. ....................................................................................................................... 48
Figura 8: Asociaciones de la perspectiva Tipo de Operación con el diagrama ER. ............. 49
Figura 9: Asociaciones de la perspectiva Tipo de Oferta con el diagrama ER...................... 49
Figura 10: Asociaciones de la perspectiva Fecha con el diagrama ER. ................................. 50
Figura 11: Asociaciones de la perspectiva Tipo de Producto con el diagrama ER. .............. 50
Figura 12: Asociaciones de los indicadores Ingresos, Gastos y Tiempo de respuesta con el
diagrama ER. ................................................................................................................................... 51
Tabla 1: Campos que formarán cada dimensión. ..................................................................... 52
Figura 13: Jerarquía de Unidad Organizativa. ............................................................................ 52
Figura 14: Jerarquía de Canal de Venta. .................................................................................... 53
Figura 15: Jerarquía de Productos. ............................................................................................... 53
Figura 16: Jerarquía de Operaciones........................................................................................... 54
Figura 17: Jerarquía de Fechas. .................................................................................................... 54
Figura 18: Modelo conceptual Ampliado. .................................................................................. 55
Figura 19: Diseño de las tablas de dimensiones. ........................................................................ 56
Figura 20: Diseño de la tabla de hechos. .................................................................................... 57
Figura 21: Diseño de las uniones entre tablas. ............................................................................ 57
Figura 22: Código SQL para el poblado de la dimensión Tbl_Oferta. ..................................... 58
Figura 23: Código SQL para el poblado de la dimensión Tbl_Unidad_Organizativa. ........... 58
Figura 24: Código SQL para el poblado de la dimensión Tbl_Operacion. ............................. 58
Figura 25: Código SQL para el poblado de la dimensión Tbl_Producto. ................................ 59
Figura 26: Código SQL para el poblado de la dimensión Tbl_Contrato. ................................. 59
Figura 27: Código SQL para el poblado de la dimensión Tbl_Canal_Venta. ......................... 59
Figura 28: Código SQL para el poblado de la dimensión Tbl_Canal_Venta .......................... 60
Figura 29: Arquitectura Data Warehousing para los servicios de acceso a internet y correo
electrónico de Etecsa. ................................................................................................................... 61
Índices.

Figura 30: Diseño de Proceso ETL para carga y actualización del Data Warehouse ............ 62
Figura 31: Pantalla de Task Scheduler de Windows Server 2008. .............................................. 63
Figura 32: Pantalla de la herramienta SQL Server Data Tools. .................................................. 64
Figura 33: Diseño del Data Warehouse. ....................................................................................... 65
Figura 34: Ejemplos de reportes con la herramienta InforPM.................................................... 65
Figura 35: Ejemplos de tablas y gráficos con InforPM. ............................................................... 66
Figura 36: Fragmento de la pantalla principal del Portal Ejecutivo. ........................................ 66
Figura 37: Pantalla de reportes de InforPM cargados en el Portal Ejecutivo. ......................... 67
Índices.

Índice de Tablas
Tabla 1: Campos que formarán cada dimensión. ..................................................................... 52
Tabla 2: Selección de especialistas atendiendo a la experiencia en el trabajo con
almacenes de datos. ..................................................................................................................... 68
Tabla 3: Selección de especialistas atendiendo a la función que desempeña. .................. 68
Tabla 4: Selección de especialistas atendiendo a la superación realizada. ......................... 69
Tabla 5: Indicadores y Métricas de la encuesta. ........................................................................ 69
Tabla 6: Resultados Generales Obtenidos. .................................................................................. 70
Introducción

Introducción.
Los avances de las Tecnologías de la Información y las Comunicaciones (TIC) han
revolucionado el modo de vivir de los seres humanos. Estos se encuentran fuertemente
relacionados con los grandes adelantos que se conciben en forma de instrumentos y se insertan
en la sociedad, originando un mayor nivel y calidad de vida. Como consecuencia a dicho
desarrollo, empresas, organizaciones y gobiernos prestan un gran interés a este tema,
centrando sus objetivos en explotar las facilidades que ofrece para su desempeño y
convirtiéndolo en un elemento estratégico en términos de competitividad (Rovira, Santoleri, &
Stumpo, 2013).

La dimensión social de las TIC se vislumbra atendiendo a la fuerza que tienen en los diferentes
ámbitos y a las nuevas estructuras sociales que están emergiendo, lo que produce una
interacción constante entre la tecnología y la sociedad (Monteagudo Peña, 2004). Según
Cabero1 las TIC giran en torno a tres medios básicos: la informática, la microelectrónica y las
telecomunicaciones; de forma interactiva e integradas entre sí, lo que permite conseguir nuevas
realidades comunicativas (Almenara, 2000).

La evolución de las TIC ha facilitado la integración y el desarrollo de los servicios de


comunicaciones en todas las áreas de la vida, situación que ha favorecido a gran escala la
demanda a un acceso permanente e inmediato de los servicios relacionados con las
telecomunicaciones. El surgimiento de internet y el comercio electrónico, el despliegue de las
grandes redes empresariales, las conexiones inalámbricas y las redes de nueva generación son
alguno de los logros alcanzados, que en la actualidad inciden directamente en el desarrollo de
la sociedad.

Los avances en las telecomunicaciones han permitido un crecimiento importante en el mercado


de contenidos y aplicaciones, lo que ha modificado de manera significativa las dinámicas de los
mercados y de las empresas en todos los sectores productivos. Según el estudio presentado

1
Julio Cabero Almenara es catedrático de Didáctica y Organización Escolar en la Universidad de Sevilla. Es director del
Secretariado de Recursos Audiovisuales y Nuevas Tecnologías. Ha recibido el Premio de la Real Maestranza de Caballería. Ha
publicado diferentes obras sobre la temática de tecnología educativa y las nuevas tecnologías aplicadas a la educación. Es
director de la revista “Pixel-Bit. Revista de medios y educación”.

1
Introducción

en el prestigioso portal Statista, en enero del 2016 la tasa de penetración de Internet a nivel
mundial era del 46% para 3.42 billones de usuarios, con un crecimiento del 35% en relación al
año 2013 mientras que la tasa de penetración de las redes sociales a nivel mundial es de 31%
para 2.31 billones de usuarios, con un crecimiento de 10% en relación al año 2015 (Statista,
2016).

La complejidad creciente de los escenarios planteados por la globalización, la competencia, los


avances tecnológicos, los problemas ambientales y sociales, entre otros, requieren de
herramientas especializadas que ayuden a la toma de decisiones ante el creciente volumen de
información útil que manejan las empresas de telecomunicaciones, provenientes de múltiples
fuentes, según la variedad de servicios que brindan. Estudios plantean que estos volúmenes de
datos pudieran ascender a los 35,2 Zettabytes2 para el año 2020, siguiendo un proceso de
crecimiento impulsado fundamentalmente, por las aplicaciones empresariales tradicionales,
datos y aplicaciones móviles, motores de búsqueda y las redes sociales (World, 2013).

Estos datos operacionales incluyen tráfico, estadísticas de utilización y fallas en varios niveles
de detalle, que regularmente esconden conocimiento crucial para algunas tareas involucradas
en la administración de una red de telecomunicaciones.

Según Gary M. Weiss3, en su trabajo “Minería de datos en las Telecomunicaciones”, se define


tráfico de red como la cantidad de datos que fluye a través de la red. Los datos de las llamadas,
describen características de éstas, los datos de la red, describen el estado de los componentes
de software y hardware, y los del cliente describen el tipo de servicio que se les brinda (Weiss,
2005).

La generación de tráfico en las telecomunicaciones se debe fundamentalmente a tres fuentes


de datos: los dispositivos de la red de telecomunicaciones, el número de usuarios a los que se
le brinda un servicio y la variedad de servicios que proporciona. Los servicios más comunes son
los de voz y transferencia de datos. Dentro de los servicios de voz se incluyen los servicios de

2
Un Zettabytes es igual a 1 trillón de Gigabytes
3
Gary M. Weiss es profesor asociado de Informática y Ciencias de la Información en la Universidad de Fordham. Trabajó en
los Laboratorios Bell y luego en AT & T Labs. El Dr. Weiss comenzó su carrera en AT & T como ingeniero de software. Pasó
sus últimos 5 años en AT & T en un grupo de análisis de marketing, utilizando métodos de minería de datos para resolver
problemas complejos de negocios.

2
Introducción

telefonía móvil y fija, refiriéndose el primero a las comunicaciones de voz sobre la red
inalámbrica y la fija a las líneas y equipos que se encargan de la comunicación entre terminales
telefónicas, generalmente enlazadas entre ellas o con la central, por medio de conductores
metálicos (Amador, 2015).

El servicio de transferencia de datos consiste en la generación de paquetes de información que


se reenvían por la red, independientemente del medio de propagación o red utilizada. Este
servicio permite, entre otras aplicaciones, la comunicación entre terminales y el acceso a
internet (Galán et al., 2003).

Internet es una red integrada por miles de redes y computadoras interconectadas en todo el
mundo mediante cables y señales de telecomunicaciones, que utiliza como protocolo de
comunicación TCP/IP (Transmission Control Protocol/Internet Protocol). Su popularidad se ha
incrementado en los últimos años debido a su capacidad de almacenar, en un mismo lugar,
información de todo tipo para diferentes usuarios. Dentro de sus utilidades más comunes se
encuentran la búsqueda de información, intercambios de correos electrónicos, realización de
transacciones comerciales y mensajerías instantáneas (Wallace, 2015).

Uno de los rasgos que caracterizan los servicios de acceso a internet que brindan las empresas
de telecomunicaciones, es la cantidad de información que genera y almacena, referente a las
trazas de tráfico. Constituye una necesidad para todas las empresas de telecomunicaciones
hacer un uso eficiente de la información que estas proveen, por lo que es preciso la utilización
de algún tipo de análisis automatizado para obtener algún rendimiento. Como consecuencia las
empresas, como estrategia, combinan y reinventan los procesos analíticos y de servicios,
haciendo uso de la Inteligencia de Negocio (BI, Business Intelligence) (Weiss, 2005).

BI es un conjunto de metodologías, aplicaciones, prácticas y capacidades enfocadas al


tratamiento de los datos, la información y al conocimiento, con el fin de mejorar los procesos de
cualquier organización frente a las exigencias del mercado (Aronson, Liang, & Turban, 2005).
Se define como la transformación de los datos en conocimiento, con el objetivo de obtener
ventaja competitiva a través de la gestión del conocimiento y de apoyar la toma de decisiones
en el área estratégica y táctica de una organización (Erl, Khattak, & Buhler, 2016).

3
Introducción

Uno de los conceptos más acertados para la definición de BI es el descrito por Thomas H.
Davenport, el cual hace mención al término como: “Conjunto de Tecnologías y Procesos que
utilizan datos para entender y analizar el desempeño del negocio” (Davenport & Harris, 2007).

BI permite a las empresas planear opciones para reducir los ciclos de desarrollo de productos,
agilizar operaciones y evaluar la factibilidad para la mejora de sus ingresos. Igualmente facilita
un análisis de tendencias que representen oportunidades nuevas, además de anticipar
problemas potenciales, con el objetivo de realizar ajustes correspondientes antes de que se
conviertan en un asunto difícil de solucionar (Chen, Chiang, & Storey, 2012).

La toma de decisiones es el proceso de identificar un problema y la selección de una alternativa


de acción entre varias existentes, es una actividad diligente, clave en todo tipo de organización
(Röpke, 2003). Los sistemas de soporte para la toma de decisiones (DSS, Decission System
Support), son parte del proceso de BI, apoyan la toma de decisiones mediante la generación de
información confiable y actualizada desde diferentes fuentes de datos, todo esto utilizando
modelos y herramientas computacionales. Facilita una adecuada gestión, control y manejo de
la información y permite comprender el comportamiento del negocio, brindando una nueva
visión de la empresa (Power, Sharda, & Burstein, 2015).

Para apoyar este procedimiento y lograr el aprovechamiento de los datos históricos también es
utilizado el proceso de KDD (Knowledge Discovery in Database), encargado de la recolección,
procesamiento y almacenamiento de los datos. Este consta de una secuencia iterativa de
etapas, que son: selección de datos, limpieza de datos, transformación de datos, reducción de
datos, minería de datos, evaluación de los patrones e interpretación de resultados (Freitas,
2013).

Las empresas de telecomunicaciones en gran medida también forman parte de los clientes que
recurren a las herramientas de BI. Un complicado y exigente sector como es el de las
telecomunicaciones supone siempre nuevos retos a la hora de analizar grandes volúmenes de
información y tomas de decisiones oportunas, de manera que puedan conducir el negocio hacia
sus objetivos estratégicos.

Son muchas las herramientas que ofrecen un procesamiento de BI que presentan

4
Introducción

funcionalidades consolidadas para la extracción, transformación y análisis de la información,


incorporando innovaciones cada año, con el objetivo de satisfacer los requerimientos del cliente
(Soto, 2011).

Cuba se encuentra inmersa en un proceso de informatización de la sociedad4, donde se plantea


que uno de sus ejes estratégicos es: “Ampliar las capacidades y el uso de internet por la
población; impulsar la incorporación de las TIC en los servicios a la población y en los sectores
productivos del país”. Son muchas las empresas cubanas que se encuentran trabajando en este
proceso, con el objetivo de lograr resultados que impacten de forma de decisiva en el desarrollo
de la sociedad cubana (MICOM, 2015).

La Empresa de Telecomunicaciones de Cuba, S.A. (Etecsa), es una organización cubana de


capital mixto creada en 1994, la cual tiene como objeto social la prestación de los servicios
públicos de telecomunicaciones, mediante la proyección, operación, instalación, explotación,
comercialización y mantenimiento de redes públicas de telecomunicaciones en todo el territorio
de la República de Cuba. Como misión empresarial se plantea lograr una gestión efectiva que
permita brindar servicios de telecomunicaciones que satisfagan las necesidades de los usuarios
y la población, así como respaldar los requerimientos de la defensa y del desarrollo socio-
económico del país con los resultados económicos que de la empresa se demandan (Etecsa,
2016).

En la última década, el escenario de las telecomunicaciones en Cuba ha sido complejo,


matizado por el incremento de los abonados móviles, la migración hacia NGN y GPRS, la
implementación de servicios de comercio electrónico y un mayor acceso a la red mundial de
redes, Internet. En el año 2014, Etecsa amplía el servicio de internet y correo electrónico a la
población cubana a través de Nauta, sistema con el cual los clientes interactúan para la
navegación nacional e internacional, y acceden a éste a través de las salas de navegación y los
puntos de Wifi (Wireless Fidelity). Para gestionar esta plataforma se implementa el sistema
GesNauta, encargado de todo lo referente a operaciones comerciales, incluyendo la gestión de
cuentas de acceso a internet y correo electrónico, las recargas y las ventas de tarjetas.

4
Proceso de utilización ordenada y masiva de las Tecnologías de la Información y las Comunicaciones en la vida cotidiana,
para satisfacer las necesidades de todas las esferas de la sociedad, en un esfuerzo por lograr cada vez más eficacia y eficiencia
en todos los procesos y por consiguiente mayor generación de riqueza y aumento en la calidad de vida de los ciudadanos.

5
Introducción

Este sistema genera un excesivo volumen de datos, que resulta imprescindible estructurar y
categorizar para alcanzar la compresión del negocio. Para realizar análisis, la Dirección Central
de Comercial y Mercadotecnia, perteneciente a Etecsa, exporta toda la información a formato
Excel a partir de los reportes que brinda GesNauta o solicitan a los desarrolladores del sistema
información que se obtiene por consultas realizadas directamente a la base de datos. Como
consecuencia, los tiempos de respuesta son más lentos, presentan insuficiencias en los
informes por no ser dinámicos, flexibles e interactivos, lo que atenta además, contra el
rendimiento del sistema y de la base de datos por las operaciones que se están llevando a cabo.
El análisis de esta información y la medición de los resultados que aporta, se convierte entonces
en un proceso complejo y la empresa requiere de mecanismos que permitan lograr una
planificación efectiva y evaluar el cumplimiento de los objetivos y las metas (Departamento,
2012).

En consecuencia con todo lo analizado se plantea como problema de la investigación: las


insuficiencias en el análisis de la información en los servicios de acceso a internet y correo
electrónico, limitan la toma de decisiones a los ejecutivos de Etecsa.

El problema descrito genera como objeto de estudio de esta investigación: análisis de la


información de los servicios de acceso a internet y correo electrónico en las empresas de
telecomunicaciones.

Para darle solución al problema antes mencionado se plantea como objetivo general de esta
memoria escrita: diseñar la arquitectura Data Warehousing para apoyar la toma de decisiones
en los servicios de acceso a internet y correo electrónico en Etecsa, que permita aportar
información integrada, oportuna y veraz a los diferentes niveles estratégicos de esta
organización.

Se establece como campo de acción: los sistemas Data Warehousing para el análisis de la
información de los servicios de acceso a internet y correo electrónico en las empresas de
telecomunicaciones.

Como idea a defender se afirma que: el diseño de una arquitectura Data Warehousing para el
análisis de la información de los servicios de acceso a internet y correo electrónico en Etecsa,

6
Introducción

favorece el acceso a conocimiento útil y relevante lo que beneficiará la correcta toma de


decisiones por parte de los directivos y comerciales de la empresa.

Para darle cumplimiento al objetivo antes expuesto se definen las siguientes tareas científicas:

1. Caracterización del proceso de análisis de la información de los servicios de acceso a


internet y correo electrónico en las empresas de telecomunicaciones.
2. Determinación de los referentes teóricos acerca las tecnologías para el desarrollo del
proceso de Data Warehousing.
3. Diagnóstico del estado actual del procesamiento y análisis de la información en los
servicios de acceso a internet y correo electrónico en Etecsa.
4. Diseño de la arquitectura Data Warehousing para el apoyo a la toma de decisiones en
los servicios de acceso a internet y correo electrónico en Etecsa.
5. Evaluación de la factibilidad de la arquitectura Data Warehousing para el apoyo a la toma
de decisiones en los servicios de acceso a internet y correo electrónico en Etecsa
mediante el criterio de especialistas.

Para el desarrollo de esta investigación se utilizaron los siguientes métodos de trabajo


científico:

Método revisión-sistemática: su objetivo fundamental consiste en sintetizar los resultados de


múltiples investigaciones primarias para dar respuesta a los objetivos de investigación (Urra
Medina & Barría Pailaquilén, 2010). Para la localización de los documentos bibliográficos se
utilizaron varias fuentes documentales. Se realizó una búsqueda bibliográfica en Google
Académico, donde se seleccionaron los estudios más relevantes relacionados con el objetivo
de investigación, garantizando que la información utilizada para el estudio provenga
básicamente de artículos científicos, tesis y libros.

Método lógico: se emplea para entender la esencia de cada una de las partes que componen
la estrategia didáctica y posteriormente, con el uso de la síntesis, establecer los nexos entre
ellas, descubrir relaciones esenciales para llegar a los fundamentos teóricos y a las
conclusiones de la solución propuesta.

Método empírico-analítico: se utiliza con el objetivo de evaluar y obtener información acerca de

7
Introducción

la solución, mediante criterios de especialistas. Esto permitirá la validación de todos los


requisitos, para hacerlo tan útil como sea posible y así aumentar la calidad del producto y la
satisfacción del cliente.

Como aporte inicial, se contará con el diseño de una arquitectura Data Warehousing detallada
y estructurada de forma tal que agilizará el proceso de su implementación, además de contar
con un procedimiento que pueda aplicarse a tareas similares en otras áreas de la empresa.
Asimismo se espera que, una vez implementada, permita analizar los datos integrados,
observar comportamientos históricos y tendencias en las operaciones que se realizan,
representando así, uno de los tantos factores críticos para la determinación del éxito o el
fracaso. Lo hasta aquí esbozado permitiría obtener resultados en cuanto a la relación que existe
entre la información y de cómo podría repercutir en el servicio de acceso a internet y correo
electrónico que brinda Etecsa y se convertiría en una vía de apoyo a la toma de decisiones.

La memoria escrita está estructurada en introducción, 3 capítulos, conclusiones,


recomendaciones, bibliografía y anexos.

El capítulo 1 comprende la caracterización del proceso de análisis de la información de los


servicios de acceso a internet y correo electrónico en las empresas de telecomunicaciones, la
caracterización del estado del arte de las tecnologías para el desarrollo del proceso de data
Warehousing y el diagnóstico del estado actual del procesamiento y análisis de la información
en los servicios de acceso a internet y correo electrónico en Etecsa.

El capítulo 2 abarca el diseño de la arquitectura Data Warehousing para el apoyo a la toma de


decisiones en los servicios de acceso a internet y correo electrónico en Etecsa.

El capítulo 3 detalla la propuesta de implementación basada en el diseño de la arquitectura Data


Warehousing y la validación de la factibilidad de la misma, según el criterio de especialistas.

8
Capítulo 1

Capítulo 1. Los sistemas Data Warehousing para el análisis de la


información en las empresas de telecomunicaciones.
1.1. Introducción.

En este capítulo se desarrolla la caracterización del proceso de análisis de la información de los


servicios de acceso a internet y correo electrónico en las empresas de telecomunicaciones.
Posteriormente se realiza la caracterización del estado del arte de las tecnologías para el
desarrollo del proceso de Data Warehousing y finalmente se hace el diagnóstico del estado
actual del procesamiento y análisis de la información en los servicios de acceso a internet y
correo electrónico en Etecsa.

1.2. Análisis de información en los servicios de Internet.

En los últimos años se ha incrementado de forma alarmante el uso de Internet, teléfonos


móviles, redes de datos y los sistemas que hacen converger varias de estas tecnologías en un
único sistema (Martins, Oliveira, & Popovič, 2014).

Internet es una enorme red de comunicaciones de ámbito mundial que permite la interconexión
de sistemas informáticos, independientemente de su tipo y situación. Se puede definir además
como una ‘red de redes’, es decir, una red que no sólo interconecta computadoras, sino que
interconecta redes de computadoras entre sí y permite ampliar su cobertura al hacerlas parte
de una ‘red global’ que utiliza un lenguaje común o protocolo para garantizar la
intercomunicación de los diferentes participantes: TCP/IP (Trejo, 2006).

El 24 de octubre de 1995, el Consejo Federal de la Red (Federal Networking Council) aceptó


unánimemente una resolución definiendo el término de Internet. La definición fue elaborada por
personas de las áreas de Internet y derechos de propiedad intelectual. Internet hace referencia
a un sistema global de información que está relacionado lógicamente por un único espacio de
direcciones global basado en el protocolo de Internet (IP) o en sus extensiones, que emplea,
provee, o hace accesible, privada o públicamente, servicios de alto nivel en capas de
comunicaciones y otras infraestructuras (Council, 1995).

9
Capítulo 1

El más reciente informe de enero de 2017, de WeAreSocial5, refiere que más de la mitad de la
población mundial utiliza Internet, sobrepasando los 3.750 millones de personas online para un
incremento de 10% con respecto a 2016; y 50% del tráfico web ya procede de dispositivos
móviles, con un crecimiento de 30 % respecto al año anterior (Anexo 1) (Kemp, 2017).

Las posibilidades que ofrece Internet se denominan servicios. Cada servicio es una manera de
obtener provecho a la red independiente de las demás. Según Sánchez Costeira, los servicios
más usados en Internet son: Correo Electrónico, World Wide Web, FTP, Grupos de Noticias,
IRC y Servicios de Telefonía (Costeira, 2013).

El correo electrónico permite enviar cartas escritas con el ordenador de forma casi instantánea
y casi sin costo. Se puede tener contacto con cualquier persona del mundo que disponga de
conexión a Internet. Este mecanismo es muy utilizado en el área laboral, pues su uso trae
consigo un considerable ahorro de llamadas; asimismo, tiene un gran potencial en el
intercambio de información, ya que reduce de modo importante el tiempo de transferencia
(Brownlow, 2009).

La World Wide Web, o WWW como se suele abreviar, se inventó a finales de los 80. Se trata
de un sistema de distribución de información tipo revista. En la red quedan almacenadas las
páginas web, que no son más que páginas de texto con gráficos o fotos. Este sistema de
visualización de la información revolucionó el desarrollo de Internet, y en ellas se puede tener
acceso a información de todo tipo. Entre las principales tipos de páginas resaltan: los foros de
discusión, las redes sociales, los blog y las bibliotecas digitales (Choo, Detlor, & Turnbull, 2013).

El FTP (File Transfer Protocol) permite enviar datos por Internet, para usarla en otro ordenador.
Con este servicio, muchas empresas informáticas han podido enviar sus productos a personas
de todo el mundo sin necesidad de gastar dinero en envíos (PROTOCOL, 2017). Muchas
empresas hacen uso de este servicio para, dar a conocer sus creaciones informáticas a nivel
mundial (Postel & Reynolds, 1985).

5
WeAreSocial es una agencia fundada en 2008, enfocada en el marketing social que combina los medios sociales digitales con
habilidades de relaciones públicas y marketing tradicional. Cuenta con un equipo compuesto por más de 550 personas en 11
países. Entre sus estudios resalta el análisis anual de la penetración de internet a nivel mundial y por países, por el cual han
recibido numerosos reconocimientos

10
Capítulo 1

El servicio IRC (Internet Relay Chat) permite entablar una conversación en tiempo real con una
o varias personas por medio de texto. Este es un medio de entretenimiento como de actividades
laborales. (Décary-Hétu, Dupont, & Fortin, 2014)

Los servicios de telefonía son las últimas aplicaciones que han aparecido para Internet. Nos
permiten establecer una conexión con voz entre dos personas conectadas a Internet desde
cualquier parte del mundo sin tener que pagar el coste de una llamada internacional. Algunos
de estos servicios incorporan no sólo voz, sino también imagen. A esto se le llama
Videoconferencia (Lee, Moon, Kim, & Mun, 2015).

Todos estos servicios generan un volumen considerable de tráfico a través de la red y de trazas
que se registran, que pueden ascender miles de millones por día en una sola localidad y cuyo
procesamiento produce información de alto valor. Estos datos siguen un formato estándar y se
almacenan en archivos de texto, donde cada acceso es un renglón distinto. Entre los datos que
registran se encuentran: Dirección IP del usuario, Fecha y hora de acceso, URL de la página
accedida, Protocolo utilizado para la transmisión de los datos, Código de error y Número de
bytes transmitidos. (Reyes, Sady, & Ruiz Lobaina, 2007)

Entre las principales estadísticas que se pueden extraer se encuentran:

 Accesos separados por dominios/países, servidores y números IP; accesos por mes/día,
días de la semana y por horas.
 Información sobre la duración de las visitas, páginas consultadas, volúmenes de subida y
bajada, velocidades de conexión, cantidad de descargas, tipos de archivos más usados;
sistemas operativos y navegadores utilizados.
 Descripción de los errores más frecuentes, las páginas no encontradas, las páginas más
vistas.

Existen otros datos de interés que se generan a partir de la gestión comercial de los servicios
de internet, los cuales aportan conocimiento útil a las empresas de telecomunicaciones entre
los que cabe mencionar:

 La cantidad y distribución regional de operaciones comerciales realizadas sobre productos


y servicios de internet.

11
Capítulo 1

 Los productos o servicios más solicitados según distintas clasificaciones.


 Las fechas u horarios de mayor demanda los servicios.
 La eficiencia o la calidad de los servicios prestados a partir del análisis de los tiempos de
respuesta de los servicios o las fallas de los sistemas operacionales que los soportan.

El procesamiento y análisis de todo el conjunto de datos antes mencionados es de vital


importancia para que las empresas de telecomunicaciones puedan obtener estadísticas que se
emplean para entender mejor las capacidades de sus redes y la mejor forma de operar con
ellas, a la vez que le permiten tomar decisiones acertadas que pueden influir en el desempeño
final de la empresa y la aceptación de sus clientes.

1.3. Los sistemas Data Warehousing para el análisis de información.

En este acápite, se sistematizarán los conceptos inherentes al Data Warehousing, en un marco


conceptual en el que se desplegarán sus características y cualidades, componentes,
interrelación entre los mismos, así como sus ventajas y desventajas, a fin de comprender mejor
el complejo ambiente del Data Warehousing.

1.3.1. Arquitectura Data Warehousing

El Data Warehousing (DWH), es el encargado de extraer, transformar, consolidar, integrar y


centralizar los datos que una organización genera en todos los ámbitos de su actividad diaria
(compras, ventas, producción, etc.) y/o información externa relacionada. Permitiendo de esta
manera el acceso y exploración de la información requerida, a través de una amplia gama de
posibilidades de análisis multi-variables, con el objetivo final de dar soporte al proceso de toma
de decisiones estratégico y táctico (Jarke, Lenzerini, Vassiliou, & Vassiliadis, 2013).

El Data Warehousing hace referencia a un conjunto de herramientas para consultar, analizar y


presentar información, que permiten obtener o realizar análisis, reportes, extracción y
explotación de los datos, con alto performance, para transformar dichos datos en información
valiosa para la organización. Posibilita la extracción de datos de sistemas operacionales y
fuentes externas, permite la integración y homogeneización de los datos de toda la empresa,
provee información que ha sido transformada y sumarizada, para que ayude en el proceso de

12
Capítulo 1

toma de decisiones estratégicas y tácticas (Sathiyamoorthi, 2017).

Para que el Data Warehousing pueda cumplir con sus objetivos, es necesario que la información
sea almacenada de manera centralizada en una base de datos con estructura multidimensional
denominada Data Warehouse (DW). Este almacén de datos maneja grandes volúmenes de
información, debido a que consolidan en su estructura información histórica, proveniente de
diversas fuentes y áreas, de forma centralizada, además presenta la información sumarizada y
agregada desde múltiples versiones.

Una de las definiciones más famosas sobre DW, es la de William Harvey Inmon, reconocido
mundialmente como el padre del DW, quien define: “Un Data Warehouse es una colección de
datos orientada al negocio, integrada, variante en el tiempo y no volátil para el soporte del
proceso de toma de decisiones de la gerencia”. (Inmon, 2005)

Una de sus cualidades es que organiza y almacena los datos para realizar consultas y procesos
analíticos, con el propósito de responder a preguntas complejas y brindar a los usuarios la
posibilidad de que puedan tomar decisiones sobre los datos sin poseer conocimientos
informáticos

Con respecto a las tecnologías que son empleadas en este proceso, se pueden mencionar:
arquitectura cliente/servidor, técnicas avanzadas para replicar, refrescar y actualizar datos,
software para acceso y análisis de datos, herramientas para realizar ETL desde múltiples
fuentes y sistemas de gestión de base de datos (SGBD) (Kimball & Ross, 2015).

Características

Orientada al negocio: La información se clasifica en base a los aspectos que son de interés
para la organización, lo que proporciona una alta accesibilidad a los datos, lo que implica un
elevado desempeño y velocidad en la ejecución de consultas.

Integrada: La integración de datos implica que todos los datos de diversas fuentes, tanto
internos como externos, deben ser consolidados en una instancia antes de ser agregados al
DW, y deben por tanto ser analizados para asegurar su calidad y limpieza, resolviendo
diferentes problemas relacionados con las convenciones de nombres, unidades de medidas,

13
Capítulo 1

codificaciones, fuentes múltiples, etc.

Variante en el tiempo: los datos son almacenados junto a sus respectivos históricos
garantizando el desarrollo de análisis de la dinámica de la información, pues ella es procesada
como una serie de instantáneas, cada una representando un período de tiempo, es decir, se
podrá tener acceso a diferentes versiones de la misma información.

No volátil: Los datos una vez que entran en el DW no cambian. En el depósito de datos solo
existen dos tipos de operaciones: la carga de datos y el acceso a los mismos. Por esta razón
es que en el DW no se requieren mecanismos de control de concurrencia y recuperación.

Entre sus principales ventajas se puede mencionar:

 Transforma datos orientados a las aplicaciones en información orientada a la toma de


decisiones.
 Integra y consolida diferentes fuentes de datos (internas y/o externas) y departamentos
empresariales, en una única plataforma sólida y centralizada.
 Provee la capacidad de analizar y explotar las diferentes áreas de trabajo y de realizar un
análisis inmediato de las mismas.
 Permite reaccionar rápidamente a los cambios del mercado.
 Elimina la producción y el procesamiento de datos que no son utilizados ni necesarios.
 Mejora la entrega de información completa, correcta, consistente, oportuna y accesible en
el momento adecuado y en el formato apropiado.
 Los usuarios pueden acceder directamente a la información en línea, lo que contribuye a la
efectividad en las tareas rutinarias. Además, pueden tener a su disposición una cantidad
valiosa de información multidimensional, presentada coherentemente como fuente única,
confiable y disponible en sus estaciones de trabajo.
 Permite la toma de decisiones estratégicas y tácticas.

Como desventajas hay que resaltar que requiere una gran inversión, debido a que su correcta
construcción consume muchos recursos y además implica la adquisición de herramientas de
consulta / análisis, y la capacitación de los usuarios. Por otra parte los beneficios del almacén
de datos son apreciados en el mediano y largo plazo. El incremento continuo de los

14
Capítulo 1

requerimientos de los usuarios pudiera ser otra de las problemáticas detectadas dada la
complejidad de su implementación (Chan, 2015).

Estructura
Los Data Warehouse estructuran los datos de manera muy particular y existen diferentes niveles
de esquematización y detalle que los delimitan como se muestra a continuación (Kimball &
Ross, 2015).

Figura 1: Estructura del Data Warehouse.

Estos diferentes niveles de detalle o granularidad, se obtienen a través de tablas de hechos


agregadas y/o pre-agregadas.

Flujo de Datos

El DW posee un flujo de datos estándar, cuando la información ingresa al depósito de datos se


almacena a nivel de Detalle de datos actuales. Los datos permanecerán allí hasta que ocurra
alguno de los tres eventos siguientes:

 Sean borrados del depósito de datos.


 Sean resumidos, ya sea a nivel de Datos ligeramente resumidos o a nivel de Datos altamente
resumidos.
 Sean archivados a nivel de Detalle de datos históricos.

15
Capítulo 1

Arquitectura del Data Warehouse

A través del siguiente gráfico se explicita la estructura del Data Warehousing:

Figura 2: Arquitectura del Data Warehousing.

Como se puede apreciar, el ambiente está formado por diversos elementos que interactúan
entre sí y que cumplen una función específica dentro del sistema. A continuación se detallará
cada uno de los componentes de la arquitectura del Data Warehousing, teniendo como
referencia el gráfico antes expuesto.

OLTP

OLTP (On Line Transaction Processing), representa toda aquella información transaccional que
genera la empresa en su accionar diario, además, de las fuentes externas con las que puede
llegar a disponer. Son de características muy disímiles entre sí, en formato, procedencia,
función, etc. Entre los OLTP más habituales que pueden existir en cualquier organización se
encuentran: archivos de textos, hipertextos, hojas de cálculos, informes y bases de datos
transaccionales (Erl et al., 2016).

Load Manager

La Integración de Datos agrupa una serie de técnicas y subprocesos que se encargan de llevar
a cabo todas las tareas relacionadas con la extracción, manipulación, control, integración,
depuración de datos, carga y actualización del DW (Sagiroglu & Sinanc, 2013).

Si bien los procesos ETL (Extracción, Transformación y Carga) son solo una de las muchas
técnicas de la Integración de Datos, el resto de estas técnicas puede agruparse muy bien en

16
Capítulo 1

sus diferentes etapas.

Extracción

Basándose en las necesidades y requisitos de los usuarios, se exploran las diversas fuentes
OLTP que se tengan a disposición, y se extrae la información que se considere relevante al
caso.

Si los datos operacionales residen en un SGBD Relacional, el proceso de extracción se puede


reducir a consultas en SQL o rutinas programadas. Si se encuentran en un sistema no
convencional o fuentes externas, se tendrá que realizar cambios de formato y/o volcado de
información a partir de alguna herramienta específica.

Una vez que los datos son seleccionados y extraídos, se guardan en un almacenamiento
intermedio, lo cual permite manipular los datos sin interrumpir ni paralizar los OLTP o el DW,
además de almacenar y gestionar los metadatos que se generarán en los procesos ETL y por
tanto facilitar la integración de las diversas fuentes, internas y externas.

El almacenamiento intermedio constituye en la mayoría de los casos, una base de datos en


donde la información puede ser almacenada en tablas auxiliares o temporales. Los datos de
estas tablas serán los que, luego de su correspondiente transformación, poblarán el DW.

Transformación

Esta función es la encargada de convertir aquellos datos inconsistentes en un conjunto de datos


compatibles y congruentes, para que puedan ser cargados en el DW. Estas acciones se llevan
a cabo, debido a que pueden existir diferentes fuentes de información, y es vital conciliar un
formato único, definiendo estándares, para que todos los datos que ingresarán al DW estén
integrados (Kimball & Ross, 2011).

Los casos más comunes en los que se deberá realizar integración, son cuando:

 existan inconsistencias al intentar integrar varias fuentes de datos y más de una forma de
codificar un atributo en común.

17
Capítulo 1

 los tipos de unidades de medidas utilizados para representar los atributos de una entidad,
varíen considerablemente entre sí.
 un mismo atributo es nombrado de diversas maneras en los diferentes OLTP.
 un mismo elemento puede derivarse desde varias fuentes.

Además de lo antes mencionado, esta función se encarga de realizar, entre otros, los procesos
de Limpieza de Datos (Data Cleansing) y Calidad de Datos, cuyo objetivo principal es el de
realizar distintos tipos de acciones contra el mayor número de datos erróneos, inconsistentes e
irrelevantes.

Carga

Esta función se encarga, por un lado de realizar las tareas relacionadas con la carga inicial y la
actualización o mantenimiento periódico, según el intervalo de tiempo predefinido para tal
operación (Kimball & Ross, 2011).

La carga inicial, se refiere precisamente a la primera carga de datos que se le realizará al DW.
Por lo general, esta tarea consume un tiempo bastante considerable, ya que se deben insertar
registros de más de cinco años aproximadamente.

Los mantenimientos periódicos mueven pequeños volúmenes de datos, y su frecuencia está


dada en función del gránulo del DW y los requerimientos de los usuarios. El objetivo de esta
tarea es añadir al depósito aquellos datos nuevos que se fueron generando desde la última
actualización.

Antes de realizar una nueva actualización, es necesario identificar si se han producido cambios
en las fuentes originales de los datos recogidos, a fin de no atentar contra la consistencia del
DW. Para efectuar esta operación, se pueden realizar las siguientes acciones:

 Cotejar las instancias de los OLTP involucrados.


 Utilizar disparadores en los OLTP.
 Recurrir a Marcas de Tiempo (Time Stamp), en los registros de los OLTP.
 Comparar los datos existentes en los dos ambientes (OLTP y DW).
 Hacer uso de técnicas mixtas.

18
Capítulo 1

Si este control consume demasiado tiempo y esfuerzo, o simplemente no puede llevarse a cabo
por algún motivo en particular, existe la posibilidad de cargar el DW desde cero, este proceso
se denomina Carga Total (Full Load).

Ingresarán al DW, para su carga y/o actualización aquellos datos que han sido transformados
y que residen en el almacenamiento intermedio o los de los OLTP que tienen correspondencia
directa con el depósito de datos, siempre realizan su correspondiente análisis para asegurar su
calidad.

Data Warehouse Manager

El DW Manager presenta las siguientes características y funciones:

 Transforma e integra los datos fuentes y del almacenamiento intermedio en un modelo


adecuado para la toma de decisiones.
 Gestiona el depósito de datos y lo organiza en torno a una base de datos multidimensional
 Permite realizar todas las funciones de definición y manipulación del depósito de datos, para
poder soportar todos los procesos de gestión del mismo.
 Es el encargado de ejecutar y definir las políticas de particionamiento, con el fin de conseguir
una mayor eficiencia y performance en las consultas.
 Realiza copias de resguardo incrementales o totales de los datos del DW.
 Gestiona y mantiene metadatos.

Base de datos multidimensional

Las bases de datos multidimensionales, proveen una estructura que permite tener acceso
flexible a los datos, para explorar y analizar sus relaciones, y resultados consiguientes. Estas
se pueden visualizar como un cubo multidimensional, en donde las variables asociadas existen
a lo largo de varios ejes o dimensiones, y la intersección de las mismas representa la medida,
indicador o el hecho que se está evaluando (Anexo 2).

Las bases de datos multidimensionales implican tres variantes posibles de modelamiento:

 Esquema en estrella (Star Scheme).


 Esquema copo de nieve (Snowflake Scheme).

19
Capítulo 1

 Esquema constelación o copo de estrellas (Starflake Scheme).

Estos pueden ser implementados de diversas maneras e independientemente al tipo de


arquitectura, requieren que toda la estructura de datos este desnormalizada, para evitar uniones
complejas para acceder a la información, con el fin de agilizar la ejecución de consultas. Los
diferentes tipos de implementación son los siguientes:

 Relacional – ROLAP.
 Multidimensional – MOLAP.
 Híbrido – HOLAP.

Tablas de Dimensiones

Las tablas de dimensiones definen cómo están los datos organizados lógicamente y proveen el
medio para analizar el contexto del negocio. Representan los ejes del cubo, y los aspectos de
interés, mediante los cuales el usuario podrá filtrar y manipular la información almacenada en
la tabla de hechos (Anexo 3).

Cada tabla posee un identificador único y al menos un atributo que describe los criterios de
análisis relevantes de la organización, estos son por lo general de tipo texto. Estos atributos
proveen información del negocio o describen alguna de sus características y son llamados datos
de referencia. Dentro de estas tablas pueden existir jerarquías de datos, además, de acuerdo a
las dimensiones del negocio, estará dada la granularidad que adoptará el modelo.

Una jerarquía representa una relación lógica entre dos o más atributos dentro de una misma
dimensión, pudiendo existir dos o más niveles en una misma dimensión. Esto permite analizar
los datos desde su nivel más general al más detallado y viceversa (Anexo 4).

La granularidad representa el nivel de detalle al que se desea almacenar la información sobre


el negocio que se esté analizando. Mientras mayor sea el nivel de detalle de los datos, se
tendrán mayores posibilidades de análisis, ya que los mismos podrán ser resumidos o
sumarizados.

La dimensión Tiempo es obligatoria en un DW, y la definición de granularidad y jerarquía de


la misma depende de la dinámica del negocio que se esté analizando. Es importante tener en

20
Capítulo 1

cuenta que el tiempo no es solo una secuencia cronológica representada de forma numérica,
sino que posee fechas especiales que inciden notablemente en las actividades de la
organización, por ejemplo: se puede analizar las ventas según el día de la semana, quincena,
mes, trimestre, semestre o año en que se produjeron.

Tablas de Hechos

Las tablas de hechos contienen los hechos, medidas o indicadores que serán utilizados por los
analistas de negocio para apoyar el proceso de toma de decisiones. Son datos instantáneos en
el tiempo, que son filtrados, agrupados y explorados a través de condiciones definidas en las
tablas de dimensiones.

Estos datos constituyen el volumen del DW, y pueden estar compuestos por millones de
registros en dependencia de su granularidad y los intervalos de tiempo de los mismos. Los más
importantes son los de tipo numérico.

El registro del hecho posee una clave primaria que está compuesta por las claves primarias de
las tablas de dimensiones relacionadas a este (Anexo 5).

Los hechos son todas aquellas sumarizaciones o acumulaciones preestablecidas que se usan
para agilizar las consultas y permitir que los datos puedan ser accedidos y explorados por las
diferentes dimensiones. Las sumarizaciones no están referidas solo a sumas, sino también a
promedios, mínimos, máximos, totales por sector, porcentajes, fórmulas predefinidas, etc.

Existen dos tipos de hechos: los básicos que son los que se encuentran representados por un
campo de una tabla de hechos por ejemplo ”precio” y ”cantidad”; y los derivados que se forman
al combinar uno o más hechos con alguna operación matemática o lógica por ejemplo ”total”.
Estos últimos poseen la ventaja de almacenarse previamente calculados, por lo cual pueden
ser accedidos a través de consultas SQL sencillas y devolver resultados rápidamente, pero
requieren más espacio físico en el DW, además de necesitar más tiempo de proceso en los ETL
que los calculan.

Metadatos

Los metadatos son datos que brindan información de localización, estructura y significado de

21
Capítulo 1

los datos. Se considera un diccionario de estructuras de datos, cuyo objetivo es asistir en los
procesos de consulta a la base de datos, que los usuarios utilizarán posteriormente para
analizar y explotar la información. Existen diferentes tipos de Metadatos:

 Los procesos ETL, referidos a las diversas fuentes utilizadas, reglas de extracción,
transformación, limpieza, depuración y carga de los datos al depósito.
 Los operacionales, que son los que almacenan todos los contenidos del DW, para que este
pueda desempeñar sus tareas.
 Los de consulta, que contienen las reglas para analizar y explotar la información del
almacén, tales como drill-up y drill-down. Son estos los que las herramientas de análisis y
consulta emplearán para realizar documentaciones y para navegar por los datos.

Query Manager

Este componente realiza las operaciones necesarias para soportar los procesos de gestión y
ejecución de consultas relacionales, tales como uniones y agregaciones, y de consultas propias
del análisis de datos. Recibe las consultas del usuario, las aplica a las tablas correspondientes
y devuelve los resultados obtenidos.

Las operaciones que se pueden realizar sobre modelos multidimensionales son:

 Drill-down: Permite apreciar los datos en un mayor detalle, bajando por la jerarquía de una
dimensión. Se va de lo general a lo específico.
 Drill-up: Permite apreciar los datos en menor nivel de detalle, subiendo por la jerarquía de
una dimensión. Se va de lo específico a lo general.
 Drill-across: Similar al drill-down, con la diferencia de que no se realiza sobre jerarquías de
una dimensión, sino que agrega una nueva dimensión como nuevo criterio de análisis.
 Roll-across: Similar al drill-up, con la diferencia de que no se hace sobre jerarquías de una
dimensión, sino que quita un criterio de análisis eliminando de la consulta una dimensión.
 Pivot: Permite seleccionar el orden de visualización de las dimensiones, con el objetivo de
analizar la información desde diferentes perspectivas.
 Page. Presenta el cubo dividido en secciones, a través de los valores de una dimensión,
como si se tratase de páginas de un libro.

22
Capítulo 1

Herramientas de Consulta y Análisis

Las herramientas de consulta y análisis son sistemas que permiten al usuario realizar la
exploración de datos del Data Warehouse. A través de una amigable interfaz gráfica y una serie
de simples pasos, el usuario genera consultas que son enviadas desde la herramienta al Query
Manager, este a su vez realiza la extracción de información al DW Manager y devuelve los
resultados a la herramienta que los solicitó. Entre las diferentes herramientas de consulta y
análisis, destacan las siguientes:

 Reportes y Consultas: Se han desarrollado varias herramientas que ofrecen a los usuarios,
a través de pantallas gráficas intuitivas, la posibilidad de generar informes avanzados y
detallados del área de interés del negocio que se esté analizando.
 OLAP: El procesamiento analítico en línea OLAP (On Line Analytic Processing), es el motor
de consultas especializado del DW. Son una tecnología de software para análisis en línea,
administración y ejecución de consultas, que permiten inferir información del
comportamiento del negocio.
Su principal objetivo es el de brindar rápidas respuestas a complejas preguntas, para
interpretar la situación del negocio y tomar decisiones. Brinda la posibilidad de utilizar
operadores tales como drill-up, drill-down, etc, para explotar profundamente la información.
A través de este tipo de herramientas, se puede analizar el negocio desde diferentes
escenarios históricos, y proyectar cómo se ha venido comportando y evolucionando en un
ambiente multidimensional, o sea, mediante la combinación de diferentes perspectivas,
temas de interés o dimensiones. Esto permite deducir tendencias, por medio del
descubrimiento de relaciones entre las perspectivas que a simple vista no se podrían
encontrar sencillamente.
 Data Mining: Esta herramienta constituye una poderosa tecnología para descubrir patrones
y relaciones entre abundantes cantidades de datos, que a simple vista o que mediante otros
tipos de análisis, no se pueden deducir, con el fin de permitirles a los usuarios analizar y
extraer conocimientos ocultos y predecibles a partir de los datos almacenados en un DW o
en un OLTP.
Una de las principales ventajas es que permite inferir comportamientos, modelos, relaciones
y estimaciones de los datos, para poder desarrollar predicciones de los mismos, sin la

23
Capítulo 1

necesidad de tener que contar con algún patrón o regla preestablecida o conocida de
antemano, permitiendo tomar decisiones proactivas y basadas en un conocimiento acabado
de la información.
Los sistemas Data Mining se desarrollan bajo lenguajes de última generación basados en la
Inteligencia Artificial y utilizan métodos matemáticos tales como: Redes Neuronales,
Sistemas Expertos, Programación Genética, Árboles de Decisión y Detección de desviación,
entre otras.
 EIS (Executive Information System): proporciona medios sencillos para consultar, analizar
y acceder a la información de estado del negocio. Además, pone a disposición facilidades
para que el usuario pueda conseguir los datos buscados rápidamente, empleando el menor
tiempo posible para comprender el uso de la herramienta.
Usualmente se utiliza para analizar las métricas e indicadores de performance y desempeño
del negocio, a través de la presentación de vistas con datos simplificados, altamente
consolidados, mayormente estáticos y preferentemente gráficos.

1.3.2. Metodologías para el diseño Data Warehousing

La implementación de un almacén de datos constituye un proceso complejo, para lo cual se


requiere el diseño de un modelo conceptual que incluye tanto los requisitos de información de
los usuarios así como, las fuentes de datos operacionales, a partir de las cuales se obtiene un
modelo lógico basado en una tecnología de base de datos específica que guía la
implementación. (Fuentes Tapia & Valdivia Pinto, 2010).

Existen muchas metodologías de diseño y construcción de DW. Cada fabricante de software


de inteligencia de negocios busca imponer una metodología con sus productos. Sin embargo,
se imponen entre la mayoría tres metodologías, las documentadas por Ralph Kimball (Kimball
& Ross, 2011), Bill Inmon (Inmon, 2005) y Bernabeu Ricardo Darío (Hefesto) (Bernabeu, 2010).

Existen otras metodologías que pudieran aplicarse al desarrollo de un almacén de datos como:
DWEP (Luján-Mora, 2005), la propuesta de Trujillo (Trujillo et al., 2007) y Rapid Warehousing
Methodology (Espinosa). También se puede hablar sobre algunas metodologías que la
comunidad científica considera como probadas; pero se enfocan hacia la minería de datos,
ellas son: CRISP-DM (Chapman et al., 2000), la propuesta por el instituto SAS (SEMMA)

24
Capítulo 1

(García Martínez et al., 2011) y P3TQ (Pollo Cattaneo et al., 2010). Existe además una
metodología llamada KM-IRIS (Matos, Chalmeta, & Coltell, 2006) que pudiera aplicarse de
cierto modo aunque fue concebida para dirigir proyectos de desarrollo de Sistemas de Gestión
del Conocimiento.

El estudio actual se enfoca en el análisis de tres metodologías principales: Kimball, Inmon y


Hefesto, teniendo en cuenta que son de las de las más robustas y documentadas en la
actualidad, por lo que se encuentran bien consolidadas como metodologías para el desarrollo
de almacenes de datos.

El Ciclo de vida Kimball (Kimball & Ross, 2011): Presenta un marco de trabajo, en el cual se
definen las etapas del proceso de creación del almacén de datos (Anexo 6).

La fase de planeación del proyecto, pretende establecer la definición y el alcance del proyecto
de la bodega de datos, incluyendo la valoración y justificación del negocio. La fase de definición
del proyecto es donde se establece la base relacionada con la tecnología, los datos y las
aplicaciones del usuario.

La ruta de mayor importancia es la relacionada con los datos, en la cual se realiza el modelado
dimensional, partiendo de los requerimientos obtenidos y de las necesidades de análisis de los
usuarios; el diseño físico, el cual se enfoca en definir las estructuras físicas necesarias para
soportar el modelado dimensional; y la etapa ETL en la cual se diseña y desarrollan procesos
para extraer, transformar y cargar datos. A lo largo de todo el ciclo de vida se debe seguir una
administración general del proyecto la cual asegura que todas las actividades del ciclo de vida
se alcancen y se sincronicen.

Paradigma Inmon: Bill Inmon ve la necesidad de transferir la información de los diferentes


OLTP (Sistemas Transaccionales) de las organizaciones a un lugar centralizado donde los
datos puedan ser utilizados para el análisis (sería el CIF o Corporate Information Factory).
Insiste además en que ha de tener las siguientes características: orientado a temas, integrado,
no volátil y variante en el tiempo.

La información ha de estar a los máximos niveles de detalle. Los DW departamentales o


Datamarts son tratados como subconjuntos de este DW corporativo, que son construidos para

25
Capítulo 1

cubrir las necesidades individuales de análisis de cada departamento, y siempre a partir de


este DW Central (del que también se pueden construir los ODS (Operational Data Stores) o
similares) (Anexo 7).

El enfoque Inmon también se referencia normalmente como Top-down. Los datos son extraídos
de los sistemas operacionales por los procesos ETL y cargados en las áreas de paso, donde
son validados y consolidados en el DW corporativo, donde además existen los llamados
metadatos que documentan de una forma clara y precisa el contenido del DW. Una vez
realizado este proceso, los procesos de actualización de los DataMart departamentales
obtienen la información, y con las consiguientes transformaciones, organizan los datos en las
estructuras particulares requeridas por cada uno, refrescando su contenido.

La metodología para la construcción de un sistema de este tipo es la habitual para construir un


sistema de información, utilizando las herramientas habituales: esquema Entidad Relación, DIS
(Data Item Sets). Para el tratamiento de los cambios en los datos, se usa la Gestión de
Dimensiones Continuas y Discretas, que inserta fechas en los datos para determinar su validez
en las Dimensiones Continuas o bien mediante el concepto de snapshot o foto en las
Dimensiones Discretas.

Al tener este enfoque global, es más difícil de desarrollar en un proyecto sencillo, pues se
intenta abordar el “todo” primero, a partir del cual se va al “detalle”.

HEFESTO (Bernabeu, 2010) es una metodología creada por el Ing. Bernabeu Ricardo Darío;
su última actualización es la versión 1.1, abril del 2009, disponible bajo licencia GNU FDL, se
fundamenta en una amplia investigación, comparación de metodologías existentes y
experiencias propias en procesos de confección de almacenes de datos. Consta de cuatro
fases: análisis de requerimientos, análisis de los OLTP, modelo lógico del almacén de datos y
proceso ETL (Anexo 8). Puede ser utilizada en cualquier ciclo de vida que no requiera fases
extensas de requerimientos y análisis, con el fin de entregar una implementación que cumpla
con una parte de las necesidades proporcionadas por el usuario. (Leopoldo & Octavio, 2010)

 Análisis de Requerimientos: Se identifican los requerimientos del usuario con el fin de


entender los objetivos de la organización, haciendo uso de técnicas y herramientas, como

26
Capítulo 1

la entrevista, la encuesta, el cuestionario, la observación, el diagrama de flujo y el diccionario


de datos; como resultado se obtiene una serie de preguntas que se deberán analizar con el
fin de establecer cuáles serán los indicadores y perspectivas a tener en cuenta para la
construcción del almacén de datos. Finalmente se realizará un modelo conceptual en el que
se podrá visualizar el resultado obtenido en este primer paso.
 Análisis de los OLTP: Tomando en cuenta el resultado obtenido en el paso anterior se
analizarán las fuentes OLTP para determinar cómo serán calculados los indicadores con el
objetivo de establecer las respectivas correspondencias entre el modelo conceptual y las
fuentes de datos. Luego, se definirán qué campos se incluirán en cada perspectiva y
finalmente, se ampliará el modelo conceptual con la información obtenida en este paso.
 Modelo lógico del Almacén de Datos: Como tercer paso, se realizará el modelo lógico de
la estructura del almacén de datos, teniendo como base el modelo conceptual. Para esto,
se debe definir el tipo de representación de un almacén de datos que será utilizado,
posteriormente se llevarán a cabo las acciones propias al proceso, para diseñar las tablas
de dimensiones y de hechos. Por último, se realizarán las uniones pertinentes entre estas
tablas.
 Procesos ETL: Se prueban los datos a través de procesos ETL. Para realizar la compleja
actividad de extraer datos de diferentes fuentes, luego integrarlos, filtrarlos y depurarlos, se
podrá hacer uso de software que facilita dichas tareas, por lo cual este paso se centrará
solo en la generación de las sentencias SQL que contendrán los datos que serán de interés.

Esta metodología cuenta con las siguientes características:

 Los objetivos y resultados esperados en cada fase se distinguen fácilmente y son sencillos
de comprender.
 Se basa en los requerimientos del usuario, por lo cual su estructura es capaz de adaptarse
con facilidad y rapidez ante los cambios en el negocio.
 Reduce la resistencia al cambio, ya que involucra al usuario final en cada etapa para que
tome decisiones respecto al comportamiento y funciones del almacén de datos.
 Utiliza modelos conceptuales y lógicos, los cuales son sencillos de interpretar y analizar.

27
Capítulo 1

 Es independiente del tipo de ciclo de vida que se emplee para contener la metodología, de
las herramientas que se utilicen para su implementación, de las estructuras físicas que
contengan el almacén de datos y de su respectiva distribución.
 Cuando se culmina con una fase, los resultados obtenidos se convierten en el punto de
partida para llevar a cabo el paso siguiente.
 Se aplica tanto para almacén de datos como para DataMart.

Una vez analizadas las principales características de las metodologías que se emplean en el
desarrollo de almacenes de datos, sus fortalezas y desventajas (Anexo 9) se considera
apropiada la metodología HEFESTO del autor Ricardo Bernabeu, para el desarrollo del almacén
de datos del proyecto. La metodología HEFESTO podrá definir la arquitectura de los datos, es
decir recolectar los requerimientos y necesidades de información del usuario. Entre los factores
más predominantes en la decisión fueron: afinidad con el sistema actual en desarrollo, tiempo
de análisis, diseño y construcción, fácil entendimiento para principiantes, perspectiva y su
utilización en numerosos proyectos afines al actual.

1.3.3. Herramientas

Hay muchas herramientas que diferentes empresas ofrecen para la creación y explotación de
un Data Warehouse. Cuando se ofrece una suite completa, que cubre desde la creación de la
base de datos hasta la explotación de la misma para diferentes perfiles y objetivos, suelen
considerarse como herramientas de Business Intelligence.

El Data Warehouse se implementa siempre sobre un Sistema Gestor de Bases de Datos, y para
las cargas periódicas de datos que se realizan sobre él desde diferentes orígenes se pueden
utilizar herramientas ETL.

Teniendo en cuenta las funcionalidades que deben cubrir las herramientas de BI orientadas a
la explotación de un sistema de Data Warehouse, muchas empresas se plantean la
implantación de un sistema de este tipo y consultan los precios de las licencias de las diferentes
Suites existentes en el mercado. Si el coste de estas licencias es una barrera importante, una
opción interesante es la utilización de herramientas de Código Abierto, que no tienen coste en
cuanto a licencias, aunque sí pueden tenerlo si se necesita soporte y mantenimiento de las

28
Capítulo 1

mismas.

Herramientas ETL

Las herramientas ETL ahorran tiempo y dinero cuando se tiene que desarrollar un Data
Warehouse, al reducir la cantidad de sistemas de conversión personalizados a desarrollar para
migrar o concentrar la información, además de reducir la dificultad para el usuario de conectar
distintas marcas y tecnologías de Bases de Datos entre sí.

Entre las herramientas ETL de código abierto más conocidas en la actualidad se pueden
mencionar: Kettle, Netflux, TalendOS, JasperETL y Pentaho Data Integration ("Manageability,"
2013).

Además existen varias herramientas propietarias entre las que resaltan: IBM InfoSphere
DataStage, IBM Cognos DecisionStream, Oracle Data Integrator (ODI), SAP BusinessObjects
Data Integrator, SAS Enterprise Data Integration Server y Microsoft SQL Server Integration
Services (SSIS), entre otros(Fernández, 2012).

A continuación se detallan las características de algunas de estas herramientas.

Pentaho Kettle: se utiliza a través de un acercamiento basado en meta datos, y posee una GUI
para acelerar los procesos. La compañía Pentaho empezó operaciones en el año 2001.Tiene
una gran comunidad activa de usuarios, alrededor de 13,500 usuarios. Funciona utilizando
Java, que presenta como ventaja el ser una solución multiplataforma.

Informatica Power Center: informatica tiene una muy buena suite empresarial de integración de
datos. Fue fundada en el año de 1993. Tiene alrededor de 2,600 clientes, entre los cuales
figuran bancos como Grupo BBVA, organizaciones gubernamentales, etc. La compañía se
enfoca meramente en soluciones para la integración de datos.

IBM Cognos Data Manager: proporciona funciones dimensionales de extracción, transformación


y carga (ETL) para conseguir una inteligencia empresarial de alto rendimiento. Se puede
integrar con la GUI de IBM Data Manager Designer para diseñar y crear prototipos. Se pueden
ejecutar compilaciones y secuencias de trabajos en sistemas remotos desde un sistema de
entorno de diseño de Data Manager. Data Manager Engine se tiene que instalar en un sistema

29
Capítulo 1

UNIX o Linux.

Oracle Warehouse Builder Enterprise ETL Option: la opción empresarial ETL (Enterprise ETL
Option) para Warehouse Builder es una opción que puede ser adquirida con Oracle Warehouse
Builder como parte de la edición empresarial del motor de base de datos. Permite ejecutar
cargas de datos usando métodos rápidos y eficientes tales como el Oracle Data Pump y
transportable tablespaces. Permite prever el efecto que puedan tener los cambios que se hagan
en cualquier lugar de los metadatos del sistema ETL. Es posible generar un modelo para
configurar los ambientes de desarrollo, pruebas y producción a niveles separados.

Microsoft SQL Integration Services: puede extraer y transformar datos de diversos orígenes
como archivos de datos XML, archivos planos y orígenes de datos relacionales y, después,
cargar los datos en uno o varios destinos. Se pueden realizar tareas de migración fácilmente
usando tareas visuales. Si se desea crear nueva funcionalidad, se pueden crear scripts en C#
o VB. Puede conseguir conectividad mediante CLI vía DLL tipo ensamblador.

Talend Open Studio: es una herramienta de software libre para integración de datos, usando
Java como lenguaje de programación y Eclipse como plataforma de desarrollo. Opera como un
generador de código, produciendo scripts para transformación de datos y su interfaz gráfica
permite el diseño de flujos de procesos basado en más de 900 componentes.

Constituye una herramienta de mucha utilidad para la automatización de muchos procesos que
se llevan a cabo en un negocio tales como: sincronización o replicación de base de datos,
procesos ETL para análisis, transformaciones de datos complejas, carga de grandes volúmenes
de datos, entre otros.

Ventajas

 Mejora considerablemente la eficiencia del diseño de los procesos de integración de datos


a través de un entorno de desarrollo grafico intuitivo y fácil de usar.
 Permite el despliegue rápido y reduce los costos de mantenimiento con conectores
predefinidos para todos los componentes ya sean de origen o de destino, con soporte para
todos los tipos de integración de datos, migración y operaciones de sincronización.

30
Capítulo 1

 Los trabajos son exportables a nivel del SO, y se pueden ejecutar independientemente de
la herramienta de diseño en cualquier plataforma que permita la ejecución del lenguaje
seleccionado (Java).
 Todo el código generado es visible y modificable.
 Proporciona soporte de alta calidad, disponible a través de una comunidad mundial de
usuarios que aportan pruebas continuas y permiten la retroalimentación.

El Diseñador de trabajo (Job Designer) brinda una vista gráfica y una funcional de los procesos
de integración actuales, utiliza una paleta gráfica de más de 450 componentes de código abierto
y conectores. Los procesos de integración se construyen con sólo arrastrar y soltar los
componentes y conectores en el área de trabajo, estableciendo conexiones y relaciones entre
ellos, y definiendo sus propiedades.

Los parámetros se configuran en una vista centralizada cuando se selecciona cada componente
involucrado en el trabajo, aunque también se pueden heredar de los metadatos que se
almacenan y gestionan en un repositorio compartido por todos los módulos. Una vista de
consola integrada permite a los usuarios monitorear la ejecución y supervisar el rendimiento
directamente desde la aplicación o entorno de trabajo.

En el Anexo 10 se puede observar una tabla comparativa entre las herramientas mencionadas
anteriormente.

Herramientas de BI

Actualmente, en las actividades diarias de cualquier organización, se generan datos como


producto secundario, que son el resultado de todas las transacciones que se realizan. Es muy
común, que los mismos se almacenen y administren a través de sistemas transaccionales en
bases de datos relacionales. Pero estos datos puede llegar convertirse en información relevante
que enriquezca las decisiones de los usuarios y es precisamente, la inteligencia de negocios
(Business Intelligence - BI), la que permite que el proceso de toma de decisiones esté
fundamentado sobre un amplio conocimiento de sí mismo y del entorno, minimizando de esta
manera el riesgo y la incertidumbre. (Oz, 2008)

31
Capítulo 1

Se puede describir BI, como un concepto que integra por un lado el almacenamiento y por el
otro, el procesamiento de grandes cantidades de datos, con el principal objetivo de
transformarlos en decisiones en tiempo real y conocimiento oportuno, relevante y útil, a través
del análisis y exploración.

BI propicia que las organizaciones puedan traducir sus objetivos en indicadores de estudio, y
que estos puedan ser analizados desde diferentes perspectivas, con el fin de encontrar
información que no solo se encargue de responder a preguntas de lo que está sucediendo o ya
sucedió, sino que también posibilite la construcción de modelos, mediante los cuales se podrán
predecir eventos futuros. (Gómez & Bautista, 2010)

Al contar con la información exacta y en tiempo real, es posible identificar y corregir situaciones
antes de que se conviertan en problemas y en potenciales pérdidas de control de la empresa;
conseguir nuevas oportunidades o readaptarse frente a la ocurrencia de sucesos inesperados.
(García, 2010)

Entre los beneficios más importantes que BI proporciona a las organizaciones, cabe destacar
los siguientes: (Calzada & Abreu, 2009)

 Reduce el tiempo mínimo que se requiere para recoger toda la información relevante, ya
que esta se encontrará integrada en una fuente única de fácil acceso.
 Automatiza la asimilación de la información, debido a que la extracción y carga de los datos
necesarios se realizará a través de procesos predefinidos.
 Proporciona herramientas de análisis para establecer comparaciones y tomar decisiones a
través de reportes o informes generados de manera dinámica.
 Permite acceder y analizar directamente los indicadores de éxito, identificar los factores que
inciden en el buen o mal funcionamiento de la organización y detectar situaciones fuera de
lo normal.
 Permitirá predecir el comportamiento futuro con un alto porcentaje de certeza, basado en el
entendimiento del pasado.

Hoy en día son muchas las herramientas tecnológicas que ofrecen un procesamiento de BI, el
mercado es diverso y dinámico, las ofertas de funcionalidades crecen velozmente y cada vez

32
Capítulo 1

más se adaptan a las necesidades y expectativas del cliente. Entre las más conocidas destacan:
MicroStrategy, Oracle, Microsoft, IBM Cognos, Tableau y Pentaho. A continuación se detallan
las características de algunas de ellas, según el reporte de Gartner de 2016. (Oestreich, 2016)

Oracle BI

Oracle posee un conjunto amplio y diverso de capacidades proporcionadas por la variedad de


productos analíticos y de inteligencia de negocio que tiene en su portafolio. La integración con
aplicaciones empresariales constituye su mayor ventaja. Ha demostrado tener visión en torno
al análisis multi-estructurado y Big Data y ha ganado la adopción en la nube con un conjunto de
capacidades analíticas, similar a las instalaciones de sus aplicaciones de BI. (Rittman, 2012)

Entre sus principales debilidades se encuentran la complejidad y el costo de la línea de


productos, la dificultad de uso, desarrollo y administración. La baja experiencia en ventas y el
bajo rendimiento de los beneficios empresariales también constituyen un problema.

MicroStrategy

MicroStrategy es una plataforma de nivel empresarial que se adapta bien a las empresas que
necesitan sistemas de registros de informes a gran escala, móviles y cuadros de mando. Posee
fortalezas particulares en las soluciones empresariales tales como la administración de la
plataforma de inteligencia de negocio, gestión de metadatos y estilos tradicionales de análisis.
Su principal ventaja son sus capacidades para los móviles. La nube ha sido otra área de
inversión estratégica. (Negash & Gray, 2008)

Entre sus debilidades se reporta un promedio bajo en la experiencia del cliente, incluyendo el
soporte, la calidad del producto, además de dificultades de uso en el desarrollo, tanto para los
usuarios finales como para la administración e implementación.

IBM Cognos

IBM Cognos está enfocada en la estrategia de productos así como, la gestión del rendimiento,
una analítica avanzada y la innovación en torno a la búsqueda de datos inteligente. Presenta
una nueva experiencia de usuario para el descubrimiento de datos, con un flujo de trabajo
analítico integrado que incluye la preparación de datos, generación de consultas en lenguaje

33
Capítulo 1

natural, la exploración, detección automática de patrones y predicción. Los puntos fuertes de


sus productos son la administración de la plataforma de BI, los metadatos, integración, los
reportes desarrollados por TI, cuadros de mando, el desarrollo y estilos tradicionales de BI
(informes Ad Hoc y OLAP). (Adkison, 2013)

IBM ha presentado resultados muy limitados en el mercado del descubrimiento de la


información. La experiencia del cliente que incluye el soporte de productos, la calidad del
producto, la migración/actualización, la habilitación de usuario y la disponibilidad de habilidades,
es calificada por los clientes de IBM como una fuente continua de insatisfacción.

Microsoft
La posición de liderazgo de Microsoft es impulsada principalmente por una fuerte visión del
producto y los objetivos futuros a corto y largo plazo, así como, una comprensión clara del deseo
del mercado de una plataforma que pueda soportar los requerimientos de los sistemas basados
en registros y la capacidad de descubrimiento de datos fáciles de utilizar.

El costo total de propiedad y de la licencia son motivos por los cuales los clientes eligen a
Microsoft. Ha integrado novedosas funcionalidades al Excel tales como Power Query, Power
Pivot, Power View y Power Map. También se encuentran disponibles capacidades adicionales
para el consumo y colaboración alojada en la nube. La escalabilidad es una fortaleza de esta
plataforma. (Ramos, 2011)

El portafolio de productos de Microsoft es complejo e incluye muchos componentes que pueden


causar confusión entre los clientes. Muchas de las capacidades nuevas requieren las últimas
versiones de Office, SQL Server y SharePoint. Por otra parte, el papel de los cuadros de mando
de SharePoint y Reporting Services no ha sido claramente articulado. Los clientes pueden tener
dificultades para encontrar especialistas con experiencia en Power BI, lo que requiere un
conjunto diferente de habilidades y conocimientos.

Tableau

Tableau fue el líder en el mercado en 2015. En particular, los tableros analíticos, la exploración
en forma libre y el despliegue en la nube son las fortalezas de la plataforma. Tableau permite
consultar una amplia gama de fuentes de datos SQL y MDX, así como una serie de

34
Capítulo 1

distribuciones de Hadoop; tiene soporte nativo para Google BigQuery, Salesforce y Google
Analytics, lo cual ha sido una fortaleza de la plataforma desde su creación. (Minelli, Chambers,
& Dhiraj, 2012)

Como debilidad se puede mencionar que tiene una línea limitada de productos centralizados en
el descubrimiento de datos. Los reportes desarrollados por TI, cuadros de mando, estilos
tradicionales de análisis, gestión de metadatos, desarrollo e integración, plataforma de
administración, BI integrado y la colaboración, son calificados como capacidades más débiles
de la plataforma. Se debe recurrir a productos de terceros cuando se requieren de preparación
avanzada de datos, informes de producción, análisis avanzado, distribución y alerta.

Pentaho

Pentaho ha evolucionado de ser una plataforma de BI basada en código abierto, hacia una
plataforma de análisis especializado, que permite desarrollar casos de uso más complejos. La
herramienta de integración de datos de Pentaho (PDI) y los componentes Weka y Data Science
Pack son los principales responsables de esta transformación, además, la integración con base
de datos NoSQL permiten un análisis muy avanzado. (Hall et al., 2009)

Entre las dificultades de Pentaho se encuentran la calidad del software, que impide la expansión
y la gran cantidad de problemas que se presentan con la plataforma. Muchos clientes afirman
que la plataforma no es fiable y lo califican como difícil de implementar. Otro punto débil es la
experiencia del usuario, incluyendo la calidad y soporte de producto. La colaboración, gestión
de metadatos y el uso en móviles también son débiles de la plataforma.

Según el último estudio realizado por Gartner en su Cuadrante Mágico 6 para el año 2017, revelo
que Tableau, Qlik y Microsoft (este por segundo año consecutivo) son los únicos tres que
aparecen en el cuadrante de líderes. La novedad es que herramientas como SAP, SAS, IBM,
MicroStrategy y Oracle salieron del cuadrante de líderes en las dos últimas ediciones. Pentaho

6
El Cuadrante Mágico sobre Plataformas Analíticas y de Business Intelligence es una prestigiosa herramienta de análisis de
mercado, que evalúa los principales proveedores de herramientas BI, desgranando sus puntos fuertes, debilidades,
características de análisis y de informes. Muestra la posición relativa de cada competidor en el espacio BI, considerando los
productos más fáciles de usar, con mayor accesibilidad y de mejor integración con los sistemas existentes.

35
Capítulo 1

y Oracle se mueven al cuadrante de jugadores de nicho (Anexo 11) (Gartner, 2017).

Herramientas de BI en Etecsa

Desde el año 2008, Etecsa cuenta con licencias de uso de software para Infor PM (Infor
Performance Management), una plataforma integrada de inteligencia de negocios capaz de
mejorar y acelerar los procesos de recopilación, análisis, generación de informes y planificación
de la información clave del negocio, así como, mejorar los procesos empresariales mediante la
entrega de información significativa y una visión práctica a los responsables, identificando
nuevas oportunidades de negocios y tomando decisiones más certeras (Solutions, 2014).

Esta plataforma incluye reportes y análisis financieros y operativos, paneles de control,


planificación, previsión, análisis basado en roles, minería de datos y capacidades de
consolidación financiera, además se integra con aplicaciones y fuentes de datos de todo tipo y
es un componente clave de Infor PM.

Actualmente Etecsa es cliente de Infor PM en su versión 10.5.1 con un Contrato Anual de


Soporte desde el 2007 (Gerencia de Asuntos Legales, 2007).

Entre las aplicaciones de BI mejor posicionadas en el mundo está MicroStrategy y el mismo


está en uso en la DVSM de la empresa, por lo que fue objeto de análisis la generalización de
su uso, pero el alto costo de las licencias de usuario lo desestimaron de momento. Lo mismo
sucedió con otro grupo de herramientas, como Pentaho Data Integration para las cuales no fue
aprobado un presupuesto por lo que finalmente se decidió continuar utilizando Infor PM que
provee un soporte y una asistencia técnica desde hace años y las actualizaciones del producto
no son tan costosas al igual que las licencias de usuarios. El producto se mantiene en uso de
forma estable desde hace largo tiempo.

1.4. Estado actual del análisis de información en los servicios de internet y


correo electrónico de Etecsa.

Como se ha mencionado anteriormente, en la última década, el escenario de las


telecomunicaciones en Cuba ha estado matizado por el incremento de los abonados móviles,

36
Capítulo 1

la implementación de servicios de comercio electrónico y un mayor acceso a la red mundial de


redes, Internet.

En el año 2013, Etecsa amplía el acceso a internet, en esta ocasión para la población cubana.
Se ofrece acceso público a internet y al correo electrónico a través del servicio Nauta, sistema
con el cual los clientes interactúan para la navegación nacional e internacional. El acceso se
ofreció en un inicio a través de salas de navegación, y posteriormente se habilitó acceso al
correo a través de la red de datos móviles y puntos Wifi (Wireless Fidelity) públicos. En solo tres
meses a partir de su creación el servicio había sido contratado por más de 238 mil usuarios,
quienes habían enviado 29 millones de emails, un resultado que desbordó la previsión de la
empresa de telecomunicaciones (CubaDebate, 2014).

El 2016 fue un año donde se hizo un importante despliegue de la infraestructura en Etecsa para
mejorar y ampliar los principales servicios a la población. En la actualidad existen en Cuba
5.323.670 líneas en servicio telefónico, de ellas 4.001.668 móviles y más de un millón de
cuentas permanentes del servicio Nauta. Se han incrementado las salas de navegación y los
puntos de conectividad Wifi, y se ha alcanzado la cifra de 611 salas de navegación públicas con
2005 puestos (CubaDebate, 2017).

Además, se incrementaron a 252 los sitios públicos de ETECSA para la navegación por WIFI y
94 en áreas de terceros (hoteles, aeropuertos e instalaciones extra hoteleras), para un
crecimiento total de 346 zonas y una cobertura nacional en 164 municipios. Al finalizar enero
del 2017 se alcanza un total de 328 áreas públicas con un crecimiento de 21 nuevos sitios en
lo que va de año. Para el resto de 2017 se prevé comercializar al menos 500 mil nuevas líneas
móviles y poner en servicio 180 nuevos espacios para la navegación por Internet (CubaDebate,
2017).

El acceso a Internet en los hogares y la prueba piloto que se desarrolla en la Habana Vieja
también es de gran relevancia. El 20 de diciembre del 2016 se inició la prueba para el servicio
de acceso a Internet con tecnología ADSL a 2 mil clientes de telefonía básica, y se han instalado
hasta el momento, más de 800 servicios (CubaDebate, 2017).

Producto de estas transformaciones en la infraestructura de telecomunicaciones cubana, se ha

37
Capítulo 1

propiciado un aumento considerable del acceso a internet en la isla, hecho que se hace evidente
al tener en cuenta que, como promedio en un día, se producen más de 410 mil conexiones, lo
que crece 3 veces más que al cierre de 2015, a la vez que aumentan considerablemente las
operaciones comerciales relacionadas con este tema (CubaDebate, 2017).

Todos estos servicios se basan en el uso de una tarjeta o cuenta de acceso al servicio que se
autentica, autoriza y contabiliza contra una misma plataforma. Para cada servicio el usuario
debe tener una cuenta de acceso y este debe estar previamente registrado en el Sistema de
Gestión Comercial (GesNauta).

GesNauta es un sistema de gestión comercial, encargado de todo lo referente a operaciones


sobre los servicios de acceso a internet y correo electrónico, incluyendo la gestión de cuentas,
las recargas, las ventas de tarjetas y la aplicación de políticas comerciales entre otras funciones.
El sistema permite además realizar búsquedas por cuentas de acceso o de correo, contratos
con terceros, operaciones realizadas y resúmenes de ingreso.

Teniendo en cuenta las cifras expuestas al inicio de este acápite, este sistema maneja un
excesivo volumen de datos. Solo para ilustrar, se realizan más de 150,000 operaciones
comerciales diarias a través de los diversos canales comerciales presenciales o no, y más de
medio millón de CDR diarios. Para realizar análisis, la Dirección Central de Comercial y
Mercadotecnia de Etecsa, exporta la información de los reportes de GesNauta a formato Excel,
o se solicita información mediante consultas que se realizan directamente a la base de datos
por los propios desarrolladores. Como consecuencia, los tiempos de respuesta son más lentos
y presentan insuficiencias en los informes por no ser dinámicos, flexibles e interactivos.

Además, existe un conjunto de estadísticas que son de interés para los directivos que no están
recogidas en los reportes que se generan en el sistema, por lo que se extraen haciendo
consultas directamente sobre la base de datos, lo que atenta contra el rendimiento del sistema
y de la propia base de datos.

Otra dificultad detectada por la Dirección Central de Comercial y Mercadotecnia, es el


procesamiento de los datos de ventas y tráfico, una vez extraídos de GesNauta. Al ser grandes
volúmenes de información y no contar con herramientas adecuadas para sintetizarla, el proceso

38
Capítulo 1

se hace lento y complejo lo que incide negativamente en que se pueda contar con información
relevante y realizar análisis del comportamiento de variables importantes tales como: cantidad
de operaciones, ingresos, y contratos, entre otras; y con estas variables evaluar los canales
comerciales más efectivos, que tipos de productos son más utilizados por vías de acceso, si es
viable o no pasar a otros modo de tarificación, evaluar perfiles de consumo, estimar el
comportamiento a corto, mediano y largo plazo, dimensionar los cambios ante una rebaja o
descuento comercial.

El análisis de toda esta información es insuficiente y no se realiza con la calidad y eficiencia


requeridas, por lo que la empresa requiere de mecanismos de gestión más eficientes, que
permitan lograr una planificación efectiva, evaluar el cumplimiento de los objetivos y metas
relacionadas con proceso y garantizar la correcta toma de decisiones por parte de los directivos
de Etecsa.

1.5. Conclusiones parciales

Luego de evaluar el estado del arte en cuanto al campo de investigación del presente trabajo,
representando por la arquitectura Data Warehousing en los servicios de internet y correo
electrónico, se puede concluir que:

1. Los sistemas fundamentados en la arquitectura Data Warehousing, constituyen una


herramienta muy poderosa para las organizaciones que desean convertirse en entes
eficientes, ya que permiten hacer un uso eficiente de la información, como elemento vital
en la mejora de la toma de decisiones.

2. Teniendo en cuenta el auge de internet en Cuba y la problemática actual en los servicios


que brinda Etecsa, se considera que el diseño de una arquitectura Data Warehousing y
su posterior implementación, garantizaría el acceso a información estratégica, fiable y
efectiva por parte los ejecutivos, a partir de los datos extraídos de un DW propiciando
una mejora en los procesos de toma de decisiones.

39
Capítulo 2

Capítulo 2. Diseño del Data Warehouse.


2.1. Introducción.

Este capítulo abarca el Diseño de la arquitectura Data Warehousing para el apoyo a la toma de
decisiones en los servicios de acceso a internet y correo electrónico en Etecsa, basándose en
la metodología Hefesto.

2.2. Aplicación de la metodología.

Antes de comenzar con el primer paso de la metodología, es importante describir las


características principales de la empresa a la cual se le aplicará HEFESTO. Con esto se logrará
una mejor comprensión del funcionamiento y accionar de la empresa, lo que permitirá examinar
e interpretar de forma óptima las necesidades de información de la misma, lo que derivará en
un mejor diseño del DW.

2.2.1. Análisis de la empresa

La Empresa de Telecomunicaciones de Cuba (Etecsa), de capital mixto ciento por ciento


cubano, creada en 1994, brinda servicios de telecomunicaciones, basado en los estándares
mundiales, soportados en tecnologías de avanzada, mediante la proyección, operación,
instalación, explotación, comercialización y mantenimiento de redes públicas de
telecomunicaciones en todo el territorio de la República de Cuba.

De acuerdo a su volumen de operaciones, se la puede considerar de tamaño grande y con


respecto a su clasificación, es una sociedad anónima con fines de lucro. Su estructura
organizativa parte de los Centros de Telecomunicaciones como célula principal de la gestión
empresarial y posee características de una organización funcional.

Sus objetivos principales son:

 Maximizar la utilidad de la empresa para mantener el crecimiento y el aporte a la


economía del país.

40
Capítulo 2

 Lograr una gestión empresarial eficaz a través de la mejora de los procesos y el enfoque
hacia los clientes externos e internos.
 Fortalecer el sistema de telecomunicaciones garantizando fiabilidad, estabilidad y
seguridad.
 Lograr niveles de desarrollo de los servicios acordes con los índices de nuestra región,
priorizando la generación de ingresos, la excelencia en los servicios y las metas de
impacto social.

Políticas

Etecsa proporciona servicios y soluciones integrales de telecomunicaciones, respaldando los


planes de desarrollo social, económico y de la defensa del país. Cuenta con un sistema
moderno y eficiente que incluye los últimos adelantos de la ciencia y la tecnología, y que, unido
al compromiso de sus directivos y trabajadores por incorporar la Calidad Total como Filosofía
de Gestión, le permiten ofrecer servicios de Excelencia.

ETECSA declara que "La satisfacción de los usuarios y de toda la población es lo primero", la
opinión de ellos sobre la calidad de los servicios califica el desempeño empresarial, por lo cual:

 Centra su gestión en los requisitos y expectativas de los usuarios para satisfacer sus
necesidades actuales y futuras, demostrando una alta profesionalidad en sus servicios.
 Desarrolla una fuerte cultura Usuario - Proveedor en el seno de la Empresa, que le permita
el aseguramiento de los recursos para garantizar oportunidad y eficacia en las
operaciones.
 Cuenta con líderes y trabajadores educados, calificados, capacitados y motivados que
cultivan los Valores de la Empresa.

ETECSA promueve el incremento y la consolidación de la innovación en un entorno de mejora


continua de la eficacia de los procesos que sustentan su Sistema de Gestión, cumpliendo las
normas, regulaciones y resoluciones establecidas en la legislación cubana, así como los
Convenios, Acuerdos y Tratados internacionales suscritos por la República de Cuba en la
esfera de las telecomunicaciones.

41
Capítulo 2

Estrategias

Dentro de las estrategias planteadas por la empresa cabe destacar dos por ser las más
significativas:
 Seguir expandiendo los servicios en el ámbito geográfico, creando Centros de
Telecomunicaciones y puntos de conexión en lugares estratégicos al alcance de la
población.
 Añadir nuevos rubros a los servicios que se brindan en la actualidad para mejorar la
calidad de las telecomunicaciones en el país y satisfacer las demandas de los usuarios.
Organigrama

A continuación se expone el organigrama oficial de la empresa

Figura 3: Organigrama de la empresa.

Relación de las metas de la organización con las del DW

El Data Warehouse coincide con las metas de la empresa, ya que esta necesita mejorar su
eficiencia en la toma de decisiones y contar con información relevante para tal fin. Este aspecto
es de vital importancia para poder mejorar la calidad de los servicios que brinda y lograr la

42
Capítulo 2

excelencia deseada.

La implementación del Data Warehouse aportará gran valor a la empresa, desde el punto de
vista de información y conocimiento. Entre sus principales ventajas se puede mencionar:

 Permitirá a los usuarios de las distintas áreas involucradas tener una visión general
del negocio a la vez que proporciona un mayor nivel de detalle.
 Transformará datos operativos y de complejo acceso en información analítica,
enfocada a la toma de decisiones.
 Se podrán generar reportes dinámicos sustituyendo los actuales que son estáticos y
no permiten ninguna facilidad de análisis.
 Soportará la estrategia planteada por la empresa.
 Aportará a la mejora continua de la estructura de la empresa.

2.2.2. Paso 1: Análisis de Requerimientos.

Este primer paso comienza con la obtención de las necesidades de información, a través de
entrevistas a clientes, cuestionarios, observaciones, etc. El objetivo fundamental es obtener e
identificar las necesidades de información clave, que faciliten una eficaz y eficiente toma de
decisiones.

Identificar necesidades de información.

Se realizaron entrevistas a especialistas de la Dirección de Comercial de Etecsa, así como a


los desarrolladores del Sistema GesNauta, para determinar las necesidades de información,
con respecto a la gestión comercial del servicio de acceso a Internet y/o correo electrónico, con
sus posibles reportes.

Se obtuvieron los siguientes resultados:

 Se desea saber la Cantidad de Operaciones Comerciales por Año, Semestre, Trimestre,


Mes y Día según las variables: Tipo de Unidad Organizativa, Tipo de Canal de venta,
Tipo de Contratos, Tipo de producto, Tipo de Operación y Tipo de Oferta.

43
Capítulo 2

 Se desea saber la Cantidad de Productos sobre los que se realizaron operaciones


comerciales por Año, Semestre, Trimestre, Mes y Día según las variables: Tipo de
Unidad Organizativa, Tipo de Canal de venta, Tipo de Contratos, Tipo de producto, Tipo
de Operación y Tipo de Oferta.
 Se desea obtener los Ingresos de Operaciones Comerciales por Año, Semestre,
Trimestre, Mes y Día según las variables: Tipo de Unidad Organizativa, Tipo de Canal
de venta, Tipo de Contratos, Tipo de producto, Tipo de Operación y Tipo de Oferta.
 Se desea obtener los Gastos de Operaciones Comerciales por Año, Semestre,
Trimestre, Mes y Día según las variables: Tipo de Unidad Organizativa, Tipo de Canal
de venta, Tipo de Contratos, Tipo de producto, Tipo de Operación y Tipo de Oferta.
 Se desea obtener el Tiempo de Respuesta de Operaciones Comerciales por Año,
Semestre, Trimestre, Mes y Día según las variables: Tipo de Unidad Organizativa, Tipo
de Canal de venta, Tipo de Contratos, Tipo de producto, Tipo de Operación y Tipo de
Oferta.

Identificar indicadores y perspectivas. Desarrollo del modelo conceptual del negocio.

Luego de haber identificado las necesidades de información de los clientes se procedió a


determinar los indicadores y perspectivas, así como a la construcción del Modelo Conceptual.

 Cantidad de Operaciones por Año, Semestre, Trimestre, Mes y Día según Tipo de
Unidad Organizativa, Tipo de Canal de Ventas, Tipo de Operación, Tipo de Producto,
Tipo de Contratos y Tipo de Oferta.
 Cantidad de Productos por Año, Semestre, Trimestre, Mes y Día según Tipo de Unidad
Organizativa, Tipo de Canal de Ventas, Tipo de Operación, Tipo de Producto, Tipo de
Contratos y Tipo de Oferta.
 Ingresos de Operaciones por Año, Semestre, Trimestre, Mes y Día según Tipo de Unidad
Organizativa, Tipo de Canal de Ventas, Tipo de Operación, Tipo de Producto, Tipo de
Contratos y Tipo de Oferta.
 Gastos de Operaciones por Año, Semestre, Trimestre, Mes y Día según Tipo de Unidad
Organizativa, Tipo de Canal de Ventas, Tipo de Operación, Tipo de Producto, Tipo de
Contratos y Tipo de Oferta.

44
Capítulo 2

 Tiempo de Respuesta por Año, Semestre, Trimestre, Mes y Día según Tipo de Unidad
Organizativa, Tipo de Canal de Ventas, Tipo de Operación, Tipo de Producto, Tipo de
Contratos y Tipo de Oferta.

En resumen:

 los indicadores son: Cantidad de Operaciones, Cantidad de Productos, Ingresos, Gastos


y Tiempo de Respuesta.
 las perspectivas de análisis son: Tipo de Unidad Organizativa, Tipo de Canal de venta,
Tipo de Contratos, Tipo de producto, Tipo de Operación, Tipo de Oferta y Fecha.

El modelo conceptual resultante de los datos que se han recolectado, es el siguiente:

Figura 4: Modelo Conceptual resultante.

2.2.3. Paso 2: Análisis de los OLTP.

El objetivo en este punto es examinar los OLTP que contengan la Información requerida, para
poder identificar las correspondencias entre el modelo conceptual y las fuentes de datos.

Establecer correspondencias con los requerimientos.

Los indicadores se basan en los datos que se obtienen del Sistema GesNauta que está
soportado sobre una Base de Datos Oracle. Debido a que el diagrama de entidad-relación de

45
Capítulo 2

la base de datos está compuesto por un número considerable de tablas, solo se van a mostrar
las que contienen la información relevante para el DW

Figura 5: Fragmento del diagrama entidad-relación de la Base de datos GesNauta.

Para el caso de los indicadores, a continuación se explica cómo se calculan.

 Cantidad de Operaciones por Tipo de Unidad Organizativa, Tipo de Canal de Ventas,


Tipo de Contrato, Tipo Operación, Tipo de Oferta, Tipo de Producto y Fecha,
representa el total de operaciones que se realizan según las distintas perspectivas

46
Capítulo 2

que se mencionan, por Año, Semestre, Trimestre, Mes y Día. Se utiliza una función
Count().
 Cantidad de Productos por Tipo de Unidad Organizativa, Tipo de Canal de Ventas,
Tipo de Contrato, Tipo Operación, Tipo de Oferta, Tipo de Producto y Fecha,
representa la cantidad de unidades que se comercializan en una operación de un
producto determinado según las distintas perspectivas que se mencionan por Año,
Semestre, Trimestre, Mes y Día. Se utiliza una función Count().
 Ingresos de Operaciones por Tipo de Unidad Organizativa, Tipo de Canal de Ventas,
Tipo de Contrato, Tipo Operación, Tipo de Oferta, Tipo de Producto y Fecha,
representa el monto de tipo ingreso que se recauda según perspectivas que se
mencionan por Año, Semestre, Trimestre, Mes y Día. Se obtiene a partir de un campo
en la base de datos que contiene el monto y otro que especifica si es ingreso o gasto.
 Gastos de Operaciones por Tipo de Unidad Organizativa, Tipo de Canal de Ventas,
Tipo de Contrato, Tipo Operación, Tipo de Oferta, Tipo de Producto y Fecha,
representa los gastos asociados a una operación según las distintas perspectivas que
se mencionan por Año, Semestre, Trimestre, Mes y Día. Se obtiene a partir de un
campo en la base de datos que contiene el monto y otro que especifica si es ingreso
o gasto.
 Tiempo de Respuesta por Tipo de Unidad Organizativa, Tipo de Canal de Ventas,
Tipo de Contrato, Tipo Operación, Tipo de Oferta, Tipo de Producto y Fecha
representa el tiempo que tarda una operación en dar respuesta (completarse). Se
calcula a partir de la resta de la fecha de terminación de la operación menos la fecha
en que comenzó la misma.

A continuación se detallan las asociaciones entre las tablas del diagrama entidad-relación y las
perspectivas definidas en el modelo conceptual.

 Los campos NOMBRE de las tablas PROVINCIA, OFICINA_COMERCIAL y


DIRECCION_TERRITORIAL se relacionan con la perspectiva Tipo de Unidad
Organizativa, como se muestra en la siguiente figura.

47
Capítulo 2

Figura 6: Asociaciones de la perspectiva tipo de unidad organizativa con el diagrama ER.

 Los campos NOMBRE y PRESENCIAL de la tabla TIPO_OFICINA_COMERCIAL se


relacionan con la perspectiva Tipo de Canales de Ventas, a la vez que el campo
TIPO_SOCIO de la tabla SOCIO se relaciona con la perspectiva Tipo de Contrato.
Véase la siguiente figura.

Figura 7: Asociaciones de las perspectivas Tipo de Canales de Venta y Tipo de Contratos con el
diagrama ER.

 Los campos ESPECIFICACION_OPERACION_ID y TIPO_OPERACION de la tabla


ESP_PRODUCTO_ESP_OPERACION se relacionan con la perspectiva Tipo de
Operación como se observa en la siguiente figura.

48
Capítulo 2

Figura 8: Asociaciones de la perspectiva Tipo de Operación con el diagrama ER.

 Los campos NOMBRE y TIPO_OFERTA de las tablas SEGMENTO y OFERTA


respectivamente, se relacionan con la perspectiva Tipo de Oferta como se observa a
continuación.

Figura 9: Asociaciones de la perspectiva Tipo de Oferta con el diagrama ER.

 El campo FECHA_OPERACION de la tabla OPERACION se relaciona con la


perspectiva Fecha (debido a que es la fecha principal de la operación) como se
observa en la siguiente figura.

49
Capítulo 2

Figura 10: Asociaciones de la perspectiva Fecha con el diagrama ER.

 Los campos NOMBRE y TIPO_PRODUCTO de la tabla


ESPECIFICACION_PRODUCTO se relacionan con la perspectiva Tipo de Producto
como se observa en la siguiente figura.

Figura 11: Asociaciones de la perspectiva Tipo de Producto con el diagrama ER.

 El campo MONTO_OPERACION de la tabla OPERACION_CONTABLE se relaciona


con los indicadores Ingresos y Gastos en dependencia del campo
TIPO_OPERACION que es quien define si la operación es gasto o ingreso. Para el
caso de la perspectiva Tiempo de Respuesta se obtiene de la resta de los campos
FECHA_RESPUESTA menos FECHA_OPERACION de la tabla OPERACION. Lo
antes expuesto se puede observar en la siguiente imagen.

50
Capítulo 2

Figura 12: Asociaciones de los indicadores Ingresos, Gastos y Tiempo de respuesta con el diagrama
ER.

Seleccionar los campos que integran las perspectivas.

En este punto se seleccionarán los campos que contendrá cada perspectiva, a través de los
cuales se manipularán y filtrarán los indicadores. A partir de estas se obtienen las tablas de
dimensiones que posteriormente se usarán para construir el modelo lógico de la estructura del
Data Warehouse.

De acuerdo a las correspondencias establecidas en el acápite anterior, se analizaron con varios


especialistas del sistema, los campos residentes en cada tabla a la que se hacía referencia, a
fin de lograr una mayor comprensión de los dichos campos y su significado. Una vez que se
recolectó toda la información pertinente se consultó con los usuarios sobre cuáles eran los
datos que consideraban de interés para analizar los indicadores ya expuestos.

Como resultado se obtuvo la siguiente tabla donde se muestran las dimensiones obtenidas a
partir de las perspectivas, así como, los campos correspondientes a cada dimensión, según los
indicadores que se necesitan determinar. Los campos en negrita constituyen la llave primaria
de cada dimensión.

51
Capítulo 2

Tabla 1: Campos que formarán cada dimensión.

Perspectiva Dimensión Campos


Tipo de Unidad Organizativa tbl_unidadOrganizativa id_Unidad_Organizativa, territorio,
division, oficina_Comercial
Tipo de Canal de Venta tbl_canalVenta id_Canal_Venta, canal_Tipo,
Canal_Venta
Tipo de Contrato tbl_contrato id_Contrato, contrato_Tipo
Tipo de Producto tbl_producto id_Producto, producto_Tipo,
Producto
Tipo de Operación tbl_operacion id_Operacion, operación_Tipo,
Operacion
Tipo de Oferta tbl_oferta id_Oferta, oferta_Tipo
Fecha tbl_fecha id_fecha, anno_id, semestre_id,
trimestre_id, mes_id

Nivel de granularidad.

Se definieron las siguientes jerarquías:

 Unidad Organizativa: Se aplica sobre los atributos territorio, division,


oficina_Comercial. Un territorio contiene una o más divisiones que solo pueden
pertenecer a ese territorio. Por su parte cada división contiene una o más oficinas
comerciales que solo pueden pertenecer a esa división. Ejemplo: Territorio Habana
contiene las Divisiones Habana Norte, Sur, Este y Oeste, que a su vez cada una
contiene varias oficinas comerciales; El Territorio Camagüey, contiene a la División
Camagüey que contiene a todas las unidades organizativas de la provincia.

Figura 13: Jerarquía de Unidad Organizativa.

 Canal de Ventas: Se aplica a los atributos canal_Tipo, esp_Canal. Un tipo de canal


puede contener varias especificaciones de canal y cada una de estas

52
Capítulo 2

especificaciones solo pertenece a un canal de venta. El atributo esp_Canal hace


referencia a una clasificación más definida dentro de los tipos de canales, por ejemplo:
Un canal de venta de tipo presencial puede contener varias especificaciones de
canales que pueden ser telepuntos, minipuntos, oficinas comerciales, entre otros.
En cambio un canal de tipo no presencial pueden ser el Portal de usuarios,
Operaciones Internacionales y aplicaciones Android, entre otros.

Figura 14: Jerarquía de Canal de Venta.

 Producto: Se aplica a los atributos producto_Tipo, esp_Producto. Un tipo de producto


puede contener varias especificaciones de producto y cada una de estas
especificaciones solo pertenece a un producto. El atributo esp_Producto hace
referencia a una clasificación más específica dentro de los tipos de productos, por
ejemplo: un producto de tipo Tarjeta puede contener varias especificaciones o
subtipos de tarjetas como son tarjetas de tráfico de 2 cuc, 5 cuc o 10 cuc. Otro
ejemplo serían los productos de tipo Navegación que tiene especificaciones de
Navegación Internacional con Correo Internacional, Navegación Nacional con
Correo Nacional o Navegación Nacional sin Correo.

Figura 15: Jerarquía de Productos.

53
Capítulo 2

 Operación: Se aplica a los atributos operacion_Tipo, esp_Operacion. Un tipo de


operación puede contener varias especificaciones de operación y cada una de estas
especificaciones solo pertenece a un tipo de operación. El atributo esp_Operacion
hace referencia a un nivel más bajo dentro de los tipos de operaciones, por ejemplo:
las operaciones de tipo Alta pueden ser de Creación de Cuenta o Creación de
Correo, mientras que las operaciones de tipo Recarga pueden ser de Recarga
Básica o Recarga con Desbloqueo.

Figura 16: Jerarquía de Operaciones.

 Fecha: Se aplica a los atributos anno_id, semestre_id, trimestre_id, mes_id, fecha_id.


Un año contiene dos semestres, los que a su vez contienen dos trimestres cada uno.
Cada trimestre contiene tres meses y cada mes contiene entre 28 y 31 días.

Figura 17: Jerarquía de Fechas.

54
Capítulo 2

Teniendo esto en cuenta, se completará el diseño del diagrama conceptual:

Figura 18: Modelo conceptual Ampliado.

2.2.4. Paso 3: Modelo lógico del DW.

En este paso se confeccionan los modelos lógicos de la estructura del DW a partir de los
modelos conceptuales confeccionados según la temática del negocio. El modelo lógico es la
representación de la estructura de datos, que puede procesarse y almacenarse en un sistema
gestor de base de datos. En este caso se utiliza SQL Server 2012 y se seleccionó el esquema
en estrella para el modelo lógico.

Diseño de las tablas de dimensiones.

Las tablas de dimensiones se definen a partir de las perspectivas obtenidas en el primer paso.
Para su diseño se tomó cada perspectiva eligiendo un nombre que la identifique, se añadió un
campo para la clave principal y se redefinieron los nombres de los atributos.

55
Capítulo 2

Figura 19: Diseño de las tablas de dimensiones.

Diseño de las tablas de hechos.

En este paso, se definirán las tablas de hechos, que son las que contendrán los hechos a través
de los cuales se obtendrán los indicadores de estudio. A continuación se describen los pasos
para su diseño:

 Asignar un nombre a la tabla de hechos que represente la información analizada, en


este caso H_Operaciones_Comerciales.
 Definir su clave primaria, a partir de la combinación de las claves primarias de cada
tabla de dimensión relacionada, en el caso actual es la combinación de las llaves:
id_unidad_organizativa, id_operacion, id_canal_venta, id_producto, id_fecha,
id_oferta, id_contrato.
 Definir sus campos de hechos, a partir de los indicadores identificados en el modelo
conceptual y asignándoles un nombre que los identifique. En el caso actual:
cant_operaciones, cant_productos, ingreso_operacion, gasto_operacion,
tiempo_respuesta.

Como resultado se obtiene la tabla de hechos siguiente:

56
Capítulo 2

Figura 20: Diseño de la tabla de hechos.

Diseño de las uniones entre tablas.

En este paso se realizan las uniones correspondientes entre las tablas de dimensiones y las
tablas de hechos obteniendo como resultado el Modelo Lógico del DW que se muestra a
continuación.

Figura 21: Diseño de las uniones entre tablas.

2.2.5. Paso 4: Procesos ETL.

Una vez construido el modelo lógico, se deberá proceder a poblarlo con datos, a través de
procesos ETL. A continuación se describen las sentencias SQL que servirán de base para estos
procesos.

57
Capítulo 2

 Dimensión Tbl_Oferta:

Figura 22: Código SQL para el poblado de la dimensión Tbl_Oferta.


 Dimensión Tbl_Unidad_Organizativa:

Figura 23: Código SQL para el poblado de la dimensión Tbl_Unidad_Organizativa.

 Dimensión Tbl_Operacion:

Figura 24: Código SQL para el poblado de la dimensión Tbl_Operacion.

58
Capítulo 2

 Dimensión Tbl_Fecha:

Para el diseño y carga de la dimensión tiempo se sugiere utilizar la implementación que ofrece
el asistente SQL Server Data Tools para este tipo de dimensión.

 Dimensión Tbl_Producto:

Figura 25: Código SQL para el poblado de la dimensión Tbl_Producto.

 Dimensión Tbl_Contrato:

Figura 26: Código SQL para el poblado de la dimensión Tbl_Contrato.

 Dimensión Tbl_Canal_Venta:

Figura 27: Código SQL para el poblado de la dimensión Tbl_Canal_Venta.

 Tabla de hechos: H_Operaciones_Comerciales:

59
Capítulo 2

Figura 28: Código SQL para el poblado de la dimensión Tbl_Canal_Venta

2.3. Conclusiones del capítulo.

En este capítulo se abordó todo lo referente al diseño e implementación del Data Warehouse
siguiendo la metodología Hefesto lo que permitió obtener y sintetizar las necesidades de
información de los clientes a partir de las cuales se obtuvieron los indicadores y perspectivas
que permitieron el desarrollo del modelo conceptual.

A partir del estudio de las fuentes primarias de datos del Data Warehouse, las correspondencias
con los requerimientos, los campos que integrarán las perspectivas y su nivel de granularidad,
se logró el diseño del modelo lógico del DW, donde se concretaron las tablas de dimensiones y
hechos, así como las uniones entre ellas. Finalmente quedaron definidas las sentencias SQL
que se utilizarán para los procesos ETL que poblarán las dimensiones y hechos.

Al finalizar el capítulo actual, se cuenta con un procedimiento detallado que permite la


implementación del Data Warehousing, con el fin de alcanzar todos los beneficios que conlleva
la implementación de estas poderosas herramientas.

60
Capítulo 3

Capítulo 3. Propuesta de implementación de la arquitectura.


3.1. Introducción.

El presente capítulo hace referencia a la propuesta de implementación de la arquitectura


diseñada, haciendo énfasis en las herramientas a utilizar para el desarrollo de cada uno de los
componentes que forma parte de la misma. Para finalizar se presenta el estudio de la factibilidad
de la arquitectura según el criterio de especialistas en tecnología Data Warehousing.

3.2. Propuesta de Arquitectura.

A partir del diseño de la arquitectura Data Warehousing presentado en el Capítulo 2 se presenta


la propuesta de arquitectura de la solución y a continuación la explicación de cada componente.

Figura 29: Arquitectura Data Warehousing para los servicios de acceso a internet y correo electrónico
de Etecsa.

1. Las fuentes de datos: están representadas por la base de datos de la Aplicación GesNauta.
La base de datos está desarrollada usando el gestor Oracle Server en su versión 11g.

2. ETL: para el proceso ETL se recomienda la herramienta Talend Open Studio, una
herramienta de mucha utilidad para la automatización de muchos procesos que se llevan a cabo
en un negocio tales como: sincronización o replicación de base de datos, procesos ETL para
análisis, transformaciones de datos complejas, carga de grandes volúmenes de datos, entre

61
Capítulo 3

otros (Talend, 2017).

3. DWH: tanto para guardar los datos transformados como para implementar el DW es
fundamental escoger un sistema gestor de Base de datos (SGBD) que responda a los
requerimientos de la organización. En este caso, para lograr una convergencia con las
herramientas que se usan en la actualidad, se utiliza SQL Server 2012 Express, una edición
actual del gestor de base de datos relacionales desarrollado por Microsoft.

4. SIE: como sistema de información para ejecutivos se propone la integración de la herramienta


BI InforPM con el Portal de Ejecutivos de Etecsa, esta última, una aplicación web desarrollada
en PHP con el framework de desarrollo Yii.

A continuación se detalla la propuesta de implementación para cada uno de los componentes


descritos anteriormente.

3.2.1. Herramientas y procesos ETL.

Como se detalló en el capítulo uno para la implementación de los procesos ETL se propone la
utilización de la Suite Talend Open Studio, ideal para la automatización de procesos tales como:
sincronización o replicación de base de datos, procesos ETL para análisis, transformaciones de
datos complejos, carga de grandes volúmenes de datos, entre otros.

A continuación se muestra el diseño del flujo para la carga de datos, aplicable a cualquiera de
las dimensiones o a la tabla de hechos.

Figura 30: Diseño de Proceso ETL para carga y actualización del Data Warehouse

62
Capítulo 3

El flujo se inicia cuando se abren las conexiones a los servidores de entrada (1) y salida (2),
Oracle y SQL Server respectivamente. Si se abren satisfactoriamente las conexiones, se
ejecutan las consultas de extracción de datos (3) que son transformados e integrados (4) para
luego ser insertados en la base de datos destino (5). Finalmente se cierran ambas conexiones
(6) (7). En caso de existir un error en alguno de los componentes se registra una traza (8).

Cada proceso ETL es exportado en un fichero .jar que se ubica en una carpeta predefinida por
el administrador del sistema. A continuación se debe crear un usuario genérico con los permisos
necesarios para la generación de tareas programadas a través de la herramienta Planificador
de tareas (Task Scheduler), en Windows o alguna herramienta equivalente en Linux como Cron
Daemon, en dependencia del sistema operativo donde se despliegue el Data Warehouse.

Figura 31: Pantalla de Task Scheduler de Windows Server 2008.

La frecuencia con que se van a ejecutar las tareas queda definida de la siguiente forma:
 La carga inicial solo se ejecutará una vez para el llenado de las dimensiones y la tabla
de hechos.

63
Capítulo 3

 Para la actualización de la dimensiones se definirá un procedimiento almacenado


encargado de validar si existen cambios en las fuentes de datos, en cuyo caso se
actualizan los datos cambiados o se insertan los nuevos.
 La tabla de hecho se actualizará diariamente en un horario comprendido entre las 12:00
am y 2:00 am, para no afectar el rendimiento de la fuente de datos. Se utilizará el mismo
procedimiento de validación para solo insertar los nuevos registros.

3.2.2. Cubo de datos.

Para la implementación del cubo de datos se propone usar SQL Server 2012, específicamente
SQL Server Data Tools (SSDT), que es un conjunto de herramientas de datos de SQL Server
que abarca todas las fases del desarrollo, mantenimiento y actualización de bases de datos
dentro de Visual Studio. La herramienta para el desarrollo de proyectos de Business Intelligence
en Visual Studio, para Visual Studio 2012 y 2013 estará bajo el nombre de SQL Server Data
Tools sumándose a este nuevo conjunto de herramientas para el desarrollo de base de datos.

Figura 32: Pantalla de la herramienta SQL Server Data Tools.

A través de la conexión con las base de datos que soporta el DW se pueden crear las vistas y
generar las dimensiones y hechos con sus medidas calculadas y jerarquías, agilizando
considerablemente el diseño de Data Warehouse. Como resultado se obtendría el siguiente
diseño:

64
Capítulo 3

Figura 33: Diseño del Data Warehouse.

3.2.3. Creación de los reportes.

Para la creación de los reportes se propone el uso de la herramienta Infor PM que tal y como
se describió en el capítulo uno, permite realizar reportes, análisis financieros y operativos,
paneles de control, planificación desde una interfaz amigable e intuitiva, agilizando los procesos
de análisis. Como punto determinante destaca el hecho de que Etecsa es cliente de Infor PM
en su versión 10.5.1 con un Contrato Anual de Soporte desde el 2007.

Figura 34: Ejemplos de reportes con la herramienta InforPM.

En esta herramienta se establece una conexión con el Data Warehouse y se realizan consultas
para mostrar los datos deseados. Como resultado se obtiene un juego de datos que puede ser
graficado y/o tabulado utilizando las funcionalidades de la herramienta InforPM.

65
Capítulo 3

Figura 35: Ejemplos de tablas y gráficos con InforPM.

3.2.4. Integración con el Sistema de Información para Ejecutivos.

Una vez detallada la herramienta de reportes, se debe analizar su integración con un sistema
de información para ejecutivos. En este caso se implementó como parte de los objetivos anuales
de la empresa en 2016, el Portal Ejecutivo de Etecsa, una aplicación web cuyo objetivo principal
es centralizar toda la información útil para los directivos en una sola aplicación.

Figura 36: Fragmento de la pantalla principal del Portal Ejecutivo.

66
Capítulo 3

Se propone como parte de la arquitectura actual la integración del Data Warehouse con el
Portal de Ejecutivos de Etecsa, en una primera versión, embebiendo vía web los reportes
implementados en InforPM.

Una segunda variante de integración seria la realización de consultas MDX directamente desde
el Portal Ejecutivo, lo que implicaría mayor complejidad de desarrollo y el uso de herramientas
externas.

Como resultado de cualquiera de las dos variantes propuestas, se debe visualizar en una
sección definida dentro del portal un reporte como el que se muestra a continuación.

Figura 37: Pantalla de reportes de InforPM cargados en el Portal Ejecutivo.

Con este paso se concretaría una de las metas principales de este proyecto que sería brindar
a los ejecutivos del primer nivel toda la información resumida y relevante referente a los
principales aspectos de la empresa, en este caso a través del Portal Ejecutivo de Etecsa, a
partir de contar con una herramienta de mucha utilidad para la toma de decisiones en la
empresa.

3.3. Estudio de la factibilidad de la arquitectura propuesta.

En el presente acápite se expone la valoración de la factibilidad de la arquitectura propuesta


según el criterio de especialistas con experiencia en el área de Data Warehousing.

67
Capítulo 3

Para la selección de los especialistas, el autor se basó en 3 criterios principales:

 Años de experiencia en el trabajo con almacenes de datos.


 Funciones de trabajo que desempeñan en relación con este tema. Aquí se tuvieron en
cuenta los trabajos realizados relacionados con el diseño, implementación,
mantenimiento y explotación de almacenes de datos.
 La superación profesional llevada a cabo en temáticas relacionadas con almacenes de
datos, dígase superación individual, postgrados y maestrías.

En dicha selección se tuvo en cuenta que estuvieran representados especialistas que laboren
en los departamentos o áreas de soporte a plataformas empresariales debido a que la mayoría
de éstas, están soportadas sobre arquitecturas Data Warehousing y por tanto estos
especialistas se dedican principalmente al mantenimiento y actualización de los almacenes de
datos de la empresa, así como, a la migración hacia nuevas versiones y tecnologías. También
se tuvo en cuenta el criterio de desarrolladores que implementen este tipo de tecnologías.
Además se decidió tener en cuenta el criterio de algunos directivos, para tener una valoración
más detallada desde el punto de vista de la importancia que representa la arquitectura
propuesta para la empresa. En total se seleccionaron 15 especialistas.

Tabla 2: Selección de especialistas atendiendo a la experiencia en el trabajo con almacenes de datos.

Experiencia (años) Cantidad %


1-5 2 13.3
5-10 6 40
Más de 10 7 46.7

Tabla 3: Selección de especialistas atendiendo a la función que desempeña.

Función Cantidad %
Soporte a plataformas empresariales. 5 33.3%
Mantenimiento e implementación de almacenes de datos. 7 46.7%
Dirección de departamentos. 3 20%

68
Capítulo 3

Tabla 4: Selección de especialistas atendiendo a la superación realizada.

Categoría Cantidad %
Se han superado 15 100
Postgrado 8 53.3
Diplomado 2 13.3
Master 5 33.3

Para que realizaran las valoraciones, se les presentó la arquitectura Data Warehousing
propuesta y se les solicitó que evaluaran según tres indicadores fundamentales: pertinencia,
novedad y necesidad; además se les solicitó sugerencias o recomendaciones para su
perfeccionamiento.

Tabla 5: Indicadores y Métricas de la encuesta.

Indicador Métricas
Pertinencia  El diseño cuenta con una estructura adecuada y está correctamente
proyectado hacia el objetivo trazado en la investigación.
 Las herramientas propuestas están acordes a los lineamientos
tecnológicos de la empresa y es factible su instalación - mantenimiento.
Novedad  La tecnología propuesta es novedosa en el área de los servicios de
acceso a internet y correo electrónico.
 Las herramientas propuestas son actuales
Necesidad  La implementación de la arquitectura propuesta permite obtener
información precisa, oportuna y veraz a los directivos como apoyo a la
toma de decisiones en los servicios de acceso a internet y correo
electrónico de Etecsa.
 Constituye un material de consulta que puede ser empleado como
guía para la implementación y puesta en práctica de otras arquitecturas
Data Warehousing en distintas áreas de la empresa.

A partir de los indicadores expuestos se diseñó una encuesta mediante la cual, los especialistas

69
Capítulo 3

evaluarían la arquitectura propuesta en un rango de 1 a 5 puntos (Anexo 12), los cuales se


suman y promedian por cada indicador obteniéndose un valor que equivale a las evaluaciones
de Mal, Regular, Bien, Muy Bien y Excelente, siendo 5 el equivalente a Excelente.

Como resultado de este estudio se obtuvieron las siguientes estadísticas:

Tabla 6: Resultados Generales Obtenidos.

Evaluación
Indicador
M R B MB E
Pertinencia 0 0% 1 6.7% 3 20% 8 53.3% 3 20%
Novedad 0 0% 0 0% 2 13.3% 9 60% 4 26.7%
Importancia 0 0% 0 0% 1 6.7% 2 13.3% 12 80%
Totales 0 0% 1 2.3% 6 13.3% 19 42.2% 19 42.2%

REPRESENTACIÓN GRÁFICA DE LOS RESULTADOS POR INDICADORES

12

10

8 Mal
Regular
6 Bien
Muy Bien
4 Excelente

0
Pertinencia Novedad Importancia

70
Capítulo 3

REPRESENTACIÓN GRÁFICA DE LOS RESULTADOS GENERALES

0
1
6

Mal
19
Regular
Bien
Muy Bien
Excelente
19

Los resultados generales se presentan a continuación a manera de resumen por cada uno de
los indicadores y las opiniones emitidas:

1. Más de la mitad de los especialistas (53.3 %) considera de muy buena la pertinencia de


la arquitectura propuesta y 20% de ellos la califica como excelente. Del resto 20% la
considera buena y solo 6.7% (un especialista) la califica como regular, en este caso
porque considera que existen otras herramientas más adecuadas que las propuestas en
la investigación, aunque no rechaza la utilización de las planteadas. De lo anterior se
concluye que la arquitectura propuesta es pertinente y cumple los objetivos de la
investigación.
2. Los especialistas consideran la arquitectura como novedosa teniendo en cuenta que en
la actualidad no existe un Data Warehouse que permita analizar los datos integrados,
observar comportamientos históricos y tendencias en las operaciones comerciales que
se generan a partir de los servicios de acceso a internet y correo electrónico de Etecsa
y estos se realizan de forma manual o con la herramienta Excel, por lo que las
tecnologías y herramientas son novedosas. 60% la evalúa como muy buena en este
sentido mientras que 13.3 % y 26.7% la evalúan como buena y excelente
respectivamente. No hubo ninguna evaluación de mal o regular.

71
Capítulo 3

3. 80% de los especialistas considera que es necesaria la arquitectura Data Warehousing.


El mayor peso de esta decisión lo tuvo el hecho de que la aplicación GesNauta, que
utiliza una base de datos relacional, no cuenta con los recursos suficientes para realizar
las complejas operaciones de búsquedas históricas y diarias que se requieren y por tanto
se afecta el rendimiento en la gestión comercial de los servicios de internet y correo, que
es su objetivo principal. Además, se considera una buena guía para la implementación
de este tipo de tecnologías en otras áreas de la empresa y recomiendan su
generalización a dichas áreas. 13.3 % y 6.7% la evalúan como Muy buena y buena
respectivamente en este sentido, sin que existan evaluaciones de regular o mal.
4. Como principales recomendaciones se mencionó la posibilidad de incluir nuevos
indicadores y perspectivas en el almacén de datos que faciliten el análisis de la
información así como, la capacitación a especialistas con menor grado de conocimiento
sobre esta temática.

De manera general, 13.3%, 42.2% y 42.2% de los especialistas consultados evalúan la


propuesta de arquitectura como Bien, Muy Bien y Excelente, respectivamente lo que equivale
a 96% de aceptación y solo 2.3% la evalúa como regular, por lo que se puede concluir que es
factible la implementación de la arquitectura propuesta.

3.4. Conclusiones Parciales

Al concluir este capítulo quedaron definidas las herramientas y procedimientos propuestos para
la implementación de la arquitectura planteada, se completaron de esta manera todas las tareas
referentes a su propuesta de diseño e implementación, así como, su integración final con el
Portal Ejecutivo de Etecsa, herramienta que integrará y consolidará los resultados de este Data
Warehouse con los de otras áreas de la empresa.

Luego del análisis de los resultados de la encuesta aplicada a especialistas y directivos de la


empresa con años de experiencia en el tema Data Warehousing, quedó demostrada la
factibilidad de la arquitectura propuesta, al obtenerse un alto nivel de aceptación.

72
Conclusiones Generales.

Conclusiones Generales
Teniendo en cuenta el auge de Internet y los grandes volúmenes de información que están manejando
las empresas de telecomunicaciones, cada vez se hace más imperioso el uso de arquitecturas Data
Warehousing debido a la reducción de los costes de almacenamiento y una mayor velocidad de
respuesta frente a las complejas y crecientes consultas de los usuarios.

La utilización de la Metodología Hefesto, permitió identificar fácilmente objetivos y resultados


alcanzados, los cuales son sencillos de comprender, con lo que se determinó las necesidades del
negocio, a partir de los requerimientos del usuario involucrándolo así en cada etapa para la toma de
decisiones oportunas ante los cambios del negocio, gracias a su estructura adaptable. Permitió
además, contar con un procedimiento bien detallado y estructurado para la implementación de Data
Warehouse propuesto.

La propuesta de arquitectura se sustentó en la integración de herramientas para el diseño del Data


Warehouse y los procesos de extracción, transformación y carga de datos (ETL); se diseñaron todos
los elementos estructurales con éxito. El diseño de la arquitectura Data Warehousing agilizará el
proceso de implementación del mismo, además de proporcionar una guía para el desarrollo de tareas
similares en otras áreas de la empresa.

Quedó demostrada la factibilidad de la arquitectura a través de una encuesta aplicada a especialistas


y directivos de la empresa con años de experiencia en el tema Data Warehousing y se obtuvieron
resultados favorables y un alto nivel de aceptación.

Por todo lo anterior, se considera que una vez implementada la arquitectura propuesta, se contará con
un sistema Data Warehousing para el apoyo a la toma de decisiones en los servicios de acceso a
internet y correo electrónico de Etecsa, el cual propiciará que el proceso se ejecute de manera eficaz
en los diferentes niveles estratégicos de la organización, y de respuesta al problema de obtener
información precisa, oportuna y veraz, cumpliendo así el objetivo de esta investigación.

73
Recomendaciones.

Recomendaciones
Al finalizar la investigación se alcanzaron los objetivos previstos y en tal sentido, se considera
procedente realizar las siguientes recomendaciones:

1. Implementar la arquitectura a partir del diseño propuesto en la investigación.


2. Continuar enriqueciendo la solución, a partir de la inclusión de nuevos indicadores y perspectivas
del negocio que permitan satisfacer las necesidades de información emergentes de los directivos.
3. Incrementar las posibilidades de análisis con la inclusión de técnicas de minería de datos que
faciliten la extracción de conocimiento útil y relevante de la misma.

74
Referencias Bibliográficas.

Referencias Bibliográficas
Adkison, D. (2013). IBM Cognos Business Intelligence: Packt Publishing Ltd.

Almenara, J. C. (2000). LAS APORTACIONES DE LAS NUEVAS TECNOLOGÍAS A LAS


INSTITUCIONES DE FORMACIÓN CONTÍNUAS: REFLEXIONES PARA COMENZAR EL
DEBATE.

Amador, M. (2015). Estadísticas del Sector de Telecomunicaciones: Informe 2014. Costa Rica:
Superintendencia de Telecomunicaciones.

Aronson, J. E., Liang, T.-P., & Turban, E. (2005). Decision support systems and intelligent systems: Pearson
Prentice-Hall.

Bernabeu, D. (2010). HEFESTO: Metodología para la Construcción de un Data Warehouse. Cordoba,


Argentina.

Brownlow, M. (2009). Email and webmail statistics. Email Marketing Reports.

Calzada, L., & Abreu, J. L. (2009). El impacto de las herramientas de inteligencia de negocios en la toma de
decisiones de los ejecutivos (The impact of business intelligence tools in executive business decisions).
Daena: International Journal of Good Conscience, 4(2), 16-52.

Costeira, H. S. (2013). Servicios de internet. Vida Científica Boletín de la Escuela Preparatoria No. 4, 1(2).

Council, F. N. (1995). FNC Resolution: Definition of" Internet" Federal Networking Council. Accesible en
http://www. hpcc. gov/fnc/Internet_res. html (11 de septiembre, 2002).

CubaDebate. (2014). Cubanos enviaron 29 millones de correos a través del servicio celular. Retrieved from
CubaDebate website: http://www.cubadebate.cu/noticias/2014/06/24/cubanos-enviaron-29-millones-de-
correos-a-traves-del-servicio-celular/#.WJ3rb_LiuNI

CubaDebate. (2017). ETECSA: Telefonía, informatización y despliegue de Internet en Cuba. Retrieved from
CubaDebate website: http://mesaredonda.cubadebate.cu/mesa-redonda/2017/02/01/etecsa-telefonia-
informtizacion-y-despliegue-de-internet-en-cuba-video/

Chan, J. O. (2015). Optimizing Data Warehousing Startegies. Communications of the IIMA, 5(1), 1.
I
Referencias Bibliográficas.

Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000). CRISP-DM 1.0
Step-by-step data mining guide.

Chen, H., Chiang, R. H., & Storey, V. C. (2012). Business intelligence and analytics: From big data to big
impact. MIS quarterly, 36(4).

Choo, C. W., Detlor, B., & Turnbull, D. (2013). Web work: Information seeking and knowledge work on the
World Wide Web (Vol. 1): Springer Science & Business Media.

Davenport, T. H., & Harris, J. G. (2007). Competing on analytics: The new science of winning: Harvard
Business Press.

Décary-Hétu, D., Dupont, B., & Fortin, F. (2014). Policing the hackers by hacking them: Studying online
deviants in IRC chat rooms Networks and network analysis for defence and security (pp. 63-82):
Springer.

Departamento. (2012). Guía para la construcción de Indicadores de Gestión: Departamento Administrativo de la


Función Pública.

Erl, T., Khattak, W., & Buhler, P. (2016). Big data fundamentals: concepts, drivers & techniques: Prentice Hall
Press.

Espinosa, R. Fases en la implantación de un sistema DW. Metodología para la construcción de un DW. El


Rincón del BI.[en línea] 2009.

Etecsa. (2016). Etecsa.

Fernández, C. (2012). DATAPRIX. Herramientas de ETL. http://www.dataprix.com/es/herramientas-etl

Freitas, A. A. (2013). Data mining and knowledge discovery with evolutionary algorithms: Springer Science &
Business Media.

Fuentes Tapia, L., & Valdivia Pinto, R. (2010). Incorporación de elementos de inteligencia de negocios en el
proceso de admisión y matrícula de una Universidad Chilena. Ingeniare. Revista chilena de ingeniería,
18(3), 383-394.

Galán, F., Romeral, R., García, A., García, A. B., Álvarez-Campana, M., & Azcorra, A. (2003). MIRA:
II
Referencias Bibliográficas.

Plataforma de monitorización y análisis de tráfico para redes IP. Recuperado el, 22.

García, J. H. M. (2010). La inteligencia de negocios como herramienta para la toma de decisiones estratégicas
en las empresas. Análisis de su aplicabilidad en el contexto corporativo colombiano.

García Martínez, R., Lelli, R., Merlino, H., Cornachia, L., Rodriguez, D., Pytel, P., & Arboleya, H. (2011).
Ingeniería de Proyectos de Explotación de Información para PYMES. Paper presented at the XIII
Workshop de Investigadores en Ciencias de la Computación.

Gartner. (2017). Microsoft lidera el Cuadrante Mágico de Gartner 2017 en analítica y BI.

Gerencia de Asuntos Legales, E. (2007). Carta de Aprobación de Asistecia técnica de Servicios MIS/INFOR,
Servicios asociados a la ampliación de licencias Balanced Scorecard.

Gómez, A. A. R., & Bautista, D. W. R. (2010). Inteligencia de negocios: Estado del arte. Scientia et technica,
1(44), 321-326.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The WEKA data mining
software: an update. ACM SIGKDD explorations newsletter, 11(1), 10-18.

Inmon, W. H. (2005). Building the data warehouse: John wiley & sons.

Jarke, M., Lenzerini, M., Vassiliou, Y., & Vassiliadis, P. (2013). Fundamentals of data warehouses: Springer
Science & Business Media.

Kemp, S. (2017). Digital in 2017: Global Overview. We Are Social.

Kimball, R., & Ross, M. (2011). The data warehouse toolkit: the complete guide to dimensional modeling: John
Wiley & Sons.

Kimball, R., & Ross, M. (2015). The Kimball Group Reader: Relentlessly Practical Tools for Data
Warehousing and Business Intelligence Remastered Collection: John Wiley & Sons.

Lee, D., Moon, J., Kim, Y. J., & Mun, Y. Y. (2015). Antecedents and consequences of mobile phone usability:
Linking simplicity and interactivity to satisfaction, trust, and brand loyalty. Information & Management,
52(3), 295-304.

III
Referencias Bibliográficas.

Leopoldo, C. G., & Octavio, O. H. J. (2010). Diseño de un Almacén de datos basado en Data Warehouse
Engineering Process (DWEP) y HEFESTO.

Luján-Mora, S. (2005). Data warehouse design with UML. Software and Computing Systems, 291.

Manageability. (2013). Open Source ETL (Extraction, Transform, Load) Written in Java.
http://www.manageability.org/blog/stuff/open-source-etl/view

Martins, C., Oliveira, T., & Popovič, A. (2014). Understanding the Internet banking adoption: A unified theory
of acceptance and use of technology and perceived risk application. International Journal of Information
Management, 34(1), 1-13.

Matos, G., Chalmeta, R., & Coltell, O. (2006). Metodología para la extracción del conocimiento empresarial a
partir de los datos. Información tecnológica, 17(2), 81-88.

MICOM. (2015). Ministerio de las Comunicaciones.

Minelli, M., Chambers, M., & Dhiraj, A. (2012). Big data, big analytics: emerging business intelligence and
analytic trends for today's businesses: John Wiley & Sons.

Monteagudo Peña, J. L. (2004). Tecnologías de la Información y Comunicaciones. Educación Médica, 7, 15-22.

Negash, S., & Gray, P. (2008). Business intelligence. Handbook on decision support systems 2, 175-193.

Oestreich, T. W. (2016). Magic quadrant for business intelligence and analytics platforms. Analyst (s), 501,
G00275847.

Oz, E. O. (2008). Administración de los sistemas de información: Thomson.

Pollo Cattaneo, M. F., Amatriain, H. G., Rodriguez, D., Pytel, P., Ciccolella, E., Vegega, C., . . . Giordano, F.
(2010). Ingeniería de proyectos de explotación de la información. Paper presented at the XII Workshop
de Investigadores en Ciencias de la Computación.

Postel, J., & Reynolds, J. (1985). File transfer protocol.

Power, D. J., Sharda, R., & Burstein, F. (2015). Decision support systems: Wiley Online Library.

PROTOCOL, F. T. (2017). FTP.


IV
Referencias Bibliográficas.

Ramos, S. (2011). Microsoft Business Intelligence: vea el cubo medio lleno. Microsoft Business Intelligence:
vea el cubo medio lleno.

Reyes, F., Sady, C., & Ruiz Lobaina, M. (2007). Minería Web: un recurso insoslayable para el profesional de la
información. Acimed, 16(4), 0-0.

Rittman, M. (2012). Oracle Business Intelligence 11g Developers Guide: McGraw-Hill Osborne Media.

Röpke, J. (2003). Transforming knowledge into action. Knowing-doing Gap Worksshop in Bandung/Indonesia.

Rovira, S., Santoleri, P., & Stumpo, G. (2013). Incorporación de TIC en el sector productivo: uso y desuso de
las políticas públicas para favorecer su difusión. Entre mitos y realidades. TIC, políticas públicas y
desarrollo productivo en América Latina. Santiago: CEPAL, 2013. LC/L. 3600 p. 17-54.

Sagiroglu, S., & Sinanc, D. (2013). Big data: A review. Paper presented at the Collaboration Technologies and
Systems (CTS), 2013 International Conference on.

Sathiyamoorthi, V. (2017). Fundamentals of Data Mining and Data Warehousing Advancing Cloud Database
Systems and Capacity Planning With Dynamic Applications (pp. 1-26): IGI Global.

Solutions, F. (2014). Infor Business Intelligence: A Comprehensive Business Intelligence Solution., from
http://forpoint.com.au/products/infor-business-intelligence/

Soto, J. A. M. (2011). Business Intelligence. Teoría y conceptos.

Statista. (2016). Statistics and facts on internet usage worldwide. Retrieved from Statista. The Statistics Portal
website: https://www.statista.com/topics/1145/internet-usage-worldwide/

Trejo, E. (2006). Regulación jurídica de Internet. Paper presented at the Cámara de Diputados del H. Congreso
de la Unión. LXI Legislatura. Recuperado de: http://www. diputados. gob. mx/sedia/sia/spe/SPE-ISS-
12-06. pdf.

Trujillo, J., Soler, E., Zubcoff, J., Mazón, J., Glorio, O., Pardillo, J., . . . Paramá, J. (2007). Desarrollo de
almacenes de datos dirigido por modelos. España: Universidad de Alicante.

Urra Medina, E., & Barría Pailaquilén, R. (2010). La revisión sistemática y su relación con la práctica basada en
la evidencia en salud. Rev. Latino-Am. Enfermagem, 18(4), 824-831.
V
Referencias Bibliográficas.

Wallace, P. (2015). The psychology of the Internet: Cambridge University Press.

Weiss, G. M. (2005). Data mining in telecommunications Data Mining and Knowledge Discovery Handbook
(pp. 1189-1201): Springer.

World, N. (2013). En 2020 el volumen de información será de 35,2 ZB. Retrieved from Network World España
website: http://www.networkworld.es/big-data/en-2020-el-volumen-de-informacion-sera-de-352-zb

VI
Anexos.

Anexos
Anexo 1: Estadísticas de internet para enero de 2017 según WeAreSocial.com

Anexo 2: Estructura de una base de datos multidimensional

Anexo 3: Ejemplos de tablas de dimensiones

VII
Anexos.

Anexo 4: Ejemplo de jerarquía en una dimensión.

Anexo 5: Ejemplo de tabla de hechos y su relación con las tablas de dimensiones.

Anexo 6: Ciclo de vida para la construcción de un almacén de datos según Ralph Kimball.

VIII
Anexos.

Anexo 7: Enfoque Inmon para un DW Corporativo.

Anexo 8: Metodología HEFESTO, pasos.

Anexo 9: Tabla comparativa de las metodologías Kimball, Inmon y Hefesto.

No Factores de Análisis Kimball Inmon HEFESTO


1 Flexibilidad Medio Alto Alto
2 Adaptable sobre cualquier tecnología Si Si (1) Si
3 Afinidad con el sistema en desarrollo Medio Medio Alto
4 Comunicación con el cliente Alto Alto Alto
5 Tamaño del Proyecto Todos Todos Pequeño/Mediano
6 Tiempo en el análisis y diseño Costoso (iterativo) Medio una sola vez Medio una sola vez
7 Tiempo en construcción Costoso Medio Bueno
8 Etapa de implantación Si Si No
10 Fácil entendimiento principiantes NO NO Si
11 Revisión Post Implantación Si Si No
13 Perspectiva Estrella Relacional Estrella/Copo Nieve
14 Rápido acceso en reportes Alta Baja Media
15 Más usada en el mundo Baja Alta Alta

IX
Anexos.

Anexo 10: Tabla comparativa de herramientas ETL

Anexo 11: Cuadrante Mágico de Gartner, Febrero de 2017.

X
Anexos.

Anexo 12: Encuesta de validación de factibilidad para especialistas.

XI

También podría gustarte