Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2017
los servicios de acceso a Internet y
correo electrónico de Etecsa
Autor:
Ing. Noslen Olavarrieta Pérez
Tutores:
DrC. Yaile Caballero Mota
MSc. Geysel Salgado Rodríguez
Camagüey, 2017
AGRADECIMIENTOS
A mis tutoras Geysel y Yaile por toda su dedicación y esfuerzo para que este trabajo
alcanzara sus objetivos. Gracias por ser la guía que tanto necesitamos para ser
mejores profesionales en nuestro trabajo.
Al mejor equipo de trabajo que se pudiera tener, Vivian, Belkis, Richard, Yanet y
Tania, por todas las horas de desvelo, entre revisiones, consultas y apuros. Sin su
apoyo hoy no estaría aquí.
Al equipo Nauta y el resto de mis compañeros de trabajo, por toda la ayuda brindada
en la realización de este trabajo.
A mis compañeros de maestría que han compartido estos dos años, llenos de
alegrías y penurias en los hoteles y los viajes, buenos y malos momentos,
discusiones y celebraciones que al final han forjado más que una amistad, una
hermandad.
A Yasmín, Olmedo y todos esos amigos que de una forma u otra me han ayudado
a estar aquí hoy.
Por último y los más importantes, a mi familia: mis padres (los de sangre y los de
corazón); a mis hermanos; a mi campeón Víctor y mi sobrina del alma Amelia; a
Lauri. Ustedes son mi razón de ser, el motivo principal de superarme y ser mejor
cada día. Gracias por existir.
DEDICATORIA
A mi Victor.
Resumen
RESUMEN
ABSTRACT
Data Warehousing has been the center of architecture for information systems since
the 1990s and today plays a fundamental role within companies for decision making.
The present work aims to design the architecture of a Data Warehouse as support
for decision making in the services of Internet access and webmail of Etecsa. The
system includes location components of data sources, extraction, cleaning,
assembly and summarization.
ÍNDICE DE CONTENIDO
Introducción. .............................................................................................................................................. 1
Capítulo 1. Los sistemas Data Warehousing para el análisis de la información
en las empresas de telecomunicaciones. ..................................................................................... 9
1.1. Introducción. ............................................................................................................................... 9
1.2. Análisis de información en los servicios de Internet. .................................................. 9
1.3. Los sistemas Data Warehousing para el análisis de información........................ 12
1.3.1. Arquitectura Data Warehousing .............................................................................. 12
1.3.2. Metodologías para el diseño Data Warehousing ............................................... 24
1.3.3. Herramientas .................................................................................................................. 28
1.4. Estado actual del análisis de información en los servicios de internet y correo
electrónico de Etecsa. ........................................................................................................................ 36
1.5. Conclusiones parciales ......................................................................................................... 39
Capítulo 2. Diseño del Data Warehouse. ................................................................................... 40
2.1. Introducción. ............................................................................................................................ 40
2.2. Aplicación de la metodología. ............................................................................................ 40
2.2.1. Análisis de la empresa ................................................................................................. 40
2.2.2. Paso 1: Análisis de Requerimientos. ...................................................................... 43
2.2.3. Paso 2: Análisis de los OLTP. ..................................................................................... 45
2.2.4. Paso 3: Modelo lógico del DW. .................................................................................. 55
2.2.5. Paso 4: Procesos ETL.................................................................................................... 57
2.3. Conclusiones del capítulo. ................................................................................................... 60
Capítulo 3. Propuesta de implementación de la arquitectura. ..................................... 61
3.1. Introducción. ............................................................................................................................ 61
3.2. Propuesta de Arquitectura. ................................................................................................ 61
3.2.1. Herramientas y procesos ETL................................................................................... 62
3.2.2. Cubo de datos. ................................................................................................................. 64
3.2.3. Creación de los reportes. ............................................................................................ 65
3.2.4. Integración con el Sistema de Información para Ejecutivos. ........................ 66
3.3. Estudio de la factibilidad de la arquitectura propuesta. ......................................... 67
3.4. Conclusiones Parciales ......................................................................................................... 72
Índices.
ÍNDICES DE FIGURAS
Figura 1: Estructura del Data Warehouse. ................................................................................... 15
Figura 2: Arquitectura del Data Warehousing............................................................................. 16
Figura 3: Organigrama de la empresa. ....................................................................................... 42
Figura 4: Modelo Conceptual resultante. .................................................................................... 45
Figura 5: Fragmento del diagrama entidad-relación de la Base de datos GesNauta. ........ 46
Figura 6: Asociaciones de la perspectiva tipo de unidad organizativa con el diagrama ER.
........................................................................................................................................................... 48
Figura 7: Asociaciones de las perspectivas Tipo de Canales de Venta y Tipo de Contratos
con el diagrama ER. ....................................................................................................................... 48
Figura 8: Asociaciones de la perspectiva Tipo de Operación con el diagrama ER. ............. 49
Figura 9: Asociaciones de la perspectiva Tipo de Oferta con el diagrama ER...................... 49
Figura 10: Asociaciones de la perspectiva Fecha con el diagrama ER. ................................. 50
Figura 11: Asociaciones de la perspectiva Tipo de Producto con el diagrama ER. .............. 50
Figura 12: Asociaciones de los indicadores Ingresos, Gastos y Tiempo de respuesta con el
diagrama ER. ................................................................................................................................... 51
Tabla 1: Campos que formarán cada dimensión. ..................................................................... 52
Figura 13: Jerarquía de Unidad Organizativa. ............................................................................ 52
Figura 14: Jerarquía de Canal de Venta. .................................................................................... 53
Figura 15: Jerarquía de Productos. ............................................................................................... 53
Figura 16: Jerarquía de Operaciones........................................................................................... 54
Figura 17: Jerarquía de Fechas. .................................................................................................... 54
Figura 18: Modelo conceptual Ampliado. .................................................................................. 55
Figura 19: Diseño de las tablas de dimensiones. ........................................................................ 56
Figura 20: Diseño de la tabla de hechos. .................................................................................... 57
Figura 21: Diseño de las uniones entre tablas. ............................................................................ 57
Figura 22: Código SQL para el poblado de la dimensión Tbl_Oferta. ..................................... 58
Figura 23: Código SQL para el poblado de la dimensión Tbl_Unidad_Organizativa. ........... 58
Figura 24: Código SQL para el poblado de la dimensión Tbl_Operacion. ............................. 58
Figura 25: Código SQL para el poblado de la dimensión Tbl_Producto. ................................ 59
Figura 26: Código SQL para el poblado de la dimensión Tbl_Contrato. ................................. 59
Figura 27: Código SQL para el poblado de la dimensión Tbl_Canal_Venta. ......................... 59
Figura 28: Código SQL para el poblado de la dimensión Tbl_Canal_Venta .......................... 60
Figura 29: Arquitectura Data Warehousing para los servicios de acceso a internet y correo
electrónico de Etecsa. ................................................................................................................... 61
Índices.
Figura 30: Diseño de Proceso ETL para carga y actualización del Data Warehouse ............ 62
Figura 31: Pantalla de Task Scheduler de Windows Server 2008. .............................................. 63
Figura 32: Pantalla de la herramienta SQL Server Data Tools. .................................................. 64
Figura 33: Diseño del Data Warehouse. ....................................................................................... 65
Figura 34: Ejemplos de reportes con la herramienta InforPM.................................................... 65
Figura 35: Ejemplos de tablas y gráficos con InforPM. ............................................................... 66
Figura 36: Fragmento de la pantalla principal del Portal Ejecutivo. ........................................ 66
Figura 37: Pantalla de reportes de InforPM cargados en el Portal Ejecutivo. ......................... 67
Índices.
Índice de Tablas
Tabla 1: Campos que formarán cada dimensión. ..................................................................... 52
Tabla 2: Selección de especialistas atendiendo a la experiencia en el trabajo con
almacenes de datos. ..................................................................................................................... 68
Tabla 3: Selección de especialistas atendiendo a la función que desempeña. .................. 68
Tabla 4: Selección de especialistas atendiendo a la superación realizada. ......................... 69
Tabla 5: Indicadores y Métricas de la encuesta. ........................................................................ 69
Tabla 6: Resultados Generales Obtenidos. .................................................................................. 70
Introducción
Introducción.
Los avances de las Tecnologías de la Información y las Comunicaciones (TIC) han
revolucionado el modo de vivir de los seres humanos. Estos se encuentran fuertemente
relacionados con los grandes adelantos que se conciben en forma de instrumentos y se insertan
en la sociedad, originando un mayor nivel y calidad de vida. Como consecuencia a dicho
desarrollo, empresas, organizaciones y gobiernos prestan un gran interés a este tema,
centrando sus objetivos en explotar las facilidades que ofrece para su desempeño y
convirtiéndolo en un elemento estratégico en términos de competitividad (Rovira, Santoleri, &
Stumpo, 2013).
La dimensión social de las TIC se vislumbra atendiendo a la fuerza que tienen en los diferentes
ámbitos y a las nuevas estructuras sociales que están emergiendo, lo que produce una
interacción constante entre la tecnología y la sociedad (Monteagudo Peña, 2004). Según
Cabero1 las TIC giran en torno a tres medios básicos: la informática, la microelectrónica y las
telecomunicaciones; de forma interactiva e integradas entre sí, lo que permite conseguir nuevas
realidades comunicativas (Almenara, 2000).
1
Julio Cabero Almenara es catedrático de Didáctica y Organización Escolar en la Universidad de Sevilla. Es director del
Secretariado de Recursos Audiovisuales y Nuevas Tecnologías. Ha recibido el Premio de la Real Maestranza de Caballería. Ha
publicado diferentes obras sobre la temática de tecnología educativa y las nuevas tecnologías aplicadas a la educación. Es
director de la revista “Pixel-Bit. Revista de medios y educación”.
1
Introducción
en el prestigioso portal Statista, en enero del 2016 la tasa de penetración de Internet a nivel
mundial era del 46% para 3.42 billones de usuarios, con un crecimiento del 35% en relación al
año 2013 mientras que la tasa de penetración de las redes sociales a nivel mundial es de 31%
para 2.31 billones de usuarios, con un crecimiento de 10% en relación al año 2015 (Statista,
2016).
Estos datos operacionales incluyen tráfico, estadísticas de utilización y fallas en varios niveles
de detalle, que regularmente esconden conocimiento crucial para algunas tareas involucradas
en la administración de una red de telecomunicaciones.
2
Un Zettabytes es igual a 1 trillón de Gigabytes
3
Gary M. Weiss es profesor asociado de Informática y Ciencias de la Información en la Universidad de Fordham. Trabajó en
los Laboratorios Bell y luego en AT & T Labs. El Dr. Weiss comenzó su carrera en AT & T como ingeniero de software. Pasó
sus últimos 5 años en AT & T en un grupo de análisis de marketing, utilizando métodos de minería de datos para resolver
problemas complejos de negocios.
2
Introducción
telefonía móvil y fija, refiriéndose el primero a las comunicaciones de voz sobre la red
inalámbrica y la fija a las líneas y equipos que se encargan de la comunicación entre terminales
telefónicas, generalmente enlazadas entre ellas o con la central, por medio de conductores
metálicos (Amador, 2015).
Internet es una red integrada por miles de redes y computadoras interconectadas en todo el
mundo mediante cables y señales de telecomunicaciones, que utiliza como protocolo de
comunicación TCP/IP (Transmission Control Protocol/Internet Protocol). Su popularidad se ha
incrementado en los últimos años debido a su capacidad de almacenar, en un mismo lugar,
información de todo tipo para diferentes usuarios. Dentro de sus utilidades más comunes se
encuentran la búsqueda de información, intercambios de correos electrónicos, realización de
transacciones comerciales y mensajerías instantáneas (Wallace, 2015).
Uno de los rasgos que caracterizan los servicios de acceso a internet que brindan las empresas
de telecomunicaciones, es la cantidad de información que genera y almacena, referente a las
trazas de tráfico. Constituye una necesidad para todas las empresas de telecomunicaciones
hacer un uso eficiente de la información que estas proveen, por lo que es preciso la utilización
de algún tipo de análisis automatizado para obtener algún rendimiento. Como consecuencia las
empresas, como estrategia, combinan y reinventan los procesos analíticos y de servicios,
haciendo uso de la Inteligencia de Negocio (BI, Business Intelligence) (Weiss, 2005).
3
Introducción
Uno de los conceptos más acertados para la definición de BI es el descrito por Thomas H.
Davenport, el cual hace mención al término como: “Conjunto de Tecnologías y Procesos que
utilizan datos para entender y analizar el desempeño del negocio” (Davenport & Harris, 2007).
BI permite a las empresas planear opciones para reducir los ciclos de desarrollo de productos,
agilizar operaciones y evaluar la factibilidad para la mejora de sus ingresos. Igualmente facilita
un análisis de tendencias que representen oportunidades nuevas, además de anticipar
problemas potenciales, con el objetivo de realizar ajustes correspondientes antes de que se
conviertan en un asunto difícil de solucionar (Chen, Chiang, & Storey, 2012).
Para apoyar este procedimiento y lograr el aprovechamiento de los datos históricos también es
utilizado el proceso de KDD (Knowledge Discovery in Database), encargado de la recolección,
procesamiento y almacenamiento de los datos. Este consta de una secuencia iterativa de
etapas, que son: selección de datos, limpieza de datos, transformación de datos, reducción de
datos, minería de datos, evaluación de los patrones e interpretación de resultados (Freitas,
2013).
Las empresas de telecomunicaciones en gran medida también forman parte de los clientes que
recurren a las herramientas de BI. Un complicado y exigente sector como es el de las
telecomunicaciones supone siempre nuevos retos a la hora de analizar grandes volúmenes de
información y tomas de decisiones oportunas, de manera que puedan conducir el negocio hacia
sus objetivos estratégicos.
4
Introducción
4
Proceso de utilización ordenada y masiva de las Tecnologías de la Información y las Comunicaciones en la vida cotidiana,
para satisfacer las necesidades de todas las esferas de la sociedad, en un esfuerzo por lograr cada vez más eficacia y eficiencia
en todos los procesos y por consiguiente mayor generación de riqueza y aumento en la calidad de vida de los ciudadanos.
5
Introducción
Este sistema genera un excesivo volumen de datos, que resulta imprescindible estructurar y
categorizar para alcanzar la compresión del negocio. Para realizar análisis, la Dirección Central
de Comercial y Mercadotecnia, perteneciente a Etecsa, exporta toda la información a formato
Excel a partir de los reportes que brinda GesNauta o solicitan a los desarrolladores del sistema
información que se obtiene por consultas realizadas directamente a la base de datos. Como
consecuencia, los tiempos de respuesta son más lentos, presentan insuficiencias en los
informes por no ser dinámicos, flexibles e interactivos, lo que atenta además, contra el
rendimiento del sistema y de la base de datos por las operaciones que se están llevando a cabo.
El análisis de esta información y la medición de los resultados que aporta, se convierte entonces
en un proceso complejo y la empresa requiere de mecanismos que permitan lograr una
planificación efectiva y evaluar el cumplimiento de los objetivos y las metas (Departamento,
2012).
Para darle solución al problema antes mencionado se plantea como objetivo general de esta
memoria escrita: diseñar la arquitectura Data Warehousing para apoyar la toma de decisiones
en los servicios de acceso a internet y correo electrónico en Etecsa, que permita aportar
información integrada, oportuna y veraz a los diferentes niveles estratégicos de esta
organización.
Se establece como campo de acción: los sistemas Data Warehousing para el análisis de la
información de los servicios de acceso a internet y correo electrónico en las empresas de
telecomunicaciones.
Como idea a defender se afirma que: el diseño de una arquitectura Data Warehousing para el
análisis de la información de los servicios de acceso a internet y correo electrónico en Etecsa,
6
Introducción
Para darle cumplimiento al objetivo antes expuesto se definen las siguientes tareas científicas:
Método lógico: se emplea para entender la esencia de cada una de las partes que componen
la estrategia didáctica y posteriormente, con el uso de la síntesis, establecer los nexos entre
ellas, descubrir relaciones esenciales para llegar a los fundamentos teóricos y a las
conclusiones de la solución propuesta.
7
Introducción
Como aporte inicial, se contará con el diseño de una arquitectura Data Warehousing detallada
y estructurada de forma tal que agilizará el proceso de su implementación, además de contar
con un procedimiento que pueda aplicarse a tareas similares en otras áreas de la empresa.
Asimismo se espera que, una vez implementada, permita analizar los datos integrados,
observar comportamientos históricos y tendencias en las operaciones que se realizan,
representando así, uno de los tantos factores críticos para la determinación del éxito o el
fracaso. Lo hasta aquí esbozado permitiría obtener resultados en cuanto a la relación que existe
entre la información y de cómo podría repercutir en el servicio de acceso a internet y correo
electrónico que brinda Etecsa y se convertiría en una vía de apoyo a la toma de decisiones.
8
Capítulo 1
Internet es una enorme red de comunicaciones de ámbito mundial que permite la interconexión
de sistemas informáticos, independientemente de su tipo y situación. Se puede definir además
como una ‘red de redes’, es decir, una red que no sólo interconecta computadoras, sino que
interconecta redes de computadoras entre sí y permite ampliar su cobertura al hacerlas parte
de una ‘red global’ que utiliza un lenguaje común o protocolo para garantizar la
intercomunicación de los diferentes participantes: TCP/IP (Trejo, 2006).
9
Capítulo 1
El más reciente informe de enero de 2017, de WeAreSocial5, refiere que más de la mitad de la
población mundial utiliza Internet, sobrepasando los 3.750 millones de personas online para un
incremento de 10% con respecto a 2016; y 50% del tráfico web ya procede de dispositivos
móviles, con un crecimiento de 30 % respecto al año anterior (Anexo 1) (Kemp, 2017).
Las posibilidades que ofrece Internet se denominan servicios. Cada servicio es una manera de
obtener provecho a la red independiente de las demás. Según Sánchez Costeira, los servicios
más usados en Internet son: Correo Electrónico, World Wide Web, FTP, Grupos de Noticias,
IRC y Servicios de Telefonía (Costeira, 2013).
El correo electrónico permite enviar cartas escritas con el ordenador de forma casi instantánea
y casi sin costo. Se puede tener contacto con cualquier persona del mundo que disponga de
conexión a Internet. Este mecanismo es muy utilizado en el área laboral, pues su uso trae
consigo un considerable ahorro de llamadas; asimismo, tiene un gran potencial en el
intercambio de información, ya que reduce de modo importante el tiempo de transferencia
(Brownlow, 2009).
La World Wide Web, o WWW como se suele abreviar, se inventó a finales de los 80. Se trata
de un sistema de distribución de información tipo revista. En la red quedan almacenadas las
páginas web, que no son más que páginas de texto con gráficos o fotos. Este sistema de
visualización de la información revolucionó el desarrollo de Internet, y en ellas se puede tener
acceso a información de todo tipo. Entre las principales tipos de páginas resaltan: los foros de
discusión, las redes sociales, los blog y las bibliotecas digitales (Choo, Detlor, & Turnbull, 2013).
El FTP (File Transfer Protocol) permite enviar datos por Internet, para usarla en otro ordenador.
Con este servicio, muchas empresas informáticas han podido enviar sus productos a personas
de todo el mundo sin necesidad de gastar dinero en envíos (PROTOCOL, 2017). Muchas
empresas hacen uso de este servicio para, dar a conocer sus creaciones informáticas a nivel
mundial (Postel & Reynolds, 1985).
5
WeAreSocial es una agencia fundada en 2008, enfocada en el marketing social que combina los medios sociales digitales con
habilidades de relaciones públicas y marketing tradicional. Cuenta con un equipo compuesto por más de 550 personas en 11
países. Entre sus estudios resalta el análisis anual de la penetración de internet a nivel mundial y por países, por el cual han
recibido numerosos reconocimientos
10
Capítulo 1
El servicio IRC (Internet Relay Chat) permite entablar una conversación en tiempo real con una
o varias personas por medio de texto. Este es un medio de entretenimiento como de actividades
laborales. (Décary-Hétu, Dupont, & Fortin, 2014)
Los servicios de telefonía son las últimas aplicaciones que han aparecido para Internet. Nos
permiten establecer una conexión con voz entre dos personas conectadas a Internet desde
cualquier parte del mundo sin tener que pagar el coste de una llamada internacional. Algunos
de estos servicios incorporan no sólo voz, sino también imagen. A esto se le llama
Videoconferencia (Lee, Moon, Kim, & Mun, 2015).
Todos estos servicios generan un volumen considerable de tráfico a través de la red y de trazas
que se registran, que pueden ascender miles de millones por día en una sola localidad y cuyo
procesamiento produce información de alto valor. Estos datos siguen un formato estándar y se
almacenan en archivos de texto, donde cada acceso es un renglón distinto. Entre los datos que
registran se encuentran: Dirección IP del usuario, Fecha y hora de acceso, URL de la página
accedida, Protocolo utilizado para la transmisión de los datos, Código de error y Número de
bytes transmitidos. (Reyes, Sady, & Ruiz Lobaina, 2007)
Accesos separados por dominios/países, servidores y números IP; accesos por mes/día,
días de la semana y por horas.
Información sobre la duración de las visitas, páginas consultadas, volúmenes de subida y
bajada, velocidades de conexión, cantidad de descargas, tipos de archivos más usados;
sistemas operativos y navegadores utilizados.
Descripción de los errores más frecuentes, las páginas no encontradas, las páginas más
vistas.
Existen otros datos de interés que se generan a partir de la gestión comercial de los servicios
de internet, los cuales aportan conocimiento útil a las empresas de telecomunicaciones entre
los que cabe mencionar:
11
Capítulo 1
12
Capítulo 1
Para que el Data Warehousing pueda cumplir con sus objetivos, es necesario que la información
sea almacenada de manera centralizada en una base de datos con estructura multidimensional
denominada Data Warehouse (DW). Este almacén de datos maneja grandes volúmenes de
información, debido a que consolidan en su estructura información histórica, proveniente de
diversas fuentes y áreas, de forma centralizada, además presenta la información sumarizada y
agregada desde múltiples versiones.
Una de las definiciones más famosas sobre DW, es la de William Harvey Inmon, reconocido
mundialmente como el padre del DW, quien define: “Un Data Warehouse es una colección de
datos orientada al negocio, integrada, variante en el tiempo y no volátil para el soporte del
proceso de toma de decisiones de la gerencia”. (Inmon, 2005)
Una de sus cualidades es que organiza y almacena los datos para realizar consultas y procesos
analíticos, con el propósito de responder a preguntas complejas y brindar a los usuarios la
posibilidad de que puedan tomar decisiones sobre los datos sin poseer conocimientos
informáticos
Con respecto a las tecnologías que son empleadas en este proceso, se pueden mencionar:
arquitectura cliente/servidor, técnicas avanzadas para replicar, refrescar y actualizar datos,
software para acceso y análisis de datos, herramientas para realizar ETL desde múltiples
fuentes y sistemas de gestión de base de datos (SGBD) (Kimball & Ross, 2015).
Características
Orientada al negocio: La información se clasifica en base a los aspectos que son de interés
para la organización, lo que proporciona una alta accesibilidad a los datos, lo que implica un
elevado desempeño y velocidad en la ejecución de consultas.
Integrada: La integración de datos implica que todos los datos de diversas fuentes, tanto
internos como externos, deben ser consolidados en una instancia antes de ser agregados al
DW, y deben por tanto ser analizados para asegurar su calidad y limpieza, resolviendo
diferentes problemas relacionados con las convenciones de nombres, unidades de medidas,
13
Capítulo 1
Variante en el tiempo: los datos son almacenados junto a sus respectivos históricos
garantizando el desarrollo de análisis de la dinámica de la información, pues ella es procesada
como una serie de instantáneas, cada una representando un período de tiempo, es decir, se
podrá tener acceso a diferentes versiones de la misma información.
No volátil: Los datos una vez que entran en el DW no cambian. En el depósito de datos solo
existen dos tipos de operaciones: la carga de datos y el acceso a los mismos. Por esta razón
es que en el DW no se requieren mecanismos de control de concurrencia y recuperación.
Como desventajas hay que resaltar que requiere una gran inversión, debido a que su correcta
construcción consume muchos recursos y además implica la adquisición de herramientas de
consulta / análisis, y la capacitación de los usuarios. Por otra parte los beneficios del almacén
de datos son apreciados en el mediano y largo plazo. El incremento continuo de los
14
Capítulo 1
requerimientos de los usuarios pudiera ser otra de las problemáticas detectadas dada la
complejidad de su implementación (Chan, 2015).
Estructura
Los Data Warehouse estructuran los datos de manera muy particular y existen diferentes niveles
de esquematización y detalle que los delimitan como se muestra a continuación (Kimball &
Ross, 2015).
Flujo de Datos
15
Capítulo 1
Como se puede apreciar, el ambiente está formado por diversos elementos que interactúan
entre sí y que cumplen una función específica dentro del sistema. A continuación se detallará
cada uno de los componentes de la arquitectura del Data Warehousing, teniendo como
referencia el gráfico antes expuesto.
OLTP
OLTP (On Line Transaction Processing), representa toda aquella información transaccional que
genera la empresa en su accionar diario, además, de las fuentes externas con las que puede
llegar a disponer. Son de características muy disímiles entre sí, en formato, procedencia,
función, etc. Entre los OLTP más habituales que pueden existir en cualquier organización se
encuentran: archivos de textos, hipertextos, hojas de cálculos, informes y bases de datos
transaccionales (Erl et al., 2016).
Load Manager
La Integración de Datos agrupa una serie de técnicas y subprocesos que se encargan de llevar
a cabo todas las tareas relacionadas con la extracción, manipulación, control, integración,
depuración de datos, carga y actualización del DW (Sagiroglu & Sinanc, 2013).
Si bien los procesos ETL (Extracción, Transformación y Carga) son solo una de las muchas
técnicas de la Integración de Datos, el resto de estas técnicas puede agruparse muy bien en
16
Capítulo 1
Extracción
Basándose en las necesidades y requisitos de los usuarios, se exploran las diversas fuentes
OLTP que se tengan a disposición, y se extrae la información que se considere relevante al
caso.
Una vez que los datos son seleccionados y extraídos, se guardan en un almacenamiento
intermedio, lo cual permite manipular los datos sin interrumpir ni paralizar los OLTP o el DW,
además de almacenar y gestionar los metadatos que se generarán en los procesos ETL y por
tanto facilitar la integración de las diversas fuentes, internas y externas.
Transformación
Los casos más comunes en los que se deberá realizar integración, son cuando:
existan inconsistencias al intentar integrar varias fuentes de datos y más de una forma de
codificar un atributo en común.
17
Capítulo 1
los tipos de unidades de medidas utilizados para representar los atributos de una entidad,
varíen considerablemente entre sí.
un mismo atributo es nombrado de diversas maneras en los diferentes OLTP.
un mismo elemento puede derivarse desde varias fuentes.
Además de lo antes mencionado, esta función se encarga de realizar, entre otros, los procesos
de Limpieza de Datos (Data Cleansing) y Calidad de Datos, cuyo objetivo principal es el de
realizar distintos tipos de acciones contra el mayor número de datos erróneos, inconsistentes e
irrelevantes.
Carga
Esta función se encarga, por un lado de realizar las tareas relacionadas con la carga inicial y la
actualización o mantenimiento periódico, según el intervalo de tiempo predefinido para tal
operación (Kimball & Ross, 2011).
La carga inicial, se refiere precisamente a la primera carga de datos que se le realizará al DW.
Por lo general, esta tarea consume un tiempo bastante considerable, ya que se deben insertar
registros de más de cinco años aproximadamente.
Antes de realizar una nueva actualización, es necesario identificar si se han producido cambios
en las fuentes originales de los datos recogidos, a fin de no atentar contra la consistencia del
DW. Para efectuar esta operación, se pueden realizar las siguientes acciones:
18
Capítulo 1
Si este control consume demasiado tiempo y esfuerzo, o simplemente no puede llevarse a cabo
por algún motivo en particular, existe la posibilidad de cargar el DW desde cero, este proceso
se denomina Carga Total (Full Load).
Ingresarán al DW, para su carga y/o actualización aquellos datos que han sido transformados
y que residen en el almacenamiento intermedio o los de los OLTP que tienen correspondencia
directa con el depósito de datos, siempre realizan su correspondiente análisis para asegurar su
calidad.
Las bases de datos multidimensionales, proveen una estructura que permite tener acceso
flexible a los datos, para explorar y analizar sus relaciones, y resultados consiguientes. Estas
se pueden visualizar como un cubo multidimensional, en donde las variables asociadas existen
a lo largo de varios ejes o dimensiones, y la intersección de las mismas representa la medida,
indicador o el hecho que se está evaluando (Anexo 2).
19
Capítulo 1
Relacional – ROLAP.
Multidimensional – MOLAP.
Híbrido – HOLAP.
Tablas de Dimensiones
Las tablas de dimensiones definen cómo están los datos organizados lógicamente y proveen el
medio para analizar el contexto del negocio. Representan los ejes del cubo, y los aspectos de
interés, mediante los cuales el usuario podrá filtrar y manipular la información almacenada en
la tabla de hechos (Anexo 3).
Cada tabla posee un identificador único y al menos un atributo que describe los criterios de
análisis relevantes de la organización, estos son por lo general de tipo texto. Estos atributos
proveen información del negocio o describen alguna de sus características y son llamados datos
de referencia. Dentro de estas tablas pueden existir jerarquías de datos, además, de acuerdo a
las dimensiones del negocio, estará dada la granularidad que adoptará el modelo.
Una jerarquía representa una relación lógica entre dos o más atributos dentro de una misma
dimensión, pudiendo existir dos o más niveles en una misma dimensión. Esto permite analizar
los datos desde su nivel más general al más detallado y viceversa (Anexo 4).
20
Capítulo 1
cuenta que el tiempo no es solo una secuencia cronológica representada de forma numérica,
sino que posee fechas especiales que inciden notablemente en las actividades de la
organización, por ejemplo: se puede analizar las ventas según el día de la semana, quincena,
mes, trimestre, semestre o año en que se produjeron.
Tablas de Hechos
Las tablas de hechos contienen los hechos, medidas o indicadores que serán utilizados por los
analistas de negocio para apoyar el proceso de toma de decisiones. Son datos instantáneos en
el tiempo, que son filtrados, agrupados y explorados a través de condiciones definidas en las
tablas de dimensiones.
Estos datos constituyen el volumen del DW, y pueden estar compuestos por millones de
registros en dependencia de su granularidad y los intervalos de tiempo de los mismos. Los más
importantes son los de tipo numérico.
El registro del hecho posee una clave primaria que está compuesta por las claves primarias de
las tablas de dimensiones relacionadas a este (Anexo 5).
Los hechos son todas aquellas sumarizaciones o acumulaciones preestablecidas que se usan
para agilizar las consultas y permitir que los datos puedan ser accedidos y explorados por las
diferentes dimensiones. Las sumarizaciones no están referidas solo a sumas, sino también a
promedios, mínimos, máximos, totales por sector, porcentajes, fórmulas predefinidas, etc.
Existen dos tipos de hechos: los básicos que son los que se encuentran representados por un
campo de una tabla de hechos por ejemplo ”precio” y ”cantidad”; y los derivados que se forman
al combinar uno o más hechos con alguna operación matemática o lógica por ejemplo ”total”.
Estos últimos poseen la ventaja de almacenarse previamente calculados, por lo cual pueden
ser accedidos a través de consultas SQL sencillas y devolver resultados rápidamente, pero
requieren más espacio físico en el DW, además de necesitar más tiempo de proceso en los ETL
que los calculan.
Metadatos
Los metadatos son datos que brindan información de localización, estructura y significado de
21
Capítulo 1
los datos. Se considera un diccionario de estructuras de datos, cuyo objetivo es asistir en los
procesos de consulta a la base de datos, que los usuarios utilizarán posteriormente para
analizar y explotar la información. Existen diferentes tipos de Metadatos:
Los procesos ETL, referidos a las diversas fuentes utilizadas, reglas de extracción,
transformación, limpieza, depuración y carga de los datos al depósito.
Los operacionales, que son los que almacenan todos los contenidos del DW, para que este
pueda desempeñar sus tareas.
Los de consulta, que contienen las reglas para analizar y explotar la información del
almacén, tales como drill-up y drill-down. Son estos los que las herramientas de análisis y
consulta emplearán para realizar documentaciones y para navegar por los datos.
Query Manager
Este componente realiza las operaciones necesarias para soportar los procesos de gestión y
ejecución de consultas relacionales, tales como uniones y agregaciones, y de consultas propias
del análisis de datos. Recibe las consultas del usuario, las aplica a las tablas correspondientes
y devuelve los resultados obtenidos.
Drill-down: Permite apreciar los datos en un mayor detalle, bajando por la jerarquía de una
dimensión. Se va de lo general a lo específico.
Drill-up: Permite apreciar los datos en menor nivel de detalle, subiendo por la jerarquía de
una dimensión. Se va de lo específico a lo general.
Drill-across: Similar al drill-down, con la diferencia de que no se realiza sobre jerarquías de
una dimensión, sino que agrega una nueva dimensión como nuevo criterio de análisis.
Roll-across: Similar al drill-up, con la diferencia de que no se hace sobre jerarquías de una
dimensión, sino que quita un criterio de análisis eliminando de la consulta una dimensión.
Pivot: Permite seleccionar el orden de visualización de las dimensiones, con el objetivo de
analizar la información desde diferentes perspectivas.
Page. Presenta el cubo dividido en secciones, a través de los valores de una dimensión,
como si se tratase de páginas de un libro.
22
Capítulo 1
Las herramientas de consulta y análisis son sistemas que permiten al usuario realizar la
exploración de datos del Data Warehouse. A través de una amigable interfaz gráfica y una serie
de simples pasos, el usuario genera consultas que son enviadas desde la herramienta al Query
Manager, este a su vez realiza la extracción de información al DW Manager y devuelve los
resultados a la herramienta que los solicitó. Entre las diferentes herramientas de consulta y
análisis, destacan las siguientes:
Reportes y Consultas: Se han desarrollado varias herramientas que ofrecen a los usuarios,
a través de pantallas gráficas intuitivas, la posibilidad de generar informes avanzados y
detallados del área de interés del negocio que se esté analizando.
OLAP: El procesamiento analítico en línea OLAP (On Line Analytic Processing), es el motor
de consultas especializado del DW. Son una tecnología de software para análisis en línea,
administración y ejecución de consultas, que permiten inferir información del
comportamiento del negocio.
Su principal objetivo es el de brindar rápidas respuestas a complejas preguntas, para
interpretar la situación del negocio y tomar decisiones. Brinda la posibilidad de utilizar
operadores tales como drill-up, drill-down, etc, para explotar profundamente la información.
A través de este tipo de herramientas, se puede analizar el negocio desde diferentes
escenarios históricos, y proyectar cómo se ha venido comportando y evolucionando en un
ambiente multidimensional, o sea, mediante la combinación de diferentes perspectivas,
temas de interés o dimensiones. Esto permite deducir tendencias, por medio del
descubrimiento de relaciones entre las perspectivas que a simple vista no se podrían
encontrar sencillamente.
Data Mining: Esta herramienta constituye una poderosa tecnología para descubrir patrones
y relaciones entre abundantes cantidades de datos, que a simple vista o que mediante otros
tipos de análisis, no se pueden deducir, con el fin de permitirles a los usuarios analizar y
extraer conocimientos ocultos y predecibles a partir de los datos almacenados en un DW o
en un OLTP.
Una de las principales ventajas es que permite inferir comportamientos, modelos, relaciones
y estimaciones de los datos, para poder desarrollar predicciones de los mismos, sin la
23
Capítulo 1
necesidad de tener que contar con algún patrón o regla preestablecida o conocida de
antemano, permitiendo tomar decisiones proactivas y basadas en un conocimiento acabado
de la información.
Los sistemas Data Mining se desarrollan bajo lenguajes de última generación basados en la
Inteligencia Artificial y utilizan métodos matemáticos tales como: Redes Neuronales,
Sistemas Expertos, Programación Genética, Árboles de Decisión y Detección de desviación,
entre otras.
EIS (Executive Information System): proporciona medios sencillos para consultar, analizar
y acceder a la información de estado del negocio. Además, pone a disposición facilidades
para que el usuario pueda conseguir los datos buscados rápidamente, empleando el menor
tiempo posible para comprender el uso de la herramienta.
Usualmente se utiliza para analizar las métricas e indicadores de performance y desempeño
del negocio, a través de la presentación de vistas con datos simplificados, altamente
consolidados, mayormente estáticos y preferentemente gráficos.
Existen otras metodologías que pudieran aplicarse al desarrollo de un almacén de datos como:
DWEP (Luján-Mora, 2005), la propuesta de Trujillo (Trujillo et al., 2007) y Rapid Warehousing
Methodology (Espinosa). También se puede hablar sobre algunas metodologías que la
comunidad científica considera como probadas; pero se enfocan hacia la minería de datos,
ellas son: CRISP-DM (Chapman et al., 2000), la propuesta por el instituto SAS (SEMMA)
24
Capítulo 1
(García Martínez et al., 2011) y P3TQ (Pollo Cattaneo et al., 2010). Existe además una
metodología llamada KM-IRIS (Matos, Chalmeta, & Coltell, 2006) que pudiera aplicarse de
cierto modo aunque fue concebida para dirigir proyectos de desarrollo de Sistemas de Gestión
del Conocimiento.
El Ciclo de vida Kimball (Kimball & Ross, 2011): Presenta un marco de trabajo, en el cual se
definen las etapas del proceso de creación del almacén de datos (Anexo 6).
La fase de planeación del proyecto, pretende establecer la definición y el alcance del proyecto
de la bodega de datos, incluyendo la valoración y justificación del negocio. La fase de definición
del proyecto es donde se establece la base relacionada con la tecnología, los datos y las
aplicaciones del usuario.
La ruta de mayor importancia es la relacionada con los datos, en la cual se realiza el modelado
dimensional, partiendo de los requerimientos obtenidos y de las necesidades de análisis de los
usuarios; el diseño físico, el cual se enfoca en definir las estructuras físicas necesarias para
soportar el modelado dimensional; y la etapa ETL en la cual se diseña y desarrollan procesos
para extraer, transformar y cargar datos. A lo largo de todo el ciclo de vida se debe seguir una
administración general del proyecto la cual asegura que todas las actividades del ciclo de vida
se alcancen y se sincronicen.
25
Capítulo 1
El enfoque Inmon también se referencia normalmente como Top-down. Los datos son extraídos
de los sistemas operacionales por los procesos ETL y cargados en las áreas de paso, donde
son validados y consolidados en el DW corporativo, donde además existen los llamados
metadatos que documentan de una forma clara y precisa el contenido del DW. Una vez
realizado este proceso, los procesos de actualización de los DataMart departamentales
obtienen la información, y con las consiguientes transformaciones, organizan los datos en las
estructuras particulares requeridas por cada uno, refrescando su contenido.
Al tener este enfoque global, es más difícil de desarrollar en un proyecto sencillo, pues se
intenta abordar el “todo” primero, a partir del cual se va al “detalle”.
HEFESTO (Bernabeu, 2010) es una metodología creada por el Ing. Bernabeu Ricardo Darío;
su última actualización es la versión 1.1, abril del 2009, disponible bajo licencia GNU FDL, se
fundamenta en una amplia investigación, comparación de metodologías existentes y
experiencias propias en procesos de confección de almacenes de datos. Consta de cuatro
fases: análisis de requerimientos, análisis de los OLTP, modelo lógico del almacén de datos y
proceso ETL (Anexo 8). Puede ser utilizada en cualquier ciclo de vida que no requiera fases
extensas de requerimientos y análisis, con el fin de entregar una implementación que cumpla
con una parte de las necesidades proporcionadas por el usuario. (Leopoldo & Octavio, 2010)
26
Capítulo 1
Los objetivos y resultados esperados en cada fase se distinguen fácilmente y son sencillos
de comprender.
Se basa en los requerimientos del usuario, por lo cual su estructura es capaz de adaptarse
con facilidad y rapidez ante los cambios en el negocio.
Reduce la resistencia al cambio, ya que involucra al usuario final en cada etapa para que
tome decisiones respecto al comportamiento y funciones del almacén de datos.
Utiliza modelos conceptuales y lógicos, los cuales son sencillos de interpretar y analizar.
27
Capítulo 1
Es independiente del tipo de ciclo de vida que se emplee para contener la metodología, de
las herramientas que se utilicen para su implementación, de las estructuras físicas que
contengan el almacén de datos y de su respectiva distribución.
Cuando se culmina con una fase, los resultados obtenidos se convierten en el punto de
partida para llevar a cabo el paso siguiente.
Se aplica tanto para almacén de datos como para DataMart.
Una vez analizadas las principales características de las metodologías que se emplean en el
desarrollo de almacenes de datos, sus fortalezas y desventajas (Anexo 9) se considera
apropiada la metodología HEFESTO del autor Ricardo Bernabeu, para el desarrollo del almacén
de datos del proyecto. La metodología HEFESTO podrá definir la arquitectura de los datos, es
decir recolectar los requerimientos y necesidades de información del usuario. Entre los factores
más predominantes en la decisión fueron: afinidad con el sistema actual en desarrollo, tiempo
de análisis, diseño y construcción, fácil entendimiento para principiantes, perspectiva y su
utilización en numerosos proyectos afines al actual.
1.3.3. Herramientas
Hay muchas herramientas que diferentes empresas ofrecen para la creación y explotación de
un Data Warehouse. Cuando se ofrece una suite completa, que cubre desde la creación de la
base de datos hasta la explotación de la misma para diferentes perfiles y objetivos, suelen
considerarse como herramientas de Business Intelligence.
El Data Warehouse se implementa siempre sobre un Sistema Gestor de Bases de Datos, y para
las cargas periódicas de datos que se realizan sobre él desde diferentes orígenes se pueden
utilizar herramientas ETL.
Teniendo en cuenta las funcionalidades que deben cubrir las herramientas de BI orientadas a
la explotación de un sistema de Data Warehouse, muchas empresas se plantean la
implantación de un sistema de este tipo y consultan los precios de las licencias de las diferentes
Suites existentes en el mercado. Si el coste de estas licencias es una barrera importante, una
opción interesante es la utilización de herramientas de Código Abierto, que no tienen coste en
cuanto a licencias, aunque sí pueden tenerlo si se necesita soporte y mantenimiento de las
28
Capítulo 1
mismas.
Herramientas ETL
Las herramientas ETL ahorran tiempo y dinero cuando se tiene que desarrollar un Data
Warehouse, al reducir la cantidad de sistemas de conversión personalizados a desarrollar para
migrar o concentrar la información, además de reducir la dificultad para el usuario de conectar
distintas marcas y tecnologías de Bases de Datos entre sí.
Entre las herramientas ETL de código abierto más conocidas en la actualidad se pueden
mencionar: Kettle, Netflux, TalendOS, JasperETL y Pentaho Data Integration ("Manageability,"
2013).
Además existen varias herramientas propietarias entre las que resaltan: IBM InfoSphere
DataStage, IBM Cognos DecisionStream, Oracle Data Integrator (ODI), SAP BusinessObjects
Data Integrator, SAS Enterprise Data Integration Server y Microsoft SQL Server Integration
Services (SSIS), entre otros(Fernández, 2012).
Pentaho Kettle: se utiliza a través de un acercamiento basado en meta datos, y posee una GUI
para acelerar los procesos. La compañía Pentaho empezó operaciones en el año 2001.Tiene
una gran comunidad activa de usuarios, alrededor de 13,500 usuarios. Funciona utilizando
Java, que presenta como ventaja el ser una solución multiplataforma.
Informatica Power Center: informatica tiene una muy buena suite empresarial de integración de
datos. Fue fundada en el año de 1993. Tiene alrededor de 2,600 clientes, entre los cuales
figuran bancos como Grupo BBVA, organizaciones gubernamentales, etc. La compañía se
enfoca meramente en soluciones para la integración de datos.
29
Capítulo 1
UNIX o Linux.
Oracle Warehouse Builder Enterprise ETL Option: la opción empresarial ETL (Enterprise ETL
Option) para Warehouse Builder es una opción que puede ser adquirida con Oracle Warehouse
Builder como parte de la edición empresarial del motor de base de datos. Permite ejecutar
cargas de datos usando métodos rápidos y eficientes tales como el Oracle Data Pump y
transportable tablespaces. Permite prever el efecto que puedan tener los cambios que se hagan
en cualquier lugar de los metadatos del sistema ETL. Es posible generar un modelo para
configurar los ambientes de desarrollo, pruebas y producción a niveles separados.
Microsoft SQL Integration Services: puede extraer y transformar datos de diversos orígenes
como archivos de datos XML, archivos planos y orígenes de datos relacionales y, después,
cargar los datos en uno o varios destinos. Se pueden realizar tareas de migración fácilmente
usando tareas visuales. Si se desea crear nueva funcionalidad, se pueden crear scripts en C#
o VB. Puede conseguir conectividad mediante CLI vía DLL tipo ensamblador.
Talend Open Studio: es una herramienta de software libre para integración de datos, usando
Java como lenguaje de programación y Eclipse como plataforma de desarrollo. Opera como un
generador de código, produciendo scripts para transformación de datos y su interfaz gráfica
permite el diseño de flujos de procesos basado en más de 900 componentes.
Constituye una herramienta de mucha utilidad para la automatización de muchos procesos que
se llevan a cabo en un negocio tales como: sincronización o replicación de base de datos,
procesos ETL para análisis, transformaciones de datos complejas, carga de grandes volúmenes
de datos, entre otros.
Ventajas
30
Capítulo 1
Los trabajos son exportables a nivel del SO, y se pueden ejecutar independientemente de
la herramienta de diseño en cualquier plataforma que permita la ejecución del lenguaje
seleccionado (Java).
Todo el código generado es visible y modificable.
Proporciona soporte de alta calidad, disponible a través de una comunidad mundial de
usuarios que aportan pruebas continuas y permiten la retroalimentación.
El Diseñador de trabajo (Job Designer) brinda una vista gráfica y una funcional de los procesos
de integración actuales, utiliza una paleta gráfica de más de 450 componentes de código abierto
y conectores. Los procesos de integración se construyen con sólo arrastrar y soltar los
componentes y conectores en el área de trabajo, estableciendo conexiones y relaciones entre
ellos, y definiendo sus propiedades.
Los parámetros se configuran en una vista centralizada cuando se selecciona cada componente
involucrado en el trabajo, aunque también se pueden heredar de los metadatos que se
almacenan y gestionan en un repositorio compartido por todos los módulos. Una vista de
consola integrada permite a los usuarios monitorear la ejecución y supervisar el rendimiento
directamente desde la aplicación o entorno de trabajo.
En el Anexo 10 se puede observar una tabla comparativa entre las herramientas mencionadas
anteriormente.
Herramientas de BI
31
Capítulo 1
Se puede describir BI, como un concepto que integra por un lado el almacenamiento y por el
otro, el procesamiento de grandes cantidades de datos, con el principal objetivo de
transformarlos en decisiones en tiempo real y conocimiento oportuno, relevante y útil, a través
del análisis y exploración.
BI propicia que las organizaciones puedan traducir sus objetivos en indicadores de estudio, y
que estos puedan ser analizados desde diferentes perspectivas, con el fin de encontrar
información que no solo se encargue de responder a preguntas de lo que está sucediendo o ya
sucedió, sino que también posibilite la construcción de modelos, mediante los cuales se podrán
predecir eventos futuros. (Gómez & Bautista, 2010)
Al contar con la información exacta y en tiempo real, es posible identificar y corregir situaciones
antes de que se conviertan en problemas y en potenciales pérdidas de control de la empresa;
conseguir nuevas oportunidades o readaptarse frente a la ocurrencia de sucesos inesperados.
(García, 2010)
Entre los beneficios más importantes que BI proporciona a las organizaciones, cabe destacar
los siguientes: (Calzada & Abreu, 2009)
Reduce el tiempo mínimo que se requiere para recoger toda la información relevante, ya
que esta se encontrará integrada en una fuente única de fácil acceso.
Automatiza la asimilación de la información, debido a que la extracción y carga de los datos
necesarios se realizará a través de procesos predefinidos.
Proporciona herramientas de análisis para establecer comparaciones y tomar decisiones a
través de reportes o informes generados de manera dinámica.
Permite acceder y analizar directamente los indicadores de éxito, identificar los factores que
inciden en el buen o mal funcionamiento de la organización y detectar situaciones fuera de
lo normal.
Permitirá predecir el comportamiento futuro con un alto porcentaje de certeza, basado en el
entendimiento del pasado.
Hoy en día son muchas las herramientas tecnológicas que ofrecen un procesamiento de BI, el
mercado es diverso y dinámico, las ofertas de funcionalidades crecen velozmente y cada vez
32
Capítulo 1
más se adaptan a las necesidades y expectativas del cliente. Entre las más conocidas destacan:
MicroStrategy, Oracle, Microsoft, IBM Cognos, Tableau y Pentaho. A continuación se detallan
las características de algunas de ellas, según el reporte de Gartner de 2016. (Oestreich, 2016)
Oracle BI
MicroStrategy
MicroStrategy es una plataforma de nivel empresarial que se adapta bien a las empresas que
necesitan sistemas de registros de informes a gran escala, móviles y cuadros de mando. Posee
fortalezas particulares en las soluciones empresariales tales como la administración de la
plataforma de inteligencia de negocio, gestión de metadatos y estilos tradicionales de análisis.
Su principal ventaja son sus capacidades para los móviles. La nube ha sido otra área de
inversión estratégica. (Negash & Gray, 2008)
Entre sus debilidades se reporta un promedio bajo en la experiencia del cliente, incluyendo el
soporte, la calidad del producto, además de dificultades de uso en el desarrollo, tanto para los
usuarios finales como para la administración e implementación.
IBM Cognos
IBM Cognos está enfocada en la estrategia de productos así como, la gestión del rendimiento,
una analítica avanzada y la innovación en torno a la búsqueda de datos inteligente. Presenta
una nueva experiencia de usuario para el descubrimiento de datos, con un flujo de trabajo
analítico integrado que incluye la preparación de datos, generación de consultas en lenguaje
33
Capítulo 1
Microsoft
La posición de liderazgo de Microsoft es impulsada principalmente por una fuerte visión del
producto y los objetivos futuros a corto y largo plazo, así como, una comprensión clara del deseo
del mercado de una plataforma que pueda soportar los requerimientos de los sistemas basados
en registros y la capacidad de descubrimiento de datos fáciles de utilizar.
El costo total de propiedad y de la licencia son motivos por los cuales los clientes eligen a
Microsoft. Ha integrado novedosas funcionalidades al Excel tales como Power Query, Power
Pivot, Power View y Power Map. También se encuentran disponibles capacidades adicionales
para el consumo y colaboración alojada en la nube. La escalabilidad es una fortaleza de esta
plataforma. (Ramos, 2011)
Tableau
Tableau fue el líder en el mercado en 2015. En particular, los tableros analíticos, la exploración
en forma libre y el despliegue en la nube son las fortalezas de la plataforma. Tableau permite
consultar una amplia gama de fuentes de datos SQL y MDX, así como una serie de
34
Capítulo 1
distribuciones de Hadoop; tiene soporte nativo para Google BigQuery, Salesforce y Google
Analytics, lo cual ha sido una fortaleza de la plataforma desde su creación. (Minelli, Chambers,
& Dhiraj, 2012)
Como debilidad se puede mencionar que tiene una línea limitada de productos centralizados en
el descubrimiento de datos. Los reportes desarrollados por TI, cuadros de mando, estilos
tradicionales de análisis, gestión de metadatos, desarrollo e integración, plataforma de
administración, BI integrado y la colaboración, son calificados como capacidades más débiles
de la plataforma. Se debe recurrir a productos de terceros cuando se requieren de preparación
avanzada de datos, informes de producción, análisis avanzado, distribución y alerta.
Pentaho
Pentaho ha evolucionado de ser una plataforma de BI basada en código abierto, hacia una
plataforma de análisis especializado, que permite desarrollar casos de uso más complejos. La
herramienta de integración de datos de Pentaho (PDI) y los componentes Weka y Data Science
Pack son los principales responsables de esta transformación, además, la integración con base
de datos NoSQL permiten un análisis muy avanzado. (Hall et al., 2009)
Entre las dificultades de Pentaho se encuentran la calidad del software, que impide la expansión
y la gran cantidad de problemas que se presentan con la plataforma. Muchos clientes afirman
que la plataforma no es fiable y lo califican como difícil de implementar. Otro punto débil es la
experiencia del usuario, incluyendo la calidad y soporte de producto. La colaboración, gestión
de metadatos y el uso en móviles también son débiles de la plataforma.
Según el último estudio realizado por Gartner en su Cuadrante Mágico 6 para el año 2017, revelo
que Tableau, Qlik y Microsoft (este por segundo año consecutivo) son los únicos tres que
aparecen en el cuadrante de líderes. La novedad es que herramientas como SAP, SAS, IBM,
MicroStrategy y Oracle salieron del cuadrante de líderes en las dos últimas ediciones. Pentaho
6
El Cuadrante Mágico sobre Plataformas Analíticas y de Business Intelligence es una prestigiosa herramienta de análisis de
mercado, que evalúa los principales proveedores de herramientas BI, desgranando sus puntos fuertes, debilidades,
características de análisis y de informes. Muestra la posición relativa de cada competidor en el espacio BI, considerando los
productos más fáciles de usar, con mayor accesibilidad y de mejor integración con los sistemas existentes.
35
Capítulo 1
Herramientas de BI en Etecsa
Desde el año 2008, Etecsa cuenta con licencias de uso de software para Infor PM (Infor
Performance Management), una plataforma integrada de inteligencia de negocios capaz de
mejorar y acelerar los procesos de recopilación, análisis, generación de informes y planificación
de la información clave del negocio, así como, mejorar los procesos empresariales mediante la
entrega de información significativa y una visión práctica a los responsables, identificando
nuevas oportunidades de negocios y tomando decisiones más certeras (Solutions, 2014).
36
Capítulo 1
En el año 2013, Etecsa amplía el acceso a internet, en esta ocasión para la población cubana.
Se ofrece acceso público a internet y al correo electrónico a través del servicio Nauta, sistema
con el cual los clientes interactúan para la navegación nacional e internacional. El acceso se
ofreció en un inicio a través de salas de navegación, y posteriormente se habilitó acceso al
correo a través de la red de datos móviles y puntos Wifi (Wireless Fidelity) públicos. En solo tres
meses a partir de su creación el servicio había sido contratado por más de 238 mil usuarios,
quienes habían enviado 29 millones de emails, un resultado que desbordó la previsión de la
empresa de telecomunicaciones (CubaDebate, 2014).
El 2016 fue un año donde se hizo un importante despliegue de la infraestructura en Etecsa para
mejorar y ampliar los principales servicios a la población. En la actualidad existen en Cuba
5.323.670 líneas en servicio telefónico, de ellas 4.001.668 móviles y más de un millón de
cuentas permanentes del servicio Nauta. Se han incrementado las salas de navegación y los
puntos de conectividad Wifi, y se ha alcanzado la cifra de 611 salas de navegación públicas con
2005 puestos (CubaDebate, 2017).
Además, se incrementaron a 252 los sitios públicos de ETECSA para la navegación por WIFI y
94 en áreas de terceros (hoteles, aeropuertos e instalaciones extra hoteleras), para un
crecimiento total de 346 zonas y una cobertura nacional en 164 municipios. Al finalizar enero
del 2017 se alcanza un total de 328 áreas públicas con un crecimiento de 21 nuevos sitios en
lo que va de año. Para el resto de 2017 se prevé comercializar al menos 500 mil nuevas líneas
móviles y poner en servicio 180 nuevos espacios para la navegación por Internet (CubaDebate,
2017).
El acceso a Internet en los hogares y la prueba piloto que se desarrolla en la Habana Vieja
también es de gran relevancia. El 20 de diciembre del 2016 se inició la prueba para el servicio
de acceso a Internet con tecnología ADSL a 2 mil clientes de telefonía básica, y se han instalado
hasta el momento, más de 800 servicios (CubaDebate, 2017).
37
Capítulo 1
propiciado un aumento considerable del acceso a internet en la isla, hecho que se hace evidente
al tener en cuenta que, como promedio en un día, se producen más de 410 mil conexiones, lo
que crece 3 veces más que al cierre de 2015, a la vez que aumentan considerablemente las
operaciones comerciales relacionadas con este tema (CubaDebate, 2017).
Todos estos servicios se basan en el uso de una tarjeta o cuenta de acceso al servicio que se
autentica, autoriza y contabiliza contra una misma plataforma. Para cada servicio el usuario
debe tener una cuenta de acceso y este debe estar previamente registrado en el Sistema de
Gestión Comercial (GesNauta).
Teniendo en cuenta las cifras expuestas al inicio de este acápite, este sistema maneja un
excesivo volumen de datos. Solo para ilustrar, se realizan más de 150,000 operaciones
comerciales diarias a través de los diversos canales comerciales presenciales o no, y más de
medio millón de CDR diarios. Para realizar análisis, la Dirección Central de Comercial y
Mercadotecnia de Etecsa, exporta la información de los reportes de GesNauta a formato Excel,
o se solicita información mediante consultas que se realizan directamente a la base de datos
por los propios desarrolladores. Como consecuencia, los tiempos de respuesta son más lentos
y presentan insuficiencias en los informes por no ser dinámicos, flexibles e interactivos.
Además, existe un conjunto de estadísticas que son de interés para los directivos que no están
recogidas en los reportes que se generan en el sistema, por lo que se extraen haciendo
consultas directamente sobre la base de datos, lo que atenta contra el rendimiento del sistema
y de la propia base de datos.
38
Capítulo 1
se hace lento y complejo lo que incide negativamente en que se pueda contar con información
relevante y realizar análisis del comportamiento de variables importantes tales como: cantidad
de operaciones, ingresos, y contratos, entre otras; y con estas variables evaluar los canales
comerciales más efectivos, que tipos de productos son más utilizados por vías de acceso, si es
viable o no pasar a otros modo de tarificación, evaluar perfiles de consumo, estimar el
comportamiento a corto, mediano y largo plazo, dimensionar los cambios ante una rebaja o
descuento comercial.
Luego de evaluar el estado del arte en cuanto al campo de investigación del presente trabajo,
representando por la arquitectura Data Warehousing en los servicios de internet y correo
electrónico, se puede concluir que:
39
Capítulo 2
Este capítulo abarca el Diseño de la arquitectura Data Warehousing para el apoyo a la toma de
decisiones en los servicios de acceso a internet y correo electrónico en Etecsa, basándose en
la metodología Hefesto.
40
Capítulo 2
Lograr una gestión empresarial eficaz a través de la mejora de los procesos y el enfoque
hacia los clientes externos e internos.
Fortalecer el sistema de telecomunicaciones garantizando fiabilidad, estabilidad y
seguridad.
Lograr niveles de desarrollo de los servicios acordes con los índices de nuestra región,
priorizando la generación de ingresos, la excelencia en los servicios y las metas de
impacto social.
Políticas
ETECSA declara que "La satisfacción de los usuarios y de toda la población es lo primero", la
opinión de ellos sobre la calidad de los servicios califica el desempeño empresarial, por lo cual:
Centra su gestión en los requisitos y expectativas de los usuarios para satisfacer sus
necesidades actuales y futuras, demostrando una alta profesionalidad en sus servicios.
Desarrolla una fuerte cultura Usuario - Proveedor en el seno de la Empresa, que le permita
el aseguramiento de los recursos para garantizar oportunidad y eficacia en las
operaciones.
Cuenta con líderes y trabajadores educados, calificados, capacitados y motivados que
cultivan los Valores de la Empresa.
41
Capítulo 2
Estrategias
Dentro de las estrategias planteadas por la empresa cabe destacar dos por ser las más
significativas:
Seguir expandiendo los servicios en el ámbito geográfico, creando Centros de
Telecomunicaciones y puntos de conexión en lugares estratégicos al alcance de la
población.
Añadir nuevos rubros a los servicios que se brindan en la actualidad para mejorar la
calidad de las telecomunicaciones en el país y satisfacer las demandas de los usuarios.
Organigrama
El Data Warehouse coincide con las metas de la empresa, ya que esta necesita mejorar su
eficiencia en la toma de decisiones y contar con información relevante para tal fin. Este aspecto
es de vital importancia para poder mejorar la calidad de los servicios que brinda y lograr la
42
Capítulo 2
excelencia deseada.
La implementación del Data Warehouse aportará gran valor a la empresa, desde el punto de
vista de información y conocimiento. Entre sus principales ventajas se puede mencionar:
Permitirá a los usuarios de las distintas áreas involucradas tener una visión general
del negocio a la vez que proporciona un mayor nivel de detalle.
Transformará datos operativos y de complejo acceso en información analítica,
enfocada a la toma de decisiones.
Se podrán generar reportes dinámicos sustituyendo los actuales que son estáticos y
no permiten ninguna facilidad de análisis.
Soportará la estrategia planteada por la empresa.
Aportará a la mejora continua de la estructura de la empresa.
Este primer paso comienza con la obtención de las necesidades de información, a través de
entrevistas a clientes, cuestionarios, observaciones, etc. El objetivo fundamental es obtener e
identificar las necesidades de información clave, que faciliten una eficaz y eficiente toma de
decisiones.
43
Capítulo 2
Cantidad de Operaciones por Año, Semestre, Trimestre, Mes y Día según Tipo de
Unidad Organizativa, Tipo de Canal de Ventas, Tipo de Operación, Tipo de Producto,
Tipo de Contratos y Tipo de Oferta.
Cantidad de Productos por Año, Semestre, Trimestre, Mes y Día según Tipo de Unidad
Organizativa, Tipo de Canal de Ventas, Tipo de Operación, Tipo de Producto, Tipo de
Contratos y Tipo de Oferta.
Ingresos de Operaciones por Año, Semestre, Trimestre, Mes y Día según Tipo de Unidad
Organizativa, Tipo de Canal de Ventas, Tipo de Operación, Tipo de Producto, Tipo de
Contratos y Tipo de Oferta.
Gastos de Operaciones por Año, Semestre, Trimestre, Mes y Día según Tipo de Unidad
Organizativa, Tipo de Canal de Ventas, Tipo de Operación, Tipo de Producto, Tipo de
Contratos y Tipo de Oferta.
44
Capítulo 2
Tiempo de Respuesta por Año, Semestre, Trimestre, Mes y Día según Tipo de Unidad
Organizativa, Tipo de Canal de Ventas, Tipo de Operación, Tipo de Producto, Tipo de
Contratos y Tipo de Oferta.
En resumen:
El objetivo en este punto es examinar los OLTP que contengan la Información requerida, para
poder identificar las correspondencias entre el modelo conceptual y las fuentes de datos.
Los indicadores se basan en los datos que se obtienen del Sistema GesNauta que está
soportado sobre una Base de Datos Oracle. Debido a que el diagrama de entidad-relación de
45
Capítulo 2
la base de datos está compuesto por un número considerable de tablas, solo se van a mostrar
las que contienen la información relevante para el DW
46
Capítulo 2
que se mencionan, por Año, Semestre, Trimestre, Mes y Día. Se utiliza una función
Count().
Cantidad de Productos por Tipo de Unidad Organizativa, Tipo de Canal de Ventas,
Tipo de Contrato, Tipo Operación, Tipo de Oferta, Tipo de Producto y Fecha,
representa la cantidad de unidades que se comercializan en una operación de un
producto determinado según las distintas perspectivas que se mencionan por Año,
Semestre, Trimestre, Mes y Día. Se utiliza una función Count().
Ingresos de Operaciones por Tipo de Unidad Organizativa, Tipo de Canal de Ventas,
Tipo de Contrato, Tipo Operación, Tipo de Oferta, Tipo de Producto y Fecha,
representa el monto de tipo ingreso que se recauda según perspectivas que se
mencionan por Año, Semestre, Trimestre, Mes y Día. Se obtiene a partir de un campo
en la base de datos que contiene el monto y otro que especifica si es ingreso o gasto.
Gastos de Operaciones por Tipo de Unidad Organizativa, Tipo de Canal de Ventas,
Tipo de Contrato, Tipo Operación, Tipo de Oferta, Tipo de Producto y Fecha,
representa los gastos asociados a una operación según las distintas perspectivas que
se mencionan por Año, Semestre, Trimestre, Mes y Día. Se obtiene a partir de un
campo en la base de datos que contiene el monto y otro que especifica si es ingreso
o gasto.
Tiempo de Respuesta por Tipo de Unidad Organizativa, Tipo de Canal de Ventas,
Tipo de Contrato, Tipo Operación, Tipo de Oferta, Tipo de Producto y Fecha
representa el tiempo que tarda una operación en dar respuesta (completarse). Se
calcula a partir de la resta de la fecha de terminación de la operación menos la fecha
en que comenzó la misma.
A continuación se detallan las asociaciones entre las tablas del diagrama entidad-relación y las
perspectivas definidas en el modelo conceptual.
47
Capítulo 2
Figura 7: Asociaciones de las perspectivas Tipo de Canales de Venta y Tipo de Contratos con el
diagrama ER.
48
Capítulo 2
49
Capítulo 2
50
Capítulo 2
Figura 12: Asociaciones de los indicadores Ingresos, Gastos y Tiempo de respuesta con el diagrama
ER.
En este punto se seleccionarán los campos que contendrá cada perspectiva, a través de los
cuales se manipularán y filtrarán los indicadores. A partir de estas se obtienen las tablas de
dimensiones que posteriormente se usarán para construir el modelo lógico de la estructura del
Data Warehouse.
Como resultado se obtuvo la siguiente tabla donde se muestran las dimensiones obtenidas a
partir de las perspectivas, así como, los campos correspondientes a cada dimensión, según los
indicadores que se necesitan determinar. Los campos en negrita constituyen la llave primaria
de cada dimensión.
51
Capítulo 2
Nivel de granularidad.
52
Capítulo 2
53
Capítulo 2
54
Capítulo 2
En este paso se confeccionan los modelos lógicos de la estructura del DW a partir de los
modelos conceptuales confeccionados según la temática del negocio. El modelo lógico es la
representación de la estructura de datos, que puede procesarse y almacenarse en un sistema
gestor de base de datos. En este caso se utiliza SQL Server 2012 y se seleccionó el esquema
en estrella para el modelo lógico.
Las tablas de dimensiones se definen a partir de las perspectivas obtenidas en el primer paso.
Para su diseño se tomó cada perspectiva eligiendo un nombre que la identifique, se añadió un
campo para la clave principal y se redefinieron los nombres de los atributos.
55
Capítulo 2
En este paso, se definirán las tablas de hechos, que son las que contendrán los hechos a través
de los cuales se obtendrán los indicadores de estudio. A continuación se describen los pasos
para su diseño:
56
Capítulo 2
En este paso se realizan las uniones correspondientes entre las tablas de dimensiones y las
tablas de hechos obteniendo como resultado el Modelo Lógico del DW que se muestra a
continuación.
Una vez construido el modelo lógico, se deberá proceder a poblarlo con datos, a través de
procesos ETL. A continuación se describen las sentencias SQL que servirán de base para estos
procesos.
57
Capítulo 2
Dimensión Tbl_Oferta:
Dimensión Tbl_Operacion:
58
Capítulo 2
Dimensión Tbl_Fecha:
Para el diseño y carga de la dimensión tiempo se sugiere utilizar la implementación que ofrece
el asistente SQL Server Data Tools para este tipo de dimensión.
Dimensión Tbl_Producto:
Dimensión Tbl_Contrato:
Dimensión Tbl_Canal_Venta:
59
Capítulo 2
En este capítulo se abordó todo lo referente al diseño e implementación del Data Warehouse
siguiendo la metodología Hefesto lo que permitió obtener y sintetizar las necesidades de
información de los clientes a partir de las cuales se obtuvieron los indicadores y perspectivas
que permitieron el desarrollo del modelo conceptual.
A partir del estudio de las fuentes primarias de datos del Data Warehouse, las correspondencias
con los requerimientos, los campos que integrarán las perspectivas y su nivel de granularidad,
se logró el diseño del modelo lógico del DW, donde se concretaron las tablas de dimensiones y
hechos, así como las uniones entre ellas. Finalmente quedaron definidas las sentencias SQL
que se utilizarán para los procesos ETL que poblarán las dimensiones y hechos.
60
Capítulo 3
Figura 29: Arquitectura Data Warehousing para los servicios de acceso a internet y correo electrónico
de Etecsa.
1. Las fuentes de datos: están representadas por la base de datos de la Aplicación GesNauta.
La base de datos está desarrollada usando el gestor Oracle Server en su versión 11g.
2. ETL: para el proceso ETL se recomienda la herramienta Talend Open Studio, una
herramienta de mucha utilidad para la automatización de muchos procesos que se llevan a cabo
en un negocio tales como: sincronización o replicación de base de datos, procesos ETL para
análisis, transformaciones de datos complejas, carga de grandes volúmenes de datos, entre
61
Capítulo 3
3. DWH: tanto para guardar los datos transformados como para implementar el DW es
fundamental escoger un sistema gestor de Base de datos (SGBD) que responda a los
requerimientos de la organización. En este caso, para lograr una convergencia con las
herramientas que se usan en la actualidad, se utiliza SQL Server 2012 Express, una edición
actual del gestor de base de datos relacionales desarrollado por Microsoft.
Como se detalló en el capítulo uno para la implementación de los procesos ETL se propone la
utilización de la Suite Talend Open Studio, ideal para la automatización de procesos tales como:
sincronización o replicación de base de datos, procesos ETL para análisis, transformaciones de
datos complejos, carga de grandes volúmenes de datos, entre otros.
A continuación se muestra el diseño del flujo para la carga de datos, aplicable a cualquiera de
las dimensiones o a la tabla de hechos.
Figura 30: Diseño de Proceso ETL para carga y actualización del Data Warehouse
62
Capítulo 3
El flujo se inicia cuando se abren las conexiones a los servidores de entrada (1) y salida (2),
Oracle y SQL Server respectivamente. Si se abren satisfactoriamente las conexiones, se
ejecutan las consultas de extracción de datos (3) que son transformados e integrados (4) para
luego ser insertados en la base de datos destino (5). Finalmente se cierran ambas conexiones
(6) (7). En caso de existir un error en alguno de los componentes se registra una traza (8).
Cada proceso ETL es exportado en un fichero .jar que se ubica en una carpeta predefinida por
el administrador del sistema. A continuación se debe crear un usuario genérico con los permisos
necesarios para la generación de tareas programadas a través de la herramienta Planificador
de tareas (Task Scheduler), en Windows o alguna herramienta equivalente en Linux como Cron
Daemon, en dependencia del sistema operativo donde se despliegue el Data Warehouse.
La frecuencia con que se van a ejecutar las tareas queda definida de la siguiente forma:
La carga inicial solo se ejecutará una vez para el llenado de las dimensiones y la tabla
de hechos.
63
Capítulo 3
Para la implementación del cubo de datos se propone usar SQL Server 2012, específicamente
SQL Server Data Tools (SSDT), que es un conjunto de herramientas de datos de SQL Server
que abarca todas las fases del desarrollo, mantenimiento y actualización de bases de datos
dentro de Visual Studio. La herramienta para el desarrollo de proyectos de Business Intelligence
en Visual Studio, para Visual Studio 2012 y 2013 estará bajo el nombre de SQL Server Data
Tools sumándose a este nuevo conjunto de herramientas para el desarrollo de base de datos.
A través de la conexión con las base de datos que soporta el DW se pueden crear las vistas y
generar las dimensiones y hechos con sus medidas calculadas y jerarquías, agilizando
considerablemente el diseño de Data Warehouse. Como resultado se obtendría el siguiente
diseño:
64
Capítulo 3
Para la creación de los reportes se propone el uso de la herramienta Infor PM que tal y como
se describió en el capítulo uno, permite realizar reportes, análisis financieros y operativos,
paneles de control, planificación desde una interfaz amigable e intuitiva, agilizando los procesos
de análisis. Como punto determinante destaca el hecho de que Etecsa es cliente de Infor PM
en su versión 10.5.1 con un Contrato Anual de Soporte desde el 2007.
En esta herramienta se establece una conexión con el Data Warehouse y se realizan consultas
para mostrar los datos deseados. Como resultado se obtiene un juego de datos que puede ser
graficado y/o tabulado utilizando las funcionalidades de la herramienta InforPM.
65
Capítulo 3
Una vez detallada la herramienta de reportes, se debe analizar su integración con un sistema
de información para ejecutivos. En este caso se implementó como parte de los objetivos anuales
de la empresa en 2016, el Portal Ejecutivo de Etecsa, una aplicación web cuyo objetivo principal
es centralizar toda la información útil para los directivos en una sola aplicación.
66
Capítulo 3
Se propone como parte de la arquitectura actual la integración del Data Warehouse con el
Portal de Ejecutivos de Etecsa, en una primera versión, embebiendo vía web los reportes
implementados en InforPM.
Una segunda variante de integración seria la realización de consultas MDX directamente desde
el Portal Ejecutivo, lo que implicaría mayor complejidad de desarrollo y el uso de herramientas
externas.
Como resultado de cualquiera de las dos variantes propuestas, se debe visualizar en una
sección definida dentro del portal un reporte como el que se muestra a continuación.
Con este paso se concretaría una de las metas principales de este proyecto que sería brindar
a los ejecutivos del primer nivel toda la información resumida y relevante referente a los
principales aspectos de la empresa, en este caso a través del Portal Ejecutivo de Etecsa, a
partir de contar con una herramienta de mucha utilidad para la toma de decisiones en la
empresa.
67
Capítulo 3
En dicha selección se tuvo en cuenta que estuvieran representados especialistas que laboren
en los departamentos o áreas de soporte a plataformas empresariales debido a que la mayoría
de éstas, están soportadas sobre arquitecturas Data Warehousing y por tanto estos
especialistas se dedican principalmente al mantenimiento y actualización de los almacenes de
datos de la empresa, así como, a la migración hacia nuevas versiones y tecnologías. También
se tuvo en cuenta el criterio de desarrolladores que implementen este tipo de tecnologías.
Además se decidió tener en cuenta el criterio de algunos directivos, para tener una valoración
más detallada desde el punto de vista de la importancia que representa la arquitectura
propuesta para la empresa. En total se seleccionaron 15 especialistas.
Función Cantidad %
Soporte a plataformas empresariales. 5 33.3%
Mantenimiento e implementación de almacenes de datos. 7 46.7%
Dirección de departamentos. 3 20%
68
Capítulo 3
Categoría Cantidad %
Se han superado 15 100
Postgrado 8 53.3
Diplomado 2 13.3
Master 5 33.3
Para que realizaran las valoraciones, se les presentó la arquitectura Data Warehousing
propuesta y se les solicitó que evaluaran según tres indicadores fundamentales: pertinencia,
novedad y necesidad; además se les solicitó sugerencias o recomendaciones para su
perfeccionamiento.
Indicador Métricas
Pertinencia El diseño cuenta con una estructura adecuada y está correctamente
proyectado hacia el objetivo trazado en la investigación.
Las herramientas propuestas están acordes a los lineamientos
tecnológicos de la empresa y es factible su instalación - mantenimiento.
Novedad La tecnología propuesta es novedosa en el área de los servicios de
acceso a internet y correo electrónico.
Las herramientas propuestas son actuales
Necesidad La implementación de la arquitectura propuesta permite obtener
información precisa, oportuna y veraz a los directivos como apoyo a la
toma de decisiones en los servicios de acceso a internet y correo
electrónico de Etecsa.
Constituye un material de consulta que puede ser empleado como
guía para la implementación y puesta en práctica de otras arquitecturas
Data Warehousing en distintas áreas de la empresa.
A partir de los indicadores expuestos se diseñó una encuesta mediante la cual, los especialistas
69
Capítulo 3
Evaluación
Indicador
M R B MB E
Pertinencia 0 0% 1 6.7% 3 20% 8 53.3% 3 20%
Novedad 0 0% 0 0% 2 13.3% 9 60% 4 26.7%
Importancia 0 0% 0 0% 1 6.7% 2 13.3% 12 80%
Totales 0 0% 1 2.3% 6 13.3% 19 42.2% 19 42.2%
12
10
8 Mal
Regular
6 Bien
Muy Bien
4 Excelente
0
Pertinencia Novedad Importancia
70
Capítulo 3
0
1
6
Mal
19
Regular
Bien
Muy Bien
Excelente
19
Los resultados generales se presentan a continuación a manera de resumen por cada uno de
los indicadores y las opiniones emitidas:
71
Capítulo 3
Al concluir este capítulo quedaron definidas las herramientas y procedimientos propuestos para
la implementación de la arquitectura planteada, se completaron de esta manera todas las tareas
referentes a su propuesta de diseño e implementación, así como, su integración final con el
Portal Ejecutivo de Etecsa, herramienta que integrará y consolidará los resultados de este Data
Warehouse con los de otras áreas de la empresa.
72
Conclusiones Generales.
Conclusiones Generales
Teniendo en cuenta el auge de Internet y los grandes volúmenes de información que están manejando
las empresas de telecomunicaciones, cada vez se hace más imperioso el uso de arquitecturas Data
Warehousing debido a la reducción de los costes de almacenamiento y una mayor velocidad de
respuesta frente a las complejas y crecientes consultas de los usuarios.
Por todo lo anterior, se considera que una vez implementada la arquitectura propuesta, se contará con
un sistema Data Warehousing para el apoyo a la toma de decisiones en los servicios de acceso a
internet y correo electrónico de Etecsa, el cual propiciará que el proceso se ejecute de manera eficaz
en los diferentes niveles estratégicos de la organización, y de respuesta al problema de obtener
información precisa, oportuna y veraz, cumpliendo así el objetivo de esta investigación.
73
Recomendaciones.
Recomendaciones
Al finalizar la investigación se alcanzaron los objetivos previstos y en tal sentido, se considera
procedente realizar las siguientes recomendaciones:
74
Referencias Bibliográficas.
Referencias Bibliográficas
Adkison, D. (2013). IBM Cognos Business Intelligence: Packt Publishing Ltd.
Amador, M. (2015). Estadísticas del Sector de Telecomunicaciones: Informe 2014. Costa Rica:
Superintendencia de Telecomunicaciones.
Aronson, J. E., Liang, T.-P., & Turban, E. (2005). Decision support systems and intelligent systems: Pearson
Prentice-Hall.
Calzada, L., & Abreu, J. L. (2009). El impacto de las herramientas de inteligencia de negocios en la toma de
decisiones de los ejecutivos (The impact of business intelligence tools in executive business decisions).
Daena: International Journal of Good Conscience, 4(2), 16-52.
Costeira, H. S. (2013). Servicios de internet. Vida Científica Boletín de la Escuela Preparatoria No. 4, 1(2).
Council, F. N. (1995). FNC Resolution: Definition of" Internet" Federal Networking Council. Accesible en
http://www. hpcc. gov/fnc/Internet_res. html (11 de septiembre, 2002).
CubaDebate. (2014). Cubanos enviaron 29 millones de correos a través del servicio celular. Retrieved from
CubaDebate website: http://www.cubadebate.cu/noticias/2014/06/24/cubanos-enviaron-29-millones-de-
correos-a-traves-del-servicio-celular/#.WJ3rb_LiuNI
CubaDebate. (2017). ETECSA: Telefonía, informatización y despliegue de Internet en Cuba. Retrieved from
CubaDebate website: http://mesaredonda.cubadebate.cu/mesa-redonda/2017/02/01/etecsa-telefonia-
informtizacion-y-despliegue-de-internet-en-cuba-video/
Chan, J. O. (2015). Optimizing Data Warehousing Startegies. Communications of the IIMA, 5(1), 1.
I
Referencias Bibliográficas.
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000). CRISP-DM 1.0
Step-by-step data mining guide.
Chen, H., Chiang, R. H., & Storey, V. C. (2012). Business intelligence and analytics: From big data to big
impact. MIS quarterly, 36(4).
Choo, C. W., Detlor, B., & Turnbull, D. (2013). Web work: Information seeking and knowledge work on the
World Wide Web (Vol. 1): Springer Science & Business Media.
Davenport, T. H., & Harris, J. G. (2007). Competing on analytics: The new science of winning: Harvard
Business Press.
Décary-Hétu, D., Dupont, B., & Fortin, F. (2014). Policing the hackers by hacking them: Studying online
deviants in IRC chat rooms Networks and network analysis for defence and security (pp. 63-82):
Springer.
Erl, T., Khattak, W., & Buhler, P. (2016). Big data fundamentals: concepts, drivers & techniques: Prentice Hall
Press.
Freitas, A. A. (2013). Data mining and knowledge discovery with evolutionary algorithms: Springer Science &
Business Media.
Fuentes Tapia, L., & Valdivia Pinto, R. (2010). Incorporación de elementos de inteligencia de negocios en el
proceso de admisión y matrícula de una Universidad Chilena. Ingeniare. Revista chilena de ingeniería,
18(3), 383-394.
Galán, F., Romeral, R., García, A., García, A. B., Álvarez-Campana, M., & Azcorra, A. (2003). MIRA:
II
Referencias Bibliográficas.
Plataforma de monitorización y análisis de tráfico para redes IP. Recuperado el, 22.
García, J. H. M. (2010). La inteligencia de negocios como herramienta para la toma de decisiones estratégicas
en las empresas. Análisis de su aplicabilidad en el contexto corporativo colombiano.
García Martínez, R., Lelli, R., Merlino, H., Cornachia, L., Rodriguez, D., Pytel, P., & Arboleya, H. (2011).
Ingeniería de Proyectos de Explotación de Información para PYMES. Paper presented at the XIII
Workshop de Investigadores en Ciencias de la Computación.
Gartner. (2017). Microsoft lidera el Cuadrante Mágico de Gartner 2017 en analítica y BI.
Gerencia de Asuntos Legales, E. (2007). Carta de Aprobación de Asistecia técnica de Servicios MIS/INFOR,
Servicios asociados a la ampliación de licencias Balanced Scorecard.
Gómez, A. A. R., & Bautista, D. W. R. (2010). Inteligencia de negocios: Estado del arte. Scientia et technica,
1(44), 321-326.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The WEKA data mining
software: an update. ACM SIGKDD explorations newsletter, 11(1), 10-18.
Inmon, W. H. (2005). Building the data warehouse: John wiley & sons.
Jarke, M., Lenzerini, M., Vassiliou, Y., & Vassiliadis, P. (2013). Fundamentals of data warehouses: Springer
Science & Business Media.
Kimball, R., & Ross, M. (2011). The data warehouse toolkit: the complete guide to dimensional modeling: John
Wiley & Sons.
Kimball, R., & Ross, M. (2015). The Kimball Group Reader: Relentlessly Practical Tools for Data
Warehousing and Business Intelligence Remastered Collection: John Wiley & Sons.
Lee, D., Moon, J., Kim, Y. J., & Mun, Y. Y. (2015). Antecedents and consequences of mobile phone usability:
Linking simplicity and interactivity to satisfaction, trust, and brand loyalty. Information & Management,
52(3), 295-304.
III
Referencias Bibliográficas.
Leopoldo, C. G., & Octavio, O. H. J. (2010). Diseño de un Almacén de datos basado en Data Warehouse
Engineering Process (DWEP) y HEFESTO.
Luján-Mora, S. (2005). Data warehouse design with UML. Software and Computing Systems, 291.
Manageability. (2013). Open Source ETL (Extraction, Transform, Load) Written in Java.
http://www.manageability.org/blog/stuff/open-source-etl/view
Martins, C., Oliveira, T., & Popovič, A. (2014). Understanding the Internet banking adoption: A unified theory
of acceptance and use of technology and perceived risk application. International Journal of Information
Management, 34(1), 1-13.
Matos, G., Chalmeta, R., & Coltell, O. (2006). Metodología para la extracción del conocimiento empresarial a
partir de los datos. Información tecnológica, 17(2), 81-88.
Minelli, M., Chambers, M., & Dhiraj, A. (2012). Big data, big analytics: emerging business intelligence and
analytic trends for today's businesses: John Wiley & Sons.
Negash, S., & Gray, P. (2008). Business intelligence. Handbook on decision support systems 2, 175-193.
Oestreich, T. W. (2016). Magic quadrant for business intelligence and analytics platforms. Analyst (s), 501,
G00275847.
Pollo Cattaneo, M. F., Amatriain, H. G., Rodriguez, D., Pytel, P., Ciccolella, E., Vegega, C., . . . Giordano, F.
(2010). Ingeniería de proyectos de explotación de la información. Paper presented at the XII Workshop
de Investigadores en Ciencias de la Computación.
Power, D. J., Sharda, R., & Burstein, F. (2015). Decision support systems: Wiley Online Library.
Ramos, S. (2011). Microsoft Business Intelligence: vea el cubo medio lleno. Microsoft Business Intelligence:
vea el cubo medio lleno.
Reyes, F., Sady, C., & Ruiz Lobaina, M. (2007). Minería Web: un recurso insoslayable para el profesional de la
información. Acimed, 16(4), 0-0.
Rittman, M. (2012). Oracle Business Intelligence 11g Developers Guide: McGraw-Hill Osborne Media.
Röpke, J. (2003). Transforming knowledge into action. Knowing-doing Gap Worksshop in Bandung/Indonesia.
Rovira, S., Santoleri, P., & Stumpo, G. (2013). Incorporación de TIC en el sector productivo: uso y desuso de
las políticas públicas para favorecer su difusión. Entre mitos y realidades. TIC, políticas públicas y
desarrollo productivo en América Latina. Santiago: CEPAL, 2013. LC/L. 3600 p. 17-54.
Sagiroglu, S., & Sinanc, D. (2013). Big data: A review. Paper presented at the Collaboration Technologies and
Systems (CTS), 2013 International Conference on.
Sathiyamoorthi, V. (2017). Fundamentals of Data Mining and Data Warehousing Advancing Cloud Database
Systems and Capacity Planning With Dynamic Applications (pp. 1-26): IGI Global.
Solutions, F. (2014). Infor Business Intelligence: A Comprehensive Business Intelligence Solution., from
http://forpoint.com.au/products/infor-business-intelligence/
Statista. (2016). Statistics and facts on internet usage worldwide. Retrieved from Statista. The Statistics Portal
website: https://www.statista.com/topics/1145/internet-usage-worldwide/
Trejo, E. (2006). Regulación jurídica de Internet. Paper presented at the Cámara de Diputados del H. Congreso
de la Unión. LXI Legislatura. Recuperado de: http://www. diputados. gob. mx/sedia/sia/spe/SPE-ISS-
12-06. pdf.
Trujillo, J., Soler, E., Zubcoff, J., Mazón, J., Glorio, O., Pardillo, J., . . . Paramá, J. (2007). Desarrollo de
almacenes de datos dirigido por modelos. España: Universidad de Alicante.
Urra Medina, E., & Barría Pailaquilén, R. (2010). La revisión sistemática y su relación con la práctica basada en
la evidencia en salud. Rev. Latino-Am. Enfermagem, 18(4), 824-831.
V
Referencias Bibliográficas.
Weiss, G. M. (2005). Data mining in telecommunications Data Mining and Knowledge Discovery Handbook
(pp. 1189-1201): Springer.
World, N. (2013). En 2020 el volumen de información será de 35,2 ZB. Retrieved from Network World España
website: http://www.networkworld.es/big-data/en-2020-el-volumen-de-informacion-sera-de-352-zb
VI
Anexos.
Anexos
Anexo 1: Estadísticas de internet para enero de 2017 según WeAreSocial.com
VII
Anexos.
Anexo 6: Ciclo de vida para la construcción de un almacén de datos según Ralph Kimball.
VIII
Anexos.
IX
Anexos.
X
Anexos.
XI